SciELO - Scientific Electronic Library Online

 
vol.14 número4Representación basada en imágenes para el reconocimiento patrones mioeléctricos ante variabilidad inter-sesionesComportamiento de la albúmina en pacientes pediátricos en estadíos de la sepsis índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

  • Não possue artigos citadosCitado por SciELO

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Revista Cubana de Ciencias Informáticas

versão On-line ISSN 2227-1899

Resumo

GONZALEZ VALLE, Yadelis; GALPERT, Deborah; MOLINA-RUIZ, Reinaldo  e  AGUERO-CHAPIN, Guillermin. Integración de rasgos y aprendizaje semi-supervisado para la clasificación funcional de enzimas utilizando K-medias de Spark. Rev cuba cienc informat [online]. 2020, vol.14, n.4, pp.134-161.  Epub 01-Dez-2020. ISSN 2227-1899.

La clasificación funcional de las enzimas constituye un campo de gran interés para la bioinformática desde hace varios años. Dicha clasificación debe tener en cuenta la escasa información de algunas clases, el desbalance entre ellas y el número creciente de enzimas a clasificar. En este artículo investigamos el uso de algoritmos de agrupamiento semi-supervisados y no supervisados para agrupar secuencias similares de enzimas, a partir de la integración de descriptores de proteínas libres de alineamiento basados en el método de k-mers con diferentes valores de k. Se implementaron en Spark cuatro algoritmos que agrupan las enzimas de acuerdo a su función enzimática. Estos estas basados en transformaciones a métodos existentes como el Combinatorio Lógico Global, el K-medias y el Ensamblado de Agrupamientos. La calidad del agrupamiento se midió usando como medida interna el índice de silueta y como medida externa la medida-F. En la experimentación, se tomaron como referencia 58 secuencias funcionalmente caracterizadas de 501 enzimas de la familia Glicosil Hidrolasa-70 (GH-70) (con un alto valor para la biotecnología y que a su vez pueden ocasionar pérdidas millonarias en la producción de azúcar) de la base de datos CAZy, con el objetivo de comparar los resultados de los métodos de agrupamiento implementados. Se obtuvieron valores moderados del índice de silueta como medida interna pero mejor que los obtenidos con el método K-medias. Se alcanzaó el mejor valor de 0.9 de la medida-F del método del Ensamblado de Agrupamientos combinado con el aprendizaje semi-supervisado.

Palavras-chave : Agrupamiento de enzimas; aprendizaje semi-supervisado; aprendizaje no supervisado; centroides K-medias.

        · resumo em Inglês     · texto em Espanhol     · Espanhol ( pdf )