Mi SciELO
Servicios Personalizados
Articulo
Indicadores
- Citado por SciELO
Links relacionados
- Similares en SciELO
Compartir
Revista Cubana de Ciencias Informáticas
versión On-line ISSN 2227-1899
Resumen
GONZALEZ VALLE, Yadelis; GALPERT, Deborah; MOLINA-RUIZ, Reinaldo y AGUERO-CHAPIN, Guillermin. Integración de rasgos y aprendizaje semi-supervisado para la clasificación funcional de enzimas utilizando K-medias de Spark. Rev cuba cienc informat [online]. 2020, vol.14, n.4, pp. 134-161. Epub 01-Dic-2020. ISSN 2227-1899.
La clasificación funcional de las enzimas constituye un campo de gran interés para la bioinformática desde hace varios años. Dicha clasificación debe tener en cuenta la escasa información de algunas clases, el desbalance entre ellas y el número creciente de enzimas a clasificar. En este artículo investigamos el uso de algoritmos de agrupamiento semi-supervisados y no supervisados para agrupar secuencias similares de enzimas, a partir de la integración de descriptores de proteínas libres de alineamiento basados en el método de k-mers con diferentes valores de k. Se implementaron en Spark cuatro algoritmos que agrupan las enzimas de acuerdo a su función enzimática. Estos estas basados en transformaciones a métodos existentes como el Combinatorio Lógico Global, el K-medias y el Ensamblado de Agrupamientos. La calidad del agrupamiento se midió usando como medida interna el índice de silueta y como medida externa la medida-F. En la experimentación, se tomaron como referencia 58 secuencias funcionalmente caracterizadas de 501 enzimas de la familia Glicosil Hidrolasa-70 (GH-70) (con un alto valor para la biotecnología y que a su vez pueden ocasionar pérdidas millonarias en la producción de azúcar) de la base de datos CAZy, con el objetivo de comparar los resultados de los métodos de agrupamiento implementados. Se obtuvieron valores moderados del índice de silueta como medida interna pero mejor que los obtenidos con el método K-medias. Se alcanzaó el mejor valor de 0.9 de la medida-F del método del Ensamblado de Agrupamientos combinado con el aprendizaje semi-supervisado.
Palabras clave : Agrupamiento de enzimas; aprendizaje semi-supervisado; aprendizaje no supervisado; centroides K-medias.