Meu SciELO
Serviços Personalizados
Artigo
Indicadores
- Citado por SciELO
Links relacionados
- Similares em SciELO
Compartilhar
Revista Cubana de Ciencias Informáticas
versão On-line ISSN 2227-1899
Resumo
CHAVEZ CARDENAS, María del Carmen. Mejoras en la clasificación de interacciones de proteínas de secuencias de la Arabidopsis Thaliana utilizando técnicas de bases de datos desbalanceadas. Rev cuba cienc informat [online]. 2019, vol.13, n.3, pp. 91-106. ISSN 2227-1899.
Un reto de las comunidades científicas en el área del aprendizaje automatizado lo constituye una correcta clasificación en conjuntos de datos no balanceados. En problemas de Bioinformática es muy común tener grandes bases de casos, en la mayoría de las veces estas son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Varios métodos de aprendizaje automático se han desarrollado para hacer frente al problema de las clases no balanceadas. Se tienen técnicas al nivel de los algoritmos y otras enfocadas a los datos. Entre los métodos dirigidos al procesamiento de los datos se destacan los que se centran en intentar balancear los conjuntos, reduciendo la clase con mayor cantidad de ejemplos, o ampliando la de menor cantidad, conocidas como under-sampling y over-sampling respectivamente. Se pretende mejorar la clasificación para la base de datos de interacciones de proteínas para la planta Arabidopsis Thaliana obtenida por el Departamento de Biología de Sistemas de Plantas de la Universidad de Ghent, la cual presenta desbalance de clases. En este trabajo se realiza una experimentación aplicando un compendio de diferentes investigaciones orientadas a la edición de los conjuntos de entrenamiento con lo cual se logra mejorar la clasificación de interacciones de proteínas.
Palavras-chave : Clasificación; conjuntos de datos desbalanceados; aprendizaje automatizado, interacciones de proteínas..