SciELO - Scientific Electronic Library Online

 
vol.13 número3Sistema para la gestión y análisis de datos de una red de sensores inalámbricos basado en un almacén de datos.Detección de anomalías basada en aprendizaje profundo: Revisión índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

  • Não possue artigos citadosCitado por SciELO

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Revista Cubana de Ciencias Informáticas

versão On-line ISSN 2227-1899

Resumo

CHAVEZ CARDENAS, María del Carmen. Mejoras en la clasificación de interacciones de proteínas de secuencias de la Arabidopsis Thaliana utilizando técnicas de bases de datos desbalanceadas. Rev cuba cienc informat [online]. 2019, vol.13, n.3, pp.91-106. ISSN 2227-1899.

Un reto de las comunidades científicas en el área del aprendizaje automatizado lo constituye una correcta clasificación en conjuntos de datos no balanceados. En problemas de Bioinformática es muy común tener grandes bases de casos, en la mayoría de las veces estas son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Varios métodos de aprendizaje automático se han desarrollado para hacer frente al problema de las clases no balanceadas. Se tienen técnicas al nivel de los algoritmos y otras enfocadas a los datos. Entre los métodos dirigidos al procesamiento de los datos se destacan los que se centran en intentar balancear los conjuntos, reduciendo la clase con mayor cantidad de ejemplos, o ampliando la de menor cantidad, conocidas como under-sampling y over-sampling respectivamente. Se pretende mejorar la clasificación para la base de datos de interacciones de proteínas para la planta Arabidopsis Thaliana obtenida por el Departamento de Biología de Sistemas de Plantas de la Universidad de Ghent, la cual presenta desbalance de clases. En este trabajo se realiza una experimentación aplicando un compendio de diferentes investigaciones orientadas a la edición de los conjuntos de entrenamiento con lo cual se logra mejorar la clasificación de interacciones de proteínas.

Palavras-chave : Clasificación; conjuntos de datos desbalanceados; aprendizaje automatizado, interacciones de proteínas..

        · resumo em Inglês     · texto em Espanhol     · Espanhol ( pdf )