2227-1899

S2227-18992015000400012

Cuba

00 12 2015

9 4 155 170

ARTÍCULO ORIGINAL

Algoritmos de aprendizaje automático para clasificación de Splice Sites en secuencias genómicas

Machine Learning algorithms for Splice Sites classification in genomic sequences

Heidy Díaz-Barrios¹, Yania Alemán-Rivas², Leidys Cabrera-Hernández³, Alejandro Morales-Hernández³, María del Carmen Chávez-Cárdenas³, Gladys María Casas-Cardoso³

¹AMPP Placetas. 2da del Norte # 46 e/ 3 y 4 del Este. Placetas, VC, Cuba.
² DMPF Placetas. Paseo Martí # 17A e/ Carretera Central y 1ra del Norte. Placetas, VC, Cuba. ]]> ³Departamento de Computación, Centro de Estudios de Informática (CEI), Facultad Matemática, Física y Computación (MFC), Universidad Central “Marta Abreu” de Las Villas (UCLV), Cuba.

Autor para correspondencia: heidyd@uclv.edu.cu

RESUMEN

Las técnicas de clasificación se utilizan frecuentemente en la solución de diferentes problemas de la Bioinformática. Las secuencias de ADN de la mayoría de los genes se transcriben en ARN mensajero que se traducen en proteínas. El ADN contiene en los genes segmentos codificantes (exones) y no codificantes (intrones). Durante el proceso de transcripción los intrones son “cortados”, mecanismo conocido como splicing que coloca a los exones de un gen consecutivamente, listos para traducirse en la secuencia de aminoácidos que conforman la proteína. En los splice sites, el principio del intrón es conocido como donor (par AG), y el final es conocido como acceptor (par GT). El presente trabajo aborda la predicción de sitios de splicing. Se utilizan técnicas de aprendizaje automatizado necesarias en la descripción de dominios biológicos y dos bases de datos de secuencias de nucleótidos, para clasificar verdaderos y falsos splice sites con 7000 casos cada una, 6000 falsos y 1000 verdaderos. Se prueba y compara una serie de algoritmos utilizando WEKA (Waikato Enviroment for Knowledge Analysis) para encontrar los mejores clasificadores. Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: exactitud, razón de verdaderos positivos, curvas ROC, etc. Como resultados del estudio se concluye que los métodos bayesianos maximizaron el número de verdaderos positivos y el área bajo la curva, por lo que es la propuesta a utilizar para realizar la clasificación de sitios de splicing.

Palabras clave: acceptor, aprendizaje automatizado, clasificadores, donnor, splicing.

ABSTRACT

The classification techniques are been used frequently in the solution of different Bioinformatic problems. The ADN sequences in the majority of the gene make a transcript to ARN messenger, whom have led to proteins. The ADN contain in the genes encode segments (exones), and unencode segments (introns). During the process of transcription the introns are cut, that mechanism is call splicing, it put the axons of the gene, one consecutive the other, and ready to lead to the sequence of amino acid to make the protein up. In the splice sites, the beginning of the introns is call donor (AG par), and the end is call acceptor (GT par). A few of these combinations are really splice sites. The present work is about the prediction of splicing. It is used the techniques of machine learning necessary to descript biology domains and two database of nucleates sequences to classify true or false splice sites, with 7000 cases, 6000 false and 1000 true. It is about to proof and compare a series of algorithms using WEKA (Waikato Enviroment for Knowledge Analysis) to find the best classifiers. To make the selection of the best classification it is applied the knowlest measure based in the Matrix of Confusion: accuracy, rate of True Positive (TP), area under the curve of Receiver Operator Curve (ROC), etc. As result of the study it is conclude that the Bayesian methods maximize the number of true positive and the area under the curve, which are the nominations to use to classify splice sites.

]]> Key words: acceptor, classifiers, donnor, machine learning, splicing.

INTRODUCCIÓN

La Bioinformática constituye el campo de conocimientos multidisciplinario entre la biología, la informática y la matemática que debe abordar problemas que habían quedado sin solucionar a través de la historia, como es la necesidad de desarrollar nuevos algoritmos para el tratamiento de problemas de análisis de secuencias y localización de genes dentro del genoma de un cierto organismo (Chávez Cárdenas, 2008).
El ácido desoxirribonucleico, frecuentemente abreviado como ADN (y también DNA, del inglés (deoxyribonucleic acid), forma parte de todas las células. Para que la información que contiene el ADN pueda ser utilizada por la maquinaria celular, debe copiarse en primer lugar en nucleótidos más cortos llamados ARN. Las moléculas de ARN se copian exactamente del ADN mediante un proceso denominado transcripción (Galperin, 2007). Así, las secuencias de ADN de la mayoría de los genes se transcriben en ARN mensajero que a su vez se traducen en las proteínas. En los procariotas (organismos menos desarrollados) el ARN mensajero es una copia del ADN. Sin embargo, en los eucariotas, el ADN contiene en los genes segmentos codificantes (exones) y no codificantes (intrones) y estos últimos se “cortan” durante el proceso de transcripción a RNA mensajero. A este mecanismo se le conoce como splicing, consiste en colocar a los exones de un gen consecutivamente, y así estarán listos para traducirse en la secuencia de aminoácidos que conforman la proteína (Foley, y otros, 2004). La detección de intrones y exones constituye una de las formas para abordar el problema de la localización de los genes.
Para la predicción de sitios de splicing en regiones genómicas codificantes para proteínas se utilizan las técnicas de aprendizaje automatizado, las que son necesarias en la descripción de dominios biológicos. Estos dominios son: genómica, proteómica, micro-arreglos (antes citados como matrices de ADN o micro arrays), sistemas biológicos, evolución y minería de texto. La identificación de sitios de splicing o corte de intrones, que separan zonas codificantes y no codificantes se aborda desde varios puntos de vista. Se conoce en primer lugar que todas las secuencias que representan un gen comienzan con un codón de inicio y finalizan con uno de los tres codones de terminación, pero la presencia de tales codones no siempre indica el inicio y el final del gen. (Ricardo, y otros, 2007b)
En los splice sites, el principio del intrón se conoce como donor, mientras que el que lo finaliza se conoce como acceptor. Los “donors” se caracterizan por la presencia del par de nucleótidos “GT” al inicio del intrón, los “acceptors” se identifican por el par “AG” al final del intrón. El inicio y el fin del intrón se marcan por los splice sites. Entonces se podría intentar reconocer donors y acceptors a través de estos dinucleótidos y con ellos los intrones. Estos dinucleótidos abundan en el genoma y sólo un pequeño por ciento de estas combinaciones son splice sites reales de ahí la limitación de este enfoque. (Saeys, 2004)
Si se tienen secuencias con el par “GT” de las cuales se conozca si son verdaderos o falsos donors se puede intentar “aprender” a clasificarlos utilizando la información de las bases nucleotídicas de su entorno y otro tanto podría hacerse a partir de secuencias con el par “AG” de las cuales se conozca si son verdaderos o falsos acceptors. Así el problema original se descompone en dos problemas de clasificación.
Las bases de datos de splice sites para humanos fue construida en la Universidad de Ghent, Bélgica, a partir de obtener ARN mensajero desde la base de datos pública EMBL (Base de datos de secuencias nucleotídicas). (EMBL, 2009). ]]> El objetivo de este estudio es clasificar verdaderos y falsos splice sites: identificación de donors y acceptors, con los diferentes métodos que ofrecen la herramientas de Aprendizaje Automático Weka (Witten, et al., 2000), (Serrano, Tomecková, & Zvárová, 2012) y encontrar aquellos que clasifican la mayor cantidad de casos como verdaderos según diferentes parámetros.
A continuación se muestran los resultados estadísticos obtenidos después de probar un número considerable de algoritmos en el “entorno para análisis del conocimiento de la Universidad de Waikato” Weka (Waikato Environment for Knowledge Analysis), y se explica cómo interpretarlos.

MATERIALES Y MÉTODOS

Para cumplir con el objetivo planteado se cuenta con dos bases de datos de secuencias de nucleótidos, las bases de datos para este trabajo se conformaron con 7000 casos cada una, 6000 falsos y 1000verdaderos, tal como sugiere la proporción aproximada real de verdaderos y falsos splice sites en los genomas.
Las medidas más conocidas para evaluar la clasificación están basadas en la matriz de confusión (tabla 1) que se obtiene cuando se prueba el clasificador en el conjunto de datos de entrenamiento.

En la Tabla 1 las siglas VP y VN representan los elementos bien clasificados de la clase positiva y negativa respectivamente y FP y FN identifican los elementos negativos y positivos mal clasificados respectivamente. Basados en estas medidas, se calcula el error, la exactitud, la razón de VP (rVP= VP/P) o sensibilidad, la razón de FP (FP=FP/N), la razón de los VN (rVN=VN/N) o especificidad y la razón de los falsos negativos (FN=FN/P).Otra forma de evaluar el rendimiento de un clasificador es por las curvas ROC (Receiver Operator Curve, Curva de operación del receptor) (Fawcett, 2004). En esta curva se representa el valor de razón de VP contra la razón de FP, mediante la variación del umbral de decisión. El umbral de decisión es aquel que decide si una instancia x, a partir del vector de salida del clasificador, pertenece o no a cada una de las clases. Usualmente, en el caso de dos clases se toma como umbral por defecto 0.5; pero esto no es siempre lo más conveniente. Se usa el área bajo esta curva, denominada AUC (Area Under the Curve, área bajo la curvaROC) como un indicador de la calidad del clasificador. En tanto dicha área esté más cercana a la unidad, el comportamiento del clasificador está más cercano al clasificador perfecto (100% de VP con un 0% de FP). (Chávez Cárdenas, 2008).
En la resolución de este problema se emplearán algoritmos de aprendizaje automatizado, pues son los usados para cuando hay presencia de gran cantidad de datos, patrones ruidosos y la ausencia de teorías generales determinísticas.
Este estudio se realizó como continuación del trabajo Modelos de Redes Bayesianas en el estudio de secuencia genómicas y otros problemas biomédicos, de la doctora María del Carmen Chávez Cárdenas, en el cual se desarrollaron algoritmos basados en Redes Bayesianas que mejoraron los resultados existentes hasta ese momento. La investigación permitió identificar los clasificadores de mejores resultados en bases de datos con un número considerable de atributos, como las que usualmente se trabajan en Bioinformática (Chávez Cárdenas, 2008), para que sirvan de apoyo en la implementación de nuevos algoritmos de clasificación que mejoren los resultados alcanzados.

]]> Herramienta WEKA

Para probar y comparar una serie de algoritmos de clasificación se usó una herramienta, desarrollada en la Universidad de Waikato, Nueva Zelanda. Este sistema está escrito en Java. (Witten, y otros, 2000)
En Weka se aplicaron métodos de aprendizaje a las bases de datos donors y acceptors, y se analizaron las salidas para extraer información sobre los datos.
Según los clasificadores utilizados se describe el funcionamiento de los algoritmos probados con este estudio en la tabla 2.

A partir de los resultados obtenidos por cada uno de los algoritmos se enfatiza en los resultados que maximizan la razón de los verdaderos positivos, los que el valor de la curva ROC es más cercano a 1 y los de mayor exactitud, porque estos son los que se acercan al clasificador perfecto, es decir, los que tienen menor cantidad de errores al clasificar los verdaderos donors y acceptors. (Chávez Cárdenas, 2008).
Igualmente se utilizó una herramienta creada que combina los resultados de los clasificadores individuales con los resultados de medidas de diversidad, las cuales han sido creadas por distintos autores para detectar a los clasificadores más diversos entre sí. Esto lo hace usando Algoritmos Genéticos, y obtiene un multiclasificador, que a la vez combina los clasificadores más diversos posible y maximiza la exactitud respecto a la de los clasificadores individuales en la medida de lo posible. (Morales Hernández, 2014)

RESULTADOS Y DISCUSIÓN

Algoritmos bayesianos ]]>
Una red bayesiana es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias probabilísticas. Puede calcular la distribución de probabilidad para cualquier subconjunto de variables de la red, dado los valores o distribuciones de las variables restantes. (Mitchell, 1997)
Este tipo de clasificador no es muy sensible a los cambios de sus parámetros, ya que se basa en información de toda la base, lo cual hace que pequeños cambios en la base no sean necesariamente significativos (Chávez Cárdenas, 2008). Ver tabla 3 y tabla 4

Los métodos bayesianos fueron altamente balanceados en cuanto a los parámetros medidos, de todos se obtuvieron importantes resultados por lo que constituyen buenos clasificadores en las bases de datos utilizadas y permiten su aplicación para obtener la mejor clasificación. Se destacaron los métodos WAODE y HNB en ambas bases con los mejores valores de área bajo la curva y razón de verdaderos positivos

Algoritmos de árboles de decisión

Este esquema de aprendizaje automatizado se deriva del pensamiento divide y vencerás. Un árbol de decisión clasifica las instancias ordenándolas de la raíz a las hojas. Cada nodo interior del árbol especifica una prueba de algún atributo y las hojas son las clases en las cuales se clasifican las instancias, cada rama descendiente de un nodo interior corresponde a un valor posible del atributo probado en ese nodo. Así, cada rama, de la raíz a un nodo hoja, corresponde a una conjunción de atributos y el árbol en sí, a una disyunción de estas conjunciones. (Witten, et al., 2000)
Entre las ventajas más sobresalientes de los árboles de decisión se encuentra que provee una estructura sumamente efectiva dentro de la cual se puede estimar, cuáles son las opciones e investigar las posibles consecuencias de seleccionar cada una de ellas (Autores, 2012). Ver tabla 5 y tabla 6

Varios de estos algoritmos de árboles de decisión no funcionaron con las bases de datos del estudio, puesto que no se construye el modelo de aprendizaje y la herramienta deja de funcionar. Los algoritmos con los que sucede esta situación son: NBTree, BFTree, LMT, UserClassifier. ]]> El algoritmo ADTree resultó el mejor método para la base de datos Acceptors según el área bajo la curva ROC y la razón de verdaderos positivos, mientras que en la de Donors fue por la exactitud y el área bajo la curva. La mayor razón de verdaderos positivos la obtuvo el método REPTree en ambas bases. Los clasificadores basados en árboles de decisión no brindaron resultados significativos puesto que los parámetros medidos fueron bajos.

Algoritmos basados en Reglas

Son una alternativa popular de los árboles de decisión. El antecedente o predicción de una regla es una serie de pruebas como las que se hacen en el nodo en árboles de decisión. El consecuente o conclusión da la clase o clases que aplica a instancias cubiertas por esa regla o tal vez da una probabilidad de distribución acerca de las clases.
Una regla es generada por cada hoja. El antecedente de cada regla incluye la condición de cada nodo en el camino desde la raíz hasta la hoja y el consecuente de la regla es la clase asignada por la hoja. Ver tabla 7 y tabla 8

El algoritmo DecisionTable al igual que el LibSVM, presenta un problema evaluando el clasificador, las clases no se encuentran dentro del CLASSPATH.
Estos algoritmos obtienen resultados poco significativos, con varios métodos que clasificaron erróneamente en todos los casos. Sin embargo se puede destacar el JRip como el de mejores resultados en este grupo.

Algoritmos Funciones (Regresión Logística) ]]>
La regresión logística es un instrumento estadístico de análisis multivariado, de uso tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable dependiente dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores cero y uno, respectivamente) y un conjunto de variables predictoras o independientes, que pueden ser cuantitativas o categóricas. El propósito del análisis consiste en predecir la probabilidad de que ocurra cierto “evento”(Le Cessie, y otros, 1992).

Si los datos se pueden separar en dos grupos usando un hiperplano, que separa las instancias pertinentes de las diferentes clases, se dice que es linealmente separable y para esto se usan algoritmos Perceptron (Saeys, 2004). Ver tabla 9 y tabla 10

El algoritmo LibSVM presenta un problema evaluando el clasificador, las clases libsvm no se encuentran dentro del CLASSPATH.
Estos métodos demostraron ser lentos y sus resultados son buenos para algunos de ellos, destacándose el MultilayerPerceptron y el Logistic por sus valores de área bajo la curva y verdaderos positivos.

Algoritmos Perezosos (lazy)

El razonamiento basado en casos se basa en el principio de usar experiencias viejas para resolver problemas nuevos. Muchos algoritmos usan este razonamiento para resolver los problemas y entre los más comunes están los de clasificación. Aunque todos los métodos de clasificación se basan en casos, existe un conjunto que se conoce como algoritmos basados en casos, o también como métodos de aprendizaje perezoso. (García, 2011)
Una nueva instancia se compara con el resto de la base de casos a través de una medida de similitud o de distancia. La clase de la nueva instancia será la misma que la del caso que más cercano esté a la nueva instancia. A este proceso se le conoce con el nombre de método del “vecino más cercano” (nearest neighbor) (García, 2011).

]]> El tiempo que toma hacer una predicción es proporcional al número de instancias de entrenamiento. Una solución es adoptar la estrategia K-vecinos, donde k puede escogerse probando diferentes valores y escogiendo el mejor. Ver tabla 11 y tabla 12

Dentro de los algoritmos perezosos, el LBR trabaja para conjuntos de pruebas pequeños, puesto que cada instancia de prueba selecciona un conjunto de atributos para los cuales la supuesta independencia no debe ser hecha, los demás son tratados como independientes de cada una de las clases dadas y el conjunto de atributos seleccionado. Por esta razón, con las bases de datos que se utilizan, ese método responde muy lentamente sin que se puedan obtener sus resultados.
Estos algoritmos, no aportan resultados significativos para la clasificación en las bases de datos del estudio, en general existe un desbalance de los parámetros para considerar un método superior al resto. El algoritmo IBk demostró que a medida que se aumenta el valor de k, aumenta la exactitud y el área bajo la curva pero disminuyen los verdaderos positivos.

Algoritmos meta (multiclasificadores en Weka)

La combinación de clasificadores es en la actualidad un área activa de investigación en el aprendizaje automatizado y el reconocimiento de patrones. Se han publicado numerosos estudios teórico y empíricos que demuestran las ventajas del paradigma de combinación de clasificadores por encima de los modelos individuales. (Kunheva, y otros, 2002).
Existen varias formas en las cuales se pueden construir multiclasificadores. En todos los casos se basan en la selección de los clasificadores de base y la elección de la forma de combinar las salidas. (Bonet, 2008).
Entre los modelos más populares que combinan clasificadores están Bagging, Boosting, Stacking, métodos basados en rasgos. Ver tabla 13 y tabla 14

Los algoritmos meta, considerados multiclasificadores en la herramienta Weka, no constituyen buenos clasificadores para las bases de datos del estudio, siendo el MultiClassClassifier el único que mostró resultados a tener en cuenta. ]]>
Multiclasificación usando herramienta especializada

A pesar de que WEKA es un ambiente de simulación computacional que presenta un amplio soporte para la experimentación con varios métodos estadísticos y de Inteligencia Artificial, se consideró oportuno utilizar la implementación de la versión de Algoritmo Genético (AG) que propone la tesis de pregrado del estudiante Alejandro Morales Hernández (Morales Hernández, 2014).
Las potencialidades de este software se tienen en la herramienta desarrollada denominada Splicing, un ambiente que permite decidir qué clasificadores usar en la construcción de un sistema multiclasificador de forma fácil, relativamente rápida y segura.
La herramienta Splicing permite seleccionar varios clasificadores individuales para combinar, la regla de combinación de sus salidas, las medidas de diversidad para determinar cuán diversos son estos clasificadores, la forma en que se va a evaluar el modelo de clasificación obtenido con el multiclasificador (Cross-validation, percentage split, etc.) y los parámetros requeridos para configurar el AG; todo esto en un ambiente amigable a usuarios menos especializados. La meta es encontrar una exactitud del multiclasificador superior a la mayor exactitud de los clasificadores de forma individual (Morales Hernández, 2014).
En las siguientes tablas se muestran los resultados utilizando esta herramienta, combinando diferentes clasificadores de Weka. Ver tablas 15, 16, 17, 18 y tablas 19,20,21,22

Después de un análisis exhaustivo de los diferentes clasificadores y de cada algoritmo de manera individual y teniendo en cuenta los parámetros que se expresan en las tablas anteriores, se concluye que los clasificadores de redes bayesianas fueron los que mostraron mejores resultados en su conjunto y específicamente los métodos AODE y HNB resultaron superiores al resto de los métodos probados con los valores más altos de verdaderos positivos y área bajo la curva ROC.
Igualmente, la combinación de clasificadores para obtener el mejor multiclasificador con la herramienta splicing, mostró que en la base de datos Acceptor, la combinación de los métodos BayesNet, ADTree, OneR, KStar y MultilayerPerceptron, obtuvo la mayor exactitud del multiclasificador a pesar de que tomó la mayor cantidad de tiempo, siendo este tiempo menor utilizando AODE, SimpleLogistic, Id3, Ridor e IBk con k=5 y con una exactitud similar.
Para la base de datos Donors fue igual el valor de la exactitud con dos de las combinaciones y a la vez fue superior a los obtenidos en la base Acceptors. Las combinaciones con mejores resultados fueron NaiveBayes, IB1, J48, JRip y Logistic así como AODE, SimpleLogistic, Id3, Ridor e IBk con k=5.

]]>

CONCLUSIONES

No existe un modelo clasificador mejor que otro de manera general, es por esto que han surgido varias medidas para evaluar la clasificación y comparar los modelos empleados para un problema determinado.
Al observar el comportamiento de todos los grupos de clasificadores, se concluye que los algoritmos que usan Redes Bayesianas fueron los de mejor comportamiento para la localización de genes en un genoma completo, o en una larga secuencia genómica, puesto que los resultaros fueron muy regulares a la hora de maximizar los verdaderos positivos en ambas bases de datos.
El tiempo es algo fundamental en los problemas de Bioinformática, pues casi siempre hay grandes volúmenes de información para procesar. Los modelos perezosos fueron los más afectados por este parámetro, además, los perezosos tuvieron malos resultados en cuanto a razón de verdaderos positivos esencialmente.
En el uso de multiclasificadores en Weka, del grupo de los meta, para bases de datos de gran cantidad de atributos se debe tener cuidado, pues en este estudio los resultados de varios de ellos no fueron favorables comparados con otros grupos de clasificadores. No obstante, el MultiClassClassifier tuvo un buen aprendizaje con estas bases de datos.
Con el uso de la herramienta de Splicing, los resultados fueron satisfactorios según la exactitud que muestra la combinación de los algoritmos en cada base de datos.

Se puede concluir, luego de un exhaustivo análisis, que el grupo de algoritmos bayesianos es el que mejor logra clasificar con todos sus métodos las bases de datos Donors y Acceptors. Esto se comprueba dado que en todos los casos logra maximizar el área bajo la curva ROC, lo que es un indicador de la calidad del clasificador. Se recomienda el uso de algoritmos que utilicen Redes Bayesianas para el aprendizaje automatizado en bases de datos del genoma humano con atributos discretos.

REFERENCIAS BIBLIOGRÁFICAS ]]> AUTORES, C. D. Ventajas Y Desventajas Del Árbol De Decisón. Introducción A La Programación. 2012. Disponible En: Http://Ipg3.Blogspot.Com/2012/02/Ventajas-Y-Desventajas-Del-Arbol-De.Html

BOANET, ISIS. Modelo Para La Clasificación De Secuencias En Problemas De La Bioinformática, Usando Técnicas De Inteligencia Artificial. Tesis En Opción Al Grado Científico De Doctor En Ciencias Técnicas. Universidad Central "Marta Abreu" De Las Villas, Santa Clara, 2008.

CHÁVEZ CÁRDENAS, MARÍA DEL CARMEN. Modelos De Redes Bayesianas En El Estudio De Secuencias Genómicas Y Otros Problemas Biomédicos. Tesis En Opción Al Grado Científico De Doctor En Ciencias Técnicas. Universidad Central "Marta Abreu" De Las Villas, Santa Clara, 2008. Págs. 80-88.

EMBL. Bases De Datos De Secuencias Nucleotídicas. Consultado En Septiembre De 2014. Disponible En: Http://Www.Ebi.Ac.Uk/Embl/Index.Html

FAWCETT, T. Roc Graph: Notes And Practical Consideration For Researchers Machine Learning , 2004. Consultado En Agosto De 2014. Disponible En: Https://Home.Comcast.Net/~Tom.Fawcett/Public_Html/Papers/Roc101.Pdf
]]>
FOLEY, R. A. Y LEWIN, R. Principles Oh Human Evolution, 2004. Segunda Edición. S.L. : Backwell Publishing, Review From Times Education Supplement, University Of Durham.

GALPERIN, M. Y. The Molecular Biology Database, 2008.Nucleic Acids Research, 2007 - Oxford Univ Press.

GARCÍA, M. M. Modelo De Un Sistema De Razonamiento Basado En Casos Para El Análisis En La Gestión De Riesgos, 2011. Serie Científica De La Universidad De Las Ciencias Informáticas, No. 11, Vol. 4. Disponible En: Http://Publicaciones.Uci.Cu/

KUNHEVA Y SHIP. Relationship Between Combination Methods And Measures Of Diversity In Combining Classifiers,2002. Information Fusion 3 (2), 135-148

LE CESSIE, S y VAN HOUWELINGEn, J. Ridge Estimators In Logistic Regression, 1992. Applications Statistics. 41 No. 1, Pag. 191-201
]]>
MITCHELL, T. M. Machine Learning. Mcgraw-Hill Science/Engineer, 1997. 421 Pags.

MORALES HERNÁNDEZ, ALEJANDRO. Construcción De Sistemas Multiclasificadores Usando Algoritmos Genéticos Y Medidas De Diversidad, 2014. Tesis En Opción Al Título De Licenciado En Ciencia De La Computación. Universidad Central "Marta Abreu" De Las Villas, Santa Clara. Págs. 14-16.

RICARDO, GRAU, y OTROS. Boolean Algebraic Structures Of The Genetic Code. Possibilities Of Applications, , 2007. Proceeding Kdecb'06 Proceedings Of The 1st International Conference On Knowledge Discovery And Emergent Complexity In Bioinformatics. Springer-Verlag Berlin, Heidelberg ©, Pages 10-21

SERRANO, J., TOMECKOVÁ, M., & ZVÁROVÁ, J. (2012). Métodos De Aprendizaje Automático Para El Descubrimiento De Conociemiento En Datos Médicos. European Journal For Biomedical Informatics. Disponibe En: Http://Www.Ejbi.Org/En/Ejbi/Article/41-Es-Metodos-De-Aprendizaje-Automatico-Para-El-Descubrimiento-De-Conocimiento-En-Datos-Medicos-Sobre-Arterosclerosis.Html

WITTEN, IAN H. Y EIBE, FRANK. Weka Machine Learning Algorithms In Java, 2000. Data Mining: Practical Machine Learning Tools And Techniques With Java Implementations. 10, Págs. 404-417.

]]>

Recibido: 28/01/2014
Aceptado: 13/05/2015

]]>

2012

2008

80-88

EMBL 2014

2004

2008

2011

2002 3 2 2

135-148

1992 41 1 1

191-201

1997

421

2014

14-16

2007

10-21

2012

404-417