<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992015000400012</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Algoritmos de aprendizaje automático para clasificación de Splice Sites en secuencias genómicas]]></article-title>
<article-title xml:lang="en"><![CDATA[Machine Learning algorithms for Splice Sites classification in genomic sequences]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Díaz-Barrios]]></surname>
<given-names><![CDATA[Heidy]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Alemán-Rivas]]></surname>
<given-names><![CDATA[Yania]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cabrera-Hernández]]></surname>
<given-names><![CDATA[Leidys]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Morales-Hernández]]></surname>
<given-names><![CDATA[Alejandro]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Chávez-Cárdenas]]></surname>
<given-names><![CDATA[María del Carmen]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Casas-Cardoso]]></surname>
<given-names><![CDATA[Gladys María]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,AMPP Placetas  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,DMPF Placetas  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Central Marta Abreu de Las Villas Departamento de Computación Centro de Estudios de Informática]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2015</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2015</year>
</pub-date>
<volume>9</volume>
<numero>4</numero>
<fpage>155</fpage>
<lpage>170</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992015000400012&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992015000400012&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992015000400012&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Las técnicas de clasificación se utilizan frecuentemente en la solución de diferentes problemas de la Bioinformática. Las secuencias de ADN de la mayoría de los genes se transcriben en ARN mensajero que se traducen en proteínas. El ADN contiene en los genes segmentos codificantes (exones) y no codificantes (intrones). Durante el proceso de transcripción los intrones son &#8220;cortados&#8221;, mecanismo conocido como splicing que coloca a los exones de un gen consecutivamente, listos para traducirse en la secuencia de aminoácidos que conforman la proteína. En los splice sites, el principio del intrón es conocido como donor (par AG), y el final es conocido como acceptor (par GT). El presente trabajo aborda la predicción de sitios de splicing. Se utilizan técnicas de aprendizaje automatizado necesarias en la descripción de dominios biológicos y dos bases de datos de secuencias de nucleótidos, para clasificar verdaderos y falsos splice sites con 7000 casos cada una, 6000 falsos y 1000 verdaderos. Se prueba y compara una serie de algoritmos utilizando WEKA (Waikato Enviroment for Knowledge Analysis) para encontrar los mejores clasificadores. Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: exactitud, razón de verdaderos positivos, curvas ROC, etc. Como resultados del estudio se concluye que los métodos bayesianos maximizaron el número de verdaderos positivos y el área bajo la curva, por lo que es la propuesta a utilizar para realizar la clasificación de sitios de splicing.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The classification techniques are been used frequently in the solution of different Bioinformatic problems. The ADN sequences in the majority of the gene make a transcript to ARN messenger, whom have led to proteins. The ADN contain in the genes encode segments (exones), and unencode segments (introns). During the process of transcription the introns are cut, that mechanism is call splicing, it put the axons of the gene, one consecutive the other, and ready to lead to the sequence of amino acid to make the protein up. In the splice sites, the beginning of the introns is call donor (AG par), and the end is call acceptor (GT par). A few of these combinations are really splice sites. The present work is about the prediction of splicing. It is used the techniques of machine learning necessary to descript biology domains and two database of nucleates sequences to classify true or false splice sites, with 7000 cases, 6000 false and 1000 true. It is about to proof and compare a series of algorithms using WEKA (Waikato Enviroment for Knowledge Analysis) to find the best classifiers. To make the selection of the best classification it is applied the knowlest measure based in the Matrix of Confusion: accuracy, rate of True Positive (TP), area under the curve of Receiver Operator Curve (ROC), etc. As result of the study it is conclude that the Bayesian methods maximize the number of true positive and the area under the curve, which are the nominations to use to classify splice sites.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[acceptor]]></kwd>
<kwd lng="es"><![CDATA[aprendizaje automatizado]]></kwd>
<kwd lng="es"><![CDATA[clasificadores]]></kwd>
<kwd lng="es"><![CDATA[donnor]]></kwd>
<kwd lng="es"><![CDATA[splicing]]></kwd>
<kwd lng="en"><![CDATA[acceptor]]></kwd>
<kwd lng="en"><![CDATA[classifiers]]></kwd>
<kwd lng="en"><![CDATA[donnor]]></kwd>
<kwd lng="en"><![CDATA[machine learning]]></kwd>
<kwd lng="en"><![CDATA[splicing]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Algoritmos  de aprendizaje autom&aacute;tico para clasificaci&oacute;n de Splice Sites en secuencias  gen&oacute;micas</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Machine Learning algorithms for Splice Sites classification  in genomic sequences</font></strong> </font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Heidy  D&iacute;az-Barrios<strong><sup>1</sup></strong>, Yania  Alem&aacute;n-Rivas<strong><sup>2</sup></strong>, Leidys  Cabrera-Hern&aacute;ndez</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>3</sup>,&nbsp; Alejandro Morales-Hern&aacute;ndez</strong><font size="2"><strong><sup>3</sup></strong></font>, <strong>Mar&iacute;a del  Carmen Ch&aacute;vez-C&aacute;rdenas</strong></font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><strong><sup>3</sup></strong></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif"><strong>,&nbsp; Gladys  Mar&iacute;a Casas-Cardoso</strong></font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><strong><sup>3</sup></strong></font></font></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>AMPP Placetas. 2da del Norte # 46 e/ 3 y 4 del  Este. Placetas, VC, Cuba.<a href="mailto:heidyd@uclv.edu.cu">    <br> </a></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>2</sup> DMPF Placetas. Paseo Mart&iacute; # 17A e/ Carretera Central y 1ra del Norte.  Placetas, VC, Cuba.<a href="mailto:yaniaa@uclv.edu.cu">    ]]></body>
<body><![CDATA[<br> </a></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>3 </sup>Departamento de Computaci&oacute;n, Centro de Estudios de  Inform&aacute;tica (CEI), Facultad Matem&aacute;tica, F&iacute;sica y Computaci&oacute;n (MFC), Universidad  Central &ldquo;Marta Abreu&rdquo; de Las Villas (UCLV), Cuba. <a href="mailto:leidysc@uclv.edu.cu"></a>    <br> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Autor para correspondencia:</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:heidyd@uclv.edu.cu">heidyd@uclv.edu.cu</a></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las t&eacute;cnicas de clasificaci&oacute;n se  utilizan frecuentemente en la soluci&oacute;n de diferentes problemas de la Bioinform&aacute;tica.  Las secuencias de ADN de la mayor&iacute;a de los genes se transcriben en ARN  mensajero que se traducen en prote&iacute;nas. El ADN contiene en los genes segmentos  codificantes (exones) y no codificantes (intrones). Durante el proceso de  transcripci&oacute;n los intrones&nbsp; son  &ldquo;cortados&rdquo;, mecanismo conocido como <em>splicing</em> que coloca a los exones de un gen consecutivamente, &nbsp;listos para traducirse en la secuencia de  amino&aacute;cidos que conforman la prote&iacute;na. En los <em>splice sites</em>, el principio del intr&oacute;n es conocido como <em>donor </em>(par AG), y el final es conocido  como <em>acceptor </em>(par GT). El presente  trabajo aborda la predicci&oacute;n de sitios de <em>splicing</em>. Se utilizan t&eacute;cnicas  de aprendizaje automatizado necesarias en la descripci&oacute;n de dominios biol&oacute;gicos  y dos bases de datos de secuencias de nucle&oacute;tidos, para clasificar verdaderos y  falsos <em>splice sites</em> con 7000 casos  cada una, 6000 falsos y 1000 verdaderos. Se prueba y compara una serie de  algoritmos utilizando WEKA (<em>Waikato Enviroment  for Knowledge Analysis</em>) para encontrar los mejores clasificadores. Para  hacer la selecci&oacute;n del mejor clasificador&nbsp;  se aplican las medidas m&aacute;s conocidas basadas en la matriz de confusi&oacute;n: exactitud,  raz&oacute;n de verdaderos positivos, curvas ROC, etc. Como resultados del estudio se  concluye que los m&eacute;todos bayesianos maximizaron el n&uacute;mero de verdaderos  positivos y el &aacute;rea bajo la curva, por lo que es la propuesta a utilizar para  realizar la clasificaci&oacute;n de sitios de <em>splicing</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b> acceptor, aprendizaje automatizado,  clasificadores, donnor, splicing.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">The  classification techniques are been used frequently in the solution of different  Bioinformatic problems. The ADN sequences in the majority of the gene make a  transcript to ARN messenger, whom have led to proteins. The ADN contain in the  genes encode segments (exones), and unencode segments (introns). During the  process of transcription the introns are cut, that mechanism is call splicing,  it put the axons of the gene, one consecutive the other, and ready to lead to  the sequence of amino acid to make the protein up. In the splice sites, the  beginning of the introns is call donor (AG par), and the end is call acceptor  (GT par). A few of these combinations are really splice sites. The present work  is about the prediction of splicing. It is used the techniques of machine  learning necessary to descript biology domains and two database of nucleates  sequences to classify true or false splice sites, with 7000 cases, 6000 false  and 1000 true. It is about to proof and compare a series of algorithms using  WEKA (Waikato Enviroment for Knowledge Analysis) to find the best classifiers.  To make the selection of the best classification it is applied the knowlest  measure based in the Matrix of Confusion: accuracy, rate of True Positive (TP),  area under the curve of Receiver Operator Curve (ROC), etc. As result of the  study it is conclude that the Bayesian methods maximize the number of true  positive and the area under the curve, which are the nominations to use to  classify splice sites.</font> </p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>acceptor,  classifiers, donnor, machine learning, splicing.</font></p> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La Bioinform&aacute;tica constituye el campo de  conocimientos multidisciplinario entre la biolog&iacute;a, la inform&aacute;tica y la  matem&aacute;tica que debe abordar problemas que hab&iacute;an quedado sin solucionar a  trav&eacute;s de la historia, como es la necesidad de desarrollar nuevos algoritmos  para el tratamiento de problemas de an&aacute;lisis de secuencias y localizaci&oacute;n de  genes dentro del genoma de un cierto organismo (Ch&aacute;vez C&aacute;rdenas, 2008).    <br>   El &aacute;cido desoxirribonucleico, frecuentemente  abreviado como ADN (y tambi&eacute;n DNA, del ingl&eacute;s (<em>deoxyribonucleic acid</em>), forma parte de todas las <a href="zeno://es.wikipedia/A/C%C3%A9lula">c&eacute;lulas</a>. Para que la informaci&oacute;n que  contiene el ADN pueda ser utilizada por la maquinaria celular, debe copiarse en  primer lugar en nucle&oacute;tidos m&aacute;s cortos llamados ARN. Las <a href="zeno://es.wikipedia/A/Mol%C3%A9cula">mol&eacute;culas</a> de ARN se copian exactamente del  ADN mediante un proceso denominado <a href="zeno://es.wikipedia/A/Transcripci%C3%B3n%20gen%C3%A9tica">transcripci&oacute;n</a>&nbsp;(Galperin,   2007). As&iacute;, las secuencias  de ADN de la mayor&iacute;a de los genes se transcriben en ARN mensajero que a su vez  se traducen en las prote&iacute;nas. En los procariotas (organismos menos  desarrollados) el ARN mensajero es una copia del ADN. Sin embargo, en los  eucariotas, el ADN contiene en los genes segmentos codificantes (exones) y no  codificantes (intrones) y estos &uacute;ltimos se &ldquo;cortan&rdquo; durante el proceso de  transcripci&oacute;n a RNA mensajero. A este mecanismo se le conoce como <em>splicing,</em> consiste en colocar a los  exones de un gen consecutivamente, y as&iacute; estar&aacute;n listos para traducirse en la secuencia  de amino&aacute;cidos que conforman la prote&iacute;na (Foley, y otros, 2004). La detecci&oacute;n de  intrones y exones constituye una de las formas para abordar el problema de la localizaci&oacute;n  de los genes.    <br>   Para la predicci&oacute;n de sitios de <em>splicing</em> en regiones gen&oacute;micas codificantes para prote&iacute;nas se  utilizan las t&eacute;cnicas de aprendizaje automatizado, las que son necesarias en la  descripci&oacute;n de dominios biol&oacute;gicos. Estos dominios son: gen&oacute;mica, prote&oacute;mica,  micro-arreglos (antes citados como matrices de ADN o micro <em>arrays</em>), sistemas biol&oacute;gicos, evoluci&oacute;n y miner&iacute;a de texto. La identificaci&oacute;n  de sitios de <em>splicing </em>o corte de  intrones, que separan zonas codificantes y no codificantes se aborda desde  varios puntos de vista. Se conoce en primer lugar que todas las secuencias que  representan un gen comienzan con un cod&oacute;n de inicio y finalizan con uno de los  tres codones de terminaci&oacute;n, pero la presencia de tales codones no siempre  indica el inicio y el final del gen. (Ricardo, y otros, 2007b)    <br> En los <em>splice sites,</em> el principio del intr&oacute;n se  conoce como <em>donor</em>, mientras que el  que lo finaliza se conoce como <em>acceptor</em>.  Los &ldquo;<em>donors</em>&rdquo; se caracterizan por la  presencia del par de nucle&oacute;tidos &ldquo;GT&rdquo; al inicio del intr&oacute;n, los &ldquo;<em>acceptors</em>&rdquo; se identifican por el par  &ldquo;AG&rdquo; al final del intr&oacute;n. El inicio y el fin del intr&oacute;n se marcan por los <em>splice sites</em>. Entonces se podr&iacute;a  intentar reconocer <em>donors</em> y <em>acceptors</em> a trav&eacute;s de estos  dinucle&oacute;tidos y con ellos los intrones. Estos dinucle&oacute;tidos abundan en el  genoma y s&oacute;lo un peque&ntilde;o por ciento de estas combinaciones son <em>splice sites </em>reales de ah&iacute; la limitaci&oacute;n  de este enfoque. (Saeys, 2004)    <br> Si se tienen  secuencias con el par &ldquo;GT&rdquo; de las cuales se conozca si son verdaderos o falsos <em>donors </em>se puede intentar &ldquo;aprender&rdquo; a clasificarlos utilizando la informaci&oacute;n de  las bases nucleot&iacute;dicas de su entorno y otro tanto podr&iacute;a hacerse a partir de  secuencias con el par &ldquo;AG&rdquo; de las cuales se conozca si son verdaderos o falsos <em>acceptors</em>.  As&iacute; el problema original se descompone en dos problemas de clasificaci&oacute;n.    <br> Las bases de datos de <em>splice sites</em> para humanos fue construida  en la Universidad de Ghent, B&eacute;lgica, a partir de obtener ARN mensajero desde la  base de datos p&uacute;blica EMBL (Base de datos de secuencias nucleot&iacute;dicas). (EMBL, 2009).    ]]></body>
<body><![CDATA[<br> El objetivo de este estudio es clasificar  verdaderos y falsos <em>splice sites:</em> identificaci&oacute;n de <em>donors</em> y <em>acceptors</em>, con los diferentes m&eacute;todos que ofrecen la  herramientas de Aprendizaje Autom&aacute;tico Weka (Witten, et al., 2000), (Serrano, Tomeckov&aacute;, &amp; Zv&aacute;rov&aacute;, 2012) y encontrar aquellos  que clasifican la mayor cantidad de casos como verdaderos seg&uacute;n diferentes  par&aacute;metros.     <br> A continuaci&oacute;n se muestran los resultados  estad&iacute;sticos obtenidos despu&eacute;s de probar un n&uacute;mero considerable de algoritmos en  el &ldquo;entorno para an&aacute;lisis del conocimiento de la Universidad de Waikato&rdquo; Weka (<em>Waikato Environment for Knowledge Analysis</em>), y se explica c&oacute;mo interpretarlos.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para cumplir con el objetivo planteado se cuenta con  dos bases de datos de secuencias de nucle&oacute;tidos, las bases de datos para este  trabajo se conformaron con 7000 casos cada una, 6000 falsos y 1000verdaderos,  tal como sugiere la proporci&oacute;n aproximada real de verdaderos y falsos <em>splice sites</em> en los genomas.    <br> Las medidas m&aacute;s conocidas para evaluar la  clasificaci&oacute;n est&aacute;n basadas en la matriz de confusi&oacute;n (<a href="#t01">tabla 1</a>) que se obtiene  cuando se prueba el clasificador en el conjunto de datos de entrenamiento. </font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a name="t01"></a> <img src="/img/revistas/rcci/v9n4/t0112415.JPG" alt="01" width="327" height="149" align="baseline"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la Tabla 1 las siglas <em>VP </em>y <em>VN </em>representan  los elementos bien clasificados de la clase positiva y negativa respectivamente  y <em>FP </em>y <em>FN </em>identifican los elementos negativos y positivos mal  clasificados respectivamente. Basados en estas medidas, se calcula el error, la  exactitud, la raz&oacute;n de <em>VP </em>(<em>rVP= VP/P</em>) o sensibilidad, la raz&oacute;n de <em>FP </em>(<em>FP=FP/N</em>), la raz&oacute;n de los <em>VN</em> (<em>rVN=VN/N</em>) o especificidad y la raz&oacute;n  de los falsos negativos (<em>FN=FN/P</em>).Otra  forma de evaluar el rendimiento de un clasificador es por las curvas ROC (<em>Receiver  Operator Curve, Curva de operaci&oacute;n del receptor</em>) (Fawcett, 2004). En  esta curva se representa el valor de raz&oacute;n de VP contra la raz&oacute;n de FP,  mediante la variaci&oacute;n del umbral de decisi&oacute;n. El umbral de decisi&oacute;n es aquel  que decide si una instancia <em>x</em>, a partir del vector de salida del  clasificador, pertenece o no a cada una de las clases. Usualmente, en el caso  de dos clases se toma como umbral por defecto 0.5; pero esto no es siempre lo  m&aacute;s conveniente. Se usa el &aacute;rea bajo esta curva, denominada AUC (<em>Area Under the  Curve, </em>&aacute;rea bajo la curvaROC)  como un indicador de la calidad del clasificador. En tanto dicha &aacute;rea est&eacute; m&aacute;s  cercana a la unidad, el comportamiento del clasificador est&aacute; m&aacute;s cercano al  clasificador perfecto (100% de VP con un 0% de FP).&nbsp;(Ch&aacute;vez C&aacute;rdenas, 2008).    <br>   En la resoluci&oacute;n de este problema se emplear&aacute;n  algoritmos de aprendizaje automatizado, pues son los usados para cuando hay  presencia de gran cantidad de datos, patrones ruidosos y la ausencia de teor&iacute;as  generales determin&iacute;sticas.     <br> Este estudio se realiz&oacute; como continuaci&oacute;n del trabajo  Modelos de Redes Bayesianas en el estudio de secuencia gen&oacute;micas y otros  problemas biom&eacute;dicos, de la doctora Mar&iacute;a del Carmen Ch&aacute;vez C&aacute;rdenas, en el  cual se desarrollaron&nbsp; algoritmos basados  en Redes Bayesianas que mejoraron los resultados existentes hasta ese momento. La  investigaci&oacute;n permiti&oacute; identificar los clasificadores de mejores resultados en  bases de datos con un n&uacute;mero considerable de atributos, como las que usualmente  se trabajan en Bioinform&aacute;tica (Ch&aacute;vez C&aacute;rdenas, 2008), para que sirvan de  apoyo en la implementaci&oacute;n de nuevos algoritmos de clasificaci&oacute;n que mejoren los  resultados alcanzados.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Herramienta  WEKA</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       <br>   Para probar y comparar una serie de algoritmos de  clasificaci&oacute;n se us&oacute; una herramienta, desarrollada en la Universidad de  Waikato, Nueva Zelanda. Este sistema est&aacute; escrito en Java. &nbsp;(Witten, y otros, 2000)     <br>   En Weka se aplicaron m&eacute;todos de aprendizaje a las  bases de datos <em>donors</em> y <em>acceptors</em>, y se analizaron las salidas  para extraer informaci&oacute;n sobre los datos.     <br> Seg&uacute;n los clasificadores utilizados se describe el  funcionamiento de los algoritmos probados con este estudio en la <a href="/img/revistas/rcci/v9n4/t0212415.JPG" target="_blank">tabla 2</a>.</font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A  partir de los resultados obtenidos por cada uno de los algoritmos se enfatiza  en los resultados que maximizan la raz&oacute;n de los verdaderos positivos, los que  el valor de la curva ROC es m&aacute;s cercano a 1 y los de mayor exactitud, porque  estos son los que se acercan al clasificador perfecto, es decir, los que tienen  menor cantidad de errores al clasificar los verdaderos <em>donors</em> y <em>acceptors</em>.&nbsp;(Ch&aacute;vez   C&aacute;rdenas, 2008).    <br>     Igualmente se utiliz&oacute; una herramienta creada que  combina los resultados de los clasificadores individuales con los resultados de  medidas de diversidad, las cuales han sido creadas por distintos autores para  detectar a los clasificadores m&aacute;s diversos entre s&iacute;. Esto lo hace usando Algoritmos  Gen&eacute;ticos, y obtiene un multiclasificador, que a la vez combina los  clasificadores m&aacute;s diversos posible y maximiza la exactitud respecto a la de  los clasificadores individuales en la medida de lo posible. (Morales Hern&aacute;ndez, 2014)</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Algoritmos bayesianos</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">     ]]></body>
<body><![CDATA[<br>       <br>   Una red bayesiana es  un modelo gr&aacute;fico probabil&iacute;stico que representa un conjunto de variables y sus  dependencias probabil&iacute;sticas. Puede calcular la distribuci&oacute;n de probabilidad  para cualquier subconjunto de variables de la red, dado los valores o  distribuciones de las variables restantes. (Mitchell, 1997)    <br> Este tipo de clasificador  no es muy sensible a los cambios de sus par&aacute;metros, ya que se basa en  informaci&oacute;n de toda la base, lo cual hace que peque&ntilde;os cambios en la base no  sean necesariamente significativos&nbsp;(Ch&aacute;vez   C&aacute;rdenas, 2008). </font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ver <a href="/img/revistas/rcci/v9n4/t0312415.jpg" target="_blank">tabla 3</a></font> y <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="/img/revistas/rcci/v9n4/t0412415.jpg" target="_blank">tabla 4</a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos  bayesianos fueron altamente balanceados en cuanto a los par&aacute;metros medidos, de  todos se obtuvieron importantes resultados por lo que constituyen buenos  clasificadores en las bases de datos utilizadas y permiten su aplicaci&oacute;n para obtener  la mejor clasificaci&oacute;n. Se destacaron los m&eacute;todos WAODE y HNB en ambas bases  con los mejores valores de &aacute;rea bajo la curva y raz&oacute;n de verdaderos positivos     <br>       <br>     <strong>Algoritmos de &aacute;rboles de decisi&oacute;n</strong>    <br>         <br>   Este esquema de  aprendizaje automatizado se deriva del pensamiento divide y vencer&aacute;s. Un &aacute;rbol  de decisi&oacute;n clasifica las instancias orden&aacute;ndolas de la ra&iacute;z a las hojas. Cada  nodo interior del &aacute;rbol especifica una prueba de alg&uacute;n atributo y las hojas son  las clases en las cuales se clasifican las instancias, cada rama descendiente  de un nodo interior corresponde a un valor posible del atributo probado en ese  nodo. As&iacute;, cada rama, de la ra&iacute;z a un nodo hoja, corresponde a una conjunci&oacute;n  de atributos y el &aacute;rbol en s&iacute;, a una disyunci&oacute;n de estas conjunciones.&nbsp;(Witten, et   al., 2000)    <br> Entre las ventajas  m&aacute;s sobresalientes de los &aacute;rboles de decisi&oacute;n se encuentra que provee una  estructura sumamente efectiva dentro de la cual se puede estimar, cu&aacute;les son  las opciones e investigar las posibles consecuencias de seleccionar cada una de  ellas (Autores, 2012). Ver <a href="/img/revistas/rcci/v9n4/t0512415.jpg" target="_blank">tabla 5</a> y <a href="/img/revistas/rcci/v9n4/t0612415.jpg" target="_blank">tabla 6</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Varios de estos  algoritmos de &aacute;rboles de decisi&oacute;n no funcionaron con las bases de datos del  estudio, puesto que no se construye el modelo de aprendizaje y la herramienta  deja de funcionar. Los algoritmos con los que sucede esta situaci&oacute;n son: <em>NBTree, BFTree, LMT, UserClassifier</em>.     ]]></body>
<body><![CDATA[<br>     El algoritmo <em>ADTree</em> result&oacute; el mejor m&eacute;todo para la  base de datos <em>Acceptors</em> seg&uacute;n el &aacute;rea  bajo la curva ROC y la raz&oacute;n de verdaderos positivos, mientras que en la de <em>Donors</em> fue por la exactitud y el &aacute;rea  bajo la curva. La mayor raz&oacute;n de verdaderos positivos la obtuvo el m&eacute;todo <em>REPTree</em> en ambas bases. Los  clasificadores basados en &aacute;rboles de decisi&oacute;n no brindaron resultados  significativos puesto que los par&aacute;metros medidos fueron bajos.    <br>         <br> <strong>Algoritmos basados en Reglas</strong>    <br>     <br> Son  una alternativa popular de los &aacute;rboles de decisi&oacute;n. El antecedente o predicci&oacute;n  de una regla es una serie de pruebas como las que se hacen en el nodo en &aacute;rboles  de decisi&oacute;n.&nbsp; El consecuente o conclusi&oacute;n  da la clase o clases que aplica a instancias cubiertas por esa regla o tal vez  da una probabilidad de distribuci&oacute;n acerca de las clases.    <br> Una  regla es generada por cada hoja. El antecedente de cada regla incluye la  condici&oacute;n de cada nodo en el camino desde la ra&iacute;z hasta la hoja y el  consecuente de la regla es la clase asignada por la hoja. Ver <a href="/img/revistas/rcci/v9n4/t0712415.jpg" target="_blank">tabla 7</a> y <a href="/img/revistas/rcci/v9n4/t0812415.jpg" target="_blank">tabla 8</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo <em>DecisionTable</em> al igual que el <em>LibSVM</em>,&nbsp;  presenta un problema evaluando el clasificador, las clases no se  encuentran dentro del <em>CLASSPATH</em>.    <br>   Estos algoritmos obtienen  resultados poco significativos, con varios m&eacute;todos que clasificaron  err&oacute;neamente en todos los casos. Sin embargo se puede destacar el <em>JRip</em> como el de mejores resultados en  este grupo.    <br>       <br>   <strong>Algoritmos Funciones (Regresi&oacute;n  Log&iacute;stica)</strong>    ]]></body>
<body><![CDATA[<br>       <br> La regresi&oacute;n log&iacute;stica es un instrumento estad&iacute;stico  de an&aacute;lisis multivariado, de uso tanto explicativo como predictivo. Resulta  &uacute;til su empleo cuando se tiene una variable dependiente dicot&oacute;mica (un atributo  cuya ausencia o presencia se ha puntuado con los valores cero y uno,  respectivamente) y un conjunto de variables predictoras o independientes, que  pueden ser cuantitativas o categ&oacute;ricas. El prop&oacute;sito del an&aacute;lisis consiste en  predecir la probabilidad de que ocurra cierto &ldquo;evento&rdquo;<em>(Le Cessie, y otros, 1992)</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si los datos se pueden  separar en dos grupos usando un hiperplano, que separa las instancias  pertinentes de las diferentes clases, se dice que es linealmente separable y  para esto se usan algoritmos <em>Perceptron (Saeys, 2004). </em>Ver <a href="/img/revistas/rcci/v9n4/t0912415.jpg" target="_blank">tabla 9</a> y<a href="/img/revistas/rcci/v9n4/t1012415.jpg" target="_blank"> tabla 10</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo LibSVM  presenta un problema evaluando el clasificador, las clases <em>libsvm</em> no se encuentran dentro del CLASSPATH.    <br>   Estos m&eacute;todos  demostraron ser lentos y sus resultados son buenos para algunos de ellos,  destac&aacute;ndose el <em>MultilayerPerceptron</em> y el <em>Logistic</em> por sus valores de &aacute;rea  bajo la curva y verdaderos positivos.    <br>       <br>   <strong>Algoritmos Perezosos (<em>lazy</em>)</strong>    <br>       <br>   El  razonamiento basado en casos se basa en el principio de usar experiencias  viejas para resolver problemas nuevos. Muchos algoritmos usan este razonamiento  para resolver los problemas y entre los m&aacute;s comunes est&aacute;n los de clasificaci&oacute;n.  Aunque todos los m&eacute;todos de clasificaci&oacute;n se basan en casos, existe un conjunto  que se conoce como algoritmos basados en casos, o tambi&eacute;n como m&eacute;todos de  aprendizaje perezoso. (Garc&iacute;a, 2011)     <br> Una nueva instancia  se compara con el resto de la base de casos a trav&eacute;s de una medida de similitud  o de distancia. La clase de la nueva instancia ser&aacute; la misma que la del caso que  m&aacute;s cercano est&eacute; a la nueva instancia. A este proceso se le conoce con el  nombre de m&eacute;todo del &ldquo;vecino m&aacute;s cercano&rdquo; (<em>nearest  neighbor</em>) (Garc&iacute;a, 2011). </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El tiempo que toma hacer  una predicci&oacute;n es proporcional al n&uacute;mero de instancias de entrenamiento. Una  soluci&oacute;n es adoptar la estrategia K-vecinos, donde k puede escogerse probando  diferentes valores y escogiendo el mejor. Ver <a href="/img/revistas/rcci/v9n4/t1112415.jpg" target="_blank">tabla 11</a> y <a href="/img/revistas/rcci/v9n4/t1212415.jpg" target="_blank">tabla 12</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dentro de los  algoritmos perezosos, el LBR trabaja para conjuntos de pruebas peque&ntilde;os, puesto  que cada instancia de prueba selecciona un conjunto de atributos para los  cuales la supuesta independencia no debe ser hecha, los dem&aacute;s son tratados como  independientes de cada una de las clases dadas y el conjunto de atributos  seleccionado. Por esta raz&oacute;n, con las bases de datos que se utilizan, ese  m&eacute;todo responde muy lentamente sin que se puedan obtener sus resultados.    <br>   Estos algoritmos, no  aportan resultados significativos para la clasificaci&oacute;n en las bases de datos  del estudio, en general existe un desbalance de los par&aacute;metros para considerar  un m&eacute;todo superior al resto. El algoritmo IBk demostr&oacute; que a medida que se  aumenta el valor de k, aumenta la exactitud y el &aacute;rea bajo la curva pero  disminuyen los verdaderos positivos.    <br>       <br>   <strong>Algoritmos meta (multiclasificadores  en Weka)</strong>    <br>       <br>   La combinaci&oacute;n de  clasificadores es en la actualidad un &aacute;rea activa de investigaci&oacute;n en el  aprendizaje automatizado y el reconocimiento de patrones. Se han publicado  numerosos estudios te&oacute;rico y emp&iacute;ricos que demuestran las ventajas del  paradigma de combinaci&oacute;n de clasificadores por encima de los modelos  individuales. (Kunheva, y otros, 2002).    <br>   Existen varias formas  en las cuales se pueden construir multiclasificadores. En todos los casos se  basan en la selecci&oacute;n de los clasificadores de base y la elecci&oacute;n de la forma  de combinar las salidas. (Bonet, 2008).    <br> Entre los modelos m&aacute;s  populares que combinan clasificadores est&aacute;n&nbsp; <em>Bagging,&nbsp; Boosting, Stacking</em>, m&eacute;todos basados en  rasgos. Ver <a href="/img/revistas/rcci/v9n4/t1312415.jpg" target="_blank">tabla 13</a> y <a href="/img/revistas/rcci/v9n4/t1412415.jpg" target="_blank">tabla 14</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los algoritmos meta, considerados  multiclasificadores en la herramienta Weka, no constituyen buenos  clasificadores para las bases de datos del estudio, siendo el <em>MultiClassClassifier</em> el &uacute;nico que mostr&oacute;  resultados a tener en cuenta.    ]]></body>
<body><![CDATA[<br>       <br>   <strong>Multiclasificaci&oacute;n  usando herramienta especializada</strong>    <br>       <br>   A pesar de que  WEKA&nbsp; es un ambiente de simulaci&oacute;n  computacional que presenta un amplio soporte para la experimentaci&oacute;n con varios  m&eacute;todos estad&iacute;sticos y de Inteligencia Artificial, se consider&oacute; oportuno  utilizar la implementaci&oacute;n de la versi&oacute;n de Algoritmo Gen&eacute;tico (AG) que propone  la tesis de pregrado del estudiante Alejandro Morales Hern&aacute;ndez (Morales Hern&aacute;ndez, 2014).    <br> Las potencialidades  de este software se tienen en la herramienta desarrollada denominada <em>Splicing</em>, un ambiente que permite  decidir qu&eacute; clasificadores usar en la construcci&oacute;n de un sistema  multiclasificador de forma f&aacute;cil, relativamente r&aacute;pida y segura.    <br> La herramienta <em>Splicing</em> permite seleccionar varios  clasificadores individuales para combinar, la regla de combinaci&oacute;n de sus  salidas, las medidas de diversidad para determinar cu&aacute;n diversos son estos  clasificadores, la forma en que se va a evaluar el modelo de clasificaci&oacute;n  obtenido con el multiclasificador (<em>Cross-validation,  percentage split</em>, etc.) y los par&aacute;metros requeridos para configurar el AG;  todo esto en un ambiente amigable a usuarios menos especializados. La meta es  encontrar &nbsp;una exactitud del  multiclasificador superior a la mayor exactitud de los clasificadores de forma  individual&nbsp;(Morales   Hern&aacute;ndez, 2014).    <br> En las siguientes tablas se  muestran los resultados utilizando esta herramienta, combinando diferentes  clasificadores de Weka.</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ver <a href="/img/revistas/rcci/v9n4/t1512415.jpg" target="_blank">tablas 15, 16, 17, 18</a></font> y <a href="/img/revistas/rcci/v9n4/t1912415.jpg" target="_blank"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">tablas 19,20,21,22 </font></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Despu&eacute;s de un  an&aacute;lisis exhaustivo de los diferentes clasificadores y de cada algoritmo de  manera individual y teniendo en cuenta los par&aacute;metros que se expresan en las  tablas anteriores, se concluye que los clasificadores de redes bayesianas  fueron los que mostraron mejores resultados en su conjunto y espec&iacute;ficamente  los m&eacute;todos AODE y HNB resultaron superiores al resto de los m&eacute;todos probados  con los valores m&aacute;s altos de verdaderos positivos y &aacute;rea bajo la curva ROC.    <br>   Igualmente, la  combinaci&oacute;n de clasificadores para obtener el mejor multiclasificador con la  herramienta <em>splicing</em>, mostr&oacute; que en  la base de datos <em>Acceptor</em>, la  combinaci&oacute;n de los m&eacute;todos <em>BayesNet,  ADTree, OneR, KStar y MultilayerPerceptron</em>, obtuvo la mayor exactitud del  multiclasificador a pesar de que tom&oacute; la mayor cantidad de tiempo, siendo este tiempo  menor utilizando <em>AODE, SimpleLogistic,  Id3, Ridor e IBk</em> con k=5 y con una exactitud similar.    <br> Para  la base de datos <em>Donors</em> fue igual el  valor de la exactitud con dos de las combinaciones y a la vez&nbsp; fue superior a los obtenidos en la base <em>Acceptors</em>. Las combinaciones con mejores  resultados fueron <em>NaiveBayes, IB1, J48,  JRip y Logistic</em> as&iacute; como <em>AODE, SimpleLogistic,  Id3, Ridor e IBk</em> con k=5. </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">No existe un modelo clasificador mejor que otro de  manera general, es por esto que han surgido varias medidas para evaluar la  clasificaci&oacute;n y comparar los modelos empleados para un problema determinado.     <br>   Al observar el comportamiento de todos los grupos de  clasificadores, se concluye que los algoritmos que usan &nbsp;Redes Bayesianas fueron los de mejor  comportamiento para la localizaci&oacute;n de genes en un genoma completo, o en una  larga secuencia gen&oacute;mica, puesto que los resultaros fueron muy regulares a la  hora de maximizar los verdaderos positivos en ambas bases de datos.    <br>   El tiempo es algo  fundamental en los problemas de Bioinform&aacute;tica, pues casi siempre hay grandes  vol&uacute;menes de informaci&oacute;n para procesar. Los modelos perezosos fueron los m&aacute;s  afectados por este par&aacute;metro, adem&aacute;s, los perezosos tuvieron malos resultados  en cuanto a raz&oacute;n de verdaderos positivos esencialmente.     <br> En el uso de  multiclasificadores en Weka, del grupo de los meta, para bases de datos de gran  cantidad de atributos se debe tener cuidado, pues en este estudio los  resultados de varios de ellos no fueron favorables comparados con otros grupos  de clasificadores. No obstante, el <em>MultiClassClassifie</em>r  tuvo un buen aprendizaje con estas bases de datos.    <br> Con el uso de la herramienta  de <em>Splicing</em>, los resultados fueron  satisfactorios seg&uacute;n la exactitud que muestra la combinaci&oacute;n de los algoritmos  en cada base de datos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se puede concluir, luego  de un exhaustivo an&aacute;lisis, que el grupo de algoritmos bayesianos es el que  mejor logra clasificar con todos sus m&eacute;todos las bases de datos <em>Donors</em> y <em>Acceptors</em>. Esto se comprueba dado que en todos los casos logra  maximizar el &aacute;rea bajo la curva ROC, lo que es un indicador de la calidad del  clasificador. Se recomienda el uso de algoritmos que utilicen Redes Bayesianas  para el aprendizaje automatizado en bases de datos del genoma humano con  atributos discretos. </font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AUTORES, C. D. V<em>entajas Y Desventajas Del &Aacute;rbol De Decis&oacute;n. Introducci&oacute;n A La  Programaci&oacute;n. </em>2012. Disponible En:  Http://Ipg3.Blogspot.Com/2012/02/Ventajas-Y-Desventajas-Del-Arbol-De.Html    <br>       <!-- ref --><br>   BOANET, ISIS. Modelo Para La  Clasificaci&oacute;n De Secuencias En Problemas De La Bioinform&aacute;tica, Usando T&eacute;cnicas  De Inteligencia Artificial. Tesis En Opci&oacute;n Al Grado Cient&iacute;fico De Doctor En  Ciencias T&eacute;cnicas. Universidad Central &quot;Marta Abreu&quot; De Las Villas,  Santa Clara, 2008.    <br>       <!-- ref --><br>   CH&Aacute;VEZ C&Aacute;RDENAS, MAR&Iacute;A DEL CARMEN. <em>Modelos De Redes  Bayesianas En El Estudio De Secuencias Gen&oacute;micas Y Otros Problemas Biom&eacute;dicos. </em>Tesis En Opci&oacute;n Al  Grado Cient&iacute;fico De Doctor En Ciencias T&eacute;cnicas. Universidad Central  &quot;Marta Abreu&quot; De Las Villas, Santa Clara, 2008. P&aacute;gs. 80-88.    <br>       <br>   EMBL. Bases De Datos  De Secuencias Nucleot&iacute;dicas.  Consultado En Septiembre De 2014. Disponible En: <a href="http://www.ebi.ac.uk/embl/index.html">Http://Www.Ebi.Ac.Uk/Embl/Index.Html&nbsp;</a>     <br>       <!-- ref --><br>   FAWCETT, T.  Roc Graph: Notes And Practical  Consideration For Researchers Machine Learning , 2004. Consultado En Agosto De 2014. Disponible En:  Https://Home.Comcast.Net/~Tom.Fawcett/Public_Html/Papers/Roc101.Pdf    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   FOLEY, R.  A. Y LEWIN, R. <em>Principles Oh Human Evolution, </em>2004.<em> Segunda Edici&oacute;n. </em>S.L.&nbsp;: Backwell Publishing, Review From Times Education  Supplement, University Of Durham.    <br>       <!-- ref --><br>   GALPERIN,  M. Y. <em>The Molecular Biology Database</em>, 2008.<em>Nucleic Acids Research</em>, 2007 - Oxford Univ Press.    <br>       <br>   GARC&Iacute;A, M. M. <em>Modelo De Un  Sistema De Razonamiento Basado En Casos Para El An&aacute;lisis En La Gesti&oacute;n De  Riesgos, </em>2011.<em> Serie Cient&iacute;fica De La Universidad De Las  Ciencias Inform&aacute;ticas, No. 11, Vol. 4. Disponible En: Http://Publicaciones.Uci.Cu/&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </em>    <br>       <br>   KUNHEVA Y  SHIP. <em>Relationship Between Combination  Methods And Measures Of Diversity In Combining Classifiers,</em>2002. <em>Information  Fusion</em> 3 (2), 135-148     <br>       <br>   LE CESSIE,  S y VAN HOUWELINGEn, J.&nbsp; <em>Ridge Estimators In Logistic Regression, </em>1992. <em>Applications  Statistics</em>. 41 No. 1, Pag. 191-201    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   MITCHELL, T. M.&nbsp; <em>Machine  Learning</em>. Mcgraw-Hill Science/Engineer, 1997.  421  Pags.    <br>       <!-- ref --><br>   MORALES HERN&Aacute;NDEZ, ALEJANDRO. Construcci&oacute;n De  Sistemas Multiclasificadores Usando Algoritmos Gen&eacute;ticos Y Medidas De Diversidad,  2014. Tesis En Opci&oacute;n Al T&iacute;tulo De Licenciado En Ciencia De La Computaci&oacute;n.  Universidad Central &quot;Marta Abreu&quot; De Las Villas, Santa Clara. P&aacute;gs.  14-16.    <br>       <!-- ref --><br>   RICARDO, GRAU, y OTROS. <em>Boolean Algebraic Structures Of The Genetic Code. Possibilities Of  Applications</em>, , 2007. <em>Proceeding  Kdecb'06 Proceedings Of The 1st International Conference On Knowledge Discovery  And Emergent Complexity In Bioinformatics.</em> Springer-Verlag Berlin,  Heidelberg &copy;, <em>Pages</em> 10-21    <br>       <br>   SERRANO, J., TOMECKOV&Aacute;, M., &amp;  ZV&Aacute;ROV&Aacute;, J. (2012). M&eacute;todos De Aprendizaje Autom&aacute;tico Para El Descubrimiento De  Conociemiento En Datos M&eacute;dicos. <em>European Journal For Biomedical Informatics</em>.  Disponibe En:&nbsp;  Http://Www.Ejbi.Org/En/Ejbi/Article/41-Es-Metodos-De-Aprendizaje-Automatico-Para-El-Descubrimiento-De-Conocimiento-En-Datos-Medicos-Sobre-Arterosclerosis.Html    <br>       <!-- ref --><br> WITTEN, IAN  H. Y EIBE, FRANK. Weka Machine Learning Algorithms In  Java, 2000. <em>Data Mining:  Practical Machine Learning Tools And Techniques With Java Implementations. </em>&nbsp;10, P&aacute;gs. 404-417.     </font></p>     ]]></body>
<body><![CDATA[<p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 28/01/2014     <br> Aceptado: 13/05/2015</font> </p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AUTORES]]></surname>
<given-names><![CDATA[C. D]]></given-names>
</name>
</person-group>
<source><![CDATA[Ventajas Y Desventajas Del Árbol De Decisón: Introducción A La Programación]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BOANET]]></surname>
<given-names><![CDATA[ISIS]]></given-names>
</name>
</person-group>
<source><![CDATA[Modelo Para La Clasificación De Secuencias En Problemas De La Bioinformática, Usando Técnicas De Inteligencia Artificial: Tesis En Opción Al Grado Científico De Doctor En Ciencias Técnicas]]></source>
<year>2008</year>
<publisher-loc><![CDATA[^eSanta Clara Santa Clara]]></publisher-loc>
<publisher-name><![CDATA[Universidad Central Marta Abreu De Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHÁVEZ CÁRDENAS]]></surname>
<given-names><![CDATA[MARÍA DEL CARMEN]]></given-names>
</name>
</person-group>
<source><![CDATA[Modelos De Redes Bayesianas En El Estudio De Secuencias Genómicas Y Otros Problemas Biomédicos: Tesis En Opción Al Grado Científico De Doctor En Ciencias Técnicas.]]></source>
<year>2008</year>
<page-range>80-88</page-range><publisher-loc><![CDATA[^eSanta Clara Santa Clara]]></publisher-loc>
<publisher-name><![CDATA[Universidad Central Marta Abreu De Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<collab>EMBL</collab>
<source><![CDATA[Bases De Datos De Secuencias Nucleotídicas]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FAWCETT]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Roc Graph: Notes And Practical Consideration For Researchers Machine Learning]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FOLEY]]></surname>
<given-names><![CDATA[R. A]]></given-names>
</name>
<name>
<surname><![CDATA[LEWIN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Principles Oh Human Evolution]]></source>
<year>2004</year>
<publisher-name><![CDATA[University Of Durham]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GALPERIN]]></surname>
<given-names><![CDATA[M. Y]]></given-names>
</name>
</person-group>
<source><![CDATA[The Molecular Biology Database]]></source>
<year>2008</year>
<publisher-name><![CDATA[Oxford Univ Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Modelo De Un Sistema De Razonamiento Basado En Casos Para El Análisis En La Gestión De Riesgos,.]]></source>
<year>2011</year>
<publisher-name><![CDATA[Serie Científica De La Universidad De Las Ciencias Informáticas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KUNHEVA]]></surname>
<given-names><![CDATA[SHIP]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Relationship Between Combination Methods And Measures Of Diversity In Combining Classifiers]]></article-title>
<source><![CDATA[]]></source>
<year>2002</year>
<volume>3</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>135-148</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LE CESSIE]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[VAN HOUWELINGEn]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ridge Estimators In Logistic Regression]]></article-title>
<source><![CDATA[]]></source>
<year>1992</year>
<volume>41</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>191-201</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MITCHELL]]></surname>
<given-names><![CDATA[T. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Machine Learning: Mcgraw-Hill Science/Engineer]]></source>
<year>1997</year>
<page-range>421</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MORALES HERNÁNDEZ]]></surname>
<given-names><![CDATA[ALEJANDRO]]></given-names>
</name>
</person-group>
<source><![CDATA[Construcción De Sistemas Multiclasificadores Usando Algoritmos Genéticos Y Medidas De Diversidad]]></source>
<year>2014</year>
<page-range>14-16</page-range><publisher-loc><![CDATA[^eSanta Clara Santa Clara]]></publisher-loc>
<publisher-name><![CDATA[Universidad Central Marta Abreu De Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRAU]]></surname>
<given-names><![CDATA[RICARDO]]></given-names>
</name>
</person-group>
<source><![CDATA[Algebraic Structures Of The Genetic Code: Possibilities Of Applications]]></source>
<year>2007</year>
<page-range>10-21</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SERRANO]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[TOMECKOVÁ]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ZVÁROVÁ]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Métodos De Aprendizaje Automático Para El Descubrimiento De Conociemiento En Datos Médicos]]></source>
<year>2012</year>
<publisher-name><![CDATA[European Journal For Biomedical Informatics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WITTEN]]></surname>
<given-names><![CDATA[IAN H]]></given-names>
</name>
<name>
<surname><![CDATA[EIBE]]></surname>
<given-names><![CDATA[FRANK]]></given-names>
</name>
</person-group>
<source><![CDATA[Data Mining: Practical Machine Learning Tools And Techniques With Java Implementations]]></source>
<year></year>
<page-range>404-417</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
