<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1684-1859</journal-id>
<journal-title><![CDATA[Revista Cubana de Informática Médica]]></journal-title>
<abbrev-journal-title><![CDATA[RCIM]]></abbrev-journal-title>
<issn>1684-1859</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Ciencias Médicas de La Habana]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1684-18592016000200005</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Metodología multi-modal en relaciones cuantitativas estructura-actividad]]></article-title>
<article-title xml:lang="en"><![CDATA[Multi-Modal approach in quantitative structure-activity relationships studies]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cabrera-Leyva]]></surname>
<given-names><![CDATA[Lisset]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Madera Quintana]]></surname>
<given-names><![CDATA[Julio Cesar]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[García-Jacas]]></surname>
<given-names><![CDATA[César R.]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Marrero-Ponce]]></surname>
<given-names><![CDATA[Yovani]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Camagüey Facultad de Informática Grupo de Investigación de Inteligencia Artificial (AIRES)]]></institution>
<addr-line><![CDATA[Camagüey ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Pontificia Universidad Católica del Ecuador Sede Esmeraldas (PUCESE) Escuela de Sistemas y Computación ]]></institution>
<addr-line><![CDATA[Esmeraldas ]]></addr-line>
<country>Ecuador</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad San Francisco de Quito (USFQ) Colegio de Ciencias de la Salud (COCSA) Grupo de Medicina Molecular y Traslacional]]></institution>
<addr-line><![CDATA[Quito ]]></addr-line>
<country>Ecuador</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<volume>8</volume>
<numero>2</numero>
<fpage>197</fpage>
<lpage>205</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1684-18592016000200005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1684-18592016000200005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1684-18592016000200005&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Los estudios QSAR definidos en la literatura están basados en enfoques uni-modales, dejando de analizar conjuntos de datos que contienen distintas informaciones químicas. En esta investigación se propone aplicar por primera vez y analizar el comportamiento del enfoque multi-modal en el desarrollo de estudios QSAR. Para este fin se utilizó una base de compuestos con actividad hepatotóxica, a partir de la cual se construyeron cuatro modalidades considerando distintos descriptores moleculares basados en diversas teorías y enfoques. Se desarrollaron varios modelos usando los enfoques uni-modales y multi-modales utilizando algoritmos de clasificación reportados en la literatura e implementados en el lenguaje R. Los parámetros de cada uno de los algoritmos se optimizaron con el procedimiento "parametertuningwithrepeatedgrid-searchcross-validation", mientras la validación de dichos modelos se realizó mediante validación cruzada de 10 pliegues con 10 repeticiones. Estadísticamente se comprobó que el enfoque multimodal mejora el desempeño de los modelos predictivos comparado con algunos de los modelos derivados de los conjuntos de datos con modalidades individuales.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The QSAR studies defined in the literature are based on uni-modal approaches and do not consider datasets with different chemical information. Thus, this research has as objective to apply and analyze the behavior of multi-modal approaches when QSAR studies are carried out. To this end, a compound dataset with hepatotoxicity activity was employed and four modalities were built considering molecular descriptors based on different mathematical theories. Also, several predictive models were developed taking into account both uni-modal and multi-modal approaches by using classification algorithms reported in the literature and implemented in R language. The parameters of these algorithms with the procedure "parameter tuning with repeated grid-search cross-validation" were optimized, while the strategy 10-fold cross-validation with 10 repetitions was used to corroborate the predictive accuracy of the models. As result of this study it can be stated that the behavior of the models based on multi-modal approach present significant differences with to those models developed from uni-modal approaches.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[enfoque multi-modal]]></kwd>
<kwd lng="es"><![CDATA[enfoque uni-modal]]></kwd>
<kwd lng="es"><![CDATA[estudios QSAR]]></kwd>
<kwd lng="en"><![CDATA[multi-modal approach]]></kwd>
<kwd lng="en"><![CDATA[uni-modal approach]]></kwd>
<kwd lng="en"><![CDATA[QSAR studies]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2" face="Verdana"><b>ART&Iacute;CULO ORIGINAL</b></font></p>     <p align="right">&nbsp;</p>     <p align="left"><font size="4" face="Verdana"><strong>Metodolog&iacute;a multi-modal    en relaciones cuantitativas estructura-actividad</strong> </font></p>     <p align="left">&nbsp;</p>     <p align="left"><strong><font size="3" face="Verdana">Multi-Modal approach in    quantitative structure-activity relationships studies</font></strong></p>     <p align="left">&nbsp;</p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana"><strong><font size="2">Lisset Cabrera-Leyva,<strong><font face="Verdana"><sup>I</sup></font></strong>    Julio Cesar Madera Quintana,<strong><font face="Verdana"><sup>I</sup></font></strong>    C&eacute;sar R. Garc&iacute;a-Jacas,<strong><font face="Verdana"><sup>I</sup></font><font size="2"><strong><font face="Verdana"><sup>I</sup></font></strong></font></strong>    Yovani Marrero-Ponce<strong><font face="Verdana"><sup>I</sup></font><font size="2"><strong><font face="Verdana"><sup>I</sup></font></strong></font><font face="Verdana"><sup>I</sup></font></strong></font></strong></font></p> <font face="Verdana">      <P><font size="2">I Grupo de Investigaci&oacute;n de Inteligencia Artificial (AIRES),    Facultad de Inform&aacute;tica, Universidad de Camag&uuml;ey, Camag&uuml;ey,    Cuba. E-mail: <a href="mailto:lisset.cabrera@reduc.edu.cu">lisset.cabrera@reduc.edu.cu</a>    <br>   II Escuela de Sistemas y Computaci&oacute;n, Pontificia Universidad Cat&oacute;lica    del Ecuador Sede Esmeraldas (PUCESE), Esmeraldas, Ecuador.    ]]></body>
<body><![CDATA[<br>   Grupo de Investigaci&oacute;n de Bioinform&aacute;tica, Centro de Estudio de    Matem&aacute;tica Computacional (CEMC), Universidad de las Ciencias Inform&aacute;ticas    (UCI), La Habana, Cuba.    <br>   III Universidad San Francisco de Quito (USFQ), Grupo de Medicina Molecular y    Traslacional (MeM&amp;T), Colegio de Ciencias de la Salud (COCSA), Quito, Ecuador.</font>    <br>  </font>     <p>&nbsp;</p> <hr> <strong><font size="2" face="Verdana">RESUMEN</font></strong>      <P><font size="2" face="Verdana"> Los estudios QSAR definidos en la literatura    est&aacute;n basados en enfoques uni-modales, dejando de analizar conjuntos    de datos que contienen distintas informaciones qu&iacute;micas. En esta investigaci&oacute;n    se propone aplicar por primera vez y analizar el comportamiento del enfoque    multi-modal en el desarrollo de estudios QSAR. Para este fin se utiliz&oacute;    una base de compuestos con actividad hepatot&oacute;xica, a partir de la cual    se construyeron cuatro modalidades considerando distintos descriptores moleculares    basados en diversas teor&iacute;as y enfoques. Se desarrollaron varios modelos    usando los enfoques uni-modales y multi-modales utilizando algoritmos de clasificaci&oacute;n    reportados en la literatura e implementados en el lenguaje R. Los par&aacute;metros    de cada uno de los algoritmos se optimizaron con el procedimiento &quot;parametertuningwithrepeatedgrid-searchcross-validation&quot;,    mientras la validaci&oacute;n de dichos modelos se realiz&oacute; mediante validaci&oacute;n    cruzada de 10 pliegues con 10 repeticiones. Estad&iacute;sticamente se comprob&oacute;    que el enfoque multimodal mejora el desempe&ntilde;o de los modelos predictivos    comparado con algunos de los modelos derivados de los conjuntos de datos con    modalidades individuales. </font>     <P><font size="2" face="Verdana"><strong>Palabras Clave:</strong> enfoque multi-modal,    enfoque uni-modal, estudios QSAR.</font> <hr> <font size="2" face="Verdana"><strong>ABSTRACT</strong></font>     <P><font size="2" face="Verdana"> The QSAR studies defined in the literature are    based on uni-modal approaches and do not consider datasets with different chemical    information. Thus, this research has as objective to apply and analyze the behavior    of multi-modal approaches when QSAR studies are carried out. To this end, a    compound dataset with hepatotoxicity activity was employed and four modalities    were built considering molecular descriptors based on different mathematical    theories. Also, several predictive models were developed taking into account    both uni-modal and multi-modal approaches by using classification algorithms    reported in the literature and implemented in R language. The parameters of    these algorithms with the procedure &quot;parameter tuning with repeated grid-search    cross-validation&quot; were optimized, while the strategy 10-fold cross-validation    with 10 repetitions was used to corroborate the predictive accuracy of the models.    As result of this study it can be stated that the behavior of the models based    on multi-modal approach present significant differences with to those models    developed from uni-modal approaches. </font>     <P><font size="2" face="Verdana"><strong>Key Words:</strong> multi-modal approach,    uni-modal approach, QSAR studies. </font> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="3" face="Verdana"><strong>INTRODUCCI&Oacute;N</strong> </font></p>     <P><font size="2" face="Verdana">Las enfermedades neopl&aacute;sicas constituyenun    importante problema de salud a nivel mundial. En Am&eacute;rica Latina anualmente    mueren m&aacute;s de un mill&oacute;n de personas por esta enfermedad, mientras    en Cuba el c&aacute;ncer constituye desde el 2012 la primera causa de muerte.    Espec&iacute;ficamente el 2014 cerr&oacute; con una tasa de 215.5 fallecidos    por cada 100 000 habitantes. </font>     <P><font size="2" face="Verdana">Entre las enfermedades neopl&aacute;sicas de    mayor inter&eacute;s son aquellas asociadas con el h&iacute;gado al ser este    uno de los &oacute;rganos imprescindibles para la vida. La hepatotoxicidad (HTX)    tambi&eacute;n llamada enfermedad hep&aacute;tica t&oacute;xica o c&aacute;ncer    de h&iacute;gado inducida por medicamentos se define como la lesi&oacute;n o    da&ntilde;o hep&aacute;tico causado por la exposici&oacute;n a un medicamento    u otros agentes no farmacol&oacute;gicos.<sup>1</sup> </font>     <P><font size="2" face="Verdana">Para el estudio de esta enfermedad pueden ser    aplicados m&eacute;todos computacionales para comprender y explicar la relaci&oacute;n    existente entre las caracter&iacute;sticas moleculares y su actividad o efecto    en el organismo, los que son conocidos como estudios QSAR. Estos est&aacute;n    dirigidos a encontrar buenas correlaciones entre las caracter&iacute;sticas    o descriptores moleculares y actividades biol&oacute;gicas espec&iacute;ficas    para as&iacute; obtener modelos con buena capacidad de predicci&oacute;n en    nuevas entidades qu&iacute;micas.<sup>1</sup> </font>     <P><font size="2" face="Verdana">Hasta la fecha los m&eacute;todos QSAR definidos    en la literatura est&aacute;n basados en enfoques uni-modales, es decir, una    &uacute;nica base compuesta por el mismo tipo de descriptor molecular (DM) [ej.    descriptores topol&oacute;gicos] y/o calculada por un solo software. Este enfoque    tiene dos desventajas principales: 1) si el conjunto de datos solamente contiene    informaci&oacute;n topol&oacute;gica entonces no se considera informaci&oacute;n    geom&eacute;trica y viceversa, y 2) si los DMs son calculados con un solo software    entonces no se toman en cuenta DMs calculados con definiciones matem&aacute;ticas    diferentes y calculadas con otras herramientas computacionales. </font>     <P><font size="2" face="Verdana">Diferentes investigaciones han reportado que    los enfoques multimodales mejoran el desempe&ntilde;o comparado con los mejores    modelos derivados de los conjuntos de datos con modalidades individuales.<sup>2</sup>    El objetivo de este estudio es aplicar por primera vez y analizar el comportamiento    del enfoque multi-modal en el desarrollo de estudios QSAR con el prop&oacute;sito    de predecir qu&eacute; compuestos pueden presentar actividad hepatot&oacute;xica.    </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong> MATERIALES Y M&Eacute;TODOS</strong></font>      <P><strong><font size="2" face="Verdana"> Conjunto de datos qu&iacute;micos </font>    </strong>      <P><font size="2" face="Verdana">Para llevar a cabo este estudio se utiliz&oacute;    la base de compuestos con actividad hepatot&oacute;xica disponible en: <a href="http://padel.nus.edu.sg/software/padelddpredictor/mdels/toxicity/hepatotoxicity/20110523/" target="_blank">http://padel.nus.edu.sg/software/padelddpredictor/mdels/toxicity/hepatotoxicity/20110523/</a>.    Esta base ha sido empleada en otros estudios<sup>3</sup> y la misma est&aacute; constituida    por 1087 mol&eacute;culas no cogen&eacute;ricas (que no pertenecen a la misma    familia qu&iacute;mica)de las cuales 654 son hepatot&oacute;xicas y 433 no hepatot&oacute;xicas.    </font>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Para realizar el presente estudio se calcularon,    en el conjunto de compuestos qu&iacute;micos considerado, distintos DMs basados    en diversas teor&iacute;as y enfoques, utilizando los siguientes software: DRAGON,<sup>4</sup>    PaDEL-Descriptor<sup>5</sup> y QuBiLS-MIDAS.<sup>6</sup> Los DMs determinados    por cada uno de estos programas se agruparon acorde a su definici&oacute;n matem&aacute;tica    y al tipo de informaci&oacute;n qu&iacute;mica codificada en los grupos que    se mencionan a continuaci&oacute;n: </font>      <P><font size="2" face="Verdana">- <strong>Otros_Dragon-Padel:</strong> en esta    base se encuentran los DMs de tipo conteo, fragmentos y huellas (fingerprints)    calculados con los software DRAGON y PADEL. EstosDMs son identificadoscomo:    0D-DMs, 1D-DMs, 2D binary fingerprints y 2D frequency fingerprints del software    Dragon; CDK extended fingerprint, Estate fingerprint, MACCS fingerprint, Substructure    fingerprint count y Klekota-Roth fingerprint del software PaDEL. </font>      <P><font size="2" face="Verdana">- <strong>2D_Dragon-Padel:</strong> en esta base    se encuentran los DMs de tipo topol&oacute;gico calculados con los programas    DRAGON y PADEL. </font>      <P><font size="2" face="Verdana">- <strong>3D_Dragon-Padel:</strong> en esta base    se encuentran los DMs de tipo geom&eacute;tricos calculados con los programas    DRAGON y PADEL. </font>      <P><font size="2" face="Verdana">- <strong>3D_QuBiLS-MIDAS:</strong> en esta base    se encuentran los DMs de tipo geom&eacute;tricos calculados con el software    QuBiLS-MIDAS. Estos &iacute;ndices 3D est&aacute;n basados en &aacute;lgebra    tensorial y emplean diferentes m&eacute;tricas de distancia y multi-m&eacute;tricas    para codificar informaci&oacute;n para relaciones entre dos, tres y cuatro &aacute;tomos.    </font>      <P><font size="2" face="Verdana">Como el c&aacute;lculo de estos DMs conlleva    a un espacio de alta dimensionalidad entonces se realizaron los siguientes pasos    con el prop&oacute;sito de encontrar un subconjunto adecuado para cada conjunto    considerado y obtener un buen desempe&ntilde;o por los algoritmos de clasificaci&oacute;n:    </font>     <P><font size="2" face="Verdana">1- Se normalizaron los rangos de cada rasgo (DMs)    en el intervalo de [0-1] con el m&eacute;todo Caracter&iacute;stica de Escala    definido por Y. Marrero Ponce y colaboradores.<sup>1</sup></font>      <P><font size="2" face="Verdana"> </font><font size="2" face="Verdana">2- Se aplicaron    tres filtros para remover los rasgos con informaci&oacute;n redundante e irrelevante:    </font>     <br>   <font size="2" face="Verdana">- Filtro Varianza cercana a cero: remueve aquellos    rasgos (DMs) donde los valores son constantes o casi constantes. Para este fin,    se utiliz&oacute; la funci&oacute;n nearZeroVar del paquete caret implementado    en el lenguaje R.    <br>   </font><font size="2" face="Verdana">- Filtro Rango inter-cuart&iacute;lico    (IQR): este filtro fue usado para eliminar algunos rasgos con baja variabilidad    (IQR cercana a 0) porque no son capaces de discriminar a trav&eacute;s de diferentes    tipos de clases.    ]]></body>
<body><![CDATA[<br>   </font><font size="2" face="Verdana">- Filtro Correlaci&oacute;n: elimina aquellos    rasgos con una correlaci&oacute;n mayor que 0.9. Para ello se utiliz&oacute;    la funci&oacute;n find Correlation del paquete caret implementado en el lenguaje    R. (<a href="/img/revistas/rcim/v8n2/t0105216.gif">Tabla 1</a>)</font>      <P><strong><font size="2" face="Verdana">Modelado </font> </strong>     <P><font size="2" face="Verdana">Con el prop&oacute;sito de analizar el desempe&ntilde;o    de la capacidad predictiva de los modelos a desarrollar se usaron dos tipos    de enfoques descritos a continuaci&oacute;n (ver Figuras <a href="#fig1">1</a>    y <a href="#fig2">2</a> para una representaci&oacute;n gr&aacute;fica): </font>      <P><font size="2" face="Verdana">- Enfoque uni-modal (enfoque tradicional): selecci&oacute;n    de rasgos y m&eacute;todos de clasificaci&oacute;n supervisada a un conjunto    de datos con un mismo tipo de informaci&oacute;n (modalidad &uacute;nica). </font>      <P><font size="2" face="Verdana">- Enfoque multi-modal: selecci&oacute;n de rasgos    y m&eacute;todos de clasificaci&oacute;n supervisada a conjunto de datos con    m&uacute;ltiples modalidades para obtener modelos predictivos. </font>      <P>      <P align="center"><img src="/img/revistas/rcim/v8n2/f0105216.jpg" width="320" height="204"> <a name="fig1"></a>     <P><font size="2" face="Verdana">En el enfoque uni-modal se analiz&oacute; cada    conjunto de datos de manera independiente en dos partes: uno sin seleccionar    atributos y otro con selecci&oacute;n de atributos. Por otra parte en el enfoque    multi-modal se aplic&oacute; selecci&oacute;n de atributos a cada conjunto de    datos de forma independiente y se concatenaron los DMs (rasgos) resultantes    de esa selecci&oacute;n. La t&eacute;cnica de selecci&oacute;n utilizada en    ambos casos es el algoritmo CFS correspondiente al paquete caret implementado    en el lenguaje R. </font>      <P align="center"><img src="/img/revistas/rcim/v8n2/f0205216.jpg" width="321" height="203"> <a name="fig2"></a>     <P><font size="2" face="Verdana">Para el desarrollo de los modelos QSAR se utilizaron    los siguientes algoritmos de clasificaci&oacute;n: </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">- Algoritmo K-vecinos m&aacute;s cercanos: se    optimiz&oacute; el par&aacute;metro . Se utiliz&oacute; la funci&oacute;n knn    del paquete caret implementado en el lenguaje R. Los mejores modelos fueron    obtenidos con . </font>      <P><font size="2" face="Verdana">- Algoritmo M&aacute;quina de soporte vectorial:    se usaron las funciones kernel lineal, radial y polinomial. Tambi&eacute;n se    optimizaron los par&aacute;metros sigma(?) con los valores 0.01, 0.1, 0.2, 1    y el par&aacute;metro C con los valores 0.001,0.01, 0.1, 1, 10, 100,1000. Se    utilizaron las funciones svmLinear, svmRadial, svmPoly del paquete carety del    paquete kernlab implementado en el lenguaje R. Los mejores modelos fueron obtenidos    con sigma = 0.01 y C = 0.01 y 0.001. </font>      <P><font size="2" face="Verdana">- Algoritmo Redes bayesianas: se utiliz&oacute;    la funci&oacute;n nbdel paquete caret y del paquete kernlab implementado en    el lenguaje R. </font>      <P><font size="2" face="Verdana">- Algoritmo An&aacute;lisis discriminante lineal:    se utiliz&oacute; la funci&oacute;n lda del paquete caret implementado en el    lenguaje R. </font>      <P><font size="2" face="Verdana">- Algoritmo Modelos lineal generalizados: se    utiliz&oacute; la funci&oacute;n glm del paquete caret implementado en el lenguaje    R. </font>      <P><font size="2" face="Verdana">Para validar los modelos QSAR desarrollados se    utiliz&oacute; el procedimiento 10-fold cross-validation con 10 repeticiones.<sup>7</sup>    Para optimizar los par&aacute;metros de los algoritmos de clasificaci&oacute;n    fue empleado el algoritmo parametertuningwithrepeatedgrid-searchcross-validation,<sup>7</sup>    el mismo devuelve el par&aacute;metro optimizado con m&iacute;nimo error medio    de validaci&oacute;n cruzada.</font>      <P><font size="2" face="Verdana">Para evaluar la calidad de los algoritmos de    clasificaci&oacute;n se utilizaron las medidas siguientes: </font>     <P><font size="2" face="Verdana">- El &aacute;rea debajo de la curva ROC (AUC):    </font> <font size="2" face="Verdana">(2) </font>      <P><font size="2" face="Verdana">- Sensibilidad: mide la proporci&oacute;n de    los positivos que son correctamente identificados: </font><font size="2" face="Verdana">(3)    </font>      <P><font size="2" face="Verdana">- Especificidad: mide la proporci&oacute;n de    los negativos que son identificados correctamente: (</font><font size="2" face="Verdana">4)</font>      ]]></body>
<body><![CDATA[<P>      <P align="center">      <P align="center">     <P align="center">     <P>      <P><strong><font size="3" face="Verdana">RESULTADOS Y DISCUSI&Oacute;N</font>    </strong>     <P><font size="2" face="Verdana">Para evaluar los resultados alcanzados se compararon    las medidas SEN, SPE y AUC. Para el procesamiento estad&iacute;stico de todos    los resultados experimentales se us&oacute; el KEEL<sup>8</sup> en su versi&oacute;n    3.0. Los resultados obtenidos en cada una de las bases con cada uno de los algoritmos    de clasificaci&oacute;n son mostrados en las <a href="#tab2">tabla 2</a> y en    las figuras <a href="#fig3">3</a> y <a href="#fig4">4</a>. </font>      <P align="center"><img src="/img/revistas/rcim/v8n2/t0205216.gif" width="570" height="468"> <a name="tab2"></a>      <P align="center"><img src="/img/revistas/rcim/v8n2/f0305216.jpg" width="554" height="261"><a name="fig3"></a>     <P align="center"><img src="/img/revistas/rcim/v8n2/f0405216.jpg" width="552" height="251"><a name="fig4"></a>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Particularmente se puede ver que de los 5 conjuntos    de datos analizados los conjuntos 3D_ToMoCoMD (una modalidad del enfoque Uni-modal)    y Data_concat (enfoque Multi-modal) tienen un comportamiento similar entre s&iacute;    y superior a los restantes modalidades.</font>     <P><font size="2" face="Verdana">Para el an&aacute;lisis estad&iacute;stico de    los resultados se utilizaron las t&eacute;cnicas de prueba de hip&oacute;tesis.<sup>9</sup>    Para comparaciones m&uacute;ltiples se utiliza el test de Friedman para detectar    diferencias estad&iacute;sticas globales entre un grupo de resultados. Se emplea    adem&aacute;s la prueba Wilcoxon para determinar dife- rencias estad&iacute;sticas    particulares entre los enfoques considerados. </font>      <P><font size="2" face="Verdana">En la <a href="#tab3">tabla 3</a> se puede observar    que el mejor ranking para la medida AUC es obtenido por el enfoque multi-modal    (dataSet_Concatenated).El p-value calculado por el test de Friedman es 0.000176.    De esta forma se confirma el objetivo de la presente investigaci&oacute;n al    ser el enfoque multi-modal el de mejor comportamiento. </font>     <P align="center"><img src="/img/revistas/rcim/v8n2/t0305216.gif" width="519" height="154"> <a name="tab3"></a>     <P><font size="2" face="Verdana">Por otro lado en las figuras <a href="/img/revistas/rcim/v8n2/f0505216.jpg">5</a>    y <a href="#fig6">6</a> se muestran los resultados de la prueba de Wilcoxon    para el enfoque multi-modal con respecto a cada modalidad individual con respecto    a la medida AUC. </font>     <P align="center"><img src="/img/revistas/rcim/v8n2/f0605216.jpg" width="407" height="129"> <a name="fig6"></a>     <P><font size="2" face="Verdana">Como se puede ver las modalidades individuales    2D_Dragon-Padel, 3D_ Dragon-Padel y otros_ Dragon-Padel son significativamente    inferiores al enfoque multi-modal, mientras la modalidad individual 3D-ToMoCoMD    no arroj&oacute; diferencias significativas con respecto al enfoque multi-modal,    aunque este &uacute;ltimo si tiene un mejor comportamiento. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>CONCLUSIONES</strong> </font>      <P><font size="2" face="Verdana">En este estudio se analiz&oacute; el comportamiento    del enfoque Multi-modal en el desarrollo de los estudios QSAR (an&aacute;lisis    desarrollado por primera vez) para identificar los compuestos de acuerdo con    las actividades biol&oacute;gicas, utilizando la base hepatot&oacute;xica. </font>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Se demostr&oacute; estad&iacute;sticamente que    el enfoque multimodal en los estudios QSAR mejora el desempe&ntilde;o comparado    con algunos los modelos derivados de los conjuntos de datos con modalidades    individuales, con otras modalidades individuales como por ejemplo 3D-ToMoCoMD    mostr&oacute; un comportamiento similar. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>REFERENCIAS BIBLIOGR&Aacute;FICAS </strong></font>      <!-- ref --><P><font size="2" face="Verdana">1. Marrero Y, Santiago O-M, L&oacute;pez Y-M,    Barigye S-J, Torrens F. &quot;Derivatives in discrete mathematics: a novel graph-theoretical    invariant for generating new 2/3D molecular descriptors. I. Theory and QSPR    application&quot;. Journal of computer-aided molecular design. vol. 26, pp.    1229-1246, 2012.     </font>      <!-- ref --><P><font size="2" face="Verdana">2. Ray B, Henaff M, Ma S, Efstathiadis E, Peskin    E-R, Picone M, Poli T, Aliferis C-F, Statnikov A. &quot;Information content    and analysis methods for Multi-Modal High-Throughput Biomedical Data&quot;.    Scientific reports. vol. 4, 2014.     </font>      <!-- ref --><P><font size="2" face="Verdana">3. Liew C-Y, Lim Y-C, Yap C-W. &quot;Mixed learning    algorithms and features ensemble in hepatotoxicity prediction&quot;. Journal    of computer-aided molecular design. vol. 25, pp. 855-871, 2011.     </font>      <!-- ref --><P><font size="2" face="Verdana">4. Mauri A, Consonni V, Pavan M, Todeschini R.    &quot;Dragon software: An easy approach to molecular descriptor calculations&quot;.    Match. vol. 56, pp. 237-248, 2006.     </font>      <!-- ref --><P><font size="2" face="Verdana">5. Yap CW. &quot;PaDEL?descriptor: An open source    software to calculate molecular descriptors and fingerprints&quot;. Journal    of computational chemistry. vol. 32, pp. 1466-1474, 2011.     </font>      <!-- ref --><P><font size="2" face="Verdana">6. Garc&iacute;a C. R, Marrero Y, Ponce L, Barigye    S. J, Vald&eacute;s J. R, Contreras E. &quot;QuBiLS?MIDAS: A parallel free?software    for molecular descriptors computation based on multilinear algebraic maps&quot;.    Journal of computational chemistry. vol. 35, pp. 1395-1409, 2014.     </font>      <!-- ref --><P><font size="2" face="Verdana">7. Krstajic D, Buturovic L. J, Leahy D. E, Thomas    S. &quot;Cross-validation pitfalls when selecting and assessing regression and    classification models&quot;. Journal of cheminformatics. vol. 6, pp. 1-15, 2014.        </font>      <!-- ref --><P><font size="2" face="Verdana">8. Alcal&aacute; J, Fern&aacute;ndez A, Luengo    J, Derrac J, Garc&iacute;a S, S&aacute;nchez L, Herrera F. &quot;Keel data-mining    software tool: Data set repository, integration of algorithms and experimental    analysis framework&quot;. Journal of Multiple-Valued Logic and Soft Computing.    vol. 17, pp. 255-287, 2010.     </font>      <!-- ref --><P><font size="2" face="Verdana">9. Sheskin D. &quot;Handbook of parametric and    nonparametric statistical procedures, chapman &amp; hall&quot;. presented at    the CRC, 2003.     </font>     <P>&nbsp;     <P>&nbsp;     <P><font size="2" face="Verdana">Recibido: 22 de marzo de 2016.    <br>   Aprobado: 12 de mayo de 2016.</font>      <P>      <P>       ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marrero]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Santiago]]></surname>
<given-names><![CDATA[O-M]]></given-names>
</name>
<name>
<surname><![CDATA[López]]></surname>
<given-names><![CDATA[Y-M]]></given-names>
</name>
<name>
<surname><![CDATA[Barigye]]></surname>
<given-names><![CDATA[S-J]]></given-names>
</name>
<name>
<surname><![CDATA[Torrens]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D molecular descriptors. I. Theory and QSPR application"]]></article-title>
<source><![CDATA[Journal of computer-aided molecular design.]]></source>
<year>2012</year>
<volume>26</volume>
<page-range>1229-1246</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ray]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Henaff]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Ma]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Efstathiadis]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Peskin]]></surname>
<given-names><![CDATA[E-R]]></given-names>
</name>
<name>
<surname><![CDATA[Picone]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Poli]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Aliferis]]></surname>
<given-names><![CDATA[C-F]]></given-names>
</name>
<name>
<surname><![CDATA[Statnikov]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA["Information content and analysis methods for Multi-Modal High-Throughput Biomedical Data"]]></article-title>
<source><![CDATA[Scientific reports]]></source>
<year>2014</year>
<volume>4</volume>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Liew]]></surname>
<given-names><![CDATA[C-Y]]></given-names>
</name>
<name>
<surname><![CDATA[Lim]]></surname>
<given-names><![CDATA[Y-C]]></given-names>
</name>
<name>
<surname><![CDATA[Yap]]></surname>
<given-names><![CDATA[C-W]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["Mixed learning algorithms and features ensemble in hepatotoxicity prediction"]]></article-title>
<source><![CDATA[Journal of computer-aided molecular design.]]></source>
<year>2011</year>
<volume>25</volume>
<page-range>855-871</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mauri]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Consonni]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Pavan]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Todeschini]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["Dragon software: An easy approach to molecular descriptor calculations"]]></article-title>
<source><![CDATA[Match]]></source>
<year>2006</year>
<volume>56</volume>
<page-range>237-248</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Yap]]></surname>
<given-names><![CDATA[CW]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["PaDEL?descriptor: An open source software to calculate molecular descriptors and fingerprints".]]></article-title>
<source><![CDATA[Journal of computational chemistry.]]></source>
<year>2011</year>
<volume>32</volume>
<page-range>1466-1474</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[C. R]]></given-names>
</name>
<name>
<surname><![CDATA[Marrero]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Ponce]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Barigye]]></surname>
<given-names><![CDATA[S. J]]></given-names>
</name>
<name>
<surname><![CDATA[Valdés]]></surname>
<given-names><![CDATA[J. R]]></given-names>
</name>
<name>
<surname><![CDATA[Contreras]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["QuBiLS?MIDAS: A parallel free?software for molecular descriptors computation based on multilinear algebraic maps".]]></article-title>
<source><![CDATA[Journal of computational chemistry.]]></source>
<year>2014</year>
<volume>35</volume>
<page-range>1395-1409</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Krstajic]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Buturovic]]></surname>
<given-names><![CDATA[L. J]]></given-names>
</name>
<name>
<surname><![CDATA[Leahy]]></surname>
<given-names><![CDATA[D. E]]></given-names>
</name>
<name>
<surname><![CDATA[Thomas]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["Cross-validation pitfalls when selecting and assessing regression and classification models"]]></article-title>
<source><![CDATA[Journal of cheminformatics.]]></source>
<year>2014</year>
<volume>6</volume>
<page-range>1-15</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Alcalá]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Luengo]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Derrac]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Herrera]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA["Keel data-mining software tool: Data set repository, integration of algorithms and experimental analysis framework".]]></article-title>
<source><![CDATA[Journal of Multiple-Valued Logic and Soft Computing.]]></source>
<year>2010</year>
<volume>17</volume>
<page-range>255-287</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sheskin]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA["Handbook of parametric and nonparametric statistical procedures, chapman & hall"]]></source>
<year>2003</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
