<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000300010</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Análisis de la Escalabilidad del cálculo paralelo de medidas de similitud entre pares de genes]]></article-title>
<article-title xml:lang="en"><![CDATA[Scalability Analysis of the parallel calculation of similarity measures between pair of genes]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Goya Jorge]]></surname>
<given-names><![CDATA[Addel Arnaldo]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cañizares]]></surname>
<given-names><![CDATA[Deborah Galpert]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Millo Sánchez]]></surname>
<given-names><![CDATA[Reinier]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Companioni Brito]]></surname>
<given-names><![CDATA[Claudia]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,universidad central marta abreu de las villas  ]]></institution>
<addr-line><![CDATA[ Santa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>3</numero>
<fpage>130</fpage>
<lpage>143</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000300010&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN El presente trabajo analiza la escalabilidad de una implementación paralela del cálculo de medidas de similitud entre pares en la detección de genes ortólogos. El análisis se realiza mediante el uso de métricas de calidad como la aceleración y la eficiencia que se calculan para algoritmos de cálculo del alineamiento par a par de secuencias y de cálculo de la similitud del perfil físico-químico de las proteínas. Los experimentos realizados en un conjunto de datos de dos genomas arrojan una mejora en el tiempo de ejecución de las implementaciones paralelas. No obstante, la escalabilidad de los algoritmos continúa siendo un objetivo de nuevas implementaciones.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT This paper analyzes the scalability of the parallel implementation of pairwise similarity measures for gene comparison in ortholog gene detection. This analysis is carried out by using metrics such as speedup and efficiency that are calculated for all vs all alignment and physicochemical profile comparisons. The experiments with a dataset of two genomes show an improvement in the execution time of the parallel implementations. However, scalability continues to be a goal for further implementations.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[medidas de similitud]]></kwd>
<kwd lng="es"><![CDATA[programación paralela]]></kwd>
<kwd lng="es"><![CDATA[complejidad temporal]]></kwd>
<kwd lng="es"><![CDATA[escalabilidad]]></kwd>
<kwd lng="en"><![CDATA[similarity measures]]></kwd>
<kwd lng="en"><![CDATA[parallel computing]]></kwd>
<kwd lng="en"><![CDATA[time complexity]]></kwd>
<kwd lng="en"><![CDATA[scalability]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">An&aacute;lisis  de la Escalabilidad del c&aacute;lculo paralelo de medidas de similitud entre pares de  genes</font></strong></font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">Scalability  Analysis of the parallel calculation of similarity measures between pair of  genes</font></strong></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Addel Arnaldo Goya Jorge<strong><sup>1*</sup></strong>,Deborah Galpert Ca&ntilde;izares<strong><sup>1</sup></strong>, Reinier Millo S&aacute;nchez</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup></strong></font><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">, Claudia Companioni Brito</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup></strong></font></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup>Universidad  Central &ldquo;Marta Abreu&rdquo; de Las Villas, Cuba. Carretera Camajuan&iacute; km 5 1/2 Santa  Clara. {agoya, rmillo, ccompanioni}@uclv.cu,  deborah@uclv.edu.cu </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">    ]]></body>
<body><![CDATA[<br> </font></p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span><a href="mailto:agoya@uclv.cu"><font size="2">agoya@uclv.cu</font></a></font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El presente trabajo analiza la  escalabilidad de una implementaci&oacute;n paralela del c&aacute;lculo de medidas de  similitud entre pares en la detecci&oacute;n de genes ort&oacute;logos. El an&aacute;lisis se  realiza mediante el uso de m&eacute;tricas de calidad como la aceleraci&oacute;n y la eficiencia  que se calculan para algoritmos de c&aacute;lculo del alineamiento par a par de  secuencias y de c&aacute;lculo de la similitud del perfil f&iacute;sico-qu&iacute;mico de las  prote&iacute;nas. Los experimentos realizados en un conjunto de datos de dos genomas  arrojan una mejora en el tiempo de ejecuci&oacute;n de las implementaciones paralelas.  No obstante, la escalabilidad de los algoritmos contin&uacute;a siendo un objetivo de  nuevas implementaciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>medidas de similitud,  programaci&oacute;n paralela, complejidad temporal, escalabilidad</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">This paper analyzes the scalability  of the parallel implementation of pairwise similarity measures for gene  comparison in ortholog gene detection. This analysis is carried out by using  metrics such as speedup and efficiency that are calculated for all vs all  alignment and physicochemical profile comparisons. The experiments with a  dataset of two genomes show an improvement in the execution time of the  parallel implementations. However, scalability continues to be a goal for  further implementations. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>similarity  measures, parallel computing, time complexity, scalability.</font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La comparaci&oacute;n  de genes es imprescindible en problemas de la Bioinform&aacute;tica como la  comparaci&oacute;n de genomas, donde se detectan las similitudes entre los genomas  para dar respuesta a interrogantes como la funci&oacute;n de prote&iacute;nas desconocidas  que se encuentran en regiones conservadas (similares) (Kamvysselis, 2003). Aquellas prote&iacute;nas producidas  por genes que generalmente conservan su funci&oacute;n son reconocidas mediante la  detecci&oacute;n de genes llamados ort&oacute;logos entre dos o m&aacute;s genomas. Estos son los  genes que se transfieren de un genoma a otro en la evoluci&oacute;n mediante un evento  de especiaci&oacute;n. Son considerados genes hom&oacute;logos porque tienen un gen ancestro  com&uacute;n en las especies que se estudian (Fitch, 1970). En la detecci&oacute;n de los  ort&oacute;logos, estos deben distinguirse de otro tipo de genes hom&oacute;logos llamados  par&aacute;logos que se producen por un evento de duplicaci&oacute;n en un mismo genoma (Kuzniar et al., 2008).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para detectar  los genes hom&oacute;logos, y en espec&iacute;fico los ort&oacute;logos, se han utilizado m&eacute;todos de  alineamiento de secuencias como el BLAST (Altschul et al., 1997) cuyas puntuaciones se utilizan  para comparar el grado de similitud entre las secuencias. Sin embargo, sucede  que los algoritmos de detecci&oacute;n basados &uacute;nicamente en dicha similitud han sido  fuertemente criticados porque producen falsos positivos ante la presencia de  par&aacute;logos y p&eacute;rdidas de genes (Kuzniar et al., 2008), (Salichos and Rokas, 2011). Adem&aacute;s producen falsos  negativos cuando las secuencias son cortas o divergentes (alejadas en la  evoluci&oacute;n) (Kuzniar et al., 2008). Para complementar la  informaci&oacute;n de similitud de las secuencias se han propuesto otras informaciones  relacionadas con la vecindad conservada de los genes (Kristensen et al., 2011), (Lechner et al., 2014).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el fin de combinar diversas informaciones en la  clasificaci&oacute;n de genes, en (Millo et al., 2014) se han presentado medidas de similitud para comparar  pares de genes y m&eacute;todos de clasificaci&oacute;n que agregan estas medidas en  algoritmos no supervisados o las combinan en modelos supervisados (Galpert et al., 2014), (Galpert et al., 2015) . El enfoque de combinaci&oacute;n de medidas de similitud  abarca dos fases: (i) c&aacute;lculo de medidas de similitud para pares de genes y  (ii) clasificaci&oacute;n por pares. De acuerdo al total de posibles pares de genes de  un par de genomas, as&iacute; como al continuo crecimiento del total de genomas  anotados, en espera de ser comparados para su estudio (Sonnhammer et al., 2014), se hace necesario, en primera instancia, estudiar la  escalabilidad de los algoritmos de c&aacute;lculo de las medidas de similitud y  aplicar t&eacute;cnicas de programaci&oacute;n paralela a este problema, una vez que se  analice la ventaja del uso de estas t&eacute;cnicas en cuanto a su desempe&ntilde;o en tiempo  de ejecuci&oacute;n. Para esto, en este trabajo se analiza el rendimiento de los  algoritmos de c&aacute;lculo de dichas medidas de similitud para pares de genes  mediante m&eacute;tricas de desempe&ntilde;o de implementaciones paralelas como la  aceleraci&oacute;n y la eficiencia.</font> </p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">An&aacute;lisis de la escalabilidad de algoritmos secuenciales y  paralelos </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La escalabilidad  es la habilidad de un sistema o proceso de manejar un aumento creciente en el  volumen de trabajo a realizar de una manera competente, o su habilidad de ser  ampliado para acomodar este crecimiento. Se puede referir a la capacidad de un  sistema de aumentar su salida total bajo una carga aumentada cuando se a&ntilde;aden  recursos (t&iacute;picamente hardware) (Bonvin, 2012). Para analizar la escalabilidad  de algoritmos paralelos en cuanto al tiempo de ejecuci&oacute;n se analiza su  rendimiento en condiciones de aumento de la carga utilizando m&eacute;tricas como la  aceleraci&oacute;n y la eficiencia que se especificar&aacute;n m&aacute;s adelante en esta secci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El rendimiento  de algoritmos secuenciales se eval&uacute;a por su tiempo de ejecuci&oacute;n en funci&oacute;n de  la dimensi&oacute;n del problema, es decir, en funci&oacute;n del tama&ntilde;o de los datos de  entrada. Para este an&aacute;lisis com&uacute;nmente se utiliza la notaci&oacute;n asint&oacute;tica que  permite acotar el tiempo de ejecuci&oacute;n de un algoritmo y as&iacute; especificar su  orden de complejidad temporal (Brassard, 1997). Sin embargo, para analizar la  complejidad temporal de los algoritmos paralelos se deben tener en cuenta  varios factores como son: el tama&ntilde;o del problema, el n&uacute;mero de procesadores y  determinados par&aacute;metros de comunicaci&oacute;n de la plataforma sobre la que se  ejecuta el algoritmo (Grama et al., 2003).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Grama et al., 2003) se plantea que el rendimiento de un algoritmo  paralelo puede ser analizado con una mayor exactitud cuando se compara con su  mejor versi&oacute;n secuencial, o en &uacute;ltima instancia con alguna versi&oacute;n secuencial  del mismo. En base al tiempo de ejecuci&oacute;n de la versi&oacute;n secuencial Ts &nbsp;y el tiempo de la versi&oacute;n  paralela Tp &nbsp;se calculan m&eacute;tricas como la  aceleraci&oacute;n y la eficiencia.</font> </p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La aceleraci&oacute;n <img src="/img/revistas/rcci/v10n3/fo0110316.jpg" alt="fo01" width="38" height="31"> es una medida que captura el  beneficio relativo de resolver un problema en paralelo. Se define como el radio  de tiempo que se toma para resolver un problema en un &uacute;nico elemento de  procesamiento con relaci&oacute;n al tiempo requerido para resolver el mismo problema  con P procesadores. S&oacute;lo un sistema ideal puede lograr una aceleraci&oacute;n igual a  P. Para ilustrar la aceleraci&oacute;n real, es posible utilizar constantes en lugar  de la notaci&oacute;n asint&oacute;tica (Grama et al., 2003) como se ver&aacute; en la siguiente secci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La eficiencia, por otra parte,  es una medida de la fracci&oacute;n de tiempo para la cual un elemento de  procesamiento es &uacute;tilmente empleado. Se define como </font><img src="/img/revistas/rcci/v10n3/fo0210316.jpg" alt="fo02" width="75" height="32"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En un sistema ideal la  eficiencia es 1. En la pr&aacute;ctica la aceleraci&oacute;n es menor que <em>P</em> y la eficiencia est&aacute; entre cero y uno.  La eficiencia de los programas paralelos decrece con el aumento del n&uacute;mero de  elementos procesamiento para un tama&ntilde;o de problema dado (Grama et al., 2003).</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Escalabilidad del c&aacute;lculo paralelo de medidas de similitud  para pares de genes </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n se especifican, en  c&oacute;digo MATLAB (2010), los procedimientos de c&aacute;lculo  de dos medidas de similitud, definidas en (Millo et al., 2014), para comparar una secuencia de  un genoma con todas las secuencias de otro genoma. Estos procedimientos tienen  la mayor complejidad temporal con relaci&oacute;n a los de otras medidas por lo que se  propone su paralelizaci&oacute;n. El primero se corresponde con el c&aacute;lculo del  alineamiento de una secuencia de un genoma con todas las secuencias de otro,  usando el algoritmo secuencial de la <a href="#f01">Figura 1 </a>o el paralelo de la <a href="#f02">Figura 2</a>, y  el segundo, con el c&aacute;lculo de la similitud basada en el perfil f&iacute;sico-qu&iacute;mico  de todas las prote&iacute;nas de ambos genomas usando el algoritmo secuencial de la  <a href="#f03">Figura 3</a> o el paralelo de la <a href="/img/revistas/rcci/v10n3/f0410316.jpg" target="_blank">Figura 4</a>. </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0110316.jpg" alt="f01" width="567" height="220"></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0210316.jpg" alt="f02" width="578" height="204"><a name="f02"></a></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0310316.jpg" alt="f03" width="545" height="291"><a name="f03"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las funciones swaling y  nwalign del MATLAB tienen una complejidad computacional de <em>O(m &times; n)</em>, donde <em>m</em> y <em>n</em> son las longitudes m&aacute;ximas de las  secuencias de cada genoma, y como la longitud m&aacute;xima que puede tener el  alineamiento de las secuencias es <em>m + n</em> entonces la funci&oacute;n calculate_similarity tiene una complejidad de <em>O(m+n)</em>, siendo entonces la complejidad  computacional de la versi&oacute;n secuencial de la similitud basada en el  alineamiento <em>O(N &times; m &times; n)</em>, donde <em>N</em> es el total de ciclos a realizar. Los  tiempos secuencial y paralelo correspondientes al c&aacute;lculo de los alineamientos  son referenciados como T<sub>s1</sub> y T<sub>p1</sub>.</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La funci&oacute;n  calculate_profile_feature tiene una complejidad de <em>O((m + n)<sup>2</sup>)</em>, siendo la complejidad computacional de la  versi&oacute;n secuencial del c&aacute;lculo del perfil f&iacute;sico-qu&iacute;mico <em>O(N &times; (m+n)<sup>2</sup>)</em>. En este caso, los tiempos secuencial y  paralelo correspondientes a este c&aacute;lculo ser&aacute;n referenciados como T<sub>s2</sub>&nbsp;y T<sub>p2 </sub>en las ecuaciones (1) y (2),  respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo en  cuenta la complejidad computacional y la estructura de los algoritmos  secuenciales, los tiempos de ejecuci&oacute;n secuenciales se pueden estimar como:</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n3/fo0310316.jpg" alt="fo03" width="285" height="66"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>t<sub>c</sub></em> indica el tiempo requerido para realizar las  operaciones aritm&eacute;ticas. Para el desarrollo de este trabajo asumiremos el valor  de <em>t<sub>c </sub></em>&oacute;ptimo, <em>t<sub>c</sub> </em>= 1. El tiempo de ejecuci&oacute;n  paralelo T<em><sub>P</sub> </em>se define en  funci&oacute;n del tiempo de c&aacute;lculo y el tiempo de comunicaci&oacute;n entre los  procesadores. En el caso de la versi&oacute;n paralela el tiempo de c&aacute;lculo viene dado  por la distribuci&oacute;n de los <em>N</em> ciclos  entre los <em>P</em> procesadores empleados.  Con la distribuci&oacute;n de los ciclos, pueden darse los casos en que: todos los  procesadores realizan [N/P] &nbsp;iteraciones, o <em>p &lt; P</em> procesadores realizan [N/P]+1&nbsp;iteraciones; por lo que tomando  el peor de los casos, el tiempo de c&aacute;lculo de cada una de las versiones  paralelas se puede estimar como aparece en las ecuaciones (3) y (4):</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/fo0410316.jpg" alt="fo04" width="292" height="66"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El tiempo de  comunicaci&oacute;n entre los procesadores est&aacute; directamente relacionado con la  informaci&oacute;n accedida en la secci&oacute;n secuencial del algoritmo. En los dos casos  que se analizan, en cada iteraci&oacute;n cada uno de los <em>P</em> procesadores necesita recibir la informaci&oacute;n de las secuencias  que se alinean. Siendo <em>m</em> y <em>n</em> las longitudes de las dos secuencias,  el tiempo de comunicaci&oacute;n se expresa como aparece en la ecuaci&oacute;n (5):</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/fo0510316.jpg" alt="fo05" width="306" height="30"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde<em> t<sub>s </sub></em>representa el tiempo  necesario para establecer la comunicaci&oacute;n y preparar la informaci&oacute;n a enviar; y <em>t<sub>w </sub></em>el tiempo necesario  para enviar un valor num&eacute;rico. Para el desarrollo de este trabajo asumiremos  estos valores como &oacute;ptimos,<em> t<sub>s</sub></em>= 0 y<em> t<sub>w</sub></em>= 1. De esta  forma, al combinar la informaci&oacute;n de las ecuaciones (3) y (5) se obtiene una  estimaci&oacute;n del tiempo de ejecuci&oacute;n paralelo para el c&aacute;lculo del alineamiento  (ecuaci&oacute;n (6)) y combinando las ecuaciones (4) y (5) se obtiene una estimaci&oacute;n  del tiempo de ejecuci&oacute;n paralelo para el c&aacute;lculo del perfil (ecuaci&oacute;n (7)).</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/fo0610316.jpg" alt="fo06" width="322" height="79"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Empleando las expresiones TS y  TP para cada uno de los algoritmos, se realiz&oacute; un an&aacute;lisis del comportamiento de  la aceleraci&oacute;n y la eficiencia para diferentes muestras de N, variando la  cantidad de procesadores entre 1 y 6000. En las Figuras <a href="#f05">5</a>,<a href="#f06">6</a>,<a href="#f07">7</a>,<a href="#f08">8</a> se muestran las  gr&aacute;ficas de los resultados obtenidos para un conjunto de datos de comparaci&oacute;n  de los genomas de Sccharomyces Scerevisiae y Schizosaccharomyces Pombe. Para el  caso del alineamiento, el 100% de la muestra est&aacute; dado por las 5006 secuencias  del genoma del S. Pombe que se comparan con una secuencia de S. Scerevisiae, y  para el perfil, por 16324500 pares de secuencias. Se puede observar que al  mantener constante el tama&ntilde;o de la muestra y aumentar la cantidad de  procesadores, el valor de la aceleraci&oacute;n y la eficiencia tienden a disminuir.  No siendo as&iacute; cuando se mantiene constante la cantidad de procesadores y se  aumenta la muestra. Cuando la cantidad de procesadores alcanza el tama&ntilde;o de la  muestra, la aceleraci&oacute;n y la eficiencia comienzan a decrecer hasta que alcance  un valor constante.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0510316.jpg" alt="f05" width="523" height="347"><a name="f05"></a></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0610316.jpg" alt="f06" width="515" height="338"><a name="f06"></a></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n3/f0710316.jpg" alt="f07" width="491" height="335"><a name="f07"></a></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0810316.jpg" alt="f08" width="528" height="343"><a name="f08"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En ocasiones en que es casi  imposible la ejecuci&oacute;n secuencial del algoritmo, estos valores estimados pueden  dar un valor cercano a la realidad. El c&aacute;lculo de las medidas de similitud  empleando ambos algoritmos paralelos fue realizado usando 6 procesadores, por lo  que el algoritmo paralelo para el alineamiento se ejecut&oacute; aproximadamente 5.98  veces m&aacute;s r&aacute;pido que la versi&oacute;n secuencial, con una eficiencia de 0.9968; y el  algoritmo paralelo para el perfil se ejecut&oacute; aproximadamente 5.9971 veces m&aacute;s  r&aacute;pido que la versi&oacute;n secuencial, con una eficiencia de 0.9995.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir de los tiempos de  ejecuci&oacute;n en paralelo de las ecuaciones (6) y (7), se pueden estimar las  complejidades computaciones de cada uno de los algoritmos cuando su ejecuci&oacute;n  es en paralelo. En ambos casos, la expresi&oacute;n ([N/P]+1) se puede tomar como [N/P]. En el caso del algoritmo para  el c&aacute;lculo de la similitud basada en el alineamiento, los elementos <em>2 &times; m &times; n </em>y<em> (m + n) &times; (P + 1)</em> no se  pueden comparar debido a la presencia de <em>P</em>.  Omitiendo los valores de las constantes, su complejidad temporal est&aacute; dada como </font><img src="/img/revistas/rcci/v10n3/fo0710316.jpg" alt="fo07" width="171" height="39"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">, la cual es menor que <em>O</em>(<em>N </em>&times; <em>m </em>&times; <em>n</em>), como se muestra en la ecuaci&oacute;n (8). Por otra parte,  en el algoritmo del c&aacute;lculo del perfil se tiene que <em>m </em>&times; <em>n </em>&pound; (<em>m </em>+ <em>n</em>) &times; (<em>m </em>+ <em>n </em>+ <em>P</em>), por lo que su complejidad temporal es, </font><img src="/img/revistas/rcci/v10n3/fo0810316.jpg" alt="fo08" width="191" height="43"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">la cual es menor que <em>O</em>(<em>N </em>&times;(<em>m</em>+<em>n</em>)<sup>2</sup>),  como se muestra en la ecuaci&oacute;n (9). </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/fo0910316.jpg" alt="fo09" width="287" height="115"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Usando las versiones  secuenciales y paralelas de cada uno de los algoritmos, se calcul&oacute; el tiempo de  ejecuci&oacute;n secuencial y los tiempos de ejecuci&oacute;n en paralelo usando 1, 2, 3 y 4  procesadores. Para esto se utiliz&oacute; una computadora con procesador <em>Intel &reg;  CoreTM i3 CPU M380 </em>a 2.53 <em>GHz</em>, con una memoria <em>RAM DDR3 </em>de  4,0 <em>Gb</em>, con <em>MATLAB(R2010a)(2010)</em>sobre el sistema operativo <em>Windows 7 de  64Bits</em>. Los experimentos fueron realizados sobre el 50% de los pares y el  conjunto total de los pares. Para el caso del c&aacute;lculo del perfil se realiz&oacute; una  selecci&oacute;n aleatoria de 1921 pares que representan el 100%. Las Figuras <a href="#f09">9</a>, <a href="#f10">10</a>,  <a href="#f11">11</a>, <a href="#f12">12</a> muestran los resultados obtenidos. Como se observa en estas figuras los  valores estimados tienen un comportamiento similar entre s&iacute;, al igual que los  valores reales calculados a partir de los tiempos de ejecuci&oacute;n. Los mejores  valores de aceleraci&oacute;n se obtienen para la ejecuci&oacute;n sobre 4 procesadores, pero  con una mayor eficiencia cuando la ejecuci&oacute;n fue sobre 2 procesadores.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Te&oacute;ricamente el valor de la  aceleraci&oacute;n se encuentra acotado por la cantidad de procesadores empleados en  la ejecuci&oacute;n, y la eficiencia oscila en el intervalo [0<em>, </em>1]. Sin  embargo, en este caso la aceleraci&oacute;n es superior a la cantidad de procesadores  empleados en cada ejecuci&oacute;n y el valor de eficiencia es superior a 1. A este  fen&oacute;meno se le conoce como aceleraci&oacute;n super-lineal, es poco com&uacute;n, y se  produce porque cada elemento de procesamiento consume un tiempo inferior a la  raz&oacute;n <em>TS/P</em>. Esto puede estar debido a que la versi&oacute;n paralela  realiza menos trabajo que la versi&oacute;n secuencial, o a factores relacionados con  los recursos que se emplean, como por ejemplo, la memoria cach&eacute; (Grama  et al., 2003).</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f0910316.jpg" alt="f09" width="506" height="332"><a name="f09"></a></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f1010316.jpg" alt="f10" width="499" height="327"><a name="f10"></a></p>     <p align="center"><img src="/img/revistas/rcci/v10n3/f1110316.jpg" alt="f11" width="572" height="340"><a name="f11"></a></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n3/f1210316.jpg" alt="f12" width="500" height="327"><a name="f12"></a></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el uso de la instrucci&oacute;n <strong>parfor</strong> para el c&aacute;lculo en paralelo de  los alineamientos par a par de secuencias y el perfil f&iacute;sico-qu&iacute;mico de las  prote&iacute;nas, se logra reducir la complejidad computacional del c&aacute;lculo de estas  medidas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">No obstante, la habilidad del sistema de  mantener la eficiencia en un valor fijo al incrementar simult&aacute;neamente el  n&uacute;mero de procesadores y el tama&ntilde;o del problema se mantiene como objetivo de  futuras implementaciones. Con esta implementaci&oacute;n no se puede decir que el  sistema es escalable (Grama et al., 2003) en todo su espectro, por lo que  se pretende en pr&oacute;ximos trabajos modificar la implementaci&oacute;n en funci&oacute;n de  mejorar la escalabilidad, necesaria para lograr las clasificaciones de genes.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <p><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif">2010. <em>Matlab </em>[Online]. Available: </font></a><font face="Verdana, Arial, Helvetica, sans-serif"><a href="http://www.mathworks.com">http://www.mathworks.com</a> Accessed 2012. </font></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>ALTSCHUL, S. F., MADDEN, T. L., SCHAFFER, A. A., ZHANG, J., ZHANG, Z.,  MILLER, W. &amp; LIPMAN, D. J. 1997. Gapped BLAST and PSI-BLAST: A new  generation of protein database search programs. <em>Nucleic Acids Research,</em> 25<strong>,</strong> 3389-3402.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>BONVIN, N. 2012. <em>Linear Scalability  of Distributed Applications.</em> </a>&Eacute;COLE POLYTECHNIQUE F&Eacute;D&Eacute;RALE DE LAUSANNE.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>BRASSARD,  G., BRATLEY, T. (ed.) 1997. </a><em>Fundamentos de  Algoritmia, </em>Madrid: Prentice Hall.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>FITCH, W. M. 1970. Distinguishing Homologous from Analogous Proteins. <em>Systematic Zoology Syst Biol,</em> 19<strong>,</strong> 99-113.    </a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>GALPERT, D., MILLO, R., GARC&Iacute;A, M. M., CASAS, G., GRAU, R. &amp; ARCO, L.  2014. Rough Sets in Ortholog Gene Detection.&nbsp;  RSEISP, 2014. Switzerland: LNAI 8537 Springer International Publishing,  161&ndash;168.</a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>GALPERT, D., R&Iacute;O, S. D., HERRERA,  F., ANCEDE-GALLARDO, E., ANTUNES, A. &amp; AG&Uuml;ERO-CHAPIN, G. 2015. </a>An Effective Big Data Supervised Imbalanced Classification  Approach for Ortholog Detection in Related Yeast Species. <em>BioMed Research International </em>[Online], 2015, Article ID 748681.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>GRAMA, A., GUPTA, A., KARYPIS, G. &amp; KUMAR, V. (eds.) 2003. <em>Introduction to Parallel Computing, Second  Edition</em>: Addison Wesley.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>KAMVYSSELIS, M. K. 2003. <em>Computational  comparative genomics: genes, regulation, evolution.</em> Doctor of Philosophy in  Computer Science, Massachusetts Institute of Technology </a> </font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>KRISTENSEN, D. M., WOLF, Y. I., MUSHEGIAN, A. R. &amp; KOONIN, E. V. 2011.  Computational methods for Gene Orthology inference. <em>Briefings in bioinformatics,</em> 12<strong>,</strong> 379-391.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>KUZNIAR, A., HAM, R. C. H. J. V., PONGOR, S. &amp; LEUNISSEN, J. A. M.  2008. The quest for orthologs: finding the corresponding gene across genomes. <em>Trends in Genetics,</em> 30<strong>,</strong> 1-13.    </a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>LECHNER, M., HERNANDEZ-ROSALES, M., DOERR, D., WIESEKE, N., TH&Eacute;VENIN, A.,  STOYE, J., HARTMANN, R. K., PROHASKA, S. J. &amp; STADLER, P. F. 2014.  Orthology Detection Combining Clustering and Synteny for Very Large Datasets. </a><em>PLoS ONE,</em> 9(8)<strong>,</strong> e105015. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>MILLO, R., GALPERT, D., CASAS, G.,  GRAU, R., ARCO, L., GARC&Iacute;A, M. M. &amp; FERN&Aacute;NDEZ, M. A. 2014. Agregaci&oacute;n de  medidas de similitud para la detecci&oacute;n de ort&oacute;logos, validaci&oacute;n con medidas  basadas en la teor&iacute;a de conjuntos aproximados. <em>Computaci&oacute;n y Sistemas,</em> 18(1).</a> </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>SALICHOS, L. &amp; ROKAS, A. 2011.  Evaluating Ortholog Prediction Algorithms in a Yeast Model Clade. <em>PLoS ONE,</em> 6<strong>,</strong> 1-11.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>SONNHAMMER, E. L. L., GABALD&Oacute;N, T.,  SILVA, A. W. S. D., MARTIN, M., ROBINSON-RECHAVI, M., BOECKMANN, B., THOMAS, P.  D. &amp; DESSIMOZ, C. 2014. </a>Big data and other challenges in the  quest for orthologs. <em>Bioinformatics  Editorial</em><strong>,</strong> 1-6.     </font></p>     <p>&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 24/02/2016    <br> Aceptado: 04/07/2016</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Matlab]]></surname>
</name>
</person-group>
<source><![CDATA[Accessed]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ALTSCHUL]]></surname>
<given-names><![CDATA[S. F]]></given-names>
</name>
<name>
<surname><![CDATA[MADDEN]]></surname>
<given-names><![CDATA[T. L]]></given-names>
</name>
<name>
<surname><![CDATA[SCHAFFER]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[MILLER]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[LIPMAN]]></surname>
<given-names><![CDATA[D. J]]></given-names>
</name>
</person-group>
<source><![CDATA[Gapped BLAST and PSI-BLAST: A new generation of protein database search programs]]></source>
<year>1997</year>
<volume>25</volume>
<page-range>3389-3402</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BONVIN]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<source><![CDATA[Linear Scalability of Distributed Applications]]></source>
<year>2012</year>
<publisher-name><![CDATA[ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BRASSARD]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[BRATLEY]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Fundamentos de Algoritmia]]></source>
<year>1997</year>
<publisher-loc><![CDATA[^eMadrid Madrid]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FITCH]]></surname>
<given-names><![CDATA[W. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Distinguishing Homologous from Analogous Proteins]]></source>
<year>1970</year>
<volume>19</volume>
<page-range>99-113</page-range><publisher-name><![CDATA[Systematic Zoology Syst Biol]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GALPERT]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MILLO]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
<name>
<surname><![CDATA[CASAS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[GRAU]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Rough Sets in Ortholog Gene Detection]]></source>
<year>2014</year>
<page-range>161-168</page-range><publisher-name><![CDATA[Springer International Publishing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GALPERT]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[RÍO]]></surname>
<given-names><![CDATA[S. D]]></given-names>
</name>
<name>
<surname><![CDATA[HERRERA]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[ANCEDE-GALLARDO]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[ANTUNES]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[AGÜERO-CHAPIN]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[An Effective Big Data Supervised Imbalanced Classification Approach for Ortholog Detection in Related Yeast Species]]></source>
<year>2015</year>
<publisher-name><![CDATA[BioMed Research International]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRAMA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[GUPTA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[KUMAR]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to Parallel Computing]]></source>
<year>2003</year>
<edition>Second Edition</edition>
<publisher-name><![CDATA[Addison Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KAMVYSSELIS]]></surname>
<given-names><![CDATA[M. K]]></given-names>
</name>
</person-group>
<source><![CDATA[Computational comparative genomics: genes, regulation, evolution]]></source>
<year>2003</year>
<publisher-name><![CDATA[Doctor of Philosophy in Computer Science]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KRISTENSEN]]></surname>
<given-names><![CDATA[D. M]]></given-names>
</name>
<name>
<surname><![CDATA[WOLF]]></surname>
<given-names><![CDATA[Y. I]]></given-names>
</name>
<name>
<surname><![CDATA[MUSHEGIAN]]></surname>
<given-names><![CDATA[A. R]]></given-names>
</name>
<name>
<surname><![CDATA[KOONIN]]></surname>
<given-names><![CDATA[E. V]]></given-names>
</name>
</person-group>
<source><![CDATA[Computational methods for Gene Orthology inference]]></source>
<year>2011</year>
<volume>12</volume>
<page-range>379-391</page-range><publisher-name><![CDATA[Briefings in bioinformatics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KUZNIAR]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HAM]]></surname>
<given-names><![CDATA[R. C. H. J. V]]></given-names>
</name>
<name>
<surname><![CDATA[PONGOR]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[LEUNISSEN]]></surname>
<given-names><![CDATA[J. A. M]]></given-names>
</name>
</person-group>
<source><![CDATA[The quest for orthologs: finding the corresponding gene across genomes]]></source>
<year>2008</year>
<volume>30</volume>
<page-range>1-13</page-range><publisher-name><![CDATA[Trends in Genetics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LECHNER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[HERNANDEZ-ROSALES]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[DOERR]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[WIESEKE]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[THÉVENIN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[STOYE]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[HARTMANN]]></surname>
<given-names><![CDATA[R. K]]></given-names>
</name>
<name>
<surname><![CDATA[PROHASKA]]></surname>
<given-names><![CDATA[S. J]]></given-names>
</name>
<name>
<surname><![CDATA[STADLER]]></surname>
<given-names><![CDATA[P. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Orthology Detection Combining Clustering and Synteny for Very Large Datasets]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>9</volume>
<numero>8</numero>
<issue>8</issue>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MILLO]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[GALPERT]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[CASAS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[GRAU]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
<name>
<surname><![CDATA[FERNÁNDEZ]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Agregación de medidas de similitud para la detección de ortólogos, validación con medidas basadas en la teoría de conjuntos aproximados]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>18</volume>
<numero>1</numero>
<issue>1</issue>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALICHOS]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[ROKAS]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluating Ortholog Prediction Algorithms in a Yeast Model Clade]]></source>
<year>2011</year>
<volume>6</volume>
<page-range>1-11</page-range><publisher-name><![CDATA[PLoS ONE,]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SONNHAMMER]]></surname>
<given-names><![CDATA[E. L. L]]></given-names>
</name>
<name>
<surname><![CDATA[GABALDÓN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[SILVA]]></surname>
<given-names><![CDATA[A. W. S. D]]></given-names>
</name>
<name>
<surname><![CDATA[MARTIN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ROBINSON-RECHAVI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BOECKMANN]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[THOMAS]]></surname>
<given-names><![CDATA[P. D]]></given-names>
</name>
<name>
<surname><![CDATA[DESSIMOZ]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Big data and other challenges in the quest for orthologs]]></source>
<year>2014</year>
<page-range>1-6</page-range><publisher-name><![CDATA[Bioinformatics Editorial]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
