<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992017000200004</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[SemClustDML: algoritmo para agrupar artículos científicos basado en la información brindada por las referencias bibliográficas]]></article-title>
<article-title xml:lang="en"><![CDATA[SemClustDML: algorithm to clustering scientific papers based on information provided by bibliographic references]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Amador]]></surname>
<given-names><![CDATA[Lisvandy]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[María M]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Gálvez Lío]]></surname>
<given-names><![CDATA[Daniel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Magdaleno]]></surname>
<given-names><![CDATA[Damny]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto de Biotecnología de las Plantas  ]]></institution>
<addr-line><![CDATA[Santa Clara Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Central Marta Abreu de Las Villas Departamento de Computación ]]></institution>
<addr-line><![CDATA[ Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Metropolitana del Ecuador (UMET)  ]]></institution>
<addr-line><![CDATA[ Quito]]></addr-line>
<country>Ecuador</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2017</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2017</year>
</pub-date>
<volume>11</volume>
<numero>2</numero>
<fpage>46</fpage>
<lpage>60</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992017000200004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992017000200004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992017000200004&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN El agrupamiento de datos se ha convertido en una de las formas fundamentales de gestión del conocimiento. Particularmente gestionar el conocimiento a partir de la bibliografía científica disponible en internet resulta de gran importancia para los investigadores, es por ello que se han desarrollado técnicas especializadas en el agrupamiento de artículos científicos. Las publicaciones científicas siguen una estructura bien definida donde hay partes fundamentales que siempre están presente como: título, resumen, palabras claves y referencias bibliográficas. Específicamente, las referencias bibliográficas brindan información relevante en el momento de determinar si dos artículos dados tratan temas similares. Por lo cual, potenciar la información brindada por esta subunidad influye de manera significativa en el resultado del agrupamiento. Este trabajo tuvo como objetivo: desarrollar un algoritmo de agrupamiento que haga uso de las características especiales de la matriz de similitud obtenida con la función SimRefBib para mejorar los resultados del agrupamiento de artículos científicos basado en las referencias bibliográficas. Las pruebas realizadas demuestran que el algoritmo propuesto logra mejorar de manera significativa los resultados del agrupamiento de artículos científicos cuando este está basado únicamente en la información brindada por las referencias bibliográficas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT Data clustering has become one of the key forms of knowledge management. Particularly knowledge management from the scientific literature available on the internet is very importance for researchers, that why, specialized techniques have been developed in scientific articles clustering. The scientific publications follow a well-defined structure where there are fundamental parts that are always present as: title, abstract, keywords and bibliographical references. Specifically, the bibliographical references provide relevant information when determining whether two articles address similar topics. Therefore, to enhance the information provided by this subunit has a significant influence on the clustering´s result. The objective of this work was to develop a clustering algorithm that makes use of the special characteristics of the similarity matrix obtained with the SimRefBib function to improve the results of scientific articles clustering based on bibliographic references. The tests show that the proposed algorithm improves significantly the results of the grouping of scientific articles when it is based only on the information provided by the bibliographic references.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[agrupamiento de literatura científica]]></kwd>
<kwd lng="es"><![CDATA[algoritmos de agrupamientos]]></kwd>
<kwd lng="es"><![CDATA[gestión del conocimiento]]></kwd>
<kwd lng="en"><![CDATA[Scientific Papers&#8217; Clustering]]></kwd>
<kwd lng="en"><![CDATA[Clustering&#8217;s algorithms]]></kwd>
<kwd lng="en"><![CDATA[knowledge management]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">SemClustDML: algoritmo  para agrupar art&iacute;culos cient&iacute;ficos basado en la informaci&oacute;n brindada por las  referencias bibliogr&aacute;ficas</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">SemClustDML: algorithm to clustering scientific papers based on  information provided by bibliographic references</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Lisvandy Amador<strong><sup>1*</sup></strong>, <strong>Mar&iacute;a M. Garc&iacute;a<sup>2</sup></strong>, Daniel G&aacute;lvez L&iacute;o</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>2,3</sup>, Damny Magdaleno <sup>2,3</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Instituto de  Biotecnolog&iacute;a de las Plantas, Carretera a Camajuan&iacute; Km 5 &frac12; Santa Clara, Villa  Clara, Cuba. C.P: 54830 <a href="mailto:lisvandy@ibp.co.cu">lisvandy@ibp.co.cu</a></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">    <br> <sup>2</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Departamento de  Computaci&oacute;n, Universidad Central Marta Abreu de Las Villas, Carretera a  Camajuan&iacute; Km 5 &frac12; Santa Clara, Villa Clara, Cuba. C.P: 54830. {mmgarcia, dgalvez, dmg<a href="mailto:%7d@uclv.edu.cu">}@uclv.edu.cu</a></font>    ]]></body>
<body><![CDATA[<br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>3</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Universidad  Metropolitana del Ecuador (UMET), La Coru&ntilde;a N26-95 y San Ignacio, Quito,  Ecuador. {d.galvez,  dmagdaleno<a href="mailto:%7d@umet.edu.ec">}@umet.edu.ec</a></font></p>     <p>&nbsp;</p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:lisvandy@ibp.co.cu">lisvandy@ibp.co.cu</a><a href="mailto:ycoca@uci.cu"></a><a href="mailto:valery@electrica.cujae.edu.cu"></a><a href="mailto:rtrujillo@edistancia.uo.edu.cu"></a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El agrupamiento de  datos se ha convertido en una de las formas fundamentales de gesti&oacute;n del  conocimiento. Particularmente gestionar el conocimiento a partir de la  bibliograf&iacute;a cient&iacute;fica disponible en internet resulta de gran importancia para  los investigadores, es por ello que se han desarrollado t&eacute;cnicas especializadas  en el agrupamiento de art&iacute;culos cient&iacute;ficos. Las publicaciones cient&iacute;ficas  siguen una estructura bien definida donde hay partes fundamentales que siempre  est&aacute;n presente como: t&iacute;tulo, resumen, palabras claves y referencias  bibliogr&aacute;ficas. Espec&iacute;ficamente, las referencias bibliogr&aacute;ficas brindan informaci&oacute;n  relevante en el momento de determinar si dos art&iacute;culos dados tratan temas  similares. Por lo cual, potenciar la informaci&oacute;n brindada por esta subunidad  influye de manera significativa en el resultado del agrupamiento. Este trabajo  tuvo como objetivo: desarrollar un  algoritmo de agrupamiento que haga uso de las caracter&iacute;sticas especiales de la  matriz de similitud obtenida con la funci&oacute;n SimRefBib para mejorar los  resultados del agrupamiento de art&iacute;culos cient&iacute;ficos basado en las referencias  bibliogr&aacute;ficas. Las pruebas  realizadas demuestran que el algoritmo propuesto logra mejorar de manera  significativa los resultados del agrupamiento de art&iacute;culos cient&iacute;ficos cuando  este est&aacute; basado &uacute;nicamente en la informaci&oacute;n brindada por las referencias  bibliogr&aacute;ficas. </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">agrupamiento de  literatura cient&iacute;fica, algoritmos de agrupamientos, gesti&oacute;n del conocimiento </font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Data clustering has  become one of the key forms of knowledge management. Particularly knowledge  management from the scientific literature available on the internet is very  importance for researchers, that why, specialized techniques have been  developed in scientific articles clustering. The scientific publications follow  a well-defined structure where there are fundamental parts that are always  present as: title, abstract, keywords and bibliographical references.  Specifically, the bibliographical references provide relevant information when  determining whether two articles address similar topics. Therefore, to enhance  the information provided by this subunit has a significant influence on the  clustering&acute;s result. The objective of this work was to develop a clustering  algorithm that makes use of the special characteristics of the similarity  matrix obtained with the SimRefBib function to improve the results of  scientific articles clustering based on bibliographic references. The tests  show that the proposed algorithm improves significantly the results of the  grouping of scientific articles when it is based only on the information  provided by the bibliographic references.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Scientific Papers&rsquo;  Clustering, Clustering&rsquo;s algorithms, knowledge management</font></p> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p>Los vol&uacute;menes de informaci&oacute;n  disponibles a nivel mundial crecen a diario y las  colecciones de datos se vuelven cada vez m&aacute;s heterog&eacute;neas, grandes, diversas y  din&aacute;micas (Magdaleno Guevara et al., 2016); por lo que es m&aacute;s complejo para los usuarios identificar la  informaci&oacute;n relevante (Aljaber et al., 2010).</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los  principales m&eacute;todos usados para la gesti&oacute;n del conocimiento es el agrupamiento (Qian and Zhang, 2003). El problema del agrupamiento consiste en encontrar grupos de  objetos similares en un conjunto de datos, donde la semejanza entre un par de  objetos se calcula usando una funci&oacute;n de similitud (Aggarwal and Zhai, 2012). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existe una  gran cantidad de algoritmos de agrupamiento en la literatura (Bezdek et al., 1984; Guha et al., 1998; Pinto et al., 2010; Rajeshwari et al., 2015; Sert et al., 2015). Seg&uacute;n  (Magdaleno Guevara et al., 2015), estos se pueden clasificar siguiendo diversos criterios, como  pueden ser: tipo de los datos de entrada, criterios para definir la similitud  entre los objetos, conceptos en los cuales se basa el an&aacute;lisis y forma de  representaci&oacute;n de los datos. Si la participaci&oacute;n del usuario influye en el  agrupamiento, se tienen otras dos clasificaciones: algoritmos de agrupamiento  autom&aacute;tico y algoritmos de agrupamiento semiautom&aacute;tico. A continuaci&oacute;n, se  mencionan algunos de los algoritmos de agrupamiento existentes. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Pinto, et al., 2010) se presenta una variante del algoritmo de agrupamiento <em>K-Star</em>. Este,  como la mayor&iacute;a de estos algoritmos, requiere como par&aacute;metro una matriz de  similitud que recoja el grado de semejanza entre cada par de objetos de la  colecci&oacute;n. La principal ventaja de este algoritmo radica en su capacidad  durante el proceso iterativo, de descubrir autom&aacute;ticamente la cantidad de  grupos que se deben formar. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Gil-Garc&iacute;a and Pons-Porrata, 2010) los autores desarrollan un  algoritmo jer&aacute;rquico din&aacute;mico para el agrupamiento de documentos. Este  algoritmo representa la colecci&oacute;n a agrupar mediante un grafo de &szlig;0-semejanza, donde cada v&eacute;rtice  representa un grupo, por lo cual se parte de un grafo de <em>n</em> v&eacute;rtices, donde <em>n</em> es la  cantidad de objetos a agrupar. Dos v&eacute;rtices estar&aacute;n conectados &uacute;nicamente si su  semejanza supera un umbral definido. Luego se aplican sucesivas  transformaciones al grafo a trav&eacute;s de un algoritmo de cubrimiento hasta que se obtiene  un grafo de &szlig;0-semejanza  que sea completamente inconexo. Seg&uacute;n (Dom&iacute;nguez et al., 2014), este algoritmo obtiene buenos  resultados, pero en colecciones con un elevado n&uacute;mero de objetos consume gran  cantidad de memoria, lo que reduce la cantidad m&aacute;xima de objetos a agrupar.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Espec&iacute;ficamente, el agrupamiento de art&iacute;culos cient&iacute;ficos se torna una  tarea de suma importancia; ya que es necesario dotar a los investigadores de  herramientas capaces de agilizar el proceso de identificaci&oacute;n de la informaci&oacute;n  relevante y de esta manera puedan hacer un uso m&aacute;s eficiente del tiempo que  disponen.&nbsp;&nbsp; </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Magdaleno, 2015) se presenta una nueva metodolog&iacute;a  de agrupamiento de art&iacute;culos cient&iacute;ficos en formato semiestructurado. Esta  metodolog&iacute;a hace uso tanto de la estructura como del contenido del documento  para lograr mejores resultados en el agrupamiento. La informaci&oacute;n brindada por  las referencias bibliogr&aacute;ficas es considerada muy relevante a la hora de  determinar qu&eacute; tan similares pueden ser dos art&iacute;culos cient&iacute;ficos, es por ello  que el autor hace particular hincapi&eacute; en esta unidad estructural y desarrolla  una funci&oacute;n de similitud que se adapte a las caracter&iacute;sticas de la misma. La  matriz de similitud que se obtiene con la funci&oacute;n propuesta (funci&oacute;n <em>SimRefBib</em>) tiene ciertas caracter&iacute;sticas  que la diferencian de matrices que pueden ser obtenidas con otras funciones,  por ejemplo, <em>Dice</em> (Vargas Flores, 2016), <em>Jaccard</em> o <em>Coseno</em> (Lin et al., 2014). Es que los coeficientes de  similitud para dos documentos supuestamente similares generalmente son bajos,  pero para documentos que se suponen no son similares casi siempre el valor de  similitud obtenido es cero o muy cercano a cero.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En general los algoritmos de agrupamiento asumen que documentos considerados  similares presenten valores de similitud altos y los que no lo son presenten  valores bajos; pero en muy pocos casos el valor de similitud es cero, dado que  al analizar todo el documento existen elevadas probabilidades de que se  encuentren t&eacute;rminos comunes para determinados pares de documentos, a pesar de  que ellos no traten un mismo tema. Al aplicar algunos de estos algoritmos  usando como entrada la matriz de similitud obtenida con la funci&oacute;n <em>SimRefBib</em>, no se garantiza obtener siempre  buenos resultados en el agrupamiento, debido en gran medida, por la forma en  que internamente cada uno obtiene los grupos. Esto no significa que la funci&oacute;n <em>SimRefBib</em> no sea capaz de discernir de  manera correcta entre los elementos que deben pertenecer a cada grupo, porque  el hecho que se obtenga valor de similitud cero para los documentos que deben  pertenecer a grupos diferentes, garantiza que el dise&ntilde;o de un algoritmo que se  adapte a estas caracter&iacute;sticas especiales favorecer&aacute; considerablemente el  resultado del agrupamiento de art&iacute;culos cient&iacute;ficos. Es por ello que se propone  como objetivo de este trabajo: Desarrollar un algoritmo de agrupamiento que haga  uso de las caracter&iacute;sticas especiales de la matriz de similitud obtenida con la  funci&oacute;n <em>SimRefBib</em> para mejorar los  resultados del agrupamiento de art&iacute;culos cient&iacute;ficos basado en las referencias  bibliogr&aacute;ficas. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un agrupamiento eficaz debe tener en cuenta las preferencias y necesidades  individuales para apoyar la personalizaci&oacute;n en el momento de la categorizaci&oacute;n (Wei et al., 2006). Para obtener los grupos (en este trabajo se usa indistintamente los  t&eacute;rminos grupo o cl&uacute;ster), el algoritmo propuesto se vale de algunos par&aacute;metros  que facilitan al usuario lograr un agrupamiento que se ajuste a sus necesidades  espec&iacute;ficas. Estos par&aacute;metros son: umbral de similitud y longitud m&iacute;nima de  cada cl&uacute;ster.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El umbral de similitud, define el valor a  tomarse en cuenta para considerar elementos que pertenecen a un mismo grupo. Se  determina en un dominio entre 0 y 1 donde valores cercanos a 1 favorecen grupos  m&aacute;s homog&eacute;neos al considerar niveles de similitud m&aacute;s altos. As&iacute;, por ejemplo, si  se define 0.9 como umbral se obtendr&aacute; un n&uacute;mero mayor de grupos, pero con  elementos m&aacute;s similares entre s&iacute;, en cambio, si se define un umbral de 0.1 se  obtendr&aacute;n menos grupos, pero con un mayor &iacute;ndice de dispersi&oacute;n de los elementos  dentro del grupo. De este modo el usuario puede variar el valor del umbral,  dependiendo de qu&eacute; tan compacto desea que sean los grupos. El segundo par&aacute;metro  se aplicar&aacute; dependiendo del agrupamiento generado por el umbral de similitud y  se refiere a un segundo nivel de agrupamiento. La longitud m&iacute;nima del cl&uacute;ster presupone  reagrupar aquellos grupos conformados por un n&uacute;mero de documentos menor que  este par&aacute;metro. De no ser proporcionado por el usuario este segundo nivel de  agrupamiento no tiene lugar.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Adem&aacute;s, el algoritmo recibe como entrada la matriz de similitud que  recoge el valor de semejanza que tiene cada par de objetos de la colecci&oacute;n que  se desea agrupar, espec&iacute;ficamente, la obtenida con la funci&oacute;n <em>SimRefBib </em>ya que el algoritmo est&aacute;  dise&ntilde;ado para explotar eficientemente las caracter&iacute;sticas especiales de esta  matriz. Para matrices obtenidas con otras funciones de similitud no se  garantizan buenos resultados en el agrupamiento. </font></p>     <p><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif"><strong>1.1 Algoritmo de  agrupamiento SemClustDML</strong></font></a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La idea general del algoritmo <em>SemClustDML</em>,  es formar grupos preliminares sin hacer hincapi&eacute; particular en la forma de  seleccionar los centroides. El uso de la matriz obtenida con la funci&oacute;n <em>SimRefBib</em> posibilita seleccionar como  centroides el subgrupo m&aacute;ximo de documentos que no superan el valor , siendo &nbsp;el umbral de similitud que se define.  Posteriormente se agrega el resto de los documentos a cada uno de estos  centroides, con los cuales se supera el umbral de similitud. Dado que los  documentos que deben pertenecer a grupos diferentes presentan similitud cero en  la mayor&iacute;a de los casos, no es necesario seleccionar como centroide el elemento  m&aacute;s representativo del grupo, sino que cualquier documento del grupo puede en  primera instancia ser considerado como centroide. Luego se aplican sucesivas  transformaciones a estos grupos inicialmente formados y se obtienen los grupos  finales. En la<a href="/img/revistas/rcci/v11n2/f0104217.jpg" target="_blank"> Figura 1</a>  se formaliza el algoritmo. </font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.1 B&uacute;squeda  de los centroides iniciales</font></strong></a> </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  centroides iniciales van a ser aquellos elementos a partir de los cuales se van  a formar los grupos preliminares. Dado que dos elementos que tengan similitud  menor que &gamma;/2  dif&iacute;cilmente pertenecer&aacute;n a un mismo cl&uacute;ster; el proceso de selecci&oacute;n de los  centroides iniciales se torna relativamente f&aacute;cil y se convierte en la b&uacute;squeda  de un grupo de elementos que tengan similitud menor que &gamma;/2 tomados dos a dos. Para  ello se a&ntilde;ade a la lista de centroides el primer elemento de la colecci&oacute;n,  luego se compara cada uno de los siguientes elementos con los que ya forman  parte de la lista de centroides, si este elemento no tiene similitud mayor que &gamma;/2 con ninguno de los  elementos que ya pertenecen a los centroides, este elemento tambi&eacute;n pasa a  formar parte de la lista. Si no se encuentra al menos un par de elementos cuya  similitud sea menor que &gamma;/2 el algoritmo devolver&aacute; un  solo cl&uacute;ster formado por el conjunto de documentos de la colecci&oacute;n. Es evidente  que el orden en que se presenten los documentos al algoritmo, influye a la hora  de determinar los documentos centroides. Sin embargo, los pasos posteriores del  algoritmo garantizan que la efectividad del mismo no se vea afectada por la forma  de seleccionar los centroides. La  determinaci&oacute;n de los centroides tiene una complejidad computacional de O<em>(</em>nlogn).</font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.2 Asignaci&oacute;n  de los elementos </font></strong></a><font face="Verdana, Arial, Helvetica, sans-serif"><strong>a  los cl&uacute;steres </strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  asignaci&oacute;n de cada elemento que no fue seleccionado como centroide a cada uno  de los cl&uacute;steres es sencilla. Un elemento <em>i</em> pertenecer&aacute; a un cl&uacute;ster <em>C</em> si: </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">matriz(i,C<sub>centroide</sub>)&ge;&gamma; (1.1) </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Siendo C<sub>centroide</sub> el centroide del cl&uacute;ster <em>C</em> y <em>matriz</em> la matriz de similitud obtenida con la funci&oacute;n <em>SimRefBib</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  este paso del algoritmo cada documento va a ser unido a todos aquellos  centroides con los cuales supere el umbral de similitud. La asignaci&oacute;n de los elementos a los grupos tiene una complejidad para  el peor de los casos de O(n<sup>2</sup>).</font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.3 Grupos  solapados</font></strong></a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Definici&oacute;n  1 (Grupos solapados): </strong>Dos grupos Ci, Cj se dicen son solapados si Ci &cap; Cj &ne;&empty;. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Pudiera ocurrir que existan  elementos que superen el umbral de similitud con m&aacute;s de un centroide, es por  ello que se hace necesario calcular para cada par de cl&uacute;ster solapados, la  pertenencia a cada uno de estos cl&uacute;steres de los elementos que se  encuentran en la intersecci&oacute;n. La &alpha;-pertenencia de un elemento <em>i </em>a un cl&uacute;ster Cj se define mediante la ecuaci&oacute;n 1.2. En caso de  que un elemento tenga el mismo valor de &alpha;-pertenencia para dos cl&uacute;steres, el  elemento ser&aacute; unido al primero de los cl&uacute;steres.</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/fo0104217.jpg" alt="fo01" width="281" height="38"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la ecuaci&oacute;n anterior nj indica la cantidad de elementos del cl&uacute;ster Cj.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Determinar si existen  grupos que se interceptan tiene una complejidad O(n<sup>2</sup>) para el peor de los  casos y asignar los elementos que pertenecen a la intercepci&oacute;n al grupo al cual  tengan mayor pertenencia total tiene una complejidad O(n<sup>3</sup>) para el peor de los  casos. Por lo cual la complejidad de este paso es O(n<sup>3</sup>).</font></p>     <p><strong><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif">1.1.4 Elementos </font></a><font face="Verdana, Arial, Helvetica, sans-serif">aislados </font></font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al calcular los centroides iniciales y asignar cada  uno de los elementos restantes a estos centroides se tendr&aacute;n algunos elementos  que no superen el umbral con ninguno de los centroides, por lo cual no ser&aacute;n  unidos a ning&uacute;n grupo, estos son los llamados elementos aislados. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una  vez formados los grupos se calcula la <em>&alpha;</em>-pertenencia  de cada uno de estos elementos a cada uno de los cl&uacute;steres, el elemento ser&aacute;  a&ntilde;adido al cl&uacute;ster para el cual se obtenga el mayor valor de <em>&alpha;</em>-pertenencia. En caso de empate al  calcular la <em>&alpha;</em>-pertenencia el  documento ser&aacute; unido al primero de los cl&uacute;steres en orden. Asignar cada elemento aislado al grupo al cual tiene mayor pertenencia  total tiene complejidad para el peor de los casos de O(n<sup>2</sup>).</font></p>     <p><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif"><strong>1.1.5 Refinamiento  del resultado del Agrupamiento</strong></font></a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una vez obtenidos los grupos, puede ser  deseable para el usuario realizar un proceso de refinamiento de estos grupos,  que le permita obtener un conjunto de grupos que se acerque m&aacute;s a sus  necesidades de informaci&oacute;n, facilitando de esta forma la gesti&oacute;n del  conocimiento. En la <a href="/img/revistas/rcci/v11n2/f0204217.jpg" target="_blank">Figura 2</a> se muestran los tres pasos con que consta el proceso  de refinamiento y en los siguientes subep&iacute;grafes se explican detalladamente  estos pasos.</font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.5.1 Divisi&oacute;n de </font></strong></a><font face="Verdana, Arial, Helvetica, sans-serif"><strong>cl&uacute;ster </strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La necesidad de aplicar la divisi&oacute;n de los  cl&uacute;steres parte del problema que un objeto puede estar relacionado con objetos  de dos o m&aacute;s grupos diferentes. Si en el proceso de selecci&oacute;n de centroides  este objeto resulta escogido, al aplicar la uni&oacute;n de elementos a los cl&uacute;steres  todos los elementos que est&eacute;n relacionados con el objeto seleccionado formar&aacute;n  parte de un mismo cl&uacute;ster, lo cual no es un resultado deseado para el  agrupamiento. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  proceso de divisi&oacute;n se aplica a cada cl&uacute;ster y consiste en buscar dos nuevos  centroides en el grupo (de la misma manera que se seleccionan los centroides en  el algoritmo original) y formar dos nuevos grupos con cada uno de estos  centroides; si los cl&uacute;steres formados no son agrupables, los dos nuevos grupos  pasan a formar parte de los cl&uacute;steres y el cl&uacute;ster original se elimina. La  complejidad computacional de este paso se explica detalladamente en el  subep&iacute;grafe 1.2. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.5.2 Tama&ntilde;o del </font></strong></a><font face="Verdana, Arial, Helvetica, sans-serif"><strong>cl&uacute;ster </strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es  posible que al usuario solo le interese obtener cl&uacute;steres de tama&ntilde;o mayor que <em>l </em>(<em>l </em>proporcionado por el usuario). Por tanto, en este paso del  refinamiento de los grupos se seleccionar&aacute;n aquellos que su tama&ntilde;o sea menor  que <em>l </em>y se calcular&aacute; la <em>&alpha;</em>-pertenencia  de cada uno de los elementos de estos grupos a los restantes cl&uacute;steres. Cada  elemento ser&aacute; unido al cl&uacute;ster con el cual tenga mayor &alpha;-pertenencia. Suponiendo que se  obtienen <em>k </em>grupos con <em>n/k</em> elementos cada uno, la complejidad  de reinsertar los elementos de aquellos cl&uacute;steres de tama&ntilde;o menor que <em>l</em>, en el cl&uacute;ster con respeto al cual  tiene mayor &alpha;-pertenencia es </font><img src="/img/revistas/rcci/v11n2/fo0204217.jpg" alt="fo02" width="82" height="33"></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.5.3 Cl&uacute;steres agrupables</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dos  cl&uacute;steres son  agrupables si m&aacute;s de la mitad de los elementos del cl&uacute;ster de menor tama&ntilde;o pueden formar  parte del cl&uacute;ster de mayor tama&ntilde;o. Un elemento puede ser cambiado de cl&uacute;ster si: supera  el umbral de similitud con m&aacute;s de la mitad de los elementos del otro cl&uacute;ster o  la &alpha;-pertenencia al cl&uacute;ster al que ser&aacute; cambiado el elemento supera el umbral  definido. En la definici&oacute;n 2 se  formaliza este planteamiento. </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n 2 (Cl&uacute;ster  agrupables):</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"> Dados los cl&uacute;steres Ci y Cj, Cj &ge;Ci se dice que estos son agrupables si CA(Ci , Cj) &ge; 0,5 donde:</font></font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/fo0304217.jpg" alt="fo03" width="477" height="60"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la ecuaci&oacute;n anterior <em>m</em> indica la cantidad de elementos del cl&uacute;ster Ci y EAC(Cik, Cj) se define como:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/fo0404217.jpg" alt="fo04" width="481" height="65"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde &gamma; es el umbral de similitud definido, y <img src="/img/revistas/rcci/v11n2/fo0604217.jpg" alt="fo06" width="9" height="13"> es la <img src="/img/revistas/rcci/v11n2/fo0604217.jpg" alt="fo06" width="9" height="13">-pertenencia del elemento <em>i</em> al cl&uacute;ster Cj la cual se define como: </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/fo0504217.jpg" alt="fo05" width="447" height="62"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la ecuaci&oacute;n anterior <em>n</em> representa la cantidad de elementos del cl&uacute;ster Cj y ElemtSim(i,j) se especifica en la ecuaci&oacute;n 1.6:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/fo0704217.jpg" alt="fo07" width="462" height="74"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cuando se verifica que dos cl&uacute;steres son  agrupables se puede obtener que CA(Ci , Cj) &lt; 0,5 , pero algunos elementos del cl&uacute;ster Ci pueden tener mayor a-pertenencia al cl&uacute;ster Cj que a Ci, estos elementos a pesar de que los cl&uacute;ster no sean unidos son cambiados al cl&uacute;ster con respecto al cual tienen mayor a-pertenencia.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Verificar para todos los pares de cl&uacute;ster si son  agrupables o no tiene un costo computacional alto. Adem&aacute;s, no es de inter&eacute;s  hacer esta verificaci&oacute;n para todos los pares, debido a que la misma forma de  seleccionar los elementos que pertenecer&aacute;n a cada grupo, y la forma que se  refinan los grupos durante los pasos anteriores del algoritmo por s&iacute; solas  evitan en gran medida que se obtenga varios pares de cl&uacute;ster que puedan  resultar agrupables. Para evitar la verificaci&oacute;n para todos los cl&uacute;steres se  recurren a la selecci&oacute;n de <em>v </em>elementos  aleatorios en cada cl&uacute;ster (<em>v </em>definido  por el usuario), luego se toman dos a dos los subgrupos obtenidos y se verifica  si ellos son agrupables. Solo se verificar&aacute; si dos cl&uacute;steres son agrupables si  sus subgrupos correspondientes resultaron agrupables. Es importante aclarar que  el par&aacute;metro <em>v </em>se usa &uacute;nicamente como  forma de disminuir la cantidad de elementos a analizar para saber si dos cl&uacute;steres  pueden ser agrupables. Es por ello que si el usuario no proporciona este  par&aacute;metro, el algoritmo verifica para todos los pares de cl&uacute;steres si estos son  agrupables o no. Suponiendo que se obtienen <em>k </em>grupos con <em>n/k</em> elementos cada  uno, la complejidad de verificar de manera exhaustiva para cada par de cl&uacute;steres  si estos son agrupables ser&iacute;a <img src="/img/revistas/rcci/v11n2/fo0204217.jpg" alt="fo02" width="82" height="33"></font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Evaluar los resultados de un agrupamiento es un  proceso complejo; debido a que &ldquo;El agrupamiento es un proceso subjetivo; el  mismo conjunto de datos usualmente necesita ser agrupado de formas diferentes  dependiendo de las aplicaciones&rdquo; (Jain et al., 1999). Para verificar la validez de los resultados  obtenidos a trav&eacute;s del algoritmo de agrupamiento propuesto, se dise&ntilde;&oacute; un  experimento con el prop&oacute;sito de realizar un an&aacute;lisis estad&iacute;stico, que permita  comprobar si existen diferencias significativas entre este algoritmo y el  algoritmo usado en la investigaci&oacute;n base (variante del algoritmo <em>K</em>-Star) (<a href="#_ENREF_13" title="Pinto, 2010 #5">Pinto, et al., 2010</a>). No se procedi&oacute; a la comparaci&oacute;n  con otros algoritmos ya que en (Magdaleno, 2015) se realiz&oacute; una evaluaci&oacute;n de los  resultados obtenidos con varios algoritmos de agrupamiento y se demostr&oacute; que el  algoritmo seleccionado es el que obtiene los mejores resultados. La evaluaci&oacute;n  incluye la verificaci&oacute;n y validaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El experimento desarrollado consisti&oacute; en la aplicaci&oacute;n de medidas  externas para evaluar la calidad del agrupamiento. Las medidas externas fueron  seleccionadas debido a que describen la calidad del resultado completo del  agrupamiento usando un &uacute;nico valor real, y se basan en una estructura  previamente especificada que refleja la intuici&oacute;n que se tiene del agrupamiento  de los datos. Las medidas seleccionadas fueron la medida <em>Overall F-measure</em> (OFM) propuesta en (Steinbach et al., 2000) y las medidas <em>Micro Purity</em> y <em>Macro Purity</em> propuesta su utilizaci&oacute;n  por INEX(Costa and Ortale, 2013).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como casos de  estudios se utilizaron archivos provenientes del sitio ICT y archivos  pertenecientes al repositorio IDE-Alliance. Estos &uacute;ltimos, proporcionados por la  Universidad de Granada en Espa&ntilde;a, que son internacionalmente utilizados para  evaluar resultados de agrupamiento. En la <a href="#t01">Tabla 1</a>  se especifican las caracter&iacute;sticas de cada uno de los corpus  utilizados. Note que los tres &uacute;ltimos corpus fueron creados tomando documentos  de los dos repositorios anteriores.</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/t0104217.jpg" alt="t01" width="514" height="325"><a name="t01"></a></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como umbral de similitud para ambos algoritmos  se us&oacute; la media de las similitudes. El c&aacute;lculo del umbral de similitud tiene  complejidad computacional O<em>(nlogn</em>),  ya que consiste en recorrer la triangular superior (o inferior) de la matriz de  similitud y dividir la suma de los valores entre la cantidad de documentos a  agrupar.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el caso del algoritmo <em>SemClustDML</em> se fij&oacute; la cantidad m&iacute;nima de elementos de un cl&uacute;ster en  seis y la cantidad de elementos aleatorios a seleccionar para comprobar si dos cl&uacute;steres  son agrupables en cuatro. Es v&aacute;lido aclarar que estos par&aacute;metros son proporcionados  por el usuario y los grupos obtenidos pueden variar considerablemente en  dependencia </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">de los valores que se asignen. Esto garantiza  que el usuario pueda obtener grupos que se correspondan m&aacute;s a sus necesidades  de informaci&oacute;n.    <br>   Para el caso de las medidas <em>Micro Purity</em> y <em>Macro Purity</em> no se obtuvieron diferencias significativas entre el  algoritmo propuesto y la variante del algoritmo <em>K-Star</em> utilizada al aplicar la prueba no param&eacute;trica de <em>Wilcoxon</em> (Wilcoxon, 1945).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="#f03">Figura 3</a> muestra el comportamiento de la medida OFM para los grupos obtenidos al  aplicar a cada uno de los corpus utilizados el algoritmo <em>SemClustDML</em> y la variante del algoritmo <em>K-Star</em> respectivamente. En esta figura se puede observar que <em>SemClustDML </em>es el queobtiene mejores resultados. Para demostrar lo anterior, se emple&oacute; la  prueba no param&eacute;trica de <em>Wilcoxon</em> con  los valores arrojados por la medida OFM. Como se puede observar en la <a href="#t02">Tabla  2</a> , el test de <em>Wilcoxon</em> sugiere rechazar la hip&oacute;tesis nula (<em><u>p</u></em><u>-value</u> &lt; 0,05) para todas las parejas comparadas,  esto es que existen diferencias significativas entre los algoritmos comparados  con los resultados de la medida OFM para los casos de estudio definidos. </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/f0304217.jpg" alt="f03" width="427" height="243"><a name="f03"></a></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Que existan  diferencias significativas asociadas a los valores obtenidos para la medida OFM  demuestra que el algoritmo propuesto es m&aacute;s preciso a la hora de obtener grupos  de documentos afines que la variante del algoritmo K<em>-Star</em>, ya que esta medida combina los conceptos de precisi&oacute;n y  cubrimiento. La precisi&oacute;n est&aacute; referida, en el caso del agrupamiento, a que los  documentos que sean ubicados en un grupo, pertenezcan en efecto a ese grupo  seg&uacute;n la clasificaci&oacute;n de referencia. El cubrimiento busca que para cada grupo  se logren asignar la mayor cantidad de documentos que seg&uacute;n la clasificaci&oacute;n de  referencia debieran pertenecer al grupo. De esta manera al obtener valores  cercanos a uno para la medida OFM se garantiza que los resultados del  agrupamiento sean m&aacute;s eficaces.</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n2/t0204217.jpg" alt="t02" width="477" height="223"><a name="t02"></a></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.2 Complejidad computacional</font></strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La complejidad computacional mostrada para cada uno de los cinco pasos  iniciales del algoritmo lleva a la conclusi&oacute;n que el algoritmo propuesto asume  en el peor de los casos la complejidad de la eliminaci&oacute;n del solapamiento que  es O(n<sup>3</sup>). En el caso del  refinamiento la mayor complejidad computacional la tiene determinar si se puede  dividir alguno de los cl&uacute;steres, y tiene una complejidad de O(n<sup>3</sup>). Por lo cual el  algoritmo <em>SemClustDML</em> en el peor de  los casos presenta una complejidad computacional de</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">O(n<sup>3</sup>). Esta es mayor que la complejidad de la variante del algoritm <em>K-Star</em> con la que se compara la cual es O(kn<sup>2</sup>). Sin embargo el dise&ntilde;o  del algoritmo <em>SemClustDML</em> sigue el  principio planteado por Ruiz-Shulcloper en (Ruiz-Shulcloper et al., 1995) donde dice que la definici&oacute;n del criterio de semejanza en el  agrupamiento debe estar basada en el conocimiento que se tenga al respecto del  problema en concreto que se est&aacute; tratando, para poder definir as&iacute; el tipo de  comportamiento entre los objetos a partir de sus semejanzas que resulte, seg&uacute;n  el problema en particular, significativo. De este modo, el peor de los casos es  muy poco frecuente en el algoritmo propuesto. M&aacute;s bien el algoritmo se comporta  de manera estable sobre el caso promedio, el cual tiene una complejidad  computacional O(<em>nlog(kn)</em>), sin  consideran el refinamiento y una complejidad de O(n<sup>2</sup>) considerando el  refinamiento. La complejidad es menor para el caso promedio que para el peor de  los casos dado que el algoritmo est&aacute; dise&ntilde;ado para adaptarse a las  caracter&iacute;sticas especiales de la matriz <em>SimRefBib</em>,  por lo que las partes del algoritmo donde la complejidad aumenta  significativamente para el peor de los casos, para el caso promedio no se  complejiza tanto ya que no se presentan muchos elementos que superen el umbral  con m&aacute;s de un centroide.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="/img/revistas/rcci/v11n2/t0304217.jpg" target="_blank">Tabla 3</a>  muestra c&oacute;mo se comport&oacute; el  algoritmo <em>SemClustDML</em> aplicado a los  corpus presentados como casos de estudio, con el objetivo de demostrar la  complejidad computacional para el caso promedio.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al establecer una  correspondencia entre la cantidad de iteraciones y la cantidad de elementos que  presenta cada corpus, se obtiene que la complejidad de asignar los elementos  solapadores se acota en O(<em>nlog(kn)</em>).  Este es el paso m&aacute;s complejo del algoritmo, ya que encontrar los centroides en  el peor de los casos asume complejidad de O(<em>nlogn</em>),  que sigue siendo menor que la complejidad de asignar los elementos solapadores  y la asignaci&oacute;n de los elementos a los grupos se acota tambi&eacute;n en O(<em>nlogn</em>) para el caso promedio. No se  encontraron elementos aislados por tanto este paso no se ejecuta. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el caso del  refinamiento el paso m&aacute;s complejo es la divisi&oacute;n de cl&uacute;ster. Su complejidad se aproxima  a O(n<sup>2</sup>) en el caso promedio.  Los pasos dos y tres del refinamiento en el peor de los casos tienen  complejidad <img src="/img/revistas/rcci/v11n2/fo0204217.jpg" alt="fo02" width="82" height="33">la cual es menor que O(n<sup>2</sup>), por lo cual no  resulta necesario calcular la complejidad de estos pasos para el caso promedio  ya que la mayor complejidad la seguir&aacute; aportando la divisi&oacute;n de cl&uacute;steres. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La funci&oacute;n de similitud <em>SimRefBib</em>, especialmente dise&ntilde;ada para el agrupamiento de art&iacute;culos  cient&iacute;ficos permite discernir de manera correcta entre los grupos que deben  formarse para una colecci&oacute;n de documentos dada, sin embargo, surge la necesidad  de dise&ntilde;ar un algoritmo de agrupamiento que sea capaz de adaptarse a las  caracter&iacute;sticas especiales de la matriz resultante del c&aacute;lculo de esta funci&oacute;n  para lograr buenos resultados en el agrupamiento de este tipo de documentos.    <br>   Se implement&oacute; el algoritmo de agrupamiento para  art&iacute;culos cient&iacute;ficos <em>SemClustDML</em> el  cual hace uso de las caracter&iacute;sticas especiales de la matriz <em>SimRefBib</em> para mejorar el desempe&ntilde;o en  el agrupamiento de este tipo de documentos. Este algoritmo cuenta con dos  etapas: la etapa del agrupamiento propiamente dicha y una segunda etapa que  consta de tres fases en las cuales se refina el resultado del agrupamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La comparaci&oacute;n del algoritmo <em>K-Star</em> con el algoritmo <em>SemClustDML</em> propuesto en esta investigaci&oacute;n arroj&oacute; que existen diferencias significativas  para la medida <em>OFM</em>, obteni&eacute;ndose  mejores resultados para el algoritmo <em>SemClustDML</em>. </font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif">AGGARWAL, C. C. AND C. ZHAI. A survey of text clustering algorithms. In C.C. AGGARWAL AND C. ZHAI  eds. <em>Mining Text Data. </em>New york:  Springer, 2012, p. 77-128.    </font></a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>ALJABER, B., N. STOKES, J. BAILEY AND J. PEI Document clustering of  scientific texts using citation contexts. Information Retrieval,&nbsp; 2010, 13(2), 101-131.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>BEZDEK, J. C., R. EHRLICH AND W. FULL FCM: The fuzzy c-means  clustering algorithm. Computers &amp; Geosciences,&nbsp; 1984, 10(2-3), 191-203.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>COSTA, G. AND R. ORTALE. A latent semantic approach to xml  clustering by content and structure based on non-negative matrix factorization.  In <em>Machine Learning and Applications (ICMLA),  2013 12th International Conference on.</em> </a>IEEE, 2013, vol. 1,  p. 179-184.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>DOM&Iacute;NGUEZ, Y. L., F. A. FUENTES, A.  F. BRUZ&Oacute;N AND R. O. BUENO Optimizaciones al Algoritmo de Agrupamiento Compacto  Jer&aacute;rquico Din&aacute;mico. Revista Cubana de Ciencias Inform&aacute;ticas,&nbsp; 2014, 8(Especial UCIENCIA 2014), 59-65.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>GIL-GARC&Iacute;A, R. AND A. PONS-PORRATA  Dynamic hierarchical algorithms for document clustering. Pattern Recognition Letters,&nbsp;  2010, 31(6), 469-477.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>GUHA, S., R. RASTOGI AND K. SHIM. CURE: an efficient clustering  algorithm for large databases. In <em>ACM  Sigmod Record.</em> ACM, 1998, vol. 27, p. 73-84.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>JAIN, A. K., M. N. MURTY AND P. J. FLYNN Data clustering: a review.  ACM computing surveys (CSUR),&nbsp; 1999,  31(3), 264-323.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>LIN, Y. S., J. Y. JIANG AND S. J. LEE A similarity measure for text  classification and clustering. </a>IEEE transactions on knowledge and  data engineering,&nbsp; 2014, 26(7),  1575-1590.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>MAGDALENO, D. Metodolog&iacute;a para el  agrupamiento de documentos semiestructurados.&nbsp;  Universidad Central &quot;Marta Abreu&quot; de Las Villas, 2015.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>MAGDALENO GUEVARA, D., I. E.  FUENTES, M. CABEZAS AND M. M. GARC&Iacute;A LORENZO Recuperaci&oacute;n de informaci&oacute;n para  art&iacute;culos cient&iacute;ficos soportada en el agrupamiento de documentos XML. Revista  Cubana de Ciencias Inform&aacute;ticas,&nbsp; 2016,  10(2), 57-72.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>MAGDALENO GUEVARA, D., Y. MIRANDA,  I. E. FUENTES AND M. M. GARC&Iacute;A Comparative Study of Clustering Algorithms using  OverallSimSUX Similarity Function for XML Documents. Inteligencia artificial:  Revista Iberoamericana de Inteligencia Artificial,&nbsp; 2015, 18(55), 69-80.    </a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>PINTO, D., M. TOVAR, D. VILARI&Ntilde;O, B.  BELTR&Aacute;N, et al. BUAP: Performance of K-Star at the  INEX&rsquo;09 Clustering Task. In S. GEVA, J. KAMPS AND A. TROTMAN eds. <em>Focused Retrieval and Evaluation: 8th  International Workshop of the Initiative for the Evaluation of XML Retrieval,  INEX 2009, Brisbane, Australia, December 7-9, 2009, Revised and Selected  Papers. </em>Berlin, Heidelberg: Springer Berlin Heidelberg, 2010, p. 434-440.</a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>QIAN, Y. AND K. ZHANG. A customizable hybrid approach to data  clustering. In <em>Proceedings of the 2003 ACM  symposium on Applied computing. </em>New York: ACM, 2003, p. 485-489.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>RAJESHWARI, P., B. SHANTHINI AND M. PRINCE Hierarchical energy  efficient clustering algorithm for WSN. Middle East Journal of Scientific  Research,&nbsp; 2015, 23, 108-117.    </a> </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>RUIZ-SHULCLOPER, J., E. ALBA AND M. LAZO. </a>Introducci&oacute;n  al reconocimiento de patrones. Enfoque l&oacute;gico  combinatorio. In<em>.</em>: M&eacute;xico, CINVESTAV  IPN, 1995.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>SERT, S. A., H. BAGCI AND A. YAZICI MOFCA: Multi-objective fuzzy  clustering algorithm for wireless sensor networks. Applied Soft Computing,&nbsp; 2015, 30, 151-165.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>STEINBACH, M., G. KARYPIS AND V. KUMAR. A comparison of document  clustering techniques. </a>In <em>KDD workshop on text mining.</em> Boston, 2000, vol. 400, p. 525-526.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>VARGAS FLORES, S. I. Comparaci&oacute;n de  medidas de similitud para desambiguaci&oacute;n del sentido de las palabras utilizando  rankeo de grafos.&nbsp; Universidad Aut&oacute;noma del Estado de M&eacute;xico, 2016.    </a> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>WEI, C.-P., R. H. CHIANG AND C.-C. WU Accommodating individual  preferences in the categorization of documents: A personalized clustering approach.  Journal of Management Information Systems,&nbsp;  2006, 23(2), 173-201.    </a> </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a>WILCOXON, F. Individual comparisons by ranking methods. Biometrics  Bulletin,&nbsp; 1945, 1(6), 80-83.    </a></font> </p>     <p>&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 07/02/2017    <br> Aceptado: 25/04/2017</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[C. C]]></surname>
<given-names><![CDATA[AGGARWAL]]></given-names>
</name>
<name>
<surname><![CDATA[ZHAI]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[A survey of text clustering algorithms.]]></source>
<year>2012</year>
<page-range>77-128</page-range><publisher-loc><![CDATA[^eNew york New york]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ALJABER]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[STOKES]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[BAILEY]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[PEI]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Document clustering of scientific texts using citation contexts.]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>13</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>101-131</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BEZDEK]]></surname>
<given-names><![CDATA[J. C]]></given-names>
</name>
<name>
<surname><![CDATA[EHRLICH]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[FULL]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[FCM: The fuzzy c-means clustering algorithm]]></article-title>
<source><![CDATA[]]></source>
<year>1984</year>
<volume>10</volume>
<numero>2-3</numero>
<issue>2-3</issue>
<page-range>191-203</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COSTA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[ORTALE]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A latent semantic approach to xml clustering by content and structure based on non-negative matrix factorization.]]></source>
<year>2013</year>
<volume>vol. 1</volume>
<page-range>179-184</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DOMÍNGUEZ]]></surname>
<given-names><![CDATA[Y. L]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[F. A.]]></given-names>
</name>
<name>
<surname><![CDATA[BRUZÓN]]></surname>
<given-names><![CDATA[A. F]]></given-names>
</name>
<name>
<surname><![CDATA[BUENO]]></surname>
<given-names><![CDATA[R. O]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Optimizaciones al Algoritmo de Agrupamiento Compacto Jerárquico Dinámico.]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>8</volume>
<numero>Especial UCIENCIA 2014</numero>
<issue>Especial UCIENCIA 2014</issue>
<page-range>59-65</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GIL-GARCÍA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[PONS-PORRATA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dynamic hierarchical algorithms for document clustering.]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>31</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>469-477</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUHA]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[RASTOGI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[SHIM]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[CURE: an efficient clustering algorithm for large databases.]]></source>
<year>1998</year>
<volume>vol. 27</volume>
<page-range>73-84</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JAIN]]></surname>
<given-names><![CDATA[A. K]]></given-names>
</name>
<name>
<surname><![CDATA[MURTY]]></surname>
<given-names><![CDATA[M. N]]></given-names>
</name>
<name>
<surname><![CDATA[FLYNN]]></surname>
<given-names><![CDATA[P. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data clustering: a review]]></article-title>
<source><![CDATA[]]></source>
<year>1999</year>
<volume>31</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>264-323</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIN]]></surname>
<given-names><![CDATA[Y. S]]></given-names>
</name>
<name>
<surname><![CDATA[J. Y]]></surname>
<given-names><![CDATA[JIANG]]></given-names>
</name>
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[S. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A similarity measure for text classification and clustering]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>26</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>1575-1590</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Metodología para el agrupamiento de documentos semiestructurados]]></source>
<year>2015</year>
<publisher-name><![CDATA[Universidad Central Marta Abreu de Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO GUEVARA]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E.]]></given-names>
</name>
<name>
<surname><![CDATA[CABEZAS]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA LORENZO]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Recuperación de información para artículos científicos soportada en el agrupamiento de documentos XML.]]></article-title>
<source><![CDATA[]]></source>
<year>2016</year>
<volume>10</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>57-72</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO GUEVARA]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MIRANDA]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparative Study of Clustering Algorithms using OverallSimSUX Similarity Function for XML Documents.]]></article-title>
<source><![CDATA[]]></source>
<year>2015</year>
<volume>18</volume>
<numero>55</numero>
<issue>55</issue>
<page-range>69-80</page-range><publisher-name><![CDATA[Revista Iberoamericana de Inteligencia Artificial]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PINTO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[TOVAR]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[VILARIÑO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[BELTRÁN]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[BUAP: Performance of K-Star at the INEX&#8217;09 Clustering Task.]]></source>
<year>2010</year>
<page-range>434-440</page-range><publisher-loc><![CDATA[^eBerlin Berlin]]></publisher-loc>
<publisher-name><![CDATA[Heidelberg: Springer Berlin Heidelberg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[QIAN]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[A customizable hybrid approach to data clustering.]]></source>
<year>2003</year>
<page-range>485-489</page-range><publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RAJESHWARI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[SHANTHINI]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[PRINCE]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Hierarchical energy efficient clustering algorithm for WSN]]></source>
<year>2015</year>
<volume>23</volume>
<page-range>108-117</page-range><publisher-name><![CDATA[Middle East Journal of Scientific Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RUIZ-SHULCLOPER]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ALBA]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[LAZO]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Introducción al reconocimiento de patrones]]></source>
<year>1995</year>
<publisher-name><![CDATA[CINVESTAV IPN]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SERT]]></surname>
<given-names><![CDATA[S. A]]></given-names>
</name>
<name>
<surname><![CDATA[H]]></surname>
<given-names><![CDATA[BAGCI]]></given-names>
</name>
<name>
<surname><![CDATA[YAZICI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[MOFCA: Multi-objective fuzzy clustering algorithm for wireless sensor networks]]></source>
<year>2015</year>
<volume>30</volume>
<page-range>151-165</page-range><publisher-name><![CDATA[Applied Soft Computing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[STEINBACH]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[KUMAR]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[A comparison of document clustering techniques]]></source>
<year>2000</year>
<volume>400</volume>
<page-range>525-526</page-range><publisher-loc><![CDATA[^eBoston Boston]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VARGAS FLORES]]></surname>
<given-names><![CDATA[S. I]]></given-names>
</name>
</person-group>
<source><![CDATA[Comparación de medidas de similitud para desambiguación del sentido de las palabras utilizando rankeo de grafos.]]></source>
<year>2016</year>
<publisher-name><![CDATA[Universidad Autónoma del Estado de México]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEI]]></surname>
<given-names><![CDATA[C.-P]]></given-names>
</name>
<name>
<surname><![CDATA[CHIANG]]></surname>
<given-names><![CDATA[R. H]]></given-names>
</name>
<name>
<surname><![CDATA[WU]]></surname>
<given-names><![CDATA[C.-C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Accommodating individual preferences in the categorization of documents: A personalized clustering approach.]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>23</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>173-201</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WILCOXON]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Individual comparisons by ranking methods.]]></article-title>
<source><![CDATA[]]></source>
<year>1945</year>
<volume>1</volume>
<numero>6</numero>
<issue>6</issue>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
