<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000200005</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Recuperación de información para artículos científicos soportada en el agrupamiento de documentos XML]]></article-title>
<article-title xml:lang="en"><![CDATA[Information retrieval for scientific papers supported in the XML documents clustering]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Magdaleno]]></surname>
<given-names><![CDATA[Damny]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Fuentes]]></surname>
<given-names><![CDATA[Ivett E]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cabezas]]></surname>
<given-names><![CDATA[Michel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[María M]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Central Marta Abreu de Las Villas  ]]></institution>
<addr-line><![CDATA[Santa Clara Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,XETIC  ]]></institution>
<addr-line><![CDATA[Boyeros La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>2</numero>
<fpage>57</fpage>
<lpage>72</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000200005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000200005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000200005&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Cada día más datos electrónicos en formato semiestructurado, específicamente XML, se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Por tal motivo la gestión de información se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En el laboratorio de Inteligencia Artificial de la Universidad Central &#8220;Marta Abreu&#8221; de las Villas se han obtenido varios sistemas que permiten manipular la información, como: SATEX, GARLucene y LucXML, este último da tratamiento de forma específica a los documentos XML, aunque no garantiza gestionar los documentos desde un repositorio en la red. En este trabajo se implementó una herramienta Web que usa las técnicas de recuperación inteligente, soportada en un algoritmo de agrupamiento de documentos XML que combina el contenido y la estructura existente en estos. Los principales resultados son: (1) el uso de la metodología para el agrupamiento de los documentos recuperados; (2) la utilización de herramientas especializadas en recuperación de información y manipulación de documentos; (3) al evaluar el sistema con datos representativos se obtuvieron resultados favorables lo que corrobora la validez de la implementación realizada.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Every day more electronic data in semistructured format, specifically XML, are available on the World Wide Web, intranets, and other media. By this, the information management becomes increasingly complex and challenging, especially since document collections are generally heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists better conditions to manage the time required to process scientific information. In the Artificial Intelligence Laboratory of Universidad Central &#8220;Marta Abreu&#8221; de Las Villas, they have obtained several systems that allow to manipulate information such as: SATEX, GARLucene and LucXML, the last one treats specifically to XML documents although it does not guarantee to manage the documents from a repository in the network. In this paper, a Web tool that uses smart recovery techniques, supported by a clustering algorithm of XML documents that combine existing content and structure these are implemented. The main results are: (1) the use of the methodology for the clustering of documents retrieved; (2) the use of specialized tools in information retrieval and document manipulation; (3) to evaluate the system with representing data, favorable results were achieved which confirms the validity of the implementation done.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Recuperación de Información]]></kwd>
<kwd lng="es"><![CDATA[Agrupamiento]]></kwd>
<kwd lng="es"><![CDATA[XML]]></kwd>
<kwd lng="en"><![CDATA[Information Retrieval]]></kwd>
<kwd lng="en"><![CDATA[Clustering]]></kwd>
<kwd lng="en"><![CDATA[XML]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Recuperaci&oacute;n de informaci&oacute;n para art&iacute;culos  cient&iacute;ficos soportada en el agrupamiento de documentos XML</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Information retrieval for scientific papers supported in the XML documents  clustering</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Damny Magdaleno<strong><sup>1*</sup></strong>, Ivett E. Fuentes<strong><sup>1</sup></strong>, Michel Cabezas</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>2</sup>, Mar&iacute;a M. Garc&iacute;a<sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Universidad Central Marta Abreu de Las Villas.  Carretera a Camajuan&iacute; km 7&frac12;. Santa Clara, Villa Clara, Cuba. {dmg, <a href="mailto:mmgarcia%7d@uclv.edu.cu">mmgarcia}@uclv.edu.cu</a>, <a href="mailto:ivett@uclv.cu">ivett@uclv.cu</a>    <br>     <sup>2</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">XETIC. Calle 296-A e/ ave 207 y 203. Boyeros, La  Habana, Cuba. <a href="mailto:michelc@uclv.cu">michelc@uclv.cu</a>    ]]></body>
<body><![CDATA[<br>     </font></p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> dmg@uclv.edu.cu<a href="mailto:mcairo@uci.cu"></a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cada d&iacute;a m&aacute;s datos electr&oacute;nicos en formato semiestructurado,  espec&iacute;ficamente XML, se encuentran disponibles en el <em>World Wide Web</em>, intranets corporativas, y otros medios de  comunicaci&oacute;n. Por tal motivo la gesti&oacute;n de informaci&oacute;n se vuelve cada vez m&aacute;s  compleja y desafiante, sobre todo porque las colecciones de documentos  generalmente son heterog&eacute;neas, grandes, diversas y din&aacute;micas. Superar estos  desaf&iacute;os es esencial para dar a los cient&iacute;ficos mejores condiciones de  administrar el tiempo necesario para procesar la informaci&oacute;n cient&iacute;fica. En el  laboratorio de Inteligencia Artificial de la Universidad Central &ldquo;Marta Abreu&rdquo;  de las Villas se han obtenido varios sistemas que permiten manipular la  informaci&oacute;n, como: SATEX, GARLucene y LucXML, este &uacute;ltimo da tratamiento de  forma espec&iacute;fica a los documentos XML, aunque no garantiza gestionar los  documentos desde un repositorio en la red. En este trabajo se implement&oacute; una herramienta Web que usa las t&eacute;cnicas de recuperaci&oacute;n inteligente, soportada en un algoritmo de  agrupamiento de documentos XML que combina el contenido y la estructura existente en estos. Los principales resultados  son: (1) el uso de la metodolog&iacute;a para el agrupamiento de los documentos  recuperados; (2) la utilizaci&oacute;n de herramientas especializadas en recuperaci&oacute;n  de informaci&oacute;n y manipulaci&oacute;n de documentos; (3) al evaluar el sistema con  datos representativos se obtuvieron resultados favorables lo que corrobora la validez de la implementaci&oacute;n  realizada.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recuperaci&oacute;n de Informaci&oacute;n, Agrupamiento, XML</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Every day more electronic data in semistructured format, specifically  XML, are available on the World Wide Web, intranets, and other media. By this,  the information management becomes increasingly complex and challenging,  especially since document collections are generally heterogeneous, large,  diverse and dynamic. Overcoming these challenges is essential to give  scientists better conditions to manage the time required to process scientific  information. In the Artificial Intelligence Laboratory of Universidad Central  &ldquo;Marta Abreu&rdquo; de Las Villas, they have obtained several systems that allow to  manipulate information such as: SATEX, GARLucene and LucXML, the last one  treats specifically to XML documents although it does not guarantee to manage  the documents from a repository in the network. In this paper, a Web tool that  uses smart recovery techniques, supported by a clustering algorithm of XML  documents that combine existing content and structure these are implemented.  The main results are: (1) the use of the methodology for the clustering of  documents retrieved; (2) the use of specialized tools in information retrieval  and document manipulation; (3) to evaluate the system with representing data,  favorable results were achieved which confirms the validity of the  implementation done.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Information Retrieval, Clustering, XML</font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La creaci&oacute;n y diseminaci&oacute;n de informaci&oacute;n en el <em>World Wide Web</em>, intranets corporativas, y  otros medios de comunicaci&oacute;n es soportada por un n&uacute;mero creciente de  herramientas, sin embargo, mientras la cantidad de informaci&oacute;n disponible est&aacute;  continuamente creciendo, la habilidad de procesarla y asimilarla no presenta el  mismo ritmo de crecimiento. Este hecho hace que la gesti&oacute;n de informaci&oacute;n  cient&iacute;fica sea cada vez m&aacute;s compleja, al ser las colecciones textuales  heterog&eacute;neas, grandes y din&aacute;micas. Vencer estos desaf&iacute;os es esencial para  proporcionar a los cient&iacute;ficos mejores condiciones de trabajo que aseguren una  mayor productividad e inviertan un tiempo menor en procesar la informaci&oacute;n  requerida, lo cual constituye la motivaci&oacute;n principal de este trabajo. El  conocimiento se puede gestionar de diversas formas y hacerlo requiere de la  integraci&oacute;n de varias &aacute;reas del saber: descubrimiento de conocimiento en bases  de datos, miner&iacute;a de datos y de textos. Espec&iacute;ficamente esta &uacute;ltima integra la  recuperaci&oacute;n y extracci&oacute;n de informaci&oacute;n, el an&aacute;lisis de textos, el resumen, la  categorizaci&oacute;n, la clasificaci&oacute;n, el agrupamiento, la visualizaci&oacute;n, la  tecnolog&iacute;a de bases de datos, el aprendizaje autom&aacute;tico y la miner&iacute;a de datos (Aggarwal and Zhai, 2012).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Particularmente, la Recuperaci&oacute;n de Informaci&oacute;n  (RI) abarca el conjunto de acciones, m&eacute;todos y procedimientos para la  representaci&oacute;n, almacenamiento, organizaci&oacute;n y recuperaci&oacute;n de la informaci&oacute;n;  su objetivo fundamental es obtener los documentos ordenados en funci&oacute;n del  grado de relevancia, para  responder a las necesidades del usuario (Grossman and Frieder, 2012). Un Sistema de RI (SRI) es un programa que implementa un modelo de RI, posee tres componentes principales: la base de  datos documental, el subsistema de consultas y el mecanismo de recuperaci&oacute;n (Croft et al., 2010). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por su parte, el agrupamiento permite organizar la informaci&oacute;n obtenida y descubrir nuevo conocimiento  a partir del resultado de un proceso de recuperaci&oacute;n de  informaci&oacute;n (Afonso and Duque, 2014; Amoli  and Sh, 2015; Yau et al., 2014; Guan  et al., 2014; Shankar, 2012). El agrupamiento es una tarea del aprendizaje no  supervisado que tiene como objetivo descomponer el conjunto de datos, de forma  tal que los objetos que pertenecen al mismo grupo sean tan similares como sea  posible y los objetos que pertenecen a grupos diferentes sean tan disimilares  como sea posible. El an&aacute;lisis de grupos es una herramienta para descubrir una estructura previamente oculta en los  datos, asumiendo que existe un agrupamiento natural o cierto en ellos. Sin  embargo, la asignaci&oacute;n de los objetos a las clases y la descripci&oacute;n de esas  clases son desconocidas (Kruse et al., 2007). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La informaci&oacute;n que aparece en la web es variada, siendo actualmente la  de formato semiestructurado la m&aacute;s utilizada (Algergawy et al., 2011). Ejemplos de estos  formatos son AIML, WSDL y XML. Los documentos escritos en formato XML (<em>Extensible Markup Language</em>), el cual es un  metalenguaje desarrollado por W3C tienen una estructura jer&aacute;rquica autodescriptiva  de informaci&oacute;n, formada por &aacute;tomos, elementos compuestos y atributos. Son  extensibles, con estructura de f&aacute;cil an&aacute;lisis y procesamiento, lo que le ha  permitido convertirse en el formato est&aacute;ndar de intercambio de datos entre las  aplicaciones Web (Piernik et al., 2015). Este hecho ha sido  motivo para explotar la estructura de estos documentos en el proceso de  recuperaci&oacute;n de documentos relevantes (Watanabe et al., 2013). Por tanto, al enfrentarse a este tipo de colecciones los  SRI se enfrentan a nuevos desaf&iacute;os, entre estos: los usuarios en ocasiones requieren  que el sistema devuelva como resultado de sus b&uacute;squedas partes de documentos y  no documentos completos como es usual en los SRI cl&aacute;sicos; paralelo a este problema  aparece el problema de cu&aacute;l parte del documento indexar. Por otra parte cuando los algoritmos de agrupamiento se enfrentan a documentos  XML, se clasifican principalmente en tres grupos: los que se centran solo en el  contenido de los documentos (Algergawy et al., 2011),  realizando un an&aacute;lisis solamente l&eacute;xico, o incluyendo elementos sint&aacute;cticos o  sem&aacute;nticos en el estudio; existen otros trabajos que solo utilizan la  estructura de los documentos para realizar el agrupamiento (Watanabe et al., 2013; Costa  et al., 2013), considerando que esta juega un papel importante en el agrupamiento  para ciertas aplicaciones espec&iacute;ficas y los que combinan ambas componentes: estructura y  contenido; lo cual, constituye un nuevo desaf&iacute;o, ya que la mayor&iacute;a de los  enfoques existentes no utilizan estas dos dimensiones dada su gran complejidad (Tien T., 2007).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una primera  variante muy sencilla de combinar contenido y estructura es mezclar en una  representaci&oacute;n Espacio Vectorial (<em>Vector  Space Model; </em>VSM) (Salton et al., 1975) el  contenido y las etiquetas del documento y aplicar un algoritmo de agrupamiento  conocido. Otros trabajos realizan extensiones a la representaci&oacute;n VSM, llamadas  C-VSM y SLVM (Doucet and AhonenMyka, 2002).  En (Tekli and Chbeir, 2011) fue propuesto un marco para  trabajar con similitudes por estructura y por sem&aacute;ntica. Este marco consiste de  cuatro m&oacute;dulos principales para descubrir las estructuras comunes a trav&eacute;s de  los sub&aacute;rboles, identificando los sub&aacute;rboles con parecidos sem&aacute;nticos, aqu&iacute;  utilizan los costos basados en las operaciones de la distancia <em>tree-edit </em>(Chen and  Zhang, 2012) para el c&aacute;lculo de la distancia basada  en este enfoque. En (Pinto et al., 2009) utilizaron t&eacute;cnicas no supervisadas con  la intenci&oacute;n de agrupar documentos de una colecci&oacute;n de gran tama&ntilde;o. Este  enfoque utiliza un algoritmo de agrupamiento iterativo en un proceso de  agrupamiento recursivo sobre subconjuntos de la colecci&oacute;n completa. En (Magdaleno et al., 2015a) se propone una metodolog&iacute;a para la aplicaci&oacute;n del agrupamiento de  documentos XML, combinando la estructura  y el contenido, tomando el resultado de un proceso de  recuperaci&oacute;n de informaci&oacute;n (Buettcher et al., 2010; Chowdhury, 2010). Las salidas son grupos homog&eacute;neos de documentos afines, el  resumen de cada documento, los documentos m&aacute;s representativos de cada grupo y  la calidad del agrupamiento; garantizando el control para la evaluaci&oacute;n de los  resultados. <em>OverallSimSUX</em> logra capturar  la similitud entre una pareja de documentos, teniendo en cuenta la relaci&oacute;n existente  entre las secciones de estos como colecciones independientes, a su vez trata los  documentos como un todo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el Centro de Estudios de Inform&aacute;tica (CEI) de la  Universidad Central &ldquo;Marta Abreu&rdquo; de las Villas (UCLV) se han propuesto los  sistemas para la gesti&oacute;n de la informaci&oacute;n y el conocimiento [SATEX (Arco et al.,  2008b), GARLucene (Arco et al.,  2008a)] que implementan el esquema propuesto por (Arco, 2009) para  la confecci&oacute;n de sistemas gestores de informaci&oacute;n en dominios textuales. Los  mismos brindan amplias ventajas para la gesti&oacute;n de la informaci&oacute;n y del  conocimiento, pero no incorporan un algoritmo de agrupamiento capaz de explorar  la estructura de documentos XML. Por su parte, el sistema LucXML  (Magdaleno et al., 2013) implementa la metodolog&iacute;a propuesta en (Magdaleno et al., 2015a) y (Fuentes, 2013), por lo que permite el tratamiento de los documentos XML a partir de un  algoritmo de agrupamiento que utiliza su estructura y contenido, sin embargo, el  mismo no garantiza gestionar los documentos desde un repositorio en la red. Adem&aacute;s,  en el Centro de Estudios de Inform&aacute;tica existe un gran n&uacute;mero de art&iacute;culos  cient&iacute;ficos de variados temas. Se mantiene el desaf&iacute;o de dar a los cient&iacute;ficos  mejores condiciones en su trabajo investigativo, de ah&iacute; que el objetivo general de este trabajo es implementar  un esquema de recuperaci&oacute;n inteligente de informaci&oacute;n soportado en el  agrupamiento de documentos XML de art&iacute;culos cient&iacute;ficos mediante una  herramienta Web. </font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso completo de Recuperaci&oacute;n de Informaci&oacute;n  consistir&aacute; en:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obtener mediante la indexaci&oacute;n de una colecci&oacute;n de documentos, el  conjunto de t&eacute;rminos asociados a cada documento. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obtener, la representaci&oacute;n textual de la colecci&oacute;n en forma de  palabras claves o t&eacute;rminos de indexaci&oacute;n. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Comparar cada uno de los documentos indexados con la consulta  realizada, obteniendo en algunos casos el grado con el que el documento  satisface a la consulta, aquellos que la satisfagan completamente. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Presentar al usuario la  salida del proceso de b&uacute;squeda que permite evaluar la salida y comprobar que es  satisfactoria para su necesidad de informaci&oacute;n.</font></p>   </li>     ]]></body>
<body><![CDATA[</ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para reducir el tiempo que los usuarios  asimilan el resultado de la recuperaci&oacute;n, se requiere que salida del sistema tenga alg&uacute;n nivel de organizaci&oacute;n, con este fin, en este trabajo  se realiza un agrupamiento de la colecci&oacute;n recuperada.    <br> El procedimiento general que implementa esta  herramienta cuenta de tres m&oacute;dulos principales. En la siguiente secci&oacute;n se  exponen estos tres m&oacute;dulos, la puesta en pr&aacute;ctica de algunos de los principios  de la RI mencionados, as&iacute; como las herramientas utilizadas para la elaboraci&oacute;n  del sistema implementado. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Implementaci&oacute;n de RISADXML</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v10n2/f0105216.jpg" target="_blank">Figura 1</a> se muestra un diagrama que contiene los tres m&oacute;dulos principales  que se implementaron en el sistema para la <strong>R</strong>ecuperaci&oacute;n  de <strong>I</strong>nformaci&oacute;n <strong>S</strong>oportado en el <strong>A</strong>grupamiento  de <strong>D</strong>ocumentos <strong>XML</strong> (RISADXML); estos son: (1) Creaci&oacute;n de  &iacute;ndices y recuperaci&oacute;n del corpus de documentos XML, (2) Representaci&oacute;n de la  colecci&oacute;n y (3) Agrupamiento General a partir de la matriz de  similitud basada en el c&aacute;lculo de la funci&oacute;n <em>OverallSimSUX</em>. Para la implementaci&oacute;n se  utiliz&oacute; una arquitectura cliente/servidor; a trav&eacute;s del cliente Webselogra el acceso a los paquetes implementados en la parte del servidor,  destac&aacute;ndose el proceso de recuperaci&oacute;n de la informaci&oacute;n y el agrupamiento de  los documentos recuperados. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A continuaci&oacute;n, se mencionan las clases  fundamentales contenidas en la parte cliente, seguido de la explicaci&oacute;n del  funcionamiento de los m&oacute;dulos implementados en la parte del servidor.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Cliente</strong></font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>MainLayout</em> y <em>WinConfiguration</em>: Clases  visuales donde est&aacute;n todos los componentes que le son mostrados a los usuarios.</font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Controller</em>: Se utiliza para controlar la interconexi&oacute;n entre  el cliente y el servidor, las llamadas a los m&eacute;todos utilizados en el servidor y  las respuestas de este al cliente. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>RisadXML</em>: Encargada de iniciar la aplicaci&oacute;n, es la primera clase que se  ejecuta.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>RisadXMLService</em>: Define los servicios de Llamada a Procedimientos Remotos (RPC)  utilizados en la aplicaci&oacute;n.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>RisadXMLServiceAsync</em>: Esta interfaz es utilizada para la interconexi&oacute;n entre el  cliente y el servidor en las RPC utilizadas en la ejecuci&oacute;n de la aplicaci&oacute;n.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>ResultRecord</em>: Define c&oacute;mo se van a  mostrar los resultados de la b&uacute;squeda. </font></p>   </li>     </ul>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la implementaci&oacute;n se utiliz&oacute; GTW, <em>framework</em> creado por Google que permite crear aplicaciones AJAX en el lenguaje de programaci&oacute;n <em>Java</em> que son compiladas posteriormente por GWT en c&oacute;digo JavaScript  ejecutable optimizado que funciona autom&aacute;ticamente en  los principales navegadores</font>. </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Servidor</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>M&oacute;dulo 1: Creaci&oacute;n de &iacute;ndices y recuperaci&oacute;n del  corpus de documentos XML</u> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el proceso de RI, la indexaci&oacute;n  y la b&uacute;squeda son pasos claves. Para estas operaciones se utiliz&oacute; <em>Lucene</em>, biblioteca implementada en <em>Java</em>, de c&oacute;digo abierto. Permite f&aacute;cilmente  la integraci&oacute;n con cualquier aplicaci&oacute;n (Artiles, 2011) por lo que ha sido integrada a  las funciones de b&uacute;squedas de muchas aplicaciones web y de escritorio; teniendo  como factor clave su aparente simplicidad, pues realmente cuenta con complejos algoritmos  que implementan t&eacute;cnicas de RI de &uacute;ltima generaci&oacute;n (Chriss A. and Zitting, 2012). Adem&aacute;s, para utilizarla no es  necesario un conocimiento profundo acerca de c&oacute;mo se indexa y recupera  informaci&oacute;n.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Indexaci&oacute;n </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Lucene</em> crea  de forma interna un &iacute;ndice compuesto de documentos; para cada uno de estos  documentos, define un conjunto de campos con el texto.  Una herramienta utilizada en este trabajo, que facilita la confecci&oacute;n de los  campos, es el API <em>Jdom</em>, especializada  en la manipulaci&oacute;n de documentos en formatos XML. Esta biblioteca permite  identificar de forma natural los elementos existentes en un documento XML (Hatcher et al., 2009). Espec&iacute;ficamente en este trabajo es muy &uacute;til para identificar las  secciones de los documentos a agrupar, (denominadas en este trabajo Unidades  Estructurales, UE) por ejemplo, en un art&iacute;culo cient&iacute;fico: resumen,  introducci&oacute;n, materiales y m&eacute;todos, entre otros y as&iacute; poder extraer exactamente  el texto contenido en una UE espec&iacute;fica.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otro de los motivos por los que se escogi&oacute; <em>Lucene</em> es que, para la creaci&oacute;n de los  &iacute;ndices de t&eacute;rminos, trabaja con la representaci&oacute;n VSM, que es utilizada en el  modelo implementado para realizar las representaciones de los documentos a  agrupar. Para el preprocesamiento de la colecci&oacute;n se utilizaron varias clases,  entre estas: <em>StandardAnalyzer</em>,  especializada en normalizar los <em>tokens</em> extra&iacute;dos; <em>LowerCaseFilter</em>,  convierte los <em>tokens</em> a min&uacute;sculas y <em>StopFilter</em> elimina palabras de parada (Singh and Siddiqui, 2012, Zaman  et al., 2011, Amarasinghe et al.,  2015).  Adicionalmente, <em>Analyzer</em> obtiene las  ra&iacute;ces de las palabras mediante heur&iacute;sticas, y tratar la sinonimia y polisemia.  La <a href="/img/revistas/rcci/v10n2/f0205216.jpg" target="_blank">Figura 2</a> muestra las clases encargadas del proceso de indexaci&oacute;n.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Recuperaci&oacute;n</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso de b&uacute;squeda se realiza a partir del  &iacute;ndice construido. Para ello se utilizaron las clases: <em>search</em> y <em>queryParser</em> de  la biblioteca <em>Lucene</em>. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  procedimiento general empleado para la recuperaci&oacute;n consisti&oacute; en obtener la consulta indicada por el usuario y realizar la b&uacute;squeda  sobre el &iacute;ndice a partir de las clases <em>IndexSearcher</em>, <em>QueryParser</em> y <em>Query</em>; de manera que los resultados obtenidos por la consulta son  almacenados en un objeto de la clase <em>Hits</em>.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La clase <em>IndexSearcher</em> es usada para la b&uacute;squeda  de documentos en un &iacute;ndice, provee una gran cantidad de m&eacute;todos de b&uacute;squeda,  entre los utilizados se encuentra <em>SpecificTerm</em>.  La clase <em>QueryParser</em> de <em>Lucene</em> incluye m&eacute;todos para la  manipulaci&oacute;n de expresiones regulares; instanciada suministr&aacute;ndole el nombre  del campo sobre el que se realizar&aacute; la b&uacute;squeda y un analizador, usado para  procesar las condiciones de b&uacute;squedas impuestas. Esta clase contiene el m&eacute;todo <em>parse</em> que necesita una consulta que  contendr&aacute; la expresi&oacute;n a procesar</font></p>     <p><font size="2"><u><font face="Verdana, Arial, Helvetica, sans-serif">M&oacute;dulo  2: Representaci&oacute;n de la colecci&oacute;n</font></u></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El modelo escogido para agrupar los documentos XML  realiza dos tipos de representaciones: <em>Representaci&oacute;n I</em> asociada a cada UE y <em>Representaci&oacute;n II</em> que se obtiene de toda la colecci&oacute;n. Espec&iacute;ficamente, para la <em>Representaci&oacute;n I</em> se construye la matriz  VSM cl&aacute;sica, que contiene en sus filas el &iacute;ndice de cada t&eacute;rmino obtenido y los  documentos de la colecci&oacute;n en sus columnas, las celdas representan la  frecuencia de aparici&oacute;n de cada t&eacute;rmino en la UE del documento que se procesa.  La <em>Representaci&oacute;n II </em>utiliza la misma  estructura que la <em>Representaci&oacute;n I</em>,  pero en cada celda almacena la frecuencia pesada por la UE donde se encuentra  el t&eacute;rmino. El c&aacute;lculo de la  frecuencia pesada as&iacute; como la forma de calcular el peso de las UE se observan  en las ecuaciones 1 y 2 (Magdaleno et al., 2011); donde, <em>tf<sub>ij</sub></em> es la frecuencia pesada del t&eacute;rmino <em>i</em> en el documento <em>j</em>, <em>wkj</em> es el peso de la unidad estructural <em>k</em> en <em>j</em> y <em>frecuencia ik </em>es la frecuencia de aparici&oacute;n de <em>i</em> en <em>k</em>.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0105216.jpg" alt="fo01" width="277" height="114"></p>     <p><u><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M&oacute;dulo 3: Agrupamiento General a partir de la matriz de similitud basada en  el c&aacute;lculo de la funci&oacute;n OverallSimSUX</font></u><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>.</u></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para cada representaci&oacute;n resultante se calcula la  matriz de similitud utilizando como medida la similitud coseno, ecuaci&oacute;n 3. Posteriormente  se genera un agrupamiento para cada <em>Representaci&oacute;n  I</em> a partir de la similitud asociada. </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0205216.jpg" alt="fo02" width="293" height="67"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el agrupamiento final se calcula la matriz de  similitud global utilizando la medida de similitud <em>OverallSimSUX</em>, ver ecuaci&oacute;n 4, esta se obtiene a partir del  resultado del agrupamiento realizado a cada <em>Representaci&oacute;n  I</em> y la matriz de similitud coseno asociada a la <em>Representaci&oacute;n II</em>. Finalmente se realiza el agrupamiento general, utilizando  la matriz de similitud confeccionada con <em>OverallSimSUX</em>.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0305216.jpg" alt="fo03" width="342" height="58"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para realizar  cada agrupamiento se utiliz&oacute; el algoritmo de agrupamiento <em>K</em>-Star (Shin and Han,  2003). Como  resultado se obtiene una partici&oacute;n de la colecci&oacute;n inicial en grupos homog&eacute;neos  de documentos. </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este  ep&iacute;grafe se presenta el proceso de verificaci&oacute;n del sistema. Una descripci&oacute;n de  los requerimientos m&iacute;nimos para su uso y finalmente una descripci&oacute;n a nivel de  usuario con el prop&oacute;sito de explicar c&oacute;mo utilizarlo.</font></p>     <p><strong>Requerimientos de hardware </strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para su  funcionamiento, el sistema debe encontrarse instalado en un servidor de  aplicaciones, como <em>Apache  Tomcat</em>; debe contar con un hardware de respaldo, los  requerimientos m&iacute;nimos y software se especifican a continuaci&oacute;n:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>Parte del cliente</u></font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesador Intel Pentium  IV/1.5 GHz.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">512 Mb de memoria RAM.</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sistema operativo Windows XP  o superior, Linux.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Conexi&oacute;n mediante red al  servidor de aplicaciones.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Puede usarse como navegador  web Firefox u Opera, se recomienda Firefox instalando el <em>plugin</em> de <em>Macromedia Flash  Player</em> 10.</font></p>   </li>     </ul>     <p><font size="2"><u><font face="Verdana, Arial, Helvetica, sans-serif">Parte servidor</font></u></font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesador Intel Pentium  IV/1.5 GHz. </font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1 Gb de memoria RAM. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sistema operativo Windows XP  o superior, Linux.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="/img/revistas/rcci/v10n2/f0305216.jpg" target="_blank">Figura 3</a> muestra la p&aacute;gina principal  del sistema despu&eacute;s de realizar una recuperaci&oacute;n; donde es posible tambi&eacute;n  observar las funcionalidades que  brinda:</font></p> <ol>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Caja de texto  para poder escribir la consulta. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Bot&oacute;n para realizar una  consulta y brindar el resultado de la recuperaci&oacute;n en 4.</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Bot&oacute;n para configurar algunas  opciones del sistema como: Seleccionar un repositorio local o remoto y escoger  las Unidades Estructurales que debe tener en cuenta el recuperador.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&Aacute;rea con el resultado de la recuperaci&oacute;n, para cada  archivo recuperado se muestra: nombre, direcci&oacute;n, un fragmento del resumen y el  grupo al que pertenece. </font></p>   </li>     </ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Entre los tipos  de consulta que se pueden formular en RISADXML se encuentran:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Palabras. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Frases, ejemplo: &ldquo;XML clustering&rdquo;</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Apoyada por comodines de textos:</font></p>   </li>   <ul>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;?&rdquo;, significa un car&aacute;cter en frase o palabra incluyendo el  car&aacute;cter vac&iacute;o. Ejemplo: &ldquo;te?t&rdquo; devuelve los art&iacute;culos que contienen &ldquo;text&rdquo; o  &ldquo;test&rdquo;.</font></p>     </li>         <li>      <font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;*&rdquo;, significa varios caracteres en una frase o palabra. Ejemplo: &ldquo;test*&rdquo;  devuelve los art&iacute;culos que contienen &ldquo;tests&rdquo; o &ldquo;tester&rdquo;</font></li>       </ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uso de operadores booleanos:   </font></li>     </ul> <ul>   <ul>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;OR&rdquo;, busca los documentos que tienen una frase o la otra.</font></p>     </li>         ]]></body>
<body><![CDATA[<li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;AND&rdquo;, busca los documentos que tienen ambas frases.</font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;<em>+</em>&rdquo; busca los documentos  que tienen la frase que sigue al s&iacute;mbolo y puedan contener la otra frase. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;    <br>       Ejemplo: + &ldquo;clustering&rdquo; &ldquo;XML&rdquo;</font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>&ldquo;</em>NOT<em>&rdquo;</em>, Buscan los  documentos que no contienen la frase que sigue al s&iacute;mbolo. Ejemplo: &quot;structural  clustering&quot; NOT &quot;content clustering&quot;. Este operador no puede ser  usado cuando solo existe un t&eacute;rmino. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;    <br>       Ejemplo: NOT &quot; structural  clustering&rdquo;</font></p>     </li>         <li>      <font size="2" face="Verdana, Arial, Helvetica, sans-serif">&ldquo;-&rdquo;, Buscan los documentos que estrictamente no  contienen la frase que sigue al s&iacute;mbolo. </font></li>       </ul>     ]]></body>
<body><![CDATA[</ul>     <p><strong>Evaluaci&oacute;n de la herramienta</strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para chequear la validez de los  resultados obtenidos por el sistema se han utilizado tres casos de estudio:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El primer caso de estudio est&aacute; conformado a partir de archivos  provenientes del sitio ICT, para la recuperaci&oacute;n de informaci&oacute;n y extracci&oacute;n de  conocimiento que solicitan estos usuarios. </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El segundo caso de estudio constituye una recopilaci&oacute;n de  documentos del repositorio <em>IDE-Alliance</em>,  internacionalmente utilizados para evaluar el agrupamiento. Proporcionados por  la Universidad de Granada, Espa&ntilde;a.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El tercer caso de estudio constituye una selecci&oacute;n  aleatoria de documentos de la colecci&oacute;n de la Wikipedia, publicados cada a&ntilde;o  por la <strong>IN</strong>iciativa para la <strong>E</strong>valuaci&oacute;n de la recuperaci&oacute;n de  documentos <strong>X</strong>ML (INEX). Esta  colecci&oacute;n es referenciada en trabajos para evaluar algoritmos en el &aacute;rea de la  miner&iacute;a de textos aplicados a los documentos XML (Denoyer and Gallinari, 2009, Campos  et al., 2009). Esta colecci&oacute;n tiene el problema que los textos contienen mucha  informaci&oacute;n no &uacute;til y el formato en que se presentan es muy dif&iacute;cil de  preprocesar. </font></p>   </li>     </ul>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Atendiendo a  la clasificaci&oacute;n de las medidas para la evaluaci&oacute;n del agrupamiento (Rend&oacute;n et al., 2011), en  esta investigaci&oacute;n se seleccion&oacute; la medida externa:<em> Overall</em> <em>F-measure</em>, OFM(Steinbach et al., 2000) para el estudio comparativo que se realiza entre el procesamiento  realizado en (Magdaleno et al., 2015a, Magdaleno et al., 2015b) y los valores obtenidos por RISADXML con los 15 corpus  conformados a partir de los tres casos de estudio descritos anteriormente. OFM utiliza  los criterios de RI: Precisi&oacute;n (Pr) y  cubrimiento (Re). </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Dise&ntilde;o del experimento</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El experimento consisti&oacute; en verificar c&oacute;mo se comporta globalmente RISADXML con respecto a su predecesor LucXML,  ambos implementan el modelo de agrupamiento mencionado anteriormente para  documentos XML. En la <a href="/img/revistas/rcci/v10n2/t0105216.jpg" target="_blank">Tabla 1</a> se puede observar que solo en cinco casos (cuatro  a favor del sistema propuesto en este trabajo) los agrupamientos no se  comportaron de forma similar, seg&uacute;n la medida OFM.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para demostrar lo anterior, se emple&oacute; la prueba no param&eacute;trica de <em>Wilcoxon</em> (Wilcoxon, 1945) con los valores de la <a href="/img/revistas/rcci/v10n2/t0105216.jpg" target="_blank">Tabla 1</a>. En la <a href="/img/revistas/rcci/v10n2/t0205216.jpg" target="_blank">Tabla 2</a> se puede observar que no existen  diferencias significativas, pues en esta prueba estad&iacute;stica si la significaci&oacute;n  es mayor que 0.05, no se rechaza la hip&oacute;tesis de que no existen diferencias  significativas entre los pares de muestras comparadas.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El sistema implementado recupera  (auxili&aacute;ndose del API <em>Lucene</em>) los  documentos en formato XML, correspondientes a art&iacute;culos cient&iacute;ficos  provenientes de un servidor remoto o de un repositorio local; facilitando el  trabajo de investigaci&oacute;n de los cient&iacute;ficos. La recuperaci&oacute;n sigue el  agrupamiento para tratar el contenido y la estructura de documentos &nbsp;utilizando la metodolog&iacute;a&nbsp; basada en <em>OverallSimSUX</em>,  la cual resulta valida comparada con&nbsp; su predecesor  LucXML. Para trabajos futuros se pretende extender el sistema a otros tipos de  documentos. </font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p align="left"><font size="2"><a><font face="Verdana, Arial, Helvetica, sans-serif">AFONSO, A. R. &amp; DUQUE, C. G. 2014. Automated text clustering of  newspaper and scientific texts in brazilian portuguese: analysis and comparison  of methods. <em>JISTEM-Journal of Information  Systems and Technology Management,</em> 11<strong>,</strong> 415-436</font></a></font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> AGGARWAL, C. C. & ZHAI, C. X. 2012. <em>Mining Text Data</em>, Springer.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> ALGERGAWY, A., MESITI, M., NAYAK, R. & SAAKE, G. 2011. XML data clustering: An overview. <em>ACM Comput.</em> <em>Surv., </em>43<strong>, </strong>1-41.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> AMARASINGHE, K., MANIC, M. & HRUSKA, R. Optimal stop word selection for text mining in critical infrastructure domain. Resilience Week (RWS), 2015, 2015. IEEE, 1 -6.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> AMOLI, P. V. & SH, O. S. 2015. Scientific Documents clustering based on Text Summarization. <em>International Journal</em> <em>of Electrical and Computer Engineering (IJECE), </em>5.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> ARCO, L. 2009. <em>Agrupamiento basado en la intermediaci&oacute;n diferencial y su valoraci&oacute;n utilizando la teor&iacute;a de los</em> <em>conjuntos aproximados. </em>Doctorado en Ciencias T&eacute;cnicas, Universidad Central "Marta Abreu" de Las Villas.    </font>     ]]></body>
<body><![CDATA[<!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> ARCO, L., ART&Iacute;LES, M. & BELLO, R. 2008a. <em>Sistema para la Gesti&oacute;n de Art&iacute;culos cient&iacute;ficos Recuperados usando</em> <em>Lucene (GARLucene)</em>. Cuba patent application.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> ARCO, L., MAGDALENO, D. & BELLO, R. E. 2008b. <em>Sistema para el agrupamiento y evaluaci&oacute;n de colecciones</em> <em>textuales (SATEX)</em>. Cuba patent application.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> ARTILES, M. 2011. <em>Herramientas de Miner&iacute;a de Textos e Inteligencia Artificial aplicadas a la gesti&oacute;n de la</em> <em>informaci&oacute;n cient&iacute;fico-t&eacute;cnica. </em>M&aacute;ster en Ciencia de la Computaci&oacute;n, Universidad Central "Marta Abreu" de Las Villas.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> BUETTCHER, S., CLARKE, C. L. A. & CORMACK, G. V. 2010. <em>Information Retrieval: Implementing and</em> <em>Evaluating Search Engines</em>, MIT Press.     </font>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> CAMPOS, L. M. D., FERN&Aacute;NDEZ-LUNA, J. M. & J.F. HUETE, A. E. R. 2009. Probabilistic methods for link-based classification at INEX&rsquo;08. <em>Proceedings of Initiative for the Evaluation of XML Retrieval, </em>5631<strong>, </strong>453&ndash;459. </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> CHEN, S. & ZHANG, K. 2012. An improved algorithm for tree edit distance with applications for RNA secondary structure comparison. <em>Combinatorial Optimization, </em>27<strong>, </strong>778-797.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHOWDHURY, G. 2010. <em>Introduction to Modern Information Retrieval, Third Edition</em>, Facet Publishing.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHRISS A., M. & ZITTING, J. L. 2012. <em>Tika in Action, </em>20 Baldwin Road PO Box 261 Shelter Island, NY 11964, Manning Publications Co.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">COSTA, G., MANCO, G., ORTALE, R. & RITACCO, E. 2013. Hierarchical clustering of XML documents focused on structural components. <em>Data & Knowledge Engineering, </em>84<strong>, </strong>26-46.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CROFT, W. B., METZLER, D. & STROHMAN, T. 2010. <em>Search Engines Information Retrieval in Practice </em>Pearson Education.    </font>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DENOYER, L. & GALLINARI, P. 2009. Overview of the inex 2008 xml mining track. In Advances in Focused Retrieval. <em>Proceedings of Initiative for the Evaluation of XML Retrieval, </em>5631<strong>, </strong>401&ndash;411.</font>     ]]></body>
<body><![CDATA[<!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DOUCET, A. & AHONENMYKA, H. 2002. Naive clustering of a large XML document collection. <em>INEX</em><strong>, </strong>84-89.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> FUENTES, I. E. 2013. <em>Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido.</em> Licenciatura en Ciencia de la Computaci&oacute;n Tesis de grado, Universidad Central "Marta Abreu" de Las Villas.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GROSSMAN, D. A. & FRIEDER, O. 2012. <em>Information retrieval: Algorithms and heuristics</em>, Springer Science & Business Media.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GUAN, R., YANG, C., MARCHESE, M., LIANG, Y. & SHI, X. 2014. Full Text Clustering and Relationship Network Analysis of Biomedical Publications.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HATCHER, E., GOSPODNETIC, O. & MCCANDLESS, M. 2009. <em>Lucene in Action</em>.     </font>     ]]></body>
<body><![CDATA[<!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> KRUSE, R., D&Ouml;RING, C. & LESOR, M.-J. 2007. Fundamentals of Fuzzy Clustering. <em>In: </em>OLIVEIRA, J. V. D. & PEDRYCZ, W. (eds.) <em>Advances in Fuzzy Clustering and its Applications. </em>Est Sussex, England: John Wiley and Sons.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MAGDALENO, D., FUENTES, I. E., ARCO, L., ARTILES, M., FERNANDEZ, J. M. & HUETE, J. 2011. New Textual Representation using Structure and Contents. <em>Research in Computing Science, </em>54<strong>, </strong>117-130.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MAGDALENO, D., FUENTES, I. E. & GARC&Iacute;A, M. M. 2013. <em>Sistema para el agrupamiento de art&iacute;culos cient&iacute;ficos</em> <em>en formato XML usando Lucene (LucXML)</em>. Cuba patent application.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MAGDALENO, D., FUENTES, I. E. & GARC&Iacute;A, M. M. 2015a. Clustering XML Documents using Structure and Content Based in a Proposal Similarity Function (OverallSimSUX). <em>Computaci&oacute;n y Sistemas, </em>19.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> MAGDALENO, D., MIRANDA, Y., FUENTES, I. E. & GARC&Iacute;A, M. M. 2015b. Comparative Study of Clustering Algorithms using OverallSimSUX Similarity Function for XML Documents. <em>Inteligencia Artificial, </em>18<strong>, </strong>69-80.    </font>     ]]></body>
<body><![CDATA[<!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PIERNIK, M., BRZEZINSKI, D., MORZY, T. & LESNIEWSKA, A. 2015. XML clustering: a review of structural approaches. <em>The Knowledge Engineering Review, </em>30<strong>, </strong>297-323.    </font>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PINTO, D., TOVAR, M. & VILARI&Ntilde;O, D. BUAP: Performance of K-Star at the INEX&rsquo;09 Clustering Task. <em>In: </em>GEVA, S., KAMPS, J. & TROTMAN, A., eds. INEX 2009 Workshop Pre-proceedings, 2009 Woodlands of Marburg, Ipswich, Queensland,Australia. 391 -398.</font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">REND&Oacute;N, E., ABUNDEZ, I., ARIZMENDI, A. & QUIROZ, E. 2011. Internal versus external cluster validation indexes. <em>International Journal of computers and communications, </em>5<strong>, </strong>27-34.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> SALTON, G., WONG, A. & YANG, C. S. 1975. A vector space model for automatic text retrieval. <em>Communications</em> <em>of the ACM, </em>18<strong>, </strong>613-620.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SHANKAR, R. 2012. <em>Evolutionary Document Clustering and Summarization of Scientific Articles using Frequent</em> <em>Itemsets. </em>International Institute of Information Technology Hyderabad.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SHIN, K. & HAN, S. Y. 2003. Fast clustering algorithm for information organization. <em>In:Proc. of the CICLing</em> <em>Conference. </em>Lecture Notes in Computer Science.Springer-Verlag (2003).    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SINGH, S. & SIDDIQUI, T. J. Evaluating effect of context window size, stemming and stop word removal on Hindi word sense disambiguation. Information Retrieval & Knowledge Management (CAMP), 2012 International Conference on, 2012. IEEE, 1-5.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">STEINBACH, M., KARYPIS, G. & KUMAR, V. A comparison of document clustering techniques. Proceedings of 6th ACM SIGKDD World Text Mining Conference, 2000 Boston. ACM Press, 1 -20.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TEKLI, J. M. & CHBEIR, R. 2011. A Novel XML Document Structure Comparison Framework based-on Subtree Commonalities and Label Semantics. <em>Elsevier, </em>11.     </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> TIEN T., R. N. 2007. Evaluating the Performance of XML Document Clustering by Structure only. <em>5th International</em> <em>Workshop of the Initiative for the Evaluation of XML Retrieval</em>.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WATANABE, Y., KAMIGAITO, H. & YOKOTA, H. 2013. Similarity search for office XML documents based on style and structure data. <em>International Journal of Web Information Systems, </em>9<strong>, </strong>7.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WILCOXON, F. 1945. Individual comparisons by ranking methods. <em>Biometrics Bulletin, </em>1<strong>, </strong>80-83.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YAU, C.-K., PORTER, A., NEWMAN, N. & SUOMINEN, A. 2014. Clustering scientific documents with topic modeling. <em>Scientometrics, </em>100<strong>, </strong>767-786.    </font>     <!-- ref --><p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZAMAN, A., MATSAKIS, P. & BROWN, C. Evaluation of stop word lists in text retrieval using Latent Semantic Indexing. Digital Information Management (ICDIM), 2011 Sixth International Conference on, 2011. IEEE, 133-136.     </font>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 25/11/2014    ]]></body>
<body><![CDATA[<br> Aceptado: 24/11/2015</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AFONSO]]></surname>
<given-names><![CDATA[A. R]]></given-names>
</name>
<name>
<surname><![CDATA[DUQUE]]></surname>
<given-names><![CDATA[C. G]]></given-names>
</name>
</person-group>
<source><![CDATA[Automated text clustering of newspaper and scientific texts in brazilian portuguese: analysis and comparison of methods.]]></source>
<year>2014</year>
<volume>11</volume>
<page-range>415-436</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AGGARWAL]]></surname>
<given-names><![CDATA[C. C]]></given-names>
</name>
<name>
<surname><![CDATA[ZHAI]]></surname>
<given-names><![CDATA[C. X.]]></given-names>
</name>
</person-group>
<source><![CDATA[Mining Text Data]]></source>
<year>2012</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ALGERGAWY]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MESITI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[NAYAK]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[SAAKE]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[XML data clustering: An overview]]></source>
<year>2011</year>
<volume>43</volume>
<page-range>1-41.</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AMARASINGHE]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[M]]></surname>
<given-names><![CDATA[MANIC]]></given-names>
</name>
<name>
<surname><![CDATA[HRUSKA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Optimal stop word selection for text mining in critical infrastructure domain.]]></source>
<year>2015</year>
<page-range>1 -6</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AMOLI]]></surname>
<given-names><![CDATA[P. V]]></given-names>
</name>
<name>
<surname><![CDATA[SH]]></surname>
<given-names><![CDATA[O. S]]></given-names>
</name>
</person-group>
<source><![CDATA[Scientific Documents clustering based on Text Summarization]]></source>
<year>2015</year>
<publisher-name><![CDATA[International Journal of Electrical and Computer Engineering (IJECE)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Agrupamiento basado en la intermediación diferencial y su valoración utilizando la teoría de los conjuntos aproximados.]]></source>
<year>2009</year>
<publisher-name><![CDATA[Universidad Central Marta Abreu de Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[ARTÍLES]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BELLO]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Sistema para la Gestión de Artículos científicos Recuperados usando Lucene (GARLucene).]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[BELLO]]></surname>
<given-names><![CDATA[R. E]]></given-names>
</name>
</person-group>
<source><![CDATA[Sistema para el agrupamiento y evaluación de colecciones textuales (SATEX).]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ARTILES]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Herramientas de Minería de Textos e Inteligencia Artificial aplicadas a la gestión de la información científico-técnica.]]></source>
<year>2011</year>
<publisher-name><![CDATA[Universidad Central Marta Abreu de Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BUETTCHER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[CLARKE]]></surname>
<given-names><![CDATA[C. L. A]]></given-names>
</name>
<name>
<surname><![CDATA[CORMACK]]></surname>
<given-names><![CDATA[G. V]]></given-names>
</name>
</person-group>
<source><![CDATA[Information Retrieval: Implementing and Evaluating Search Engines]]></source>
<year>2010</year>
<publisher-name><![CDATA[MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAMPOS]]></surname>
<given-names><![CDATA[L. M. D]]></given-names>
</name>
<name>
<surname><![CDATA[FERNÁNDEZ-LUNA]]></surname>
<given-names><![CDATA[, J. M]]></given-names>
</name>
<name>
<surname><![CDATA[J.F. HUETE]]></surname>
<given-names><![CDATA[A. E. R]]></given-names>
</name>
</person-group>
<source><![CDATA[Probabilistic methods for link-based classification at INEX&#8217;08.]]></source>
<year>2009</year>
<volume>5631</volume>
<page-range>453-459</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[An improved algorithm for tree edit distance with applications for RNA secondary structure comparison]]></source>
<year>2012</year>
<volume>27</volume>
<page-range>778-797</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHOWDHURY]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to Modern Information Retrieval]]></source>
<year>2010</year>
<edition>Third Edition</edition>
<publisher-name><![CDATA[Facet Publishing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHRISS A]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ZITTING]]></surname>
<given-names><![CDATA[J. L]]></given-names>
</name>
</person-group>
<source><![CDATA[Tika in Action]]></source>
<year>2012</year>
<publisher-loc><![CDATA[^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Manning Publications Co]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COSTA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[MANCO]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[ORTALE]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[RITACCO]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Hierarchical clustering of XML documents focused on structural components]]></source>
<year>2013</year>
<volume>84</volume>
<page-range>26-46</page-range><publisher-name><![CDATA[Data & Knowledge Engineering]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CROFT]]></surname>
<given-names><![CDATA[W. B]]></given-names>
</name>
<name>
<surname><![CDATA[METZLER]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[STROHMAN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Search Engines Information Retrieval in Practice Pearson Education]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DENOYER]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[GALLINARI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Overview of the inex 2008 xml mining track.]]></source>
<year>2009</year>
<volume>5631</volume>
<page-range>401-411</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DOUCET]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[AHONENMYKA]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Naive clustering of a large XML document collection]]></source>
<year>2002</year>
<page-range>84-89</page-range><publisher-name><![CDATA[INEX]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
</person-group>
<source><![CDATA[Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido.]]></source>
<year>2013</year>
<publisher-name><![CDATA[Universidad Central Marta Abreu de Las Villas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GROSSMAN]]></surname>
<given-names><![CDATA[D. A]]></given-names>
</name>
<name>
<surname><![CDATA[FRIEDER]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
</person-group>
<source><![CDATA[Information retrieval: Algorithms and heuristics]]></source>
<year>2012</year>
<publisher-name><![CDATA[Springer Science & Business Media]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUAN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[MARCHESE]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[LIANG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[SHI]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<source><![CDATA[Full Text Clustering and Relationship Network Analysis of Biomedical Publications]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HATCHER]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[GOSPODNETIC]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
<name>
<surname><![CDATA[MCCANDLESS]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Lucene in Action]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KRUSE]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[DÖRING]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[LESOR]]></surname>
<given-names><![CDATA[M.-J]]></given-names>
</name>
</person-group>
<source><![CDATA[Fundamentals of Fuzzy Clustering]]></source>
<year>2007</year>
<publisher-name><![CDATA[John Wiley and Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[ARTILES]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[FERNANDEZ]]></surname>
<given-names><![CDATA[J. M]]></given-names>
</name>
<name>
<surname><![CDATA[HUETE]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[New Textual Representation using Structure and Contents.]]></source>
<year>2011</year>
<volume>54</volume>
<page-range>117-130</page-range><publisher-name><![CDATA[Research in Computing Science]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Sistema para el agrupamiento de artículos científicos en formato XML usando Lucene (LucXML).]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Clustering XML Documents using Structure and Content Based in a Proposal Similarity Function (OverallSimSUX).]]></source>
<year>2015</year>
</nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAGDALENO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MIRANDA]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[FUENTES]]></surname>
<given-names><![CDATA[I. E]]></given-names>
</name>
<name>
<surname><![CDATA[GARCÍA]]></surname>
<given-names><![CDATA[M. M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Comparative Study of Clustering Algorithms using OverallSimSUX Similarity Function for XML Documents]]></source>
<year>2015</year>
<volume>18</volume>
<page-range>69-80</page-range></nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PIERNIK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BRZEZINSKI]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MORZY]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[LESNIEWSKA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[XML clustering: a review of structural approaches]]></source>
<year>2015</year>
<volume>30</volume>
<page-range>297-323</page-range></nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PINTO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[TOVAR]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[VILARIÑO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[BUAP: Performance of K-Star at the INEX&#8217;09 Clustering Task]]></source>
<year>2009</year>
<page-range>391 -398</page-range><publisher-loc><![CDATA[^eQueensland Queensland]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RENDÓN]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[ABUNDEZ]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[ARIZMENDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[QUIROZ]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Internal versus external cluster validation indexes]]></source>
<year>2011</year>
<volume>5</volume>
<page-range>27-34</page-range><publisher-name><![CDATA[International Journal of computers and communications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALTON]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[WONG]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[C. S]]></given-names>
</name>
</person-group>
<source><![CDATA[A vector space model for automatic text retrieval]]></source>
<year>1975</year>
<volume>18</volume>
<page-range>613-620</page-range></nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHANKAR]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Evolutionary Document Clustering and Summarization of Scientific Articles using Frequent Itemsets]]></source>
<year>2012</year>
<publisher-name><![CDATA[International Institute of Information Technology Hyderabad]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHIN]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[HAN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Fast clustering algorithm for information organization.]]></source>
<year>2003</year>
<publisher-name><![CDATA[Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SINGH]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[SIDDIQUI]]></surname>
<given-names><![CDATA[T. J]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluating effect of context window size, stemming and stop word removal on Hindi word sense disambiguation]]></source>
<year></year>
<page-range>1-5</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[STEINBACH]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[KUMAR]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[A comparison of document clustering techniques]]></source>
<year></year>
<page-range>1 -20</page-range><publisher-name><![CDATA[ACM Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TEKLI]]></surname>
<given-names><![CDATA[J. M]]></given-names>
</name>
<name>
<surname><![CDATA[CHBEIR]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A Novel XML Document Structure Comparison Framework based-on Subtree Commonalities and Label Semantics]]></source>
<year>2011</year>
<publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TIEN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluating the Performance of XML Document Clustering by Structure only.]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WATANABE]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[KAMIGAITO]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[YOKOTA]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Similarity search for office XML documents based on style and structure data.]]></source>
<year>2013</year>
<publisher-name><![CDATA[International Journal of Web Information Systems]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WILCOXON]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Individual comparisons by ranking methods.]]></source>
<year>1945</year>
<volume>1</volume>
<page-range>80-83</page-range></nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YAU]]></surname>
<given-names><![CDATA[C.-K]]></given-names>
</name>
<name>
<surname><![CDATA[PORTER]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[NEWMAN]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[SUOMINEN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Clustering scientific documents with topic modeling. Scientometrics]]></source>
<year>2014</year>
<volume>100</volume>
<page-range>767-786</page-range></nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZAMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MATSAKIS]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[BROWN]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluation of stop word lists in text retrieval using Latent Semantic Indexing]]></source>
<year>2011</year>
<page-range>133-136</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
