<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000100013</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Evaluación de diversas variantes de Indexado Aleatorio aplicadas a la categorización de documentos en el contexto del Aprendizaje en Línea]]></article-title>
<article-title xml:lang="en"><![CDATA[Preliminary assessment of Random Indexing variants for Text Categorization in Online Learning Context]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Fonseca Bruzón]]></surname>
<given-names><![CDATA[Adrian]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[López López]]></surname>
<given-names><![CDATA[Aurelio]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Medina Pagola]]></surname>
<given-names><![CDATA[José E.]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Estudios de Reconocimiento de Patrones y Minería de Datos.  ]]></institution>
<addr-line><![CDATA[ Santiago de Cuba]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Instituto Nacional de Óptica, Física y Electrónica.  ]]></institution>
<addr-line><![CDATA[ Puebla]]></addr-line>
<country>México</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzada  ]]></institution>
<addr-line><![CDATA[Playa La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>1</numero>
<fpage>162</fpage>
<lpage>171</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000100013&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000100013&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000100013&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN El Indexado Aleatorio es una técnica de reducción de dimencionalidad que permite obtener un espacio de representación para las palabras a partir de un conjunto de contexto en los cuales éstas aparecen. Esta técnica es computacionalmente menos costosa en comparación con otras como LSI, PLSI o LDA. Estas características la convierten en una atractiva opción para ser empleada en ambientes de categorización de textos. En este trabajo comparamos varias variantes de Indexado Aleatorio al ser aplicadas a la tarea de categorización de textos. Los experimentos realizados en una subcolección del conjunto de datos Reuter-21578 muestran que el Indexado Aleatorio obtiene resultados alentadores, identificando algunas variantes que no muestran las ventajas necesarias para ser aplicadas en la tarea de interés.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT Random Indexing is a recent technique for dimensionality reduction that allows to obtain a word space model from a set of contexts. This technique is less computationally expensive in comparison with others like LSI, PLSI or LDA. These characteristics turn it an attractive prospect to be used in text categorization. In this work, we compare several variants reported in the Random Indexing literature applied to text categorization task. Experiments conducted in a subcollection of the dataset Reuter-21578 show that Random Indexing produces promising results, identifying some versions without actual advantage for the task at hand.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[indexado aleatorio]]></kwd>
<kwd lng="es"><![CDATA[categorización de textos]]></kwd>
<kwd lng="es"><![CDATA[reducción de dimensionalidad]]></kwd>
<kwd lng="en"><![CDATA[random indexing]]></kwd>
<kwd lng="en"><![CDATA[text categorization]]></kwd>
<kwd lng="en"><![CDATA[dimensionality reduction]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><strong><font size="4" face="Verdana, Arial, Helvetica, sans-serif">Evaluaci&oacute;n de diversas variantes  de Indexado Aleatorio aplicadas a la categorizaci&oacute;n de documentos en el  contexto del Aprendizaje en L&iacute;nea</font></strong></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">Preliminary assessment of Random Indexing variants for Text Categorization in Online Learning Context</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Adrian Fonseca Bruz&oacute;n<sup>1*</sup>, Aurelio L&oacute;pez L&oacute;pez</strong><strong><sup>2</sup>, Jos&eacute; E. Medina Pagola</strong><strong><sup>3</sup></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Centro de Estudios de  Reconocimiento de Patrones y Miner&iacute;a de Datos. Datys. Ave. Patricio Lumumba s/n  Altos de Quintero, Santiago de Cuba, Cuba.    <br>   <sup>2 </sup>Instituto Nacional de &Oacute;ptica,  F&iacute;sica y Electr&oacute;nica. Sta Mar&iacute;a Tonantzintla, Puebla, M&eacute;xico. </font>    ]]></body>
<body><![CDATA[<br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>3 </sup>Centro de Aplicaciones de  Tecnolog&iacute;as de Avanzada. Datys. 7ma A #21406 e/ 214 y 216, Rpto. Siboney,  Playa. La Habana, Cuba.</font></p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: <a href="mailto:nguyencongbacbk@gmail.com">adrian@cerpamid.co.cu</a><a href="mailto:gheisa@uclv.edu.cu"></a></font></span> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Indexado Aleatorio es una t&eacute;cnica de reducci&oacute;n de  dimencionalidad que permite obtener un espacio de representaci&oacute;n para las  palabras a partir de un conjunto de contexto en los cuales &eacute;stas aparecen. Esta  t&eacute;cnica es computacionalmente menos costosa en comparaci&oacute;n con otras como LSI,  PLSI o LDA. Estas caracter&iacute;sticas la convierten en una atractiva opci&oacute;n para  ser empleada en ambientes de categorizaci&oacute;n de textos. En este trabajo  comparamos varias variantes de Indexado Aleatorio al ser aplicadas a la tarea  de categorizaci&oacute;n de textos. Los experimentos realizados en una subcolecci&oacute;n  del conjunto de datos Reuter-21578 muestran que el Indexado Aleatorio obtiene  resultados alentadores, identificando algunas variantes que no muestran las  ventajas necesarias para ser aplicadas en la tarea de inter&eacute;s. </font>     <p>  <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>indexado aleatorio, categorizaci&oacute;n de textos, reducci&oacute;n de dimensionalidad</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Random Indexing is a recent  technique for dimensionality reduction that allows to obtain a word space model  from a set of contexts. This technique is less computationally expensive in  comparison with others like LSI, PLSI or LDA. These characteristics turn it an  attractive prospect to be used in text categorization. In this work, we compare  several variants reported in the Random Indexing literature applied to text  categorization task. Experiments conducted in a subcollection of the dataset  Reuter-21578 show that Random Indexing produces promising results, identifying  some versions without actual advantage for the task at hand. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>random indexing, text categorization,  dimensionality reduction </font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hoy en d&iacute;a la personalizaci&oacute;n es  un componente clave de muchos algoritmos de Aprendizaje en L&iacute;nea o Sistemas de  Recomendaci&oacute;n. Usualmente estos algoritmos crean un perfil de usuario para  representar las necesidades de informaci&oacute;n de los usuarios. Estos algoritmos  tienen que decidir por cada documento cu&aacute;ndo se ajusta al perfil del usuario o  no.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la Miner&iacute;a  de Textos, estos m&eacute;todos son particularmente importantes si tomamos en  consideraci&oacute;n el enorme volumen de nueva informaci&oacute;n que cada d&iacute;a es generada  en Internet. En estos algoritmos un componente fundamental es el algoritmo de  clasificaci&oacute;n empleado. Sin embargo, en esta tarea, estos algoritmos tienen que  lidiar con dos grandes problemas, el lenguaje y la dimensionalidad. El lenguaje  natural es un gran reto para las Ciencias de la Computaci&oacute;n. Por un lado las  palabras son ambiguas, es decir una palabra puede tener diversos significados y  varias palabras pueden ser empleadas para referirse a un mismo concepto. Por  otra parte, en el contexto del Aprendizaje en L&iacute;nea, los documentos arriban  continuamente, y usualmente ellos contienen nuevos t&eacute;rminos no vistos que deben  ser tenidos en cuenta para an&aacute;lisis posteriores.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El otro problema es la dimensionalidad del espacio de  representaci&oacute;n. Usualmente, los documentos son representados por medio de un  vector de una dimensi&oacute;n igual al tama&ntilde;o del vocabulario de la colecci&oacute;n, o en  un entorno real igual al n&uacute;mero de palabras vistas hasta el momento. Esta  situaci&oacute;n afecta significativamente el desempe&ntilde;o de los algoritmos de  Aprendizaje en L&iacute;nea y de Categorizaci&oacute;n de Textos de forma general.</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Algunos algoritmos han sido  reportados en la literatura con el objetivo de resolver uno o varios de los  problemas anteriormente expuestos. Entre ellos podemos encontrar el Indexado de  Sem&aacute;ntica Latente (LSI) (DUMAIS et al., 1995), el Indexado Probabil&iacute;stico de  Sem&aacute;ntica Latente (PLSI)   (HOFMANN, 1999), o la Asignaci&oacute;n Latente de  Dirichlet (LDA) blei2003latent. Sin embargo estos m&eacute;todos son  computacionalmente costosos, o requieren de cargar completamente en memoria la  matriz de frecuencias t&eacute;rminos-documentos. Estas limitaciones reducen su  aplicabilidad en ambientes de Aprendizaje en L&iacute;nea donde ocurren  actualizaciones frecuentes en la informaci&oacute;n disponible.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Indexado Aleatorio   (SAHLGREN, 2005) puede  constituir una alternativa viable, dado que este m&eacute;todo es computacionalmente  menos costoso y no requiere del acceso en memoria de toda la matriz de  frecuencias t&eacute;rminos-documentos. Por estas razones, este m&eacute;todo es m&aacute;s  atractivo para ser empleado en un ambiente en l&iacute;nea. Por otra parte, varias variantes  diferentes del Indexado Aleatorio han sido reportadas en la literatura con el  objetivo de resolver diversas tareas del Procesamiento del Lenguaje Natural  (PLN).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo  presentamos una comparaci&oacute;n experimental de varias de estas variantes en el  contexto de la categorizaci&oacute;n de documentos para la tarea de Aprendizaje en  L&iacute;nea. Los resultados obtenidos indican que esta representaci&oacute;n puede producir  resultados competitivos con vectores de una baja dimensi&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El resto de  este art&iacute;culo est&aacute; organizado de la forma siguiente: en la secci&oacute;n siguiente se  describe el Indexado Aleatorio y sus variantes fundamentales. Luego se presenta  nuestra propuesta de emplear el Indexado Aleatorio en el contexto del  Aprendizaje en L&iacute;nea. Seguidamente describimos el marco experimental y  discutimos los resultados obtenidos. Finalmente, proveemos nuestras  conclusiones y posibles &aacute;reas para el trabajo futuro.</font></p>     ]]></body>
<body><![CDATA[<p> <font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Indexado Aleatorio</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Indexado Aleatorio (SAHLGREN, 2005) fue introducido por Pentti Kanerva et al en el 2000 (KANERVA et al., 2000) y est&aacute; basado en tres presupuestos fundamentales: </font></p> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hip&oacute;tesis de distribuci&oacute;n:  Palabras con significados similares aparecen en contextos similares (RUBENSTEIN and GOODENOUGH, 1965).</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Lema Johnson-Lindenstrass: La  proyecci&oacute;n de un espacio de alta dimensionalidad en un espacio de una dimensi&oacute;n  mucho menor puede ser realizada de forma tal que la distancia entre los puntos  del espacio sea pr&aacute;cticamente preservada (JOHNSON and LINDENSTRAUSS, 1984).</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen muchas m&aacute;s direcciones  pseudo-ortogonales que direcciones realmente ortogonales en un espacio de una  alta dimesionalidad (HECHT-NIELSEN, 1994).</font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las ideas de Kanerva fueron  desarrolladas por Magnus Sahlgren del Instituto Sueco de Ciencias de la  Computaci&oacute;n. &Eacute;l formaliz&oacute; el Indexado Aleatorio como un proceso de dos pasos de  la siguente forma: </font></p>     <blockquote>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1 - Primeramente, a cada contexto (por  ejemplo un documento o una palabra) le es asignado una representaci&oacute;n &uacute;nica  generada de forma aleatoria llamada <em>vector &iacute;ndice</em>. Estos vectores  &iacute;ndices son dispersos, de una dimensi&oacute;n alta, y ternarios, lo que significa que  su dimensi&oacute;n (d) se encuentra en el orden de los miles, y que est&aacute;n compuestos  por un n&uacute;mero peque&ntilde;o de +1 y -1 distribuidos aleatoriamente, con el resto de  los elementos del vector puestos en 0. </font></p>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2 - Luego,  los <em>vectores de contexto</em> son construidos escaneando a trav&eacute;s del texto,  y cada vez que aparece una palabra en el contexto (por ejemplo en un documento,  o dentro de una ventana deslizante), el vector &iacute;ndice d-dimensional del  contexto es adicionado al vector de contexto de la palabra de inter&eacute;s. De esta  forma las palabras son representadas por un vector de contexto d-dimensional  que es construido como la suma de las palabras que forman el contexto en el que  aparece la palabra en cuesti&oacute;n. </font></p> </blockquote>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Diferentes tipos de contexto  pueden ser empleados durante el proceso de construcci&oacute;n del Indexado Aleatorio.  Los m&aacute;s ampliamente empleados son considerar todo el documento como contexto o  tomar t&eacute;rminos como contexto. Cuando los t&eacute;rminos son considerados como  contexto, usualmente se emplea una ventana alrededor del t&eacute;rmino que se est&aacute;  analizando. En este &uacute;ltimo caso, el vector de contexto en actualizado con los  vectores &iacute;ndice de aquellos t&eacute;rminos que se encuentran en la vecindad del  t&eacute;rmino objetivo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra forma de emplear los t&eacute;rminos  como contexto fue presentada en (MUSTO, 2010). En este trabajo, un vector &iacute;ndice  es asignado a cada t&eacute;rmino. En este caso, el vector de contexto es actualizado  con todos los vectores &iacute;ndices de los t&eacute;rminos que se encuentran en el  documento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Indexado Aleatorio captura la  sem&aacute;ntica de los t&eacute;rminos basado en las coocurrencias. Sin embargo, Cohen <em>et.  al.</em> concluyen que esta t&eacute;cnica presenta algunos inconvenientes para  determinar relaciones indirectas entre las palabras   (COHEN et al., 2010). Para superar  esta limitaci&oacute;n, ellos proponen una extensi&oacute;n nombrada Indexado Aleatorio  Reflexivo. En esta extensi&oacute;n, ellos asignan un vector &iacute;ndice a cada t&eacute;rmino,  luego se obtiene la representaci&oacute;n del documento <em>d</em> como la suma de los  vectores &iacute;ndices de aquellos t&eacute;rminos que aparecen en d. En lo sucesivo, estos  vectores de los documentos son empleados para construir los vectores de  contexto de los t&eacute;rminos. Este proceso puede ser repetido varias veces, pero de  acuerdo a sus experimentos, los mejores resultados se obtienen luego de una o  dos iteraciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una vez construidos los vectores  de contexto, podemos obtener la representaci&oacute;n para un documento <em>d</em>,  adicionando los vectores de contexto de aquellos t&eacute;rminos que aparecen en &eacute;l   (SAHLGREN and COSTER , 2004). Durante este  proceso, los vectores de contexto pueden ser multiplicados por el peso que  indica la importancia relativa de cada t&eacute;rmino en el documento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Durante el proceso de obtener la  representaci&oacute;n final para los documentos, podemos realizar algunas  transformaciones sobre los vectores de contexto; en particular Higging y  Burstain proponen restar la media de los vectores de contexto a cada vector de  contexto antes de obtener la representaci&oacute;n de los documentos   (HIGGINS and BURSTEIN, 2007). De acuerdo a  los autores, en el Indexado Aleatorio la semejanza entre los documentos tiende  a incrementarse conforme crece su longitud, independientemente de su relaci&oacute;n.  Con esta transformaci&oacute;n, ellos intentan mitigar este inconveniente.</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aprendizaje en L&iacute;nea  con Indexado Aleatorio</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La mayor&iacute;a de los trabajos  reportados en la literatura han empleado el tradicional modelo de espacio  vectorial, tambi&eacute;n conocido como bolsa de palabras, para representar a los  documentos. Sin embargo, es conocido que este modelo no puede capturar las  relaciones sem&aacute;nticas que existen entre los t&eacute;rminos que forman un documento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otra parte,  varias tareas como el Filtrado de Informaci&oacute;n, la Recomendaci&oacute;n de Noticias y  la Categorizaci&oacute;n de documentos se ven beneficiadas por el empleo de t&eacute;cnicas  que no asumen que los t&eacute;rminos presentes en un documento son independientes  entre s&iacute;.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este  escenario, el Indexado Aleatorio es una representaci&oacute;n plausible, teniendo la  ventaja de ser menos costosa computacionalmente que otras t&eacute;cnicas como LSI,  PLSI o LDA.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este estudio  exploramos diferentes variantes reportadas en la literatura relacionada con el  Indexado Aleatorio en el contexto de la categorizaci&oacute;n de textos como parte del  Aprendizaje en L&iacute;nea. Estos modelos emplean usualmente un perfil de usuario en  su modelaci&oacute;n. Un perfil es la representaci&oacute;n interna de las necesidades de  informaci&oacute;n de un usuario. Generalmente, esta tarea es modelada como un proceso  de clasificaci&oacute;n binaria donde el clasificador debe decidir por cada nuevo  documento cu&aacute;ndo este es similar o no al perfil del usuario.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una  representaci&oacute;n simple de un perfil de usuario es creada mediante la suma en un  &uacute;nico vector de todos aquellos documentos que son relevantes para el usuario.  Siguiendo esta misma idea, podemos igualmente construir un vector para  representar la informaci&oacute;n irrelevante.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con esta  representaci&oacute;n, cada nuevo documento es clasificado como relevante para el  usuario si la semejanza con el vector que representa a los documentos  relevantes es superior con respecto a la semejanza al vector que representa a  los documentos irrelevantes.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cuando se  emplea un modelo sem&aacute;ntico como el Indexado Aleatorio, se requiere de un paso  extra. Durante la etapa de entrenamiento, es necesario considerar en el perfil  toda la informaci&oacute;n disponible en la colecci&oacute;n de entrenamiento para la  construcci&oacute;n del modelo sem&aacute;ntico. Este modelo sem&aacute;ntico ser&aacute; empleado para  representar tanto los documentos de entrenamiento como aquellos nuevos  documentos a ser clasificados.</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Experimentos</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para la experimentaci&oacute;n empleamos  la colecci&oacute;n de documentos Reuter-21578. Varios subconjuntos han sido  creados a partir de esta colecci&oacute;n, de ellos los m&aacute;s conocidos son:</font></p> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El conjunto de las 10 categor&iacute;as con el  mayor n&uacute;mero de muestras de entrenamiento.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  conjunto de las 90 categor&iacute;as con al menos una muestra de entrenamiento y una  en el conjunto de pruebas. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  conjunto de las 115 categor&iacute;as con al menos una muestra en el conjunto de  entrenamiento. </font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En particular  para este estudio seleccionamos el primero de estos subconjuntos. En la <a href="#t01">Tabla 1</a> se muestra el n&uacute;mero de  muestras de entrenamiento para cada clase.</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n1/t0113116.jpg" alt="t01" width="368" height="283"><a name="t01"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al inspeccionar  la tabla podemos notar que existe una acentuada diferencia en el n&uacute;mero de  muestra de cada una de las clases. En particular las clases earn y acq  contienen un n&uacute;mero bastante mayor de muestras en comparaci&oacute;n con el resto de  las clases. Dado que el objetivo de este estudio noes analizar los efectos que  pueden ser introducidos por el desbalance entre las clases, en nuestros  experimentos decidimos ignorar las clases earn y acq, considerando finalmente  las 8 clases restantes.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Durante el  preprocesamiento de los documentos, las etiquetas y las palabras de parada  fueron eliminadas y fue aplicado un proceso de lematizaci&oacute;n. Finalmente fue  empleado el esquema de pesado de t&eacute;rminos TF-IDF.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  experimentos fueron realizados con el fin de comparar el desempe&ntilde;o obtenido con  las diversas variantes de Indexado Aleatorio. Con este fin, desarrollamos un  esquema de validaci&oacute;n cruzada con 5 particiones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para cada  clase, el perfil del usuario es constru&iacute;do por medio de dos vectores. Uno de  ellos para representar aquellos documentos que son relevantes para el usuario y  el otro para los que no son de su inter&eacute;s. Cada uno de estos vectores fue  constru&iacute;do adicionando todos los vectores que pertenecen, o no, a la clase en  el conjunto de entrenamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Durante el  proceso de clasificaci&oacute;n, un documento es etiquedo como Relevante para un  perfil si su similaridad con respecto al vector que representa a los documentos  relevantes es superior a la obtenida con respecto al vector que representa a  los documentos no relevantes.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como medida de evaluaci&oacute;n seleccionamos la tradicional  medida <em>precisi&oacute;n</em>, es decir la proporci&oacute;n de documentos clasificados como  Relevantes que realmente son relevantes, as&iacute; como la medida <em>relevancia</em>,  es decir la proporci&oacute;n de documentos relevantes que realmente son clasificados  como Relevantes. Estas medidas son usualmente combinadas en la popular medida F<sub>1</sub>. </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0113116.jpg" alt="fo01" width="206" height="40"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dado que la medida</font>  <font size="2" face="Verdana, Arial, Helvetica, sans-serif">F<sub>1</sub></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">se calcula de forma separada para  cada clase, consideramos como medida de evaluaci&oacute;n global la media obtenida sobre  todas las clases, com&uacute;nmente conocida como Macro -</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">F<sub>1</sub>. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="#f01">Figura 1</a> y la <a href="#f01">Tabla 2</a> se muestra la media de los resultados obtenidos en  cada una de las corridas con la medida Macro -</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">F<sub>1</sub>.</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n1/f0113116.jpg" alt="f01" width="364" height="262"><a name="f01"></a></p>     <p align="center">&nbsp;</p>     <p align="center"><img src="/img/revistas/rcci/v10n1/t0213116.jpg" alt="t02" width="535" height="243"><a name="t02"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En los resultados, RI representa  el empleo del Indexado Aleatorio cuando son considerados los documentos como  contexto; de la misma forma, wRI cuando son considerados los t&eacute;rminos como  contexto y se emplea una ventana alrededor del t&eacute;rmino objetivo y TRI cuando no  es empleada ventana alguna. Por &uacute;ltimo, RRI se refiere al empleo del Indexado  Aleatorio Reflexivo. Aquellos modelos que presentan el sufijo &ldquo;-MV&rdquo; representan  a los resultados obtenidos cuando la media de los vectores de contexto es  restada de los vectores de contexto antes de construir la representaci&oacute;n del  documento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el Indexado Aleatorio consideramos vectores de  tama&ntilde;o 5000, con 5 posiciones seleccionadas como +1 y 5 posiciones  seleccionadas como -1, cuando son generados los vectores &iacute;ndices. Para el  modelo wRI consideramos una ventana de tama&ntilde;o 2 alrededor de la palabra. En el  caso del modelo RRI solamente se realiz&oacute; una iteraci&oacute;n. </font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">DISCUSI&Oacute;N </font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De los resultados podemos notar  varios comportamientos. Primeramente, cuando las diversas variantes de Indexado  Aleatorio son comparadas, los mejores resultados son obtenidos cuando los  documentos son considerados como contexto. En este caso, esta variante es  superior con respecto al resto de las variantes analizadas en aproximadamente  en un 8% - 9%.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otro aspecto  relevante es que los resultados alcanzados con el Indexado Aleatorio Reflexivo  son superiores a los resultados obtenidos con el Indexado Aleatorio cuando los  t&eacute;rminos son considerados como contexto. El Indexado Aleatorio Reflexivo fue  propuesto para capturar las relaciones indirectas entre los t&eacute;rminos; sin  embargo, su utilidad no es la misma en otras tareas como es el caso de la  analizada en este trabajo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Podemos  observar adem&aacute;s que, en la mayor&iacute;a de los casos, cuando se substrae la media de  los vectores de contexto a los vectores de contexto antes de obtener la  representaci&oacute;n final de los documentos no se obtiene una ganancia consistente  que verdaderamente justifique su empleo. Por tal motivo, no encontramos una  raz&oacute;n que justifique la incorporaci&oacute;n de esta operaci&oacute;n dado su aporte actual.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente, la  ventaja fundamental del Indexado Aleatorio es que solamente consideramos  vectores de 5000 elementos. Este aspecto toma particular relevancia si tomamos  en consideraci&oacute;n el objetivo de aplicar el Indexado Aleatorio en la tarea del  Aprendizaje en L&iacute;nea, donde cada nuevo documento puede contener nuevos t&eacute;rminos  no vistos con anterioridad. Con el Indexado Aleatorio, el problema de que  frecuentemente aparezcan nuevos t&eacute;rminos no afecta la eficiencia dado que los  documentos son siempre representados con vectores de una dimensi&oacute;n fija.</font></p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Indexado Aleatorio es una  t&eacute;cnica de indexado que de forma impl&iacute;cita realiza un proceso de reducci&oacute;n de  la dimencionalidad, y en su sencillo proceso iterativo puede adquirir las  relaciones sem&aacute;nticas que existen entre los t&eacute;rminos. Varios enfoques han sido  reportados en la literatura para el Indexado Aleatorio, aplicados a diversas  tareas del Procesamiento del Lenguaje Natural y la Miner&iacute;a de Textos. Es este  trabajo reportamos la comparaci&oacute;n de las variantes m&aacute;s relevantes del Indexado  Aleatorio aplicadas a la tarea del Aprendizaje en L&iacute;nea. Los resultados  reportados muestran que considerar los documentos como contextos permiten  obtener los mejores resultados, a&uacute;n con vectores de aproximadamente un tercio  de la cantidad de t&eacute;rminos total del conjunto de entrenamiento. Sin embargo,  a&uacute;n queda por analizar el impacto del tama&ntilde;o del conjunto de entrenamiento;  considerando que en un modelo sem&aacute;ntico, varios documentos son necesarios para  poder obtener una representaci&oacute;n v&aacute;lida de las relaciones que existen entre los  t&eacute;rminos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta  direcci&oacute;n, en trabajos futuros analizaremos el comportamiento del Indexado  Aleatorio en relaci&oacute;n con la cantidad de datos disponibles para su  construcci&oacute;n. Adem&aacute;s, planeamos evaluar c&oacute;mo influye el problema del desbalance  entre las clases en el comportamiento del Indexado Aleatorio.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">BLEI, D. M., NG, A. Y., and JORDAN, M. I. (2003). Latent dirichlet allo cation. <em>the Journal of machine</em> <em>Learning research</em>, 3:993&ndash;1022.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">COHEN, T., SCHVANEVELDT, R., and WIDDOWS, D. (2010). Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections. <em>Journal of Biomedical Informatics</em>, 43(2):240 &ndash; 256.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">DUMAIS, S., FURNAS, G., LANDAUER, T., DEERWESTER, S., DEERWESTER, S., and OTHERS (1995). Latent semantic indexing. In <em>Proceedings of the Text Retrieval Conference</em>.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HECHT-NIELSEN, R. (1994). Context vectors: general purpose approximate meaning representations selforganized from raw data. <em>Computational intelligence: Imitating life</em>, pages 43&ndash;56.</font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">HIGGINS, D. and BURSTEIN, J. (2007). Sentence similarity measures for essay coherence. In <em>Proceedings of</em> <em>the 7th International Workshop on Computational Semantics</em>, pages 1&ndash;12.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HOFMANN, T. (1999). Probabilistic latent semantic indexing. In <em>Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval</em>, pages 50&ndash;57. ACM.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JOHNSON, W. B. and LINDENSTRAUSS, J. (1984). Extensions of lipschitz mappings into a hilbert space.<em>Contemporary mathematics</em>, 26(189-206):1.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">KANERVA, P., KRISTOFERSSON, J., and HOLST, A. (2000). Random indexing of text samples for latent semantic analysis. In <em>Proceedings of the 22nd annual conference of the cognitive science society</em>, volume 1036.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MUSTO, C. (2010). Enhanced vector space models for content-based recommender systems. In <em>Proceedings</em> <em>of the Fourth ACM Conference on Recommender Systems</em>, RecSys &rsquo;10, pages 361&ndash;364. ACM.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RUBENSTEIN, H. and GOODENOUGH, J. B. (1965). Contextual correlates of synonymy. <em>Communications</em> <em>of the ACM</em>, 8(10):627&ndash;633.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAHLGREN, M. (2005). An introduction to random indexing. In <em>Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge</em> <em>Engineering, TKE 2005</em>.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAHLGREN, M. and COSTER, R. (2004). Using bag-of-concepts to improve the performance of support&uml; vector machines in text categorization. In <em>Proceedings of the 20th international conference on Computational</em> <em>Linguistics</em>, page 487. Association for Computational Linguistics.    </font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 05/10/2015      <br> Aceptado: 14/12/2015 </font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BLEI]]></surname>
<given-names><![CDATA[D. M]]></given-names>
</name>
<name>
<surname><![CDATA[NG]]></surname>
<given-names><![CDATA[A. Y]]></given-names>
</name>
<name>
<surname><![CDATA[JORDAN]]></surname>
<given-names><![CDATA[M. I]]></given-names>
</name>
</person-group>
<source><![CDATA[Latent dirichlet allo cation.]]></source>
<year>2003</year>
<volume>3</volume>
<page-range>993-1022</page-range><publisher-name><![CDATA[the Journal of machine Learning research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COHEN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[SCHVANEVELDT]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[WIDDOWS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>43</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>240 - 256</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DUMAIS]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[FURNAS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[LANDAUER]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[DEERWESTER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[DEERWESTER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Latent semantic indexing.]]></source>
<year>1995</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HECHT-NIELSEN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Context vectors: general purpose approximate meaning representations selforganized from raw data.]]></source>
<year>1994</year>
<page-range>pages 43-56.</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HIGGINS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[BURSTEIN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Sentence similarity measures for essay coherence.]]></source>
<year>2007</year>
<page-range>pages 1-12</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HOFMANN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Probabilistic latent semantic indexing.]]></source>
<year>1999</year>
<page-range>pages 50-57</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JOHNSON]]></surname>
<given-names><![CDATA[W. B]]></given-names>
</name>
<name>
<surname><![CDATA[LINDENSTRAUSS]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Extensions of lipschitz mappings into a hilbert space]]></article-title>
<source><![CDATA[]]></source>
<year>1984</year>
<volume>26</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>189-206</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KANERVA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[KRISTOFERSSON]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[HOLST]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Random indexing of text samples for latent semantic analysis.]]></source>
<year>2000</year>
<volume>volume 1036</volume>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MUSTO]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Enhanced vector space models for content-based recommender systems.]]></source>
<year>2010</year>
<page-range>pages 361-364</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RUBENSTEIN]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[GOODENOUGH]]></surname>
<given-names><![CDATA[J. B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Contextual correlates of synonymy]]></article-title>
<source><![CDATA[]]></source>
<year>1965</year>
<volume>8</volume>
<numero>10</numero>
<issue>10</issue>
<page-range>627-633</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAHLGREN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[An introduction to random indexing.]]></source>
<year>2005</year>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAHLGREN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[COSTER]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Using bag-of-concepts to improve the performance of support vector machines in text categorization.]]></source>
<year>2004</year>
<page-range>, page 487</page-range><publisher-name><![CDATA[Association for Computational Linguistics.]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
