<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000200011</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Representación textual en espacios vectoriales semánticos]]></article-title>
<article-title xml:lang="en"><![CDATA[Textual representation in semantic vector space]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Torres López]]></surname>
<given-names><![CDATA[Carmen]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Arco García]]></surname>
<given-names><![CDATA[Leticia]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Desoft-Holguín  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Central Marta Abreu de Las Villas.  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>2</numero>
<fpage>148</fpage>
<lpage>180</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000200011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000200011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000200011&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El modelo espacio vectorial representa documentos textuales a través de vectores de términos, pero no permite representar relaciones semánticas entre las palabras. Los espacios vectoriales semánticos se basan en la idea que el significado de una palabra puede ser aprendido de un entorno lingüístico y poseen dos enfoques, la semántica distribucional y la semántica composicional. El primer enfoque analiza el significado de palabras individuales y el segundo enfoque el significado de frases, oraciones y párrafos. La presente revisión expone los principales modelos de estos dos enfoques, así como las herramientas computacionales que los implementan. Como resultado de este estudio se concluye que se hace necesario la incorporación de representaciones semánticas en las distintas herramientas que realizan análisis textual, fundamentalmente han dado mejores resultados aquellas representaciones que hacen predicción de contextos para el caso de modelos distribucionales y las que incorporan modelos basados en redes neuronales para los modelos composicionales.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The vector space model represents textual documents via vectors of terms, but it cannot represent semantic relationships between words. Semantic vector spaces are based on the idea that the meaning of a word can be learned from a linguistic environment and have two approaches, the distributional semantics and compositional semantics. The first approach analyzes the meaning of individual words and the second approach the meaning of phrases, sentences and paragraphs. This review presents the main models of these approaches and the computational tools that implement them. This study bring to a conclusion that the incorporation of semantic representations in the different tools that perform textual analysis is necessary, essentially researchers have obtained best representations that make prediction of contexts in the case of distributional models and the ones that incorporate models based on neural networks for compositional models.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[minería de textos]]></kwd>
<kwd lng="es"><![CDATA[espacio vectorial semántico]]></kwd>
<kwd lng="es"><![CDATA[semántica distribucional]]></kwd>
<kwd lng="es"><![CDATA[semántica composicional]]></kwd>
<kwd lng="en"><![CDATA[text mining]]></kwd>
<kwd lng="en"><![CDATA[semantic vector space]]></kwd>
<kwd lng="en"><![CDATA[distributional semantics]]></kwd>
<kwd lng="en"><![CDATA[compositional semantics]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Representaci&oacute;n  textual en espacios vectoriales sem&aacute;nticos</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Textual representation in  semantic vector space</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Carmen Torres L&oacute;pez<sup>1*</sup>, Leticia Arco Garc&iacute;a<sup>2</sup></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Desoft-Holgu&iacute;n. <a href="mailto:carmentorreslopez87@gmail.com">carmentorreslopez87@gmail.com</a>    <br>   <sup>2 </sup>Universidad Central Marta  Abreu de Las Villas. <a href="mailto:leticiaa@uclv.edu.cu">leticiaa@uclv.edu.cu</a></font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: <a href="mailto:leticiaa@uclv.edu.cu">leticiaa@uclv.edu.cu</a><a href="mailto:nguyencongbacbk@gmail.com"></a><a href="mailto:gheisa@uclv.edu.cu"></a></font></span> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El modelo espacio vectorial representa documentos textuales a trav&eacute;s de  vectores de t&eacute;rminos, pero no permite representar relaciones sem&aacute;nticas entre  las palabras. Los espacios vectoriales sem&aacute;nticos se basan en la idea que el  significado de una palabra puede ser aprendido de un entorno ling&uuml;&iacute;stico y  poseen dos enfoques, la sem&aacute;ntica distribucional y la sem&aacute;ntica composicional.  El primer enfoque analiza el significado de palabras individuales y el segundo  enfoque el significado de frases, oraciones y p&aacute;rrafos. La presente revisi&oacute;n  expone los principales modelos de estos dos enfoques, as&iacute; como las herramientas  computacionales que los implementan. Como resultado de este estudio se concluye  que se hace necesario la incorporaci&oacute;n de representaciones sem&aacute;nticas en las  distintas herramientas que realizan an&aacute;lisis textual, fundamentalmente han dado  mejores resultados aquellas representaciones que hacen predicci&oacute;n de contextos  para el caso de modelos distribucionales y las que incorporan modelos basados  en redes neuronales para los modelos composicionales.</font></p>     <p>  <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>miner&iacute;a de textos, espacio vectorial sem&aacute;ntico, sem&aacute;ntica  distribucional, sem&aacute;ntica composicional</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">The vector space model  represents textual documents via vectors of terms, but it cannot represent  semantic relationships between words. Semantic vector spaces are based on the  idea that the meaning of a word can be learned from a linguistic environment  and have two approaches, the distributional semantics and compositional  semantics. The first approach analyzes the meaning of individual words and the  second approach the meaning of phrases, sentences and paragraphs. This review  presents the main models of these approaches and the computational tools that  implement them. This study bring to a conclusion that the incorporation of  semantic representations in the different tools that perform textual analysis  is necessary, essentially researchers have obtained best representations that  make prediction of contexts in the case of distributional models and the ones  that incorporate models based on neural networks for compositional models.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>text mining, semantic vector  space, distributional semantics, compositional semantics</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la actualidad es inmensa la cantidad de datos generados por los usuarios  en los medios computacionales. El desarrollo constante de nuevas tecnolog&iacute;as y  programas inform&aacute;ticos es una de las principales causas del problema de c&oacute;mo  manejar tales cantidades de datos y c&oacute;mo obtener de forma eficiente el  conocimiento que buscan los usuarios en distintos dominios. El formato m&aacute;s  com&uacute;n de almacenamiento es el texto y son varios los modelos propuestos para  representarlo. Uno de ellos es el modelo espacio vectorial y son varios los  investigadores que hacen &eacute;nfasis en el estudio de c&oacute;mo incluir elementos  sem&aacute;nticos en este modelo. Conocer el significado de los textos a trav&eacute;s de  algoritmos computacionales es un reto que conlleva grandes beneficios en  diversos contextos, por ejemplo, para la tarea del an&aacute;lisis de sentimiento, la traducci&oacute;n  autom&aacute;tica de idiomas, la clasificaci&oacute;n de documentos de acuerdo a su  contenido, para sistemas de recomendaci&oacute;n y detecci&oacute;n de t&oacute;picos, entre otras.  Todas estas tareas tienen aplicaci&oacute;n en dominios cient&iacute;ficos, m&eacute;dicos, de producci&oacute;n,  etc.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  representaci&oacute;n sem&aacute;ntica de los textos se ha generalizado en tres grupos, las  redes sem&aacute;nticas, los modelos basados en rasgos y los espacios sem&aacute;nticos (Mitchell &amp; Lapata, 2010). El primer grupo representa los conceptos como nodos de un grafo y las  aristas son las relaciones sem&aacute;nticas entre los conceptos; el significado de  una palabra es expresado por la cantidad y tipo de conexiones con otras  palabras. El segundo grupo sigue la idea que el significado de las palabras  puede ser descrito por listas de rasgos, en algunos casos se crean manualmente  y en otros casos se obtienen atributos facilitados por hablantes nativos; esto  permite una representaci&oacute;n de cada palabra a trav&eacute;s de una distribuci&oacute;n de  valores num&eacute;ricos sobre un conjunto de rasgos. El tercer grupo estudia las  representaciones sem&aacute;nticas basado en la idea que el significado de una palabra  puede ser aprendido de un entorno ling&uuml;&iacute;stico. Los modelos de espacio sem&aacute;ntico  capturan el significado cuantitativamente en t&eacute;rminos de estad&iacute;stica de  coocurrencia simple. Otra variante sem&aacute;ntica son los modelos de t&oacute;picos  probabil&iacute;sticos que se basan en que las palabras observadas en un corpus poseen  una estructura latente enlazada a t&oacute;picos (Mitchell &amp; Lapata, 2010).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la literatura de los espacios sem&aacute;nticos existen dos tendencias  importantes, la sem&aacute;ntica distribucional y la sem&aacute;ntica composicional. Para la  primera se han propuesto varios modelos de representaci&oacute;n basados en matrices  con el objetivo de modelar el significado de las palabras utilizando el modelo  espacio vectorial y para la segunda se han propuesto otros modelos m&aacute;s amplios  enfocados a modelar el significado no solo de las palabras, sino de frases y  oraciones. Recientemente han surgido herramientas en varios lenguajes de  programaci&oacute;n que facilitan la modelaci&oacute;n de algoritmos que siguen estos modelos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A pesar de que existen varios trabajos que abordan t&eacute;cnicas para la  representaci&oacute;n textual incorporando elementos sem&aacute;nticos, as&iacute; como algunas  herramientas, marcos de trabajo y bibliotecas que incorporan algunas de las  formas de representaci&oacute;n publicadas, a&uacute;n es insuficiente la publicaci&oacute;n de  trabajos que consoliden las t&eacute;cnicas y herramientas existentes as&iacute; como las  caracter&iacute;sticas principales de cada una de ellas, sus ventajas y desventajas,  de forma tal que sea f&aacute;cil para un investigador conocer qu&eacute; variantes existen y  c&oacute;mo aplicarlas. De ah&iacute; que el presente art&iacute;culo tiene como objetivo mostrar el  resultado de una revisi&oacute;n de la literatura relacionada a la construcci&oacute;n de  modelos, algoritmos y utilizaci&oacute;n de herramientas computacionales para la  representaci&oacute;n de textos en espacios vectoriales sem&aacute;nticos. De esta forma, los  investigadores en el &aacute;rea de la miner&iacute;a de textos, procesamiento del lenguaje  natural y miner&iacute;a de opini&oacute;n, tendr&aacute;n los elementos suficientes para  identificar aquellas formas de representaci&oacute;n que mejor se adapten a la  problem&aacute;tica a tratar, sobre todo considerando las bondades de incluir  elementos sem&aacute;nticos en la representaci&oacute;n para potenciar la calidad de los  resultados de algoritmos de procesamiento textual que posteriormente se apliquen. </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Espacios  vectoriales sem&aacute;nticos</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los textos son  datos no estructurados de gran dimensionalidad. Varios han sido los modelos  computacionales propuestos para la representaci&oacute;n textual, ejemplos de estos  modelos son: el modelo booleano (Baeza-Yates &amp; Ribeiro-Neto, 1998), el modelo espacio vectorial (Salton et al., 1975), el an&aacute;lisis sem&aacute;ntico latente (Deerwester, 1988) y los grafos (Biggs, N.; Lloyd, E. Wilson, 1986), entre otros. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El modelo  espacio vectorial (<u>Vector Space Model</u>; VSM) representa documentos  textuales a trav&eacute;s de vectores de t&eacute;rminos. Fue presentado por Gerard Salton y  sus colegas en 1975 (Salton  et al., 1975) y desde entonces es uno de los  modelos de representaci&oacute;n m&aacute;s usados en tareas de recuperaci&oacute;n de informaci&oacute;n y  procesamiento del lenguaje natural (<u>Natural Language Processing</u>; NLP).  Una interpretaci&oacute;n de este modelo es: &ldquo;<em>En  VSM cada documento se identifica como un vector de rasgos en un espacio en el  cual cada dimensi&oacute;n corresponde a t&eacute;rminos indexados distintos (palabras). Un vector documento dado, en cada  componente tiene un valor num&eacute;rico para indicar su importancia</em>&rdquo; (Arco,  2008). VSM utiliza el enfoque ling&uuml;&iacute;stico l&eacute;xico, el cual  se refiere al an&aacute;lisis concerniente a palabras individuales; y se basa en dos  elementos fundamentales: un esquema de pesos y una medida de similitud. VSM se fundamenta  en una comparaci&oacute;n estricta de los t&eacute;rminos, por lo que opera en el plano  estad&iacute;stico de los documentos, es decir, considera los documentos como bolsas  de palabras. Estas caracter&iacute;sticas constituyen una limitante para el modelo,  debido a que no permite representar relaciones sem&aacute;nticas entre las palabras.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El nivel  sem&aacute;ntico es un nivel ling&uuml;&iacute;stico que analiza el significado de una palabra o  frase. Por ejemplo, al comprender frases permite conocer el significado de  varias palabras en su conjunto. Existe una estrecha relaci&oacute;n entre el enfoque  l&eacute;xico y el sem&aacute;ntico, de ah&iacute; que en (Manning,  1999) (Jurafsky  &amp; Martin, 2007) se hace referencia que el  enfoque sem&aacute;ntico se divide en dos partes: el estudio del significado de  palabras individuales (sem&aacute;ntica l&eacute;xica) y de c&oacute;mo los significados de palabras  individuales son combinados en el significado de oraciones o incluso unidades  m&aacute;s grandes (sem&aacute;ntica composicional). </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  primeros pasos para incorporar la sem&aacute;ntica en el procesamiento del lenguaje  natural est&aacute;n muy relacionados al estudio del espacio vectorial y al &aacute;lgebra  lineal. Varios aspectos sem&aacute;nticos fundamentalmente desde el punto de vista  l&eacute;xico est&aacute;n relacionados geom&eacute;tricamente por una noci&oacute;n de distancia. Por  ejemplo, el significado de la palabra &ldquo;gato&rdquo; est&aacute; m&aacute;s cerca al significado de  la palabra &ldquo;perro&rdquo; que al significado de la palabra &ldquo;carro&rdquo; (Clark, 2014)<em>. </em>Los significados de las palabras pueden ser representados usando  vectores, como parte de un espacio sem&aacute;ntico de alta dimensi&oacute;n. La estructura  detallada de este espacio se provee al considerar los contextos en los cuales  las palabras ocurren en un gran corpus textual. Las palabras son f&aacute;cilmente  comparadas mediante similitudes en el espacio vectorial, usando cualquiera de  las medidas de distancia del &aacute;lgebra lineal, una de las m&aacute;s comunes es la  medida coseno, la cual calcula el coseno del &aacute;ngulo entre dos vectores. Estas  ideas se resumen en la llamada met&aacute;fora geom&eacute;trica del significado: &ldquo;<em>Los significados son ubicaciones en un  espacio sem&aacute;ntico, y la similitud sem&aacute;ntica representa la proximidad entre las  ubicaciones</em>&rdquo; (Sahlgren, 2006). De esta forma, la proximidad  espacial entre palabras indica cu&aacute;n similares son sus significados. Los llamados  modelos espacio vectorial de significado son tambi&eacute;n conocidos por modelos de  espacio-palabra (Sahlgren, 2006). Actualmente existen varias  implementaciones de estos modelos, a continuaci&oacute;n se expondr&aacute;n las principales  tendencias y las herramientas computacionales en las que se encuentran. </font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1Sem&aacute;ntica  distribucional</font></strong></a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En 1957 el  ling&uuml;ista John R. Firth sent&oacute; las bases de la teor&iacute;a distribucional moderna con  la idea: &ldquo;<em>usted conocer&aacute; una palabra por  la compa&ntilde;&iacute;a que posee</em>&rdquo; (Firth, 1957). La sem&aacute;ntica distribucional se  basa en obtener patrones estad&iacute;sticos de las palabras (como la coocurrencia de  palabras), a partir de los cuales se descubren las diferencias o similitudes  entre ellas. A continuaci&oacute;n se describir&aacute;n los tipos de modelos  distribucionales sem&aacute;nticos y sus principales aspectos.</font></p>     <p><font size="2"><a><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.1 Modelos distribucionales  sem&aacute;nticos basados en vectores de conteo</font></strong></a> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los modelos  distribucionales basados en vectores de conteo siguen cuatro etapas  fundamentales para obtener las coocurrencias de t&eacute;rminos o palabras en los  documentos de un corpus: realizar una representaci&oacute;n del texto para extraer la  cantidad de coocurrencias; utilizar un esquema de pesos para estimar dichas  cantidades; reducir la dimensionalidad de las representaciones y comparar las  unidades textuales a trav&eacute;s de medidas de similitud. Estas etapas se describen  a continuaci&oacute;n (Grefenstette, Moritz, et al., 2014).</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.1.1 Extracci&oacute;n de cantidades de coocurrencia </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para representar  la frecuencia de aparici&oacute;n de unidades ling&uuml;&iacute;sticas en un texto se construye  una matriz. En la literatura se encuentran de forma general tres tipos de  matrices, las cuales analizan similitudes de documentos (matrices  t&eacute;rmino-documento), de palabras (matrices palabra-contexto) y de relaciones (matrices  par-patr&oacute;n) (Turney,  2010). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las matrices  t&eacute;rmino-documento presentan filas que corresponden a t&eacute;rminos y las columnas a  documentos, en este caso un vector de documentos se representa como una bolsa  de palabras. Esta es una de las formas m&aacute;s comunes de modelar documentos, en la  cual se cuenta la cantidad de ocurrencias de cada t&eacute;rmino pero se ignora el  orden en que aparecen, es decir, que la estructura ling&uuml;&iacute;stica del texto se  desconoce. Por lo general, la mayor parte de los elementos de esta matriz son  0, por lo que es una matriz dispersa, debido a que la mayor&iacute;a de los documentos  usar&aacute;n solo una fracci&oacute;n de todo el vocabulario. En este tipo de matrices los  vectores columna similares indican documentos similares. Las matrices  t&eacute;rmino-documento son muy usadas en el &aacute;rea de recuperaci&oacute;n de informaci&oacute;n,  donde la hip&oacute;tesis de bolsa de palabras captura en cierta medida el tema que  trata el documento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las matrices  palabra-contexto presentan filas que corresponden a t&eacute;rminos y las columnas a  contextos. El contexto est&aacute; dado por palabras, frases, oraciones, p&aacute;rrafos,  cap&iacute;tulos, documentos u otras posibilidades como secuencias de caracteres o  patrones. Esta representaci&oacute;n se basa en la hip&oacute;tesis de distribuci&oacute;n en  ling&uuml;&iacute;stica que plantea que las palabras que ocurren en contextos similares  tienden a tener significados similares. En este tipo de matrices los vectores  fila similares sugieren palabras con significados similares. En &aacute;reas como la  recuperaci&oacute;n de informaci&oacute;n, el contexto se observa como todo el documento, sin  embargo puede ser reducido a una oraci&oacute;n o incluso a algunas palabras cercanas  a la palabra de la cual se quieren obtener palabras similares (palabra  objetivo). De esta forma se obtienen las llamadas matrices t&eacute;rmino-t&eacute;rmino o  palabra-palabra, en las cuales se consideran palabras &uacute;nicas como contexto y se  cuenta la cantidad de veces que una palabra contexto ocurre en el contexto de  una palabra objetivo (Clark, 2014). Para el an&aacute;lisis del  contexto se han estudiado dos tipos de relaciones: palabras relacionadas  sintagm&aacute;ticamente (palabras que ocurren en el mismo documento) y palabras  relacionadas paradigm&aacute;ticamente (palabras que ocurren cerca una de otra, es  conocido por coocurrencia l&eacute;xica). Se ha afirmado que el segundo enfoque revela  mayor informaci&oacute;n y por tanto provee mejor base estad&iacute;stica (Sahlgren, 2006).</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/f0111216.jpg" alt="f01" width="452" height="224"><a name="f01"></a></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n2/f0211216.jpg" alt="f02" width="464" height="297"><a name="f02"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="#f02">Figura 2</a> se muestra un ejemplo de una matriz t&eacute;rmino-t&eacute;rmino, para  el texto correspondiente a la <a href="#f01">figura 1</a>, el contexto est&aacute; formado por t&eacute;rminos extra&iacute;dos de un conjunto de  oraciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las palabras  objetivos (para las que los vectores contexto son calculados) no tienen que ser  parte del vocabulario de t&eacute;rminos que provee el contexto. Para determinar  palabras similares puede usarse la medida coseno. En el ejemplo, &ldquo;football&rdquo; es  similar en significado a &quot;soccer&quot; debido a que el vector contexto  (fila) correspondiente a &ldquo;football&rdquo;, superpone el vector correspondiente a  &ldquo;soccer&rdquo;, es decir que varias de las palabras que rodean a &ldquo;football&rdquo; son las  mismas que rodean a &ldquo;soccer&rdquo;; en el ejemplo estas dos palabras coinciden con  una frecuencia igual a 5 para los contextos especificados (Clark  2014). Los coeficientes de la matriz representan la  frecuencia de los t&eacute;rminos en las oraciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las  matrices par-patr&oacute;n presentan filas que corresponden a pares de palabras,  ejemplo carpintero:madera, y los vectores columna corresponden a los patrones  en los que los pares coocurren, por ejemplo, &ldquo;X corta Y&rdquo;, &ldquo;Y es cortado por X&rdquo;  coocurre con el par X:Y (la cantidad de patrones no tiene que coincidir con la  cantidad de documentos a los que pertenecen los pares) (Turney, 2010). En este caso el objetivo es  medir la similitud sem&aacute;ntica de patrones (de los vectores columna). Esta  representaci&oacute;n se basa en la hip&oacute;tesis de distribuci&oacute;n extendida, donde los  patrones que coocurren con pares similares tienden a tener significados  similares, y por tanto puede ser usada, por ejemplo, para inferir que una  oraci&oacute;n es una par&aacute;frasis de otra. Otros estudios introducen pares de palabras  con vectores filas similares que tienden a tener relaciones sem&aacute;nticas  similares, es decir, similitud a trav&eacute;s de los vectores fila, por ejemplo alba&ntilde;il:piedra,  carpintero:madera y alfarero:arcilla comparten la relaci&oacute;n sem&aacute;ntica  artesano:material y los patrones son &ldquo;X usa Y para&rdquo; y &ldquo;X transforma Y en&rdquo;. Otra  hip&oacute;tesis propuesta es la de relaciones latentes, donde pares de palabras que  coocurren en patrones similares tienden a tener relaciones sem&aacute;nticas similares  (Turney, 2010). </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.1.2 Esquemas  de pesos</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El esquema de pesos m&aacute;s usado es la  frecuencia de aparici&oacute;n de los t&eacute;rminos en los documentos (<em><u>Term Frequency / Inverse Document Frequency</u></em>; TF-IDF) para  expresar el peso relativo del rasgo o t&eacute;rmino <em>w</em> en el vector asociado a un documento <em>d</em> y se calcula seg&uacute;n la expresi&oacute;n (1) , donde <em>idf</em>(<em>w</em>)  se calcula seg&uacute;n la expresi&oacute;n (2) .</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0111216.jpg" alt="fo01" width="288" height="82"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">As&iacute;, <em>tf </em>(<em>w,d</em>)  es la frecuencia del t&eacute;rmino (cantidad de ocurrencias de la palabra <em>w</em> en un documento <em>d</em>), <em>idf </em>(<em>w</em>) es la frecuencia inversa de  documentos (cantidad de documentos donde aparece la palabra <em>w</em> pero de forma inversa, debido a que se  le otorga mayor peso a las palabras que ocurren en una menor cantidad de  documentos), <em>df </em>(<em>w</em>) es la frecuencia de documento (cantidad de documentos que  contienen la palabra <em>w</em>) y <em>N</em> representa la cantidad total de documentos  en el corpus (Aggarwal &amp; Zhai, 2012; Manning et al., 2008). La mayor&iacute;a de las formas de  pesado se basa en alguna variaci&oacute;n de la f&oacute;rmula TF-IDF (Manning,  1999; Arco,  2008).</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0211216.jpg" alt="fo02" width="262" height="55"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una modificaci&oacute;n de la&nbsp; expresi&oacute;n (3) se muestra en (4), teni&eacute;ndose en cuenta la cantidad de veces que  ocurren en un documento aquellos t&eacute;rminos que m&aacute;s aparecen, donde</font> <img src="/img/revistas/rcci/v10n2/fo0311216.jpg" alt="fo03" width="80" height="34"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">representa  el n&uacute;mero de ocurrencias que tiene la palabra que m&aacute;s aparece en <em>d</em>. </font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n2/fo0411216.jpg" alt="fo04" width="305" height="60"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra forma para el c&aacute;lculo de  TF-IDF es la expresi&oacute;n (5)</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0511216.jpg" alt="fo05" width="381" height="83"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (6) se muestra una expresi&oacute;n para el  c&aacute;lculo de TF-IDF que tiene como objetivo obtener pesos en el intervalo [0,1] y  considerar la componente de normalizaci&oacute;n.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0611216.jpg" alt="fo06" width="236" height="83"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  expresi&oacute;n (7) es una variante desglosada de (6), donde el numerador de este  coeficiente considera la frecuencia de ocurrencia del t&eacute;rmino <em>t</em> en <em>d</em> y la discriminaci&oacute;n del t&eacute;rmino IDF, mientras que el denominador permite la  estandarizaci&oacute;n para eliminar la influencia de la longitud del documento.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0711216.jpg" alt="fo07" width="348" height="119"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La informaci&oacute;n  mutua puntual (<u>Pointwise mutual information</u>; PMI) es una medida derivada  de la teor&iacute;a de la informaci&oacute;n, que vuelve a pesar las ocurrencias usando  estad&iacute;sticas a nivel de corpus para reflejar el significado de las coocurrencias.  Ha sido utilizada por ejemplo para medir la orientaci&oacute;n sem&aacute;ntica de frases (Turney  2001).&nbsp; Dada una  palabra <em>w</em> y otra palabra <em>v</em>, PMI entre <em>w</em> y <em>v</em> se define en (8) como:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0811216.jpg" alt="fo08" width="250" height="49"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>p</em>(<em>w,  v</em>) es la probabilidad de que <em>w </em>y <em>v</em> coocurran, por ejemplo, en un mismo  contexto, y <em>p</em>(<em>w</em>) y <em>p</em>(<em>v</em>) son las probabilidades de aparici&oacute;n  de las palabras <em>w </em>y <em>v</em>, respectivamente (Grefenstette,  Moritz, et al., 2014) (Curran,  2003).</font></p>     ]]></body>
<body><![CDATA[<p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1.1.1.3 M&eacute;todos de reducci&oacute;n de  dimensiones</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Algunos m&eacute;todos propuestos para reducir las dimensiones son (Grefenstette, Moritz, et al., 2014):</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LSA:  El an&aacute;lisis sem&aacute;ntico latente (<em><u>Latent  Semantic Analysis</u></em>; LSA) se propuso por Deerwester y colegas en 1988 (Deerwester,  1988). El modelo representa conceptos sem&aacute;nticos  presentes en los documentos. La t&eacute;cnica que emplea este modelo para reducir la  dimensionalidad es una t&eacute;cnica de factorizaci&oacute;n de matrices, llamada descomposici&oacute;n  de valores singulares (<em><u>Singular Value  Descomposition</u></em>; SVD) (Deerwester  et al., 1990), para encontrar un espacio  sem&aacute;ntico latente. En esta t&eacute;cnica una matriz de t&eacute;rmino-documento se  descompone en un conjunto de factores ortogonales, a partir de los cuales la  matriz original puede aproximarse por una combinaci&oacute;n lineal. Si los factores  m&aacute;s peque&ntilde;os son ignorados al multiplicar las matrices m&aacute;s peque&ntilde;as se obtiene  una aproximaci&oacute;n de la matriz de coocurrencia original, este proceso es llamado  SVD truncado y es el m&eacute;todo que reduce las dimensionalidades en LSA. La idea es  que SVD induce relaciones entre filas o entre columnas, que son similares a  otras filas o columnas en la matriz de coocurrencia original y de esta forma  LSA agrupa palabras que ocurren en contextos similares. Se ha destacado que  este modelo surge con el objetivo de superar las dificultades sem&aacute;nticas,  generadas por la sinonimia y la polisemia (Abella  &amp; Medina, 2014). El modelo representa los  vectores de documentos en un espacio dimensional asociado a los conceptos  presentes en la colecci&oacute;n. Por tanto, se considera una forma de representaci&oacute;n  textual, no obstante, otros autores clasifican este modelo como un m&eacute;todo de  reducci&oacute;n de dimensionalidad a partir de la representaci&oacute;n VSM de un corpus  textual (Sahlgren,  2006).</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HAL:  El hiperespacio an&aacute;logo al lenguaje (<em><u>Hyperspace  analogue to language</u></em>; HAL) usa una matriz de coocurrencia  palabra-palabra (t&eacute;rmino-t&eacute;rmino), la cual contiene coocurrencias de palabras  dentro de una ventana de contexto direccional de un tama&ntilde;o de 10 palabras. Las coocurrencias  son pesadas con la distancia entre las palabras, de tal forma que las palabras  ocurren pr&oacute;ximas unas a otras para obtener el peso mayor, y las palabras que  ocurran en lados opuestos de la ventana de contexto obtiene el peso menor. El  resultado de esta operaci&oacute;n es una matriz de coocurrencia direccional en la que  las filas y las columnas representan cantidades de coocurrencia en diferentes  direcciones. Cada par fila-columna (es decir, coocurrencias del contexto  derecho e izquierdo) son concatenados para producir un vector de contexto de  altas dimensiones (tiene dos veces el tama&ntilde;o del vocabulario). En el caso que manejar  estos vectores sea costoso, HAL reduce la dimensionalidad de los mismos al  calcular las varianzas de los vectores filas y columna para cada palabra y  descartar los elementos con la menor varianza, dejando solo 100 o 200 elementos  de los vectores que m&aacute;s var&iacute;an. A partir de esta representaci&oacute;n, se utiliza la  medida de Minkowski para calcular la similitud entre vectores&nbsp; (Sahlgren,  2006).</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">COALS:  es un algoritmo que usa una colecci&oacute;n de documentos para construir un espacio  sem&aacute;ntico, espec&iacute;ficamente construye una matriz t&eacute;rmino-t&eacute;rmino donde cada  elemento en la matriz representa cuan frecuente dos t&eacute;rminos ocurren juntos. La  matriz es posteriormente normalizada por correlaci&oacute;n donde los valores negativos  son igualados a cero, y los valores no negativos son reemplazados por su ra&iacute;z  cuadrada. Opcionalmente, la matriz de coocurrencia de t&eacute;rminos es reducida con  SVD (Rohde  et al., 2009).</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos  de inducci&oacute;n del sentido de las palabras: Las t&eacute;cnicas de discriminaci&oacute;n del  sentido de las palabras no supervisadas consisten en agrupar instancias de una  palabra objetivo que ocurre en un texto usando espacios vectoriales y valores  de similitud. El contexto de cada instancia es representado como un vector en  un espacio de rasgos de altas dimensiones. La discriminaci&oacute;n se logra al  agrupar los vectores contextos directamente en el espacio vectorial y al  encontrar valores de similitud entre los vectores y luego realizar un agrupamiento  en este espacio de similitudes. Se emplean dos representaciones distintas del  contexto en las que la palabra ocurre, ellas son: representar el contexto de  cada instancia de una palabra como un vector de rasgos que ocurren en ese  contexto y representar el contexto basado en el promedio de vectores que  representan las palabras que ocurren en el contexto (Purandare  &amp; Pedersen, 2004). </font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RI:  La indexaci&oacute;n aleatoria (<u>Random indexing</u>; RI) fue desarrollada a partir  del trabajo de Kanerva sobre memoria distribuida esparcida (Kanerva,  1988). Se basa fundamentalmente en la idea de acumular  vectores de contexto. RI es una t&eacute;cnica que no necesita almacenar una gran  matriz de coocurrencia como sucede en LSA y HAL. RI construye los vectores  contexto de forma diferente, en vez de almacenar las coocurrencias en una  matriz y luego extraer los vectores, RI acumula de forma incremental vectores  contexto en dos pasos. Primero, para cada contexto (cada documento o tipo de  palabra) se asigna una representaci&oacute;n &uacute;nica generada aleatoriamente, llamada vector  &iacute;ndice. Estos vectores son dispersos y de alta dimensionalidad (en el orden de  miles). Luego, los vectores contexto son acumulados al analizar una palabra a  la vez, y se adiciona el o los vectores &iacute;ndices del contexto (los tipos de  palabras que est&aacute;n alrededor o los documentos) al vector del contexto de la  palabra. Cuando el conjunto de datos completo ha sido procesado, los vectores  contexto coinciden con la suma de los contextos de las palabras. Recientemente  este modelo fue utilizado para la extracci&oacute;n de sin&oacute;nimos (Henriksson  et al., 2014). RI se caracteriza del resto de  los modelos de acuerdo a los siguientes aspectos (Sahlgren,  2006): </font></p>     <ul>           <li>             <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es  incremental, significa que los vectores contextos pueden ser usados para c&aacute;lculos  de similitud. Por el contrario, otras implementaciones espacio-palabra  requieren que todo el corpus sea muestreado y representado en una matriz de  coocurrencia para ejecutar las similitudes.</font></p>       </li>           <li>             <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Utiliza  una dimensionalidad fija, lo cual significa que nuevos datos no incrementa la  dimensionalidad de los vectores.</font></p>       </li>           <li>             <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Usa  reducci&oacute;n de dimensi&oacute;n impl&iacute;cita, debido a que la dimensionalidad fija es menor  que la cantidad de contextos en los datos. Esto es ventajoso respecto al  consumo de memoria y el tiempo de procesamiento, por lo que es menos costoso  que otros m&eacute;todos.</font></p>       </li>           <li>             <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es  robusto para escoger los par&aacute;metros. Las t&eacute;cnicas de proyecci&oacute;n aleatoria se  ejecutan mejor mientras la dimensionalidad de los vectores es m&aacute;s cercana al  tama&ntilde;o del contexto en los datos.</font></p>       </li>         ]]></body>
<body><![CDATA[</ul>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NMF:  La factorizaci&oacute;n de matriz no negativa (<em><u>Non-Negative Matrix Factorization</u></em>;  NMF) es un algoritmo de factorizaci&oacute;n de matrices que se enfoca en el an&aacute;lisis  de matrices de datos cuyos elementos son no negativos (Lee  et al., 2000). Esta t&eacute;cnica representa una  matriz por la factorizaci&oacute;n de dos matrices. Dado un conjunto de vectores de  datos <em>n</em>-dimensionales multivariado,  los vectores se ubican en las columnas de una matriz <em>Xn</em>x<em>m</em> donde <em>m</em> es la cantidad de ejemplos  del conjunto de datos. Esta matriz es luego factorizada aproximadamente en una  matriz <em>Wn</em>x<em>r</em> y una matriz <em>Hr</em>x<em>m</em>. Usualmente se selecciona <em>r</em> para que sea menor que <em>n</em> o <em>m</em>, de tal forma que <em>W</em> y <em>H</em> son m&aacute;s peque&ntilde;as que la matriz original <em>X</em> (Lee  et al., 2000). Se puede alcanzar una buena  aproximaci&oacute;n si los vectores bases descubren una estructura latente u oculta en  los datos.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PLSA:  El an&aacute;lisis sem&aacute;ntico latente probabil&iacute;stico (<em><u>Probabilistic Latent Semantic Analysis</u></em>; PLSA) se propuso en  1999 por Hofmann como una versi&oacute;n probabil&iacute;stica de LSA (Hofmann,  1999). Hofmann declara que LSA posee varias limitaciones  debido a que no tiene una base estad&iacute;stica. Por lo que PLSA es un modelo  generativo probabil&iacute;stico, basado en un modelo de aspectos y fue desarrollado  para el an&aacute;lisis estad&iacute;stico del texto. Este modelo se utiliza para descubrir  la sem&aacute;ntica de t&oacute;picos ocultos en documentos usando la representaci&oacute;n de bolsa  de palabras (Ren  &amp; Han, 2014).</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LDA:  El modelo de asignaci&oacute;n latente de Dirichlet (<em><u>Latent Dirichlet  Allocation</u></em>; LDA) fue introducido por primera vez por David Blei y  colegas en el a&ntilde;o 2003 (Blei  et al., 2003)<em>. </em>LDA es un modelo probabil&iacute;stico generativo para colecciones de  datos discretos como es el caso de un corpus textual. Espec&iacute;ficamente, LDA es  un modelo bayesiano jer&aacute;rquico de tres niveles (documento, palabra y t&oacute;pico),  el cual considera a un t&oacute;pico como &ldquo;<em>una  distribuci&oacute;n sobre un vocabulario fijo</em>&rdquo; (Blei  et al., 2003).El modelo toma previamente una cantidad de t&oacute;picos predefinida  para toda la colecci&oacute;n y se definen las palabras que pertenecen a esos t&oacute;picos.  El procesamiento del modelo consiste b&aacute;sicamente en identificar en qu&eacute; medida  esos t&oacute;picos se presentan en los documentos; primero se escoge una distribuci&oacute;n  sobre los t&oacute;picos; es decir, el conjunto de t&oacute;picos predefinidos con sus  palabras m&aacute;s probables. Luego, para cada palabra del documento se escoge una  asignaci&oacute;n de t&oacute;picos y se selecciona la palabra para el t&oacute;pico correspondiente.  La salida del proceso de ubicar las palabras por t&oacute;picos, los que equivalen a  grupos de palabras m&aacute;s frecuentes, y estas palabras son localizadas para cada  t&oacute;pico predefinido m&aacute;s frecuente encontrado en los documentos. </font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En los &uacute;ltimos  a&ntilde;os, algunos autores integran nuevas t&eacute;cnicas a los modelos mencionados para  mejorar las representaciones textuales basadas en VSM, por ejemplo (Faruqui &amp; Dyer, 2014), (Garrette et al., 2014), (Brychc&iacute;n &amp; Konop&iacute;k, 2014), (Jauhar et al., 2015), (Reisinger &amp; Mooney, 2010) as&iacute; como resaltan la importancia  de analizar los distintos par&aacute;metros que pueden influir en modelos basados en  VSM (Kiela &amp; Clark, 2014).</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1.1.1.4 Coeficientes  para comparar documentos</font></strong></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para  conocer cuando una unidad textual (palabra, p&aacute;rrafo, oraciones o documentos) es  semejante o distinta de otra, la comunidad de investigadores ha presentado  varias funciones de similitud, las cuales son &uacute;tiles en tareas como la  recuperaci&oacute;n de informaci&oacute;n, el agrupamiento de documentos, la desambiguaci&oacute;n  de palabras y la detecci&oacute;n de t&oacute;picos, entre otras. La similitud  entre palabras es fundamental para hallar la similitud de los textos y de esta  forma puede ser usada como base para hallar similitudes de otras unidades  textuales como oraciones, p&aacute;rrafos y documentos. Las palabras pueden ser  similares de forma l&eacute;xica si tienen secuencias de caracteres similares; y  pueden ser similares de forma sem&aacute;ntica si tienen el mismo significado, si son  usadas en el mismo contexto, en la misma forma o una palabra es un tipo de  otra. La similitud l&eacute;xica se presenta a trav&eacute;s de algoritmos basados en cadenas  y la similitud sem&aacute;ntica a trav&eacute;s de algoritmos basados en corpus y en  conocimiento. Estos enfoques consisten en (Gomaa, 2013):</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Medidas  basadas en cadenas: operan en secuencia de cadenas y composici&oacute;n de caracteres.  Miden la similitud o disimilitud entre dos cadenas de textos para compararlas o  estimar su correspondencia.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Medidas  basadas en corpus: determinan la similitud entre palabras de acuerdo a la  informaci&oacute;n que se obtiene de grandes corpora.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Medidas  basadas en conocimiento: determinan el grado de similitud entre palabras usando  la informaci&oacute;n obtenida de redes sem&aacute;nticas. </font></p>   </li>     </ul>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">La similitud entre dos  vectores de t&eacute;rminos se puede calcular mediante el &aacute;ngulo que forman, m&aacute;s  concretamente mediante el coseno del &aacute;ngulo (considerando que cuanto m&aacute;s  pr&oacute;ximos est&aacute;n dos vectores mayores es la similitud entre ellos). La principal caracter&iacute;stica de esta medida consiste  en realizar una normalizaci&oacute;n de los vectores de forma m&aacute;s suave, no asignando  tanta importancia a los documentos cortos. Cuando el &aacute;ngulo entre los vectores  es menor, la similitud es mayor y en consecuencia el coseno del &aacute;ngulo es mayor  (Seijo et al., 2011). La ecuaci&oacute;n (9)  representa la medida coseno  entre los documentos d<sub>i</sub> y d<sub>j</sub>, donde d<sub>ik </sub>representa el peso del rasgo k en el documento d<sub>i</sub>.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0911216.jpg" alt="fo09" width="427" height="62"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  distancia Euclidiana o distancia L2 mostrada en la ecuaci&oacute;n (10) es la ra&iacute;z  cuadrada de la suma de las diferencias cuadradas entre los elementos  correspondientes de dos vectores. Esta distancia mide cu&aacute;n lejos est&aacute;n dos  vectores en el espacio vectorial. Esta distancia no arroja buenos resultados  cuando la dimensionalidad de los vectores a comparar es alta.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1011216.jpg" alt="fo10" width="302" height="80"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  coeficiente Dice se presenta en la ecuaci&oacute;n (11), el cual  se define como dos veces la cantidad de t&eacute;rminos comunes en las cadenas  comparadas, divididas por la cantidad total de t&eacute;rminos en ambas cadenas.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1111216.jpg" alt="fo11" width="292" height="47"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  similitud Jaccard se calcula la cantidad de t&eacute;rminos compartidos sobre la  cantidad de t&eacute;rminos &uacute;nicos en ambas cadenas. Su f&oacute;rmula se muestra en la  ecuaci&oacute;n (12).</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1211216.jpg" alt="fo12" width="422" height="50"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Steyvers y Griffiths declaran  que la similitud entre dos documentos puede ser medida por la similitud entre  sus distribuciones de t&oacute;picos correspondientes <em>&Theta;<sup>di</sup></em> y <em>&Theta;<sup>dj</sup> </em>(Steyvers &amp; Griffiths 2004). Existen varias funciones de similitud para  distribuciones probabil&iacute;sticas (Steyvers &amp; Griffiths 2004). Una funci&oacute;n est&aacute;ndar para medir la diferencia o  divergencia entre dos distribuciones d<sub>i</sub> y d<sub>j </sub>es la divergencia de  Kullback Leibler (KL), sus versiones asim&eacute;trica y sim&eacute;trica se presentan las  ecuaciones (13)  y (14) , respectivamente, donde <em>m</em> tambi&eacute;n pudiera representar la cantidad de t&oacute;picos que describan  los documentos: </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1311216.jpg" alt="fo13" width="314" height="87"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra  opci&oacute;n es aplicar la divergencia simetrizada de Jensen-Shannon (JS), la cual se  expone en la ecuaci&oacute;n (15) y mide la similitud entre <em>p</em> y <em>q</em> a trav&eacute;s del promedio de d<sub>i</sub> y d<sub>j</sub>. Dos distribuciones d<sub>i</sub> y d<sub>j</sub> ser&aacute;n similares si son similares a su promedio (d<sub>i</sub> + d<sub>j</sub>)/2.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1411216.jpg" alt="fo14" width="408" height="39"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se  pueden considerar las distribuciones de t&oacute;picos como vectores y aplicar  funciones motivadas geom&eacute;tricamente como la distancia Euclidiana y la similitud  coseno. En modelos probabil&iacute;sticos la similitud entre dos palabras puede  medirse por el alcance que comparten los mismos t&oacute;picos, obteni&eacute;ndose las  distribuciones de t&oacute;picos condicionales <em>&theta;</em> <sup>(1)</sup> y <em>&theta;</em><sup> (2)</sup> mostradas en (16)  y (17)  respectivamente; <em>w<sub>1</sub></em> y<em> w<sub>2 </sub></em>representan las palabras y <em>z</em> el t&oacute;pico.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo1511216.jpg" alt="fo15" width="217" height="64"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las funciones de  KL o JS pueden usarse para medir la similitud distribucional entre estas  distribuciones. Cualquiera que sea la funci&oacute;n de similitud o relevancia usada,  requiere obtener estimaciones estables para las distribuciones de t&oacute;picos,  fundamentalmente para documentos peque&ntilde;os.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.1.2 Modelos basados en la predicci&oacute;n de contextos</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una tarea que ha  sido analizada recientemente para la construcci&oacute;n de modelos de vectores de  significado es aprender representaciones de vectores para palabras (Grefenstette, Moritz, et al., 2014).     <br>   Varias investigaciones  han dedicado sus esfuerzos a representar vectores de aprendizaje de palabras  usando redes neuronales (Bengio et al., 2003; Mikolov, 2013). La idea es que cada palabra se  representa por un vector que es concatenado o promediado con vectores palabras  en un contexto, y el vector resultante es usado para predecir otras palabras en  el contexto. Por ejemplo, un modelo de lenguaje de red neuronal propuesto en (Bengio et al., 2003) usa la concatenaci&oacute;n de varios  vectores palabra anteriores para formar la entrada de una red neuronal, y trata  de predecir la pr&oacute;xima palabra. Luego que el modelo es entrenado, la salida consiste  en hacer corresponder los vectores palabra a espacios vectoriales de tal forma  que las palabras sem&aacute;nticamente similares tienen representaciones vectoriales  similares (por ejemplo, &ldquo;fuerte&rdquo; est&aacute; cerca de &ldquo;poderoso&rdquo;) (Mikolov &amp; Com, 2014).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una diferencia importante respecto a las  representaciones espacio vectorial para las palabras, es que las  representaciones neuronales buscan representaciones para palabras que sean  &uacute;tiles para representar la distribuci&oacute;n de probabilidad de secuencias de  palabras del texto en lenguaje natural de forma compacta. Esta propuesta intenta  combatir el problema de la dimensionalidad (<em><u>curse  of dimensionality</u></em>), en el cual una secuencia de palabras en la que el  modelo ser&aacute; probado es probable que sea diferente de todas las secuencias que  fueron vistas durante el entrenamiento. La propuesta aprende una representaci&oacute;n  distribuida para las palabras que permite a cada oraci&oacute;n de entrenamiento  informar el modelo sobre una cantidad exponencial de oraciones vecinas  sem&aacute;nticamente. Los pasos b&aacute;sicos propuestos por (Bengio et al., 2003) para aprender el modelo de red neuronal son: </font></p>     <p><ul>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Asociar  con cada palabra en el vocabulario un vector de rasgos de palabra distribuido  (con valores reales).</font></p>     </li>         ]]></body>
<body><![CDATA[<li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Expresar  una funci&oacute;n de probabilidad unificada (<em><u>joint  probability function</u></em>) de secuencias de palabras en t&eacute;rminos de los  vectores de rasgos de estas palabras en la secuencia.</font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aprender  vectores de rasgos de palabra y los par&aacute;metros de esa funci&oacute;n de probabilidad.</font></p>     </li>         </ul>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El vector de rasgos representa diferentes  aspectos de una palabra, cada palabra est&aacute; asociada a un punto en el espacio  vectorial. La funci&oacute;n de probabilidad se expresa como el producto de  probabilidades condicionales de la pr&oacute;xima palabra dada las anteriores, por  ejemplo, usando una red neuronal multicapa para predecir la pr&oacute;xima palabra. El  modelo generaliza combinaciones porque se espera que palabras similares tengan  vectores de rasgos similares. Un ejemplo es &ldquo;gato&rdquo; y &ldquo;perro&rdquo;, estas palabras  presentan roles sem&aacute;nticos y sint&aacute;cticos similares en las oraciones &ldquo;El gato  est&aacute; caminando en el cuarto&rdquo; y &ldquo;El perro estaba corriendo en el patio&rdquo;. A  partir de estas oraciones se pueden generalizar otras combinaciones como &ldquo;El  gato corre por el patio&rdquo; y &ldquo;El perro estaba caminando en el cuarto&rdquo; (Bengio et al., 2003).</font></p> </p>     <p align="center">     <p align="center"><img src="/img/revistas/rcci/v10n2/f0311216.jpg" alt="f03" width="373" height="383"></p> </p>     <p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la Figura 3  se muestra una arquitectura neuronal para un conjunto  de entrenamiento representado por una secuencia <em>w</em><sub>1</sub><em>...w</em><sub>T</sub> de palabras <img src="/img/revistas/rcci/v10n2/fo1611216.jpg" alt="fo16" width="56" height="21">para el vocabulario <em>V</em> (el cual es un conjunto finito y  grande). El objetivo es aprender un modelo <img src="/img/revistas/rcci/v10n2/fo1711216.jpg" alt="fo17" width="209" height="21"> que da una alta probabilidad;  esta arquitectura descompone el modelo en dos partes. Primero, un mapeo de <em>C</em> para cualquier elemento <em>i</em> de <em>V</em> para un vector real <em>C</em>(<em>i</em>), el cual representa vectores de  rasgos distribuidos asociados con cada palabra en el vocabulario. <em>C</em> se representa por una matriz <em>|V|&times;m</em> de par&aacute;metros libres. Segundo, la  funci&oacute;n de probabilidad sobre palabras expresada con <em>C</em>: una funci&oacute;n <em>g</em> mapea  una secuencia de entrada de vectores de rasgos para palabras en un contexto (<em>C</em>(<em>w</em><sub>t</sub><em>&minus;n</em>+1), &middot;&middot;&middot;  ,<em>C</em>(<em>w</em><sub>t</sub>&minus;1)), a una distribuci&oacute;n de probabilidad condicional  sobre palabras en <em>V</em> para la pr&oacute;xima  palabra<em> w</em><sub>t</sub>. La salida de <em>g</em> es un vector cuyo elemento <em>i</em> estima la probabilidad <img src="/img/revistas/rcci/v10n2/fo1811216.jpg" alt="fo18" width="108" height="25"></font></p>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif">expresado como  se muestra en la ecuaci&oacute;n , donde <em>g</em> es una red neuronal y <em>C</em>(<em>i</em>) es el vector de rasgos de palabra (Bengio et al. 2003).</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n2/fo1911216.jpg" alt="fo19" width="398" height="37"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recientemente,  se presentaron dos arquitecturas basadas en redes neuronales para aprender  representaciones de vectores que capturan relaciones sem&aacute;nticas y sint&aacute;cticas  de palabras (Mikolov, Corrado, et al. 2013). Fueron nombradas modelo de Bolsa  de Palabras Continuo (<em><u>Continuos Bag of  Words</u></em>; CBOW) y modelo Skip-gram. CBOW presenta una arquitectura similar  a un modelo de lenguaje de red neuronal <em><u>feedforward</u></em>,  con capas de entrada, de proyecci&oacute;n, ocultas y de salida para predecir la  palabra actual basada en el contexto. Sus vectores son promediados y el orden  de las palabras no influye en la proyecci&oacute;n. Usan un clasificador log-lineal para  clasificar las palabras. <em>Skip-gram </em>a  diferencia de CBOW, trata de maximizar la clasificaci&oacute;n de una palabra basada  en otra palabra en la misma oraci&oacute;n. Para ello usa la palabra actual como  entrada para un clasificador log-lineal con una capa de proyecci&oacute;n continua y  predice palabras dentro de un rango antes y despu&eacute;s de la palabra actual.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recientemente,  algunos autores han realizado estudios de comparaci&oacute;n entre los enfoques de  modelos de conteo y los modelos predictivos (Baroni et al., 2014). En sus experimentaciones  obtuvieron mejores resultados con los modelos predictivos. Argumentan que los  pesos de los vectores son establecidos directamente para predecir de forma  &oacute;ptima los contextos en los que las palabras correspondientes tienden a  aparecer y debido a que palabras similares ocurren en contextos similares el  sistema aprende a asignar vectores similares a palabras similares. Declaran que  esta nueva forma de entrenar los modelos sem&aacute;nticos distribucionales es  atractiva porque reemplaza el c&aacute;lculo heur&iacute;stico de las transformaciones de  vectores de los modelos iniciales, con un paso de aprendizaje supervisado. La  supervisi&oacute;n no tiene un costo de anotaci&oacute;n manual, dado que la ventana de  contexto usada para entrenar puede ser extra&iacute;da autom&aacute;ticamente de un corpus no  anotado. Sin embargo, este enfoque es dependiente de la calidad del corpus  original y del dominio.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1.2 Sem&aacute;ntica composicional</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra tarea  analizada recientemente para la construcci&oacute;n de modelos de vectores de  significado es aprender como componer los modelos para obtener representaciones  de vectores para frases, oraciones y documentos (Grefenstette, Moritz, et al., 2014) (Grefenstette,  Sadrzadeh, et al., 2014; Krishnamurthy et al.,  2013; Hermann &amp;  Blunsom, 2013; Thater et al., 2010). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  representaci&oacute;n distribucional permite conocer si dos palabras significan lo mismo  aproximadamente, dada una representaci&oacute;n vectorial se utiliza alg&uacute;n coeficiente  para calcular la similitud entre las unidades. Sin embargo, para conocer si dos  oraciones significan lo mismo no se puede usar el mismo enfoque, porque no se  pueden aprender rasgos distribucionales a nivel de oraci&oacute;n. Desde el punto de  vista ling&uuml;&iacute;stico el lenguaje se entiende a trav&eacute;s de unidades compuestas, como  palabras y frases, pero no memorizando oraciones. La composici&oacute;n sem&aacute;ntica  permite aprender una jerarqu&iacute;a de rasgos, donde niveles m&aacute;s altos de  abstracci&oacute;n son derivados a partir de niveles m&aacute;s bajos (Grefenstette, Moritz, et al., 2014). Una funci&oacute;n gen&eacute;rica de  composici&oacute;n sem&aacute;ntica puede expresarse como donde <em>u </em>y <em>v</em> son representaciones hijas, <em>R</em> es la informaci&oacute;n relacional y <em>K</em> el conocimiento hist&oacute;rico (<em><u>background knowledge</u></em>).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las estructuras ling&uuml;&iacute;sticas  son compuestas, donde elementos m&aacute;s simples forman elementos m&aacute;s complejos. Por  ejemplo, los morfemas forman palabras, las palabras forman frases, y las frases  forman oraciones. Sin embargo, la similitud sem&aacute;ntica es m&aacute;s compleja que una  relaci&oacute;n simple entre palabras independientes. El contenido sem&aacute;ntico de una  oraci&oacute;n est&aacute; relacionado al contenido de sus constituyentes y la habilidad de  recombinarlo de acuerdo a un conjunto de reglas. Las redes neuronales pueden  representar objetos individuales distintos, pero en el caso de m&uacute;ltiples  objetos existen dificultades en conocer cu&aacute;les rasgos est&aacute;n relacionados a  determinados objetos; por ejemplo, no se han logrado buenas representaciones de  oraciones como &ldquo;Jos&eacute; ama a Mar&iacute;a&rdquo; y &ldquo;Mar&iacute;a ama a Jos&eacute;&rdquo;. Igualmente, los modelos  basados en sem&aacute;ntica distribucional no son efectivos para representar relaciones  composicionales, porque la representaci&oacute;n sem&aacute;ntica de estos modelos est&aacute;  enfocada a palabras individuales. Por ejemplo, enfoques como las matrices de  par-patr&oacute;n no son composicionales, capturan el significado de pares de palabras  y frases como un todo, sin modelar las partes que lo constituyen (Mitchell &amp; Lapata,  2010).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una propuesta para modelar frases y oraciones basadas  en vectores utiliza una funci&oacute;n de dos vectores y presenta modelos basados en  operaciones de adici&oacute;n y multiplicaci&oacute;n. Su enfoque responde al problema de  combinar vectores sem&aacute;nticos para hacer una representaci&oacute;n de frases  multipalabras, el cual es diferente al problema de como incorporar informaci&oacute;n  sobre contextos multipalabras en representaciones distribucionales para una  palabra individual. En esta propuesta se simplifica la funci&oacute;n gen&eacute;rica <em>p</em>=<em>f</em>(<em>u,v</em>), la cual se utiliza con la idea  que una oraci&oacute;n t&iacute;picamente consiste de operaciones de composici&oacute;n, cada una se  aplica a un par de constituyentes <em>u</em> y <em>v</em>. Por ejemplo, un modelo aditivo de  composici&oacute;n es <em>p</em>=A<em>u</em> = B<em>v</em> donde <em>A</em> y <em>B</em> son matrices que  determinan las contribuciones hechas por <em>u</em> y <em>v</em> a <em>p</em>. Una funci&oacute;n de composici&oacute;n simple dentro de este modelo es <em>p</em> = <em>u</em> + <em>v</em>.    Una variante de un modelo  representa la composici&oacute;n en t&eacute;rminos de la suma de predicado, argumento y  cantidad de vecinos del predicado de la siguiente forma <img src="/img/revistas/rcci/v10n2/fo2011216.jpg" alt="fo20" width="128" height="17"> Una funci&oacute;n de multiplicaci&oacute;n  es <img src="/img/revistas/rcci/v10n2/fo2111216.jpg" alt="fo21" width="73" height="20">   donde <img src="/img/revistas/rcci/v10n2/fo2211216.jpg" alt="fo22" width="20" height="20"> indica la multiplicaci&oacute;n de  los componentes correspondientes: <em>p<sub>i</sub>  = u<sub>i</sub></em> . <em>v<sub>i</sub></em> para obtener.&nbsp; Sin embargo, estas  funciones no tienen en cuenta el orden de las palabras, ni la sintaxis, ni  relaciones gramaticales (Mitchell &amp; Lapata  2010). Un ejemplo que permite ilustrar las operaciones  composicionales descritas puede desarrollarse a partir de la frase &ldquo;practical  difficulty&rdquo;, donde <em>u</em> representa  &ldquo;practical&rdquo; y <em>v</em> representa  &ldquo;difficulty&rdquo;. Los vectores hipot&eacute;ticos para estos componentes se muestran en la  <a href="#fo23">Figura 4</a>. La operaci&oacute;n de adici&oacute;n en este caso equivale a <em>practical + difficulty = </em>[1 14 6 14 4] y  la operaci&oacute;n de multitplicaci&oacute;n <em>practical </em>   <img src="/img/revistas/rcci/v10n2/fo2211216.jpg" alt="fo22" width="20" height="20"><em>difficulty = </em>[0 48 8 40 0]. La operaci&oacute;n que tiene en cuenta la cantidad de vecinos  del predicado ser&iacute;a <em>practical +  difficulty + problem </em>= [3 29 13 23 5], considerando a <em>problem = </em>[2 15 7 9 1] como el vector vecino. En (Blacoe &amp; Lapata  2012) se muestran experimentos m&aacute;s recientes para hallar  similitud entre frases y detectar par&aacute;frasis.</font> </p>     <p align="center"><img src="/img/revistas/rcci/v10n2/f0411216.jpg" alt="f04" width="538" height="148"><a name="fo23"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el objetivo  de representar estas relaciones sem&aacute;nticas en las oraciones se han propuesto los  modelos de funci&oacute;n l&eacute;xica, en los que, por ejemplo, se aprenden matrices de  adjetivos (Baroni &amp; Zamparelli, 2010), donde el adjetivo es una funci&oacute;n  lineal de un vector a otro vector; el primero representa un sustantivo y el  segundo vector representa una composici&oacute;n de adjetivo-sustantivo. La regresi&oacute;n  lineal es utilizada para aprender un mapa lineal para un adjetivo espec&iacute;fico,  aplicado a pares compuestos por un sustantivo y vectores adjetivo-sustantivo de  un corpus. En este m&eacute;todo de mapeo lineal para un adjetivo se realiza una  multiplicaci&oacute;n de una matriz (que representa el peso del adjetivo) con un vector  columna (que representa el sustantivo). Los pasos de este m&eacute;todo se pueden  resumir de la siguiente forma (Grefenstette, Moritz, et al., 2014):</font></p>     ]]></body>
<body><![CDATA[<p><ul>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obtener  un vectorpara cada sustantivo en el  diccionario (<u>lexicon</u>). </font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Almacenar  pares de sustantivo-adjetivo a partir de un corpus. </font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obtener  vectores de cada bigrama adjetivo-sustantivo.</font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Formar  el conjunto de tuplas que representan relaciones de sustantivos a cada adjetivo  identificado. </font></p>     </li>         <li>           ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aplicar  m&eacute;todo de regresi&oacute;n lineal.</font></p>     </li>         </ul>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aunque usan como  m&eacute;todo de aprendizaje supervisado la regresi&oacute;n de m&iacute;nimos cuadrados, no  utilizan datos manualmente anotados, debido a que los vectores son  autom&aacute;ticamente almacenados del corpus. Los modelos de funci&oacute;n l&eacute;xica han sido  aplicados generalmente a frases cortas o tipos particulares de composici&oacute;n, por  ejemplo los sustantivos compuestos. Para representar relaciones entre verbos y  adverbios se han estudiado tambi&eacute;n los tensores, con el objetivo de insertar  aspectos l&oacute;gicos en modelos distribucionales de sem&aacute;ntica, espec&iacute;ficamente la  modelaci&oacute;n de valores verdaderos, el dominio l&oacute;gico y sus elementos, predicados  y relaciones (Grefenstette, 2013). No obstante, estas  representaciones tienen como desventaja que son dif&iacute;ciles de aprender y no son  eficientes para el gran c&uacute;mulo textual que existe hoy en d&iacute;a (Grefenstette, Moritz, et al., 2014). </font></p>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De esta forma propuestas m&aacute;s recientes est&aacute;n  guiadas por estudios sobre redes neuronales recurrentes (Socher et al., 2012; Chen et al., 2013; Zou et al., 2012; Socher et al., 2014). En la <a href="/img/revistas/rcci/v10n2/f0104216.jpg" target="_blank">Figura 5</a> se  muestra una red neuronal recurrente, donde cada palabra y frase est&aacute;n  representadas por un vector y una matriz, respectivamente; por ejemplo very=(a,  A). La matriz es aplicada a vectores vecinos. La misma funci&oacute;n se repite para  combinar la frase &quot;<em>very good</em>&quot;  con &quot;<em>movie</em>&quot;.</font></p> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este enfoque  presenta un modelo de red neuronal recursiva que aprende representaciones de  vectores composicionales para frases y oraciones de tama&ntilde;o y sintaxis  arbitrarios. El modelo asigna un vector y una matriz a cada nodo en un &aacute;rbol  gramatical, el vector calcula el significado de cada elemento (una palabra o  frase larga), mientras que la matriz indica c&oacute;mo cambia el significado de  palabras o frases vecinas. Esta propuesta aprende el significado de operadores  en la l&oacute;gica preposicional y el lenguaje natural, predice sentimientos y puede  ser usada para clasificar relaciones sem&aacute;nticas entre sustantivos en una  oraci&oacute;n. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  representaci&oacute;n del modelo est&aacute; compuesta por una palabra como un vector  continuo y una matriz de par&aacute;metros. Se inicializan todos los vectores de  palabra a partir de un modelo no supervisado que posee vectores de palabras  pre-entrenados. Utilizan textos de Wikipedia para que el modelo aprenda  vectores de palabra al predecir cu&aacute;n probable es que una palabra ocurra en su  contexto; esto tiene como desventaja que depende de la calidad y diversidad del  texto que se utiliza para calcular las probabilidades. Similar a los modelos  espacio vectorial basados en coocurrencia, los vectores resultantes capturan informaci&oacute;n  sint&aacute;ctica y sem&aacute;ntica. Luego, cada palabra se asocia a una matriz. As&iacute;,  representan cualquier frase u oraci&oacute;n de tama&ntilde;o <em>m</em> como una lista ordenada de pares de vectores matrices ((<em>a, A</em>), ..., (<em>m, M</em>)).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para modelar la composici&oacute;n  entre dos palabras se define la funci&oacute;n: <img src="/img/revistas/rcci/v10n2/fo2311216.jpg" alt="fo23" width="268" height="32"> donde <em>A</em> y <em>B</em> son matrices para  palabras &uacute;nicas, <em>W</em> es una matriz que  mapea las palabras transformadas en el mismo espacio <em>n</em>-dimensional. Para la funci&oacute;n <em>g</em> utilizan una funci&oacute;n no lineal sigmoidea o tangente hiperb&oacute;lica. A partir de  los vectores se obtiene una red neuronal individual <em>p </em>= <em>g</em>(<em>W z</em>), donde <em>z</em> es un vector. De esta forma las matrices capturan efectos  composicionales para cada palabra.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Posteriormente, se extiende el  modelo composicional para aprender vectores y matrices de secuencias m&aacute;s largas  (frases). En esencia, se aplica la funci&oacute;n<em> f</em> a pares de constituyentes en un &aacute;rbol gramatical; <em>f </em>puede ser usada para vectores frase de forma recursiva, por lo  que para matrices frase se define: <img src="/img/revistas/rcci/v10n2/fo2411216.jpg" alt="fo24" width="166" height="32"> Una vez modelado  un constituyente (palabra) en el &aacute;rbol gramatical, este puede mezclarse con  otro al aplicar las mismas funciones. El modelo calcula los vectores y matrices  de un modo de abajo hacia arriba aplicando las funciones <em>f</em> y <em>fM</em> de  forma recursiva con su propia salida anterior hasta que alcanza el nodo  superior del &aacute;rbol el cual representa la oraci&oacute;n completa (Socher et al., 2012).</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una propuesta no  supervisada para aprender representaciones de rasgos de tama&ntilde;o fijo a partir de  piezas de tama&ntilde;o variable de texto, como oraciones, p&aacute;rrafos y documentos fue  realizada por (Mikolov &amp; Com, 2014). El algoritmo representa cada  documento como un vector denso que es entrenado para predecir palabras en el  documento. La propuesta concatena un vector de p&aacute;rrafo con varios vectores  palabra a partir de un p&aacute;rrafo, y predice la siguiente palabra en un contexto  dado. El algoritmo presenta dos etapas, una de entrenamiento (para obtener los  vectores palabra) y otra de inferencia (para obtener vectores p&aacute;rrafos). Los  vectores son aprendidos a partir de datos no etiquetados.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La composici&oacute;n  sem&aacute;ntica se ha declarado como la tarea de entender el significado del texto al  componer los significados de palabras individuales y la descomposici&oacute;n  sem&aacute;ntica como la tarea de entender el significado de una palabra individual al  descomponerla en varios aspectos que est&aacute;n ocultos en el significado de la  palabra. Resultados publicados en (Turney 2014) se enfocan en c&oacute;mo generar  composiciones en vez de como reconocerlas, espec&iacute;ficamente sobre unigramas y  bigramas sustantivos; considerando un enfoque distribucional en el que una  palabra es representada por un vector de contexto. Por ejemplo, un bigrama &ldquo;az&uacute;car  leche&rdquo; obtenido de la frase &ldquo;az&uacute;car de la leche&rdquo; est&aacute; compuesto por el  sustantivo &ldquo;az&uacute;car&rdquo; y el sustantivo o adjetivo &ldquo;leche&rdquo; que modifica el  significado de &ldquo;az&uacute;car&rdquo;. Dados vectores de contexto para el sustantivo y el  modificador, el objetivo es modelar el significado del bigrama. Una prueba para  este modelo es que pueda reconocer cuando el unigrama &ldquo;lactosa&rdquo; es sin&oacute;nimo de  &ldquo;az&uacute;car leche&rdquo;. En la investigaci&oacute;n se generan listas ordenadas en dos etapas:  utilizan dos algoritmos para generar listas iniciales de candidatos de forma no  supervisada, y un tercer algoritmo supervisado que refina la lista al utilizar  conjuntos de datos de entrenamiento para construir modelos para las tareas de  composici&oacute;n y descomposici&oacute;n. De esta forma, una prueba de composici&oacute;n sem&aacute;ntica  es que dados vectores de contexto para el sustantivo y un modificador en un  bigrama sustantivo-modificador, por ejemplo en Ingl&eacute;s &ldquo;<u>red salmon</u>&rdquo;,  generar un unigrama sustantivo que sea sin&oacute;nimo de un bigrama como &ldquo;<u>sockeye</u>&rdquo;.  En el caso de la descomposici&oacute;n sem&aacute;ntica, dado un vector contexto para un  unigrama sustantivo &ldquo;copa&rdquo; se desea generar un bigrama sustantivo-modificador  que sea sin&oacute;nimo para un unigrama &ldquo;vaso de brandy&rdquo; (Turney, 2014). Otro trabajo interesante en este contexto es (Turney, 2013).</font></p>     ]]></body>
<body><![CDATA[<p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2. Herramientas computacionales</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen varias  herramientas para el procesamiento del lenguaje natural. A continuaci&oacute;n se  describen aquellas que incluyen implementaciones de los algoritmos ideados para  los modelos espacio vectorial que incorporan elementos sem&aacute;nticos, tanto con  enfoque distribucional como composicional. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2.1</strong> <strong>Semantic Vectors</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La biblioteca de c&oacute;digo  abierto y libre nombrada <em>SemanticVectors</em> crea modelos de espacio  palabra (<em><u>word space models</u></em>) a  partir de texto en lenguaje natural. Los modelos son dise&ntilde;ados para representar  palabras y documentos basados en conceptos. Pueden ser usados para tareas como generaci&oacute;n  autom&aacute;tica de tesauros, representaci&oacute;n de conocimiento y encontrar t&eacute;rminos o  conceptos relacionados a un t&eacute;rmino en espec&iacute;fico. Puede trabajar con tres  tipos de vectores: reales, complejos y binarios. Los modelos se crean al  aplicar algoritmos de conceptos a matrices t&eacute;rmino-documento creadas con Apache  Lucene. Los algoritmos implementados son: <em>Random  Projection, LSA y <em>Reflective Random Indexing</em> (RRI). Sus autores declaran que <em>Random Projection</em> es la t&eacute;cnica m&aacute;s  escalable en la pr&aacute;ctica porque no utiliza algoritmos de descomposici&oacute;n de  matrices costosos computacionalmente. El algoritmo <em>Reflective Random Indexing</em> </em>est&aacute; basado en <em>Random Projection</em>, el cual realiza el proceso de entrenar un modelo  sem&aacute;ntico en varias fases. La forma b&aacute;sica en la que crean los modelos sigue  tres pasos: </font></p> <ol start="1" type="1">       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Crear       vectores aleatorios b&aacute;sicos para cada documento.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Crear       vectores de t&eacute;rminos al sumar los vectores de documentos b&aacute;sicos donde el       t&eacute;rmino ocurre</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Crear       nuevos vectores de documentos al sumar los vectores de t&eacute;rminos de los       t&eacute;rminos que ocurren en cada documento.</font></p>   </li>     ]]></body>
<body><![CDATA[</ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La idea de realizar ciclos de entrenamiento es que la salida de la etapa  3 puede ser una entrada en la etapa 2, debido a que pueden usar los vectores de  documentos como los vectores de documentos b&aacute;sicos para calcular vectores de  t&eacute;rminos. RRI es capaz de encontrar conexiones significativas entre los t&eacute;rminos que  no coocurren juntos en cualquier documento del corpus, puede ejecutarse de dos  formas, basado en t&eacute;rminos (TRRI) de tal forma que un conjunto de vectores  elementales aleatorios se crean para cada t&eacute;rmino o basado en documento (DRRI),  para el cual el punto de entrada es un conjunto de vectores de documentos  aleatorios (Widdows &amp; Cohen, 2010). Tambi&eacute;n posee una  implementaci&oacute;n del algoritmo HAL. Para los resultados de b&uacute;squeda utiliza una  implementaci&oacute;n del algoritmo de agrupamiento K-means (Aggarwal &amp; Zhai, 2012).</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2.2 S-Space Package</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">S-Space Package es una  biblioteca de c&oacute;digo abierto y libre para desarrollar y evaluar algoritmos de  espacio palabra. Los algoritmos son divididos en cuatro categor&iacute;as bas&aacute;ndose en  su similitud estructural:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos  basados en documentos: dividen el corpus en documentos discretos y construyen  un VSM a partir de las frecuencias de las palabras en los documentos. Por  ejemplo: VSM, LSA.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos  basados en coocurrencia: construyen el espacio vectorial usando la distribuci&oacute;n  de palabras coocurrentes en un contexto, el cual puede ser definido como una  regi&oacute;n alrededor de una palabra o caminos en un &aacute;rbol gramatical. Por ejemplo:  HAL, COALS (Rohde  et al., 2009).</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos  basados en aproximaci&oacute;n: aproximan datos de coocurrencia para lograr mejor escalabilidad  de grandes conjuntos de datos. Por ejemplo: Random Indexing y RRI (Cohen  et al., 2010).</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos  basados en inducci&oacute;n del sentido de las palabras: intentan descubrir sentidos  diferentes de las palabras mientras construyen un espacio vectorial. Por  ejemplo: Purandare and Pedersen (Purandare  &amp; Pedersen, 2004).</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esencia, la idea de estos modelos es  que los rasgos de palabras se extraen de un corpus y la distribuci&oacute;n de estos rasgos  es usada como base para la similitud sem&aacute;ntica. Para las matrices se utilizan  esquemas de peso como TF-IDF y PMI. Poseen, adem&aacute;s, algoritmos de agrupamiento  de tipo aglomerativo jer&aacute;rquico, agrupamiento espectral y es posible la integraci&oacute;n  con la biblioteca CLUTO. Algunas de las medidas de similitud que posee son la  medida coseno, Euclidiana, Jaccard y KL divergence (Jurgens &amp; Stevens, 2010).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2.3 Word2Vector</strong></font></p>     <p><font size="2"><em><font face="Verdana, Arial, Helvetica, sans-serif">Word2Vector</font></em><font face="Verdana, Arial, Helvetica, sans-serif"> es una biblioteca de c&oacute;digo  abierto y libre que provee una implementaci&oacute;n de las arquitecturas CBOW y <em>Skip-gram</em> para calcular representaciones  vectoriales de palabras. La herramienta tiene como entrada un corpus  textual y produce los vectores palabra como salida. Primero construye un  vocabulario del texto de entrenamiento y luego aprende representaciones  vectoriales de palabras. Una forma simple de verificar las representaciones  aprendidas es encontrar las palabras m&aacute;s cercanas para una palabra especificada  por el usuario. Para observar regularidades fuertes en el espacio vectorial de  palabras es necesario entrenar los modelos en grandes conjuntos de datos (desde  cientos a billones de palabras). Adem&aacute;s, se pueden obtener clases de palabras  de grandes conjuntos de datos, para ello utilizan el algoritmo de agrupamiento K-means  sobre los vectores palabras. Para el entrenamiento se debe tener en cuenta que: </font></font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  arquitectura Skip-gram es m&aacute;s lenta que CBOW, aunque es buena para capturar  palabras poco frecuentes.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  algoritmo de entrenamiento <em><u>hierarchical  softmax</u></em> es bueno para palabras poco frecuentes y el <em><u>negative sampling</u></em> es mejor para  palabras frecuentes en vectores de baja dimensi&oacute;n.</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Usualmente  es mejor mayor dimensionalidad para los vectores palabras, pero no siempre.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  tama&ntilde;o de la ventana de contexto a utilizar al aplicar la arquitectura Skip-gram  es 10, y el tama&ntilde;o de ventana recomendado para aplicar CBOW es 5.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Esta biblioteca tiene implementaciones en Java, Python y C (Mikolov, Chen,  et al., 2013).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2.4</strong> <strong>GloVe</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen dos familias de modelos para aprender vectores de palabras: los  m&eacute;todos de factorizaci&oacute;n de matrices globales como LSA, y los m&eacute;todos basados  en ventanas de contexto local como el modelo <em>Skip-gram</em>. Algunas desventajas mencionadas sobre estos modelos es  que por ejemplo en el caso de LSA no tiene en cuenta la analog&iacute;a de palabras  aunque obtiene informaci&oacute;n estad&iacute;stica de forma eficiente. En el caso de <em>Skip-gram</em> sus esfuerzos son mejores para  la analog&iacute;a de palabras pero casi no utiliza las estad&iacute;sticas del corpus debido  a que entrenan ventanas de contexto locales de forma independiente en vez de  hacerlo en frecuencias de coocurrencia globales (Pennington et al., 2014).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una propuesta de  c&oacute;digo abierto para representar un espacio vectorial de palabra con  sub-estructuras significativas es GloVe (<em>Global  Vectors</em>), el cual captura estad&iacute;sticas del corpus global de forma directa. Utilizan  un modelo de m&iacute;nimos cuadrados (modelo de regresi&oacute;n <em><u>log-bilineal global</u></em>) que realiza un entrenamiento sobre una  matriz de coocurrencia palabra-palabra. GloVe est&aacute; implementado en C y tiene un  enfoque de aprendizaje no supervisado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El objetivo de entrenamiento de GloVe es aprender vectores palabras de tal  forma que el producto escalar (<em><u>dot product</u></em><u>)</u> sea igual al  logaritmo de la probabilidad de coocurrencia de las palabras. El modelo es  entrenado con las entradas distintas de cero de una matriz de coocurrencia  global palabra-palabra, la cual contiene cu&aacute;n frecuentemente coocurren las  palabras entre ellas en un corpus. Esta representaci&oacute;n requiere una sola pasada  por todo el corpus para obtener las estad&iacute;sticas. Para grandes corpus es costoso,  pero se ejecuta una sola vez. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2.5</strong> <strong>Gensim</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Gensim es una biblioteca de c&oacute;digo  abierto y libre implementada en Python, que posee implementaciones de los  algoritmos no supervisados como LSA y <em>Random  Projection</em> para descubrir estructuras sem&aacute;nticas en documentos textuales y  detecta t&oacute;picos con LDA. Presenta varios esquemas de peso como TF-IDF y posee compatibilidad  con las bibliotecas de NumPy y SciPy. Permite usar el paradigma de computaci&oacute;n  distribuida para LSA y LDA y as&iacute; acelerar los c&aacute;lculos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2.6</strong> <strong>Dissect</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La herramienta de  composici&oacute;n sem&aacute;ntica distribucional (<strong><em><u>DIS</u></em></strong><em><u>tributional <strong>SE</strong>mantics <strong>C</strong>omposition <strong>T</strong>oolkit</u>;  DISSECT</em>) forma parte del proyecto de operaciones composicionales en el  espacio sem&aacute;ntico (<strong><em><u>COMP</u></em></strong><em><u>ositional <strong>O</strong>perations in <strong>SE</strong>mantic <strong>S</strong>pace</u>;  COMPOSES</em>); est&aacute; implementada en Python y es de c&oacute;digo abierto. Puede  construir espacios sem&aacute;nticos a partir de matrices de coocurrencias, realizar  operaciones composicionales y medir similitud sem&aacute;ntica entre palabras y  frases. Esta herramienta, para la creaci&oacute;n de espacios sem&aacute;nticos con matrices  de coocurrencia, utiliza dos pasos fundamentales: preprocesamiento del corpus  para almacenar las cantidades relevantes y el procesamiento matem&aacute;tico de las  cantidades extra&iacute;das. Esta herramienta no soporta pre-procesamiento o conteo,  pero toma como entrada de forma directa una matriz de coocurrencia. Es decir,  que DISSECT se enfoca en los m&eacute;todos de repesado como PMI y m&eacute;todos de  reducci&oacute;n de dimensiones como SVD y NMF. El principal prop&oacute;sito  de DISSECT es incorporar las funciones de composici&oacute;n de vectores que se ha,  propuesto en la literatura, por ejemplo, los modelos propuestos en (Mitchell &amp; Lapata, 2010) (Baroni &amp; Zamparelli, 2010) y otros. Algunos modelos son el modelo aditivo pesado, modelo de  dilataci&oacute;n (<em><u>dilation</u></em>), modelo  completamente aditivo, modelo de composici&oacute;n de funci&oacute;n l&eacute;xica. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente, se muestra la <a href="/img/revistas/rcci/v10n2/t0111216.jpg" target="_blank">Tabla 1</a> que  resumen las herramientas descritas y sus caracter&iacute;sticas principales que le  permiten realizar representaciones textuales incluyendo elementos sem&aacute;nticos.  Aqu&iacute; hemos mostrado las principales herramientas que incorporan elementos  sem&aacute;nticos en las representaciones textuales, no obstante, otras herramientas  con tales prop&oacute;sitos se describen en (Jurgens &amp; Pilehvar, 2015).</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Varias son las  tareas de NLP que requieren la incorporaci&oacute;n de sem&aacute;ntica en la representaci&oacute;n textual.  Ejemplo de ellas son la clasificaci&oacute;n de documentos, el an&aacute;lisis  de sentimiento, la modelaci&oacute;n de lenguaje, la detecci&oacute;n de par&aacute;frasis, la traducci&oacute;n  autom&aacute;tica, la extracci&oacute;n de informaci&oacute;n, los sistemas de preguntas y  respuestas, etc. La representaci&oacute;n textual con modelos sem&aacute;nticos  distribucionales, espec&iacute;ficamente los que aplican el c&aacute;lculo de la coocurrencia  de las palabras en los documentos ha solucionado una variedad de problemas en  &aacute;reas como la recuperaci&oacute;n de informaci&oacute;n y el aprendizaje autom&aacute;tico. Por  ejemplo, la mayor&iacute;a de los motores de b&uacute;squeda que se encuentran en internet  utilizan matrices del tipo t&eacute;rmino-documento y palabra-contexto, y aplican  t&eacute;cnicas de reducci&oacute;n de dimensiones como las citadas en la presente revisi&oacute;n.  No obstante, debido a la inmensa cantidad de informaci&oacute;n que se genera cada  minuto y a la influencia que tienen las tecnolog&iacute;as inform&aacute;ticas, la internet  de las cosas y la computaci&oacute;n m&oacute;vil en la vida humana, actualmente se hace  necesario que las herramientas computacionales permitan comunicar la  informaci&oacute;n de forma m&aacute;s entendible para las personas. Las representaciones de  textos en espacios vectoriales sem&aacute;nticos contribuyen a dar respuesta a esta  necesidad y su estudio seguir&aacute; en ascenso para mejorar las herramientas del futuro.&nbsp;</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los modelos espacio vectorial  de significado han probado ser efectivos en el campo de la ling&uuml;&iacute;stica  computacional y su estudio es un &aacute;rea activa de investigaci&oacute;n actualmente. Dentro  de ellos, los modelos de sem&aacute;ntica distribucional son &uacute;tiles para representar el  significado de palabras individuales pero no para representar relaciones  composicionales presentes en frases, oraciones y p&aacute;rrafos. Las t&eacute;cnicas de  aprendizaje con redes neuronales son efectivas y muy investigadas en la  actualidad para aprender representaciones de vectores de forma sint&aacute;ctica y  sem&aacute;ntica con palabras, frases, oraciones y documentos.  Adem&aacute;s, existe una variedad de herramientas computacionales de c&oacute;digo abierto  que implementan estos modelos, fundamentalmente en lenguaje Java y Python. </font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ABELLA,  R. &amp; MEDINA, J. Segmentaci&oacute;n lineal de texto por t&oacute;pico. Serie Gris CENATAV. 2014</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AGGARWAL, C.C. &amp;  ZHAI, C. Mining Text Data, Springer. 2012</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ARCO,  L. Agrupamiento basado en la intermediaci&oacute;n diferencial y su valoraci&oacute;n utilizando  la teor&iacute;a de los conjuntos aproximados. UNIVERSIDAD CENTRAL &ldquo;MARTA ABREU&rdquo; DE  LAS VILLAS. 2008</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BAEZA-YATES,  R. &amp; RIBEIRO-NETO, B. Modern Information Retrieval, 1998</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BARONI, M., DINU, G.  &amp; KRUSZEWSKI, G. Don&rsquo;t count, predict! Proceedings of the 52nd Annual  Meeting of the Association for Computational Linguistics, 2014. pp.238&ndash;247.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BARONI, M. &amp; ZAMPARELLI,  R. Nouns are vectors, adjectives are matrices: Representing adjective-noun  constructions in semantic space. EMNLP. 2010</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BENGIO, Y. ET AL. A  Neural Probabilistic Language Model. Journal of Machine Learning Research, 3,  pp.1137&ndash;1155. 200</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BERRY, M.W. &amp; CASTELLANOS,  M. Survey of Text Mining: Clustering, Classification, and Retrieval, Second  Edition. 2007</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BIGGS, N.; LLOYD, E.  WILSON, R. Graph Theory, Oxford University Press. 1986</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BLACOE, W. &amp; LAPATA,  M. A Comparison of Vector-based Representations for Semantic Composition.  Proceedings of the 2012 Joint Conference on Empirical Methods in Natural  Language Processing and Computational Natural Language Learning, (July),  pp.546&ndash;556. 2012</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BLEI, D.M., NG, A.Y.  &amp; JORDAN, M.I. Latent Dirichlet Allocation. Journal of Machine Learning  Research, 3, 2003. pp.993&ndash;1022.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BRYCHCIN, T. &amp;  KONOPIK, M. Semantic spaces for improving language modeling. Computer Speech  &amp; Language, 28(1), 2014. pp.192&ndash;209. Available at: <a href="http://linkinghub.elsevier.com/retrieve/pii/S0885230813000387">http://linkinghub.elsevier.com/retrieve/pii/S0885230813000387</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHEN, D. et al. Neural  Tensor Networks and Semantic Word Vectors. Advances in Neural Information  Processing Systems, 26, 2013. pp.1&ndash;4.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CLARK, S. Vector Space  Models of Lexical Meaning. In S. Lappin &amp; C. Fox, eds. Handbook of  Contemporary Semantics. 2014. pp. 1&ndash;43.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">COHEN, T., ROGER, S.  &amp; WIDDOWS, D. Reflective random indexing and indirect inference: A scalable  method for discovery of implicit connections. Journal of Biomedical  Informatics, 43(2), 2010. pp.240&ndash;256.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CURRAN, J.R. From  Distributional to Semantic Similarity. 2003</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DEERWESTER, S. Improving  Information Retrieval with Latent Semantic Indexing. Proceedings of the 51st  Annual Meeting of the American Society for Information Science, 1988.&nbsp; pp.36&ndash;40.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DEERWESTER, S. ET AL.  Indexing by Latent Semantic Analysis. Journal of the American Society for  Information Science, 41(6), 1990. pp.391&ndash;407.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FARUQUI, M. &amp; DYER,  C. Improving Vector Space Word Representations Using Multilingual Correlation.  Association for Computational Linguistics, 2014. pp.462&ndash;471.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FIRTH, J.R. A synopsis of  linguistic theory 1930-1955. Studies in linguistic analysis. 1957. pp.1&ndash;32.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GARRETE, D., ERK, K.  &amp; MOONEY, R. A Formal Approach to Linking Logical Form and Vector-Space  Lexical Semantics. Computing Meaning, 2014. pp.27&ndash;28. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GOMAA, W.H. A Survey of  Text Similarity Approaches. International Journal of Computer Applications,  68(13), 2013. pp.13&ndash;18.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GREFENSTETTE, E.,  SADRZADEH, M., et al. Concrete Sentence Spaces for Compositional Distributional  Models of Meaning. Computing Meaning, 2014, pp.71&ndash;86.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GREFENSTETTE, E. ET AL.  New Directions in Vector Space Models of Meaning. Proceedings of the 52nd  Annual Meeting of the Association for Computational Linguistics: Tutorials.  2014</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GREFENSTETTE, E.  Simulating Logical Calculi with Tensors. 2013</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HENRIKSSON, A. et al.  Synonym extraction and abbreviation expansion with ensembles of semantic  spaces. Journal of Biomedical Semantics, 2014, pp.1&ndash;25.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HERMANN, K.M. &amp;  BLUNSOM, P. The Role of Syntax in Vector Space Models of Compositional  Semantics. ACL, 2013, pp.894&ndash;904.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HOFMANN, T. Probabilistic  Latent Semantic Indexing. Proceedings of the Twenty Second Annual International  SIGIR Conference on Resea rch and Development in Information Retrieval, 1999.  pp.289&ndash;296.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JAUHAR, S.K., DYER, C.  &amp; HOVY, E. Ontologically Grounded Multi-sense Representation Learning for  Semantic Vector Space Models. NAACL, 2015, pp.683&ndash;693.</font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JURAFSKY, D. &amp;  MARTIN, J.H. Speech and Language Processing: An introduction to natural  language processing, computational linguistics, and speech recognition. 2007</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JURGENS, D. &amp;  PILEHVAR, M.T. Semantic Similarity Frontiers: From Concepts to Documents. In  Conference on Empirical Methods in Natural Language Processing EMNLP. 2015. p.  269.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JURGENS, D. &amp;  STEVENS, K. The S-Space Package: An Open Source Package for Word Space Models.  Proceedings of the ACL 2010 System Demonstrations, (July), 2010. pp.30&ndash;35.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KANERVA, P. Sparse  Distributed Memory. MIT Press. 1988</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KIELA, D. &amp; CLARK, S.  A Systematic Study of Semantic Vector Space Model Parameters. EACL 2014 14th  Conference of the European Chapter of the Association for Computational  Linguistics Proceedings of the 2nd Workshop on Continuous Vector Space Models  and their Compositionality (CVSC). 2014.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KRISHNAMURTHY, J. &amp;  Mitchell, T., 2013. Vector Space Semantic Parsing: A Framework for  Compositional Vector Space Models.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LEE, D.D., HILL, M. &amp;  SEUNG, H.S. Algorithms for Non-negative Matrix Factorization. Advances in  Neural Information Processing Systems. 2000</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, N. ET AL. Text  Representation: from Vector to Tensor. Proceedings of the Fifth IEEE  International Conference on Data Mining, 2005. pp.3&ndash;6.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MANNING, C., PRABHAKAR  RAGHAVAN &amp; SCH&Uuml;TZE, H. An Introduction to Information Retrieval, Cambridge  University Press. 2008</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MANNING, C.D. Foundations  of Statistical Natural Language Processing, Cambridge, Massachusetts: The MIT  Press. 1999</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MIKOLOV, T., CHEN, K., ET  AL. Distributed Representations of Words and Phrases and their  Compositionality. NIPS, 2013. pp.1&ndash;9.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MIKOLOV, T., CORRADO, G.,  ET AL. Efficient Estimation of Word Representations in Vector Space.  Proceedings of Workshop at ICLR, 2013. pp.1&ndash;12.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MIKOLOV,  T. Learning Representations of Text using Neural Networks. NIPS Deep Learning Workshop.  2013. pp.1&ndash;31. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MIKOLOV, T. &amp; COM,  T.G. Distributed Representations of Sentences and Documents. Proceedings of the  31st International Conference on Machine Learning, 32. 2014</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MITCHELL, J. &amp;  LAPATA, M. Composition in Distributional Models of Semantics. Cognitive  Science, 34, 2010. pp.1388&ndash;1429.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PENNINGTON, J., SOCHER,  R. &amp; MANNING, C.D. GloVe: Global Vectors for Word Representation.  Proceedings of the Empirical Methods in Natural Language Processing (EMNLP).  2014</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PURANDARE, A. &amp;  PEDERSEN, T. Word Sense Discrimination by Clustering Contexts in Vector and  Similarity Spaces. HLT-NAACL 2004 Work- shop: Eighth Conference on  Computational Natural Language Learning (CoNLL-2004). 2004</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">REISINGER, J. &amp;  MOONEY, R.J. Multi-Prototype Vector-Space Models of Word Meaning. Human  Language Technologies: The 2010 Annual Conference of the North American Chapter  of the ACL, (June), 2010, pp.109&ndash;117.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">REN, W. &amp; HAN, K.  Sentiment Detection of Web Users Using Probabilistic Latent Semantic Analysis.  JOURNAL OF MULTIMEDIA, 9(10), 2014. pp.1194&ndash;1200.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ROHDE, D.L.T., GONNERMAN,  L.M. &amp; PLAUT, D.C. An improved model of semantic similarity based on  lexical co-occurrence. Cognitive Science. 2009</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAHLGREN, M. An  Introduction to Random Indexing. Methods and applications of semantic indexing  workshop at the 7th international conference on terminology and knowledge  engineering, TKE., 2004. pp.1&ndash;9.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAHLGREN, M. The  Word-Space Model Using distributional analysis to represent syntagmatic and  paradigmatic relations between words. 2006</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SALTON, G., WONG, A.  &amp; YANG, C.S. A Vector Space Model for Automatic Indexing. Information  Retrieval and Language Processing, Communications of the ACM., 18(11), 1975.  pp.613&ndash;620.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SEIJO,  F.C., LUNA, J.M.F. &amp; GUADIX, J.F.H. Recuperaci&oacute;n de Informaci&oacute;n. Un enfoque  pr&aacute;ctico y multidisciplinar RAMA, ed., Madrid, Spain. 2011</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SOCHER,  R. ET AL. Semantic Compositionality through Recursive  Matrix-Vector Spaces. EMNLP, (Mv). 2012</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">STEYVERS, M. &amp; GRIFFITHS,  T. Probabilistic Topic Models. Handbook of latent semantic analysis, 427(7),  2004. pp.424&ndash;440.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">THATER, S., FURSTENAU, H.  &amp; PINKAL, M. Contextualizing Semantic Representations Using Syntactically  Enriched Vector Models. Proceedings of the 48th Annual Meeting of the  Association for Computational Linguistics. 2010.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TURNEY, P. Mining the Web  for Synonyms: PMI-IR Versus LSA on TOEFL. NRC Publications Archive. 2001</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TURNEY, P.D. From  Frequency to Meaning: Vector Space Models of Semantics. Journal of Artificial  Intelligence Research, 37, 2010. pp.141&ndash;188.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TURNEY, P.D. Semantic  Composition and Decomposition: From Recognition to Generation, 2014</font><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WIDDOWS, D. &amp; COHEN,  T. The Semantic Vectors Package: New Algorithms and Public Tools for  Distributional Semantics. Fourth IEEE International Conference on Semantic  Computing (IEEE ICSC2010). 2010</font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZOU, W.Y. et al.  Bilingual Word Embeddings for Phrase-Based Machine Translation. EMNLP, 2012,  pp.1393&ndash;1398.</font></p>     <p align="left">     <p align="left">     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 19/11/2015      <br> Aceptado: 18/03/2015 </font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ABELLA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[MEDINA]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Segmentación lineal de texto por tópico]]></source>
<year>2014</year>
<publisher-name><![CDATA[Serie Gris CENATAV]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AGGARWAL]]></surname>
<given-names><![CDATA[C.C]]></given-names>
</name>
<name>
<surname><![CDATA[ZHAI]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Mining Text Data]]></source>
<year>2012</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ARCO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Agrupamiento basado en la intermediación diferencial y su valoración utilizando la teoría de los conjuntos aproximados]]></source>
<year>2008</year>
<publisher-name><![CDATA[UNIVERSIDAD CENTRAL MARTA ABREU DE LAS VILLAS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BAEZA-YATES]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[RIBEIRO-NETO]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Modern Information Retrieval]]></source>
<year>1998</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BARONI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[DINU]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[KRUSZEWSKI]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Don&#8217;t count, predict!]]></source>
<year>2014</year>
<page-range>238-247</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BARONI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ZAMPARELLI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space]]></source>
<year>2010</year>
<publisher-name><![CDATA[EMNLP]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BENGIO]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[A Neural Probabilistic Language Model]]></source>
<year></year>
<page-range>1137-1155</page-range><publisher-name><![CDATA[Journal of Machine Learning Research,]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BERRY]]></surname>
<given-names><![CDATA[M.W]]></given-names>
</name>
<name>
<surname><![CDATA[CASTELLANOS]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Survey of Text Mining: Clustering, Classification, and Retrieval]]></source>
<year>2007</year>
<edition>Second Edition</edition>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BIGGS]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[LLOYD]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[WILSON]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Graph Theory]]></source>
<year>1986</year>
<publisher-name><![CDATA[Oxford University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BLACOE]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[LAPATA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[A Comparison of Vector-based Representations for Semantic Composition]]></source>
<year>2012</year>
<page-range>546-556</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BLEI]]></surname>
<given-names><![CDATA[D.M]]></given-names>
</name>
<name>
<surname><![CDATA[NG]]></surname>
<given-names><![CDATA[A.Y]]></given-names>
</name>
<name>
<surname><![CDATA[JORDAN]]></surname>
<given-names><![CDATA[M.I]]></given-names>
</name>
</person-group>
<source><![CDATA[Latent Dirichlet Allocation]]></source>
<year>2003</year>
<page-range>993-1022</page-range><publisher-name><![CDATA[Journal of Machine Learning Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BRYCHCIN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[KONOPIK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Semantic spaces for improving language modeling.]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>28</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>192-209</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Neural Tensor Networks and Semantic Word Vectors]]></source>
<year>2013</year>
<volume>26</volume>
<page-range>1-4</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CLARK]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Vector Space Models of Lexical Meaning]]></source>
<year>2014</year>
<page-range>pp. 1-43</page-range><publisher-name><![CDATA[Handbook of Contemporary Semantics.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COHEN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[ROGER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[WIDDOWS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>43</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>240-256</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CURRAN]]></surname>
<given-names><![CDATA[J.R]]></given-names>
</name>
</person-group>
<source><![CDATA[From Distributional to Semantic Similarity]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DEERWESTER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Improving Information Retrieval with Latent Semantic Indexing]]></source>
<year>1988</year>
<page-range>36-40</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DEERWESTER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Indexing by Latent Semantic Analysis]]></article-title>
<source><![CDATA[]]></source>
<year>1990</year>
<volume>41</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>391-407</page-range></nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FARUQUI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[DYER]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Improving Vector Space Word Representations Using Multilingual Correlation.]]></source>
<year>2014</year>
<page-range>462-471</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FIRTH]]></surname>
<given-names><![CDATA[J.R]]></given-names>
</name>
</person-group>
<source><![CDATA[A synopsis of linguistic theory 1930-1955]]></source>
<year>1957</year>
<page-range>1-32</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GARRETE]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[ERK]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[MOONEY]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A Formal Approach to Linking Logical Form and Vector-Space Lexical Semantics]]></source>
<year>2014</year>
<page-range>27-28</page-range><publisher-name><![CDATA[Computing Meaning]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GOMAA]]></surname>
<given-names><![CDATA[W.H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Survey of Text Similarity Approaches]]></article-title>
<source><![CDATA[]]></source>
<year>2013</year>
<volume>68</volume>
<numero>13</numero>
<issue>13</issue>
<page-range>13-18</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GREFENSTETTE]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[SADRZADEH]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Concrete Sentence Spaces for Compositional Distributional Models of Meaning]]></source>
<year>2014</year>
<page-range>71-86</page-range><publisher-name><![CDATA[Computing Meaning]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GREFENSTETTE]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[New Directions in Vector Space Models of Meaning]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GREFENSTETTE]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Simulating Logical Calculi with Tensors]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HENRIKSSON]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Synonym extraction and abbreviation expansion with ensembles of semantic spaces]]></source>
<year>2014</year>
<page-range>1-25</page-range><publisher-name><![CDATA[Journal of Biomedical Semantics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HERMANN]]></surname>
<given-names><![CDATA[K.M]]></given-names>
</name>
<name>
<surname><![CDATA[BLUNSOM]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[The Role of Syntax in Vector Space Models of Compositional Semantics.]]></source>
<year>2013</year>
<page-range>894-904</page-range><publisher-name><![CDATA[ACL]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HOFMANN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Probabilistic Latent Semantic Indexing]]></source>
<year>1999</year>
<page-range>289-296</page-range></nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JAUHAR]]></surname>
<given-names><![CDATA[S.K]]></given-names>
</name>
<name>
<surname><![CDATA[DYER]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[HOVY]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Ontologically Grounded Multi-sense Representation Learning for Semantic Vector Space Models]]></source>
<year>2015</year>
<page-range>683-693</page-range><publisher-name><![CDATA[NAACL]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JURAFSKY]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MARTIN]]></surname>
<given-names><![CDATA[J.H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JURGENS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[PILEHVAR]]></surname>
<given-names><![CDATA[M.T]]></given-names>
</name>
</person-group>
<source><![CDATA[Semantic Similarity Frontiers: From Concepts to Documents]]></source>
<year>2015</year>
<page-range>269</page-range></nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JURGENS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[STEVENS]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[The S-Space Package: An Open Source Package for Word Space Models]]></source>
<year>(Jul</year>
<month>y)</month>
<day>, </day>
<page-range>30-35.</page-range></nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KANERVA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Sparse Distributed Memory]]></source>
<year>1988</year>
<publisher-name><![CDATA[MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KIELA]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[CLARK]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[A Systematic Study of Semantic Vector Space Model Parameters.]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KRISHNAMURTHY]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Mitchell]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Vector Space Semantic Parsing: A Framework for Compositional Vector Space Models]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[D.D]]></given-names>
</name>
<name>
<surname><![CDATA[HILL]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[SEUNG]]></surname>
<given-names><![CDATA[H.S]]></given-names>
</name>
</person-group>
<source><![CDATA[Algorithms for Non-negative Matrix Factorization]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<source><![CDATA[Text Representation: from Vector to Tensor]]></source>
<year>2005</year>
<page-range>3-6</page-range><publisher-name><![CDATA[IEEE International Conference on Data Mining]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MANNING]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[PRABHAKAR]]></surname>
<given-names><![CDATA[RAGHAVAN]]></given-names>
</name>
<name>
<surname><![CDATA[SCHÜTZE]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[An Introduction to Information Retrieval]]></source>
<year>2008</year>
<publisher-name><![CDATA[Cambridge University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MANNING]]></surname>
<given-names><![CDATA[C.D]]></given-names>
</name>
</person-group>
<source><![CDATA[Foundations of Statistical Natural Language Processing]]></source>
<year>1999</year>
<publisher-loc><![CDATA[Massachusetts ]]></publisher-loc>
<publisher-name><![CDATA[The MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MIKOLOV]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[Distributed Representations of Words and Phrases and their Compositionality.]]></source>
<year>2013</year>
<page-range>1-9</page-range></nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MIKOLOV]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[CORRADO]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Efficient Estimation of Word Representations in Vector Space.]]></source>
<year>2013</year>
<page-range>1-12</page-range></nlm-citation>
</ref>
<ref id="B42">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MIKOLOV]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning Representations of Text using Neural Networks]]></source>
<year>2013</year>
<page-range>1-31</page-range></nlm-citation>
</ref>
<ref id="B43">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MIKOLOV]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[COM]]></surname>
<given-names><![CDATA[T.G]]></given-names>
</name>
</person-group>
<source><![CDATA[Distributed Representations of Sentences and Documents.]]></source>
<year>2014</year>
<volume>32</volume>
</nlm-citation>
</ref>
<ref id="B44">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MITCHELL]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[LAPATA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Composition in Distributional Models of Semantics]]></source>
<year>2010</year>
<volume>34</volume>
<page-range>1388-1429</page-range><publisher-name><![CDATA[Cognitive Science]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B45">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PENNINGTON]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SOCHER]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[MANNING]]></surname>
<given-names><![CDATA[C.D]]></given-names>
</name>
</person-group>
<source><![CDATA[GloVe: Global Vectors for Word Representation]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B46">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PURANDARE]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[PEDERSEN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Word Sense Discrimination by Clustering Contexts in Vector and Similarity Spaces.]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B47">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[REISINGER]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[MOONEY]]></surname>
<given-names><![CDATA[R.J]]></given-names>
</name>
</person-group>
<source><![CDATA[Multi-Prototype Vector-Space Models of Word Meaning]]></source>
<year>(Jun</year>
<month>e)</month>
<day>, </day>
<page-range>109-117</page-range></nlm-citation>
</ref>
<ref id="B48">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[REN]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[HAN]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Sentiment Detection of Web Users Using Probabilistic Latent Semantic Analysis]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>9</volume>
<numero>10</numero>
<issue>10</issue>
<page-range>1194-1200</page-range></nlm-citation>
</ref>
<ref id="B49">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ROHDE]]></surname>
<given-names><![CDATA[D.L.T]]></given-names>
</name>
<name>
<surname><![CDATA[GONNERMAN]]></surname>
<given-names><![CDATA[L.M]]></given-names>
</name>
<name>
<surname><![CDATA[PLAUT]]></surname>
<given-names><![CDATA[D.C]]></given-names>
</name>
</person-group>
<source><![CDATA[An improved model of semantic similarity based on lexical co-occurrence]]></source>
<year>2009</year>
<publisher-name><![CDATA[Cognitive Science]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B50">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAHLGREN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[An Introduction to Random Indexing.]]></source>
<year>2004</year>
<page-range>1-9</page-range></nlm-citation>
</ref>
<ref id="B51">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAHLGREN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Word-Space Model Using distributional analysis to represent syntagmatic and paradigmatic relations between words]]></source>
<year>2006</year>
</nlm-citation>
</ref>
<ref id="B52">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALTON]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[WONG]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[C.S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Vector Space Model for Automatic Indexing]]></article-title>
<source><![CDATA[]]></source>
<year>1975</year>
<volume>18</volume>
<numero>11</numero>
<issue>11</issue>
<page-range>613-620.</page-range></nlm-citation>
</ref>
<ref id="B53">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SEIJO]]></surname>
<given-names><![CDATA[F.C]]></given-names>
</name>
<name>
<surname><![CDATA[LUNA]]></surname>
<given-names><![CDATA[J.M.F]]></given-names>
</name>
<name>
<surname><![CDATA[GUADIX]]></surname>
<given-names><![CDATA[J.F.H]]></given-names>
</name>
</person-group>
<source><![CDATA[Recuperación de Información]]></source>
<year>2011</year>
<publisher-loc><![CDATA[^eMadrid Madrid]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B54">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SOCHER]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Semantic Compositionality through Recursive Matrix-Vector Spaces]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B55">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[STEYVERS]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[GRIFFITHS]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Probabilistic Topic Models]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>427</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>424-440</page-range></nlm-citation>
</ref>
<ref id="B56">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[THATER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[FURSTENAU]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[PINKAL]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Contextualizing Semantic Representations Using Syntactically Enriched Vector Models]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B57">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TURNEY]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL]]></source>
<year>2001</year>
<publisher-name><![CDATA[NRC Publications Archive]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B58">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TURNEY]]></surname>
<given-names><![CDATA[P.D]]></given-names>
</name>
</person-group>
<source><![CDATA[From Frequency to Meaning: Vector Space Models of Semantics]]></source>
<year>2010</year>
<volume>37</volume>
<page-range>141-188</page-range><publisher-name><![CDATA[Journal of Artificial Intelligence Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B59">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TURNEY]]></surname>
<given-names><![CDATA[P.D]]></given-names>
</name>
</person-group>
<source><![CDATA[Semantic Composition and Decomposition: From Recognition to Generation]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B60">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WIDDOWS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[COHEN]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[The Semantic Vectors Package: New Algorithms and Public Tools for Distributional Semantics]]></source>
<year>2010</year>
<publisher-name><![CDATA[IEEE ICSC2010]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B61">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZOU]]></surname>
<given-names><![CDATA[W.Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Bilingual Word Embeddings for Phrase-Based Machine Translation]]></source>
<year>2012</year>
<page-range>1393-1398</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
