<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000400004</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Una revisión sobre aprendizaje no supervisado de métricas de distancia]]></article-title>
<article-title xml:lang="en"><![CDATA[A brief review on unsupervised metric learning]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez Verona]]></surname>
<given-names><![CDATA[Isabel Cristina]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Arco García]]></surname>
<given-names><![CDATA[Leticia]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Máximo Gómez Báez de Ciego de Ávila  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Central Marta Abreu de Las Villas  ]]></institution>
<addr-line><![CDATA[Santa Clara Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>4</numero>
<fpage>43</fpage>
<lpage>67</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000400004&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN Muchos de los métodos de aprendizaje automático dependen del cálculo de distancias en un espacio multidimensional para estimar la similitud entre dos ejemplos teniendo en cuenta la estructura de los datos. Está comprobado que se obtienen mejores resultados cuando la métrica se diseña específicamente para un contexto dado, pero esta es una tarea compleja. El aprendizaje de métricas de distancia consiste en aprender una métrica determinada respondiendo específicamente a las características de los datos históricos. En casos particulares donde no se conoce mucha información sobre los datos, se han obtenido buenos resultados utilizando algoritmos no supervisados de aprendizaje de distancias. Estos algoritmos no requieren información de etiqueta de clases, y se han utilizado principalmente para mejorar los resultados de métodos de agrupamiento. En este artículo se mencionan algunos de los aportes más recientes a los algoritmos no supervisados de aprendizaje de distancias, sus ventajas, desventajas y posibles aplicaciones.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT Several machine learning methods rely on the notion of distances in a multidimensional space, these distances are used for estimating the similarity between two objects, according to historical data. In such cases, when the metric is specifically designed to the context, better results are often obtained. However, designing a metric is a complex task. Metric learning automatically learns a distance metric according to the characteristics of the data. Unsupervised metric learning algorithms have achieved good results in cases where there is not available much information about the data. These algorithms do not require class label information, they are applied to improve unsupervised machine learning methods, mainly for improving clustering results. Here we will mention some of the recent works done in this area, their advantages, disadvantages and applications.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[aprendizaje no supervisado]]></kwd>
<kwd lng="es"><![CDATA[métrica]]></kwd>
<kwd lng="es"><![CDATA[distancia]]></kwd>
<kwd lng="es"><![CDATA[reducción de dimensión]]></kwd>
<kwd lng="en"><![CDATA[unsupervised metric learning]]></kwd>
<kwd lng="en"><![CDATA[dimensionality reduction]]></kwd>
<kwd lng="en"><![CDATA[distance]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Una revisi&oacute;n sobre aprendizaje no supervisado  de m&eacute;tricas de distancia</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">A brief review on  unsupervised metric learning</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Isabel Cristina P&eacute;rez Verona<sup>1*</sup>, Leticia Arco Garc&iacute;a<sup>2</sup></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Universidad &ldquo;M&aacute;ximo G&oacute;mez B&aacute;ez&rdquo; de Ciego de &Aacute;vila, Cuba. CP: 69450 <a href="mailto:isabelc@unica.cu">isabelc@unica.cu</a>.     <br>   <sup>2 </sup>Universidad Central &ldquo;Marta Abreu&rdquo; de Las Villas,  Carretera a Camajuan&iacute;, km 5 &frac12;. Santa Clara, Villa Clara, Cuba. CP:  54830 <a href="mailto:leticiaa@uclv.edu.cu">leticiaa@uclv.edu.cu</a></font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: <a href="mailto:isabelc@unica.cu">isabelc@unica.cu</a><a href="mailto:nguyencongbacbk@gmail.com"></a><a href="mailto:gheisa@uclv.edu.cu"></a></font></span> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Muchos de los m&eacute;todos de  aprendizaje autom&aacute;tico dependen del c&aacute;lculo de distancias en un espacio  multidimensional para estimar la similitud entre dos ejemplos teniendo en  cuenta la estructura de los datos. Est&aacute; comprobado que se obtienen mejores  resultados cuando la m&eacute;trica se dise&ntilde;a espec&iacute;ficamente para un contexto dado,  pero esta es una tarea compleja. El aprendizaje de m&eacute;tricas de distancia  consiste en aprender una m&eacute;trica determinada respondiendo espec&iacute;ficamente a las  caracter&iacute;sticas de los datos hist&oacute;ricos. En casos particulares donde no se  conoce mucha informaci&oacute;n sobre los datos, se han obtenido buenos resultados  utilizando algoritmos no supervisados de aprendizaje de distancias. Estos  algoritmos no requieren informaci&oacute;n de etiqueta de clases, y se han utilizado  principalmente para mejorar los resultados de m&eacute;todos de agrupamiento. En este  art&iacute;culo se mencionan algunos de los aportes m&aacute;s recientes a los algoritmos no  supervisados de aprendizaje de distancias, sus ventajas, desventajas y posibles  aplicaciones.</font></p>     <p>  <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>aprendizaje no supervisado, m&eacute;trica, distancia, reducci&oacute;n de dimensi&oacute;n</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Several machine learning methods rely on the notion  of distances in a multidimensional space, these distances are used for  estimating the similarity between two objects, according to historical data. In such cases, when the metric is specifically designed to  the context, better results are often obtained. However, designing a metric is  a complex task. Metric learning automatically learns a distance metric  according to the characteristics of the data. Unsupervised metric learning  algorithms have achieved good results in cases where there is not available  much information about the data. These algorithms do not require class label  information, they are applied to improve unsupervised machine learning methods,  mainly for improving clustering results. Here we will mention some of the  recent works done in this area, their advantages, disadvantages and applications.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>unsupervised metric learning, dimensionality reduction, distance</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Aprendizaje Automatizado (<em>Machine Learning</em>; ML) es una rama de la  inteligencia artificial, en gran parte inspirada en el razonamiento humano, que  comprende el aprendizaje a partir de experiencia (Sammut  y Webb 2011)(Sammut  y Webb 2011). El aprendizaje autom&aacute;tico aborda,  a su vez, una serie de problem&aacute;ticas que tributan a problemas espec&iacute;ficos,  entre ellos: los problemas de clasificaci&oacute;n, asociaci&oacute;n, agrupamiento, y  selecci&oacute;n de rasgos (Sammut  y Webb 2011)(Cong,  P&eacute;rez y Morell 2015; Sammut y Webb 2011). En el agrupamiento se parte de  un conjunto de ejemplos el cual se desea organizar en grupos usualmente de  acuerdo a una noci&oacute;n de similitud que generalmente es determinada por una  funci&oacute;n o m&eacute;trica de distancia(Aslam,  Pelekhov y Rus 2004; Blitzer et&nbsp;al. 2005; Szekely y Rizzo 2005). La proximidad entre ejemplos determina la pertenencia o no a un grupo;  por tanto, se estima que un elemento ser&aacute; m&aacute;s similar o tendr&aacute; mayores  propiedades en com&uacute;n con los elementos de su grupo, que con respecto a los  elementos de un grupo diferente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Muchos de los m&eacute;todos de aprendizaje autom&aacute;tico  dependen del c&aacute;lculo de distancias para estimar la similitud entre dos ejemplos  teniendo en cuenta la estructura de los datos. Este es el caso, por ejemplo,  del algoritmo de los <em>k</em> vecinos m&aacute;s  cercanos (<em>k</em>-<em>Nearest Neighbor</em>; <em>k</em>NN)  para la comparaci&oacute;n de las instancias entrantes con los datos conocidos  (ejemplos de entrenamiento) o el <em>k</em>-medias  (<em>k-means</em>) para calcular la distancia  entre los objetos y su centro m&aacute;s cercano, entre otros. La aplicaci&oacute;n </font><img src="/img/revistas/rcci/v10n4/fo0104416.jpg" alt="fo01" width="108" height="17"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">sobre un espacio X se denomina m&eacute;trica si</font> <img src="/img/revistas/rcci/v10n4/fo0204416.jpg" alt="fo02" width="106" height="19"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">se satisfacen las propiedades:</font> </p>     <p align="center"><img src="/img/revistas/rcci/v10n4/fo0304416.jpg" alt="fo03" width="390" height="116"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si solo satisface las tres primeras condiciones,  entonces la funci&oacute;n es llamada pseudom&eacute;trica<em>. </em>Si bien existen varias m&eacute;tricas generales como la similitud coseno, la  distancia de Levenshtein, la distancia Euclidiana (Deza y Deza 2009)(Deza y Deza 2006),  etc, la distancia Euclidiana es la m&aacute;s utilizada por los algoritmos de  aprendizaje automatizado por su simplicidad y propiedades de generalizaci&oacute;n;  sin embargo, esta distancia ignora cualquier tipo de regularidad estad&iacute;stica  que pueda ser estimada a partir del conjunto de datos(Weinberger y Saul 2008). Es posible transformar una m&eacute;trica, y obtener una familia de m&eacute;tricas  sobre un espacio &nbsp;calculando la distancia Euclidiana despu&eacute;s de  aplicar una transformaci&oacute;n lineal sobre las instancias de entrada(Bellet, Habrard y Sebban 2013).&nbsp; Diversos autores han planteado  que el uso de m&eacute;tricas que responden espec&iacute;ficamente a las caracter&iacute;sticas de  los datos influye positivamente en el desempe&ntilde;o de algoritmos basados en  distancias (Yang y Jin 2006; Bellet, Habrard y  Sebban 2013; Kulis 2012)(Weinberger y Chapelle 2008; Weinberger y Saul 2008; Davis et&nbsp;al.  2007; Xing et&nbsp;al. 2002; Wang et&nbsp;al. 2011; Huang et&nbsp;al. 2012;  Ying, Huang y Campbell 2009; Jiang y Wang 2014; Cinbis et&nbsp;al. 2011).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El aprendizaje de m&eacute;tricas de distancia (<em>metric learning</em>) tiene como principio la  adaptaci&oacute;n de una m&eacute;trica de distancia a una aplicaci&oacute;n espec&iacute;fica, utilizando  para ello informaci&oacute;n del conjunto de entrenamiento, como por ejemplo,  modificar la m&eacute;trica de distancia de un <em>k</em>NN  para implementar la distancia de Mahalanobis (Bellet, Habrard y Sebban 2013)(Mahalanobis 1936),  donde el objetivo final es inducir una m&eacute;trica de distancia m&aacute;s potente a  partir de los datos conocidos (Bellet, Habrard y Sebban 2013).&nbsp; Mahalanobis determina la similitud entre dos variables  aleatorias multidimensionales y a diferencia de la distancia Euclidiana, tiene  en cuenta la correlaci&oacute;n entre las variables aleatorias. De ah&iacute; que gran parte  de la rama del aprendizaje supervisado de m&eacute;tricas se basa en el aprendizaje de  la m&eacute;trica de Mahalanobis(Xing et&nbsp;al. 2002; Ying 2012), el cual constituye la instancia m&aacute;s simple del problema de aprendizaje  de distancias.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos de aprendizaje de m&eacute;tricas de  distancia pueden clasificarse teniendo en cuenta varios criterios, uno de los  m&aacute;s comunes es atendiendo a la disponibilidad de informaci&oacute;n (Bellet,  Habrard y Sebban 2013)(Cao,  Ying y Li 2012; Yang 2007; Bellet, Habrard y Sebban 2013; Yang y Jin 2006). De acuerdo a esta clasificaci&oacute;n pueden dividirse en tres categor&iacute;as  principales: los m&eacute;todos que aprenden funciones de distancia de manera supervisada  (<em>supervised metric learning</em>)(Xing  et&nbsp;al. 2002; Amores, Sebe y Radeva 2006; Weinberger y Saul 2008;  Weinberger 2007; Kulis 2013), los llamados m&eacute;todos de  aprendizaje de distancia semi-supervisados que son aquellos casos donde se  conoce cierta cantidad de informaci&oacute;n y existe cierta supervisi&oacute;n en el proceso  de aprendizaje (Bellet,  Habrard y Sebban 2013) y aquellos que aprenden  funciones de distancia de manera no supervisada (<em>unsupervised metric learning</em>) (Wang y Sun 2012)(Saxena, Gupta y Mukerjee 2004; Ziegelmeier, Kirby y Peterson 2012;  Roweis, Saul y Roweis 2008; Choi y Choi 2007; He y Niyogi 2003; Goldberg  et&nbsp;al. 2008)(Zhang et&nbsp;al. 2013; Wang et&nbsp;al. 2010; Wang, Yuen y Feng 2012;  Allahyar, Sadoghi Yazdi y Harati 2015; Mooney et&nbsp;al. 2004; Hu, Sun y Lam  2010). En este art&iacute;culo  abordaremos las caracter&iacute;sticas principales de los m&eacute;todos de aprendizaje no  supervisado de distancias. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los principales retos al trabajar con  aprendizaje de distancias, lo constituye la alta dimensionalidad de los datos.  Ciertos m&eacute;todos de <em>manifold learning</em> al aprender la distribuci&oacute;n intr&iacute;nseca de los datos  han sido tratados como casos del aprendizaje no supervisado de m&eacute;tricas de  distancias (Yang 2007)como es el caso del An&aacute;lisis de Componentes Principales (<em>Principal Component Analysis</em>; PCA) (Abdi y Williams 2010)(Jolliffe 2002; Abdi y Williams 2010), el escalado multidimensional (<em>Multidimensional Scaling</em>; MDS)&nbsp; (Torgerson 1952)(Torgerson 1952; Cox y Cox 2000), y m&eacute;todos no lineales como: el mapeo isom&eacute;trico (ISOMAP) (Tenenbaum, Silva y Langford 2000)(Balasubramanian y Schwartz 2002), embebido local lineal (<em>Locally Linear Embedding</em>; LLE) (Liu et&nbsp;al. 2013) y el mapeo de valores propios de Laplace (<em>Laplacian Eigenmaps</em>; LE) (Belkin y Niyogi 2001)(Goldberg et&nbsp;al. 2008). Estos m&eacute;todos de <em>manifold  learning</em> no est&aacute;n sujetos a la informaci&oacute;n adicional en forma de  restricciones que utilizan los m&eacute;todos de aprendizaje de distancia, ya que  obtienen la informaci&oacute;n que necesitan a partir de los  propios datos y la dimensi&oacute;n donde se encuentran embebidos. Resulta de gran  importancia conocer las caracter&iacute;sticas principales de los m&eacute;todos no  supervisados para el aprendizaje de distancias, as&iacute; como sus ventajas y  desventajas, ya que estos pueden influir significativamente en la calidad de  los m&eacute;todos de agrupamiento basados en distancias. De ah&iacute; que el objetivo de  este trabajo consiste en realizar una breve descripci&oacute;n del aprendizaje de  m&eacute;tricas de distancias y sus clasificaciones; haciendo &eacute;nfasis en las  propiedades espec&iacute;ficas de los m&eacute;todos no supervisados de aprendizaje de  distancias, sus ventajas, desventajas y dominio de aplicaci&oacute;n.</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">DESARROLLO </font></strong></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Aprendizaje de m&eacute;tricas de distancias</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En 2002, utilizando informaci&oacute;n adicional para el  agrupamiento, los autores del art&iacute;culo (Xing et&nbsp;al.  2002)(Xing et&nbsp;al.  2002) formalizaron el problema del aprendizaje de  distancias como un problema de optimizaci&oacute;n convexo. El objetivo del  aprendizaje de distancias es adaptar una funci&oacute;n de distancia basada en pares y  evaluada en los reales a un problema espec&iacute;fico utilizando la informaci&oacute;n  proporcionada por ejemplos de entrenamientos. Estos m&eacute;todos, en esencia,  intentan resolver un problema de optimizaci&oacute;n, estimando los par&aacute;metros de la  m&eacute;trica para adecuarse mejor a las caracter&iacute;sticas de los datos. La  clasificaci&oacute;n de los m&eacute;todos de aprendizaje de distancia est&aacute; profundamente  relacionada con la disponibilidad de informaci&oacute;n. Muchos de estos m&eacute;todos en  lugar de tener acceso a instancias, etiquetas y clases, realizan el aprendizaje  de la matriz positiva semidefinida M en d<sub>M</sub> de  una forma d&eacute;bilmente supervisada a trav&eacute;s de informaci&oacute;n dada por conjuntos de  restricciones (Bellet, Habrard y  Sebban 2013)(Bellet, Habrard y  Sebban 2013). Estas restricciones, que caracterizan la  similitud entre dos ejemplos, pueden clasificarse en dos grupos de  restricciones: restricci&oacute;n por pares como se muestra en las expresiones (1)  y (2)  y restricci&oacute;n relativa como se muestra en la  expresi&oacute;n (3) . </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Estas  restricciones act&uacute;an como informaci&oacute;n de la clase, solo que en lugar de  conocerse la etiqueta espec&iacute;fica de la clase del objeto se tiene la informaci&oacute;n  en forma de restricciones de similitud. En la expresi&oacute;n (1)  se establece una relaci&oacute;n de similitud directa o  equivalente (<em>must-link</em>), donde, si  los objetos xi y xj son  similares entonces est&aacute;n contenidos en el mismo espacio inducido por la  m&eacute;trica, mientras que la expresi&oacute;n (2)  representa aquellos objetos xi y xj que  no son similares, y por tanto no deben estar incluidos en el mismo espacio (<em>cannot-link</em>). Es deseable que la funci&oacute;n  de distancia a utilizar facilite la cercan&iacute;a de los pares similares, mientras  que separe a los elementos que no son similares entre s&iacute;. Por ejemplo, en (Xing et&nbsp;al.  2002)(Xing et&nbsp;al.  2002; Bar-Hillel et&nbsp;al. 2003), la funci&oacute;n de distancia es expl&iacute;citamente  aprendida para reducir al m&iacute;nimo la distancia entre ejemplos de datos similares  y maximizar la distancia entre puntos de datos disimilares(Bellet, Habrard y  Sebban 2013). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Restricciones por pares (<em>must-link,  cannot-link</em>): </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n4/fo0404416.jpg" alt="fo04" width="346" height="53"></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Restricci&oacute;n relativa (<em>training triplets</em>): </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n4/fo0504416.jpg" alt="fo05" width="422" height="58"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  algoritmo de aprendizaje de distancias estima los par&aacute;metros de la m&eacute;trica que  se adapten al conjunto de restricciones, tal como ilustra la expresi&oacute;n (4).  Este problema se puede modelar como un problema de optimizaci&oacute;n continuo donde  el objetivo es minimizar la funci&oacute;n de costo sobre los par&aacute;metros <img src="/img/revistas/rcci/v10n4/fo0604416.jpg" alt="fo06" width="149" height="22">act&uacute;a  como regularizador de los par&aacute;metros de la matriz de distancias &nbsp;(Bellet, Habrard y  Sebban 2013). La funci&oacute;n resultante de este proceso se utiliza  para mejorar los algoritmos basados en m&eacute;tricas, como se muestra en la <a href="/img/revistas/rcci/v10n4/f0601416.jpg" target="_blank">Figura 1</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  problema de la escalabilidad o redimensi&oacute;n es una problem&aacute;tica en todas las  &aacute;reas de aprendizaje autom&aacute;tico debido a la cantidad de datos disponibles que  se incrementan r&aacute;pidamente. El aprendizaje de distancias es interpretado como  el aprendizaje de una matriz d x d , esta  clase de algoritmos usualmente es adaptable de acuerdo a la dimensi&oacute;n d de  los datos, por lo cual una cualidad deseable de un algoritmo de aprendizaje de  m&eacute;tricas es establecer la dimensi&oacute;n de acuerdo a la cantidad de ejemplos de  entrenamiento n (o restricciones). Sin embargo, es dif&iacute;cil dise&ntilde;ar algoritmos que se  redimensionen coherentemente de acuerdo a esta cantidad de datos (Bellet, Habrard y  Sebban 2013).</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los algoritmos  utilizados en el aprendizaje de distancias pueden clasificarse de acuerdo a  propiedades tales como: paradigma de aprendizaje, forma de la m&eacute;trica, car&aacute;cter  de la soluci&oacute;n, si realiza o no reducci&oacute;n de dimensi&oacute;n, adaptabilidad, entre  otros, como se muestra en la <a href="/img/revistas/rcci/v10n4/f0204416.jpg" target="_blank">Figura 2</a>. Estos factores determinan qu&eacute; algoritmo  utilizar seg&uacute;n un problema espec&iacute;fico. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Seg&uacute;n  el tipo de aprendizaje, estos algoritmos se clasifican en completamente  supervisados, parcialmente supervisados, d&eacute;bilmente supervisados y no  supervisados. A diferencia de la mayor&iacute;a de los algoritmos de aprendizaje  supervisado donde las instancias de entrenamiento son etiquetadas a partir de  sus clases, en los algoritmos supervisados de aprendizaje de funciones de  distancia, las instancias de entrenamiento se convierten en conjuntos de  restricciones. El algoritmo tiene acceso a un conjunto de instancias de  entrenamiento etiquetadas</font> <img src="/img/revistas/rcci/v10n4/fo0704416.jpg" alt="fo07" width="118" height="23"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde  cada ejemplo de entrenamiento</font> <img src="/img/revistas/rcci/v10n4/fo0804416.jpg" alt="fo08" width="111" height="18"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">est&aacute;  compuesto por una instancia de <img src="/img/revistas/rcci/v10n4/fo0904416.jpg" alt="fo09" width="49" height="18">y  una etiqueta o clase </font><img src="/img/revistas/rcci/v10n4/fo1004416.jpg" alt="fo10" width="54" height="20"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  informaci&oacute;n contenida en las etiquetas se utiliza para generar conjuntos de  pares o ternas de restricciones espec&iacute;ficas S, D, R para  una instancia basada en un criterio de vecindad (Yang, Huang et al. 2013). En el aprendizaje d&eacute;bilmente supervisado de  m&eacute;tricas de distancia el algoritmo no tiene acceso a las etiquetas de las  instancias de entrenamiento individuales y en el aprendizaje parcialmente  supervisado o semi-supervisado se tiene acceso a un gran conjunto de instancias  no etiquetadas acerca de las cuales no existe suficiente informaci&oacute;n disponible,  en estos dos casos solo se conoce la informaci&oacute;n en forma de conjuntos de  restricciones  S, D, R (esta  informaci&oacute;n es proporcionada por los datos de manera indirecta, por ejemplo la  retroalimentaci&oacute;n impl&iacute;cita del usuario al hacer clic en un motor de b&uacute;squeda).  Los m&eacute;todos no supervisados solamente operan con los conjuntos de instancias no  etiquetadas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">No solo es importante atender a la manera en la que se realiza el  aprendizaje para decidir qu&eacute; m&eacute;todo utilizar de acuerdo al problema, la  elecci&oacute;n de la m&eacute;trica es claramente un factor clave en el desempe&ntilde;o del m&eacute;todo  e influye considerablemente en los resultados (Bellet, Habrard y  Sebban 2013). M&eacute;tricas lineales como la distancia de Mahalanobis  poseen un poder expresivo limitado pero son sencillas de optimizar ya que  usualmente conllevan a formulaciones convexas y son menos propensas al  sobre-ajuste, las m&eacute;tricas no lineales como la distancia cuadr&aacute;tica del  histograma, a menudo resultan en formulaciones no convexas (sujetas a un &oacute;ptimo  local) pero resultan buenas capturando las variaciones no lineales en los  datos, las m&eacute;tricas locales debido a la cantidad de par&aacute;metros que aprenden,  son muy utilizadas, por ejemplo, en problemas de aprendizaje simult&aacute;neo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La elecci&oacute;n de la t&eacute;cnica de optimizaci&oacute;n tambi&eacute;n depende del tipo de  problema. En (Cong, P&eacute;rez y Morell  2015)(Cong, P&eacute;rez y Morell  2015) se mencionan varias&nbsp; t&eacute;cnicas  de optimizaci&oacute;n populares para contextos espec&iacute;ficos como: el gradiente  descendiente (<em>gradient descent</em>) (Boyd and Vandenberghe 2009) para problemas de optimizaci&oacute;n con restricciones  basadas en matrices(Yang 2007; Bellet, Habrard y Sebban 2013), el gradiente proyectado (<em>projected gradient descent</em>) (Goldstein 1964) para modelos convexos en los que se desea preservar la convexidad, la  proyecci&oacute;n de Bregman (<em>Bregman  proyections</em>) (Bregman 1967) y el gradiente descendiente estoc&aacute;stico (<em>stochastic gradient descent</em>) (Bottou 1998) para realizar cambios en las restricciones modificando una &uacute;nica  restricci&oacute;n en cada iteraci&oacute;n (lo cual es provechoso en casos en los que  resulta costoso calcular todo el gradiente de la funci&oacute;n de costo debido a la  cantidad de restricciones), entre otros. Aunque tambi&eacute;n puede darse el caso de  que los autores utilicen una t&eacute;cnica de optimizaci&oacute;n personalizada para modelar  su problema individualmente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La optimizaci&oacute;n, en el aprendizaje de distancias,  tambi&eacute;n puede efectuarse a trav&eacute;s de la descomposici&oacute;n de valores propios. Las  t&eacute;cnicas de optimizaci&oacute;n basadas en este principio son utilizadas generalmente  para descubrir las transformaciones lineales del espacio de entrada y son  usadas en m&eacute;todos como PCA, MDS, an&aacute;lisis discriminante lineal (<em>Linear Discriminant Analysis</em>; LDA) (Scholkopft and Mullert 1999), y an&aacute;lisis de componentes relevantes (<em>Relevant Component Analysis</em>; RCA) (Shental, Hertz et al. 2002).</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Principales resultados de la revisi&oacute;n bibliogr&aacute;fica</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para comprender realmente en qu&eacute; situaci&oacute;n se encuentra el aprendizaje  no supervisado de distancias, se realiz&oacute; una b&uacute;squeda prestando particular  inter&eacute;s en los &uacute;ltimos cinco a&ntilde;os. La mayor parte de los datos se extrajo de  las b&uacute;squedas realizadas en el sistema de indexado de SCOPUS. En la <a href="/img/revistas/rcci/v10n4/f0304416.jpg" target="_blank">Figura 3</a>  se muestran los resultados obtenidos de la b&uacute;squeda de los t&eacute;rminos:  &ldquo;<em>unsupervised metric-learning</em>&rdquo; en los  campos t&iacute;tulo (TITLE), resumen (ABS) o palabras claves (KEY) a partir del a&ntilde;o  2005 hasta mayo de 2016, en la base de datos SCOPUS.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las  consultas realizadas fueron:     <br>     <em>TITLE-ABS-KEY  (unsupervised&nbsp; metric-learning)&nbsp; AND&nbsp;  PUBYEAR&nbsp; &gt;&nbsp; 2005</em>     <br>     <em>KEY&nbsp;(unsupervised&nbsp; metric-learning)&nbsp;  AND&nbsp; DOCTYPE&nbsp;(ar&nbsp; OR&nbsp; re)&nbsp; AND&nbsp; PUBYEAR&nbsp; &gt;&nbsp; 2010</em>    ]]></body>
<body><![CDATA[<br>     <em>TITLE-ABS-KEY&nbsp;(unsupervised-  metric-learning)&nbsp; AND&nbsp; PUBYEAR&nbsp; &gt;&nbsp; 2005</em></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se realizaron tambi&eacute;n b&uacute;squedas en otras bases de  datos, enfocando la b&uacute;squeda en los t&eacute;rminos &ldquo;<em>unsupervised&nbsp; metric-learning</em>&rdquo; dedicando principal inter&eacute;s a los documentos de tipo <em>review</em> o <em>survey</em>. Los resultados obtenidos se analizaron para filtrar  aquellos que no estuviesen directamente relacionados con el tema y sin embargo  aparecieron en la b&uacute;squeda por hacer menci&oacute;n a los t&eacute;rminos utilizados. En la <a href="/img/revistas/rcci/v10n4/t0104416.jpg" target="_blank">Tabla  1</a> se recogen los principales datos de los art&iacute;culos de revisi&oacute;n que abordan el  tema del aprendizaje no supervisado de m&eacute;tricas de distancia. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se  observa en la <a href="/img/revistas/rcci/v10n4/t0104416.jpg" target="_blank">Tabla  1</a> y en la <a href="/img/revistas/rcci/v10n4/f0304416.jpg" target="_blank">Figura 3</a> , el aprendizaje de m&eacute;tricas de distancias  est&aacute; siendo investigado en la actualidad. La mayor&iacute;a de los art&iacute;culos de  revisi&oacute;n sobre el tema hacen &eacute;nfasis en los m&eacute;todos que siguen un aprendizaje  completamente supervisado de la m&eacute;trica de distancia. Sin embargo, el  aprendizaje de m&eacute;tricas resulta muy importante para obtener buenos resultados  en los m&eacute;todos de agrupamiento sobre datos no etiquetados. En tal caso no es  posible aplicar m&eacute;todos completamente supervisados. Por tanto, es de inter&eacute;s en este trabajo de revisi&oacute;n hacer  &eacute;nfasis en aquellos m&eacute;todos que realizan el aprendizaje de distancias de manera  no supervisada; es decir, aquellos m&eacute;todos que parten de datos que no est&aacute;n  etiquetados y de los cuales no se cuenta con informaci&oacute;n adicional. </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Principales m&eacute;todos para el aprendizaje no supervisado de distancias</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Muchos algoritmos no supervisados para la reducci&oacute;n de dimensionalidad  realizan un aprendizaje no supervisado de m&eacute;tricas de distancias (Yang 2007) utilizando informaci&oacute;n de los propios datos o de la  dimensi&oacute;n donde se encuentran representados. Este grupo de m&eacute;todos se pueden  clasificar en m&eacute;todos no lineales y lineales. Los algoritmos de reducci&oacute;n no  lineales consideran que cada uno de los datos de alta dimensionalidad puede ser  descrito a trav&eacute;s de una funci&oacute;n compuesta por los par&aacute;metros m&aacute;s relevantes y  los datos son vistos como extractos de una dimensi&oacute;n subyacente embebida en la  dimensi&oacute;n original del espacio. El objetivo es embeber datos que originalmente  se encuentran en una dimensi&oacute;n en otra dimensi&oacute;n reducida, al mismo tiempo que  se preservan las caracter&iacute;sticas principales de los datos. Para cada espacio  dimensional debe existir intr&iacute;nsecamente un espacio reducido; y por tanto, es  posible acceder a los datos reducidos a trav&eacute;s de algoritmos que interpreten o  preserven la naturaleza de los datos embebidos (Cayton 2005)(Weinberger y Saul  2006, 2008). Entre los m&eacute;todos m&aacute;s  utilizados de este tipo se encuentran ISOMAP, el cual busca un sub-espacio que  preserve mejor las distancias geod&eacute;sicas entre dos puntos de datos y los  m&eacute;todos LLE y LE, que se enfocan en la preservaci&oacute;n de las estructuras de las  vecindades locales. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PCA  haya el sub-espacio que mejor preserve la varianza de los datos, MDS encuentra  la proyecci&oacute;n que mejor preserve la distancia de punto a punto dada por la  matriz de distancias, el an&aacute;lisis de componentes independientes (<em>Independent Component Analysis</em>; ICA) (Langlois, Chartier  y Gosselin 2010) (Tenenbaum, Silva y  Langford 2000)busca una transformaci&oacute;n lineal, con el objetivo de  maximizar la independencia estad&iacute;stica de los datos, lo cual puede resultar  &uacute;til en la interpretaci&oacute;n de impulsos el&eacute;ctricos para electroencefalogramas (Vega-Hern&aacute;ndez y  Vald&eacute;s-Sosa 2009) y an&aacute;lisis de series de tiempo (Gonz&aacute;lez-Piedra  2011), entre otras(Langlois, Chartier  y Gosselin 2010; Gonz 2011; Hyv&auml;rinen et&nbsp;al. 2000; Vega-herna et&nbsp;al.  2009). Otro ejemplo de m&eacute;todos no supervisados para la  reducci&oacute;n de dimensi&oacute;n que pueden aprender distancias de forma no supervisada  son la preservaci&oacute;n de proyecciones locales (<em>Locality Preserving Projections</em>; LPP) (Niyogi 2004) (Niyogi 2004)y la preservaci&oacute;n de vecindades embebidas (<em>Neighborhood Preserving Embedding</em>; NPE) (He et&nbsp;al.  2005)(He et&nbsp;al.  2005). Estos dos m&eacute;todos (aproximaciones lineales a LE y  LLE) (Roweis, Saul y Roweis 2008) pueden realizar aprendizaje supervisado de  distancias si la informaci&oacute;n de la etiqueta es utilizada para construir la  matriz de pesos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  ocasiones, los datos de alta dimensionalidad se encuentran representados en  espacios o variedades complejas (<em>manifolds</em>).  Puntos que se encuentran alejados en la variedad donde se encuentran los datos  reducidos, a primera vista, en el espacio de alta dimensionalidad original  podr&iacute;an parecer cercanos, como se muestra en la <a href="/img/revistas/rcci/v10n4/f0404416.jpg" target="_blank">Figura 4  (A)</a>, y ser tratados de esta manera al utilizar  medidas de distancia que no captan irregularidades de este tipo (como la  distancia Euclidiana). El m&eacute;todo ISOMAP busca un espacio reducido embebido en  el espacio original que mantenga las distancias geod&eacute;sicas entre  todos los puntos de coordenadas, con lo cual consigue caracterizar las  vecindades presentes en la variedad. El uso de la distancia geod&eacute;sica resulta  mucho m&aacute;s expresivo y captura la distribuci&oacute;n real de los datos, como es posible  apreciar en la <a href="/img/revistas/rcci/v10n4/f0404416.jpg" target="_blank">Figura 4  (B)</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El m&eacute;todo ISOMAP establece relaciones de vecindad en la variedad  basado en evaluaciones de las distancias geod&eacute;sicas en las entradas y luego  busca una representaci&oacute;n Euclidiana, exacta o aproximada, que coincida con las  evaluaciones geod&eacute;sicas previas. ISOMAP comienza estimando las distancias  geod&eacute;sicas entre los puntos en las entradas utilizando las distancias m&aacute;s  cercanas en el grafo de los vecinos m&aacute;s cercanos del conjunto de datos. Para  ello, construye un grafo ponderado de los vecinos m&aacute;s cercanos utilizando la  distancia Euclidiana y lo recorre utilizando un algoritmo para calcular el  camino m&iacute;nimo (Dijkstra o Ford), produciendo como salida las distancias  geod&eacute;sicas.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El&nbsp; <a href="/img/revistas/rcci/v10n4/fo1104416.jpg" target="_blank">algoritmo ISOMAP</a> consta de  dos etapas (Tenenbaum, Silva y  Langford 2000):</font></p> <ul>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la primera se establecen las relaciones de vecindad existentes en el  sub-espacio variedad &nbsp;bas&aacute;ndose en  las distancias Euclidianas d<sub>x</sub>(i,j) obtenidas en el espacio original de entrada X. Las relaciones halladas se representan en un grafo ponderado <img src="/img/revistas/rcci/v10n4/fo1204416.jpg" alt="fo12" width="14" height="18"> donde los pesos d<sub>x</sub>(i,j) son asignados a los correspondientes bordes, como es posible observar en  la <a href="/img/revistas/rcci/v10n4/f0404416.jpg" target="_blank">Figura 4  (B)</a>.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Luego se estiman los pares d<sub>M</sub>(i,j) en M y las distancias geod&eacute;sicas son definidas como las menores distancias d<sub>G</sub>(i,j) en <img src="/img/revistas/rcci/v10n4/fo1204416.jpg" alt="fo12" width="14" height="18"></font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una  vez que se dispone de las distancias geod&eacute;sicas que preservan la naturaleza de  los datos a trav&eacute;s de las rutas geod&eacute;sicas antes representadas con curvas en la  variedad, estas se transforman en l&iacute;neas rectas en la dimensi&oacute;n. ISOMAP realiza este proceso aplicando el <a href="/img/revistas/rcci/v10n4/fo1304416.jpg" target="_blank">m&eacute;todo MDS</a> a la matriz de  distancias geod&eacute;sicas D<sub>G</sub>. MDS  busca una representaci&oacute;n Euclidiana, exacta o aproximada D<sub>G</sub> donde [D<sub>G</sub>]<sub>i,j  </sub>= d<sub>G</sub>(i,j) en  un espacio euclidiano Y de  dimensi&oacute;n m que  preserve la geometr&iacute;a intr&iacute;nseca de M, como  se observa en la  <a href="/img/revistas/rcci/v10n4/f0404416.jpg" target="_blank">Figura 4  (C)</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De  los m&eacute;todos que realizan reducci&oacute;n de dimensi&oacute;n basados en geometr&iacute;a, ISOMAP es uno de los m&aacute;s utilizados. Su  popularidad viene dada por la expresividad que ofrece la informaci&oacute;n topol&oacute;gica  a partir de las distancias geod&eacute;sicas. Otros m&eacute;todos de reducci&oacute;n de dimensi&oacute;n;  sin embargo, se enfocan en la preservaci&oacute;n de las estructuras locales de  vecindad, tal es el caso de LLE. El m&eacute;todo LLE visualiza la variedad como una  colecci&oacute;n de parches, o puntos de coordenadas que se solapan entre s&iacute;. Si la  variedad es lo suficientemente uniforme y las vecindades son peque&ntilde;as, entonces  el algoritmo considera estas zonas <img src="/img/revistas/rcci/v10n4/fo1404416.jpg" alt="fo14" width="25" height="21"> como  lineales. El objetivo es identificar cada uno de esos parches y caracterizar la  geometr&iacute;a interna en ellos, para luego construir las vecindades (Castellanos  Dom&iacute;nguez et&nbsp;al. 2011).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  principio de LLE es preservar la relaci&oacute;n de orden local de los datos tanto en  el espacio embebido como en el espacio original. Cada muestra x<sub>i</sub> en  el espacio de observaci&oacute;n se intenta representar como una combinaci&oacute;n ponderada  y convexa de sus vecinos m&aacute;s cercanos. La  matriz de pesos W se utiliza como sustituto de la geometr&iacute;a local de los parches, donde W<sub>i</sub> representa la distribuci&oacute;n de los puntos alrededor de x<sub>i</sub>. La reconstrucci&oacute;n de los pesos se representa en el paso 1a del <a href="/img/revistas/rcci/v10n4/fo1504416.jpg" target="_blank">Algoritmo 3</a> , donde C es  la matriz de covarianza local y W<sub>i</sub> es  la caracterizaci&oacute;n de la geometr&iacute;a local que rodea al punto x<sub>i</sub> en la  variedad. En el segundo paso el algoritmo calcula una configuraci&oacute;n en la  dimensi&oacute;n reducida d. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Tanto  ISOMAP como LLE, tienen como par&aacute;metro el n&uacute;mero de vecinos . Siendo &nbsp;el conjunto de vecinos m&aacute;s  cercanos a x<sub>i</sub> , los  pesos se seleccionan procurando minimizar el error cuadr&aacute;tico para cada <img src="/img/revistas/rcci/v10n4/fo1604416.jpg" alt="fo16" width="169" height="30"> (Cayton 2005). LLE preserva las vecindades locales entre los  objetos en la variedadde alta  dimensionalidad, y a su vez conserva esta estructura en la representaci&oacute;n  reducida (Goldberg  et&nbsp;al. 2008). En la <a href="/img/revistas/rcci/v10n4/f0504416.jpg" target="_blank">Figura 5</a>  se aprecia en c&oacute;digo de colores para representar  el resultado de utilizar LLE en el conjunto de datos Swiss Roll.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LLE  ha sido muy utilizado en problemas con alta dimensionalidad, en los que se  desean preservar las vecindades locales de los objetos (Tang et&nbsp;al.  2014; Liu et&nbsp;al. 2013; Karbauskait, Kurasova y Dzemyda 2015; Ziegelmeier,  Kirby y Peterson 2012; Zhang y Wang 2006). T&eacute;cnicas como ISOMAP y LLE se encuentran  definidas solamente partiendo de los datos de entrenamiento; sin embargo, LLP (He y Niyogi 2003) puede ser aplicado a cualquier punto en el espacio  de representaci&oacute;n reducido. LLP construye un grafo incorporando informaci&oacute;n de  las vecindades del conjunto de datos. LLP halla la aproximaci&oacute;n lineal &oacute;ptima a  las funciones propias del operador Laplace Beltrami en la variedad(el cual est&aacute; dado por la relaci&oacute;n de  adyacencia entre puntos).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  <a href="/img/revistas/rcci/v10n4/fo1704416.jpg" target="_blank">algoritmo LPP</a> recibe como entrada <img src="/img/revistas/rcci/v10n4/fo1804416.jpg" alt="fo18" width="103" height="19"> y primeramente  construye el grafo de adyacencia G donde m es  el n&uacute;mero de nodos. Dos nodos i y j est&aacute;n  conectados si existe una relaci&oacute;n de cercan&iacute;a entre ellos. La relaci&oacute;n de  cercan&iacute;a puede establecerse utilizando uno de los siguientes criterios: </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">a- Usando el m&eacute;todo e-vecindades <img src="/img/revistas/rcci/v10n4/fo1904416.jpg" alt="fo19" width="111" height="19"> donde <img src="/img/revistas/rcci/v10n4/fo2004416.jpg" alt="fo20" width="39" height="16">, dos nodos est&aacute;n conectados si <img src="/img/revistas/rcci/v10n4/fo2104416.jpg" alt="fo21" width="100" height="28">donde se utiliza la norma Euclidiana en <img src="/img/revistas/rcci/v10n4/fo2204416.jpg" alt="fo22" width="21" height="17">.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">b- Utilizando <em>k</em>-vecinos m&aacute;s  c&eacute;rcanos (k&lt;N) dos nodos i y j est&aacute;n conectados si i est&aacute; entre los vecinos m&aacute;s cercanos de j o viceversa.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Posteriormente realiza la selecci&oacute;n  de pesos. Sea &nbsp;una matriz  sim&eacute;trica dispersa de dimensi&oacute;n m x m, donde W<sub>ij</sub> representa el peso de la arista entre los nodos i y j.. El valor del peso de la arista puede definirse de manera convencional,  siendo 1 si los nodos est&aacute;n conectados y 0 si los nodos no est&aacute;n conectados; o  bien utilizar una funci&oacute;n n&uacute;cleo (Belkin y Niyogi 2001) de forma tal que si dos nodos i y j est&aacute;n conectados entonces el peso de la arista se calcula de forma que <img src="/img/revistas/rcci/v10n4/fo2304416.jpg" alt="fo23" width="225" height="43"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una vez calculadas las vecindades, LPP procede al mapeo de la variedad  calculando los vectores propios y los valores propios para el problema. Se  calcula la expresi&oacute;n (5) , donde &nbsp;es una  matriz diagonal tal que <img src="/img/revistas/rcci/v10n4/fo2404416.jpg" alt="fo24" width="77" height="24"> , x<sub>i</sub> es el i-&eacute;simo elemento de la matriz X y L es una matriz de Laplace, tal que L = D - W.</font> </p>     <p align="center"><img src="/img/revistas/rcci/v10n4/fo2504416.jpg" alt="fo25" width="225" height="32"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Suponiendo que a<sub>0</sub>,...,a<sub>l-1</sub> es el vector soluci&oacute;n en la ecuaci&oacute;n (5)  y que este est&aacute; ordenado de  acuerdo a sus valores propios <img src="/img/revistas/rcci/v10n4/fo2604416.jpg" alt="fo26" width="106" height="20"> entonces el proceso de embebido ser&iacute;a <img src="/img/revistas/rcci/v10n4/fo2704416.jpg" alt="fo27" width="233" height="26">, siendo y<sub>i</sub> un  vector de dimensi&oacute;n l y A una matriz de n x l. El algoritmo simplificado LPP, a diferencia de ISOMAP y LLE, es lineal, lo cual facilita el trabajo  con aplicaciones reales (Zhang, Qiao y Chen  2010). Para aprender una m&eacute;trica en un entorno no  supervisado la mayor&iacute;a de los m&eacute;todos de aprendizaje de distancia proyectan los  datos observados en una variedad reducida donde las relaciones geom&eacute;tricas  (como las distancias entre pares) sean preservadas. Este principio puede ser  extendido al caso no lineal utilizando una funci&oacute;n n&uacute;cleo para mapear los  datos. Basados en este principio, en (Wang, Zhao y Zhang  2011) se propuso un m&eacute;todo no supervisado para maximizar  las proyecciones de m&aacute;rgenes (<em>Unsupervised  Maximun Margin Projections</em>; UMMP) (Wang, Zhao y Zhang  2011) asumiendo que el conjunto de datos est&aacute; dividido  en dos clases, y el objetivo es encontrar un hiperplano que maximice la  distancia entre ambas, y se repite el procedimiento para cada grupo, tal como  se aprecia en la<a href="#f06"> Figura 6</a> . Para cada posible etiquetado, se construye una  m&aacute;quina de vectores de soporte (<em>Support  Vector Machine</em>; SVM) que maximice el margen entre las dos clases. UMPP  permite buscar la etiqueta donde la SVM construida alcance el m&aacute;ximo valor de  margen.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n4/f0604416.jpg" alt="f06" width="540" height="247"><a name="f06"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">UMMP depende de la  geometr&iacute;a del l&iacute;mite de decisi&oacute;n &oacute;ptimo y no de la distribuci&oacute;n de los puntos  de datos alejados de este. Este algoritmo encuentra la proyecci&oacute;n de los  hiperplanos que maximice la separabilidad de los grupos. Inicialmente las  etiquetas de las clases (para diferenciar los objetos) son asignadas  arbitrariamente y se entrena una SVM con un margen por defecto. El objetivo es  encontrar el etiquetado asociado al margen m&aacute;ximo obtenido por las SVM  entrenadas en cada escenario de etiquetado posible.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">UMMP busca direcciones en las cuales se maximice la separaci&oacute;n entre  los grupos, otro criterio para aprender la direcci&oacute;n de proyecci&oacute;n es  preservando la geometr&iacute;a de los datos en el espacio original de proyecci&oacute;n. Si  bien el m&eacute;todo es no supervisado, en aplicaciones reales donde se conocen  algunas restricciones a priori es posible incorporar objetivos adicionales a la  maximizaci&oacute;n del margen de proyecciones (<em>Maximun  Margin Projections</em>; MMP). Leves modificaciones de este m&eacute;todo han  demostrado ser competitivas en aplicaciones reales como reconocimiento facial y  clasificaci&oacute;n de textos (Wang, Zhao y Zhang  2011). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el contexto del aprendizaje de distancias comienza a verse la  tendencia de aprovechar caracter&iacute;sticas espec&iacute;ficas de los algoritmos  existentes y adaptarlas a nuevos m&eacute;todos. M&eacute;todos como  SMLgb (<em>Sparse Metric Learning via Smooth  Optimization</em>) (Ying, Huang y Campbell 2009) introducen el espectro  disperso para aprender una matriz de datos de menor dimensi&oacute;n a la par que  realizan la reducci&oacute;n de dimensi&oacute;n. SMLgb estima transformaciones lineales  (equivalentes a la matriz de distancias) tales que combinen y retengan las  ventajas de algoritmos de aprendizaje de distancias (Ying 2012). Este modelo tiene dos pautas fundamentales. La  primera, la elecci&oacute;n de una buena matriz de distancias&nbsp; &nbsp;que preserve la estructura de distancia; es  decir, la cercan&iacute;a entre vecinos. La segunda, comprende la capacidad de la  matriz de distancias de eliminar el ruido mientras conduce a la reducci&oacute;n de  dimensi&oacute;n. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Jiang y Wang se inspiraron en los algoritmos de propagaci&oacute;n de  etiqueta y los mapas de difusi&oacute;n (Goldberg et&nbsp;al.  2008) para proponer un enfoque basado en difusi&oacute;n para mejorar una matriz  de similitud (<em><a href="/img/revistas/rcci/v10n4/fo2804416.jpg" target="_blank">Self-Smoothing Operator</a></em><a href="/img/revistas/rcci/v10n4/fo2804416.jpg">;  SSO</a>) (Jiang y Wang 2011). El proceso de difusi&oacute;n propaga la masa de  similitud en la variedad en la que est&aacute;n representados los datos. El resultado  es el aprendizaje de una m&eacute;trica global de similitud obtenida a trav&eacute;s de la  propagaci&oacute;n de la similitud, donde esta propagaci&oacute;n se realiza a trav&eacute;s de un  operador de auto suavizado. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En SSO, se parte de un grafo <img src="/img/revistas/rcci/v10n4/fo2904416.jpg" alt="fo29" width="83" height="24"> que representa los datos y la similitud entre ellos, donde <img src="/img/revistas/rcci/v10n4/fo3004416.jpg" alt="fo30" width="142" height="23"> es el espacio finito para nodos que representan ejemplos o datos, y W es una matriz de similitud donde <img src="/img/revistas/rcci/v10n4/fo3104416.jpg" alt="fo31" width="103" height="19"> representa la similitud entre x<sub>i</sub> y x<sub>j</sub>. Normalmente, esta matriz de similitud se obtiene de aplicar un n&uacute;cleo  gaussiano G a una matriz de distancia <img src="/img/revistas/rcci/v10n4/fo3204416.jpg" alt="fo32" width="210" height="21">, , donde d(i,j) representa la distancia entre x<sub>i</sub> y x<sub>j</sub> y la amplitud del n&uacute;cleo se controla mediante k y <img src="/img/revistas/rcci/v10n4/fo3304416.jpg" alt="fo33" width="11" height="14">. Un proceso de difusi&oacute;n estoc&aacute;stico en G permite la propagaci&oacute;n de las similitudes locales a lo largo de la  geometr&iacute;a de la variedad, sin tener que expl&iacute;citamente construir la variedad. El  n&uacute;cleo de suavizado P se induce a partir de la matriz de similitud W, expresado en un n&uacute;cleo gaussiano de suavizado P=D<sup>-1</sup>W donde D es una matriz diagonal con <img src="/img/revistas/rcci/v10n4/fo3404416.jpg" alt="fo34" width="153" height="26">. Este proceso de suavizado utiliza el n&uacute;cleo t veces sobre la matriz de similitud W, de forma tal que <img src="/img/revistas/rcci/v10n4/fo3504416.jpg" alt="fo35" width="81" height="25">, con el fin de garantizar que la  diagonal de la matriz diagonal sea 1 y realiza un proceso de  auto-normalizaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En realidad, el par&aacute;metro decisivo en SSO (si se cuenta con la matriz de  similitud), lo constituye . Una idea para comprender el funcionamiento del  proceso de suavizado es utilizar una analog&iacute;a con el procesado de im&aacute;genes con  ruido. Aplicar un suavizado en una imagen con ruido, aumenta la raz&oacute;n de  se&ntilde;al/ruido, lo que contribuye a reducir la informaci&oacute;n que resulta desconocida  o dif&iacute;cil de interpretar debido al ruido. Sin embargo, si se suaviza demasiado  la imagen, esto puede llevar a la p&eacute;rdida de informaci&oacute;n relevante. En el  contexto de SSO, la idea tras el par&aacute;metro &nbsp;es similar  al suavizado de im&aacute;genes con ruido; &nbsp;debe ser un  valor que permita la propagaci&oacute;n de la similitud en la variedad sin corromper  la informaci&oacute;n. Si bien la definici&oacute;n del valor apropiado de este par&aacute;metro no  es una cuesti&oacute;n trivial (ya que de &eacute;l depende en gran medida el m&eacute;todo), los  autores del m&eacute;todo proponen un rango efectivo de 500 ~ 1000.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A  diferencia de otros m&eacute;todos de propagaci&oacute;n de etiqueta, o basados en consulta,  SSO induce una m&eacute;trica global que influye directamente en la calidad de la  matriz de similitud, sin necesidad de introducir nociones adicionales de  m&eacute;tricas de distancia. Este m&eacute;todo ha tenido buenos resultados en &aacute;reas de  recuperaci&oacute;n de im&aacute;genes, agrupamiento, segmentaci&oacute;n y clasificaci&oacute;n. </font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif"> DISCUSI&Oacute;N</font></strong></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los algoritmos de <em>manifold  learning</em> no lineales para la reducci&oacute;n de dimensi&oacute;n extraen y aprenden la  m&eacute;trica del propio conjunto de datos, como un subproceso de la reducci&oacute;n de  dimensionalidad, por ello, han sido considerados por muchos como m&eacute;todos de  aprendizaje no supervisado de distancias (Yang y Jin 2006; Kulis 2012; Wang y Sun 2015). A partir de algunos  m&eacute;todos de aprendizaje de distancia no supervisados y utilizando cierta  informaci&oacute;n de los datos, se han modifican dichos m&eacute;todos para obtener mejores  resultados y con ello han surgido varios m&eacute;todos h&iacute;bridos (Wang et&nbsp;al. 2012; Fu 2014; Cinbis et&nbsp;al.  2011). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los m&eacute;todos m&aacute;s  completos y que responde a la esencia de la definici&oacute;n de aprendizaje no  supervisado de distancia es SSO (Jiang y Wang 2011). Este m&eacute;todo, a trav&eacute;s de  un proceso de propagaci&oacute;n de la similitud utilizando un operador de suavizado,  calcula una m&eacute;trica de distancia. SSO ha obtenido buenos resultados en el &aacute;rea  de identificaci&oacute;n de im&aacute;genes y video, y recuperaci&oacute;n de im&aacute;genes. Sin embargo,  uno de los puntos a mejorar sigue siendo la condici&oacute;n de la estimaci&oacute;n del  mejor valor para el par&aacute;metro que controla el operador de suavizado. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De los m&eacute;todos de <em>manifold learning</em> mencionados, ISOMAP,  LLE y LE son m&eacute;todos no param&eacute;tricos, lo cual significa que la t&eacute;cnica no  especifica un mapeo directo hacia el espacio reducido. Los m&eacute;todos no  param&eacute;tricos tienen como desventaja que no es posible generalizarlos para  nuevos datos sin realizar nuevamente el proceso de reducci&oacute;n de dimensi&oacute;n. Otra  desventaja es que no es posible delimitar cuanta informaci&oacute;n de la dimensi&oacute;n  original es retenida en el espacio reducido al reconstruir los datos desde la  dimensi&oacute;n reducida y midiendo el error entre los datos originales y los datos  reconstruidos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las t&eacute;cnicas que utilizan el  espectro disperso tienen varias desventajas identificables, una de ellas es un  punto flaco en su funci&oacute;n de costo. Estos m&eacute;todos tambi&eacute;n se ven afectados por  la maldici&oacute;n de la dimensionalidad, el n&uacute;mero de datos que es requerido para  caracterizar la variedad apropiadamente crece a medida que crece la  dimensionalidad intr&iacute;nseca de la variedad. Esta susceptibilidad a la  dimensionalidad es una debilidad fundamental en los m&eacute;todos de aprendizaje  local. Otra de las susceptibilidades de este tipo de m&eacute;todos seg&uacute;n (Van Der Maaten, Postma y Van Den Herik 2009) es la predisposici&oacute;n al  sobre entrenamiento (lo cual ha sido solucionado parcialmente con m&eacute;todos  adaptativos de vecindad o <em>e-neighboors</em>);  la condici&oacute;n de linealidad local asume que las variedades no contienen  discontinuidades y la sensibilidad al trabajar con variedades que no son  isom&eacute;tricas a un espacio Euclidiano.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De los m&eacute;todos de enfoque  disperso, uno de los m&aacute;s populares lo constituye LLE, el cu&aacute;l ha sido  ampliamente aplicado en varias &aacute;reas (Ziegelmeier, Kirby y Peterson 2012; Yang, Xiang y Shi  2013; Liu et&nbsp;al. 2013). En los &uacute;ltimos a&ntilde;os  algunos autores han profundizado en la selecci&oacute;n del par&aacute;metro de vecinos m&aacute;s  cercanos obteniendo buenos resultados (Castellanos Dom&iacute;nguez et&nbsp;al. 2011; Karbauskait,  Kurasova y Dzemyda 2015). Sin embargo, LLE es d&eacute;bil  ante las irregularidades de la variedad al ser un m&eacute;todo local, y debido a la  simplicidad de la restricci&oacute;n de covarianza en su soluci&oacute;n es propenso a  redimensiones en la variedad en el proceso de embebido.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si bien la distancia  geod&eacute;sica podr&iacute;a resultar &uacute;til para a&ntilde;adir expresividad a los datos y explorar  mayor informaci&oacute;n en conjuntos de datos complejos; ISOMAP tiene desventajas,  entre ellas, la inestabilidad topol&oacute;gica (Balasubramanian 2010) que provoca que construya  conexiones err&oacute;neas en el grafo de vecindad, lo que podr&iacute;a afectar su desempe&ntilde;o,  la presencia de espacios &quot;vac&iacute;os&quot; en la variedad, o la  susceptibilidad a variedades no convexas. Sin embargo, varios autores han  utilizado este m&eacute;todo o variaciones del mismo debido a la expresividad que  facilita la informaci&oacute;n topol&oacute;gica que proveen las distancias geod&eacute;sicas (Hu, Lu y Xu 2012; Hauberg, Freifeld y Black 2012;  Wang, Yuen y Feng 2012).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El m&eacute;todo de aprendizaje  adaptativo no lineal de m&eacute;tricas de distancia (<em>Non-linear adaptative metric learning</em>; NAML) (Chen et&nbsp;al. 2007) realiza agrupamiento y  aprendizaje de distancias simult&aacute;neamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Primero mapea los datos a un espacio  de mayor dimensi&oacute;n a trav&eacute;s de una funci&oacute;n n&uacute;cleo, y luego aplica una  proyecci&oacute;n lineal para encontrar una variedad de menor dimensi&oacute;n donde se  maximice la separabilidad de los datos, en ese espacio es donde se realiza el  agrupamiento. Este algoritmo ha tenido buenos resultados en comparaci&oacute;n con  otros m&eacute;todos del estado del arte como LLE y LE. Los m&eacute;todos de aprendizaje no  supervisado de distancias en un espacio de n&uacute;cleo compuesto (<em>Unsupervised distance metric learning in  composite kernel space</em>; CKS-EWFC-K, CKS-EWFC-F) (Wang et&nbsp;al. 2016) se combinan en una  plataforma de desarrollo de agrupamiento difuso y aprendizaje de m&eacute;tricas de  distancia. Los algoritmos obtienen la funci&oacute;n de distancia usada para el  c&aacute;lculo de la similitud a trav&eacute;s de un proceso de aprendizaje no supervisado  durante el proceso de agrupamiento del sub-espacio suavizado. Tanto NAML como  los recientes CKS-EWFC-K y CKS-EWFC-F pueden adaptarse a los datos para  aprender funciones de distancia acordes a los conjuntos de datos durante el  proceso de agrupamiento. Sin embargo, a&uacute;n se encuentran en fase de estudio  experimental para el ajuste de los par&aacute;metros y las gu&iacute;as de identificaci&oacute;n de  los mismos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos de aprendizaje no supervisado de m&eacute;tricas de  distancias tienen variados campos de aplicaci&oacute;n (Farenzena et al. 2010; Ma et al. 2012a;  Liu et al. 2012). En (Farenzena  et&nbsp;al. 2010) trabajaron en la acumulaci&oacute;n de rasgos locales  basado en simetr&iacute;a (<em>Symmetry-Driven  Accumulation of Local Features</em>; SDALF) para explotar la propiedad de  simetr&iacute;a en la identificaci&oacute;n de im&aacute;genes de pederastas. En (Ma, Su y Jurie  2012a) desarrollaron un descriptor BiCov que utiliza filtros Gabor y un  descriptor de varianza para manejar los cambios de iluminaci&oacute;n y las  variaciones del fondo en im&aacute;genes y utilizaron un vector de Fisher para  codificar estad&iacute;sticas de alto orden en caracter&iacute;sticas locales. En (Fu 2014), los autores reconstruyeron  una m&eacute;trica sem&aacute;ntica latente a trav&eacute;s de aprendizaje multi-vista para video.  Este m&eacute;todo multi-vista alcanza un balance entre la separaci&oacute;n de los grupos y  la similitud a las m&eacute;tricas originales, utilizando un algoritmo de optimizaci&oacute;n  eficiente. B&aacute;sicamente los autores realizan una combinaci&oacute;n &oacute;ptima de m&uacute;ltiples  m&eacute;tricas, &oacute;ptimo definido por el intercambio entre el margen m&aacute;ximo entre los  grupos obtenidos usando la m&eacute;trica y la similitud entre la m&eacute;trica aprendida y  las m&eacute;tricas originales.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Siguiendo la l&iacute;nea de  reconocimiento facial y visi&oacute;n por computadora, en (Cinbis et&nbsp;al. 2011) realizan aprendizaje no  supervisado de m&eacute;tricas de distancia para el reconocimiento facial en videos de  TV (<em>Unsupervised face metric learning</em>).  La identificaci&oacute;n de rostros es un factor clave en televisi&oacute;n, sobre todo para  programas de acople de subt&iacute;tulos o guiones, una identificaci&oacute;n precisa hace  efectiva la transferencia supervisada de los datos dispersos basados en textos  a otros rostros. En (Cinbis et&nbsp;al. 2011) se aprende una m&eacute;trica de  distancia que obtiene buenos resultados sin necesidad de etiquetar manualmente  los ejemplos, este proceso de aprendizaje se realiza utilizando pares de  rostros que aparecen juntos en un fragmento como ejemplos positivos, y como  ejemplos negativos, pares de rostros de personas diferentes que aparecen juntos  en un fragmento de video. La m&eacute;trica es aprendida sobre los pares seleccionados  utilizando nueve descriptores faciales, y est&aacute; orientada a la aparici&oacute;n de  personajes espec&iacute;ficos en un video.</font></p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El aprendizaje de m&eacute;tricas  de distancia resulta de gran importancia para mejorar los resultados de varios  algoritmos de aprendizaje autom&aacute;tico en la soluci&oacute;n de dis&iacute;miles problemas. Se  ha trabajado intensamente en el desarrollo de m&eacute;todos que realizan el  aprendizaje completamente supervisado de m&eacute;tricas de distancia. Estos m&eacute;todos  requieren un conjunto de entrenamiento donde cada instancia est&eacute; etiquetada. Algunas  veces resulta muy costoso obtener las etiquetas de las instancias, o debido a  la naturaleza del problema, los objetos no tienen etiquetas asignadas, aunque  s&iacute; se cuenta con un conjunto de restricciones que ofrecen informaci&oacute;n adicional  de los datos. En tales casos se han desarrollado m&eacute;todos de aprendizaje parcial  y d&eacute;bilmente supervisado de m&eacute;tricas de distancia. &nbsp;Desafortunadamente, existen problemas para los  cuales solo se cuenta con conjuntos de datos sin etiquetar y no se tiene  informaci&oacute;n adicional. En estos casos es necesario aplicar m&eacute;todos no  supervisados para el aprendizaje de m&eacute;tricas. Estos m&eacute;todos tienen gran  importancia para mejorar la calidad de resultados de t&eacute;cnicas de aprendizaje no  supervisado, por ejemplo, el agrupamiento. Es por ello que en este art&iacute;culo de  revisi&oacute;n se describieron los principales m&eacute;todos de aprendizaje de m&eacute;tricas que  permiten trabajar en tales condiciones, de ah&iacute; que se hizo &eacute;nfasis en los  m&eacute;todos no supervisados para el aprendizaje de m&eacute;tricas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos ISOMAP, LLE, LE, PCA, MDS, ICA, LPP, NPE son considerados  m&eacute;todos para la reducci&oacute;n de la dimensionalidad que realizan un aprendizaje no  supervisado de m&eacute;tricas de distancias utilizando informaci&oacute;n de los propios  datos o de la dimensi&oacute;n donde se encuentran representados. Estos m&eacute;todos logran  embeber datos que originalmente se encuentran en una dimensi&oacute;n en otra  dimensi&oacute;n reducida, al mismo tiempo que se preservan las caracter&iacute;sticas  principales de los datos. De estos m&eacute;todos, uno de los m&aacute;s utilizados es ISOMAP,  ya que busca un sub-espacio que preserve mejor las distancias geod&eacute;sicas entre  dos puntos de datos. El uso de la distancia geod&eacute;sica resulta mucho m&aacute;s  expresivo y captura la distribuci&oacute;n real de los datos. Los m&eacute;todos LLE y LE  tambi&eacute;n han sido ampliamente utilizados porque se enfocan en la preservaci&oacute;n de  las estructuras de las vecindades locales. Tanto ISOMAP como LLE requieren que  se les especifique como par&aacute;metro el n&uacute;mero de vecinos a considerar y solo  pueden aplicarse partiendo de los datos de entrenamiento. Si se desea partir de  cualquier punto de un espacio de representaci&oacute;n reducido, entonces se debe  aplicar LLP, que construye un grafo incorporando informaci&oacute;n de las vecindades  del conjunto de datos y permite partir tanto del conjunto de entrenamiento  original como de un espacio reducido. Adem&aacute;s, LLP, a diferencia de ISOMAP y  LLE, es lineal, por lo cual se sugiere su uso en el trabajo con aplicaciones  reales. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SSO es otro m&eacute;todo relevante  en el aprendizaje de m&eacute;tricas de distancias y que no requiere contar con  informaci&oacute;n adicional de los datos. SSO parte de un grafo que representa los  datos y la similitud entre ellos, e induce una m&eacute;trica global que influye  directamente en la calidad de la matriz de similitud, sin necesidad de  introducir nociones adicionales de m&eacute;tricas de distancia. Se sugiere utilizar  este m&eacute;todo en el aprendizaje de m&eacute;tricas para tributar despu&eacute;s a un mejor  resultado de t&eacute;cnicas de agrupamiento, segmentaci&oacute;n y clasificaci&oacute;n, aunque su  utilidad mayor es en el agrupamiento por no necesitar informaci&oacute;n adicional de  los datos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Indudablemente queda mucho  trabajo por hacer, y esta es un &aacute;rea relativamente joven del aprendizaje de  distancias y aunque se han hecho avances significativos, el objetivo a  perseguir sigue siendo crear m&eacute;todos de aprendizaje de distancias que sean menos  dependientes de informaci&oacute;n adicional y puedan extraer la informaci&oacute;n necesaria  para aprender la m&eacute;trica del conjunto de datos.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ABDI, H. y  WILLIAMS, L.J., Principal component analysis. <em>Wiley Interdisciplinary  Reviews: Computational Statistics</em>, 2010, vol. 2, no. 4, pp. 433-459.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AMORES, J.,  SEBE, N. y RADEVA, P. Boosting the distance estimation: Application to the  K-Nearest Neighbor classifier. <em>Pattern Recognition Letters</em>. 2006., vol.  27, no. 3, p. 201-209.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BALASUBRAMANIAN,  M. The Isomap Algorithm and Topological Stability. <em>Science</em>, 2002, vol. 295, no. 5552, p. 7-7.     </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BELKIN, M.  y NIYOGI, P., Laplacian Eigenmaps and Spectral Techniques for Embedding and  Clustering. En 2001 <em>Advances in Neural  Information Processing Systems (NIPS)</em>, 2001,  p. 585-591.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BELLET, A.,  HABRARD, A. y SEBBAN, M., A Survey on Metric Learning for Feature Vectors and  Structured Data, <em>arXiv 1306.6709</em>, 2013, p. 57.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CASTELLANOS DOM&Iacute;NGUEZ, G., &Aacute;LVAREZ-MESA, A.,  VALENCIA-AGUIRRE, J. y DAZA-SANTACOLOMA, G., Global and  Local Choice of the Number of Nearest Neighbors in Locally Linear Embedding.  2011. <em>Pattern Recognition Letters</em>, vol. 32, no. 16, p. 2171-2177.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CAYTON, L.,  Algorithms for manifold learning. <em>Univ. of California at San Diego Tech. Rep</em>, 2005, p. 1-17.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHEN, J.,  ZHAO, Z., YE, J. y LIU, H., Adaptive Distance Metric Learning for Clustering.  En 2007 <em>IEEE Conference on  Computer Vision and Pattern Recognition</em> (<em>CVPR</em>), IEEE, 2007, p. 1-7.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CINBIS,  R.G., VERBEEK, J., SCHMID, C. y KUNTZMANN, L.J., Unsupervised Metric Learning  for Face Identification in TV Video. En 2011 <em>International Conference on Computer Vision</em>,  IEEE, 2011, p. 1559&ndash;1566. </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CONG, B.N.,  P&Eacute;REZ, J.L.R. y MORELL, C. Aprendizaje supervisado de funciones de distancia:  estado del arte. <em>Revista Cubana de Ciencias Inform&aacute;ticas</em>, 2015, vol. 9,  no. 2, p. 14-28.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DEZA, M.M. y  DEZA, E. <em>Encyclopedia of distances</em>. Springer  Berlin Heidelberg. 2009, p. 1-583.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FARENZENA,  M., BAZZANI, L., PERINA, A., MURINO, V. y CRISTANI, M., Person  re-identification by symmetry-driven accumulation of local features. En 2010 <em>Conference  on Computer Vision and Pattern Recognition (CVPR), IEEE, </em>2010<em>, </em>p. 2360-2367.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FU, Y.,  Multi-view Metric Learning for Multi-view Video Summarization. <em>arXiv1405.6434. </em>2014.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GOLDBERG,  Y., ZAKAI, A., KUSHNIR, D. y RITOV, Y., Manifold Learning: The Price of  Normalization. <em>Journal of Machine  Learning Research</em>, 2008, vol. 9 no. Aug, p. 1909&ndash;1939. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GONZ&Aacute;LEZ-PIEDRA, E. <em>Independent  Component Analysis for Time Series</em>. Tesis Doctoral. Universidad Carlos III  de Madrid, 2011.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HAUBERG,  S., FREIFELD, O. y BLACK, M.J., A geometric take on metric learning. En 2012 <em>Advances  in Neural Information Processing Systems (NIPS)</em>, p. 2024-2032.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HE, X.,  CAI, D., YAN, S. y ZHANG, H.-J., Neighborhood preserving embedding. En <em>Tenth  IEEE International Conference on Computer Vision</em>, 2005, p. 1208-1213.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HE, X. y  NIYOGI, P., Locality Preserving Projections. En 2004 <em>Advances in Neural Information Processing Systems (NIPS),</em> MIT, vol  16, p. 153<em>.    </em> </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HU, Z.-P.,  LU, L. y XU, C.-Q., L1 Norm Sparse Distance Metric Learning for One-class  Classifier [J].<em> Acta Electronica Sinica,</em> 2012, vol. 1, p. 23.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JIANG, J. y  WANG, B., Unsupervised Metric Learning by Self-Smoothing Operator. En <em>2011  International Conference on Computer Vision</em>. IEEE, 2011. p. 794-801.    &nbsp; </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KARBAUSKAIT,  R., KURASOVA, O. y DZEMYDA, G., Selection of the number of neighbors of each  data point for the locally linear embedding algorithm. <em>Information  Technology and Control</em>, 2015, vol. 36, no. 4.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KULIS, B.,  Metric Learning&#8239;: A Survey. <em>Foundations  and Trends in Machine Learning</em>, 2012 vol. 5, no. 4, p. 287&ndash;364. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LANGLOIS,  D., CHARTIER, S. y GOSSELIN, D., An Introduction to Independent Component  Analysis&#8239;: InfoMax and FastICA Algorithms. <em>Tutorials in Quantitative Methods  for Psychology</em>. 2010, vol. 6, no. 1, p. 31-38.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, C.,  GONG, S., LOY, C. y LIN, X., Person re-identification: What features are  important? En 2012 European Conference on Computer Vision (<em>ECCV), </em>Berl&iacute;n<em>, </em>p.  341-401<em>.    </em> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, X.,  TOSUN, D., WEINER, M.W., SCHUFF, N., INITIATIVE, A.D.N. y OTHERS, Locally  linear embedding (LLE) for MRI based Alzheimer&rsquo;s disease classification. <em>NeuroImage</em>,  2013, vol. 83, p. 148-157. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MA, B., SU,  Y. y JURIE, F., Bicov: a novel image representation for person re-identification  and face verification. En <em>British Machine Vision Conference</em>, 2012, p.  11.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MA, B., SU,  Y. y JURIE, F., Local descriptors encoded by fisher vectors for person  re-identification. En <em>European Conference on Computer Vision</em>. Springer  Berlin Heidelberg, 2012. p. 413-422.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NIYOGI, X.,  Locality preserving projections. En<em> Advances in Neural Information Processing Systems (NIPS)</em>.  MIT, 2004. p. 153.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ROWEIS,  S.T., SAUL, L.K. Nonlinear Dimensionality Reduction by Locally Linear  Embedding. <em>Science, 2000, </em>vol. 290,  no. 5500, p. 2323-2326.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAMMUT, C.  y WEBB, G.I. <em>Encyclopedia of machine learning</em>. Springer Science &amp;  Business Media. 2011.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TANG, B.,  SONG, T., LI, F. y DENG, L., Fault diagnosis for a wind turbine transmission system  based on manifold learning and Shannon wavelet support vector machine. <em>Renewable  Energy</em>, 2014, vol. 62, p. 1-9.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TENENBAUM,  J.B., SILVA, V. De y LANGFORD, J.C., A Global Geometric Framework for Nonlinear  Dimensionality Reduction. <em>Science</em>,  2000, vol. 290, no. 5500, p. 2319-2323.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TORGERSON,  W.S., Multidimensional scaling: I. Theory and method. <em>Psychometrika</em>,  1952, vol. 17, no. 4, pp. 401-419.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VAN DER  MAATEN, L.J.P., POSTMA, E.O. y VAN DEN HERIK, H.J., <em>Dimensionality reduction: A  comparative review</em>. Tilburg, Netherlands: Tilburg Centre for Creative  Computing, Tilburg University, Technical Report: 2009-005, 2009.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEGA-HERNANDEZ, M. y VALDES-SOSA, P.A.  EEG Source Imaging With Spatio-Temporal Tomographic Nonnegative Independent  Component Analysis. <em>Human brain mapping</em>, 2009, vol. 30, no 6, p.  1898-1910.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, B.,  JIANG, J., WANG, W., ZHOU, Z. y TU, Z,. Unsupervised Metric Fusion by Cross  Diffusion. En<em> Conference on</em> <em>Computer Vision and Pattern Recognition  (CVPR),</em> IEEE, 2012. p. 2997-3004.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, F. y  SUN, J., Distance Metric Learning in Data Mining (Part II). En <em>SIAM 2012  International Conference on Data Mining</em>, 2012.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, F. y  SUN, J., Survey on distance metric learning and dimensionality reduction in  data mining. <em>Data Mining and Knowledge Discovery</em>, 2015, vol. 29,  no 2, p. 534-564.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, F.,  ZHAO, B. y ZHANG, C., Unsupervised maximum margin projection. En 2011 <em>IEEE Transactions on Neural Networks (TNN)</em>,  2011, vol. 22, no. 9, p. 1446-1456.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, J.,  DENG, Z., CHOI, K., JIANG, Y., LUO, X., CHUNG, F. y WANG, S., Distance metric  learning for soft subspace clustering in composite kernel space. <em>Pattern  Recognition</em>, 2016, vol. 52, p. 113-134.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG, Q.Y.,  YUEN, P.C. y FENG, G.C., Semi-supervised metric learning via topology  representation. En <em>20th European Signal Processing Conference (EUSIPCO)</em>.  IEEE, 2012. p. 639-643.     </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">XING, E.P.,  NG, A.Y., JORDAN, M.I. y RUSSELL, S., Distance Metric Learning with Application  to Clustering with Side-Information. En <em>Advances in Neural Information  Processing Systems (NIPS)</em>, 2002, vol. 15, p. 505-512.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG, B.,  XIANG, M. y SHI, L. Feature reduction using locally linear embedding and  distance metric learning. En <em>Emerging Technologies for Information Systems,  Computing, and Management</em>. Springer New York, 2013. p. 537-544.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG, L. y  JIN, R., Distance metric learning: A comprehensive survey. <em>Department of  Computer Science and Engineering, Michigan State University</em>. 2016, vol 2.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YING, Y.,  Distance Metric Learning with Eigenvalue Optimization. <em>Journal of Machine  Learning Research</em>. 2012, vol. 13, no Jan, p. 1-26.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YING, Y.,  HUANG, K. y CAMPBELL, C., Sparse Metric Learning via Smooth Optimization. En <em>Advances  in Neural Information Processing Systems (NIPS),</em> 2009, p. 2214-2222<em>.     </em></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHANG, L.,  QIAO, L. y CHEN, S., Graph-optimized locality preserving projections. <em>Pattern  Recognition</em>, 2010, vol. 43, no. 6, p. 1993-2002.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHANG, Z. y  WANG, J., MLLE: Modified locally linear embedding using multiple weights. En <em>Advances in Neural Information Processing Systems  (NIPS)</em>. 2006, p. 1593-1600.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZIEGELMEIER,  L., KIRBY, M. y PETERSON, C., Locally Linear Embedding Clustering Algorithm for  Natural Imagery. <em>arXiv:1202.4387. </em>2012<em>.    </em></font><font size="2"><em></em></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 13/06/2016      <br> Aceptado: 28/09/2016 </font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ABDI]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[WILLIAMS]]></surname>
<given-names><![CDATA[L.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Principal component analysis.]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>vol. 2</volume>
<numero>no. 4</numero>
<issue>no. 4</issue>
<page-range>433-459</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AMORES]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SEBE]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[RADEVA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Boosting the distance estimation: Application to the K-Nearest Neighbor classifier]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>vol. 27</volume>
<numero>no. 3</numero>
<issue>no. 3</issue>
<page-range>201-209</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BALASUBRAMANIAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The Isomap Algorithm and Topological Stability]]></article-title>
<source><![CDATA[]]></source>
<year>2002</year>
<volume>vol. 295</volume>
<numero>no. 5552</numero>
<issue>no. 5552</issue>
<page-range>p. 7-7</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BELKIN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[NIYOGI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering.]]></source>
<year>2001</year>
<page-range>585-591.</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BELLET]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HABRARD]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[SEBBAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[A Survey on Metric Learning for Feature Vectors and Structured Data]]></source>
<year>2013</year>
<page-range>p. 57</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CASTELLANOS DOMÍNGUEZ]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[ÁLVAREZ-MESA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[VALENCIA-AGUIRRE]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[DAZA-SANTACOLOMA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Global and Local Choice of the Number of Nearest Neighbors in Locally Linear Embedding]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>vol. 32</volume>
<numero>no. 16</numero>
<issue>no. 16</issue>
<page-range>2171-2177</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAYTON]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Algorithms for manifold learning]]></source>
<year>2005</year>
<page-range>1-17</page-range><publisher-name><![CDATA[Univ. of California at San Diego]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ZHAO]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[YE]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Adaptive Distance Metric Learning for Clustering]]></source>
<year>2007</year>
<page-range>. 1-7</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CINBIS]]></surname>
<given-names><![CDATA[R.G]]></given-names>
</name>
<name>
<surname><![CDATA[VERBEEK]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMID]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[KUNTZMANN]]></surname>
<given-names><![CDATA[L.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Unsupervised Metric Learning for Face Identification in TV Video.]]></source>
<year>2011</year>
<page-range>1559-1566</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CONG]]></surname>
<given-names><![CDATA[B.N]]></given-names>
</name>
<name>
<surname><![CDATA[PÉREZ]]></surname>
<given-names><![CDATA[J.L.R]]></given-names>
</name>
<name>
<surname><![CDATA[MORELL]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Aprendizaje supervisado de funciones de distancia: estado del arte]]></article-title>
<source><![CDATA[]]></source>
<year>2015</year>
<volume>vol. 9</volume>
<numero>no. 2</numero>
<issue>no. 2</issue>
<page-range>p. 14-28.</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DEZA]]></surname>
<given-names><![CDATA[M.M]]></given-names>
</name>
<name>
<surname><![CDATA[DEZA]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Encyclopedia of distances]]></source>
<year>2009</year>
<page-range>1-583</page-range><publisher-name><![CDATA[Springer Berlin Heidelberg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FARENZENA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BAZZANI]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[PERINA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MURINO]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[CRISTANI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Person re-identification by symmetry-driven accumulation of local features.]]></source>
<year>2010</year>
<page-range>. 2360-2367</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Multi-view Metric Learning for Multi-view Video Summarization.]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GOLDBERG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[ZAKAI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[KUSHNIR]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[RITOV]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Manifold Learning: The Price of Normalization]]></article-title>
<source><![CDATA[]]></source>
<year>2008</year>
<volume>vol. 9</volume>
<numero>no. Aug</numero>
<issue>no. Aug</issue>
<page-range>1909-1939</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GONZÁLEZ-PIEDRA]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Independent Component Analysis for Time Series]]></source>
<year>2011</year>
<publisher-name><![CDATA[Universidad Carlos III de Madrid]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HAUBERG]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[FREIFELD]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
<name>
<surname><![CDATA[BLACK]]></surname>
<given-names><![CDATA[M.J]]></given-names>
</name>
</person-group>
<source><![CDATA[A geometric take on metric learning]]></source>
<year>2012</year>
<page-range>2024-2032</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HE]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[CAI]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[YAN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[H.-J]]></given-names>
</name>
</person-group>
<source><![CDATA[Neighborhood preserving embedding.]]></source>
<year>2005</year>
<page-range>1208-1213</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HE]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[NIYOGI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Locality Preserving Projections.]]></source>
<year>2004</year>
<volume>vol 16</volume>
<page-range>p. 153</page-range></nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HU]]></surname>
<given-names><![CDATA[Z.-P]]></given-names>
</name>
<name>
<surname><![CDATA[LU]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[XU]]></surname>
<given-names><![CDATA[C.-Q]]></given-names>
</name>
</person-group>
<source><![CDATA[L1 Norm Sparse Distance Metric Learning for One-class Classifier]]></source>
<year>2012</year>
<volume>vol. 1</volume>
<page-range>p. 23</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Unsupervised Metric Learning by Self-Smoothing Operator]]></source>
<year>2011</year>
<page-range>794-801</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KARBAUSKAIT]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[KURASOVA]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
<name>
<surname><![CDATA[DZEMYDA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Selection of the number of neighbors of each data point for the locally linear embedding algorithm.]]></article-title>
<source><![CDATA[]]></source>
<year>2015</year>
<volume>vol. 36</volume>
<numero>no. 4</numero>
<issue>no. 4</issue>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KULIS]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Metric Learning: A Survey]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>vol. 5</volume>
<numero>no. 4</numero>
<issue>no. 4</issue>
<page-range>p. 287-364</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LANGLOIS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[CHARTIER]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[GOSSELIN]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An Introduction to Independent Component Analysis: InfoMax and FastICA Algorithms]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>vol. 6</volume>
<numero>no. 1</numero>
<issue>no. 1</issue>
<page-range>31-38</page-range></nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[GONG]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[LOY]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[LIN]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<source><![CDATA[Person re-identification: What features are important?]]></source>
<year>2012</year>
<page-range>341-401</page-range><publisher-loc><![CDATA[^eBerlín Berlín]]></publisher-loc>
<publisher-name><![CDATA[European Conference on Computer Vision (ECCV)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[TOSUN]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[WEINER]]></surname>
<given-names><![CDATA[M.W]]></given-names>
</name>
<name>
<surname><![CDATA[SCHUFF]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[INITIATIVE]]></surname>
<given-names><![CDATA[A.D.N]]></given-names>
</name>
</person-group>
<source><![CDATA[Locally linear embedding (LLE) for MRI based Alzheimer&#8217;s disease classification.]]></source>
<year>2013</year>
<volume>vol. 83</volume>
<page-range>148-157</page-range></nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MA]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[SU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[JURIE]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Bicov: a novel image representation for person re-identification and face verification.]]></source>
<year>2012</year>
<page-range>p. 11</page-range></nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MA]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[SU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[JURIE]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Local descriptors encoded by fisher vectors for person re-identification]]></source>
<year>2012</year>
<page-range>. 413-422</page-range><publisher-name><![CDATA[Springer Berlin Heidelberg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NIYOGI]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<source><![CDATA[Locality preserving projections]]></source>
<year>2004</year>
<page-range>p. 153</page-range><publisher-name><![CDATA[MIT]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ROWEIS]]></surname>
<given-names><![CDATA[S.T]]></given-names>
</name>
<name>
<surname><![CDATA[SAUL]]></surname>
<given-names><![CDATA[L.K]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Nonlinear Dimensionality Reduction by Locally Linear Embedding]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>2000</volume><volume>vol. 290</volume>
<numero>no. 5500</numero>
<issue>no. 5500</issue>
<page-range>2323-2326</page-range></nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAMMUT]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[WEBB]]></surname>
<given-names><![CDATA[G.I]]></given-names>
</name>
</person-group>
<source><![CDATA[Encyclopedia of machine learning]]></source>
<year>2011</year>
<publisher-name><![CDATA[Springer Science & Business Media]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TANG]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[SONG]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[DENG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Fault diagnosis for a wind turbine transmission system based on manifold learning and Shannon wavelet support vector machine]]></source>
<year>2014</year>
<volume>vol. 62</volume>
<page-range>p. 1-9</page-range></nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TENENBAUM]]></surname>
<given-names><![CDATA[J.B]]></given-names>
</name>
<name>
<surname><![CDATA[SILVA]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[De y LANGFORD]]></surname>
<given-names><![CDATA[J.C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Global Geometric Framework for Nonlinear Dimensionality Reduction]]></article-title>
<source><![CDATA[]]></source>
<year>2000</year>
<volume>vol. 290</volume>
<numero>no. 5500</numero>
<issue>no. 5500</issue>
<page-range>2319-2323</page-range></nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TORGERSON]]></surname>
<given-names><![CDATA[W.S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multidimensional scaling: I. Theory and method]]></article-title>
<source><![CDATA[]]></source>
<year>1952</year>
<volume>vol. 17</volume>
<numero>no. 4</numero>
<issue>no. 4</issue>
<page-range>401-419</page-range></nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VAN DER MAATEN]]></surname>
<given-names><![CDATA[L.J.P]]></given-names>
</name>
<name>
<surname><![CDATA[POSTMA]]></surname>
<given-names><![CDATA[E.O]]></given-names>
</name>
<name>
<surname><![CDATA[VAN DEN HERIK]]></surname>
<given-names><![CDATA[, H.J]]></given-names>
</name>
</person-group>
<source><![CDATA[Dimensionality reduction: A comparative review.]]></source>
<year>2009</year>
<publisher-name><![CDATA[Tilburg Centre for Creative Computing, Tilburg University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEGA-HERNANDEZ]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[VALDES-SOSA]]></surname>
<given-names><![CDATA[P.A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[EEG Source Imaging With Spatio-Temporal Tomographic Nonnegative Independent Component Analysis.]]></article-title>
<source><![CDATA[]]></source>
<year>2009</year>
<volume>vol. 30</volume>
<numero>no 6</numero>
<issue>no 6</issue>
<page-range>1898-1910</page-range></nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[ZHOU]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[TU]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
</person-group>
<source><![CDATA[Unsupervised Metric Fusion by Cross Diffusion]]></source>
<year>2012</year>
<page-range>2997-3004</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[SUN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance Metric Learning in Data Mining (Part II).]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[SUN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Survey on distance metric learning and dimensionality reduction in data mining.]]></article-title>
<source><![CDATA[]]></source>
<year>2015</year>
<volume>vol. 29</volume>
<numero>no 2</numero>
<issue>no 2</issue>
<page-range>534-564</page-range></nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[ZHAO]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Unsupervised maximum margin projection]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>vol. 22</volume>
<numero>no. 9,</numero>
<issue>no. 9,</issue>
<page-range>1446-1456</page-range></nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[DENG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[CHOI]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[LUO]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[CHUNG]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance metric learning for soft subspace clustering in composite kernel space]]></source>
<year>2016</year>
<volume>vol. 52</volume>
<page-range>113-134</page-range><publisher-name><![CDATA[Pattern Recognition]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[, Q.Y]]></given-names>
</name>
<name>
<surname><![CDATA[YUEN]]></surname>
<given-names><![CDATA[P.C]]></given-names>
</name>
<name>
<surname><![CDATA[FENG]]></surname>
<given-names><![CDATA[G.C]]></given-names>
</name>
</person-group>
<source><![CDATA[Semi-supervised metric learning via topology representation]]></source>
<year>2012</year>
<page-range>639-643</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B42">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[XING]]></surname>
<given-names><![CDATA[E.P]]></given-names>
</name>
<name>
<surname><![CDATA[NG]]></surname>
<given-names><![CDATA[A.Y]]></given-names>
</name>
<name>
<surname><![CDATA[JORDAN]]></surname>
<given-names><![CDATA[M.I]]></given-names>
</name>
<name>
<surname><![CDATA[RUSSELL]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance Metric Learning with Application to Clustering with Side-Information.]]></source>
<year>2002</year>
<volume>vol. 15</volume>
<page-range>505-512</page-range></nlm-citation>
</ref>
<ref id="B43">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[XIANG]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[SHI]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Feature reduction using locally linear embedding and distance metric learning]]></source>
<year>2013</year>
<page-range>537-544</page-range><publisher-name><![CDATA[Springer New York]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B44">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[JIN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance metric learning: A comprehensive survey]]></source>
<year>2016</year>
<volume>vol 2</volume>
<publisher-name><![CDATA[Michigan State University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B45">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YING]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distance Metric Learning with Eigenvalue Optimization]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>vol. 13</volume>
<numero>no Jan</numero>
<issue>no Jan</issue>
<page-range>p. 1-26.</page-range></nlm-citation>
</ref>
<ref id="B46">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YING]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[HUANG]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[CAMPBELL]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Sparse Metric Learning via Smooth Optimization]]></source>
<year>2009</year>
<page-range>2214-2222</page-range></nlm-citation>
</ref>
<ref id="B47">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[QIAO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Graph-optimized locality preserving projections]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>vol. 43</volume>
<numero>no. 6</numero>
<issue>no. 6</issue>
<page-range>1993-2002</page-range></nlm-citation>
</ref>
<ref id="B48">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[MLLE: Modified locally linear embedding using multiple weights]]></source>
<year>2006</year>
<page-range>1593-1600.</page-range></nlm-citation>
</ref>
<ref id="B49">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZIEGELMEIER]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[KIRBY]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[PETERSON]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Locally Linear Embedding Clustering Algorithm for Natural Imagery.]]></source>
<year>2012</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
