<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992015000200002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aprendizaje supervisado de funciones de distancia: estado del arte]]></article-title>
<article-title xml:lang="en"><![CDATA[Supervised distance metric learning: state of the art]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Nguyen Cong]]></surname>
<given-names><![CDATA[Bac]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rivero Pérez]]></surname>
<given-names><![CDATA[Jorge Luis]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Morell]]></surname>
<given-names><![CDATA[Carlos]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Central Marta Abreu de las Villas  ]]></institution>
<addr-line><![CDATA[Santa Clara Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Cienfuegos Carlos Rafael Rodríguez  ]]></institution>
<addr-line><![CDATA[ Cienfuegos]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2015</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2015</year>
</pub-date>
<volume>9</volume>
<numero>2</numero>
<fpage>14</fpage>
<lpage>28</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992015000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992015000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992015000200002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La selección de una función de distancia adecuada es fundamental para los algoritmos de aprendizaje basados en instancias. Tal función de distancia dicta el éxito o el fracaso de dichos algoritmos. Recientemente se ha demostrado que, incluso una simple transformación lineal de las características de entrada, puede conducir a mejoras significativas en la clasificación de los algoritmos como k vecinos más cercanos (k-NN). Una de las principales aplicaciones de estos algoritmos es su hibridación con algoritmos de aprendizaje basados en instancias, aprendiendo así una función de distancia para la aplicación específica y no utilizando una función de distancia general; lo que ha demostrado mejorar los resultados del aprendizaje. El presente artículo presenta una panorámica sobre el aprendizaje de funciones de distancia y su modelado como un problema de optimización. Luego aborda diferentes enfoques de aprendizaje a partir de la disponibilidad de información en forma de restricciones, enfocándose en el supervisado, y bajo este los enfoques globales y locales. Además se describen modelos y estrategias de los algoritmos más representativos de cada enfoque.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The selection of a suitable distance function is fundamental to the instance-based learning algorithms. Such distance function influences the success or failure of these algorithms. Recently it has been shown that even a simple linear transformation of the input attributes can lead to significant improvements in classification algorithms as k-Nearest Neighbour (k-NN). One of the main applications of these algorithms is in the hybridization with instance-based learning algorithms and in that sense learning a distance metric for the application at hand and not using a general distance function; which has been shown to improve the learning results. This article presents an overview of distance metric learning, and it is modeled as an optimization problem. It then discusses different approaches to learning from the availability of information in the form of restrictions, focusing on supervised approach, and under it the global and local ones. Further models and strategies of the most representative algorithms of each approach are described.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[aprendizaje de funciones de distancia]]></kwd>
<kwd lng="es"><![CDATA[clasificación]]></kwd>
<kwd lng="es"><![CDATA[k vecinos más cercanos]]></kwd>
<kwd lng="en"><![CDATA[classification]]></kwd>
<kwd lng="en"><![CDATA[distance metric learning]]></kwd>
<kwd lng="en"><![CDATA[k-Nearest Neighbours]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Aprendizaje  supervisado de funciones de distancia: estado del arte</font></strong></font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">Supervised distance metric  learning: state of the art</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Bac Nguyen Cong<sup>1*</sup>, Jorge Luis Rivero P&eacute;rez<sup>2</sup>, Carlos Morell<sup>1</sup></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Universidad  Central &ldquo;Marta Abreu&rdquo; de las Villas. Carretera Camajuan&iacute;, km 5 &frac12;. Santa Clara,  Villa Clara, Cuba.     <br>   <sup>2 </sup>Universidad  de Cienfuegos &ldquo;Carlos Rafael Rodr&iacute;guez&rdquo;. Carretera a Rodas. Km. 4. Cienfuegos,  Cuba. </font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: <a href="mailto:nguyencongbacbk@gmail.com">nguyencongbacbk@gmail.com</a><a href="mailto:gheisa@uclv.edu.cu"></a></font></span> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La selecci&oacute;n de  una funci&oacute;n de distancia adecuada es fundamental para los algoritmos de  aprendizaje basados en instancias. Tal funci&oacute;n de distancia dicta el &eacute;xito o el  fracaso de dichos algoritmos. Recientemente se ha demostrado que, incluso una  simple transformaci&oacute;n lineal de las caracter&iacute;sticas de entrada, puede conducir  a mejoras significativas en la clasificaci&oacute;n de los algoritmos como k vecinos  m&aacute;s cercanos (k-NN). Una de las  principales aplicaciones de estos algoritmos es su hibridaci&oacute;n con algoritmos  de aprendizaje basados en instancias, aprendiendo as&iacute; una funci&oacute;n de distancia  para la aplicaci&oacute;n espec&iacute;fica y no utilizando una funci&oacute;n de distancia general;  lo que ha demostrado mejorar los resultados del aprendizaje. El presente art&iacute;culo  presenta una panor&aacute;mica sobre el aprendizaje de funciones de distancia y su  modelado como un problema de optimizaci&oacute;n. Luego aborda diferentes enfoques de  aprendizaje a partir de la disponibilidad de informaci&oacute;n en forma de restricciones,  enfoc&aacute;ndose en el supervisado, y bajo este los enfoques globales y locales. Adem&aacute;s  se describen modelos y estrategias de los algoritmos m&aacute;s representativos de  cada enfoque.</font></p>     <p>  <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>aprendizaje de funciones de distancia, clasificaci&oacute;n, k vecinos m&aacute;s  cercanos.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">The  selection of a suitable distance function is fundamental to the instance-based  learning algorithms. Such distance function influences the success or failure  of these algorithms. Recently it has been shown that even a simple linear  transformation of the input attributes can lead to significant improvements in  classification algorithms as k-Nearest Neighbour (k-NN). One of the main  applications of these algorithms is in the hybridization with instance-based&nbsp; learning algorithms and in that sense  learning a distance metric for the application at hand and not using a general  distance function; which has been shown to improve the learning results. This  article presents an overview of distance metric learning, and it is modeled as  an optimization problem. It then discusses different approaches to learning  from the availability of information in the form of restrictions, focusing on  supervised approach, and under it the global and local ones. Further models and  strategies of the most representative algorithms of each approach are  described.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>classification, distance  metric learning, k-Nearest Neighbours.</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los m&eacute;todos cl&aacute;sicos  y m&aacute;s simples para clasificaci&oacute;n basado en instancias es el de los k vecinos  m&aacute;s cercanos, del ingl&eacute;s <em>k-Nearest  Neighbour</em> (k-NN) (<a href="#_ENREF_7" title="Cover, 1967 #1">Cover and Hart, 1967</a>). La regla de k-NN clasifica  cada instancia seg&uacute;n la clase mayoritaria entre los vecinos m&aacute;s cercanos que se  encuentran en el conjunto de entrenamiento utilizando una funci&oacute;n de distancia  o similitud. Por la propia naturaleza de su regla de decisi&oacute;n, la calidad de la  clasificaci&oacute;n del m&eacute;todo depende de la manera en que se calculan las distancias  entre las diferentes instancias. Cuando no hay ning&uacute;n conocimiento previo  disponible, o incluso cuando hay conocimiento previo, la mayor&iacute;a de las  implementaciones de k-NN utilizan la funci&oacute;n de distancia Euclidiana  (suponiendo que las instancias se representan como vectores de entrada). La  selecci&oacute;n de una funci&oacute;n de distancia adecuada es fundamental para un buen  comportamiento de cualquiera de los algoritmos de clasificaci&oacute;n basados en  instancias, tales como k-Means (<a href="#_ENREF_17" title="Hartigan, 1979 #23">Hartigan and Wong, 1979</a>), el prototipo m&aacute;s cercano (<a href="#_ENREF_19" title="Hastie, 2009 #39">Hastie, et al. 2009</a>), y otros. Las funciones de  distancia como la Euclidiana ignoran cualquier regularidad estad&iacute;stica que  existe entre los atributos de las instancias del conjunto de entrenamiento (<a href="#_ENREF_4" title="Bellet, 2013 #2">Bellet, et al. 2013</a>; <a href="#_ENREF_24" title="Kulis, 2012 #3">Kulis, 2012</a>). Se puede adaptar la  funci&oacute;n de distancia en diversos campos como, clasificaci&oacute;n (<a href="#_ENREF_8" title="Davis, 2007 #5">Davis, et al. 2007</a>; <a href="#_ENREF_12" title="Fu, 2014 #17">Fu 2014</a>; <a href="#_ENREF_27" title="Luo, 2015 #45">Luo, et al. 2015</a>; <a href="#_ENREF_38" title="Weinberger, 2009 #4">Weinberger and Saul, 2009</a>), visi&oacute;n por computadora (<a href="#_ENREF_12" title="Fu, 2014 #17">Fu, 2014</a>; <a href="#_ENREF_16" title="Guillaumin, 2009 #41">Guillaumin, et al. 2009</a>; <a href="#_ENREF_20" title="Hirzer, 2012 #42">Hirzer, et al. 2012</a>; <a href="#_ENREF_23" title="Koestinger, 2012 #27">Koestinger, et al. 2012</a>), recuperaci&oacute;n de informaci&oacute;n (<a href="#_ENREF_26" title="Lee, 2008 #46">Lee, et al. 2008</a>; <a href="#_ENREF_30" title="McFee, 2010 #47">McFee and Lanckriet ,2010</a>; <a href="#_ENREF_31" title="Schultz, 2004 #48">Schultz and Joachims, 2004</a>) o bioinform&aacute;tica (<a href="#_ENREF_22" title="Kato, 2010 #43">Kato and Nagano, 2010</a>; <a href="#_ENREF_35" title="Wang, 2012 #44">Wang, et al. 2012a</a>), seg&uacute;n el problema que se  quiere resolver. Por ejemplo, si se quisieran clasificar im&aacute;genes de rostros seg&uacute;n  su edad y seg&uacute;n su g&eacute;nero no ser&iacute;a &oacute;ptimo utilizar la misma funci&oacute;n de  distancia para estos dos problemas, incluso si en ambas tareas, las distancias  se calculan entre el mismo conjunto de caracter&iacute;sticas extra&iacute;das (por ejemplo,  los p&iacute;xeles, histogramas de color) (<a href="#_ENREF_24" title="Kulis, 2012 #3">Kulis, 2012</a>). Motivados por estas cuestiones,  un n&uacute;mero de investigadores han demostrado que se puede mejorar la efectividad  de la clasificaci&oacute;n del algoritmo k-NN mediante el aprendizaje de funciones de  distancia a partir de un conjunto de entrenamiento (<a href="#_ENREF_11" title="Friedman, 1994 #21">Friedman, 1994</a>; <a href="#_ENREF_15" title="Goldberger, 2004 #13">Goldberger, et al. 2004</a>; <a href="#_ENREF_29" title="Martin, 2012 #18">Martin, et al. 2012</a>; <a href="#_ENREF_36" title="Wang, 2012 #22">Wang, et al. 2012b</a>; <a href="#_ENREF_37" title="Weinberger, 2006 #6">Weinberger, et al. 2006</a>; <a href="#_ENREF_38" title="Weinberger, 2009 #4">Weinberger, and Saul 2009</a>; <a href="#_ENREF_39" title="Xing, 2003 #20">Xing, et al. 2003</a>; <a href="#_ENREF_42" title="Zhang, 2003 #19">Zhang, et al. 2003</a>). Estos m&eacute;todos funcionan mediante la explotaci&oacute;n de informaci&oacute;n sobre  las distancias entre las instancias que est&aacute; intr&iacute;nsecamente disponibles en las  instancias de entrenamiento. Por ejemplo, en el problema de recuperaci&oacute;n de  informaci&oacute;n, restricciones del tipo &ldquo;el documento <em>q</em> &nbsp;es m&aacute;s similar al  documento <em>a</em> &nbsp;que al documento <em>p</em>&rdquo; pueden ser escogidas mediante retroalimentaci&oacute;n a partir  del comportamiento del usuario. Estas restricciones contienen informaci&oacute;n  importante para adaptar la funci&oacute;n de distancia. En los casos supervisados, las  restricciones se pueden inferir a partir de las instancias de entrenamiento partiendo  del principio de que &ldquo;la distancia entre instancias de la misma clase debe ser  m&aacute;s peque&ntilde;a que la distancia entre instancias de clases diferentes&rdquo;.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo, se abordan  los aspectos generales del aprendizaje de funciones de distancia (en ingl&eacute;s <em>Distance Metric Learning</em>), espec&iacute;ficamente  el enfoque supervisado de aprendizaje, as&iacute; como una revisi&oacute;n de algunos de los  algoritmos m&aacute;s representativos para evaluar su aplicabilidad a problemas de  clasificaci&oacute;n basados en instancias. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">DESARRO</font></strong></font><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">LLO</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esencia, el objetivo del aprendizaje supervisado de  funciones de distancia es aprender una funci&oacute;n (m&eacute;trica) de distancia,  generalmente la distancia de Mahalanobis <img src="/img/revistas/rcci/v9n2/fo0102215.jpg" width="229" height="33">, entre dos instancias<img src="/img/revistas/rcci/v9n2/fo0202215.png" width="65" height="25"> , y sus clases correspondientes <img src="/img/revistas/rcci/v9n2/fo0302215.png" width="67" height="25">&nbsp;para una aplicaci&oacute;n  espec&iacute;fica, usando para ello informaci&oacute;n del conjunto de entrenamiento. Para  esto la mayor&iacute;a de los algoritmos que aprenden una funci&oacute;n de distancia tratan  de resolver un problema de optimizaci&oacute;n con restricciones, cuyo modelo tiene la  forma siguiente (<a href="#_ENREF_4" title="Bellet, 2013 #2">Bellet, Habrard and Sebban 2013</a>):</font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v9n2/fo0402215.png" width="257" height="45">,</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  donde <em>R</em> &nbsp;es un regularizador  sobre el par&aacute;metro <em>M</em>, la funci&oacute;n<em> l<sub>i</sub>(M, R<sub>i</sub>)</em> es la funci&oacute;n costo  que penaliza la violaci&oacute;n de las restricciones R<em><sub>i</sub></em> &nbsp;y <img src="/img/revistas/rcci/v9n2/fo0502215.png" width="15" height="19">&nbsp;es el par&aacute;metro de  regularizaci&oacute;n. Mientras que las formulaciones son diferentes para cada modelo,  las restricciones son uno de los dos tipos siguientes:</font></p> <ul type="disc">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Restricciones por pares:</font></li>     ]]></body>
<body><![CDATA[</ul>     <blockquote>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">S = {(<em>X<sub>i</sub></em>, <em>X<sub>j</sub></em>): <em>x<sub>i</sub></em> y <em>x<sub>j</sub></em> deben ser similares} </font></p>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">D = {(<em>X<sub>i</sub></em>, <em>X<sub>j</sub></em>): <em>x<sub>i</sub></em> y <em>x<sub>j</sub></em> deben ser disimilares} </font></p> </blockquote> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&nbsp;Restricciones relativas:</font></li>     </ul>     <blockquote>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">T = {(<em>X<sub>i</sub></em>, <em>X<sub>j</sub></em>, <em>X<sub>k</sub></em>): <em>x<sub>i</sub></em> debe estar m&aacute;s cercano al x<em><sub>j que a </sub></em>x<em><sub>k</sub></em>} </font></p> </blockquote>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se trata de encontrar la matriz <em>M</em> que sea sim&eacute;trica semidefinida positiva para garantizar que D<em><sub>M </sub>(x<sub>i</sub></em> y <em>x<sub>j</sub></em>)&nbsp;sea una m&eacute;trica v&aacute;lida.  Luego la matriz <em>M</em> &nbsp;resultante se puede  utilizar para mejorar el rendimiento de los algoritmos basados en instancias.  Es necesario acotar que la distancia de Mahalanobis se puede considerar como  una generalizaci&oacute;n de la distancia Euclidiana (ver<a href="/img/revistas/rcci/v9n2/f0102215.jpg" target="_blank"> figura 1</a>). En particular,  las distancias Euclidianas se recuperan haciendo que <em>M</em> &nbsp;sea igual a la matriz  identidad.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la bibliograf&iacute;a suelen  utilizarse los t&eacute;rminos funci&oacute;n, m&eacute;trica y seudom&eacute;trica, de ah&iacute; que a  continuaci&oacute;n se presentan algunos t&eacute;rminos b&aacute;sicos y propiedades las cuales, de  cumplirse, definen al t&eacute;rmino en cuesti&oacute;n. </font></p>     ]]></body>
<body><![CDATA[<p><strong><u><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n  1 (M&eacute;trica)</font></u></strong> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>La aplicaci&oacute;n <img src="/img/revistas/rcci/v9n2/fo0602215.png" width="107" height="21">&nbsp;sobre un espacio X &nbsp;se denomina una  m&eacute;trica si <img src="/img/revistas/rcci/v9n2/fo0702215.png" width="96" height="25">&nbsp;se satisfacen las  propiedades (<a href="#_ENREF_4" title="Bellet, 2013 #2">Bellet, Habrard and Sebban, 2013</a>):</em></font></p> <ol start="1" type="1">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em><img src="/img/revistas/rcci/v9n2/fo0802215.png" width="212" height="25">&nbsp;(desigualdad       triangular).</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em><img src="/img/revistas/rcci/v9n2/fo0902215.png" width="88" height="25">&nbsp;(no negatividad).</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em><img src="/img/revistas/rcci/v9n2/fo1002215.png" width="140" height="25">&nbsp;(simetr&iacute;a).</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em><img src="/img/revistas/rcci/v9n2/fo1102215.png" width="160" height="25">&nbsp;(distinguibilidad).</em></font></li>     </ol>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En un sentido estricto, una funci&oacute;n que satisface las tres primeras  propiedades pero no la cuarta, se denomina <em>seudom&eacute;trica</em>.  Visto esto se puede obtener una familia de m&eacute;tricas sobre el espacio <em>X</em> &nbsp;calculando la  distancia Euclidiana despu&eacute;s de aplicar una transformaci&oacute;n lineal <em>L</em>&nbsp;sobre las instancias  de entrada x&acute; <em>= Lx</em>. Esta m&eacute;trica calcula la distancia cuadrada sobre los datos  transformados por <em>L</em> &nbsp;(<a href="#_ENREF_4" title="Bellet, 2013 #2">Bellet, Habrard and Sebban, 2013</a>; <a href="#_ENREF_24" title="Kulis, 2012 #3">Kulis, 2012</a>):</font></p>     <p align="right"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v9n2/fo1202215.png" width="258" height="24"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La transformaci&oacute;n lineal en la ecuaci&oacute;n est&aacute;  parametrizada por la matriz <em>L</em>. Est&aacute; demostrado que la ecuaci&oacute;n (1) define una m&eacute;trica  v&aacute;lida si <em>L</em> &nbsp;es una matriz de rango  completo. La distancia cuadrada se puede expresar en el t&eacute;rmino de la matriz <em>M=L<sup>T</sup>L</em>. Cualquier matriz <em>M</em> &nbsp;formada por esta v&iacute;a,  se garantiza que es semidefinida positiva, es decir, no tiene valores propios  negativos. Entonces, la distancia pudiera calcularse de la siguiente manera:</font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v9n2/fo1302215.png" width="324" height="114"></font></p>     ]]></body>
<body><![CDATA[<p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Coincidiendo con la distancia de Mahalanobis:</font></p>     <p align="right"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v9n2/fo1402215.png" width="328" height="26"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Originalmente, este t&eacute;rmino era utilizado para  describir las formas cuadr&aacute;ticas en distribuciones gaussianas (<a href="#_ENREF_28" title="Mahalanobis, 1936 #49">Mahalanobis, 1936</a>), donde la matriz <em>M</em>&nbsp;desempe&ntilde;&oacute; el papel de  la matriz de covarianza inversa. Aqu&iacute; se usa <img src="/img/revistas/rcci/v9n2/fo1502215.png" width="52" height="25">, donde <img src="/img/revistas/rcci/v9n2/fo1602215.png" width="21" height="25">&nbsp;es el cono de las  matrices sim&eacute;tricas semidefinidas positivas <em>d x d </em>&nbsp;de valores reales (ver  la <a href="#f02">figura 2</a>). Entonces, la distancia de Mahalanobis se puede parametrizar en  funci&oacute;n de la matriz <em>L</em> &nbsp;o de la matriz <em>M</em> &nbsp;&nbsp;aumentando as&iacute; las posibilidades de modelaci&oacute;n.  Se debe tener en cuenta que la matriz <em>L</em>&nbsp;define de forma &uacute;nica  a la matriz <em>M</em>, mientras que la matriz <em>M</em> define <em>L</em>&nbsp;hasta la rotaci&oacute;n, es  decir, que no afecta el c&aacute;lculo de las distancias. Esta equivalencia sugiere  dos enfoques diferentes de aprendizaje de funciones de distancia. En  particular, se puede estimar una transformaci&oacute;n lineal <em>L</em> &nbsp;o estimar una matriz  positiva semidefinida <em>M</em>. N&oacute;tese que en el primer enfoque, la optimizaci&oacute;n es sin  restricciones, mientras que en el segundo enfoque, es importante para hacer  cumplir la restricci&oacute;n de que la matriz <em>M</em>&nbsp;sea semidefinida  positiva. Por lo general es m&aacute;s complicado resolver un problema de optimizaci&oacute;n  con muchas restricciones, sin embargo, este segundo enfoque tiene ciertas  ventajas que se exploran en las secciones posteriores. Muchos investigadores  han propuesto formas de estimar la distancia de Mahalanobis con el prop&oacute;sito de  calcular distancias en la clasificaci&oacute;n k-NN (<a href="#_ENREF_1" title="Bar-Hillel, 2003 #24">Bar-Hillel, et al. 2003</a>; <a href="#_ENREF_6" title="Chen, 2010 #25">Chen and Sun, 2010</a>; <a href="#_ENREF_18" title="Hastie, 1996 #8">Hastie and Tibshirani, 1996</a>; <a href="#_ENREF_32" title="Semerci, 2013 #26">Semerci and Alpayd&#305;n, 2013</a>; <a href="#_ENREF_37" title="Weinberger, 2006 #6">Weinberger, Blitzer and Saul, 2006</a>; <a href="#_ENREF_38" title="Weinberger, 2009 #4">Weinberger and Saul, 2009</a>). Para la clasificaci&oacute;n k-NN, se  busca una transformaci&oacute;n lineal tal que los vecinos m&aacute;s cercanos calculados a  partir de las distancias en la ecuaci&oacute;n (2) compartan las mismas etiquetas de  clase.</font></p>     <p align="center"><a name="f02"></a><img src="/img/revistas/rcci/v9n2/f0202215.jpg" width="385" height="352"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen varias categorizaciones  para los algoritmos que aprenden una funci&oacute;n de distancia (<a href="#_ENREF_4" title="Bellet, 2013 #2">Bellet, Habrard and Sebban, 2013</a>) pero, dependiendo de la  disponibilidad de las instancias de entrenamiento, los algoritmos para el  aprendizaje de funciones de distancia se pueden dividir en dos categor&iacute;as:  aprendizaje supervisado de funciones de distancia (en ingl&eacute;s <em>supervised distance metric learning</em>) y  aprendizaje no supervisado de funciones de distancia (en ingl&eacute;s <em>unsupervised distance metric learning</em>). Este  art&iacute;culo se centra en la categor&iacute;a de aprendizaje supervisado. A diferencia de  la mayor&iacute;a de los algoritmos de aprendizaje supervisado donde las instancias de  entrenamiento son etiquetadas a partir de sus clases, en los algoritmos  supervisados de aprendizaje de funciones de distancia, las instancias de  entrenamiento se convierten en restricciones por parejas: restricciones de  equivalencia, son los pares de instancias que pertenecen a las mismas clases, o  sea los que conforman el conjunto <em>S</em>&nbsp;definido anteriormente  y restricciones no equivalentes que son los pares de instancias que pertenecen  a diferentes clases, definidos en el conjunto <em>D</em>. Otra dimensi&oacute;n que sirve para caracterizar el aprendizaje  supervisado de funciones de distancia es el alcance de las restricciones. Si  las restricciones se forman en la vecindad de cada ejemplo de aprendizaje  entonces se denomina local, en otro caso se denomina global. A continuaci&oacute;n, en  las siguientes secciones, se detallan algunos aspectos del aprendizaje supervisado  de funciones de distancia tanto global como local.</font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">RESULTADOS Y DISCUSI&Oacute;N </font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Aprendizaje supervisado global de funciones de  distancia.</strong>    <br>       <br>   Los algoritmos bajo esta  categor&iacute;a aprenden una funci&oacute;n de distancia que garantiza la cercan&iacute;a de todas  las instancias de datos de la misma clase y que separa todas las instancias de  datos de diferentes clases (<a href="#_ENREF_2" title="Bar-Hillel, 2005 #32">Bar-Hillel, et al. 2005</a>; <a href="#_ENREF_8" title="Davis, 2007 #5">Davis, Kulis, Sra and Dhillon, 2007</a>; <a href="#_ENREF_10" title="Fisher, 1936 #29">Fisher, 1936</a>; <a href="#_ENREF_14" title="Globerson, 2005 #28">Globerson and Roweis, 2005</a>; <a href="#_ENREF_21" title="Jolliffe, 2005 #30">Jolliffe, 2005</a>; <a href="#_ENREF_23" title="Koestinger, 2012 #27">Koestinger, Hirzer, Wohlhart, Roth and Bischof, 2012</a>; <a href="#_ENREF_33" title="Shental, 2002 #31">Shental, et al. 2002</a>; <a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan and Russell, 2003</a>). El m&eacute;todo m&aacute;s representativo de esta categor&iacute;a es  el propuesto por (<a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan and Russell, 2003</a>), que formula el aprendizaje  de funciones de distancia como un problema de programaci&oacute;n convexa restringida  (en ingl&eacute;s <em>constrained convex programming</em>).  Este m&eacute;todo aprende una funci&oacute;n de distancia globalmente que minimiza la  distancia entre los pares que forman las restricciones de equivalencia sujetos  a la restricci&oacute;n de que los pares no equivalentes est&aacute;n bien separados. A  continuaci&oacute;n se abordan especificidades de las restricciones por pares. Luego,  se hace un estudio de los modelos de aprendizaje supervisado global de funciones  de distancia propuestos en (<a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan and Russell, 2003</a>) y (<a href="#_ENREF_8" title="Davis, 2007 #5">Davis, Kulis, Sra and Dhillon, 2007</a>). Por &uacute;ltimo, se presentar&aacute;  un modelo probabil&iacute;stico de aprendizaje de funciones de distancia.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Restricciones  por pares</strong>    <br>       <br>   Como se ha abordado  anteriormente, y a diferencia del aprendizaje supervisado t&iacute;pico donde cada instancia  de entrenamiento se anota con su etiqueta de clase, la informaci&oacute;n de la clase  en el aprendizaje de funciones de distancia se especifica generalmente en forma  de restricciones por pares: (1) las restricciones de equivalencia, que  establecen que los elementos de un par determinado son similares y deben estar  cerca en el espacio m&eacute;trico inducido por la funci&oacute;n de distancia aprendida, y  (2) las restricciones no equivalentes, que indican que dos instancias  determinadas son diferentes y por tanto no deben estar cercanos en tal espacio.  La mayor parte de los algoritmos de aprendizaje tratan de encontrar una funci&oacute;n  de distancia que mantiene juntos a todos los pares que forman parte de las  restricciones de equivalencia, mientras que separa las instancias que forman  parte de las restricciones no equivalentes. En (<a href="#_ENREF_9" title="Domeniconi, 2001 #11">Domeniconi and Gunopulos, 2001</a>), proponen un algoritmo que ajusta  los pesos de los rasgos adaptativamente para cada instancia de prueba, reflejando  as&iacute; la importancia de las caracter&iacute;sticas en la determinaci&oacute;n de la etiqueta de  la clase de las instancias de prueba. En (<a href="#_ENREF_11" title="Friedman, 1994 #21">Friedman, 1994</a>), la funci&oacute;n de distancia  tambi&eacute;n se modifica en dependencia de la regi&oacute;n donde se localiza la instancia  a clasificar. En (<a href="#_ENREF_1" title="Bar-Hillel, 2003 #24">Bar-Hillel, Hertz, Shental and  Weinshall, 2003</a>; <a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan  and Russell, 2003</a>), la funci&oacute;n de distancia es  expl&iacute;citamente aprendida para reducir al m&iacute;nimo la distancia entre instancias  de datos dentro de las restricciones equivalentes y maximizar la distancia  entre instancias de datos en las restricciones no equivalentes.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Aprendizaje supervisado global de funciones de  distancia por programaci&oacute;n convexa</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       <br> Por lo general, y dadas las  restricciones de equivalencia en<em> S</em> y las de no  equivalencia en <em>D</em>&nbsp;esta categor&iacute;a conduce  a problemas de programaci&oacute;n convexa, como en &nbsp;(<a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan and Russell, 2003</a>):     <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo1702215.png" width="315" height="85">&nbsp;    <br> Debe tenerse en cuenta que  la restricci&oacute;n como un problema semidefinido positivo <img src="/img/revistas/rcci/v9n2/fo1802215.png" width="47" height="20">&nbsp;es necesaria para  garantizar las propiedades de no negatividad y de desigualdad triangular entre  dos instancias de datos. Aunque el problema cae en la categor&iacute;a de programaci&oacute;n  convexa, no puede ser resuelto de manera eficiente debido a que no puede ser  modelado como un problema de programaci&oacute;n cuadr&aacute;tica ni programaci&oacute;n  semidefinida. En primer lugar, no cae en ninguna clase especial de programaci&oacute;n  de convexa, tales como la programaci&oacute;n cuadr&aacute;tica (<a href="#_ENREF_13" title="Gill, 1981 #33">Gill, et al. 1981</a>) y la programaci&oacute;n semidefinida  (<a href="#_ENREF_34" title="Vandenberghe, 1996 #34">Vandenberghe and  Boyd, 1996</a>). Como resultado, s&oacute;lo puede ser resuelto por el  enfoque gen&eacute;rico, que es incapaz para tomar ventaja de las caracter&iacute;sticas  especiales del problema. En segundo lugar, como se se&ntilde;al&oacute; en (<a href="#_ENREF_42" title="Zhang, 2003 #19">Zhang, Kwok and Yeung, 2003</a>), el n&uacute;mero de par&aacute;metros es  casi cuadr&aacute;tico con respecto al n&uacute;mero de rasgos. Esta propiedad es dif&iacute;cil de  escalar a un gran n&uacute;mero de rasgos. Otra desventaja es que es incapaz de estimar  la probabilidad de que cualquiera de las instancias de datos comparta la misma  clase (<a href="#_ENREF_3" title="Bellet, 2012 #35">Bellet and Habrard, 2012</a>). A continuaci&oacute;n se describe  un algoritmo representativo de este enfoque.</font></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="2">Information Theoretic Metric Learning (ITML)</font></strong><font size="2">    <br>       ]]></body>
<body><![CDATA[<br>   En (<a href="#_ENREF_8" title="Davis, 2007 #5">Davis, Kulis, Sra and Dhillon, 2007</a>) adoptaron un enfoque de  teor&iacute;a de la informaci&oacute;n para optimizar la matriz <em>M</em>&nbsp;bajo una amplia gama  de posibles restricciones y el conocimiento previo de la distancia de  Mahalanobis. Esto se realiza mediante la regularizaci&oacute;n de la matriz <em>M</em> tal que sea lo m&aacute;s  cercana posible de una matriz <em>M<sub>0</sub></em> conocida previamente. Esta cercan&iacute;a se interpreta como una  divergencia Kullback-Leibler (KL) entre las dos matrices gaussianas  correspondientes a </font><font face="Verdana, Arial, Helvetica, sans-serif"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em>M</em></font></font></font><font size="2">&nbsp;y </font><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em>M<sub>0</sub></em></font></font><font size="2">&nbsp;respectivamente.  T&iacute;picamente, las otras restricciones son de la forma <img src="/img/revistas/rcci/v9n2/fo1902215.png" width="99" height="25">&nbsp;para los pares positivos  y <img src="/img/revistas/rcci/v9n2/fo2002215.png" width="95" height="25">&nbsp;para los pares  negativos. El equilibrio entre la satisfacci&oacute;n de las restricciones y la  regularizaci&oacute;n se controla en la funci&oacute;n objetivo utilizando un par&aacute;metro adicional <em>Y</em>. Los par&aacute;metros </font><font face="Verdana, Arial, Helvetica, sans-serif"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em>M<sub>0</sub></em></font></font></font><font size="2">, restricci&oacute;n superior <em>u</em>, restricci&oacute;n inferior <em>l</em> tienen que ser  proporcionados:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2102215.png" width="335" height="44">    <br> La distancia <em>KL</em> proporciona una medida  fundada de cercan&iacute;a entre dos funciones de distancia de Mahalanobis y  constituye la base probl&eacute;mica del modelo. Teniendo en cuenta las parejas de instancias  similares<em> S&nbsp;</em>y parejas de diferentes  clases<em> D</em>, el problema de aprendizaje de funciones de distancia  resulta en:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2202215.png" width="277" height="88"></font></font>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se demostr&oacute; en (<a href="#_ENREF_8" title="Davis, 2007 #5">Davis, Kulis, Sra and Dhillon, 2007</a>) que la funci&oacute;n objetivo se puede expresar  como un tipo particular de la funci&oacute;n Divergencia Bregman, que se permite  adaptar al m&eacute;todo de Bregman (<a href="#_ENREF_5" title="Censor, 1997 #36">Censor, 1997</a>) para resolver el aprendizaje de funciones  de distancia. Tambi&eacute;n, se muestra una similitud con un problema propuesto del  tipo <em>low-rank kernel learning (<a href="#_ENREF_25" title="Kulis, 2006 #42">Kulis, et al. 2006</a>)</em>, lo que permite la kernelizaci&oacute;n del algoritmo.</font>    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2302215.png" width="371" height="61">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde las matrices <em>M</em> y<em> M<sub>0 </sub></em>son de tama&ntilde;o <em>d x d </em>&nbsp;y:</font></p>     <p align="center"> <img src="/img/revistas/rcci/v9n2/fo2402215.png" width="291" height="25" align="middle">&nbsp;    <br>       <br></font></p>     ]]></body>
<body><![CDATA[<div align="left">Se puede aprovechar la equivalencia para expresar el  problema de aprendizaje de distancia de la siguiente manera:   &nbsp;&nbsp;&nbsp;&nbsp;    <br> &nbsp;&nbsp;&nbsp;    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2502215.png" width="351" align="center" height="85">    <br>     <br> La optimizaci&oacute;n se basa en la proyecci&oacute;n Bregman, que  proyecta la soluci&oacute;n actual en una &uacute;nica restricci&oacute;n a trav&eacute;s de la regla de  actualizaci&oacute;n:    <br>       <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2602215.png" width="149" height="25">&nbsp;    <br> Una limitaci&oacute;n de ITML es que la selecci&oacute;n de la matriz <em>M<sub>0</sub></em>&nbsp;puede tener una influencia importante en la calidad de  la funci&oacute;n de distancia <em>M</em>.</font>   </p> </div>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Enfoque  probabil&iacute;stico para aprendizaje de funciones de distancia global</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       ]]></body>
<body><![CDATA[<br> Dada la complejidad de c&aacute;lculo del problema de  optimizaci&oacute;n originalmente descrito en (<a href="#_ENREF_39" title="Xing, 2003 #20">Xing, Ng, Jordan and Russell, 2003</a>; <a href="#_ENREF_41" title="Ying, 2012 #38">Ying and Li, 2012</a>), para simplificar el c&aacute;lculo, un m&eacute;todo  probabil&iacute;stico de aprendizaje de funciones de distancia global puede ser  establecido sobre la base de la f&oacute;rmula. Siguiendo la idea de (<a href="#_ENREF_11" title="Friedman, 1994 #21">Friedman, 1994</a>), se asume un modelo de regresi&oacute;n log&iacute;stica  en la estimaci&oacute;n de la probabilidad de que cualquiera de las dos instancias de  datos </font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>x<sub>i</sub> y x<sub>j</sub></em></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;compartan la misma  clase, es decir:</font></font></p>     <p align="center"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2702215.png" width="296" height="107">&nbsp;    <br> </font></font></p>     <p align="left"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">El par&aacute;metro <em>u</em> &nbsp;representa el umbral y  dos puntos de datos&nbsp;</font><font size="2"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>x<sub>i</sub> y x<sub>j</sub></em></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;tendr&aacute;n la misma  etiqueta de clase s&oacute;lo cuando su distancia <img src="/img/revistas/rcci/v9n2/fo2802215.png" width="65" height="33">&nbsp;sea menor que el  umbral <font size="2"><em>u</em></font></font><font face="Verdana, Arial, Helvetica, sans-serif">. Entonces el logaritmo total de verosimilitud tanto de las  restricciones equivalentes <em>S</em>&nbsp;como de las  restricciones no equivalentes <em>D</em>&nbsp;se expresa como:    <br>   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo2902215.png" width="217" height="25">    <br>   Usando la estimaci&oacute;n  de m&aacute;xima verosimilitud, se puede plantear el problema de aprendizaje de funciones  de distancia en el siguiente problema de optimizaci&oacute;n: </font></font></p>     <p align="right"><img src="/img/revistas/rcci/v9n2/fo3002215.png" width="504" height="60"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La dificultad con la soluci&oacute;n de la f&oacute;rmula (3) se  encuentra en la restricci&oacute;n <img src="/img/revistas/rcci/v9n2/fo1802215.png" width="47" height="20">&nbsp;semidefinida positiva.  Para simplificar los c&aacute;lculos, se modela la matriz <em>M</em>, utilizando el espacio propio de instancias. Sea&nbsp;T = (x<sub>1</sub>, x<sub>2</sub>,...,x<sub>n</sub>)&nbsp;el conjunto de  vectores que incluye todas las instancias de conjuntos de entrenamiento usadas  por las restricciones en <em>S</em>&nbsp;y <em>D</em>; luego, sea <img src="/img/revistas/rcci/v9n2/fo3102215.png" width="109" height="41">&nbsp;&nbsp;los pares de la correlaci&oacute;n entre dos rasgos  cualesquiera y sean <img src="/img/revistas/rcci/v9n2/fo3202215.png" width="43" height="25">&nbsp;los mejores K (<img src="/img/revistas/rcci/v9n2/fo3302215.png" width="44" height="19">) vectores propios de la matriz <em>M</em>, siendo <em>M</em> &nbsp;una combinaci&oacute;n lineal  de los K vectores propios: </font></p>     <p align="right"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v9n2/fo3402215.png" width="538" height="51"></font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde (<em>Y<sub>1</sub>,...Y<sub>K</sub></em>) son los pesos no  negativos para la combinaci&oacute;n lineal, entonces usando la forma param&eacute;trica (4),  la ecuaci&oacute;n (3) se escribe como:</font></p>     ]]></body>
<body><![CDATA[<p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">    <br>   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo3502215.png" width="439" height="147">&nbsp;    <br>   </font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El problema de optimizaci&oacute;n anteriormente descrito es  un problema de programaci&oacute;n convexa que puede ser resuelto aplicando el m&eacute;todo  de Newton. Adem&aacute;s, el m&eacute;todo anterior permite el aprendizaje no supervisado.  Esto es debido que la matriz <em>M</em> &nbsp;puede ser construida  utilizando tanto los datos etiquetados como los no etiquetados.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Aprendizaje supervisado local de funciones de  distancia</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       <br> Seg&uacute;n (<a href="#_ENREF_18" title="Hastie, 1996 #8">Hastie and Tibshirani, 1996</a>) y (<a href="#_ENREF_11" title="Friedman, 1994 #21">Friedman, 1994</a>), el m&eacute;todo k-NN depende de que las  probabilidades condicionales de la clase del vecino m&aacute;s cercano local sean  constantes. Este supuesto podr&aacute; atenuarse si se asume que la probabilidad  condicional en la vecindad de instancias de prueba es suave o una funci&oacute;n de  cambio lento. Sin embargo, este supuesto no es necesariamente cierto, ya que por  ejemplo, para el &aacute;rea cerca de la frontera de decisi&oacute;n entre las dos clases, se  espera que las etiquetas de clase cambien dr&aacute;sticamente. En otras palabras, el  objetivo de la adaptaci&oacute;n de aprendizaje es obtener una vecindad de una instancia  de prueba dado con una alta consistencia en la asignaci&oacute;n de etiquetas de  clase. Adem&aacute;s de los algoritmos para el aprendizaje de funciones de distancia,  varios art&iacute;culos (<a href="#_ENREF_9" title="Domeniconi, 2001 #11">Domeniconi and Gunopulos, 2001</a>; <a href="#_ENREF_11" title="Friedman, 1994 #21">Friedman, 1994</a>; <a href="#_ENREF_42" title="Zhang, 2003 #19">Zhang, Kwok and Yeung, 2003</a>) presentan enfoques para aprender las funciones  durante la etapa de clasificaci&oacute;n. Este enfoque permite mejorar los resultados  del algoritmo k-NN. En espec&iacute;fico, estos enfoques modifican los pesos de rasgos  basados en las instancias de prueba. Estos enfoques se conocen como algoritmos  de aprendizaje adaptables. A continuaci&oacute;n se presentan algunos algoritmos  representativos de este enfoque (<a href="#_ENREF_40" title="Yang, 2006 #50">Yang and Jin, 2006</a>).</font></font></p>     <p align="left"><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Local Linear  Discriminative Analysis</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>   Este clasificador hace una  transformaci&oacute;n lineal del espacio de representaci&oacute;n de los atributos y para  ello encuentra los vectores propios de la matriz <img src="/img/revistas/rcci/v9n2/fo3602215.png" width="64" height="25">&nbsp;. Aqu&iacute; <em>S<sub>W</sub></em>&nbsp;denota la covarianza  entre las clases, y <font size="2"><em>S<sub>b</sub></em></font>&nbsp;denota la covarianza  inter-clase. La matriz <img src="/img/revistas/rcci/v9n2/fo3702215.png" width="24" height="25">&nbsp;captura &nbsp;la densidad de cada clase, y la matriz <font size="2"><font size="2"><em>S<sub>b</sub></em></font></font>&nbsp;representa la  separaci&oacute;n de la clase. As&iacute;, los vectores propios principales de <em>T</em>&nbsp;mantendr&aacute;n las  instancias de datos de la misma clase cerca y las instancias de datos de  diferentes clases separados. Luego se forma una matriz de transformaci&oacute;n <font size="2"><font size="2"><em>S<sub>T</sub></em></font></font>&nbsp;apilando los vectores  propios de <em>T</em>&nbsp;junto a los rasgos  discriminatorios <em>y</em> &nbsp;se calcula como <em>Y= <font size="2">S<sub>W</sub></font></em></font><em><font face="Verdana, Arial, Helvetica, sans-serif">X</font></em><font face="Verdana, Arial, Helvetica, sans-serif">, donde <em>X</em>&nbsp;es la entrada de instancias de prueba.    <br>   Basado en el m&eacute;todo <em>Linear Discriminant Analysis</em> (LDA) (<a href="#_ENREF_10" title="Fisher, 1936 #29">Fisher, 1936</a>), (<a href="#_ENREF_18" title="Hastie, 1996 #8">Hastie and Tibshirani, 1996</a>) propone localizar tanto </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"> <font size="2"><em>S<sub>b</sub></em></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;como </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><em>S<sub>W</sub></em></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;a trav&eacute;s de un  procedimiento iterativo: inicializa la funci&oacute;n de distancia <img src="/img/revistas/rcci/v9n2/fo3802215.png" width="15" height="16"> como una matriz  id&eacute;ntica, es decir, se parte de una distancia Euclidiana. En el primer paso, se  calcula </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"> <font size="2"><em>S<sub>b</sub></em></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;y </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"> <em>S<sub>W</sub></em></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;utilizando los puntos  que se encuentran en las cercan&iacute;as del punto de prueba <em>X</em></font><em><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><sub>0</sub></font></font></font></em><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;medido por la <img src="/img/revistas/rcci/v9n2/fo3802215.png" width="15" height="16">. En el segundo paso, los estimados de </font><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em>S<sub>b</sub></em></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;y </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"> <em>S<sub>W</sub></em></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;se utilizan para  actualizar <img src="/img/revistas/rcci/v9n2/fo3802215.png" width="15" height="16">&nbsp;de la siguiente  manera:    ]]></body>
<body><![CDATA[<br>       <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo3902215.png" width="197" height="72">&nbsp;</font></font></p>     <p align="left"><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Neighborhood  Components Analysis (NCA)</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       <br>   El algoritmo <em>Neighborhood  Components Analysis</em> (NCA) propuesto en (<a href="#_ENREF_15" title="Goldberger, 2004 #13">Goldberger, Roweis, Hinton and Salakhutdinov, 2004</a>) aprende una distancia de Mahalanobis para  el clasificador k-NN maximizando la validaci&oacute;n cruzada <em>leave-one-out</em>. A continuaci&oacute;n se presenta la esencia del algoritmo.    <br> El conjunto de datos etiquetados se denota por <img src="/img/revistas/rcci/v9n2/fo4002215.png" width="156" height="24">. Para garantizar que la matriz de distancia aprendida sea  sim&eacute;trica y semidefinida positiva (<a href="#_ENREF_15" title="Goldberger, 2004 #13">Goldberger, Roweis, Hinton and Salakhutdinov, 2004</a>) asume que <em>M</em>&nbsp;tiene la forma </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><em>M= <font size="2">L<sup>T</sup>L</font></em></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;donde <em>L</em>&nbsp;puede ser cualquier  matriz. Esta forma param&eacute;trica garantiza que la distancia entre dos instancias  de datos <em>u</em>&nbsp;e <em>v</em>&nbsp;ser&aacute; positiva, dado el  hecho de que</font></font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</font></font></p>     <p align="center"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <img src="/img/revistas/rcci/v9n2/fo4102215.png" width="323" height="25"></font></font></p>     <p align="left"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">  Dado una  instancia x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font>, un vecino <em>soft</em> de <font size="2">x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font></font>&nbsp;se define por P<font size="2"><font size="2"><font size="2"><font size="2"><font size="2"><em><sub>ij</sub></em></font></font></font></font></font>, que es la probabilidad para seleccionar <font size="2"> x<font size="2"><font size="2"><font size="2"><em><sub>j </sub></em></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">como el vecino de </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">, que comparte la misma etiqueta de clase con </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">. La probabilidad </font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"> P<font size="2"><font size="2"><font size="2"><font size="2"><font size="2"><em><sub>ij</sub></em></font></font></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;se define como:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo4202215.png" width="172" height="68">&nbsp;    <br> El conjunto de instancias que comparten la misma clase  con </font><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;se denota por <img src="/img/revistas/rcci/v9n2/fo4302215.png" width="109" height="25">. Entonces, la &nbsp;probabilidad  de clasificar correctamente </font><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">x<font size="2"><font size="2"><font size="2"><em><sub>i</sub></em></font></font></font></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">&nbsp;se expresa <img src="/img/revistas/rcci/v9n2/fo4402215.png" width="75" height="39">, y el n&uacute;mero esperado de puntos clasificados correctamente es <img src="/img/revistas/rcci/v9n2/fo4502215.png" width="85" height="45">. Tomando la derivada de <img src="/img/revistas/rcci/v9n2/fo4602215.png" width="36" height="21">&nbsp;con respecto a primer  orden, se obtiene:     ]]></body>
<body><![CDATA[<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo4702215.png" width="408" height="56">&nbsp;    <br> En lugar de utilizar la exactitud promedio de  clasificaci&oacute;n, (<a href="#_ENREF_15" title="Goldberger, 2004 #13">Goldberger, Roweis, Hinton and Salakhutdinov</a>,  2004) sugiere el uso de la validaci&oacute;n cruzada  dejando uno fuera de la funci&oacute;n objetivo <img src="/img/revistas/rcci/v9n2/fo4602215.png" width="36" height="21">, es decir:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo4802215.png" width="148" height="48">&nbsp;    <br> NCA tiene los siguientes inconvenientes:</font></font></p> <ul type="disc">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NCA sufre del problema de       escalabilidad ya que su funci&oacute;n objetivo se diferencia de la matriz de       distancia y el n&uacute;mero de par&aacute;metros en<em> L</em>&nbsp;tiene una       dependencia cuadr&aacute;tica del n&uacute;mero de atributos. Por lo tanto, la       actualizaci&oacute;n de la matriz de distancia alcanzar&aacute; una dimensi&oacute;n intratable       para problemas medianos.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo de ascenso del gradiente       propuesto por NCA no garantiza la convergencia a m&aacute;ximos locales.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NCA tiende a sobre-aprendizaje de los       datos de entrenamiento si el n&uacute;mero de instancias de entrenamiento es insuficiente.       Esto ocurre a menudo cuando las instancias de datos est&aacute;n representadas en       el espacio de alta dimensi&oacute;n.</font></li>     </ul>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Large Margin Nearest  Neighbour Metrics (LMNN)</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       ]]></body>
<body><![CDATA[<br>   En&nbsp; (<a href="#_ENREF_37" title="Weinberger, 2006 #6">Weinberger, Blitzer and Saul 2006</a>; <a href="#_ENREF_38" title="Weinberger, 2009 #4">Weinberger and Saul, 2009</a>) introdujeron un m&eacute;todo que aprende una  matriz de distancia <em>M</em>&nbsp;para mejorar los  resultados de k-NN conocido por LMNN. La intuici&oacute;n es que para cada instancia  la funci&oacute;n de distancia debe hacer que sus k vecinos m&aacute;s cercanos de la misma  clase ---<em>vecinos objetivos</em>--- est&eacute;n  m&aacute;s cerca entre s&iacute; que las instancias de clases diferentes. La funci&oacute;n objetivo  se compone de dos t&eacute;rminos: el primer t&eacute;rmino minimiza las distancias entre los  vecinos objetivos, mientras que el segundo t&eacute;rmino es una funci&oacute;n de p&eacute;rdida  que penaliza la existencia de instancias de clases diferentes en la vecindad  definida por los vecinos objetivos m&aacute;s un margen fijo. En lugar de usar las restricciones  por pares, como en los casos anteriores, este algoritmo aprende a partir  de&nbsp; restricciones relativas <em>(i,j,l)</em>. La m&eacute;trica aprendida <em>M</em>&nbsp;tiene que cumplir que  la distancia entre los vecinos <font size="2"> <font size="2"> <em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font>&nbsp;y<em> <font size="2"> <font size="2"> x<font size="2"><font size="2"><font size="2"><sub>j</sub></font></font></font></font></font>&nbsp;</em>debe ser menor que la  distancia entre <font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font>&nbsp;y <font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font>. Seg&uacute;n las definiciones anteriores <font size="2"><font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>j</sub></font></font></font></em></font></font></font></font>&nbsp;ser&iacute;a un vecino  objetivo y <font size="2"><font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font></font>&nbsp;un impostor, siempre  relativo a la instancia <font size="2"><font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font></font>. Este tipo de restricciones permite tener en cuenta el comportamiento  local del algoritmo de los vecinos m&aacute;s cercanos, realiz&aacute;ndose a trav&eacute;s de la  siguiente funci&oacute;n objetivo:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo4902215.png" width="297" height="37">&nbsp;    <br> El primer t&eacute;rmino de la ecuaci&oacute;n minimiza la distancia  entre los vecinos objetivos </font><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">, <font size="2"><font size="2"><font size="2"><em>x<font size="2"><font size="2"><font size="2"><sub>j</sub></font></font></font></em></font></font></font></font></font><font face="Verdana, Arial, Helvetica, sans-serif">, indicado por <img src="/img/revistas/rcci/v9n2/fo5002215.png" width="41" height="20">. El segundo t&eacute;rmino denota la cantidad de impostores que  invaden el per&iacute;metro de<em> i</em>&nbsp;y j. Un impostor<em> l</em> &nbsp;es una entrada de diferentes  clases <font size="2"><em>(Y</em><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>il</sub></font></font></font></em></font></font></font></font></font><em>=0)</em></font>&nbsp;que tiene una variable  de holgura positiva <img src="/img/revistas/rcci/v9n2/fo5102215.png" width="73" height="25">:    <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo5202215.png" width="232" height="27">&nbsp;     <br> En la <a href="#f03">figura 3</a> se ilustra la idea de la clasificaci&oacute;n  de LMNN. Antes del aprendizaje, una instancia cualquiera tiene tantos vecinos  objetivos como impostores en su vecindad. Durante el aprendizaje, los  impostores son empujados fuera del per&iacute;metro establecido por los vecinos  objetivos. Despu&eacute;s de aprender, se crea un margen finito entre el per&iacute;metro y  los impostores. La <a href="#f03">figura 3</a> muestra la idea donde los errores de clasificaci&oacute;n  de k-NN en el espacio original son corregidos por el aprendizaje de una  transformaci&oacute;n lineal apropiada.</font></font></p>     <p align="center"><a name="f03"></a><img src="/img/revistas/rcci/v9n2/f0302215.jpg" width="575" height="316"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La funci&oacute;n de p&eacute;rdida es una funci&oacute;n convexa de los  elementos en la matriz <em>M</em>. En particular, el primer t&eacute;rmino de la funci&oacute;n de p&eacute;rdida  (penalizando a las grandes distancias entre los vecinos objetivos) es lineal en  los elementos de <em>M</em>, mientras que el segundo t&eacute;rmino (que penaliza a los  impostores) se deriva de la p&eacute;rdida de articulaci&oacute;n convexa. Para formular la  optimizaci&oacute;n de la ecuaci&oacute;n de p&eacute;rdida se puede utilizar un programa  semidefinido (SDP por sus siglas en ingl&eacute;s: <em>Semidefinite  Program</em>), sin embargo, para resolverla, hay que convertirla en una forma  m&aacute;s est&aacute;ndar.    <br>   Un SDP se obtiene mediante la introducci&oacute;n de  variables de holgura que imitan el efecto de la p&eacute;rdida. En particular, se  introducen las variables no negativas de holgura <img src="/img/revistas/rcci/v9n2/fo5302215.png" width="21" height="25">&nbsp;para todas las ternas  de vecinos objetivos <img src="/img/revistas/rcci/v9n2/fo5002215.png" width="41" height="20">&nbsp;y los impostores x</font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>l</sub></font></font></font></em></font></font></font></font></font></font></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">. La variable holgura <img src="/img/revistas/rcci/v9n2/fo5402215.png" width="45" height="25">&nbsp;se utiliza para medir  el margen en que se viola la desigualdad en la ecuaci&oacute;n de p&eacute;rdida. Se  introducen las variables de holgura para controlar estas violaciones de margen  y obtener el SDP:    <br>       <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<img src="/img/revistas/rcci/v9n2/fo5502215.png" width="409" height="133">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mientras que los SDP en esta forma pueden ser  resueltos por los paquetes de software estad&iacute;sticos est&aacute;ndares, los  solucionadores de prop&oacute;sito general tienden a decrecer notablemente la calidad  de los resultados en cuanto aumenta el n&uacute;mero de restricciones. Para este algoritmo,  se implement&oacute; un m&eacute;todo propio especial, aprovechando el hecho de que la  mayor&iacute;a de las variables de holgura <img src="/img/revistas/rcci/v9n2/fo5302215.png" width="21" height="25">&nbsp;nunca alcanzan valores  positivos. Las variables de holgura <img src="/img/revistas/rcci/v9n2/fo5302215.png" width="21" height="25">&nbsp;&nbsp;son dispersas porque la mayor&iacute;a de las  entradas x</font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font></font></font></font></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&nbsp;y x</font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>l</sub></font></font></font></em></font></font></font></font></font></font></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&nbsp;est&aacute;n bien separadas  con respecto a la distancia entre x</font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>i</sub></font></font></font></em></font></font></font></font></font></font></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&nbsp;y cualquiera de sus  vecinos objetivos x</font><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><font size="2"><font size="2"><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><em><font size="2"><font size="2"><font size="2"><sub>j</sub></font></font></font></em></font></font></font></font></font></font></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">. Estos resultan en muy pocas restricciones activas en el  SDP, por lo tanto, se puede lograr un gran aumento de velocidad de  procesamiento mediante la resoluci&oacute;n de un SDP que s&oacute;lo supervisa una fracci&oacute;n  de las restricciones de margen. Luego se utiliza la soluci&oacute;n resultante como  punto de partida para el SDP.</font></p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El desarrollo de m&eacute;todos para el aprendizaje de funciones  de distancia a partir de los datos ha tenido un desarrollo imponente en los  &uacute;ltimos a&ntilde;os. En su mayor&iacute;a los enfoques se caracterizan por formular un  problema de optimizaci&oacute;n a partir de restricciones que se obtienen de las instancias  de aprendizaje. El proceso de minimizaci&oacute;n o maximizaci&oacute;n de la funci&oacute;n  objetivo que codifica las restricciones se realiza mediante un costoso  algoritmo iterativo. Estos m&eacute;todos, cuando se utilizan de conjunto con un  clasificador vago como el k-NN, permiten incrementar la calidad de la  clasificaci&oacute;n al costo de una complejidad computacional alta. En el estudio  realizado se abordaron aspectos generales del aprendizaje de funciones de  distancia as&iacute; como su aplicabilidad a la mejora de algoritmos de clasificaci&oacute;n  basados en instancias. Dentro del enfoque supervisado se distinguieron dos  categor&iacute;as que dependen de la forma en que se obtienen las restricciones, esto  es, en la vecindad de cada instancia (local) o en todo el espacio de  representaci&oacute;n (global). En cada categor&iacute;a se detallaron las ideas detr&aacute;s de las  implementaciones de los algoritmos m&aacute;s representativos. Este trabajo resulta de  utilidad para comprender la esencia del aprendizaje de funciones de distancia y  facilita la selecci&oacute;n de que algoritmos aplicar dada la disponibilidad de  informaci&oacute;n en forma de restricciones.&nbsp; </font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS  BIBLIOGR&Aacute;FICAS</B></font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BAR-HILLEL, A., T. HERTZ, N. SHENTAL AND D. WEINSHALL. Learning distance  functions using equivalence relations. In <em>ICML.</em> 2003, vol. 3, p. 11-18.     <br>       <!-- ref --><br>   BAR-HILLEL, A., T. HERTZ, N.  SHENTAL AND D. WEINSHALL Learning a mahalanobis metric from equivalence  constraints. Journal of Machine Learning Research,&nbsp; 2005, 6(6), 937-965.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   BELLET, A. AND A. HABRARD  Robustness and Generalization for Metric Learning. arXiv preprint  arXiv:1209.1086,&nbsp; 2012.    <br>       <!-- ref --><br>   BELLET, A., A. HABRARD AND M.  SEBBAN A survey on metric learning for feature vectors and structured data.  arXiv preprint arXiv:1306.6709,&nbsp; 2013.    <br>       <!-- ref --><br>   CENSOR, Y. <em>Parallel optimization: Theory, algorithms,  and applications</em>. Edtion ed.: Oxford University Press, 1997.    <br>       <!-- ref --><br>   CHEN, Q. AND S. SUN.  Hierarchical large margin nearest neighbor classification. In <em>Pattern Recognition (ICPR), 2010 20th  International Conference on.</em> IEEE, 2010, p. 906-909.    <br>       <!-- ref --><br>   COVER, T. AND P. HART Nearest  neighbor pattern classification. Information Theory, IEEE Transactions on,&nbsp; 1967, 13(1), 21-27.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   DAVIS, J., B. KULIS, S. SRA  AND I. DHILLON. Information-theoretic metric learning. In <em>in NIPS 2006 Workshop on Learning to Compare Examples.</em> 2007.    <br>       <!-- ref --><br>   DOMENICONI, C. AND D.  GUNOPULOS. Adaptive nearest neighbor classification using support vector  machines. In <em>Advances in Neural  Information Processing Systems.</em> 2001, p. 665-672.    <br>       <!-- ref --><br>   FISHER, R. A. The use of  multiple measurements in taxonomic problems. Annals of eugenics,&nbsp; 1936, 7(2), 179-188.    <br>       <!-- ref --><br>   FRIEDMAN, J. H. Flexible  metric nearest neighbor classification. Unpublished manuscript available by  anonymous FTP from playfair. stanford. edu (see pub/friedman/README),&nbsp; 1994.    <br>       <!-- ref --><br>   FU, Y. Multi-view Metric  Learning for Multi-view Video Summarization. arXiv preprint arXiv:1405.6434,&nbsp; 2014.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   GILL, P. E., W. MURRAY AND M.  H. WRIGHT Practical optimization&nbsp; 1981.    <br>       <!-- ref --><br>   GLOBERSON, A. AND S. T.  ROWEIS. Metric learning by collapsing classes. In <em>Advances in neural information processing systems.</em> 2005, p.  451-458.    <br>       <!-- ref --><br>   GOLDBERGER, J., S. ROWEIS, G.  HINTON AND R. SALAKHUTDINOV. Neighbourhood components analysis. In <em>Advances in Neural Information Processing  Systems 17.</em> MIT Press, 2004, p. 513-520.    <br>       <!-- ref --><br>   GUILLAUMIN, M., J. VERBEEK AND  C. SCHMID. Is that you? Metric learning approaches for face identification. In <em>Computer Vision, 2009 IEEE 12th  International Conference on.</em> IEEE, 2009, p. 498-505.    <br>       <!-- ref --><br>   HARTIGAN, J. A. AND M. A. WONG  A K-Means Clustering Algorithm. Applied Statistics,&nbsp; 1979, 28, 100-108.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   HASTIE, T. AND R. TIBSHIRANI  Discriminant adaptive nearest neighbor classification. Pattern Analysis and  Machine Intelligence, IEEE Transactions on,&nbsp;  1996, 18(6), 607-616.    <br>        <!-- ref --><br>   HASTIE, T., R. TIBSHIRANI, J.  FRIEDMAN, T. HASTIE, et al. <em>The elements  of statistical learning</em>. Edtion ed.: Springer, 2009.    <br>       <br>   HIRZER, M., P. M. ROTH, M.  K&Ouml;STINGER AND H. BISCHOF. Relaxed pairwise learned metric for person  re-identification. In <em>Computer  Vision&ndash;ECCV 2012.</em> Springer, 2012, p. 780-793.     <br>       <!-- ref --><br>   JOLLIFFE, I. <em>Principal component analysis</em>. Edtion  ed.: Wiley Online Library, 2005. ISBN 0470013192.    <br>       <!-- ref --><br>   KATO, T. AND N. NAGANO Metric  learning for enzyme active-site search. Bioinformatics,&nbsp; 2010, 26(21), 2698-2704.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   KOESTINGER, M., M. HIRZER, P.  WOHLHART, P. M. ROTH, et al. Large Scale Metric Learning from Equivalence  Constraints. In <em>Proc. IEEE Conf. on  Computer Vision and Pattern Recognition.</em> 2012.    <br>       <!-- ref --><br>   KULIS, B. Metric learning: A  survey. Foundations &amp; Trends in Machine Learning,&nbsp; 2012, 5(4), 287-364.    <br>       <!-- ref --><br>   KULIS, B., M. A. SUSTIK,  TY\'A,S AND I. DHILLON. Learning low-rank kernel matrices. In <em>Proceedings of the 23rd international  conference on Machine learning.</em> 2006, p. 505-512.    <br>       <!-- ref --><br>   LEE, J.-E., R. JIN AND A. K.  JAIN. Rank-based distance metric learning: An application to image retrieval.  In <em>Computer Vision and Pattern  Recognition, 2008. CVPR 2008. IEEE Conference on.</em> IEEE, 2008, p. 1-8.    <br>       <!-- ref --><br>   LUO, C., M. LI, H. ZHANG, F.  WANG, et al. Metric Learning with Relative Distance Constraints: A Modified SVM  Approach. In <em>Intelligent Computation in  Big Data Era.</em> Springer, 2015, p. 242-249.    <br>       ]]></body>
<body><![CDATA[<!-- ref --><br>   MAHALANOBIS, P. C. On the  generalized distance in statistics. Proceedings of the National Institute of  Sciences (Calcutta),&nbsp; 1936, 2, 49-55.    <br>       <!-- ref --><br>   MARTIN, M., M. HIRZER, P.  WOHLHART, P. M. ROTH, et al. Large scale metric learning from equivalence  constraints. In <em>CVPR.</em> IEEE, 2012, p.  2288-2295.    <br>       <!-- ref --><br>   MCFEE, B. AND G. R. LANCKRIET.  Metric learning to rank. In <em>Proceedings  of the 27th International Conference on Machine Learning (ICML-10).</em> 2010,  p. 775-782.    <br>       <!-- ref --><br>   SCHULTZ, M. AND T. JOACHIMS  Learning a distance metric from relative comparisons. Advances in neural  information processing systems (NIPS),&nbsp;  2004, 41.    <br>        <!-- ref --><br>   SEMERCI, M. AND E. ALPAYD&#305;N.  Mixtures of Large Margin Nearest Neighbor Classifiers. In <em>Machine Learning and Knowledge Discovery in Databases.</em> Springer,  2013, p. 675-688.    <br>        ]]></body>
<body><![CDATA[<br> SHENTAL, N., T. HERTZ, D.  WEINSHALL AND M. PAVEL. Adjustment learning and relevant component analysis. In <em>Computer Vision&mdash;ECCV 2002.</em> Springer,  2002, p. 776-790.     <br>     <!-- ref --><br> VANDENBERGHE, L. AND S. BOYD  Semidefinite programming. SIAM review,&nbsp;  1996, 38(1), 49-95.    <br>     <!-- ref --><br> WANG, J., X. GAO, Q. WANG AND  Y. LI ProDis-ContSHC: learning protein dissimilarity measures and hierarchical  context coherently for protein-protein comparison in protein database  retrieval. BMC bioinformatics,&nbsp; 2012a,  13(Suppl 7), S2.    <br>     <!-- ref --><br> WANG, J., A. WOZNICA AND A.  KALOUSIS. Learning neighborhoods for metric learning. In <em>Machine Learning and Knowledge Discovery in Databases.</em> Springer,  2012b, p. 223-236.    <br>     <!-- ref --><br> WEINBERGER, K., J. BLITZER AND  L. SAUL Distance metric learning for large margin nearest neighbor  classification. Advances in neural information processing systems,&nbsp; 2006, 18, 1473.    <br>     ]]></body>
<body><![CDATA[<!-- ref --><br> WEINBERGER, K. Q. AND L. K.  SAUL Distance metric learning for large margin nearest neighbor classification.  The Journal of Machine Learning Research,&nbsp;  2009, 10, 207-244.    <br>      <!-- ref --><br> XING, E. P., A. Y. NG, M. I.  JORDAN AND S. RUSSELL. Distance Metric Learning, With Application To Clustering  With Side-Information. In <em>ADVANCES IN  NEURAL INFORMATION PROCESSING SYSTEMS 15.</em> MIT Press, 2003, p. 505-512.    <br>     <!-- ref --><br> YANG, L. AND R. JIN Distance  metric learning: A comprehensive survey. Michigan State Universiy,&nbsp; 2006, 2.    <br>     <!-- ref --><br> YING, Y. AND P. LI Distance  metric learning with eigenvalue optimization. The Journal of Machine Learning  Research,&nbsp; 2012, 13(1), 1-26.    <br>     <!-- ref --><br> ZHANG, Z., J. T. KWOK AND  D.-Y. YEUNG. Parametric distance metric learning with label information. In <em>IJCAI.</em> 2003, p. 1450.     </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 09/02/2015      <br> Aceptado: 02/03/2015 </font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BAR-HILLEL]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HERTZ]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[SHENTAL]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[WEINSHALL]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning distance functions using equivalence relations.]]></source>
<year>2003</year>
<page-range>11-18</page-range><publisher-name><![CDATA[In ICML]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BAR-HILLEL]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HERTZ]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[SHENTAL]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[WEINSHALL]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Learning a mahalanobis metric from equivalence constraints]]></article-title>
<source><![CDATA[]]></source>
<year>2005</year>
<volume>6</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>937-965</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BELLET]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HABRARD]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Robustness and Generalization for Metric Learning]]></source>
<year>2012</year>
<publisher-name><![CDATA[arXiv preprint arXiv:1209.1086]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BELLET]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HABRARD]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[SEBBAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[A survey on metric learning for feature vectors and structured data]]></source>
<year>2013</year>
<publisher-name><![CDATA[arXiv preprint arXiv:1306.6709]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CENSOR]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Parallel optimization: Theory, algorithms, and applications]]></source>
<year>1997</year>
<publisher-name><![CDATA[Oxford University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
<name>
<surname><![CDATA[SUN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Hierarchical large margin nearest neighbor classification.]]></source>
<year>2010</year>
<page-range>906-909</page-range><publisher-name><![CDATA[In Pattern Recognition (ICPR), 2010 20th International Conference on. IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COVER]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[HART]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Nearest neighbor pattern classification.]]></article-title>
<source><![CDATA[]]></source>
<year>1967</year>
<volume>13</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>21-27</page-range><publisher-name><![CDATA[IEEE Transactions on]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DAVIS]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[B]]></surname>
<given-names><![CDATA[KULIS]]></given-names>
</name>
<name>
<surname><![CDATA[SRA]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[DHILLON]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Information-theoretic metric learning.]]></source>
<year>2007</year>
<publisher-name><![CDATA[In in NIPS 2006 Workshop on Learning to Compare Examples]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DOMENICONI]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[GUNOPULOS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Adaptive nearest neighbor classification using support vector machines.]]></source>
<year>2001</year>
<page-range>665-672</page-range><publisher-name><![CDATA[In Advances in Neural Information Processing Systems.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FISHER]]></surname>
<given-names><![CDATA[R. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The use of multiple measurements in taxonomic problems]]></article-title>
<source><![CDATA[]]></source>
<year>1936</year>
<volume>7</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>179-188</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FRIEDMAN]]></surname>
<given-names><![CDATA[J. H]]></given-names>
</name>
</person-group>
<source><![CDATA[Flexible metric nearest neighbor classification. Unpublished manuscript available by anonymous FTP from playfair.]]></source>
<year>1994</year>
<publisher-name><![CDATA[stanford. edu (see pub/friedman/README)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Multi-view Metric Learning for Multi-view Video Summarization.]]></source>
<year>2014</year>
<publisher-name><![CDATA[arXiv preprint arXiv:1405.6434]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GILL]]></surname>
<given-names><![CDATA[P. E]]></given-names>
</name>
<name>
<surname><![CDATA[MURRAY]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[WRIGHT]]></surname>
<given-names><![CDATA[M. H]]></given-names>
</name>
</person-group>
<source><![CDATA[Practical optimization]]></source>
<year>1981</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GLOBERSON]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ROWEIS]]></surname>
<given-names><![CDATA[S. T]]></given-names>
</name>
</person-group>
<source><![CDATA[Metric learning by collapsing classes.]]></source>
<year>2005</year>
<page-range>451-458</page-range><publisher-name><![CDATA[In Advances in neural information processing systems]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GOLDBERGER]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ROWEIS]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[HINTON]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[SALAKHUTDINOV]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Neighbourhood components analysis.]]></source>
<year>2004</year>
<page-range>513-520</page-range><publisher-name><![CDATA[In Advances in Neural Information Processing Systems 17. MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUILLAUMIN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[VERBEEK]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMID]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Is that you? Metric learning approaches for face identification.]]></source>
<year>2009</year>
<page-range>498-505</page-range><publisher-name><![CDATA[In Computer Vision, 2009 IEEE 12th International Conference on. IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HARTIGAN]]></surname>
<given-names><![CDATA[J. A]]></given-names>
</name>
<name>
<surname><![CDATA[WONG]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A K-Means Clustering Algorithm.]]></article-title>
<source><![CDATA[]]></source>
<year>1979</year>
<volume>28</volume>
<page-range>100-108</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HASTIE]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[TIBSHIRANI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Discriminant adaptive nearest neighbor classification]]></article-title>
<source><![CDATA[]]></source>
<year>1996</year>
<volume>18</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>607-616</page-range><publisher-name><![CDATA[IEEE Transactions on]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HASTIE]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[TIBSHIRANI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[FRIEDMAN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[HASTIE]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[The elements of statistical learning.]]></source>
<year>2009</year>
<publisher-name><![CDATA[Edtion ed.: Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HIRZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ROTH]]></surname>
<given-names><![CDATA[P. M]]></given-names>
</name>
<name>
<surname><![CDATA[KÖSTINGER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BISCHOF]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Relaxed pairwise learned metric for person re-identification.]]></source>
<year>2012</year>
<page-range>780-793</page-range><publisher-name><![CDATA[In Computer Vision-ECCV 2012. Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JOLLIFFE]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Principal component analysis]]></source>
<year>2005</year>
<publisher-name><![CDATA[Edtion ed.: Wiley Online Library]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KATO]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[NAGANO]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Metric learning for enzyme active-site search.]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>26</volume>
<numero>21</numero>
<issue>21</issue>
<page-range>2698-2704</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KOESTINGER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[HIRZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[WOHLHART]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[ROTH]]></surname>
<given-names><![CDATA[P. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Large Scale Metric Learning from Equivalence Constraints.]]></source>
<year>2012</year>
<publisher-name><![CDATA[In Proc. IEEE Conf. on Computer Vision and Pattern Recognition]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KULIS]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Metric learning: A survey]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>5</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>287-364</page-range></nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KULIS]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[SUSTIK]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA['A,S]]></surname>
<given-names><![CDATA[TY]]></given-names>
</name>
<name>
<surname><![CDATA[DHILLON]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning low-rank kernel matrices.]]></source>
<year>2006</year>
<page-range>505-512</page-range><publisher-name><![CDATA[In Proceedings of the 23rd international conference on Machine learning.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[J.-E]]></given-names>
</name>
<name>
<surname><![CDATA[JIN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[JAIN]]></surname>
<given-names><![CDATA[A. K]]></given-names>
</name>
</person-group>
<source><![CDATA[Rank-based distance metric learning: An application to image retrieval]]></source>
<year>2008</year>
<page-range>1-8</page-range><publisher-name><![CDATA[In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LUO]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Metric Learning with Relative Distance Constraints: A Modified SVM Approach]]></source>
<year>2015</year>
<page-range>242-249</page-range><publisher-name><![CDATA[In Intelligent Computation in Big Data Era. Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAHALANOBIS]]></surname>
<given-names><![CDATA[P. C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On the generalized distance in statistics.]]></article-title>
<source><![CDATA[]]></source>
<year>1936</year>
<volume>2</volume>
<page-range>49-55</page-range></nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MARTIN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[HIRZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[WOHLHART]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[ROTH]]></surname>
<given-names><![CDATA[P. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Large scale metric learning from equivalence constraints.]]></source>
<year>2012</year>
<page-range>2288-2295</page-range><publisher-name><![CDATA[In CVPR. IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MCFEE]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[LANCKRIET]]></surname>
<given-names><![CDATA[G. R]]></given-names>
</name>
</person-group>
<source><![CDATA[Metric learning to rank]]></source>
<year>2010</year>
<page-range>775-782</page-range><publisher-name><![CDATA[In Proceedings of the 27th International Conference on Machine Learning (ICML-10)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SCHULTZ]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[JOACHIMS]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning a distance metric from relative comparisons]]></source>
<year>2004</year>
<page-range>41</page-range><publisher-name><![CDATA[Advances in neural information processing systems (NIPS)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SEMERCI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[ALPAYD&#305;N]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Mixtures of Large Margin Nearest Neighbor Classifiers]]></source>
<year>2013</year>
<page-range>675-688</page-range><publisher-name><![CDATA[In Machine Learning and Knowledge Discovery in Databases. Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHENTAL]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[HERTZ]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[WEINSHALL]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[PAVEL]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Adjustment learning and relevant component analysis]]></source>
<year>2002</year>
<page-range>776-790</page-range><publisher-name><![CDATA[In Computer Vision-ECCV 2002. Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VANDENBERGHE]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[BOYD]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Semidefinite programming]]></article-title>
<source><![CDATA[]]></source>
<year>1996</year>
<volume>38</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>49-95</page-range></nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[GAO]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[ProDis-ContSHC: learning protein dissimilarity measures and hierarchical context coherently for protein-protein comparison in protein database retrieval]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<month>a</month>
<volume>13</volume>
<numero>7</numero>
<issue>7</issue>
<publisher-name><![CDATA[S2]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[WOZNICA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[KALOUSIS]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning neighborhoods for metric learning]]></source>
<year>2012</year>
<month>b</month>
<page-range>223-236</page-range><publisher-name><![CDATA[In Machine Learning and Knowledge Discovery in Databases. Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEINBERGER]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[BLITZER]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SAUL]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distance metric learning for large margin nearest neighbor classification]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>18</volume>
<page-range>1473</page-range></nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEINBERGER]]></surname>
<given-names><![CDATA[K. Q]]></given-names>
</name>
<name>
<surname><![CDATA[SAUL]]></surname>
<given-names><![CDATA[L. K]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distance metric learning for large margin nearest neighbor classification]]></article-title>
<source><![CDATA[]]></source>
<year>2009</year>
<volume>10</volume>
<page-range>207-244</page-range></nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[XING]]></surname>
<given-names><![CDATA[E. P]]></given-names>
</name>
<name>
<surname><![CDATA[NG]]></surname>
<given-names><![CDATA[A. Y]]></given-names>
</name>
<name>
<surname><![CDATA[M. I]]></surname>
<given-names><![CDATA[JORDAN]]></given-names>
</name>
<name>
<surname><![CDATA[RUSSELL]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance Metric Learning, With Application To Clustering With Side-Information.]]></source>
<year>2003</year>
<page-range>505-512</page-range><publisher-name><![CDATA[In ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 15. MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[JIN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Distance metric learning: A comprehensive survey]]></source>
<year>2006</year>
<page-range>2</page-range><publisher-name><![CDATA[Michigan State Universiy]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YING]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distance metric learning with eigenvalue optimization]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>13</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-26</page-range></nlm-citation>
</ref>
<ref id="B42">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[KWOK]]></surname>
<given-names><![CDATA[J. T]]></given-names>
</name>
<name>
<surname><![CDATA[YEUNG]]></surname>
<given-names><![CDATA[D.-Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Parametric distance metric learning with label information.]]></source>
<year>2003</year>
<page-range>1450</page-range><publisher-name><![CDATA[In IJCAI]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
