<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000100021</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Detección de sombreros en imágenes de rostro con fondo uniforme]]></article-title>
<article-title xml:lang="en"><![CDATA[Detecting hats in face images with uniform background]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez-Martín]]></surname>
<given-names><![CDATA[Jesús]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Plasencia Calaña]]></surname>
<given-names><![CDATA[Yenisel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Aplicación de Tecnologías de Avanzada (CENATAV)  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>1</numero>
<fpage>261</fpage>
<lpage>270</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000100021&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000100021&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000100021&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN La determinación de la calidad de una imagen de rostro es un paso importante para los métodos automáticos de reconocimiento de rostros, con el fin de que los algoritmos de reconocimiento de individuos a partir de imágenes de su rostro reciban como entrada imágenes de alto valor identificativo. Para lograr la detección de sombreros se propone la creación de un método de reconocimiento de patrones basado en un modelo de Bolsa de Palabras Visuales. Se realizaron pruebas con descriptores de rasgos SURF (del inglés Speeded Up Robust Features), SIFT (del inglés Scale Invariant Feature Transform), y los novedosos DSIFT (del inglés Dense SIFT) y PHOW (del inglés Pyramid Histogram of visual Words) que obtuvieron los mejores resultados. Además, proponemos ejecutar la clasificación mediante máquinas de vectores de soporte usando el kernel de intersección de histogramas. Este kernel, que hace relativamente poco tiempo se descubrió que cumple las propiedades necesarias para ser usado en el contexto de estos clasificadores, hace el papel de una similitud y es apropiado para tipos de datos como los calculados basados en histogramas. Los resultados experimentales muestran que se logra una alta eficacia en el problema abordado.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT Determining the quality of a face image is an important step for automatic face recognition methods, for the purpose that the algorithms of recognition and identification of individuals from images of his face receive an image of high identifying value as input. To detect hats, a pattern recognition method based on bag of visual words model is proposed. Testing with SURF, SIFT and the novel DSIFT and PHOW descriptors, which obtained the best results. In addition, classification is performed by SVM using the histogram intersection kernel. Recently it was discovered that this kernel fulfill the necessary conditions to be used in the context of these classifiers. It plays the role of a similarity and it is appropriate for data types such as those calculatedbased on histograms. Experimental results show that a high accuracy in the current problem is achieved.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[modelo de Bolsa de Palabras Visuales]]></kwd>
<kwd lng="es"><![CDATA[histogramas espaciales]]></kwd>
<kwd lng="es"><![CDATA[SURF]]></kwd>
<kwd lng="es"><![CDATA[SIFT]]></kwd>
<kwd lng="es"><![CDATA[DSIFT]]></kwd>
<kwd lng="es"><![CDATA[PHOW]]></kwd>
<kwd lng="en"><![CDATA[Bag of Visual Words model]]></kwd>
<kwd lng="en"><![CDATA[spatial histograms]]></kwd>
<kwd lng="en"><![CDATA[SURF]]></kwd>
<kwd lng="en"><![CDATA[SIFT]]></kwd>
<kwd lng="en"><![CDATA[DSIFT]]></kwd>
<kwd lng="en"><![CDATA[PHOW]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Detecci&oacute;n de sombreros en im&aacute;genes de rostro con fondo uniforme</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Detecting hats in face images  with uniform background</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Jes&uacute;s P&eacute;rez-Mart&iacute;n<strong><sup>1*</sup></strong>, Yenisel Plasencia Cala&ntilde;a</font><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup></strong></font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Centro de Aplicaci&oacute;n de Tecnolog&iacute;as de Avanzada  (CENATAV). <em>{</em>jmartin,yplasencia<em>}</em>@cenatav.co.cu</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">    <br> </font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span><a href="mailto:%20jmartin@cenatav.co.cu"><font size="2">jmartin@cenatav.co.cu</font></a></font>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La determinaci&oacute;n de la calidad de una imagen de rostro es un paso importante para los m&eacute;todos autom&aacute;ticos de reconocimiento de rostros, con el fin de que los algoritmos de reconocimiento de individuos a partir de im&aacute;genes de su rostro reciban como entrada im&aacute;genes de alto valor identificativo. Para lograr la detecci&oacute;n de sombreros  se propone la creaci&oacute;n de un m&eacute;todo de reconocimiento de patrones  basado en un modelo de Bolsa de Palabras Visuales.  Se realizaron pruebas con descriptores de rasgos SURF (del ingl&eacute;s Speeded Up Robust Features), SIFT (del ingl&eacute;s Scale Invariant Feature Transform), y los novedosos DSIFT (del ingl&eacute;s Dense SIFT) y PHOW (del ingl&eacute;s Pyramid Histogram  of visual Words) que obtuvieron los mejores resultados. Adem&aacute;s, proponemos ejecutar la clasificaci&oacute;n mediante m&aacute;quinas de vectores de soporte usando el kernel de intersecci&oacute;n de histogramas. Este kernel,  que hace relativamente poco tiempo se descubri&oacute; que cumple las propiedades necesarias para ser usado  en el contexto de estos clasificadores, hace el papel de una similitud y es apropiado para tipos de datos como los calculados basados  en histogramas. Los resultados experimentales muestran que se logra una alta eficacia  en el problema abordado. </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>modelo de Bolsa de Palabras  Visuales, histogramas espaciales, SURF, SIFT, DSIFT, PHOW</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Determining the quality of a face image is an important  step for automatic  face recognition methods, for the purpose that the algorithms of recognition  and identification of individuals from images of  his face receive  an image of high identifying value as input.  To detect hats, a pattern recognition method based on bag of visual words&nbsp;  model &nbsp;is &nbsp;proposed. Testing with SURF, SIFT and&nbsp;  the novel DSIFT and PHOW  descriptors,  which obtained the best results. In addition, classification is performed by SVM using  the histogram intersection kernel. Recently it was discovered that this kernel  fulfill the necessary  conditions to be used in the context  of these classifiers. It plays the role of a similarity and it is appropriate  for data types such as those calculatedbased on histograms. Experimental results show that a high accuracy in the current problem is achieved.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Bag of Visual Words model, spatial  histograms, SURF, SIFT,  DSIFT, PHOW</font></p> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si bien existen investigaciones sobre las variaciones en la pose de las personas, iluminaci&oacute;n y degradaci&oacute;n de la imagen, casi todos los enfoques existentes para el reconocimiento facial en condiciones de oclusi&oacute;n se centran en detectar el uso de gafas de sol y bufanda. La oclusi&oacute;n causada  por sombreros no ha sido estudiada, a pesar de las ventajas que brindar&iacute;a para el desempe&ntilde;o de los algoritmos de detecci&oacute;n de rostro y el reconocimiento  de la identidad, adem&aacute;s de ser uno de los requisitos de calidad planteados por la ICAO para las im&aacute;genes de rostro (FERRARA et al., 2012). </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">M&Eacute;TODO</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para dar soluci&oacute;n a este problema, en el presente trabajo se propone la creaci&oacute;n de un m&eacute;todo de reconocimiento de patrones,  basado en un modelo de Bolsa  de Palabras Visuales (BoVW),  donde cada imagen  va a estar representada por un conjunto de vectores en vez de por un solo vector de caracter&iacute;sticas  como sucede en los enfoques cl&aacute;sicos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Modelo de Bolsa de Palabras Visuales </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BoVW es actualmente un m&eacute;todo popular para el reconocimiento de objetos y escenas en visi&oacute;n por computadoras. A una imagen se le extraen  los rasgos locales y pasa a ser considerada como una <em>bolsa de rasgos </em>(<em>bag of features</em>), es decir, ignorando las relaciones espaciales entre ellos. Como desventaja podemos mencionar  que este no cuenta con un mecanismo  eficiente y efectivo de codificaci&oacute;n de la informaci&oacute;n espacial que existe para los rasgos. Un m&eacute;todo basado en el BoVW cl&aacute;sico consiste en las siguientes etapas:</font></p> <ul>       <li>         <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Extracci&oacute;n de rasgos</font></strong><font face="Verdana, Arial, Helvetica, sans-serif">: Los rasgos locales y sus descriptores correspondientes se extraen  de parches locales de la imagen.  Los dos descriptores visuales m&aacute;s usados son SIFT (LOWE, 2004) y SURF (VEDALDI and FULKERSON, 2010). Algunos  m&eacute;todos los extraen en ciertos puntos de inter&eacute;s detectados y otros obtienen los rasgos locales densamente, en posiciones  regulares de la imagen por ejemplo PHOW (VEDALDI &nbsp;and &nbsp;FULKERSON,  &nbsp;2010).</font></font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Generar un diccionario y mapear los rasgos a palabras  visuales</strong>: Un diccionario visual es un m&eacute;todo que divide el espacio de descriptores visuales  en varias regiones. Los rasgos de una regi&oacute;n corresponden a la misma palabra visual. Entonces,  una imagen se codifica  como un histograma de la  frecuencia de ocurrencia de cada palabra visual.  Esto se hace asignando a cada vector de rasgos de la imagen  su regi&oacute;n m&aacute;s cercana, de manera que al terminar  el proceso se tenga  la cantidad de vectores asignados a cada regi&oacute;n y se asigna esa cantidad a la componente correspondiente a esa palabra visual en el histograma.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Entrenar y probar </strong>: Varios m&eacute;todos de aprendizaje por computadora pueden aplicarse para la representaci&oacute;n de im&aacute;genes usada.  SVM es frecuentemente usado como clasificador en modelos BoVW para el reconocimiento de objetos y escenas.  Este fue el clasificador escogido  para resolver el problema  planteado, en conjunto con el kernel aditivo de intersecci&oacute;n de histogramas debido a su utilidad y buen desempe&ntilde;o para representaciones basadas en histogramas.</font></p>   </li>     </ul>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Preprocesamiento </font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como el problema se centra solo en im&aacute;genes  de rostro de fondo uniforme  y los sombreros siempre  se encuentra en una misma regi&oacute;n relativa a las personas, se decidi&oacute;, con el fin de reducir  el &aacute;rea de b&uacute;squeda, seleccionar de la imagen  la regi&oacute;n en la que debe estar el sombrero. Esto se hace convirtiendo  la imagen a escala de grises y a partir de la detecci&oacute;n del rostro de la persona, se realiza un escalado de manera que sus ojos queden  a una distancia de 20 p&iacute;xeles  y finalmente se selecciona una regi&oacute;n de la imagen que se extiende desde la mitad del rostro hacia arriba, con un ancho y alto no mayores de 100 p&iacute;xeles.  Si el rostro no fuese detectado, entonces la  imagen  es escalada a una altura  de 200 p&iacute;xeles. En la <a href="/img/revistas/rcci/v10n1/f0121116.jpg" target="_blank">figura 1</a> se muestra el resultado de aplicar este proceso para una imagen de ejemplo. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La idea fundamental de el preprocesamiento propuesto es eliminar la influencia que puede tener la distancia a la que fue tomada la imagen y garantizar lo mejor posible que el sombrero sea segmentado completamente del resto de la imagen. La imagen tambi&eacute;n se lleva a escala de grises.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Extracci&oacute;n de caracter&iacute;sticas </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como parte de la investigaci&oacute;n desarrollada en este  trabajo, en la b&uacute;squeda de la mejor  soluci&oacute;n al problema de la detecci&oacute;n de sombrero se probaron varios de los m&eacute;todos que se mencionan en la literatura para la extracci&oacute;n de las caracter&iacute;sticas de las im&aacute;genes y que han mostrado buenos resultados, estos son SIFT, SURF, DSIFT y su variante, PHOW.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Construcci&oacute;n del diccionario de Palabras  Visuales</strong> </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una vez detectados los puntos claves y extra&iacute;das las caracter&iacute;sticas con su descriptor, BoVW propone la creaci&oacute;n de un diccionario visual, un conjunto de palabras visuales,  con el fin de describir posteriormente las im&aacute;genes mediante la detecci&oacute;n de la ocurrencia de estas palabras  en ellas. La calidad del diccionario visual  tiene un impacto significativo sobre el &eacute;xito de los m&eacute;todos basados en BoVW. Muchos m&eacute;todos para la categorizaci&oacute;n de objetos  y escenas emplean m&eacute;todos de  aprendizaje no supervisado (por ejemplo, el agrupamiento k-means) para obtener  dicho diccionario visual, tomando  como palabras visuales  los centroides obtenidos para cada grupo en este proceso. <a href="/img/revistas/rcci/v10n1/f0221116.jpg" target="_blank">Ver figura 2 </a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se hicieron pruebas  con agrupamiento k-means usando  distancia Euclidiana y jer&aacute;rquico  aglomerativo con vinculaci&oacute;n media (average linkage, en ingl&eacute;s) usando distancia<em> X<sup>2</sup></em>, con el fin de determinar cu&aacute;l se ajustaba mejor al problema. Un aspecto fundamental en el rendimiento de estos m&eacute;todos es el tama&ntilde;o del diccionario, puesto que esto influye en la capacidad representativa y discriminativa de las palabras visuales  sobre las clases. A pesar de existir varios estudios sobre este tema, no existe ninguna regla para determinar a priori q&uacute;e tama&ntilde;o dar&aacute; los mejores  resultados. En art&iacute;culos  como (LAZEBNIK et al., 2010; BOSCH et al., 2007) se logran buenos resultados con una cantidad de palabras en el rango de entre las 100 y las 800.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Descriptores de las im&aacute;genes </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para describir las im&aacute;genes  se utilizo un esquema de <em>Emparejamiento Piramidal Espacial </em>(<em>Spatial Pyramid Matching </em>), donde se plantea el c&aacute;lculo  de histogramas de frecuencias de las palabras  visuales a distintas  resoluciones de la imagen. En algunos art&iacute;culos como (LARA &nbsp;and &nbsp;Jr., &nbsp;2011;  &nbsp;HADJIDEMETRIOU &nbsp;et &nbsp;al., 2004) las diferentes resoluciones se determinan mediante repetidos submuestreos de la imagen y computan  un histograma global de los valores de los p&iacute;xeles  para ese nivel, se var&iacute;a la resoluci&oacute;n a la que los rasgos  son calculados (valores  de los p&iacute;xeles),  pero la resoluci&oacute;n del  histograma (escala de intensidad)  se mantiene fija. En art&iacute;culos como (GRAUMAN and DARRELL, 2005; LAZEBNIK et al., 2010) se plantea un enfoque opuesto, fijar la resoluci&oacute;n a la que se determinan los rasgos, pero variar la resoluci&oacute;n espacial en la que son agregados. En este trabajo se propone un Emparejamiento Piramidal Espacial  variando ambas resoluciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para entender claramente esta estrategia y en q&uacute;e criterios se basan sus buenos resultados, primeramente se expondr&aacute; la formulaci&oacute;n original del kernel de <em>intersecci&oacute;n de histogramas </em>y de <em>emparejado piramidal</em>(GRAUMAN and DARRELL, 2005) y luego se introduce su aplicaci&oacute;n en la representaci&oacute;n de la imagen  en la soluci&oacute;n propuesta. </font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Kernel de Intersecci&oacute;n de Histogramas </font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sea</font> <img src="/img/revistas/rcci/v10n1/fo0121116.jpg" alt="fo01" width="159" height="21"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> un histograma de valores  reales no negativos de <em>d </em>intervalos. <strong>x </strong>pudiera representar una imagen (como  en la formulaci&oacute;n cl&aacute;sica del modelo de bolsa de palabras visuales)  o un parche de una imagen (como los descriptores SIFT). El <em>kernel de intersecci&oacute;n de histogramas KHI </em>se define como (WU et al., 2011):</font> </p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0221116.jpg" alt="fo02" width="262" height="57"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sea <em>X </em>y <em>Y </em>dos conjuntos de vectores  en un espacio de caracter&iacute;sticas <em>d</em>-dimensional. Grauman y Darrell (GRAUMAN and DARRELL, 2005) proponen el <em>emparejado piramidal </em>para  encontrar una correspondencia aproximada  entre estos dos conjuntos. Informalmente, la idea trabaja mediante la distribuci&oacute;n del espacio  de caracter&iacute;sticas  en una secuencia de rejillas  que van aumentando su n&uacute;mero de celdas (niveles de la pir&aacute;mide) y el c&aacute;lculo  de la suma ponderada  de la cantidad de correspondencias  detectadas en cada nivel. Se dice que dos puntos corresponden en un mismo nivel, si caen ubicados dentro de la misma  celda de la rejilla. Las correspondencias que se encuentran en un nivel m&aacute;s bajo, se ponderan  con un mayor valor que las que se encuentran en los primeros niveles. Espec&iacute;ficamente, se construye una secuencia de rejillas de resoluci&oacute;n 0<em>, ..., L</em>, tal que el n&uacute;mero de subregiones (celdas)  en el nivel <em>l </em>es de 2<em><sup>l</sup> &nbsp;</em>por cada dimensi&oacute;n, para un total de <em>D </em>= 2<em><sup>dl</sup></em>   subregiones. Sean</font> <img src="/img/revistas/rcci/v10n1/fo0321116.jpg" alt="fo03" width="24" height="22"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">y</font> <img src="/img/revistas/rcci/v10n1/fo0421116.jpg" alt="fo04" width="24" height="22">   <font size="2" face="Verdana, Arial, Helvetica, sans-serif">los histogramas de <em>X </em>y <em>Y </em>en el nivel <em>l</em>, entonces</font> <img src="/img/revistas/rcci/v10n1/fo0321116.jpg" alt="fo03" width="24" height="22"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(i)</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">y</font> <img src="/img/revistas/rcci/v10n1/fo0421116.jpg" alt="fo04" width="24" height="22"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(i)</font>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif">epresentan el n&uacute;mero de puntos de <em>X </em>y <em>Y </em>que est&aacute;n dentro de la</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>i</em>-&eacute;sima celda en el nivel <em>l </em>de resoluci&oacute;n. Entonces el n&uacute;mero aproximado  de emparejamientos entre <em>X </em>y <em>Y &nbsp;</em>en  el nivel <em>l </em>se determina mediante la <em>intersecci&oacute;n de</em> <em>histogramas <a href="/img/revistas/rcci/v10n1/f0321116.jpg" target="_blank"></a></em>a partir de la f&oacute;rmula 1 de la siguiente manera: </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0521116.jpg" alt="fo05" width="305" height="56"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">abreviadamente <em>I<sup>l</sup></em></font><font size="2"><em><sup></sup></em></font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El n&uacute;mero de emparejamientos encontrados  en el nivel <em>l </em>incluye a los encontrados  en el nivel <em>l </em>+ 1. Por tanto la cantidad  de nuevos emparejamientos est&aacute; dada por <em>I<sup>l</sup></em></font><font size="2"><em><sup></sup></em></font> <img src="/img/revistas/rcci/v10n1/fo0621116.jpg" alt="fo06" width="198" height="22"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">El peso asociado con el nivel <em>l </em>ser&aacute; </font><img src="/img/revistas/rcci/v10n1/fo0721116.jpg" alt="fo07" width="35" height="24"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">el cual es inversamente proporcional al tama&ntilde;o de las subregiones del nivel. Con lo que se busca penalizar las correspondencias encontradas en los niveles de las celdas m&aacute;s grandes,  ya que en estos se incrementa el n&uacute;mero de caracter&iacute;sticas disimilares. Se define un <em>kernel  &nbsp;de  &nbsp;emparejado &nbsp;piramidal  &nbsp;</em>como:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0821116.jpg" alt="fo08" width="340" height="120"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ambos kernels son funciones  sim&eacute;tricas y definidas  positivas, cumplen con los requisitos del Teorema de Mercer (GRAUMAN and DARRELL, 2005) y por tanto son kernels v&aacute;lidos para usar con un modelo SVM.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente, para determinar el descriptor de la imagen,  dado un diccionario de <em>M </em>palabras visuales, como el kernel de emparejamiento piramidal (ecuaci&oacute;n 3) es simplemente una suma ponderada de intersecci&oacute;n de histogramas y ya que <em>c </em>m&iacute;n(<em>a, b</em>) = m&iacute;n(<em>ca, cb</em>) para n&uacute;meros positivos, se puede describir  la imagen como un largo vector formado  por la concatenaci&oacute;n de los histogramas normalizados de todas las resoluciones ponderados apropiadamente y calcular <em>K<sup>L</sup> &nbsp;</em>como la intersecci&oacute;n de estos largos  histogramas (LAZEBNIK et al., 2010). </font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">El vector resultante tendr&aacute; dimensi&oacute;n <img src="/img/revistas/rcci/v10n1/fo0921116.jpg" alt="fo09" width="72" height="27"></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <em><a href="/img/revistas/rcci/v10n1/f0321116.jpg" target="_blank">figura 3</a></em> se  muestra un ejemplo de este proceso.</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Clasificaci&oacute;n </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El resultado de este proceso es la decisi&oacute;n sobre  la clase a la que pertenece  la imagen. Cada  imagen es reconocida como perteneciente a uno de los siguientes tipos: Personas  con sombrero, Personas  sin sombrero. Existen varias t&eacute;cnicas de clasificaci&oacute;n que han sido probadas para el modelo BoVW y han mostrado  buenos resultados. En este trabajo primeramente se desarroll&oacute; una idea basada en la aplicaci&oacute;n de una red Bayesiana de tres niveles. Posteriormente se decidi&oacute; cambiar esta idea por la creaci&oacute;n de un modelo  SVM dado que mostr&oacute; mejores tasas de clasificaci&oacute;n para el problema de dos clases que se plantea. </font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">EXPERIMENTOS</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para crear los diccionarios visuales  se seleccionaron 30 im&aacute;genes aleatorias del conjunto de entrenamiento, 20 de la clase <em>persona con sombrero </em>y 10 de la clase <em>persona sin sombrero</em>. A estas se le extrajeron los rasgos usando SURF, SIFT, DSIFT y PHOW, tomando por cada tipo de rasgo hasta un total de 100000 descriptores aleatorios para construir el diccionario visual mediante el algoritmo de agrupamiento <em>k-means</em>,  fijando como cantidad de grupos (palabras visuales) a generar, <em>M </em>= 100<em>, </em>200<em>, ..., </em>600. Para un total de 4<em>&times;</em>6 = 24 diccionarios.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir de los 24 diccionarios generados, es necesario  determinar cu&aacute;l se ajusta mejor al problema,  seleccionando as&iacute;, el m&eacute;todo de extracci&oacute;n de caracter&iacute;sticas  y la cantidad de palabras que usar&aacute; la soluci&oacute;n finalmente. Luego se realiz&oacute; otro experimento para determinar el valor de la constante <em>C </em>para  el modelo SVM a generar y la cantidad de niveles a tener en cuenta en el an&aacute;lisis espacial de modo que se minimice  el por ciento de error. Para conseguir esto se realizaron las siguientes etapas: </font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se seleccionaron  170 im&aacute;genes con un balance entre la cantidad por clase.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De las im&aacute;genes  se extraen 4 descriptores por cada uno de los 24 diccionarios,  los cuales representan los niveles de profundidad en el an&aacute;lisis espacial, <em>l </em>= 0<em>, </em>1<em>, </em>2<em>, </em>3. Para un total de 4 <em>&times; </em>24 = 96 representaciones     <br>   de las 170 im&aacute;genes.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para cada uno de ellos se realizaron 10 divisiones aleatorias sucesivas al 50 % usando una mitad para entrenar 4 modelos SVM con kernel de intersecci&oacute;n de histogramas y valores  distintos del par&aacute;metro <em>C </em>= 0.1<em>, </em>1<em>, </em>10<em>, </em>100 y la otra para probar, siempre  garantizando que las dos mitades queden  balanceadas en cuanto a la cantidad de im&aacute;genes  por clases.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el <a href="/img/revistas/rcci/v10n1/f0421116.jpg" target="_blank">gr&aacute;fico 4</a> se muestra  las combinaciones que mejor precisi&oacute;n alcanzaron para cada uno de los m&eacute;todos de extracci&oacute;n de caracter&iacute;sticas</font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un resumen de los resultados obtenidos  para los diccionarios generados mediante el m&eacute;todo PHOW hasta  nivel 2 de profundidad se representa en el <a href="/img/revistas/rcci/v10n1/f0521116.jpg" target="_blank">gr&aacute;fico 5</a>,  donde se observa hasta aproximadamente un 6 % de error  como promedio en las 10 divisiones aleatoria  en algunos casos, as&iacute; como para diccionarios peque&ntilde;os es mejor seguir un enfoque espacial  mientras para los m&aacute;s grandes analizar solo la imagen completa es lo m&aacute;s conveniente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir de estos resultados, se procedi&oacute; a la clasificaci&oacute;n de las restantes 100 im&aacute;genes usando solo PHOW, para determinar el m&eacute;todo de extracci&oacute;n de caracter&iacute;sticas, la cantidad  de palabras y el nivel de profundidad para el an&aacute;lisis  espacial de mejor precisi&oacute;n. La <a href="/img/revistas/rcci/v10n1/t0121116.jpg" target="_blank">tabla 1</a> muestra los resultados obtenidos para estos experimentos.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Analizando los valores mostrados  en la <a href="/img/revistas/rcci/v10n1/t0121116.jpg" target="_blank">tabla 1</a> para PHOW, se nota que procesar la imagen de manera global (nivel 0), as&iacute; como descender demasiado (hasta nivel 2), produce resultados poco estables, obteni&eacute;ndose hasta una precisi&oacute;n por debajo del 90 %. Mientras que para el nivel 1, se registran valores de precisi&oacute;n m&aacute;s estables  para todos los tama&ntilde;os del vocabulario visual,  superando en todos los casos el 91 %. A su vez, se tiene que el tama&ntilde;o del vocabulario con mejores &iacute;ndices de precisi&oacute;n es <em>M </em>= 200, alcanzando hasta 93 % y mostrando los  mejores valores para los primeros niveles, factor decisivo en la eficiencia ya que estos son los que operan con vectores de menor dimensi&oacute;n y por tanto generan un menor n&uacute;mero de operaciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si a esto se a&ntilde;ade que para la variante PHOW, el <a href="/img/revistas/rcci/v10n1/f0521116.jpg" target="_blank">gr&aacute;fico 5</a> muestra que el nivel 1 fue el m&aacute;s estable, reportando el segundo valor m&iacute;nimo de error general con un tama&ntilde;o del vocabulario visual  de <em>M </em>= 200; se justifica proponer como soluci&oacute;n final un m&eacute;todo de reconocimiento de patrones basado  en BoVW con la siguiente configuraci&oacute;n:</font></p> <ol>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PHOW como m&eacute;todo de extracci&oacute;n de rasgos  de las im&aacute;genes.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Diccionario visual  de tama&ntilde;o <em>M </em>=  200.</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Describir las im&aacute;genes  mediante vectores de 1000 componentes, formados a partir de la concatenaci&oacute;n de los histogramas locales obtenidos  de la divisi&oacute;n de la imagen en 4 regiones a lo sumo (descender  en el an&aacute;lisis espacial hasta un nivel de profundidad <em>l </em>= 1), para dar una respuesta lo m&aacute;s r&aacute;pido posible sin  perder demasiado en precisi&oacute;n.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente clasificar las nuevas im&aacute;genes a partir de un modelo SVM con kernel de intersecci&oacute;n de histogramas con par&aacute;metro  de holgura <em>C </em>= 10 y previamente entrenado  con el conjunto de 170 im&aacute;genes.</font></p>   </li>     </ol>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Usando el enfoque de BoVW con clasificaci&oacute;n basada en SVM se desarroll&oacute; un nuevo m&eacute;todo eficaz para detectar  la presencia de sombreros en im&aacute;genes  de rostro con  fondo uniforme, brindando una soluci&oacute;n completa para este problema que ya ha sido  implementada en lenguaje <em>C </em>+  + y agregada a uno de los  proyecto aplicados del CENATAV que busca determinar de la calidad  de las im&aacute;genes de rostro y por tanto el valor identificativo que poseen.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BOSCH, A., ZISSERMAN, A., and MUNOZ,  X. (2007). &nbsp;Image classification using random forests  and ferns. In <em>IEEE International Conference on Computer  Vision</em>.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FERRARA, M., FRANCO, A., MAIO, D., and MALTONI, D. (2012). Face image conformance to iso/icao standards in machine readable travel documents. <em>IEEE Transactions on Information Forensics  and Security</em>.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GRAUMAN, K. and DARRELL, T. (2005). The pyramid match kernel: Discriminative classification with sets of image features. In <em>IN ICCV</em>,  pages 1458&ndash;1465.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HADJIDEMETRIOU, E., GROSSBERG, M., and NAYAR, S. (2004). Multiresolution Histograms and Their Use for Recognition. <em>Pattern  Analysis and Machine Intelligence, IEEE Transactions on</em>, 26:831&ndash;847. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LARA, A. C. and Jr., R. H. (2011).  Combining features  to a class-specific model in an instance  detection framework. In Lewiner, T. and da Silva Torres, R., editors, <em>SIBGRAPI</em>, pages 165&ndash;172.  IEEE Computer Society.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAZEBNIK, S., SCHMID, C., and PONCE,  J. (2010). Beyond bags of features:  Spatial pyramid matching for recognizing natural scene categories. In <em>Proceedings of the 2006 IEEE Computer Society Conference on  Computer Vision and Pattern Recognition</em>, pages 2169&ndash;2178. IEEE Computer Society. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOWE, D. G. (2004). Distinctive image features  from scale-invariant keypoints. <em>Int. J. Comput. Vision</em>, pages 91&ndash;110. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEDALDI, A. and FULKERSON, B. (2010). Vlfeat:  An open and portable library of computer  vision algorithms. In <em>Proceedings of the International Conference on Multimedia</em>, MM &rsquo;10, pages 1469&ndash;1472. ACM.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WU, J., TAN, W.-C.,  and REHG, J. M. (2011).  Efficient and effective visual codebook generation using additive kernels. <em>J. Mach. Learn. Res.</em>,  pages 3097&ndash;3118. </font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 01/10/2015    <br> Aceptado: 20/12/2015</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BOSCH]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MUNOZ]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<source><![CDATA[Image classification using random forests and ferns.]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FERRARA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[FRANCO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MAIO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MALTONI]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Face image conformance to iso/icao standards in machine readable travel documents.]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRAUMAN]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[DARRELL]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[The pyramid match kernel: Discriminative classification with sets of image features.]]></source>
<year>2005</year>
<page-range>pages 1458-1465</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HADJIDEMETRIOU]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[GROSSBERG]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[NAYAR]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Multiresolution Histograms and Their Use for Recognition.]]></source>
<year>2004</year>
<volume>26</volume>
<page-range>831-847</page-range><publisher-name><![CDATA[IEEE Transactions]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LARA]]></surname>
<given-names><![CDATA[A. C]]></given-names>
</name>
<name>
<surname><![CDATA[R. H.]]></surname>
<given-names><![CDATA[Jr]]></given-names>
</name>
</person-group>
<source><![CDATA[Combining features to a class-specific model in an instance detection framework.]]></source>
<year>2011</year>
<page-range>165-172</page-range><publisher-name><![CDATA[IEEE Computer Society.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAZEBNIK]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMID]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[PONCE]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories.]]></source>
<year>2010</year>
<page-range>pages 2169-2178</page-range><publisher-name><![CDATA[IEEE Computer Society]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOWE]]></surname>
<given-names><![CDATA[D. G]]></given-names>
</name>
</person-group>
<source><![CDATA[Distinctive image features from scale-invariant keypoints.]]></source>
<year>2004</year>
<page-range>pages 91-110</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEDALDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[FULKERSON]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Vlfeat: An open and portable library of computer vision algorithms.]]></source>
<year>2010</year>
<page-range>pages 1469-1472</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[TAN]]></surname>
<given-names><![CDATA[W.-C]]></given-names>
</name>
<name>
<surname><![CDATA[REHG]]></surname>
<given-names><![CDATA[J. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Efficient and effective visual codebook generation using additive kernels.]]></source>
<year>2011</year>
<page-range>pages 3097-3118.</page-range><publisher-name><![CDATA[J. Mach. Learn. Res.,]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
