<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000100017</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Detectores espacio-temporales para la detección de rostros en video]]></article-title>
<article-title xml:lang="en"><![CDATA[Spatio-temporal detectors for face detection in video]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Martínez-Díaz]]></surname>
<given-names><![CDATA[Yoanna]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[Noslen]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Méndez-Vázquez]]></surname>
<given-names><![CDATA[Heydi]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV)  ]]></institution>
<addr-line><![CDATA[Playa Habana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Pontifícia Universidade Católica do Rio de Janeiro  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Brasil</country>
</aff>
<pub-date pub-type="pub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>1</numero>
<fpage>205</fpage>
<lpage>214</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000100017&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000100017&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000100017&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN La detección de rostros es el primer paso en muchas aplicaciones de video como la video vigilancia, el análisis de expresiones faciales, el seguimiento y el reconocimiento de rostros. Varios algoritmos han sido propuestos para llevar a cabo esta tarea; sin embargo, la mayoría de ellos se basan en técnicas para imágenes fijas y no consideran la información espacio-temporal existente en un video. En este trabajo se desarrollan dos detectores de rostros espacio-temporales, los cuales son evaluados en la base de datos YouTube Faces. Los resultados alcanzados son comparados con los obtenidos por dos detectores que se basan únicamente en la información espacial.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT Face detection is the first step in many video applications such as video surveillance, facial expression analysis, face tracking and face recognition. Several algorithms have been proposed to this task, but most of them are based on techniques for still images, not considering the spatio-temporal information available in a video. In this paper two spatio-temporal face detectors are developed and evaluated on the challenging YouTube Faces database. The obtained results are compared with those obtained by two frame-based approaches.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[detección de rostros]]></kwd>
<kwd lng="es"><![CDATA[video]]></kwd>
<kwd lng="es"><![CDATA[representación espacio-temporal]]></kwd>
<kwd lng="en"><![CDATA[face detection]]></kwd>
<kwd lng="en"><![CDATA[video]]></kwd>
<kwd lng="en"><![CDATA[spatio-temporal representation]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Detectores espacio-temporales para la detecci&oacute;n de rostros  en video</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Spatio-temporal detectors for face detection  in video</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Yoanna Mart&iacute;nez-D&iacute;az<strong><sup>1*</sup></strong>, Noslen Hern&aacute;ndez<strong><sup>2</sup></strong>, Heydi M&eacute;ndez-V&aacute;zquez</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Centro de Aplicaciones de Tecnolog&iacute;as de Avanzada (CENATAV). Avenida 7ma A<em># </em>21406 % 214 y 216, Siboney, Playa, P.C. 12200, Habana, Cuba. <em>{</em>ymartinez,hmendez<em>}</em>@cenatav.co.cu    <br> <sup>2</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Pontif&iacute;cia Universidade  Cat&oacute;lica do Rio de Janeiro, Brasil. <a href="mailto:nhernandez@gmail.com">nhernandez@gmail.com</a></font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:%20usuario@dominio.com">ymartinez@cenatav.co.cu</a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La detecci&oacute;n de rostros  es el primer paso en muchas aplicaciones de video como la video  vigilancia, el an&aacute;lisis  de expresiones faciales, el seguimiento y el reconocimiento de rostros. Varios algoritmos  han sido propuestos para llevar a cabo esta tarea; sin embargo, la mayor&iacute;a de ellos se basan en t&eacute;cnicas para im&aacute;genes  fijas y no consideran la informaci&oacute;n espacio-temporal existente en un video. En este trabajo se desarrollan dos detectores de rostros espacio-temporales, los cuales son evaluados  en la base de datos <em>YouTube Faces</em>. Los resultados alcanzados son comparados con los obtenidos  por dos detectores que se basan &uacute;nicamente en la informaci&oacute;n espacial. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">detecci&oacute;n de rostros, video, representaci&oacute;n espacio-temporal</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Face detection is the first step in many video applications such as video surveillance, facial expression analysis, face tracking  and face recognition. Several algorithms have been proposed to this task, but most of them are based on techniques for still images, not considering the spatio-temporal information  available in a video.  In this paper two spatio-temporal face detectors are developed and evaluated on the challenging YouTube Faces database. The obtained results are compared with those obtained by two frame-based approaches.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>face detection, video, spatio-temporal representation</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La detecci&oacute;n de rostros se ha convertido  en una de las &aacute;reas m&aacute;s investigadas por la comunidad  cient&iacute;fica (ZHANG and ZHANG, 2010), consider&aacute;ndose en muchos sistemas autom&aacute;ticos  de video como el primer paso a realizar. Sin embargo,  la mayor&iacute;a de los procesamientos posteriores suponen que ya el rostro  ha sido detectado. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Diversos m&eacute;todos han sido propuestos en la literatura para resolver el problema  de la detecci&oacute;n de rostros  en video. Entre los enfoques existentes, aquellos  que resuelven el problema  cuadro a cuadro  han sido uno de los m&aacute;s usados (FROBA and KUBLBECK, 2004; WAEL, 2011). Estos m&eacute;todos han sido desarrollados originalmente para detectar los rostros en im&aacute;genes  fijas, por lo que no tienen  en cuenta la correspondencia temporal existente entre los cuadros  consecutivos de un video.  En este caso, cada cuadro  del video es analizado de manera independiente, como si se tratara de una nueva imagen, lo que cual hace m&aacute;s lento el proceso. Por otra parte, se han utilizado algoritmos de detecci&oacute;n de movimiento con el fin de detectar el rostro (NASCIMENTO and MARQUES, 2006). Sin embargo,  la mayor&iacute;a de estos m&eacute;todos solo dan buenos  resultados en entornos est&aacute;ticos  o donde el fondo cambia lentamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A pesar de los resultados alcanzados mediante el uso de descriptores espacio-temporales en diferentes aplicaciones de an&aacute;lisis  facial (BARR et al., 2012), se le ha prestado muy poca atenci&oacute;n a su uso en el contexto de la detecci&oacute;n de rostros en video. Representaciones como los vol&uacute;menes de patrones  binarios locales (VLBP, por sus siglas en ingl&eacute;s) (ZHAO and MATTI, 2007), el conjunto extendido de los VLBP (EVLBP) (HADID and PIETIKA INEN, 2009) y recientemente, los vol&uacute;menes de caracter&iacute;sticas ordinales  estructuradas (VSOF, por sus siglas en ingl&eacute;s) (MENDEZ-VAZQUEZ et al., 2013) han sido usadas satisfactoriamente en aplicaciones como el reconocimiento de rostros, de expresiones faciales  y la clasificaci&oacute;n de g&eacute;nero; mostrando adem&aacute;s, los beneficios de integrar la coherencia temporal y espacial de la apariencia del rostro.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recientemente en MARTINEZ-DIAZ et al. (2013) fue propuesto un nuevo enfoque para la clasificaci&oacute;n en rostro/no-rostro de secuencias de video. En este trabajo se muestra que el uso del descriptor espacio-temporal EVLBP mejora la eficacia del clasificador <em>Adaboost </em>y se obtienen mejores resultados en comparaci&oacute;n con tres enfoques que solo utilizan la informaci&oacute;n espacial. Sin embargo, los autores de este trabajo solo se centran en decidir si una secuencia  dada es un rostro o no, mientras que en un escenario real todo el video deber&iacute;a poder  ser analizado y cada zona candidata clasificada como rostro/no-rostro; dando como salida final la posici&oacute;n de cada uno de los rostros detectados  en el video. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el presente trabajo se proponen dos detectores espacio-temporales para la detecci&oacute;n de rostros  en secuencias de video. Primero, teniendo  en cuenta los resultados preliminares obtenidos en MARTINEZ-DIAZ  et al. (2013), se desarroll&oacute; un detector  basado en el descriptor EVLBP. Segundo, motivados por las mejoras  alcanzadas por el descriptor VSOF sobre el descriptor EVLBP en el reconocimiento facial  en video, decidimos  extender su aplicaci&oacute;n al caso de la detecci&oacute;n de rostros; creando as&iacute; un detector  de rostros basado en dicho descriptor. Por &uacute;ltimo, el desempen&tilde;o de ambos detectores es evaluado  y comparado con otros detectores  disen&tilde;ados para im&aacute;genes fijas, con el objetivo de mostrar las ventajas de nuestra propuesta. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Detectores de rostros espacio-temporales </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los detectores de rostros  que se proponen en este trabajo utilizan: (1) un descriptor espacio-temporal para codificar tanto la informaci&oacute;n espacial como la temporal de cuadros  consecutivos en un video; (2) un algoritmo <em>boosting </em>para seleccionar y aprender de manera autom&aacute;tica los rasgos m&aacute;s discriminativos y (3) un esquema de cascada de clasificadores para acelerar el proceso de la detecci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La mayor&iacute;a de los descriptores espacio-temporales propuestos en la literatura  son extensiones al dominio del video, de descriptores basados  en la apariencia local. Por ejemplo,  el VLBP (ZHAO and MATTI, 2007) es la primera  extensi&oacute;n del descriptor LBP, el cual trata una secuencia de video como un prisma  rectangular, comparando cada p&iacute;xel no solo con sus p&iacute;xeles  vecinos en el dominio  espacial sino tambi&eacute;n con los de sus cuadros m&aacute;s cercanos. Luego,  en HADID and PIETIKAINEN (2009), se propone el conjunto extendido del VLBP (EVLBP), siendo este un descriptor m&aacute;s flexible ya que permite usar varios par&aacute;metros  de configuraci&oacute;n como diferentes radios, n&uacute;mero de puntos de muestreo  e intervalos de tiempo. El operador EVLBP para cada p&iacute;xel en cada cuadro se obtiene de la siguiente manera: </font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n1/fo0117116.jpg" alt="fo01" width="315" height="47"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>t<sub>c</sub> </em>corresponde al cuadro del p&iacute;xel del centro <em>c </em>y <em>t </em>es cada cuadro usado en el proceso de codificaci&oacute;n; <em>L </em>es el intervalo de tiempo entre los cuadros  codificados, de modo que</font> <img src="/img/revistas/rcci/v10n1/fo0217116.jpg" alt="fo02" width="254" height="20"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">es el radio para la selecci&oacute;n de los  p&iacute;xeles vecinos; <em>M </em>= <em>P </em>+ 2<em>Q </em>+ 2<em>S </em>es n&uacute;mero total  de p&iacute;xeles codificados,  elegidos de la siguiente forma: <em>P </em>p&iacute;xeles del cuadro <em>t</em>, <em>Q </em>del cuadro <em>&plusmn;t </em>y <em>S </em>del cuadro <em>&plusmn;</em>2<em>t</em>, </font><img src="/img/revistas/rcci/v10n1/fo0317116.jpg" alt="fo03" width="31" height="20"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">es el valor de intensidad del p&iacute;xel del centro y <em>I<sub>t,m</sub> </em>del p&iacute;xel <em>m </em>en el cuadro <em>t</em>; <em>s{f } &isin; {</em>0<em>, </em>1<em>} </em>es un indicador booleano de la condici&oacute;n <em>f </em>.</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recientemente en MENDEZ-VAZQUEZ et al. (2013),  los autores inspirados en el descriptor EVLBP, propusieron el descriptor VSOF, el cual mantiene la misma configuraci&oacute;n flexible lo que en lugar de comparar directamente los valores  de los p&iacute;xeles, compara los valores promedios  de regiones. El tama&ntilde;o o escala de estas regiones puede ser diferente para cada configuraci&oacute;n. De esta forma, estructuras m&aacute;s complejas pueden ser representadas.  El descriptor VSOF, a una escala <em>N </em>dada (taman&tilde;o de las regiones <em>N &times; N </em>), se puede obtener reescribiendo la eq.(1) de la siguiente manera:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0417116.jpg" alt="fo04" width="322" height="53"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>c </em>es la posici&oacute;n central de la regi&oacute;n del centro y <em>gi </em>es la intensidad promedio  de la regi&oacute;n <em>i</em>. En la <a href="#f01">Figura 1</a> se muestra un ejemplo  de un c&oacute;digo VSOF obtenido usando <em>L </em>= 2<em>, P </em>= 4<em>, Q </em>= 3<em>, S </em>= 1<em>, R </em>= 3<em>, N </em>= 3.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/f0117116.jpg" alt="f01" width="499" height="223"><a name="f01"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Note que, el descriptor EVLBP es un caso del VSOF cuando <em>N </em>= 1. Para grandes  escalas, o sea, <em>N &gt; </em>1, la imagen integral es usada para calcular los valores de intensidad promedio  de cada una de las regiones, lo cual reduce el costo computacional. Tanto para el descriptor EVLBP como para el VSOF, mediante el uso de diferentes configuraciones de par&aacute;metros,  se obtienen un conjunto extenso de c&oacute;digos  (conjunto exhaustivo). En trabajos previos  (HADID and PIETIKAINEN, 2009; MARTINEZ-DIAZ et al., 2013; MENDEZ-VAZQUEZet al., 2013) se han utilizado  la distribuci&oacute;n de estos  c&oacute;digos (histogramas) para describir las secuencias de video; donde cada elemento o caracter&iacute;stica del vector que se obtiene corresponde a un bin del histograma para una configuraci&oacute;n dada. En este trabajo vamos a explorar  adem&aacute;s, el uso directo de los c&oacute;digos  como representaci&oacute;n, tanto para el descriptor EVLBP  como para el VSOF. En este caso, cada elemento del vector que se obtiene representa un c&oacute;digo con una configuraci&oacute;n en una posici&oacute;n dada. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un aspecto importante en este tipo de descriptores para el caso de la detecci&oacute;n, es el n&uacute;mero de de cuadros (<em>M </em>) a usar en la codificaci&oacute;n; ya que si us&aacute;ramos  muchos cuadros podr&iacute;amos  estar incluyendo en la codificaci&oacute;n informaci&oacute;n adicional como es el caso del fondo. Sin embargo,  si se utilizara un n&uacute;mero muy peque&ntilde;o de cuadros se podr&iacute;a perder informaci&oacute;n espacio-temporal discriminativa, y se requerir&iacute;a m&aacute;s tiempo para procesar el video  completo. Por tanto, es necesario  encontrar un compromiso entre asegurar  que solo la informaci&oacute;n del rostro sea representada, minimizando la variabilidad que se codifica, y maximizar el n&uacute;mero de cuadros a utilizar.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se mencion&oacute; anteriormente, tanto el descriptor EVLBP como el VSOF permiten utilizar  varios par&aacute;me- tros de configuraci&oacute;n, lo que genera un gran conjunto de rasgos. Con el objetivo de seleccionar aquellos  rasgos m&aacute;s discriminativos y as&iacute; eliminar  informaci&oacute;n redundante, aplicamos  un algoritmo <em>boosting</em>. En la literatura se han propuesto diferentes variantes de algoritmos <em>boosting </em>para la detecci&oacute;n de rostros (ZHANG and ZHANG, 2010). En este trabajo se utiliza  el algoritmo <em>GentleBoost </em>(FRIEDMAN et al., 1998) ya que es f&aacute;cil de implementar y ha mostrado  mejores resultados que otras variantes. Para ambos descriptores (EVLBP y VSOF), en el caso de la representaci&oacute;n por histogramas, empleamos  como clasificadores d&eacute;biles  los <em>regression stumps</em>; mientras que para el caso de la representaci&oacute;n basada c&oacute;digos, utilizamos &aacute;rboles de regresi&oacute;n de m&uacute;ltiples ramas; ya que estos son caracter&iacute;sticas no m&eacute;tricas  y no es posible utilizar funciones de umbralizaci&oacute;n. Para la construcci&oacute;n de la cascada  de clasificadores <em>boosting </em>se sigui&oacute; el esquema  de Viola y Jones (VIOLA and JONES, 2004).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para estos detectores espacio-temporales,  en lugar de usar una ventana deslizante como para el caso de las im&aacute;genes,  vamos a utilizar un prisma o cubo deslizante de profundidad <em>M </em>; para buscar en todo el video a distintas escalas y ubicaciones, determinando cuando una regi&oacute;n se corresponde o no con un rostro. De esta forma, no necesitamos escanear  cada cuadro del video sino solo cada <em>M </em>cuadros consecutivos, lo que reduce el tiempo de c&aacute;lculo  comparado con los algoritmos que realizan la detecci&oacute;n cuadro a cuadro. As&iacute;, cuando un  cubo es clasificado como rostro, vamos a tener la misma detecci&oacute;n en los <em>M </em>cuadros que pertenecen al cubo detectado. De igual manera cuando el detector falle u obtenga  un falso positivo vamos a perder el rostro o a mantener el falso positivo en los <em>M </em>cuadros correspondientes.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otra parte, se propuso un m&eacute;todo de pos-procesamiento para unir m&uacute;ltiples detecciones que se encuentren sobre un mismo objeto. Para esto,  agrupamos todas las detecciones obtenidas en un cubo basados en una  medida de disimilitud, la cual tiene en cuenta dos aspectos fundamentales: (1) el &aacute;rea compartida por dos detecciones, no solo en t&eacute;rminos de cantidad sino tambi&eacute;n en t&eacute;rminos  de significancia de la regi&oacute;n de inter- secci&oacute;n y (2) la diferencia  de escala entre las dos detecciones. Para garantizar el primer aspecto tenemos una  distribuci&oacute;n de importancia  de la regi&oacute;n (<em>G<sub>s</sub></em>) para la plantilla de detecci&oacute;n en cada escala <em>s</em>; tal que mientras m&aacute;s cercana est&eacute; la regi&oacute;n al centro de la plantilla, mayor significancia tendr&aacute; esta (para esto se us&oacute; una densidad gaussiana bivariada). De esta forma se tiene en cuenta la ubicaci&oacute;n del &aacute;rea de intersecci&oacute;n dentro de cada detecci&oacute;n. La medida de disimilitud usada, puede ser formalizada para dos detecciones <em>d<sub>i</sub> </em>y <em>d<sub>j</sub> &nbsp;</em>como:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0517116.jpg" alt="fo05" width="426" height="34"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <img src="/img/revistas/rcci/v10n1/fo0617116.jpg" alt="fo06" width="62" height="22">son las escales de <em>d<sub>i</sub> </em>y <em>d<sub>j</sub> </em>, respectivamente. </font><img src="/img/revistas/rcci/v10n1/fo0717116.jpg" alt="fo07" width="79" height="27"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">dan la contribuci&oacute;n del &aacute;rea de intersecci&oacute;n <em>I</em>(<em><em>d<sub>i</sub> , d<sub>j</sub> </em></em>); mientras que</font> <img src="/img/revistas/rcci/v10n1/fo0817116.jpg" alt="fo08" width="66" height="22"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> penaliza la diferencia de escala, tal que mientras mayor sea esta diferencia mayor ser&aacute; la penalizaci&oacute;n y por consiguiente, menor ser&aacute; el valor de</font> <img src="/img/revistas/rcci/v10n1/fo0817116.jpg" alt="fo08" width="66" height="22"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">. El intervalo de valores de <em>p </em>oscila entre (0 <em>&minus; </em>1]. Note que, la disimilitud</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">D(<em><em>d<sub>i</sub> , d<sub>j</sub></em></em>) toma valor 0 cuando<em><em> d<sub>i</sub> y d<sub>j</sub></em></em> concuerdan completamente, es decir, son iguales y toma valor 1 cuando<em><em><em> d<sub>i</sub> y d<sub>j</sub></em></em>&nbsp;</em>no se intersecan. El algoritmo de agrupamiento utilizado fue el <em>average-linkage</em>. Una vez que se obtienen los grupos, aquellos con menos de tres detecciones fueron eliminados; mientras que de cada uno de los grupos restantes solo se consider&oacute; la detecci&oacute;n que  tuviera el mayor valor de confianza, el cual est&aacute; dado por el valor del clasificador.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En &nbsp;el &nbsp;caso &nbsp;de &nbsp;la &nbsp;detecci&oacute;n &nbsp;de &nbsp;rostros &nbsp;en &nbsp;videos &nbsp;sigue  &nbsp;siendo  &nbsp;dif&iacute;cil  &nbsp;comparar  &nbsp;diferentes &nbsp;algoritmos, &nbsp;debido a la falta  &nbsp;de  &nbsp;un  &nbsp;banco  &nbsp;de  &nbsp;prueba  &nbsp;que  &nbsp;permita &nbsp;usar &nbsp;protocolos  &nbsp;de  &nbsp;evaluaci&oacute;n  &nbsp;comunes. Adem&aacute;s,  &nbsp;la  &nbsp;mayor&iacute;a de las bases de datos de videos  existentes no fueron dise&ntilde;adas espec&iacute;ficamente para esta tarea y no reflejan algunos aspectos que se manifiestan en los escenarios  reales. Por estas razones en este trabajo decidimos realizar nuestros experimentos en la base de datos <em>YouTube Faces </em>(WOLF et al., 2011); la cual contiene 3425 videos de 1595 personas con distintas expresiones, condiciones de iluminaci&oacute;n, poses, resoluciones y fondos. En esta  secci&oacute;n se realizaron dos experimentos fundamentales. En el primer  experimento se comparan  los descriptores EVLBP y VSOF y en el segundo  experimento se describe la construcci&oacute;n de los detectores propuestos y se evalu&aacute;  &nbsp;su  &nbsp;desempe&ntilde;o</font>. </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Comparaci&oacute;n  &nbsp;de  &nbsp;las  &nbsp;representaciones &nbsp;espacio-temporales </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este experimento se compara el poder discriminativo de la representaci&oacute;n por c&oacute;digos y por histogramas  para ambos descriptores (EVLBP, VSOF). Por lo que solo nos vamos a centrar en la clasificaci&oacute;n en rostro/no- rostro, o sea, en decir si una muestra dada es o no un rostro.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con este prop&oacute;sito, seleccionamos prismas  rectangulares (cubos) de muestras positivas (rostros) y muestras negativas (no-rostros) usando <em>M </em>= 14. El valor de <em>M </em>fue seleccionando teniendo en cuenta el trabajo realizado en MARTINEZ-DIAZ et al. (2013). Para los cubos positivos se utiliz&oacute; la anotaci&oacute;n del rostro  en cada cuadro del video,  proporcionada por la base de datos.  Dado que la posici&oacute;n del  rostro en cada  cuadro no es la misma, el volumen real que se forma con las anotaciones de los 14 cuadros  consecutivos no forma necesariamente un prisma  rectangular. Por tanto, para poder capturar tanto como fuese posible los desplazamientos reales del rostro, seleccionamos el prisma rectangular de mayor intersecci&oacute;n con el volumen real. En el caso de las muestras  negativas, los cubos se extrajeron aleatoriamente del fondo  de los videos donde no hubieran  rostros.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En total se seleccionaron 40000 cubos positivos (rostros) y 70000 cubos negativos (no-rostros) de tama&ntilde;o  40 <em>&times; </em>40 <em>&times; </em>14. De estos, se tomaron  10000 rostros y 10000 no-rostros para el entrenamiento y el resto para la prueba. Se us&oacute; como clasificador el <em>GentleBoost </em>con 100 clasificadores d&eacute;biles.  Los descriptores EVLBP y VSOF fueron  extra&iacute;dos como se explic&oacute; en la secci&oacute;n anterior,  usando diferentes configuraciones de par&aacute;metros.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v10n1/t0117116.jpg" target="_blank">Tabla 1</a> se muestran algunas  caracter&iacute;sticas  de las representaciones utilizadas tales como el tama&ntilde;o de los vectores de rasgos y el tiempo promedio de extracci&oacute;n (en segundos)  de estos. Adem&aacute;s se muestran  los resultados de la clasificaci&oacute;n en t&eacute;rminos de tasa de de Falsos Negativos (FN) y Falsos Positivos (FP). Como se puede observar el descriptor VSOF obtiene mejores resultados  que el EVLBP tanto usando la presentaci&oacute;n por c&oacute;digos como por histogramas. Para ambos descriptores el uso de los c&oacute;digos directamente supera la representaci&oacute;n por histogramas tanto en eficacia como en eficiencia; a pesar de que el tama&ntilde;o de los vectores de estos &uacute;ltimos es menor. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo en cuenta los resultados obtenidos, construimos nuestros detectores basados  en la representaci&oacute;n por  c&oacute;digos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Evaluaci&oacute;n de los detectores </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este experimento los dos detectores  de rostros propuestos son dise&ntilde;ados y creados usando el esquema de Viola y Jones. El procedimiento para ambos detectores es el mismo solo se van a diferenciar en los descriptores usados para la representaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el entrenamiento de la cascada se utilizaron 21350 cubos de rostros  del experimento anterior y 21350 cubos  de no-rostros, los cuales fueron seleccionados de 300 videos descargados de internet que no contienen ning&uacute;n rostro. Despu&eacute;s que cada etapa es entrenada, se utiliza la estrategia <em>bootstrap </em>para  obtener muestras negativas  mal clasificadas por la cascada entrenada hasta ese momento; las cuales ser&aacute;n usadas en el entrenamiento de  la pr&oacute;xima etapa. La tasa m&aacute;xima de falsas alarmas y la tasa m&iacute;nima de detecci&oacute;n establecidas fueron de 0.5 y 0.995, respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como resultado obtuvimos dos detectores de 14 etapas cada uno. El detector-EVLBP con un total de 114 rasgos y el detector-VSOF con 98 rasgos.  Ambos fueron evaluados y comparados con dos detectores cuadro a cuadro, tambi&eacute;n de 14 etapas: el detector-Haar con 180 rasgos en total y el detector-LBP con 82 rasgos. Estos dos  &uacute;ltimos fueron  creados usando la implementaci&oacute;n de la <em>OpenCV</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para la evaluaci&oacute;n se utilizaron 133 videos de la base de datos <em>YouTube Faces</em>, diferentes a los empleados para el entrenamiento. Esta base de datos solo proporciona  la anotaci&oacute;n de un rostro; sin embargo  existen algunos  videos que presentan m&aacute;s  de un rostro. Por lo  que nosotros, manualmente, anotamos estos videos con  el objetivo de poder evaluar nuestros detectores  ante la presencia de m&uacute;ltiples  rostros.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los resultados obtenidos se muestran en la Tabla 2 en  t&eacute;rminos de tasa de detecci&oacute;n y falsas alarmas  por cuadro. Una respuesta de un detector  se considera una detecci&oacute;n correcta basado en el siguiente criterio: </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/fo0917116.jpg" alt="fo09" width="192" height="50"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>d<sub>i</sub> </em>es la detecci&oacute;n obtenida  y <em>g<sub>i</sub> </em>corresponde a la anotaci&oacute;n verdadera.  Finalmente, si el <em>score &gt; </em>0<em>,</em>5, la detecci&oacute;n obtenida  se considera como correcta.</font> </p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De la tabla se puede observar que el detector-VSOF supera al resto de los detectores con menor n&uacute;mero de falsas alarmas por cuadro. A pesar de que los detectores  EVLBP y LBP logran similares  tasas de detecci&oacute;n, el detector-LBP produce muchas m&aacute;s  falsas alarmas. En la <a href="#t02">tabla 2</a> se muestran algunos resultados de los detectores en 5 cuadros  representativos de dos secuencias de video. Como se puede apreciar,  usando la informaci&oacute;n espacio-temporales se logra un mejor comportamiento con menor cantidad falsas alarmas.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/t0217116.jpg" alt="t02" width="556" height="134"></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se propusieron dos detectores de rostros, los cuales se basan en la informaci&oacute;n espacial y  temporal disponible en un video. Para ello se utilizaron descriptores espacio-temporales que permiten codificar y representar los patrones del rostro en un conjunto de cuadros consecutivos. Los experimentos realizados en la base de datos <em>YouTube Face&nbsp; </em>mostraron que tanto para el descriptor EVLBP  como para el VSOF la representaci&oacute;n basada en c&oacute;digos es m&aacute;s eficiente y m&aacute;s discrimnativa que la representaci&oacute;n por histogramas. Adem&aacute;s, los detectores desarrollados mostraron mejor comportamiento y resultados m&aacute;s exactos  que detectores que solo consideran la informaci&oacute;n espacial. Nuestro  trabajo futuro estar&aacute; enfocado en el desarrollo de un m&eacute;todo que nos permita asociar las detecciones obtenidas  para as&iacute; construir  la trayectoria de cada uno de los rostros presentes en un video.  Otra posible linea pudiera  ser la exploraci&oacute;n o creaci&oacute;n de nuevas representaciones espacio-temporales.</font> </p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">AGRADECIMIENTOS</font> </strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El segundo autor de este trabajo es financiado por FAPERJ/CAPES (E45/2013).</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BARR, J. R., BOWYER, K. W., FLYNN, P. J., and BISWAS, S. (2012).&nbsp;  &nbsp;Face Recognition from Video: a  Review. &nbsp;<em>IJPRAI</em>,&nbsp; 26(5).</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FRIEDMAN, J., HASTIE, T., and TIBSHIRANI, R. (1998). Additive Logistic  Regression: a Statistical View of Boosting. <em>Annals of Statistics</em>, 28:2000.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FROBA, B. and KUBLBECK,  C. (2004). &nbsp;Face tracking by means of continuous detection. &nbsp;In <em>IEEE Conf.</em> <em>Comput. Vision Pattern Recognition  (CVPR) Workshops,    </em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HADID, A. and PIETIKA&uml; INEN, M. (2009). Combining appearance and motion for face and gender recognition from videos. <em>Pattern Recogn.</em>, 42(11):2818&ndash;2827.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MARTINEZ-DIAZ, Y., MENDEZ-VAZQUEZ,  H., HERNANDEZ, N., and GARCIA-REYES, E. (2013). Improving faces/non-faces discrimination in video sequences  by using a local spatio-temporal representation. In <em>ICB</em>, pages 1&ndash;5. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MENDEZ-VAZQUEZ,  H., MARTINEZ-DIAZ, Y., and CHAI, Z. (2013).  &nbsp;Volume structured ordinal  features with background  similarity measure  for video face recognition. In <em>ICB</em>, pages 1&ndash;6.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NASCIMENTO, J. C. and MARQUES, J. S. (2006).  &nbsp;Performance evaluation for object detection  algorithms for video surveillance.  &nbsp;In <em>IEEE  Transaction on Multimedia</em>.    </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VIOLA, P. and JONES, M. J. (2004).&nbsp;  Robust real-time face detection.&nbsp; <em>International Journal of Computer Vision</em>, 57(2):137&ndash;154. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WAEL, L. (2011).  Co-occurrence of local binary patterns  features for frontal face detection in surveillance  applications. <em>EURASIP Journal  on Image and Video Processing</em>, 2011.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WOLF, L., HASSNER, T., and MAOZ, I. (2011).  &nbsp;Face recognition in unconstrained videos  with matched background  similarity. In <em>IEEE  Conf. Comput. Vision Pattern Recognition (CVPR)</em>.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHANG, C. and  ZHANG, Z. (2010). A survey of recent advances  in face detection. Technical Report MSR- TR-2010-66, Microsoft Research,, Redmond,  Washington.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHAO, G. and MATTI, P. (2007). Dynamic texture recognition using local binary patterns  with an application to facial  expressions. <em>IEEE TPAMI</em>, 29(6):915 &ndash;928. </font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 01/10/2015    <br> Aceptado: 20/12/2015</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BARR]]></surname>
<given-names><![CDATA[J. R]]></given-names>
</name>
<name>
<surname><![CDATA[BOWYER]]></surname>
<given-names><![CDATA[K. W]]></given-names>
</name>
<name>
<surname><![CDATA[FLYNN]]></surname>
<given-names><![CDATA[P. J]]></given-names>
</name>
<name>
<surname><![CDATA[BISWAS]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Face Recognition from Video: a Review]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>26</volume>
<numero>5</numero>
<issue>5</issue>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FRIEDMAN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[HASTIE]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[TIBSHIRANI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Additive Logistic Regression: a Statistical View of Boosting. Annals of Statistics]]></source>
<year>1998</year>
<volume>28</volume>
<page-range>2000</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FROBA]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[KUBLBECK]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Face tracking by means of continuous detection.]]></source>
<year>2004</year>
<publisher-name><![CDATA[IEEE Conf. Comput. Vision Pattern Recognition (CVPR) Workshops]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HADID]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[PIETIKAINEN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Combining appearance and motion for face and gender recognition from videos.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>42</volume>
<numero>11</numero>
<issue>11</issue>
<page-range>2818-2827</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MARTINEZ-DIAZ]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[MENDEZ-VAZQUEZ]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[HERNANDEZ]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[GARCIA-REYES]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Improving faces/non-faces discrimination in video sequences by using a local spatio-temporal representation.]]></source>
<year>2013</year>
<page-range>pages 1-5.</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MENDEZ-VAZQUEZ]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[MARTINEZ-DIAZ]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[CHAI]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
</person-group>
<source><![CDATA[Volume structured ordinal features with background similarity measure for video face recognition.]]></source>
<year>2013</year>
<page-range>pages 1-6</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NASCIMENTO]]></surname>
<given-names><![CDATA[J. C.]]></given-names>
</name>
<name>
<surname><![CDATA[MARQUES]]></surname>
<given-names><![CDATA[J. S.]]></given-names>
</name>
</person-group>
<source><![CDATA[Performance evaluation for object detection algorithms for video surveillance.]]></source>
<year>2006</year>
<publisher-name><![CDATA[IEEE Transaction on Multimedia]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VIOLA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[JONES]]></surname>
<given-names><![CDATA[M. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust real-time face detection.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>57</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>137-154</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WAEL]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Cooccurrence of local binary patterns features for frontal face detection in surveillance applications.]]></source>
<year>2011</year>
<publisher-name><![CDATA[EURASIP Journal on Image and Video Processing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WOLF]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[HASSNER]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[MAOZ]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Face recognition in unconstrained videos with matched background similarity.]]></source>
<year>2011</year>
<publisher-name><![CDATA[IEEE Conf. Comput. Vision Pattern Recognition (CVPR).]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
</person-group>
<source><![CDATA[A survey of recent advances in face detection.]]></source>
<year>2010</year>
<publisher-loc><![CDATA[^eWashington Washington]]></publisher-loc>
<publisher-name><![CDATA[Microsoft Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHAO]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[MATTI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dynamic texture recognition using local binary patterns with an application to facial expressions]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>29</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>915 -928</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
