<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992014000400002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Modelos de representación de características para la clasificación de acciones humanas en video: estado del arte]]></article-title>
<article-title xml:lang="en"><![CDATA[Features representation models for human actions classification in video: state of art]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández García]]></surname>
<given-names><![CDATA[Ruber]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[García Reyes]]></surname>
<given-names><![CDATA[Edel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ramos Cózar]]></surname>
<given-names><![CDATA[Julián]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Guil Mata]]></surname>
<given-names><![CDATA[Nicolás]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas  ]]></institution>
<addr-line><![CDATA[Boyeros La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzadas  ]]></institution>
<addr-line><![CDATA[Playa La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad de Málaga  ]]></institution>
<addr-line><![CDATA[ Málaga]]></addr-line>
<country>España</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<volume>8</volume>
<numero>4</numero>
<fpage>21</fpage>
<lpage>51</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992014000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992014000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992014000400002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La clasificación de acciones humanas en video es un área del conocimiento muy activa en la comunidad científica de la visión por computador. El objetivo de este campo de investigación es clasificar automáticamente acciones humanas a partir de los fotogramas que componen una secuencia de video, utilizando para ello técnicas de reconocimiento de patrones. El rendimiento de los métodos de reconocimiento de patrones depende en gran medida de la representación de los datos utilizada. Por esta razón, se centra la atención en el análisis del estado del arte referente a los modelos de representación de la información visual para la clasificación de acciones humanas en videos. El presente trabajo tiene como objetivo examinar desde un enfoque crítico las diferentes aproximaciones reportadas, así como los referentes teóricos de la temática tratada. A partir del estudio realizado se logró concluir que la aplicación de técnicas de selección de características, el uso de modelos relacionales y la obtención de una representación basada en n-gramas visuales, figuran como alternativas interesantes a incorporar como parte de los modelos de representación de características para la clasificación de acciones humanas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Human actions classification in video is a very active investigation area in computer vision. The objective of this research area is to classify automatically human actions from the frames that make up a video sequence, using pattern recognition techniques. The performance of pattern recognition methods is heavily dependent on the choice of data representation on which they are applied. For this reason, this paper focuses on the analysis of the state of the art concerning the representation models of visual information for human actions classification. This paper aims to critically analyze the different approaches reported and their theoretical aspects. Finally, the study concluded that the application of features selection techniques, the use of relational models and obtaining representation based on visual n-grams shown as interesting alternatives to incorporate as part of representation models for human actions classification.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[clasificación de acciones humanas]]></kwd>
<kwd lng="es"><![CDATA[representación de características]]></kwd>
<kwd lng="es"><![CDATA[selección de características]]></kwd>
<kwd lng="es"><![CDATA[vocabularios visuales]]></kwd>
<kwd lng="en"><![CDATA[features representation]]></kwd>
<kwd lng="en"><![CDATA[features selection]]></kwd>
<kwd lng="en"><![CDATA[human actions classification]]></kwd>
<kwd lng="en"><![CDATA[visual vocabularies]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><strong>Modelos  de representaci&oacute;n de  caracter&iacute;sticas para la clasificaci&oacute;n de acciones humanas en video: estado del arte </strong></font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">Features representation models for human  actions classification in video: state of art</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Ruber  Hern&aacute;ndez Garc&iacute;a<strong><sup>1*</sup></strong>, Edel Garc&iacute;a Reyes<strong><sup>2</sup></strong>, Juli&aacute;n Ramos  C&oacute;zar<strong><strong><sup>3</sup></strong></strong>, Nicol&aacute;s Guil Mata<strong><strong><sup>3</sup></strong></strong></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup> Dpto. Se&ntilde;ales Digitales. Centro de Desarrollo  GEYSED. Universidad de las Ciencias Inform&aacute;ticas, Carretera a San Antonio de  los Ba&ntilde;os, km 2 &frac12;, Torrens, Boyeros, La Habana, Cuba. CP.: 19370.    <br>     <sup>2 </sup>Centro de Aplicaciones de Tecnolog&iacute;as de  Avanzadas (CENATAV). 7ma A #21406 e/ 214 y 216, Rpto. Siboney, Playa, La  Habana, Cuba.    ]]></body>
<body><![CDATA[<br>     <sup>3 </sup>Dpto.  Arquitectura de Computadores. Universidad de M&aacute;laga. Bulevar  Louis Pasteur #35, Campus de Teatinos, 29071, M&aacute;laga, Espa&ntilde;a.</font></p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><span class="class">*Autor para la correspondencia: </span><a href="mailto:rhernandezg@uci.cu">rhernandezg@uci.cu</a></font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La clasificaci&oacute;n de acciones humanas  en video es un &aacute;rea del conocimiento muy activa en la comunidad cient&iacute;fica de  la visi&oacute;n por computador. El objetivo de este campo de investigaci&oacute;n es  clasificar autom&aacute;ticamente acciones humanas a partir de los fotogramas que  componen una secuencia de video, utilizando para ello t&eacute;cnicas de  reconocimiento de patrones. El rendimiento de los m&eacute;todos de reconocimiento de  patrones depende en gran medida de la representaci&oacute;n de los datos utilizada. Por  esta raz&oacute;n, se centra la atenci&oacute;n en el an&aacute;lisis del estado del arte referente  a los modelos de representaci&oacute;n de la informaci&oacute;n visual para la clasificaci&oacute;n  de acciones humanas en videos. El presente trabajo tiene como objetivo examinar  desde un enfoque cr&iacute;tico las diferentes aproximaciones reportadas, as&iacute; como los  referentes te&oacute;ricos de la tem&aacute;tica tratada. A partir del estudio realizado se  logr&oacute; concluir que la aplicaci&oacute;n de t&eacute;cnicas de selecci&oacute;n de caracter&iacute;sticas,  el uso de modelos relacionales y la obtenci&oacute;n de una representaci&oacute;n basada en  n-gramas visuales, figuran como alternativas interesantes a incorporar como  parte de los modelos de representaci&oacute;n de caracter&iacute;sticas para la clasificaci&oacute;n  de acciones humanas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave: </span></b>clasificaci&oacute;n de acciones humanas, representaci&oacute;n  de caracter&iacute;sticas, selecci&oacute;n de caracter&iacute;sticas, vocabularios visuales.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Human actions  classification in video is a very active investigation area in computer vision.  The objective of this research area is to classify automatically human actions  from the frames that make up a video sequence, using pattern recognition  techniques. The performance of pattern recognition methods is heavily dependent  on the choice of data representation on which they are applied. For this  reason, this paper focuses on the analysis of the state of the art concerning  the representation models of visual information for human actions  classification. This paper aims to critically analyze the different approaches reported  and their theoretical aspects. Finally, the study concluded that the  application of features selection techniques, the use of relational models and  obtaining representation based on visual n-grams shown as interesting  alternatives to incorporate as part of representation models for human actions  classification.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>features  representation, features selection, human actions classification, visual  vocabularies.</font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La clasificaci&oacute;n y recuperaci&oacute;n de contenido en im&aacute;genes y videos de  acuerdo a su sem&aacute;ntica es uno de los desaf&iacute;os actuales de la visi&oacute;n por  computadora. En particular, el reconocimiento de acciones humanas (<em>Human  Actions Recognition</em>, HAR) en video es un &aacute;rea del conocimiento muy activa  en este campo de investigaci&oacute;n. En los &uacute;ltimos diez a&ntilde;os la literatura recoge  numerosos enfoques que permiten clasificar acciones humanas en videos (Poppe, 2010;  Weinland <em>et al.,</em> 2010; Aggarwal Ryoo,  2011; Chaaraoui <em>et al.,</em> 2012), tanto  en entornos controlados como reales. En gran parte, este auge se debe a sus  dis&iacute;miles aplicaciones en la educaci&oacute;n, el entretenimiento, la  video-vigilancia, la interacci&oacute;n hombre-m&aacute;quina, entre otras (Bregonzio, 2011,  Chakraborty, 2012).    <br>       <br>   De manera general, la clasificaci&oacute;n autom&aacute;tica de acciones humanas en video  se compone de cuatro etapas fundamentales, <a href="#f01">figura  1</a>: (1) el pre-procesamiento del video, (2) la  representaci&oacute;n de la informaci&oacute;n visual, (3) el aprendizaje autom&aacute;tico y (4) la  clasificaci&oacute;n (Turaga <em>et al.,</em> 2008;  Poppe, 2010). Adem&aacute;s se pueden incluir otros sub-procesos que pueden ejecutarse  con el objetivo de incrementar la efectividad de los resultados. En general,  los aportes que han impulsado el estado del arte se concentran en la segunda y  cuarta etapa.    <br>       <br> Seg&uacute;n (Bengio <em>et  al., </em>2013), el rendimiento de los m&eacute;todos de aprendizaje autom&aacute;tico depende  en gran medida de la representaci&oacute;n de los datos utilizada. Por esta raz&oacute;n, el  presente trabajo centra su atenci&oacute;n en el an&aacute;lisis del estado del arte  referente a los modelos de representaci&oacute;n de la informaci&oacute;n visual de videos, a  la luz de su aplicaci&oacute;n en la clasificaci&oacute;n de acciones humanas. Se profundiza  en las t&eacute;cnicas m&aacute;s relevantes de la bibliograf&iacute;a, con el objetivo de estudiar  los precedentes para el desarrollo de un modelo de representaci&oacute;n que pueda  hacer frente a las limitaciones actuales.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f01"></a><img src="/img/revistas/rcci/v8n4/f0102414.jpg" alt="f01" width="462" height="235"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El resto del trabajo est&aacute; estructurado de la siguiente manera. Primeramente  se exponen conceptos fundamentales asociados a la representaci&oacute;n de la  informaci&oacute;n visual de las acciones humanas en videos. En las dos secciones  siguientes se analizan los referentes te&oacute;ricos relacionados con las t&eacute;cnicas de  representaci&oacute;n de caracter&iacute;sticas y generaci&oacute;n de vocabularios visuales. Posteriormente,  se presentan los principales enfoques empleados para la clasificaci&oacute;n de  acciones humanas en videos. Finalmente, se examinan las principales  alternativas de soluci&oacute;n en la discusi&oacute;n y se ofrecen las conclusiones.</font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><strong>DESARROLLO</strong></font></p> <h2><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Taxonom&iacute;a de las acciones humanas para  su reconocimiento</font></h2>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Debido a los diferentes niveles de abstracci&oacute;n de las acciones humanas y  los diversos t&eacute;rminos usados en la literatura, es importante tratar la taxonom&iacute;a  de estas. La <a href="/img/revistas/rcci/v8n4/f0202414.jpg" target="_blank">figura 2</a> muestra ejemplos de acciones de algunas de las  bases de datos m&aacute;s usadas.     <br>       <br>   Bobick (1997) emplea una clasificaci&oacute;n para el reconocimiento de <u>movimiento, actividad y acci&oacute;n</u>;  asociadas a tareas de bajo, medio y alto nivel computacional. Moeslund y  colaboradores (2006) sugiere que en general los movimientos humanos pueden  dividirse en tres niveles: <u>primitiva,  acci&oacute;n y actividad</u>. Otros proponen incluir el nivel de <u>situaci&oacute;n</u> (Gonz&agrave;lez <em>et al., </em>2002) o usar una jerarqu&iacute;a de <u>primitivas de acciones</u> (Jenkins y  Mataric, 2002). Por su parte, Chaaraoui y colaboradores (2012) estudian las  t&eacute;cnicas de visi&oacute;n por computadora aplicadas al an&aacute;lisis del comportamiento  humano, estableciendo una jerarqu&iacute;a de cuatro niveles asociada al grado  sem&aacute;ntico y duraci&oacute;n del movimiento: <u>movimiento,  acci&oacute;n, actividad y comportamiento</u>.</font><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       <br>   <font size="2">Las anteriores clasificaciones no tienen en cuenta la complejidad de las  acciones por s&iacute; solas, debido a que existen acciones que son ejecutadas por una  sola persona (<u>acci&oacute;n simple</u>;  p.ej. caminar, correr, saltar), mientras otras requieren de la interacci&oacute;n de  dos o m&aacute;s individuos para poder llevarse a cabo (<u>acci&oacute;n compuesta</u>; p.ej. besar, saludar). De igual forma es  posible introducir un nivel de abstracci&oacute;n para la combinaci&oacute;n de actividades  en las que est&aacute;n involucrados varios individuos (<u>evento</u>; p.ej. un juego de b&eacute;isbol, un accidente de tr&aacute;fico).  Es importante establecer estas diferencias, no solo por sus especificaciones  sem&aacute;nticas sino por la complejidad requerida para llevar a cabo su  reconocimiento.    <br>       <br>   De esta manera, se propone una taxonom&iacute;a de acciones de forma jer&aacute;rquica, <a href="#f03">figura  3</a>, capaz de describir los diferentes niveles de  abstracci&oacute;n que se pueden tener en cuenta para el reconocimiento de acciones  humanas. Esta conjuga los principales elementos de los trabajos analizados e  incorpora aquellos que se consideran necesarios para lograr una mejor  descripci&oacute;n de las acciones. Es posible apreciar que tanto el tiempo involucrado  en la acci&oacute;n como la complejidad sem&aacute;ntica de la misma aumentan en los niveles  superiores de la pir&aacute;mide.     <br>       ]]></body>
<body><![CDATA[<br> En la <a href="/img/revistas/rcci/v8n4/t0102414.jpg" target="_blank">tabla 1</a> se resumen las diferentes clasificaciones consideradas en la taxonom&iacute;a  adoptada, estableciendo su correspondiente descripci&oacute;n, intervalo de tiempo y  ejemplos. Mientras que las primitivas de movimiento son muy limitadas y  espec&iacute;ficas para describir un movimiento simple, las acciones proveen una  representaci&oacute;n compacta y detallada de la din&aacute;mica humana. Por el contrario,  los niveles superiores de clasificaci&oacute;n consisten en conjuntos de acciones  ordenados sem&aacute;nticamente, por lo que su reconocimiento requiere en primer lugar  de la clasificaci&oacute;n de las acciones que los componen. Adem&aacute;s, las acciones  presentan una resoluci&oacute;n espacial y temporal adecuada respecto al resto, lo que  hace mucho m&aacute;s factible su procesamiento autom&aacute;tico. Por esta raz&oacute;n, las  acciones deben ser interpretadas como la muestra unitaria de la vida humana.</font></font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f03"></a><img src="/img/revistas/rcci/v8n4/f0302414.jpg" alt="f03" width="478" height="180"></font></p> <h2><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Representaci&oacute;n de la informaci&oacute;n visual</font></h2>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso de representaci&oacute;n de caracter&iacute;sticas visuales del video incluye  diferentes sub-procesos que permiten transformar la informaci&oacute;n visual a un  espacio vectorial adecuado para su posterior clasificaci&oacute;n. A continuaci&oacute;n se  tratan tres de los sub-procesos fundamentales: la extracci&oacute;n de caracter&iacute;sticas,  la representaci&oacute;n de estas a partir de diferentes enfoques relacionales y la  selecci&oacute;n de las caracter&iacute;sticas de mayor poder discriminatorio.</font></p> <h3><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Proceso de extracci&oacute;n de caracter&iacute;sticas</font></h3>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La extracci&oacute;n de caracter&iacute;sticas de bajo nivel a partir de los fotogramas  del video &ndash; como el color, la textura y el flujo &oacute;ptico &ndash; resulta la etapa b&aacute;sica  para la representaci&oacute;n de la informaci&oacute;n visual a un espacio multidimensional  de rasgos de un descriptor. La representaci&oacute;n multidimensional obtenida es m&aacute;s  compacta, descriptiva y factible para ser utilizada por t&eacute;cnicas de aprendizaje  autom&aacute;tico (Bishop, 2006). Esto permite dise&ntilde;ar un modelo capaz de etiquetar  las secuencias de videos en diferentes clases de acuerdo a su contenido.    <br>       <br>   En general, una funci&oacute;n de extracci&oacute;n de caracter&iacute;sticas recibe un objeto  como entrada y devuelve una representaci&oacute;n matem&aacute;tica del mismo en un espacio  vectorial donde se conserven las similitudes inherentes a dichos objetos. Este  mismo enfoque tambi&eacute;n se aplica a las im&aacute;genes. En cuanto al video, la  representaci&oacute;n se basa principalmente en extraer descriptores a los fotogramas  que lo componen.     <br>   De esta manera, dado un video <em>V</em> el  proceso de extracci&oacute;n de caracter&iacute;sticas se puede definir como sigue:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n 1. <em>Una  funci&oacute;n de extracci&oacute;n de caracter&iacute;sticas </em>F<em>&nbsp;tal que: </em><img src="/img/revistas/rcci/v8n4/fo0102414.jpg" alt="fo01" width="106" height="21"><em> , donde la informaci&oacute;n visual contenida en V es transformada al espacio  vectorial <img src="/img/revistas/rcci/v8n4/fo0202414.jpg" alt="fo02" width="106" height="21"> , siendo <img src="/img/revistas/rcci/v8n4/fo0302414.jpg" alt="fo03" width="106" height="21">&nbsp;un vector de caracter&iacute;sticas de  dimensi&oacute;n D asociado a un descriptor d.</em></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la definici&oacute;n anterior el super&iacute;ndice <em>T</em> denota la traspuesta del vector de caracter&iacute;sticas f, por lo que f<sup>T</sup> es un vector fila. De este modo, es posible  combinar las caracter&iacute;sticas en una matriz F en la que la <em>n</em>-&eacute;sima fila corresponde al vector de caracter&iacute;sticas f<sub>n</sub>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los descriptores ofrecen una medida cuantitativa de la informaci&oacute;n visual.  Seg&uacute;n D&iacute;az-Espinosa (2010) pueden clasificarse a partir de la informaci&oacute;n que  resumen en locales y globales. Mientras que en cuanto a la dimensi&oacute;n de la informaci&oacute;n  representada en espaciales, temporales y espacio-temporales. Ambos conjuntos de  clasificaci&oacute;n no son excluyentes. Este tipo de clasificaci&oacute;n es extendida a los  modelos de representaci&oacute;n de acuerdo al tipo de descriptor utilizado. A  continuaci&oacute;n se resumen las caracter&iacute;sticas de cada tipo (D&iacute;az-Espinosa, 2010). </font></p> <ul>       ]]></body>
<body><![CDATA[<li><font face="Verdana, Arial, Helvetica, sans-serif"><u><font size="2">Locales</font></u><font size="2">: extraen una serie de puntos o regiones con  informaci&oacute;n relevante a partir de los cuales se calcula un descriptor de  informaci&oacute;n. </font></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>Globales</u>: efect&uacute;an un resumen de la informaci&oacute;n contenida  en un fotograma.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>Espaciales</u>: se aplica la funci&oacute;n de extracci&oacute;n de  caracter&iacute;sticas sobre la informaci&oacute;n contenida en cada fotograma por separado,  es decir sobre las dimensiones espaciales del video.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>Temporales</u>: extraen caracter&iacute;sticas utilizando la dimensi&oacute;n  temporal del video. Para ello se puede hacer el seguimiento temporal de puntos  obtenidos con un descriptor local. La idea es que la extracci&oacute;n de  caracter&iacute;sticas no considere un solo fotograma, sino un sub-conjunto de ellos.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><u>Espacio-temporales</u>: son una combinaci&oacute;n de los dos anteriores, donde  se calcula el descriptor a partir de una representaci&oacute;n local teniendo en  cuenta las tres dimensiones del video. </font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las representaciones  globales est&aacute;n dirigidas a enfoques de reconocimiento basados en toda la imagen  o regiones que encierren el objetivo de reconocimiento en su totalidad, <a href="/img/revistas/rcci/v8n4/f0402414.jpg" target="_blank">figura  4</a> (a, b, c). Dichas aproximaciones son m&aacute;s  apropiadas para aprovechar caracter&iacute;sticas globales de la estructura del objeto  de clasificaci&oacute;n, pero son m&aacute;s sensibles a oclusiones parciales y cambios de  perspectiva. Por esta raz&oacute;n, generalmente incluyen una etapa de  pre-procesamiento de la informaci&oacute;n para segmentar la regi&oacute;n de inter&eacute;s para la  clasificaci&oacute;n. Estos m&eacute;todos presentan altos porcientos de precisi&oacute;n cuando  procesan secuencias de video con fondos simples y est&aacute;ticos. Sin embargo, el  pre-procesamiento de la imagen para segmentarla requiere de un costo  computacional adicional. Adem&aacute;s, para el tratamiento de secuencias de video de  condiciones complejas &ndash; tales como m&uacute;ltiples perspectivas, movimientos de  c&aacute;mara o fondos din&aacute;micos &ndash; se requiere de un proceso de calibraci&oacute;n manual (Li <em>et al.,</em> 2014).    <br>       <br>     En contraposici&oacute;n, las representaciones basadas en descriptores locales son  ampliamente aceptadas para el reconocimiento de objetivos espec&iacute;ficos. Este  tipo de representaciones han hecho posible desarrollar enfoques de  reconocimiento robustos y eficientes ante una amplia variedad de condiciones de  perspectivas y oclusiones (Grauman y Leibe, 2011, p. 9).     <br>         ]]></body>
<body><![CDATA[<br>     Las representaciones espacio-temporales se basan en la extracci&oacute;n de  caracter&iacute;sticas locales y funcionan mejor que en ambas dimensiones por  separado, <a href="/img/revistas/rcci/v8n4/f0402414.jpg" target="_blank">figura  4</a> (d, e, f). Este tipo de enfoque codifica los  cambios de la informaci&oacute;n en ambas dimensiones y provee descripciones  generalizables y robustas para la clasificaci&oacute;n de acciones humanas. Su bajo  costo computacional posibilitan su aplicaci&oacute;n en sistemas HAR, siendo las m&aacute;s  extendidas en este campo de investigaci&oacute;n (Li <em>et al.,</em> 2014). Teniendo esto en cuenta el presente trabajo enfoca  su estudio en este tipo de representaciones.</font></p>             <font face="Verdana, Arial, Helvetica, sans-serif">             </p>             <font size="2"><strong>Principales caracter&iacute;sticas de las  representaciones locales</strong></font></font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las funciones de extracci&oacute;n de caracter&iacute;sticas locales se conocen como  detectores de puntos de inter&eacute;s. Estos emplean diferentes criterios para  encontrar las regiones donde ocurren cambios significativos de la informaci&oacute;n  combinando las tres dimensiones del video. Normalmente este proceso de b&uacute;squeda  se realiza utilizando diferentes escalas, tanto espaciales como temporales. Las  representaciones espacio-temporales se basan en este principio, obteniendo  informaci&oacute;n de ambas dimensiones.    <br>       <br>   Tomando como base la Definici&oacute;n 1, se define una funci&oacute;n de extracci&oacute;n de  caracter&iacute;sticas espacio-temporales como sigue:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n 2. <em>Una funci&oacute;n de extracci&oacute;n de caracter&iacute;sticas  espacio-temporales F<sup>ST</sup> tal que: </em><img src="/img/revistas/rcci/v8n4/fo0102414.jpg" alt="fo04" width="118" height="21"><em>, donde la informaci&oacute;n visual  contenida en V es transformada al espacio vectorial </em><img src="/img/revistas/rcci/v8n4/fo0502414.jpg" alt="fo05" width="121" height="22"><em>, siendo </em><img src="/img/revistas/rcci/v8n4/fo0602414.jpg" alt="fo06" width="15" height="20"><em>&nbsp;un vector de caracter&iacute;sticas de la forma </em><img src="/img/revistas/rcci/v8n4/fo0702414.jpg" alt="fo07" width="133" height="18"><em>, donde </em><img src="/img/revistas/rcci/v8n4/fo0802414.jpg" alt="fo08" width="123" height="17"><em>&nbsp;son las caracter&iacute;sticas espacio-temporales del  punto de inter&eacute;s en la escala espacial </em><img src="/img/revistas/rcci/v8n4/fo0902414.jpg" alt="fo09" width="9" height="16"><em>&nbsp;y temporal </em><img src="/img/revistas/rcci/v8n4/fo1002414.jpg" alt="fo10" width="7" height="16"><em>; </em><img src="/img/revistas/rcci/v8n4/fo1102414.jpg" alt="fo11" width="132" height="17"><em>&nbsp;es la representaci&oacute;n vectorial de dimensi&oacute;n D  asociada al descriptor d calculado alrededor del punto de inter&eacute;s.</em></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cuando se trata de una secuencia de video los detectores se aplican sobre  los fotogramas que la componen. De esta manera, se detectan cientos de puntos  de inter&eacute;s y a su vez son representados por un vector de caracter&iacute;sticas  multidimensional, que por lo general sobrepasa el centenar de componentes. El  resultado de la representaci&oacute;n es un espacio vectorial de una alta  cardinalidad.    <br>       <br>   Como describe Bishop (2006, pp. 33-38), ante la alta dimensionalidad de los  descriptores se pueden presentar problemas como la maldici&oacute;n de la dimensi&oacute;n y  el sobre ajuste de los clasificadores. Adem&aacute;s, aumenta el costo computacional, la  redundancia de los datos y el ruido introducido por la detecci&oacute;n de puntos de  inter&eacute;s que se encuentran en el fondo de la imagen.     <br>       <br> Una manera efectiva de mitigar algunas de las limitantes anteriores es  representar los descriptores locales en un espacio vectorial de menor  cardinalidad. Para este prop&oacute;sito el m&eacute;todo de representaci&oacute;n m&aacute;s extendido en  la bibliograf&iacute;a es el conocido como BoVW (Grauman y Leibe, 2011, p. 27). Sus  excelentes resultados para tareas de reconocimiento han sido demostrados en  numerosos estudios previos (Uijlings <em>et  al.,</em> 2009; J&eacute;gou <em>et al.,</em> 2010;  Kong <em>et al.,</em> 2011). Usando este  enfoque el espacio multidimensional de los descriptores es mapeado a un  vocabulario visual. As&iacute;, la representaci&oacute;n del video se basa en un histograma  de ocurrencia de las palabras visuales que representan los descriptores  locales. De esta manera se reduce la alta dimensionalidad del espacio de  caracter&iacute;sticas a un solo vector.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="#f05">figura 5</a> muestra  el esquema general del modelo BoVW para la representaci&oacute;n de videos. Como  resultado de este m&eacute;todo de representaci&oacute;n se obtiene un vocabulario visual <img src="/img/revistas/rcci/v8n4/fo1202414.jpg" alt="fo12" width="104" height="17">&nbsp;compuesto por <em>k</em> palabras visuales, donde <img src="/img/revistas/rcci/v8n4/fo1302414.jpg" alt="fo13" width="58" height="16">&nbsp;define el tama&ntilde;o del vocabulario. Como parte  del proceso de cuantizaci&oacute;n cada video es representado como una bolsa de  palabras <img src="/img/revistas/rcci/v8n4/fo1402414.jpg" alt="fo14" width="108" height="19">, donde W<sub>F1</sub> &nbsp;es la palabra visual asignada a la  caracter&iacute;stica local f1.  Por &uacute;ltimo el histograma de ocurrencia de las palabras visuales pasa a representar el  video <img src="/img/revistas/rcci/v8n4/fo1502414.jpg" alt="fo15" width="95" height="17">, donde <img src="/img/revistas/rcci/v8n4/fo1602414.jpg" alt="fo16" width="13" height="17"> &nbsp;codifica la ocurrencia de la palabra  visual <img src="/img/revistas/rcci/v8n4/fo1702414.jpg" alt="fo17" width="15" height="15">&nbsp;en el video <em>V</em>.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f05"></a><img src="/img/revistas/rcci/v8n4/f0502414.jpg" alt="f05" width="550" height="229"></font></p> <h3><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelos de representaci&oacute;n relacionales</font></h3>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En su mayor&iacute;a las representaciones locales presentan una limitaci&oacute;n com&uacute;n,  dada porque no tienen en cuenta la disposici&oacute;n estructural a partir de las  relaciones espacio-temporales entre los descriptores. La disposici&oacute;n  estructural de las caracter&iacute;sticas aporta una informaci&oacute;n adicional a la  representaci&oacute;n. Adem&aacute;s resulta una foma de hacer frente a variaciones de la  imagen debido al ruido, oclusiones parciales y cambios de perspectivas (Poppe, 2010).  De esta manera es posible obtener una representaci&oacute;n m&aacute;s general de la imagen a  partir de las caracter&iacute;sticas locales.    <br>       <br>   En el espacio 3D de las caracter&iacute;sticas espacio-temporales del video las  relaciones pueden ser modeladas empleando diferentes enfoques: topol&oacute;gicas  espaciales (Morales-Gonz&aacute;lez y Reyes, 2010; Acosta-Mendoza <em>et al.,</em> 2012), de adyacencia (&Ouml;zdemir y Aksoy, 2010), temporales (Ryoo  y Aggarwal, 2009; Gaur <em>et al.,</em> 2011),  de proximidad (Ryoo y Aggarwal, 2009; Ta <em>et  al.,</em> 2010; Zhang <em>et al.,</em> 2011),  de similitud (&Ccedil;eliktutan <em>et al.,</em> 2012)  o como combinaci&oacute;n de algunas de las anteriores (Ben Aoun <em>et al.,</em> 2014). De todas, las que requieren menor costo  computacional son las de proximidad.     <br>       <br>   Las relaciones de proximidad b&aacute;sicamente establecen si un punto de inter&eacute;s est&aacute;  cerca de otro bas&aacute;ndose en un umbral espacio-temporal <img src="/img/revistas/rcci/v8n4/fo1802414.jpg" alt="fo18" width="66" height="18">. Tomando como base la definici&oacute;n de Ta y colaboradores (2006) para un  descriptor en pareja, se define la relaci&oacute;n de proximidad espacio-temporal  entre dos caracter&iacute;sticas locales como sigue:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n 3. Sean <img src="/img/revistas/rcci/v8n4/fo1902414.jpg" alt="fo19" width="127" height="18">&nbsp;y <img src="/img/revistas/rcci/v8n4/fo2002414.jpg" alt="fo20" width="128" height="19">&nbsp;dos vectores de caracter&iacute;sticas  espacio-temporales, la relaci&oacute;n de proximidad <img src="/img/revistas/rcci/v8n4/fo2102414.jpg" alt="fo21" width="60" height="21">&nbsp;es satisfecha si se cumplen las siguientes  condiciones:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">a)</font> <font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo2202414.jpg" alt="fo22" width="141" height="18"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">b)</font> <font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo2302414.jpg" alt="fo23" width="140" height="18"></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde d<sub>sp</sub>(.,.)&nbsp;y d<sub>tp</sub>(.,.) son funciones de distancia espacial  y temporal, respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un enfoque b&aacute;sico para preservar las relaciones de proximidad entre las  caracter&iacute;sticas locales son las representaciones basadas en mallas (Laptev <em>et al.,</em> 2008; Bregonzio, 2011). Sin  embargo, generalmente resultan representaciones redundantes y contienen  caracter&iacute;sticas poco informativas. Como otra alternativa es posible explotar  las correlaciones entre los descriptores locales para la construcci&oacute;n de otros  descriptores de mayor nivel de abstracci&oacute;n (Poppe2010). En su mayor&iacute;a, estos  m&eacute;todos se basan en la creaci&oacute;n de una matriz de correlaci&oacute;n de los  descriptores locales (Scovanner <em>et al.,</em> 2007; Liu <em>et al.,</em> 2008; Kim y Cipolla,  2009).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aunque los enfoques anteriores han intentado incorporar m&aacute;s detalles de las  relaciones entre los descriptores, el modelo estructural de los mismos no es  tenido en cuenta. En este sentido las representaciones basadas en partes juegan  un papel fundamental para preservar la informaci&oacute;n estructural de las  caracter&iacute;sticas (Grauman y Leibe, 2011).    <br>       <br>   Son varios los modelos de este tipo recogidos por la literatura, <a href="/img/revistas/rcci/v8n4/f0602414.jpg" target="_blank">figura  6</a>. De todos, el modelo BoVW es el m&aacute;s simple, debido  a que no codifica ninguna relaci&oacute;n de los descriptores. A partir de este es  posible crear modelos que expresen las relaciones entre los descriptores. Estos  van desde los m&aacute;s complejos &ndash; como los tipo <u>constelaci&oacute;n</u> que engloban  todas las relaciones posibles &ndash; hasta los m&aacute;s simples &ndash; como los tipo <u>estrella</u> o <u>esparcido flexible</u> &ndash; que posibilitan reducir el costo computacional de  la representaci&oacute;n.    <br>       <br> Estos m&eacute;todos han dado origen a las representaciones basadas en grafos, que  permiten la creaci&oacute;n de modelos de representaci&oacute;n estructurales. Adem&aacute;s, los  grafos presentan propiedades de invariabilidad posibilitando que la  representaci&oacute;n de la imagen se mantenga igual ante determinadas  transformaciones tales como traslaci&oacute;n o rotaci&oacute;n (Bunke, 2000). Precisamente  estas propiedades han posibilitado el desarrollo de diversas aproximaciones  aplicadas a la representaci&oacute;n del video (Ta <em>et  al.,</em> 2010; Gaur <em>et al.,</em> 2011; &Ccedil;eliktutan <em>et al.,</em> 2012; Ben Aoun <em>et al.,</em> 2014).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Considerando la Definici&oacute;n 2, un video <em>V</em> puede ser representado de forma alternativa como <img src="/img/revistas/rcci/v8n4/fo2402414.jpg" alt="fo24" width="98" height="19">.&nbsp;Siendo as&iacute;, una representaci&oacute;n  basada en grafo para un video puede definirse como sigue:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n 4. <em>Sea </em> <img src="/img/revistas/rcci/v8n4/fo2402414.jpg" width="98" height="19"><em>&nbsp;un video representado por N vectores de  caracter&iacute;sticas locales y </em><img src="/img/revistas/rcci/v8n4/fo2502414.jpg" alt="fo25" width="104" height="17"><em>&nbsp;el vocabulario visual de k palabras visuales  obtenido por el modelo BoVW. Un video se representa como un grafo </em><img src="/img/revistas/rcci/v8n4/fo2602414.jpg" alt="fo26" width="103" height="16"><em>, donde </em><img src="/img/revistas/rcci/v8n4/fo2702414.jpg" alt="fo27" width="95" height="17"><em>&nbsp;es el conjunto de v&eacute;rtices que representa los N puntos de inter&eacute;s que forman el video, </em><img src="/img/revistas/rcci/v8n4/fo2802414.jpg" alt="fo28" width="266" height="19"><em>&nbsp;es el conjunto de aristas, W son las etiquetas  de los v&eacute;rtices que coinciden con el vocabulario visual y </em><img src="/img/revistas/rcci/v8n4/fo2902414.jpg" alt="fo29" width="75" height="15"><em>&nbsp;es la funci&oacute;n de etiquetado para la asignaci&oacute;n  de etiquetas a los v&eacute;rtices.</em></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las representaciones basadas en grafos ofrecen una aplicaci&oacute;n importante  para el reconocimiento de patrones. El descubrimiento de patrones frecuentes &ndash;  especialmente la miner&iacute;a de subgrafos frecuentes &ndash; ha permitido el desarrollo  de diversas t&eacute;cnicas con aplicaci&oacute;n en diferentes dominios de la ciencia (Acosta-Mendoza <em>et al.,</em> 2012).     ]]></body>
<body><![CDATA[<br>       <br>   Las representaciones basadas en grafos preservan la limitante asociada a la  alta dimensionalidad de las representaciones locales. La cantidad de v&eacute;rtices  del grafo generado es igual a la cantidad de puntos de inter&eacute;s que representan  el video. Mientras que las aristas son generadas para todas aquellas  caracter&iacute;sticas locales que cumplen con una relaci&oacute;n de proximidad. Debido a  esto han sido propuestos determinados enfoques orientados a disminuir la  complejidad de la tarea de similitud entre subgrafos frecuentes (&Ouml;ezdemir y Aksoy,  2010; Ben Aoun <em>et al.,</em> 2014).     <br>       <br> En particular, &Ouml;zdemir y Aksoy (2010) proponen una representaci&oacute;n  intermedia que combina el poder estructural de los grafos con la eficiencia del  modelo BoVW. Esta aproximaci&oacute;n representa cada imagen con un histograma de los  subgrafos frecuentes presentes en el grafo correspondiente a la misma. De esta  manera se logra obtener un modelo que reduce el costo computacional de la  representaci&oacute;n basada en grafo. Por sus caracter&iacute;sticas este tipo de enfoque  resulta interesante para aplicar a la representaci&oacute;n de la informaci&oacute;n visual  del video.</font></p> <h3><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Selecci&oacute;n de caracter&iacute;sticas</font></h3>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En principio, lo ideal para la resoluci&oacute;n de un problema de clasificaci&oacute;n  es disponer de la m&aacute;xima informaci&oacute;n posible. Sin embargo, como ha sido tratado  antes, el rendimiento de los algoritmos de aprendizaje se puede deteriorar ante  la abundancia de informaci&oacute;n (Bishop, 2006, p. 33). Adem&aacute;s, la presencia de  caracter&iacute;sticas irrelevantes y redundantes &ndash; p. ej. las ubicadas en el fondo de  la imagen &ndash; genera informaci&oacute;n ruidosa en las representaciones de mayor nivel.  Esto implica tambi&eacute;n un procesamiento adicional e innecesario en las etapas  superiores de representaci&oacute;n.    <br>       <br>   Teniendo esto en cuenta, la selecci&oacute;n de caracter&iacute;sticas resulta una etapa  fundamental en cualquier proceso de representaci&oacute;n. El objetivo de la selecci&oacute;n  de caracter&iacute;sticas es reducir la dimensi&oacute;n de los datos mediante la eliminaci&oacute;n  de aquellas caracter&iacute;sticas que son ruidosas, redundantes o irrelevantes para  el problema de clasificaci&oacute;n (Bonev, 2010).     <br>       <br>   La aplicaci&oacute;n de t&eacute;cnicas de selecci&oacute;n de caracter&iacute;sticas aplicadas a  tareas de reconocimiento de video de acuerdo a su contenido &ndash; en especial la  clasificaci&oacute;n de acciones humanas &ndash; exige m&eacute;todos diferentes a los  tradicionales. Particularmente, centr&aacute;ndose en la similitud visual que existe  entre algunos tipos de acciones, resulta dif&iacute;cil distinguir aquellas  caracter&iacute;sticas que son m&aacute;s discriminatorias, debido a que estas clases  comparten determinadas primitivas de acciones. Por lo que generalmente, los  m&eacute;todos tradicionales de selecci&oacute;n de caracter&iacute;sticas resultan ineficientes por  s&iacute; solos. Siendo as&iacute;, los aportes existentes en este sentido emplean m&eacute;todos  con fines espec&iacute;ficos dise&ntilde;ados para este campo de investigaci&oacute;n. Por ejemplo,  un requerimiento espec&iacute;fico consiste en eliminar las caracter&iacute;sticas locales  ubicadas en el fondo y seleccionar aquellas asociadas a la figura del cuerpo  humano.    <br>       ]]></body>
<body><![CDATA[<br>   Varios enfoques han sido propuestos para reducir la influencia de las  caracter&iacute;sticas localizadas en el fondo de la imagen. Liu y colaboradores (2009)  proponen una t&eacute;cnica basada en el conocido algoritmo <em>PageRank</em> (PR) (Brin y Page, 1998) para ordenar y seleccionar las  caracter&iacute;sticas de mayor relevancia. Los resultados experimentales muestran la  eficacia de la t&eacute;cnica PR en escenarios de una sola persona, donde la mayor&iacute;a  de los puntos de inter&eacute;s en el fondo son eliminados. Sin embargo, ante la  presencia de varias personas el m&eacute;todo pierde efectividad (Bregonzio, 2011).     <br>   Por su parte, Gilbert y colaboradores (2009) agrupan las caracter&iacute;sticas de  forma jer&aacute;rquica para producir un conjunto de caracter&iacute;sticas compuestas.  Logran identificar los conjuntos que aparecen con mayor frecuencia en determinadas  secuencias de acciones usando la t&eacute;cnica de miner&iacute;a de datos <em>APriori</em> (Agrawal y Srikant, 1994). De  esta manera, detectan de forma simult&aacute;nea las configuraciones de  caracter&iacute;sticas localizadas en diferentes posiciones de la acci&oacute;n o que  representan diferentes movimientos. No obstante, el elevado costo computacional  de esta aproximaci&oacute;n es su principal limitante, por lo que solo es factible  para peque&ntilde;as bases de datos.    <br>       <br>   Con el objetivo de disminuir el costo computacional de la selecci&oacute;n de  caracter&iacute;sticas en entornos no controlados, Bregonzio (2011) desarrolla un  m&eacute;todo de selecci&oacute;n de caracter&iacute;sticas basado en la t&eacute;cnica <em>Multi-Class Delta Latent Dirichlet  Allocation</em> (MC-&Delta;LDA) (Andrzejewski <em>et al.,</em> 2007).  La idea consiste en seleccionar las caracter&iacute;sticas de forma colaborativa a  partir de los patrones compartidos entre las diferentes clases de acciones.  Esto implica que el m&eacute;todo no es capaz de identificar los elementos distintivos  de una acci&oacute;n, por lo que resulta menos efectivo para identificar determinadas  acciones que sean similares.    <br>       <br>   A diferencia de los m&eacute;todos anteriores, que intentan obtener las  caracter&iacute;sticas m&aacute;s relevantes a partir de medidas de relevancia, Chakraborty (2012)  presentan un enfoque bastante novedoso. Su aproximaci&oacute;n se basa en la detecci&oacute;n  de puntos de inter&eacute;s de una manera selectiva, aplicando una m&aacute;scara de  supresi&oacute;n circundante (<em>Surround  Suppression Mask</em>, SSM) (Grigorescu <em>et  al.,</em> 2004) combinada con restricciones locales y temporales. Este m&eacute;todo  permite eliminar satisfactoriamente los puntos de inter&eacute;s localizados en el  fondo y obtiene caracter&iacute;sticas locales repetibles, estables y distintivas para  el cuerpo humano.</font></p> <h2><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Generaci&oacute;n de vocabularios visuales</font></h2>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El modelo BoVW ha sido ampliamente usado para la clasificaci&oacute;n de acciones  humanas (Liu <em>et al.,</em> 2009; Ullah <em>et al.,</em> 2010; Kong <em>et al.,</em> 2011; Chakraborty, 2012; Hernandez-Heredia, 2013). Mediante  este m&eacute;todo las secuencias de acciones son representadas por un histograma de  la ocurrencia de las palabras visuales en el video, las cuales son obtenidas  por el agrupamiento de las caracter&iacute;sticas locales. Algunas de las limitantes  de este m&eacute;todo est&aacute;n asociadas fundamentalmente al proceso de generaci&oacute;n del  vocabulario visual (Zhang <em>et al.,</em> 2011;  Yang <em>et al.,</em> 2012; C&oacute;zar <em>et al.,</em> 2012).    <br>       <br>   En el agrupamiento de las caracter&iacute;sticas locales se realiza usando <em>K-means</em> u otro m&eacute;todo no supervisado.  Desafortunadamente, estos m&eacute;todos no son capaces de obtener un vocabulario con  adecuado poder discriminatorio debido a que son generadas palabras innecesarias  y no descriptivas (Zhang <em>et al.,</em> 2011;  C&oacute;zar <em>et al.,</em> 2012). El poder  descriptivo de los vocabularios visuales es influenciado por el tama&ntilde;o del  mismo. En principio, entre m&aacute;s palabras visuales son generadas el rendimiento  es mejor. Sin embargo, el rendimiento es saturado cuando el n&uacute;mero de palabras  visuales sobrepasa cierto nivel (Liu <em>et  al.,</em> 2008b). Otra consecuencia de usar m&aacute;s palabras visuales es que el  n&uacute;mero de estas que describen cada categor&iacute;a disminuye (C&oacute;zar <em>et al.,</em> 2012), <a href="/img/revistas/rcci/v8n4/f0702414.jpg" target="_blank">figura  7</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las ideas anteriores sugieren que eliminar palabras visuales del  vocabulario posibilita incrementar la eficiencia de la clasificaci&oacute;n. No  obstante, determinar el tama&ntilde;o &oacute;ptimo de un vocabulario visual es una tarea a&uacute;n  no resuelta y es uno de los problemas m&aacute;s tratados del modelo BoVW. Seg&uacute;n Zhao  e Ip (2013), la base de un vocabulario visual compacto es que contenga un  n&uacute;mero m&iacute;nimo de palabras visuales similares, tanto desde el punto de vista  sem&aacute;ntico como visual. Siendo as&iacute;, para que el tama&ntilde;o del vocabulario sea  &oacute;ptimo cada palabra visual debe corresponder a un significado o concepto &uacute;nico.  Adem&aacute;s debe considerarse que el rendimiento del proceso de clasificaci&oacute;n sea satisfactorio.    ]]></body>
<body><![CDATA[<br>       <br>   Teniendo en cuenta esto se han desarrollado diferentes t&eacute;cnicas con el  objetivo de seleccionar las palabras visuales de mayor relevancia. En (Zhang <em>et al.,</em> 2011) se propone un ordenamiento  de las palabras visuales basado en el algoritmo PR para seleccionar las  palabras m&aacute;s descriptivas y en este orden reducir el vocabulario. Esta misma  t&eacute;cnica es aplicada al reconocimiento de acciones en (C&oacute;zar <em>et al.,</em> 2012), demostrando que una  reducci&oacute;n del vocabulario puede mejorar la efectividad de la clasificaci&oacute;n de  acciones.     <br>       <br>   Liu y Shah (2008) adoptan una b&uacute;squeda tipo <em>greedy</em> sobre la p&eacute;rdida de la <u>Informaci&oacute;n Mutua</u> (<em>Mutual Information</em>, MI) entre las  palabras visuales para determinar el tama&ntilde;o &oacute;ptimo del vocabulario. Su trabajo  est&aacute; inspirado en el agrupamiento de las palabras visuales de acuerdo a la  informaci&oacute;n mutua. Usando esta misma m&eacute;trica de co-ocurrencia Chakraborty (2012)  propone un m&eacute;todo de reducci&oacute;n pero basado en la t&eacute;cnica de <u>Agrupamiento Aglomerado  de Informaci&oacute;n</u> (<em>Agglomerative  Information Bottleneck</em>, AIB). Otro de los trabajos enfocados en la  construcci&oacute;n de un vocabulario &oacute;ptimo es (Zhao e Ip, 2013). Para esto proponen  una representaci&oacute;n de alto nivel que denominan <u>Descriptor Sem&aacute;ntico Aproximado</u> a partir de la asociaci&oacute;n sem&aacute;ntica de las palabras visuales. Esta relaci&oacute;n es  formulada utilizando el grado de co-ocurrencia de las parejas de palabras  visuales basado en la medida conocida como <em>Pearson  Product Moment</em> (PPM),  en lugar de MI. Finalmente, el vocabulario es generado por un agrupamiento  espectral de un grafo de las relaciones sem&aacute;nticas entre los descriptores.    <br>       <br> La generalidad de los enfoques planteados se basa en realizar primeramente  un agrupamiento de las caracter&iacute;sticas de bajo nivel usando una t&eacute;cnica com&uacute;n  como <em>K-means</em>. De esta manera crean  vocabularios visuales de un tama&ntilde;o relativamente grande para luego aplicar una  t&eacute;cnica de reducci&oacute;n y obtener un vocabulario mucho m&aacute;s compacto y  discriminatorio. Sin embargo, los m&eacute;todos de reducci&oacute;n propuestos siguen  requiriendo de un valor umbral para seleccionar las palabras y determinar el  tama&ntilde;o final del vocabulario (Liu y Shah, 2008; Zhang <em>et al.,</em> 2011; C&oacute;zar <em>et al.,</em> 2012; Chakraborty, 2012).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otro de los problemas del modelo BoVW reportado en la bibliograf&iacute;a est&aacute;  relacionado con la p&eacute;rdida de las restricciones espaciales y temporales.  Precisamente esta es una de las razones m&aacute;s importantes del limitado poder  discriminatorio de   este m&eacute;todo. El uso de modelos relacionales &ndash; en particular mediante la  co-ocurrencia de las palabras visuales &ndash; han dado lugar a nuevas  representaciones de mayor nivel de abstracci&oacute;n (Poppe, 2010).    <br>       <br>   En este sentido, se pueden presentar dos tipos de relaciones entre las  palabras visuales: las sem&aacute;nticas y las de proximidad (Li <em>et al.,</em> 2011). Las primeras se ven reflejadas por la similitud  conceptual de las palabras visuales. Esto se debe a que las palabras visuales  son obtenidas a partir del agrupamiento de caracter&iacute;sticas de bajo nivel en  t&eacute;rminos de su apariencia visual. Como resultado diferentes palabras visuales  pueden corresponder al mismo concepto &ndash; p. ej. una misma parte del cuerpo o un  mismo tipo de movimiento &ndash; por lo que se dice que est&aacute;n conceptualmente  relacionadas. Por otra parte, la distribuci&oacute;n estructural de las palabras  visuales se pueden expresar como relaciones espacio-temporales de proximidad.  En el caso de no tener en cuenta estas relaciones las correspondientes  caracter&iacute;sticas son codificadas por separado y esto reportar&iacute;a una p&eacute;rdida de  informaci&oacute;n relevante para el proceso de clasificaci&oacute;n.    <br>       ]]></body>
<body><![CDATA[<br>   Varios han sido los enfoques propuestos con el objetivo de incorporar  informaci&oacute;n relacional al modelo BoVW. Liu y colaboradores (2009) proponen el  uso de las <u>palabras visuales descriptivas</u> a partir de la construcci&oacute;n de  correlogramas. Mientras que en los trabajos (Chen y Hauptmann, 2009; Zhang <em>et al.,</em> 2011) se obtienen <u>frases  visuales</u> tomando la co-ocurrencia de dos palabras visuales. Sin embargo  estas aproximaciones solo tienen en cuenta las relaciones entre los pares de  palabras, obviando estructuras mucho m&aacute;s complejas que pueden brindar m&aacute;s  informaci&oacute;n.     <br>       <br>   Las representaciones basadas en <u>n-gramas</u> son  ampliamente usadas en el campo del procesamiento de lenguaje natural (Lopez-Monroy <em>et al.,</em> 2013), en particular en la  miner&iacute;a de texto y la recuperaci&oacute;n de informaci&oacute;n (Bekkerman y Allan, 2004).  Este modelo es propuesto por Li y colaboradores (2011) para la obtenci&oacute;n de <u>n-gramas  visuales</u> a partir de una exploraci&oacute;n de la vecindad de cada palabra visual,  para finalmente representar cada imagen con el histograma de ocurrencia de  estos. L&oacute;pez-Monroy y colaboradores (2013) aplican este mismo enfoque en la  clasificaci&oacute;n de im&aacute;genes histopatol&oacute;gicas, desarrollando una extensi&oacute;n del  modelo BoVW denominado &ldquo;bolsa de n-gramas visuales&rdquo; (<em>Bag-of-Visual-Ngrams</em>, BoVN). Otros trabajos como (Quack <em>et al.,</em> 2007; Yuan <em>et al.,</em> 2007) usan t&eacute;cnicas de miner&iacute;a de datos para crear frases  visuales de diferentes longitudes con el prop&oacute;sito de conseguir m&aacute;s informaci&oacute;n  relevante. Sin embargo, resultan ineficientes por sus altos costos computacionales. </font></p> <h2><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Representaci&oacute;n de la informaci&oacute;n visual de  acciones humanas</font></h2>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">T&iacute;picamente, la representaci&oacute;n de la informaci&oacute;n visual de las acciones  tiene dos requerimientos esenciales. Primero, la representaci&oacute;n necesita ser  invariante a las diversas transformaciones de la imagen y variabilidad de la  ejecuci&oacute;n de las acciones. En segundo lugar, la representaci&oacute;n debe ser  suficientemente discriminatoria para el proceso de clasificaci&oacute;n. La  interpretaci&oacute;n pr&aacute;ctica de estas restricciones es que una representaci&oacute;n ideal  para la clasificaci&oacute;n de acciones debe ser invariante a los cambios de  apariencia de la persona, modificaciones del entorno &ndash; como el fondo o la  perspectiva &ndash; y velocidad de ejecuci&oacute;n de la acci&oacute;n (Poppe, 2010).    <br>       <br>   El enfoque general de  los detectores de puntos de inter&eacute;s, para la clasificaci&oacute;n de acciones humanas  en video, se basa en la selecci&oacute;n de localizaciones en el video donde se  maximiza una funci&oacute;n espec&iacute;fica de prominencia y su representaci&oacute;n usando el  modelo BoVW (Liu y Shah, 2008; Laptev <em>et  al.,</em> 2008; Ullah <em>et al.,</em> 2010;  Kong <em>et al.,</em> 2011; Chakraborty, 2012;  Zhao e Ip, 2013; Ben Aoun <em>et al.,</em> 2014).  Diferentes autores han desarrollado bastas revisiones sobre los detectores y  descriptores espacio-temporales (Mikolajczyk y Schmid, 2005; Wang <em>et al.,</em> 2009; Shao y Mattivi, 2010). En  la <a href="/img/revistas/rcci/v8n4/t0202414.jpg" target="_blank">tabla 2</a>. An&aacute;lisis de las principales publicaciones  relacionadas con la tem&aacute;tica en los &uacute;ltimos 5 a&ntilde;os. se muestra un an&aacute;lisis de las principales  publicaciones de los &uacute;ltimos 5 a&ntilde;os, distinguiendo el uso de los diferentes  enfoques de representaci&oacute;n, as&iacute; como los principales autores y espacios de  publicaci&oacute;n. A continuaci&oacute;n se describen los enfoques locales utilizados para  la clasificaci&oacute;n de acciones humanas en el video.</font></p> <h3><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Detectores de puntos de inter&eacute;s  espacio-temporales</font></h3>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Laptev y Lindeberg (2003) fueron los primerosque propusieron un detector de  caracter&iacute;sticas locales &ndash; conocido como <u>Harris3D</u> &ndash; basado en una  extensi&oacute;n espacio-temporal del detector Harris (Harris y Stephens, 1988). Los  puntos de inter&eacute;s espacio-temporales (<em>Spatio-Temporal  Interest Points</em>, STIP) se determinan a partir de los m&aacute;ximos locales de los  valores caracter&iacute;sticos de una matriz espacio-temporal de segundo orden para  cada punto del video, a partir de escalas espaciales y temporales  independientes. La importancia de usar escalas para el espacio y el tiempo por  separado est&aacute; dada porque en general estas magnitudes son independientes para  las acciones. La escalas pueden ser seleccionadas autom&aacute;ticamente (Laptev, 2005)  y ser adaptables a la velocidad de los eventos para compensar las variaciones de  la imagen (Laptev <em>et al.,</em> 2007;  Laptev y Lindeberg, 2004b).    <br>       <br>   Doll&aacute;r y colaboradores (2005) argumentan que en determinados casos los  puntos de inter&eacute;s obtenidos por Harris3D resultan poco frecuentes, sobre todo  cuando no existen suficientes movimientos caracter&iacute;sticos. En este caso se dice  que se genera una representaci&oacute;n de STIP esparcida. Con el objetivo de mejorar  este problema ellos proponen el detector <u>Cuboid</u>. Este m&eacute;todo emplea un  kernel espacial gaussiano de suavizado y filtros temporales de Gabor. Sin  embargo, este m&eacute;todo presenta como aspecto negativo que los par&aacute;metros de  escala espacial y temporal son definidos manualmente y permanecen fijos, por lo  que no es invariante a la escala.    <br>       ]]></body>
<body><![CDATA[<br>   Un enfoque basado en el flujo &oacute;ptico es el propuesto por Chen y Hauptmann (2009).  El detector <u>MoSIFT</u> primero aplica el algoritmo SIFT (Lowe, 2004) para  encontrar los componentes visualmente distintivos en el dominio espacial. Este  m&eacute;todo tiene el inconveniente de no ser invariable a la escala temporal. Otro  trabajo que propone un detector de puntos de inter&eacute;s basado en el movimiento es  (Li <em>et al.,</em> 2014), a partir de un  filtrado multi-direcci&oacute;n de la energ&iacute;a de movimiento. A pesar que el movimiento  es una magnitud significativa para la clasificaci&oacute;n de acciones, estos m&eacute;todos  son totalmente dependientes de esta para la detecci&oacute;n de los puntos de inter&eacute;s,  por lo que presentan limitantes para su aplicaci&oacute;n en entornos no controlados.    <br>       <br>   En los m&eacute;todos anteriores las secuencias son representadas por los puntos  de inicio y parada del movimiento. En contraposici&oacute;n a esto, Oikonomopoulos y  colaboradores (2006) proponen un <u>detector de puntos prominentes</u> que se  basa en los picos de variaci&oacute;n de la acci&oacute;n, como pueden ser los bordes de un objeto  en movimiento. En su trabajo presentan una extensi&oacute;n espacio-temporal del  detector de regiones prominentes (Kadir y Brady, 2000) usando la entrop&iacute;a.     <br>       <br>   Un enfoque similar al de (Oikonomopoulos <em>et al.,</em> 2006) &ndash; pero basado en la medida de prominencia Hessian (Lindeberg,  1998) &ndash; resulta el detector <u>Hessian3D</u> propuesto por Willems y  colaboradores (2008). Este detector mide la prominencia usando el determinante  de la matriz 3D de Hessian. Los puntos obtenidos de manera densa son  invariantes de escala y su procesamiento es computacionalmente m&aacute;s eficiente  que (Oikonomopoulos <em>et al.,</em> 2006).     <br>       <br>   A pesar de los resultados prometedores reportados por los enfoques  descritos, los m&eacute;todos anteriores presentan algunas limitantes. Estas  aproximaciones resultan vulnerables a los movimientos de c&aacute;mara y los fondos no  homog&eacute;neos (Chakraborty <em>et al.,</em> 2012),  condiciones presentes en los entornos reales de aplicaci&oacute;n. Como resultado de  esto la estabilidad de los puntos de inter&eacute;s es variable ante estas  condiciones, encontr&aacute;ndose muchos puntos ubicados en el fondo o partes no  significativas a la acci&oacute;n en cuesti&oacute;n (Chakraborty, 2012), lo que decrementa  los resultados de la clasificaci&oacute;n.    <br>       <br>   Para superar estos problemas, dos direcciones principales se han seguido.  Algunos m&eacute;todos como (Wong y Cipolla, 2007; Gilbert <em>et al.,</em> 2009; Bregonzio, 2011) aplican diferentes v&iacute;as de obtener  los STIP. Wong y colaboradores (2007) proponen una estructura de informaci&oacute;n  global para detectar los puntos de inter&eacute;s. Una modificaci&oacute;n del detector  Cuboid es aplicada en (Bregonzio, 2011) a partir de un filtro Gabor bidimensional  (2D). Estos m&eacute;todos funcionan satisfactoriamente en bases de datos simples,  pero no son suficientemente robustos para entornos no controlados. Por su  parte, Gilbert y colaboradores (2009) usan caracter&iacute;sticas locales densas que  son espacial y temporalmente agrupadas mediante un proceso jer&aacute;rquico. Un  enfoque similar es usado en (Wang <em>et al.,</em> 2009) para conformar un detector <u>Denso</u> muestreando bloques de video en  posiciones y escalas regulares. Aunque este m&eacute;todo reporta buenos resultados  para entornos no controlados, se introduce demasiado ruido por la presencia de  puntos que no son significativos para la ejecuci&oacute;n de la acci&oacute;n.    <br>       ]]></body>
<body><![CDATA[<br>   Otras aproximaciones como (Liu <em>et  al.,</em> 2009b; Ullah <em>et al.,</em> 2010; Bregonzio,  2011; Hernandez-Heredia, 2013) primero aplican un detector de STIP y luego usan  diferentes heur&iacute;sticas para seleccionar los puntos de inter&eacute;s m&aacute;s  significativos. El principal inconveniente de estos m&eacute;todos radica en la  aplicaci&oacute;n de diferentes t&eacute;cnicas de pre/post-procesamiento &ndash; como la  segmentaci&oacute;n, las ROI y el seguimiento &ndash; que incrementan el costo computacional  de la representaci&oacute;n. Sin embargo, a pesar de incluir estos tipos de  sub-procesos no logran mejorar significativamente los resultados de  clasificaci&oacute;n en bases de datos complejas.    <br>       <br>   Basado en las limitantes anteriores, Chakraborty (2012) proponen una  t&eacute;cnica de detecci&oacute;n de puntos de inter&eacute;s selectivos (<em>Selective Spatio-Temporal Interest Points</em>, SSTIP). Con este  objetivo se aplica una SSM junto a restricciones espaciales y temporales. No  obstante, presenta como desventaja que no tiene en cuenta la informaci&oacute;n  temporal para determinar las regiones donde ocurren cambios significativos  asociados a la ejecuci&oacute;n de la acci&oacute;n, debido a que los puntos de inter&eacute;s son  detectados solo en la dimensi&oacute;n espacial de los fotogramas.</font></p> <h3><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Descriptores espacio-temporales</font></h3>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De conjunto a los detectores de STIP se han propuesto diversos descriptores  espacio-temporales que capturan las caracter&iacute;sticas de la imagen alrededor de  los puntos de inter&eacute;s. Uno de los primeros trabajos de descriptores locales  para el video es el desarrollado por Laptev y Lindeberg (2004). Ellos comparan  diferentes tipos de descriptores y reportan los mejores resultados para los basados  en histogramas del flujo &oacute;ptico y los gradientes espacio-temporales.    <br>       <br>   Por su parte, Doll&aacute;r y colaboradores (2005) eval&uacute;an diferentes descriptores  espacio-temporales basados en el brillo, el gradiente y el flujo &oacute;ptico. Ellos  probaron varias combinaciones: la concatenaci&oacute;n de los valores de los p&iacute;xeles,  una malla de histogramas locales y un histograma global. De todas las  variantes, la concatenaci&oacute;n del gradiente reporta el mejor rendimiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los descriptores HOG y HOF son presentados por Laptev y colaboradores (2008).  Para caracterizar localmente el movimiento y la apariencia los autores combinan  el histograma del gradiente orientado en el espacio (<em>Histogram of Oriented Spatial Gradients</em>, HOG) y el histograma del  flujo &oacute;ptico (<em>Histogram of Optical Flow</em>,  HOF). Los histogramas son acumulados en la vecindad espacio-temporal de los  puntos de inter&eacute;s detectados, para finalmente ser concatenados y dar lugar al  descriptor <u>HOG/HOF</u>. Otro trabajo que usa los descriptores HOG y HOF es (Chen  y Hauptmann, 2009). El descriptor <u>MoSIFT</u> crea un solo vector de  caracter&iacute;sticas a partir de una fusi&oacute;n de estos descriptores.    <br>       <br>   Una extensi&oacute;n del descriptor de imagen SIFT (Lowe, 2004) al espacio 3D del  video es propuesta en (Scovanner <em>et al.,</em> 2007). El descriptor <u>3D-SIFT</u> en esencia es similar a su antecesor,  exceptuando que se calcula la direcci&oacute;n del gradiente para cada punto en las  tres dimensiones del video. Otra generalizaci&oacute;n del descriptor SIFT es  propuesta por Kl&auml;ser <em>et al.,</em> 2008).  Conocido como <u>HOG3D</u>, se basa en histogramas orientados del gradiente en  las tres dimensiones, donde los gradientes se calculan usando una  representaci&oacute;n integral del video.     <br>       ]]></body>
<body><![CDATA[<br> En (Bay <em>et al.,</em> 2006) se presenta  el descriptor SURF como una variante parcialmente inspirada en SIFT. Willems y  colaboradores (2008) proponen la extensi&oacute;n <u>ESURF</u> aplicada al video. En  este m&eacute;todo se determina un volumen alrededor de los puntos de inter&eacute;s, el cual  es dividido en celdas y cada una es representada por un vector de sumas  ponderadas usando las funciones <em>Haar-wavelets</em> a lo largo de las tres dimensiones.    <br>     <br> Otro descriptor muy popular es el conocido como <u>N-jets</u> (Laptev <em>et al.,</em> 2007), aunque no es muy usado  para el reconocimiento de acciones. Consiste en un conjunto de derivadas  parciales de una funci&oacute;n hasta el orden N y es com&uacute;nmente calculada a partir de  una representaci&oacute;n espacial. Esencialmente describe el movimiento alrededor del  punto de inter&eacute;s debido a que sus dos primeros niveles representan la velocidad  y la aceleraci&oacute;n. Este descriptor es usado por (Chakraborty, 2012) para  caracterizar los (SSTIP), sin embargo resulta la variante menos efectiva del  estado del arte para la descripci&oacute;n de acciones en el video (Laptev y Lindeberg,  2004; Mikolajczyk y Schmid, 2005).</font></p>     <p>&nbsp;</p> <font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">DISCUSI&Oacute;N</font></strong></font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los enfoques basados en representaciones locales basan sus ventajas en  encontrar estructuras locales de la imagen. De esta forma es posible codificar  la informaci&oacute;n visual en un descriptor que sea invariante a transformaciones de  la imagen &ndash; tales como traslaci&oacute;n, rotaci&oacute;n, escalado o deformaciones &ndash; cambios  de perspectiva y presencia de ruido. A partir del uso de detectores de puntos  de inter&eacute;s se obtienen las porciones de la imagen que contienen informaci&oacute;n  distintiva &ndash; como pueden ser las esquinas o porciones con cambios de movimiento  &ndash; que puedan ser f&aacute;cilmente localizables bajo estas dis&iacute;miles condiciones. De esta  manera se consigue un conjunto amplio de caracter&iacute;sticas locales que capturan  la esencia de la imagen.    <br>       <br>   No obstante, las representaciones locales presentan limitantes asociadas a  su alta dimensionalidad. Con el objetivo de hacer frente a estas, el modelo BoVW  resulta una alternativa eficiente para representar las caracter&iacute;sticas locales  a un espacio vectorial de menor cardinalidad. Este m&eacute;todo se caracteriza por su  sencillez y capacidad para agrupar los conceptos sem&aacute;nticamente m&aacute;s  significativos, elemento que lo ha convertido en un referente de soluci&oacute;n a  este problema. Por estos motivos ha sido ampliamente utilizado en la  clasificaci&oacute;n de acciones humanas en video.    <br>       <br>   A pesar de la eficiencia del modelo BoVW, varios resultados experimentales  reportados en la literatura muestran que las palabras visuales no son tan  expresivas como las textuales (Zhang <em>et  al.,</em> 2011; Yang <em>et al.,</em> 2012).  Esto se debe fundamentalmente a que el agrupamiento es un proceso no  supervisado y usualmente genera palabras descriptivas y no descriptivas. En  este sentido, Zhang y colaboradores (2011) describen dos problemas del modelo  BoVW que provocan su limitado poder discriminatorio:</font></p> <ul>    <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El primero  est&aacute; dado porque las palabras visuales no tienen en cuenta la informaci&oacute;n del  contexto. Esto provoca que la informaci&oacute;n sem&aacute;ntica descrita por las relaciones  entre las palabras visuales se pierda y el resultado de la clasificaci&oacute;n sea  err&oacute;neo. </font></li>         ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El segundo se  debe a que la mayor&iacute;a de las t&eacute;cnicas de generaci&oacute;n del vocabulario visual  emplean una m&eacute;trica de distancia general, tales como la distancia euclidiana o  la norma L1 (Duda <em>et al.,</em> 2001).  Debido a esto muchas caracter&iacute;sticas locales con informaci&oacute;n sem&aacute;ntica similar  pueden ser representadas por palabras visuales diferentes y viceversa. Esto  hace que se generen palabras visuales innecesarias y no descriptivas que  generan ruido durante el proceso de clasificaci&oacute;n.</font></li>     </ul>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Estas ideas resaltan a&uacute;n m&aacute;s la importancia de aplicar t&eacute;cnicas para seleccionar  las palabras visuales de mayor relevancia y a la vez reducir el tama&ntilde;o del  vocabulario. De esta forma se podr&aacute; obtener una representaci&oacute;n de la  informaci&oacute;n visual con mayor poder discriminatorio, lo que a su vez  posibilitar&aacute; lograr mejores resultados de clasificaci&oacute;n. Adem&aacute;s, su empleo  puede aportar algunas de las siguientes ventajas:</font></p>   <ul>    <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La eficiencia  (en tiempo y/o en espacio) de la mayor&iacute;a de los algoritmos de aprendizaje  depende del n&uacute;mero de caracter&iacute;sticas empleado. Por tanto, seleccionando un  conjunto de caracter&iacute;sticas m&aacute;s peque&ntilde;o el algoritmo funcionar&iacute;a m&aacute;s r&aacute;pido y/o  con menor consumo de memoria u otros recursos. </font></li>         <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mejora en los  resultados obtenidos: algunos de los algoritmos de aprendizaje, que trabajan  muy bien con pocas caracter&iacute;sticas relevantes, ante la abundancia de  informaci&oacute;n pueden tratar de usar caracter&iacute;sticas irrelevantes y ser  confundidos por las mismas, ofreciendo resultados peores. As&iacute; que la selecci&oacute;n  de caracter&iacute;sticas puede ayudar a obtener mejores resultados indicando qu&eacute; caracter&iacute;sticas  son m&aacute;s adecuadas para la clasificaci&oacute;n.</font></li>         <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Reducci&oacute;n de  los recursos necesarios para el almacenamiento y transmisi&oacute;n de la informaci&oacute;n  de las caracter&iacute;sticas no seleccionadas.</font></li>         </ul>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra de las limitantes del modelo BoVW se debe a la p&eacute;rdida de las relaciones  espacio-temporales de los descriptores. Como ha sido analizado, las  representaciones basadas en partes permiten conservar las estructuras  relacionales de las caracter&iacute;sticas locales. En particular, las representaciones  basadas en grafos posibilitan hacer frente a esta problem&aacute;tica, pero su  aplicaci&oacute;n en el dominio del video presenta un elevado costo computacional. Esto  pudiera compensarse aplicando un modelo esparcido flexible que limite el grado  de los v&eacute;rtices. A su vez, este tipo de representaci&oacute;n puede posibilitar la  obtenci&oacute;n de n-gramas visuales a partir de los subgrafos frecuentes que  aparezcan en los videos. Esto sin dudas permitir&aacute; aumentar el grado de  abstracci&oacute;n de la representaci&oacute;n.    <br>       <br>   Finalmente, se puede afirmar que aunque la bibliograf&iacute;a consultada reporta  diferentes aproximaciones con el objetivo de obtener mejores representaciones  de la informaci&oacute;n visual, los enfoques existentes presentan a&uacute;n determinadas  limitantes y a&uacute;n se muestran ineficientes para su aplicaci&oacute;n en la clasificaci&oacute;n  de acciones humanas. Esto ha llevado a la comunidad cient&iacute;fica, en los &uacute;ltimos  a&ntilde;os, a buscar nuevas alternativas para mejorar los resultados de la  clasificaci&oacute;n, tales como aumentar el grado de abstracci&oacute;n de las caracter&iacute;sticas  bases (Wang <em>et al.,</em> 2013, Guthier <em>et al.,</em> 2014), nuevos m&eacute;todos de  codificaci&oacute;n de las mismas (Oneata <em>et  al.,</em> 2013; Cai <em>et al.,</em> 2014) o  concentrarse en las t&eacute;cnicas de clasificaci&oacute;n (Ji <em>et al.,</em> 2013, Tran <em>et al.,</em> 2014).</font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La gran cantidad y actualidad de propuestas de t&eacute;cnicas de representaci&oacute;n  de la informaci&oacute;n visual disponibles en la literatura muestra que esta tem&aacute;tica  constituye un campo de investigaci&oacute;n muy activo. El estudio realizado ratifica  que, las representaciones locales se caracterizan por su efectividad y  eficiencia en los resultados que ofrecen. No obstante, este tipo de representaci&oacute;n  presenta determinadas limitaciones &ndash; sobre todo relacionadas con la p&eacute;rdida de  la informaci&oacute;n del contexto &ndash; que limitan su poder discriminatorio. Por lo que  es necesario la creaci&oacute;n y actualizaci&oacute;n de modelos de representaci&oacute;n de la  informaci&oacute;n visual con vistas a mejorar los resultados de clasificaci&oacute;n de  acciones humanas en video.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por estas razones, la creaci&oacute;n de m&eacute;todos de representaci&oacute;n que tengan en  cuenta la estructuraci&oacute;n relacional de las caracter&iacute;sticas locales y logren  seleccionar las de mayor poder discriminatorio, constituye un reto vigente para  la comunidad cient&iacute;fica en este campo de investigaci&oacute;n. En este sentido, la  incorporaci&oacute;n de t&eacute;cnicas de selecci&oacute;n de caracter&iacute;sticas en el proceso de  representaci&oacute;n de la informaci&oacute;n visual es vital para garantizar el poder discriminatorio  de las mismas y al mismo tiempo reducir la dimensionalidad de los datos, su  aplicaci&oacute;n es posible en los diferentes sub-procesos de representaci&oacute;n en pos  de incrementar la eficacia y eficiencia de las etapas posteriores de  entrenamiento y clasificaci&oacute;n. Por otra parte, el uso de modelos relacionales  han dado lugar a nuevas representaciones de mayor nivel de abstracci&oacute;n, su  empleo como parte del modelo BoVW posibilita que se tengan en cuenta las  restricciones espaciales y temporales, en este sentido los n-gramas visuales  permiten conservar las estructuraciones sem&aacute;nticas y contextuales de las  palabras visuales con mayor precisi&oacute;n.</font></p>     <p>&nbsp;</p>     <!-- ref --><p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font></font>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AGGARWAL,   J.; RYOO, M. Human activity analysis: A review. ACM Computing Surveys (CSUR), 2011, 43 (3): p. 1-43.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AGRAWAL,   R.; SRIKANT, R. Fast algorithms for mining association rules in large   databases. En: International   Conference on Very Large Data Bases (VLDB), 1994, p. 487-499.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ANDRZEJEWSKI,   D.; MULHERN, A., et al. Statistical debugging using latent topic models. En:   Machine Learning: ECML 2007: Springer, 2007, p. 6-17.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BAY,   H.; TUYTELAARS, T.; GOOL, L. Surf: speeded up robust features. En: European Conference on Computer Vision   (ECCV'06): Springer, 2006, p. 404-417.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BEKKERMAN,   R.; ALLAN, J. Using bigrams in text   categorization. Technical Report, Department of Computer Science,   University of Massachusetts, 2004.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BEN AOUN, N.; MEJDOUB, M., et al. Graph-based approach for human action recognition   using spatio-temporal features. Journal   of Visual Communication and Image Representation, 2014, 25 (2): p. 329-338.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BENGIO, Y.; COURVILLE, A., et al. Representation Learning: A Review and New   Perspectives. IEEE Transactions on   Pattern Analysis and Machine Intelligence (PAMI), 2013, 35 (8): p. 1798-1828.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BISHOP,   C. M. Pattern Recognition and Machine   Learning. Jordan,   M.; Kleinberg, J.; Sch&ouml;lkopf, B (editores). New York, Springer, 2006.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BOBICK,   A. F. Movement, activity and action: the role of knowledge in the perception   of motion. Philosophical Transactions   of the Royal Society of London. Series B: Biological Sciences, 1997, 352 (1358):   p. 1257-1265.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BONEV,   B. I. Feature Selection based on   Information Theory. Ph.D. Thesis, Universidad de Alicante, 2010.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BOUCHARD,   G.; TRIGGS, B. Hierarchical part-based visual object categorization. En: Proceedings of the IEEE Conference on   Computer Vision and Pattern Recognition (CVPR): IEEE, 2005, p. 710-715.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BREGONZIO,   M. Representation and Recognition of   Human Action in Video. Ph.D. Thesis, Queen Mary University of London,   2011.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BUNKE,   H. Graph matching: Theoretical foundations, algorithms, and applications. En: Proceeding of Vision Interface, 2000, p. 82-88.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CAI, Z.; WANG, L., et al.   Multi-View Super Vector for Action Recognition. En: IEEE Conference on Computer   Vision and Pattern Recognition (CVPR): IEEE, 2014, p. 596-603.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CARNEIRO,   G.; LOWE, D. Sparse flexible models of local features. En: Proceedings of the European Conference on   Computer Vision (ECCV'06): Springer, 2006, p.   29-43.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHAARAOUI, A. A.; CLIMENT-P&Eacute;REZ, P., et al. A review on vision techniques applied to Human   Behaviour Analysis for Ambient-Assisted Living. Expert Systems with Applications, 2012, 39 (12): p. 10873-10888.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHAKRABORTY,   B. Model free approach to human action recognition. Ph.D. Thesis, Universitat   Aut&ograve;noma de Barcelona, 2012.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHEN,   M. Y.; HAUPTMANN, A. MoSIFT:   Recognizing Human Actions in Surveillance Videos. Research Showcase,   Computer Science Department, School of Computer Science, Carnegie Mellon   University, 2009.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">C&Oacute;ZAR, J. R.; HERN&Aacute;NDEZ, R., et al. Reducing Vocabulary Size in Human Action   Classification. En:   M. Gra&ntilde;a, C. Toro, J. Posada, R. J. Howlett, L. C. Jain (editores). Frontiers in Artificial Intelligence and   Applications: IOS Press, 2012, 243: p. 1712-1719.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CRANDALL,   D.; FELZENSZWALB, P., et al. Spatial priors for part-based recognition using   statistical models. En: Proceedings   of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE,   2005, p. 10-17.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CSURKA,   G.; BRAY, C., et al. Visual categorization with bags of keypoints. En: Workshop on Statistical Learning in   Computer Vision, in conjunction with ECCV, 2004, p. 1-2.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DIAZ-ESPINOSA, D. A. Implementaci&oacute;n   y comparaci&oacute;n de descriptores para b&uacute;squeda en video. Master Thesis, Universidad de Chile, 2010.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DOLL&Aacute;R, P.; RABAUD, V., et al. Behavior Recognition via Sparse Spatio-Temporal Features. 2nd Joint IEEE International Workshop on   Visual Surveillance and Performance Evaluation of Tracking and Surveillance,   (VS-PETS'05), 2005, (p. 65-72).    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DUDA, R. O.; HART, P. E., et al. Pattern Classification, 2nd edition.   Willey-Interscience, New York, 2001.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FELZENSZWALB,   P.; HUTTENLOCHER, D. Pictorial structures for object recognition. International Journal of Computer Vision, 2005,   61 (1): p. 55-79.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FERGUS,   R.; ZISSERMAN, A., et al. Object class recognition by unsupervised   scale-invariant learning. En: Proceedings   of the IEEE Conference on Computer Vision and Pattern Recognition: IEEE, 2003,   p. II-264-II-271.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GAUR, U.; ZHU, Y., et al. A &ldquo;String of Feature Graphs&rdquo; Model for Recognition of Complex Activities   in Natural Videos. En: IEEE International   Conference on Computer Vision (ICCV): IEEE, 2011, p. 2595-2602. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GILBERT,   A.; ILLINGWORTH, J., et al. Fast Realistic Multi-Action Recognition using   Mined Dense Spatio-temporal Features. En: IEEE 12th International Conference on Computer Vision (ICCV): IEEE,   2009, p. 925-931.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GONG, W., GONZ&Agrave;LEZ, J., et al. Human Action Recognition based on Estimated Weak Poses. EURASIP Journal on Advances in Signal   Processing, 2012, 2012 (1): p. 1-14.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GONZ&Agrave;LEZ,   J.; VARONA, J., et al. aSpaces: Action Spaces for Recognition and Synthesis of   Human Actions. En: F. J. Perales, E. R. Hancock (editores). Articulated Motion and Deformable Objects (AMDO):   Springer, 2002, LNCS 2492: p. 189-200.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GORELICK,   L.; BLANK, M., et al. Actions as space&ndash;time shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI),   2007, 29 (12): p. 2247-2253.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GRAUMAN,   K.; LEIBE, B. Visual Object   Recognition. Brachman, Ronald J.; Dietterich, Thomas G (editores).   Morgan &amp; Claypool Publishers, New York, 2011.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GRIGORESCU, C.; PETKOV, N., et al. Contour and boundary detection improved by surround   suppression of texture edges. Image   and Vision Computing, 2004, 22 (8): p. 609-622.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GUTHIER, T.; &Scaron;O&Scaron;I&#262;, A., et al.   sNN-LDS: Spatio-temporal Non-negative Sparse Coding for Human Action   Recognition. En: Artificial Neural Networks and Machine Learning - ICANN 2014:   Springer, 2014, p. 185-192. </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HARRIS,   C.; STEPHENS, M. A combined corner and edge detector. En: Alvey Vision Conference, 1988, p.147-151.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HERNANDEZ-HEREDIA, Y. Modelo   para la detecci&oacute;n y reconocimiento de acciones humanas en videos a partir de   descriptores espacio-temporales. Ph.D. Thesis, Universidad de las   Ciencias Inform&aacute;ticas, 2013.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">J&Eacute;GOU, H.; DOUZE, M., et al. Aggregating local descriptors into s compact image representation. En: IEEE International Conference on Computer   Vision and Pattern Recognition (CVPR'10): IEEE, 2010, p. 3304-3311.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JENKINS,   O. C.; MATARI&Ccedil;, M. J. Automated   Modularization of Human Motion into Actions and Behaviors. Technical   Report, USC Center for Robotics and Embedded Systems, 2002.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JI, S.; XU, W., et al. 3D   convolutional neural networks for human action recognition. IEEE Transactions   on Pattern Analysis and Machine Intelligence (PAMI), 2013, 35 (1): p. 221-231.     </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KADIR,   T.; BRADY, M. Scale saliency: A novel approach to salient feature and scale   selection. En: International   Conference on Visual Information Engineering, 2000, p. 25-28.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KIM,   T.-K.; CIPOLLA, R. Canonical correlation analysis of video volume tensors for   action categorization and detection. IEEE   Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2009, 31 (8):   p. 1415-1428.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KL&Auml;SER, A.; MARSZALEK, M., et al. A Spatio-Temporal Descriptor Based on 3D-Gradients. En:   British Machine Vision Conference   (BMVC'08): British Machine Vision Association, 2008, p. 995-1004.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KONG,   Y.; ZHANG, X., et al. Adaptive learning codebook for action recognition. Pattern Recognition Letters, 2011, 32 (8):   p. 1178-1186.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV,   I. On Space-Time and Interest Points. International   Journal of Computer Vision, 2005, 64 (2/3): p.107-123.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV,   I.; LINDEBERG, T. Space-time interest points. En: Proceedings of the Ninth IEEE International Conference on Computer   Vision (ICCV'03): IEEE, 2003, 1:   p. 432-439.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV,   I.; LINDEBERG, T. Local Descriptors for Spatio-Temporal Recognition. En: European Conference on Computer Vision   (ECCV'04): Springer, LNCS 3024: 2004.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV,   I.; LINDEBERG, T. Velocity adaptation of space-time interest points. En: Proceedings   of the 17th International Conference on Pattern Recognition (ICPR): IEEE, 2004b,   p. 52-56.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV, I.; CAPUTO, B., et al. Local velocity-adapted motion events for spatio-temporal recognition. Computer Vision and Image Understanding,   2007, 108 (3): p. 207-229.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAPTEV,   I.; MARSZALEK, M., et al. Learning realistic human actions from movies. En: IEEE International Conference on Computer   Vision and Pattern Recognition (CVPR'08): IEEE, 2008, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LEIBE, B.; LEONARDIS, A., et al. Robust object detection with interleaved   categorization and segmentation. International   Journal of Computer Vision, 2008, 77 (1-3): p. 259-289.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LI, C.; SU, B., et al. Human   Action and Recognition Using and Multi-Velocity STIPs and Motion Energy and   Orientation Histogram. Journal of   Information Science and Engineering, 2014, 30 (2): p. 295-312.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LI, T.; MEI, T., et al. Contextual   Bag-of-Words and for Visual and Categorization. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21   (4): p. 381-392.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LINDEBERG,   T. Feature detection with automatic scale selection. International Journal of Computer Vision, 1998, 30 (2): p. 79-116.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, D.; HUA, G., et al. Integrated feature selection and higher-order spatial feature extraction   for object categorization. En: IEEE   International Conference on Computer Vision and Pattern Recognition (CVPR'08):   IEEE, 2008, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU,   J.; SHAH, M. Learning Human Actions via Information Maximization. En: IEEE International Conference on Computer   Vision and Pattern Recognition (CVPR'08): IEEE, 2008, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, J.; ALI, S., et al. Recognizing human actions using multiple features. En: IEEE International Conference on Computer   Vision and Pattern Recognition (CVPR'08): IEEE, 2008b, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, J.; LUO, J., et al. Recognizing Realistic Actions from Videos in the Wild. En: IEEE International Conference on Computer   Vision and Pattern Recognition (CVPR'09): IEEE, 2009, p. 1996-2003.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIU, J.; YANG, Y., et al. Learning semantic visual vocabularies using diffusion distance. En: IEEE Conference on Computer Vision and   Pattern Recognition (CVPR'09): IEEE, 2009b, p. 461-468.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">L&Oacute;PEZ-MONROY, A. P.; G&Oacute;MEZ, M. M., et al. Bag-of-Visual-Ngrams for Histopathology Image   Classification. En: IX   International Seminar on Medical Information Processing and Analysis:   International Society for Optics and Photonics, 2013, p. 89220P-89220P-12.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOWE,   D. Distinctive image features from scale invariant key points. International Journal of Computer Vision,   2004, 60 (2): p. 91-110.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MIKOLAJCZYK,   K.; SCHMID, C. A performance evaluation of local descriptors. IEEE   Transactions on Pattern Analysis and Machine Intelligence, 2005, 27 (10): p.   1615-1630.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MOESLUND,   T. B.; HILTON, A., et al. A survey of advances in vision-based human motion   capture and analysis. Computer Vision   and Image Understanding, 2006, 104 (2): p. 90-126.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MORALES-GONZ&Aacute;LEZ,   A.; REYES, E. Assessing the role of spatial relations for the object   recognition task. En: Progress in   Pattern Recognition, Image Analysis, Computer Vision, and Applications: Springer,   2010, p. 549-556.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">OIKONOMOPOULOS, A.; PATRAS, I., et al. Spatiotemporal Salient Points for Visual Recognition   of Human Actions. IEEE Transactions   on Systems Man and Cybernetics, 2006, 36 (3): p. 710-719.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ONEATA, D.;   VERBEEK, J., et al. Action and Event Recognition with   Fisher Vectors on a Compact Feature Set. En: IEEE International Conference on   Computer Vision (ICCV): IEEE, 2013, p. 1817-1824.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&Ouml;ZDEMIR,   B.; AKSOY, S. Image classification using subgraph histogram representation. En:   20th International Conference on   Pattern Recognition (ICPR): IEEE, 2010, p. 1112-1115.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">POPPE,   R. A survey on vision-based human action recognition. Image and Vision Computing, 2010, 28 (6): p. 976-990.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">QUACK, T.; FERRARI, V., et al. Efficient mining of frequent and distinctive feature configurations. En: IEEE 11th International Conference on   Computer Vision (ICCV'07): IEEE, 2007, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">REN,   H.; MOESLUND, T. B. Action Recognition Using Salient Neighboring Histograms. En:   IEEE International Conference on   Image Processing (ISIP): IEEE, 2013, p. 2807-2811.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RYOO,   M.; AGGARWAL, J. Spatio-temporal relationship match: video structure   comparison for recognition of complex human activities. En: 2009 IEEE 12th International Conference   on Computer Vision: IEEE, 2009, p. 1593-1600.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SCOVANNER,   P.; ALI, S., et al. A 3-dimensional SIFT descriptor and its application to   action recognition. En: Proceedings   of the 15th International Conference on Multimedia: ACM, 2007, p. 357-360.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SHAO,   L.; MATTIVI, R. Feature Detector and Descriptor Evaluation in Human Action   Recognition. En: Proceedings of the   ACM International Conference on Image and Video Retrieval: ACM, 2010, p.   477-484.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TA, A.;   WOLF, C., et al. Recognizing and localizing individual activities through   graph matching. En: 2010 Seventh IEEE   International Conference on Advanced Video and Signal Based Surveillance   (AVSS): IEEE, 2010, p. 196-203.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TRAN, S.N.;   BENETOS, E., et al. Learning motion-difference   features using Gaussian restricted Boltzmann machines for efficient human   action recognition. En: 2014 International Joint Conference on Neural Networks   (IJCNN): IEEE, 2014, p. 2123-2129.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TURAGA,   P.; CHELLAPPA, R., et al. Machine Recognition of Human Activities: A survey. IEEE Transactions on Circuits and Systems   for Video Technology, 2008, 18 (11): p. 1473-1488.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">UIJLINGS,   J.; SMEULDERS, A., et al. Real-time bag of words, approximately. En: Proceedings of the ACM International   Conference on Image and Video Retrieval: ACM, 2009, p. 1-8.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ULLAH, M. M.; PARIZI, S. N., et al. Improving bag-of-features action recognition with   non-local cues. En: Procedings of the   British Machine Vision Conference (BMVC'10): British Machine Vision   Association, 2010, p. 95.1-95.11.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG,   H.; KL&Auml;SER, A., et al. Dense trajectories and motion boundary descriptors for   action recognition. International Journal of Computer Vision, 2013, 103 (1):   p. 60-79.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG,   H.; ULLAH, M. M., et al. Evaluation of local spatio-temporal features and for   action recognition. En: British Machine   Vision Conference (BMVC'09): British Machine Vision Association, 2009.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WEINLAND,   D.; RONFARD, R., et al. Free viewpoint action recognition using motion history   volumes. Computer Vision and Image   Understanding, 2006, 104 (2-3): p. 249-257.    </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WEINLAND,   D.; RONFARD, R., et al. A survey of   vision-based methods for action representation, segmentation and recognition.   Technical Report, INRIA, 2010.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WILLEMS,   G.; TUYTELAARS, T., et al. An Efficient Dense and Scale-Invariant   Spatio-Temporal Interest Point Detector. En: European Conference on Computer Vision (ECCV'08): Springer, 2008, 2: p. 650-663.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WONG,   S.; CIPOLLA, R. Extracting spatiotemporal interest points using global   information. En: IEEE 11th   International Conference on Computer Vision (ICCV): IEEE, 2007, p. 1-8.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG,   Z.; PENG, Y., et al. Visual Vocabulary Optimization with Spatial Context for   Image Annotation and Classification. En: K. Schoeffmann et al. (editores). Advances   in Multimedia Modeling, MMM 2012, Springer,   2012, LNCS 7131: p. 89-102.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YUAN, J.; WU, Y., et al. Discovery of Collocation Patterns: from Visual Words to Visual Phrases. En:   IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07): IEEE,   2007, p. 1-8.    </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHANG,   S.; TIAN, Q., et al. Generating Descriptive and Visual Words and Visual and   Phrases for Large-Scale and Image Applications. IEEE Transactions on Image Processing, 2011, 20 (9): p. 2664-2677.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHAO,   Q.; IP, H. H. Unsupervised approximate-semantic vocabulary learning for human   action and video classification. Pattern Recognition Letters, 2013, 34 (15):   p. 1870-1878.     </font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 29/07/2014      <br> Aceptado: 9/10/2014</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ACOSTA-MENDOZA]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[GAGO-ALONSO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Frequent approximate subgraphs as features for graph-based image classification]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>27</volume>
<page-range>381-392</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AGGARWAL]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[RYOO]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Human activity analysis: A review]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>43</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>1-43</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AGRAWAL]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[SRIKANT]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Fast algorithms for mining association rules in large databases.]]></source>
<year>1994</year>
<page-range>487-499</page-range><publisher-name><![CDATA[En: International Conference on Very Large Data Bases (VLDB)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ANDRZEJEWSKI]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MULHERN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistical debugging using latent topic models.]]></source>
<year>2007</year>
<page-range>6-17</page-range><publisher-name><![CDATA[En: Machine Learning: ECML 2007: Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BAY]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[TUYTELAARS]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[GOOL]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Surf: speeded up robust features.]]></source>
<year>2006</year>
<page-range>404-417</page-range><publisher-name><![CDATA[En: European Conference on Computer Vision (ECCV'06): Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BEKKERMAN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[ALLAN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Using bigrams in text categorization.]]></source>
<year>2004</year>
<publisher-name><![CDATA[Technical Report, Department of Computer Science, University of Massachusetts]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BEN AOUN]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[MEJDOUB]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Graph-based approach for human action recognition using spatio-temporal features.]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>25</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>329-338</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BENGIO]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[COURVILLE]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Representation Learning: A Review and New Perspectives.]]></article-title>
<source><![CDATA[]]></source>
<year>2013</year>
<volume>35</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>1798-1828</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BISHOP]]></surname>
<given-names><![CDATA[C. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Pattern Recognition and Machine Learning.]]></source>
<year>2006</year>
<publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BOBICK]]></surname>
<given-names><![CDATA[A. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Movement, activity and action: the role of knowledge in the perception of motion.]]></article-title>
<source><![CDATA[]]></source>
<year>1997</year>
<volume>352</volume>
<numero>1358</numero>
<issue>1358</issue>
<page-range>1257-1265</page-range><publisher-name><![CDATA[Biological Sciences]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BONEV]]></surname>
<given-names><![CDATA[B. I]]></given-names>
</name>
</person-group>
<source><![CDATA[Feature Selection based on Information Theory.]]></source>
<year>2010</year>
<publisher-name><![CDATA[Ph.D. Thesis, Universidad de Alicante]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BOUCHARD]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[TRIGGS]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Hierarchical part-based visual object categorization.]]></source>
<year>2005</year>
<page-range>710-715</page-range><publisher-name><![CDATA[En: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BREGONZIO]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Representation and Recognition of Human Action in Video.]]></source>
<year>2011</year>
<publisher-name><![CDATA[Ph.D. Thesis, Queen Mary University of London]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BUNKE]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Graph matching: Theoretical foundations, algorithms, and applications.]]></source>
<year>2000</year>
<page-range>82-88</page-range><publisher-name><![CDATA[En: Proceeding of Vision Interface]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAI]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Multi-View Super Vector for Action Recognition.]]></source>
<year>2014</year>
<page-range>596-603</page-range><publisher-name><![CDATA[En: IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CARNEIRO]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[LOWE]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Sparse flexible models of local features.]]></source>
<year>2006</year>
<page-range>29-43</page-range><publisher-name><![CDATA[En: Proceedings of the European Conference on Computer Vision (ECCV'06): Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHAARAOUI]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[CLIMENT-PÉREZ]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A review on vision techniques applied to Human Behaviour Analysis for Ambient-Assisted Living.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>39</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>10873-10888</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHAKRABORTY]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Model free approach to human action recognition.]]></source>
<year>2012</year>
<publisher-name><![CDATA[Ph.D. Thesis, Universitat Autònoma de Barcelona]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[M. Y]]></given-names>
</name>
<name>
<surname><![CDATA[HAUPTMANN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[MoSIFT: Recognizing Human Actions in Surveillance Videos.]]></source>
<year>2009</year>
<publisher-name><![CDATA[Research Showcase, Computer Science Department, School of Computer Science, Carnegie Mellon University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CÓZAR]]></surname>
<given-names><![CDATA[J. R]]></given-names>
</name>
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reducing Vocabulary Size in Human Action Classification.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>243</volume>
<page-range>1712-1719</page-range><publisher-name><![CDATA[IOS Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CRANDALL]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[FELZENSZWALB]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Spatial priors for part-based recognition using statistical models.]]></source>
<year>2005</year>
<page-range>10-17</page-range><publisher-name><![CDATA[En: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CSURKA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[BRAY]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Visual categorization with bags of keypoints.]]></source>
<year>2004</year>
<page-range>1-2</page-range><publisher-name><![CDATA[En: Workshop on Statistical Learning in Computer Vision, in conjunction with ECCV]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DIAZ-ESPINOSA]]></surname>
<given-names><![CDATA[D. A]]></given-names>
</name>
</person-group>
<source><![CDATA[Implementación y comparación de descriptores para búsqueda en video.]]></source>
<year>2010</year>
<publisher-name><![CDATA[Master Thesis, Universidad de Chile]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DOLLÁR]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[RABAUD]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Behavior Recognition via Sparse Spatio-Temporal Features.]]></source>
<year>2005</year>
<page-range>65-72</page-range><publisher-name><![CDATA[2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, (VS-PETS'05)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DUDA]]></surname>
<given-names><![CDATA[R. O]]></given-names>
</name>
<name>
<surname><![CDATA[HART]]></surname>
<given-names><![CDATA[P. E]]></given-names>
</name>
</person-group>
<source><![CDATA[Pattern Classification]]></source>
<year>2001</year>
<publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[2nd edition. Willey-Interscience]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FELZENSZWALB]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[HUTTENLOCHER]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Pictorial structures for object recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2005</year>
<volume>61</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>55-79</page-range></nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FERGUS]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Object class recognition by unsupervised scale-invariant learning.]]></source>
<year>2003</year>
<page-range>II-264-II-271</page-range><publisher-name><![CDATA[En: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GAUR]]></surname>
<given-names><![CDATA[U]]></given-names>
</name>
<name>
<surname><![CDATA[ZHU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[A &#8220;String of Feature Graphs&#8221; Model for Recognition of Complex Activities in Natural Videos.]]></source>
<year>2011</year>
<page-range>2595-2602</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision (ICCV): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GILBERT]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ILLINGWORTH]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Fast Realistic Multi-Action Recognition using Mined Dense Spatio-temporal Features.]]></source>
<year>2009</year>
<page-range>925-931</page-range><publisher-name><![CDATA[En: IEEE 12th International Conference on Computer Vision (ICCV): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GONG]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[GONZÀLEZ]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Human Action Recognition based on Estimated Weak Poses.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>1</volume>
<page-range>1-14</page-range></nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GONZÀLEZ]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[VARONA]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[aSpaces: Action Spaces for Recognition and Synthesis of Human Actions.]]></source>
<year>2002</year>
<page-range>189-200</page-range><publisher-name><![CDATA[En: F. J. Perales, E. R. Hancock (editores). Articulated Motion and Deformable Objects (AMDO): Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GORELICK]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[BLANK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Actions as space-time shapes.]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<volume>29</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>2247-2253</page-range></nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRAUMAN]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[LEIBE]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Visual Object Recognition]]></source>
<year>2011</year>
<publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[Morgan & Claypool Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRIGORESCU]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[PETKOV]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Contour and boundary detection improved by surround suppression of texture edges.]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>22</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>609-622</page-range></nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUTHIER]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[&#352;O&#352;I&#262;]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[sNN-LDS: Spatio-temporal Non-negative Sparse Coding for Human Action Recognition.]]></source>
<year>2014</year>
<page-range>185-192</page-range><publisher-name><![CDATA[En: Artificial Neural Networks and Machine Learning - ICANN 2014: Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HARRIS]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[STEPHENS]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[A combined corner and edge detector.]]></source>
<year>1988</year>
<page-range>147-151</page-range><publisher-name><![CDATA[En: Alvey Vision Conference]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HERNANDEZ-HEREDIA]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Modelo para la detección y reconocimiento de acciones humanas en videos a partir de descriptores espacio-temporales.]]></source>
<year>2013</year>
<publisher-name><![CDATA[Ph.D. Thesis, Universidad de las Ciencias Informáticas]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JÉGOU]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[DOUZE]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Aggregating local descriptors into s compact image representation.]]></source>
<year>2010</year>
<page-range>3304-3311</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'10): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JENKINS]]></surname>
<given-names><![CDATA[O. C]]></given-names>
</name>
<name>
<surname><![CDATA[MATARIÇ]]></surname>
<given-names><![CDATA[M. J]]></given-names>
</name>
</person-group>
<source><![CDATA[Automated Modularization of Human Motion into Actions and Behaviors.]]></source>
<year>2002</year>
<publisher-name><![CDATA[Technical Report, USC Center for Robotics and Embedded Systems]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JI]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[XU]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[3D convolutional neural networks for human action recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2013</year>
<volume>35</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>221-231</page-range></nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KADIR]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[BRADY]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Scale saliency: A novel approach to salient feature and scale selection.]]></source>
<year>2000</year>
<page-range>25-28</page-range><publisher-name><![CDATA[En: International Conference on Visual Information Engineering]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B42">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KIM]]></surname>
<given-names><![CDATA[T.-K]]></given-names>
</name>
<name>
<surname><![CDATA[CIPOLLA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Canonical correlation analysis of video volume tensors for action categorization and detection.]]></article-title>
<source><![CDATA[]]></source>
<year>2009</year>
<volume>31</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>1415-1428</page-range></nlm-citation>
</ref>
<ref id="B43">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KLÄSER]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MARSZALEK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[A Spatio-Temporal Descriptor Based on 3D-Gradients.]]></source>
<year>2008</year>
<page-range>995-1004</page-range><publisher-name><![CDATA[: British Machine Vision Conference (BMVC'08): British Machine Vision Association]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B44">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KONG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Adaptive learning codebook for action recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>32</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>1178-1186</page-range></nlm-citation>
</ref>
<ref id="B45">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[On Space-Time and Interest Points.]]></source>
<year>2005</year>
<page-range>107-123</page-range><publisher-name><![CDATA[International Journal of Computer Vision]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B46">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[LINDEBERG]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Space-time interest points.]]></article-title>
<source><![CDATA[]]></source>
<year>2003</year>
<volume>1</volume>
<page-range>432-439</page-range></nlm-citation>
</ref>
<ref id="B47">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[LINDEBERG]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Local Descriptors for Spatio-Temporal Recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<publisher-name><![CDATA[Springer, LNCS 3024]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B48">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[LINDEBERG]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Velocity adaptation of space-time interest points.]]></source>
<year>2004</year>
<month>b</month>
<page-range>52-56</page-range><publisher-name><![CDATA[En: Proceedings of the 17th International Conference on Pattern Recognition (ICPR): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B49">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[CAPUTO]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Local velocity-adapted motion events for spatio-temporal recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<volume>108</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>207-229</page-range></nlm-citation>
</ref>
<ref id="B50">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAPTEV]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[MARSZALEK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning realistic human actions from movies.]]></source>
<year>2008</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'08): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B51">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LEIBE]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[LEONARDIS]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust object detection with interleaved categorization and segmentation.]]></article-title>
<source><![CDATA[]]></source>
<year>2008</year>
<volume>77</volume>
<numero>1-3</numero>
<issue>1-3</issue>
<page-range>259-289</page-range></nlm-citation>
</ref>
<ref id="B52">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[SU]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Human Action and Recognition Using and Multi-Velocity STIPs and Motion Energy and Orientation Histogram.]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>30</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>295-312</page-range></nlm-citation>
</ref>
<ref id="B53">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[MEI]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Contextual Bag-of-Words and for Visual and Categorization.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>21</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>381-392</page-range></nlm-citation>
</ref>
<ref id="B54">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LINDEBERG]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Feature detection with automatic scale selection.]]></article-title>
<source><![CDATA[]]></source>
<year>1998</year>
<volume>30</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>79-116</page-range></nlm-citation>
</ref>
<ref id="B55">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[HUA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Integrated feature selection and higher-order spatial feature extraction for object categorization.]]></source>
<year>2008</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'08): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B56">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SHAH]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning Human Actions via Information Maximization.]]></source>
<year>2008</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'08): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B57">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ALI]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Recognizing human actions using multiple features.]]></source>
<year>2008</year>
<month>b</month>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'08): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B58">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[LUO]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Recognizing Realistic Actions from Videos in the Wild.]]></source>
<year>2009</year>
<page-range>1996-2003</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision and Pattern Recognition (CVPR'09): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B59">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning semantic visual vocabularies using diffusion distance.]]></source>
<year>2009</year>
<month>b</month>
<page-range>461-468</page-range><publisher-name><![CDATA[En: IEEE Conference on Computer Vision and Pattern Recognition (CVPR'09): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B60">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LÓPEZ-MONROY]]></surname>
<given-names><![CDATA[A. P]]></given-names>
</name>
<name>
<surname><![CDATA[GÓMEZ]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Bag-of-Visual-Ngrams for Histopathology Image Classification.]]></source>
<year>2013</year>
<page-range>89220P-89220P-12</page-range><publisher-name><![CDATA[En: IX International Seminar on Medical Information Processing and Analysis: International Society for Optics and Photonics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B61">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOWE]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distinctive image features from scale invariant key points.]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>60</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>91-110</page-range></nlm-citation>
</ref>
<ref id="B62">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MIKOLAJCZYK]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMID]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A performance evaluation of local descriptors.]]></article-title>
<source><![CDATA[]]></source>
<year>2005</year>
<volume>27</volume>
<numero>10</numero>
<issue>10</issue>
<page-range>1615-1630</page-range></nlm-citation>
</ref>
<ref id="B63">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MOESLUND]]></surname>
<given-names><![CDATA[T. B]]></given-names>
</name>
<name>
<surname><![CDATA[HILTON]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A survey of advances in vision-based human motion capture and analysis.]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>104</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>90-126</page-range></nlm-citation>
</ref>
<ref id="B64">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MORALES-GONZÁLEZ]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[REYES]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Assessing the role of spatial relations for the object recognition task.]]></source>
<year>2010</year>
<page-range>549-556</page-range><publisher-name><![CDATA[En: Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications: Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B65">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[OIKONOMOPOULOS]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[PATRAS]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Spatiotemporal Salient Points for Visual Recognition of Human Actions.]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>36</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>710-719</page-range></nlm-citation>
</ref>
<ref id="B66">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ONEATA]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[VERBEEK]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Action and Event Recognition with Fisher Vectors on a Compact Feature Set.]]></source>
<year>2013</year>
<page-range>1817-1824</page-range><publisher-name><![CDATA[En: IEEE International Conference on Computer Vision (ICCV): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B67">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ÖZDEMIR]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[AKSOY]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Image classification using subgraph histogram representation.]]></source>
<year>2010</year>
<page-range>1112-1115</page-range><publisher-name><![CDATA[En: 20th International Conference on Pattern Recognition (ICPR): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B68">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[POPPE]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A survey on vision-based human action recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>28</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>976-990</page-range></nlm-citation>
</ref>
<ref id="B69">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[QUACK]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[FERRARI]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Efficient mining of frequent and distinctive feature configurations.]]></source>
<year>2007</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE 11th International Conference on Computer Vision (ICCV'07): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B70">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[REN]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[MOESLUND]]></surname>
<given-names><![CDATA[T. B]]></given-names>
</name>
</person-group>
<source><![CDATA[Action Recognition Using Salient Neighboring Histograms.]]></source>
<year>2013</year>
<page-range>2807-2811</page-range><publisher-name><![CDATA[En: IEEE International Conference on Image Processing (ISIP): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B71">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RYOO]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[AGGARWAL]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Spatio-temporal relationship match: video structure comparison for recognition of complex human activities.]]></source>
<year>2009</year>
<page-range>1593-1600</page-range><publisher-name><![CDATA[En: 2009 IEEE 12th International Conference on Computer Vision: IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B72">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SCOVANNER]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[ALI]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[A 3-dimensional SIFT descriptor and its application to action recognition.]]></source>
<year>2007</year>
<page-range>357-360</page-range><publisher-name><![CDATA[En: Proceedings of the 15th International Conference on Multimedia: ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B73">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHAO]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[MATTIVI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Feature Detector and Descriptor Evaluation in Human Action Recognition.]]></source>
<year>2010</year>
<page-range>477-484</page-range><publisher-name><![CDATA[En: Proceedings of the ACM International Conference on Image and Video Retrieval: ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B74">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[WOLF]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Recognizing and localizing individual activities through graph matching.]]></source>
<year>2010</year>
<page-range>196-203</page-range><publisher-name><![CDATA[: 2010 Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B75">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TRAN]]></surname>
<given-names><![CDATA[S.N]]></given-names>
</name>
<name>
<surname><![CDATA[BENETOS]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning motion-difference features using Gaussian restricted Boltzmann machines for efficient human action recognition.]]></source>
<year>2014</year>
<page-range>2123-2129</page-range><publisher-name><![CDATA[En: 2014 International Joint Conference on Neural Networks (IJCNN): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B76">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TURAGA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[CHELLAPPA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Machine Recognition of Human Activities: A survey]]></article-title>
<source><![CDATA[]]></source>
<year>2008</year>
<volume>18</volume>
<numero>11</numero>
<issue>11</issue>
<page-range>1473-1488</page-range></nlm-citation>
</ref>
<ref id="B77">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[UIJLINGS]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[SMEULDERS]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Real-time bag of words, approximately.]]></source>
<year>2009</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: Proceedings of the ACM International Conference on Image and Video Retrieval: ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B78">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ULLAH]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
<name>
<surname><![CDATA[PARIZI]]></surname>
<given-names><![CDATA[S. N]]></given-names>
</name>
</person-group>
<source><![CDATA[Improving bag-of-features action recognition with non-local cues.]]></source>
<year>2010</year>
<page-range>1-95</page-range><publisher-name><![CDATA[En: Procedings of the British Machine Vision Conference (BMVC'10): British Machine Vision Association]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B79">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[KLÄSER]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dense trajectories and motion boundary descriptors for action recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2013</year>
<volume>103</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>60-79</page-range></nlm-citation>
</ref>
<ref id="B80">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[ULLAH]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluation of local spatio-temporal features and for action recognition.]]></source>
<year>2009</year>
<publisher-name><![CDATA[En: British Machine Vision Conference (BMVC'09): British Machine Vision Association]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B81">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEINLAND]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[RONFARD]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Free viewpoint action recognition using motion history volumes.]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>104</volume>
<numero>2-3</numero>
<issue>2-3</issue>
<page-range>249-257</page-range></nlm-citation>
</ref>
<ref id="B82">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEINLAND]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[RONFARD]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A survey of vision-based methods for action representation, segmentation and recognition.]]></source>
<year>2010</year>
<publisher-name><![CDATA[Technical Report, INRIA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B83">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WILLEMS]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[TUYTELAARS]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector.]]></article-title>
<source><![CDATA[]]></source>
<year>2008</year>
<volume>2</volume>
<page-range>650-663</page-range><publisher-name><![CDATA[En: European Conference on Computer Vision (ECCV'08): Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B84">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WONG]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[CIPOLLA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Extracting spatiotemporal interest points using global information.]]></source>
<year>2007</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE 11th International Conference on Computer Vision (ICCV): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B85">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[PENG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Visual Vocabulary Optimization with Spatial Context for Image Annotation and Classification.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>7131</volume>
<page-range>89-102</page-range><publisher-name><![CDATA[En: K. Schoeffmann et al. (editores). Advances in Multimedia Modeling, MMM 2012, Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B86">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YUAN]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[WU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Discovery of Collocation Patterns: from Visual Words to Visual Phrases.]]></source>
<year>2007</year>
<page-range>1-8</page-range><publisher-name><![CDATA[En: IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07): IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B87">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[TIAN]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Generating Descriptive and Visual Words and Visual and Phrases for Large-Scale and Image Applications.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>20</volume>
<numero>9</numero>
<issue>9</issue>
<page-range>2664-2677</page-range></nlm-citation>
</ref>
<ref id="B88">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHAO]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
<name>
<surname><![CDATA[IP]]></surname>
<given-names><![CDATA[H. H]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Unsupervised approximate-semantic vocabulary learning for human action and video classification.]]></article-title>
<source><![CDATA[]]></source>
<year>2013</year>
<volume>34</volume>
<numero>15</numero>
<issue>15</issue>
<page-range>1870-1878</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
