<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000100012</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Reconocimiento de armas en imágenes de rayos X mediante Saco de Palabras Visuales]]></article-title>
<article-title xml:lang="en"><![CDATA[Weapons recognition in X-ray images using Bag of Visual Words]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Castro Piñol]]></surname>
<given-names><![CDATA[David]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sanabria Macias]]></surname>
<given-names><![CDATA[Frank]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Marañón Reyes]]></surname>
<given-names><![CDATA[Enrique]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rodriguez Arias]]></surname>
<given-names><![CDATA[Felipe]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Oriente Centro de Estudios de Neurociencias, Procesamiento de Imágenes y Señales (CENPIS). ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>01</day>
<month>03</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>1</numero>
<fpage>152</fpage>
<lpage>161</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000100012&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000100012&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000100012&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[RESUMEN El diseño de un sistema automático que reconozca objetos peligrosos en imágenes de rayos X de equipos de inspección ha sido un problema complejo en los últimos años. La inspección de equipajes por rayos X presenta limitantes en cuanto a la eficiencia en el reconocimiento de objetos peligrosos y la demora que se toma el proceso. No existe una herramienta software que detecte automáticamente la presencia de armas en imágenes de rayos X y facilite el trabajo del operador de inspección. En este trabajo se desarrolló e implementó un algoritmo para el reconocimiento de armas cortas en imágenes de rayos X usando el método Saco de Palabras Visuales. Para realizar esto se implementó una etapa de pre-procesado, se construyó el vocabulario de palabras visuales que tuviera el mejor comportamiento frente a este tipo de imágenes, se representó un conjunto de imágenes mediante los histogramas de palabras visuales y se realizó el entrenamiento de un clasificador de tipo Máquina de Soporte Vectorial. Este algoritmo se desarrolló sobre la plataforma Matlab y con el apoyo de la biblioteca de funciones VLFeat. Se realizaron diversos experimentos variando los parámetros del método obteniéndose como mejor resultado una razón de verdaderos positivos de un 97.12% y una razón de falsos positivos de 7.4%. Estos resultados muestran que el algoritmo implementado puede servir de apoyo al personal de inspección, aumentar la rapidez del proceso y mejorar la eficiencia en el reconocimiento de armas en las imágenes de rayos X del sistema de inspección de equipajes.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[ABSTRACT An automatic system&#8217;s design that recognizes dangerous objects in baggage X-ray images has been a complex problem in recent years. X-ray inspection has difficulties because of the low efficiency in automatic recognition of dangerous objects and inspection process delay. It doesn&#8217;t exist a software application that automatically detects weapons in those images and reduce the workload of screeners. In this project was developed and implemented an algorithm for recognizing handguns in X-ray images using the Bag of Visual Words method. In order to achieve this, it was implemented a preprocess, was built a vocabulary of visual words with the better performance for this kind of images, it was represented a set of images by histograms of visual words and it was trained a Support Vector Machine classifier. This algorithm was developed in Matlab platform using VLFeat library. It was performed several experiments handling tunable parameters, getting the most relevant result a true positive rate of 97.12% and a false positive rate of 7.4%. These results show that the implemented algorithm could be a support for inspection screeners and hence increase inspection speed and increase the efficiency of weapons recognition in X-ray images of inspection system.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Saco de Palabras Visuales]]></kwd>
<kwd lng="es"><![CDATA[Máquina de Soporte Vectorial]]></kwd>
<kwd lng="es"><![CDATA[imágenes de rayos X]]></kwd>
<kwd lng="en"><![CDATA[Bag of Visual Words]]></kwd>
<kwd lng="en"><![CDATA[Suport Vector Machines]]></kwd>
<kwd lng="en"><![CDATA[X-ray images]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><strong><font size="4" face="Verdana, Arial, Helvetica, sans-serif">Reconocimiento de armas en im&aacute;genes de rayos X mediante Saco  de Palabras Visuales</font></strong></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Weapons recognition in X-ray images using Bag of Visual</font></strong> <font face="Verdana, Arial, Helvetica, sans-serif"><strong>Words</strong></font></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">David Castro Pi&ntilde;ol<strong><sup>1*</sup></strong>, Frank Sanabria Macias<strong><sup>1</sup></strong>, Enrique Mara&ntilde;&oacute;n Reyes</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup>, Felipe Rodriguez Arias<sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Centro de Estudios de Neurociencias, Procesamiento de Im&aacute;genes  y Se&ntilde;ales (CENPIS). Universidad de Oriente, Cuba    <br> </font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:jova@uci.cu">davidpinol@uo.edu.cu</a></font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El dise&ntilde;o de un sistema autom&aacute;tico  que reconozca objetos peligrosos en im&aacute;genes de rayos X de equipos de inspecci&oacute;n  ha sido un problema complejo en los &uacute;ltimos a&ntilde;os. La inspecci&oacute;n de equipajes  por rayos X presenta limitantes en cuanto a la eficiencia en el reconocimiento  de objetos peligrosos y la demora que se toma el proceso. No existe una  herramienta software que detecte autom&aacute;ticamente la presencia de armas en im&aacute;genes  de rayos X y facilite el trabajo del operador de inspecci&oacute;n. En este trabajo se  desarroll&oacute; e implement&oacute; un algoritmo para el reconocimiento de armas cortas en  im&aacute;genes de rayos X usando el m&eacute;todo Saco de Palabras Visuales. Para realizar  esto se implement&oacute; una etapa de pre-procesado, se construy&oacute; el vocabulario de  palabras visuales que tuviera el mejor comportamiento frente a este tipo de im&aacute;genes,  se represent&oacute; un conjunto de im&aacute;genes mediante los histogramas de palabras  visuales y se realiz&oacute; el entrenamiento de un clasificador de tipo M&aacute;quina de  Soporte Vectorial. Este algoritmo se desarroll&oacute; sobre la plataforma Matlab y  con el apoyo de la biblioteca de funciones VLFeat. Se realizaron diversos  experimentos variando los par&aacute;metros del m&eacute;todo obteni&eacute;ndose como mejor  resultado una raz&oacute;n de verdaderos positivos de un 97.12% y una raz&oacute;n de falsos  positivos de 7.4%. Estos resultados muestran que el algoritmo implementado  puede servir de apoyo al personal de inspecci&oacute;n, aumentar la rapidez del  proceso y mejorar la eficiencia en el reconocimiento de armas en las im&aacute;genes  de rayos X del sistema de inspecci&oacute;n de equipajes. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Saco de Palabras Visuales, M&aacute;quina de Soporte Vectorial, im&aacute;genes  de rayos X</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">An automatic system&rsquo;s design that recognizes dangerous  objects  in baggage X-ray images has been a complex problem in  recent years. X-ray inspection has difficulties because of the low efficiency  in automatic recognition of dangerous objects and inspection process delay. It  doesn&rsquo;t exist a software application that automatically detects weapons in  those images and reduce the workload of screeners. In this project was  developed and implemented an algorithm for recognizing handguns in X-ray images  using the Bag of Visual Words method. In order to achieve this, it was  implemented a preprocess, was built a vocabulary of visual words with the better  performance for this kind of images, it was represented a set of images by  histograms of visual words and it was trained a Support Vector Machine  classifier. This algorithm was developed in Matlab platform using VLFeat  library. It was performed several experiments handling tunable parameters,  getting the most relevant result a true positive rate of 97.12% and a false  positive rate of 7.4%. These results show that the implemented algorithm could  be a support for inspection screeners and hence increase inspection speed and  increase the efficiency of weapons recognition in X-ray images of inspection  system.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Bag of Visual Words, Suport Vector Machines, X-ray images </font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las im&aacute;genes de rayos X constituyen una importante tecnolog&iacute;a  para aplicaciones de seguridad en los equipos de inspecci&oacute;n presentes en  puertos y aeropuertos. A pesar de su alta efectividad, los sistemas de inspecci&oacute;n  actuales con esta tecnolog&iacute;a tienen algunas dificultades. Las mismas est&aacute;n  relacionadas principalmente con la posibilidad que el personal que opera el  sistema cometa errores, ya sea por agotamiento visual, falta de un  entrenamiento correcto, poca experiencia, etc. Esta situaci&oacute;n hace que dichos  sistemas, hasta el momento, activen muchas alarmas cuando no hay objetos  peligrosos, haciendo m&aacute;s lento el proceso de inspecci&oacute;n o situaci&oacute;n m&aacute;s  peligrosa a&uacute;n, se deje pasar un objeto peligroso. De manera que se hace  necesario el dise&ntilde;o de un sistema semiautom&aacute;tico del proceso de inspecci&oacute;n para  reducir la carga de trabajo, mejorar la eficiencia de la clasificaci&oacute;n y  aumentar la velocidad de inspecci&oacute;n, (BAS&cedil;TAN et al., 2011). </font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se habla de un  sistema semiautom&aacute;tico porque el objetivo no es desplazar al personal entrenado  sino fortalecer y complementar su trabajo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los equipos  de rayos X de energ&iacute;a dual forman la imagen enviando dos rayos de energ&iacute;as  diferentes. A partir de la atenuaci&oacute;n del rayo recibido, en cada posici&oacute;n (p&iacute;xel),  se estima la densidad y el n&uacute;mero at&oacute;mico efectivo de los materiales. En las im&aacute;genes  formadas, el tono del color va a estar relacionado con el n&uacute;mero at&oacute;mico  efectivo del material. El naranja se usa para materiales org&aacute;nicos, el azul  para materiales met&aacute;licos y verde para materiales intermedios. Por su principio  de formaci&oacute;n, las im&aacute;genes de rayos X se caracterizan por presentar objetos  solapados y no ocluidos como en las im&aacute;genes del espectro visible. Adem&aacute;s  pueden resultar ruidosas debido a la baja energ&iacute;a de los rayos emitidos por el  equipo y pueden encontrarse objetos en diversos puntos de vista. De esta manera  el reconocimiento de objetos en dichas im&aacute;genes se torna un problema complejo (BAS&cedil;TAN et al., 2011).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En los &uacute;ltimos a&ntilde;os se han realizado investigaciones de  algoritmos de visi&oacute;n por computadora para aplicarlos a las im&aacute;genes de rayos X  que entregan los equipos de inspecci&oacute;n. Uno de los m&eacute;todos que ha tenido muy  buenos resultados es Saco de Palabras Visuales o <em>Bag-of-Visual-Words</em> (BoVW) propuesto por   (CSURKA et al., 2004) para b&uacute;squeda de im&aacute;genes por contenido y clasificaci&oacute;n de  objetos en im&aacute;genes de espectro visible. Los trabajos realizados por Ba&#351;tan y  Turcsany   (BAS&cedil;TAN et al., 2011, 2013; TURCSANY et al., 2013) aplican el m&eacute;todo BoVW en el contexto de im&aacute;genes de rayos X  de equipos de una sola vista para reconocer objetos peligrosos. Sin embargo  existe una bibliograf&iacute;a limitada sobre el tema y las investigaciones realizadas  que usan BoVW presentan ciertas diferencias en la experimentaci&oacute;n como son las  bases de datos utilizadas, la cantidades de im&aacute;genes entre otros. Adem&aacute;s no se  presentan los efectos de par&aacute;metros importantes en la clasificaci&oacute;n como el  kernel. El presente trabajo tiene como objetivo la realizaci&oacute;n de una exploraci&oacute;n  m&aacute;s intensiva de BoVW en im&aacute;genes de rayos X, para desarrollar un algoritmo de  reconocimiento de armas cortas con mejor desempe&ntilde;o.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo de clasificaci&oacute;n basado en BoVW para el  reconocimiento de armas que se propone se utilizar&iacute;a sobre una ventana  deslizante,</font>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif">(JONES and VIOLA, 2001)</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">para  la detecci&oacute;n de estos objetos en las im&aacute;genes de rayos X. En el proceso de entrenamiento  del algoritmo clasificador no se utilizaron las im&aacute;genes originales, sino las  instancias de la ventana deslizante.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">M&eacute;todo  Saco de Palabras Visuales</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  m&eacute;todo Saco de Palabras Visuales est&aacute; constituido por dos fases. La primera se  basa en la construcci&oacute;n del vocabulario de palabras visuales de una base de  datos de im&aacute;genes. Para ello, se extraen rasgos visuales de todas las im&aacute;genes  con alg&uacute;n metodo de extracci&oacute;n de caracter&iacute;sticas. Luego se utiliza un  algoritmo de agrupamiento (<em>clustering</em>), usualmente k-means, que crea  grupos de rasgos visuales similares entre s&iacute;. Los centros de cada grupo son  llamados palabras visuales.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  segunda fase es la representaci&oacute;n de la imagen a clasificar mediante un  histograma de palabras visuales. Este histograma se construye mediante una  cuantificaci&oacute;n vectorial de los rasgos extra&iacute;dos de la imagen con el  vocabulario de palabras visuales. Se trata de asignar cada rasgo a la palabra  visual m&aacute;s cercana. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con los histogramas de palabras visuales se puede construir  un clasificador binario. La clasificaci&oacute;n es binaria entre objetos peligrosos y  otros objetos. El clasificador m&aacute;s utilizado con BoVW es la M&aacute;quina de Soporte  Vectorial o <em>Support Vector Machine</em> (SVM), (VAPNIK, 1998). El  entrenamiento de la SVM consiste en encontrar el hiperplano que maximice el  margen de separaci&oacute;n entre las dos clases.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para poder tratar con datos que no son linealmente separables  se introduce la funci&oacute;n kernel y la funci&oacute;n de p&eacute;rdida. El kernel permite  expandir los datos a un espacio de mayor dimensi&oacute;n buscando una mejor separaci&oacute;n  lineal entre las clases. Existen diferentes tipos de kernels. Los kernels  lineales son m&aacute;s eficientes en el entrenamiento pero los no lineales logran una  mejor separaci&oacute;n de clases, (CHATFIELD et al., 2011), no obstante los kernels homogeneos aditivos agrupan ambas  ventajas, (VEDALDI and ZISSERMAN, 2012). La funci&oacute;n de p&eacute;rdida permite manejar muestras mal  clasificadas en los datos de entrenamiento y da una medida del error cometido. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n se presenta la implementaci&oacute;n del m&eacute;todo BoVW  en el contexto de im&aacute;genes de rayos X que permite el reconocimiento de armas  cortas. La misma fue desarrollada sobre la plataforma MATLAB 2014 y la  biblioteca de funciones VLFeat 0.9.18, (VEDALDI and FULKERSON, 2008; VEDALDI and ZISSERMAN, 2011).</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Pre-procesamiento</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las armas de fuego, en general, est&aacute;n compuestas por partes  met&aacute;licas. Los metales en las im&aacute;genes de rayos X presentan colores en  diferentes tonos de azul. De manera que constituye una ventaja para la tarea de  clasificaci&oacute;n si se logran extraer &uacute;nicamente los rasgos de color azul. Se ha  demostrado que esta estrategia ha tenido buenos resultados</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">(BAS&cedil;TAN et al., 2011).</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se procede a  explicar la propuesta de una etapa de pre-procesado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Primero se realiza una segmentaci&oacute;n de regiones de color azul  mediante el m&eacute;todo de la esfera (<em>sphere</em>), (GONZALEZ and WOODS, 2002), obteni&eacute;ndose una imagen binaria. Despu&eacute;s se realiz&oacute; una  operaci&oacute;n morfol&oacute;gica de cierre para rellenar huecos, un filtrado por &aacute;reas  para rechazar zonas muy peque&ntilde;as y una operaci&oacute;n morfol&oacute;gica de dilataci&oacute;n para  incluir posibles partes no met&aacute;licas presentes en las armas. Se puede apreciar  en la <a href="#f01">figura 1</a> las regiones a las que se le  extraen las caracter&iacute;sticas con el algoritmo PHOW. Este paso resulta  conveniente para la aplicaci&oacute;n del clasificador en un esquema de ventana  deslizante, eliminando todas las ventanas que no contengan &aacute;reas significativas  con componentes met&aacute;licos. </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/f0112116.jpg" alt="f0112" width="495" height="153"><a name="f01"></a></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Extracci&oacute;n de caracter&iacute;sticas</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se utiliz&oacute; para la extracci&oacute;n de caracter&iacute;sticas  el algoritmo PHOW (<em>Pyramid Histogram Of Visual Words</em>) propuesto por  Bosch (BOSCH et al., 2007). PHOW realiza un muestreo denso de puntos con espacio de M p&iacute;xeles  (se seleccion&oacute; M=4) a cuatro escalas fijas (definidas a priori) y est&aacute; basado  en los descriptores de SIFT, (LOWE, 2004). Las escalas son definidas modificando el ancho de la ranura  espacial del descriptor SIFT a 4, 6, 8 y 10 p&iacute;xeles respectivamente. Los  caracter&iacute;sticas fueron extraidas de cada uno de los canales HSV. El muestreo  denso es conveniente debido a que los objetos en im&aacute;genes de rayos X poseen  poca textura y es necesario obtener m&aacute;s informaci&oacute;n de ellos para su  clasificaci&oacute;n.</font></p>     ]]></body>
<body><![CDATA[<p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Construcci&oacute;n de vocabularios de palabras visuales</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo utilizado para el agrupamiento de caracter&iacute;sticas  fue el cl&aacute;sico k-means. En este trabajo se construyeron vocabularios de tama&ntilde;os  1000, 3000 y 5000 palabras, utilizando todas las im&aacute;genes originales de la base  de datos. Se construyeron dos vocabularios por cada tama&ntilde;o, el vocabulario  universal y el vocabulario met&aacute;lico. El vocabulario universal se construy&oacute; con  las caracter&iacute;sticas extra&iacute;das sobre toda la imagen. Para el vocabulario met&aacute;lico  se utilizaron las caracter&iacute;sticas de las regiones que quedaron despu&eacute;s de  realizar el pre-procesado. Se espera una mejor representaci&oacute;n de las im&aacute;genes  con un vocabulario construido con las regiones met&aacute;licas de los objetos de  inter&eacute;s seg&uacute;n se infiere de un razonamiento de Perronnin (PERRONNIN et al., 2006).</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Histogramas de palabras visuales y entrenamiento de la SVM</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los histogramas se construyeron usando asignaci&oacute;n dura (<em>hard  assigment</em>) adem&aacute;s de usar el factor de normalizaci&oacute;n. Los histogramas de  palabras visuales van a tener impl&iacute;citamente cierta informaci&oacute;n espacial,   (YANG et al., 2007) debido al solapamiento de las caracter&iacute;sticas visuales extra&iacute;das  con PHOW. Esta situaci&oacute;n es ventajosa ya que adiciona informaci&oacute;n de las  relaciones espaciales entre rasgos. En este trabajo se utilizaron los  siguientes kernels homog&eacute;neos aditivos de VLFeat: Intersecci&oacute;n, x<sup>2</sup> y Jensen-Shannon. Adem&aacute;s se implement&oacute; el Hellinger. Se  utilizaron las funciones de p&eacute;rdida: <em>Hinge</em>, <em>Square hinge</em> (hinge2), <em>Square</em> (L2), <em>Linear</em> (L1) y <em>Logistic</em> presentes en  VLFeat. El par&aacute;metro de regularizaci&oacute;n</font> <img src="/img/revistas/rcci/v10n1/fo0112116.jpg" alt="fo01" width="13" height="14"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">del algoritmo de entrenamiento se determin&oacute; emp&iacute;ricamente con  valor de</font> <img src="/img/revistas/rcci/v10n1/fo0112116.jpg" alt="fo01" width="13" height="14"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">= 0.0001.</font> </p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n se presentan los resultados obtenidos con  varios vocabularios y clasificadores binarios SVM. Para el proceso de evaluaci&oacute;n  se utiliz&oacute; validaci&oacute;n cruzada de 3 segmentos, presentando el promedio de las  curvas ROC (<em>Receiver Operating Characteristict</em>). El &aacute;rea bajo la curva  (AUC de sus siglas en ingl&eacute;s) se utiliz&oacute; como m&eacute;trica para seleccionar la mejor  configuraci&oacute;n en cada caso. Por las exigencias de la aplicaci&oacute;n se prioriz&oacute; la  raz&oacute;n de verdaderos positivos (TPR de sus siglas en ingl&eacute;s) sobre la raz&oacute;n de  falos positivos (FPR de sus siglas en ingl&eacute;s) es decir la elecci&oacute;n del punto de  operaci&oacute;n debe estar por encima de la diagonal principal del espacio ROC.</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Descripci&oacute;n de la base  de datos</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La base de datos fue conformada por im&aacute;genes de equipos de  inspecci&oacute;n con rayos X de energ&iacute;a dual. Tiene un total de 948 ficheros de im&aacute;genes  en formato PNG, con resoluciones que var&iacute;an alrededor de 1000x600 p&iacute;xeles. Para  la validaci&oacute;n cruzada se prepararon un conjunto de 312 im&aacute;genes positivas y 567  negativas. Las im&aacute;genes positivas fueron ventanas que pertenecen a la clase  arma corta. Las im&aacute;genes negativas fueron ventanas, escogidas de manera  aleatoria, de objetos met&aacute;licos (y/o parte de ellos) que no son armas. Las  armas en la base de datos aparecen en diversas condiciones con diferentes  niveles de complejidad para el reconocimiento. Estas situaciones fueron  catalogadas en los siguientes seis grupos, 1: objetos en oclusi&oacute;n propia (123  armas), 2 Solapadas con objetos met&aacute;licos (94 armas), 3 Partes no met&aacute;licas (30  armas), 4 Distorsi&oacute;n geom&eacute;trica de la adquisici&oacute;n (15 armas), 5 Parcialmente  desarmadas (12 armas) y 6 Vista frontal simple (92 armas). Tambi&eacute;n hay armas  que tienen una combinaci&oacute;n de estas situaciones. En la <a href="#f02">figura 2</a> se presentan una muestra de cada  grupo.</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n1/f0212116.jpg" alt="f02" width="497" height="128"><a name="f02"></a></p>     ]]></body>
<body><![CDATA[<p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Evaluaci&oacute;n  del clasificador</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v10n1/f0312116.jpg" target="_blank">figura 3 a)</a> se observan las curvas ROC de  los cuatro kernels homog&eacute;neos. Los dem&aacute;s par&aacute;metros del entrenamiento se  mantienen con su configuraci&oacute;n inicial. Los kernels x<sup>2</sup> y Hellinger presentaron mejor comportamiento, siendo superior el x<sup>2</sup> que ser&aacute; utilizado en los siguientes experimentos. En la  <a href="/img/revistas/rcci/v10n1/f0312116.jpg" target="_blank">figura 3 b)</a> aparecen las curvas ROC para  las funciones de p&eacute;rdida. Las funciones de p&eacute;rdida con mayor AUC son L1 y L2.  Aunque la diferencia no es significativa, se decidi&oacute; seleccionar como funci&oacute;n  de p&eacute;rdida a L2 debido a que es menos costosa computacionalmente que L1, (VEDALDI and FULKERSON, 2008). En la <a href="/img/revistas/rcci/v10n1/f0312116.jpg" target="_blank">figura 3 c)</a> aparecen las curvas ROC de  cada vocabulario construido. Se puede observar como el AUC de las curvas  pertenecientes a los vocabularios met&aacute;licos son superiores que la de los vocabularios  universales y a medida que aumenta el tama&ntilde;o del vocabulario es superior la  diferencia en cada par de vocabularios con igual tama&ntilde;o. Por encima de la  diagonal principal se destacan los vocabularios: 1000 universal, 1000 met&aacute;lico  y 5000 met&aacute;lico. Se seleccion&oacute; el punto de operaci&oacute;n con TPR=97.12% y FPR=7.4%  que aparece se&ntilde;alado en la <a href="/img/revistas/rcci/v10n1/f0312116.jpg" target="_blank">figura 3 c)</a>. Este punto pertenece simult&aacute;neamente  a las curvas del vocabulario met&aacute;lico de 1000 y 5000 palabras visuales  respectivamente. Es preferible utilizar el vocabulario met&aacute;lico de tama&ntilde;o 1000  frente al de 5000 por razones de costo computacional, de manera que este es el  vocabulario propuesto. El punto de operaci&oacute;n seleccionado tiene una precisi&oacute;n  de PPV= 87.57% y una exactitud de ACC=94.2%.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Adem&aacute;s se realiz&oacute;  un experimento para medir el comportamiento del algoritmo frente al  reconocimiento de armas solapadas con objetos met&aacute;licos mediante el m&eacute;todo de  retenci&oacute;n o (<em>holdout</em>). Se utilzaron todas las armas solapadas en el  conjunto de prueba y las restantes en el conjunto de entrenamiento. Se obtuvo  un resultado de TPR=88.83% y FPR=12.7%. Este resultado se puede tomar como la  medida de la peor precisi&oacute;n que tiene el algoritmo frente al reconocimiento de  armas con solapamiento.</font></p>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">An&aacute;lisis y discusi&oacute;n</font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A manera de an&aacute;lisis de los resultados se presenta una  comparaci&oacute;n con los m&eacute;todos de Ba&#351;tan</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">(BASTAN et al., 2011) (TPR 70%, PPV 29%) y Turcsany (TURCSANY et al., 2013) (TPR 99.07%, FPR 4.31%). Tambi&eacute;n se analizan los resultados  del reciente trabajo de Ba&#351;tan (BASTAN et al., 2013). Este trabajo  (TPR=97.12%, FPR=7.4%) alcanza resultados cercanos al de Turscany, mejores  resultados encontrados en la literatura. Sin embargo, el uso de diferentes  bases de datos en cada trabajo hacen que la comparaci&oacute;n no pueda hacerse  estrictamente basada en los resultados. Las bases de datos difieren,  principalmente en cuanto a cantidad de im&aacute;genes y puntos de vista de los  objetos. Adem&aacute;s debe tener en cuenta que las im&aacute;genes usadas por Turcsany son  de equipos de una sola energ&iacute;a (escalas de grises) diferentes a las utilizadas  en esta propuesta. Aunque la base de datos utilizada en este estudio no posee  una cantidad de im&aacute;genes similar al trabajo de Turcsany, s&iacute; aparecen im&aacute;genes  representativas de ambas clases en diversas situaciones de complejidad. En los  estudios referenciados no aparece una descripci&oacute;n de este tipo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existe  una diferencia conceptual impl&iacute;cita entre los trabajos referenciados en este an&aacute;lisis  y es que Ba&#351;tan en 2011 realiza una clasificaci&oacute;n sobre im&aacute;genes completas  (todo el equipaje) mientras el resto aplica el concepto de ventana deslizante,  concentr&aacute;ndose en el objeto a detectar. Esto debe traer consigo una diferencia  notable en los histogramas obtenidos. A opini&oacute;n de los autores esta debe ser la  raz&oacute;n principal de la diferencia en los resultados con el trabajo de Ba&#351;tan en  2011. Las principales diferencias en los m&eacute;todos se concentran en: la extracci&oacute;n  de caracter&iacute;sticas, tanto en la detecci&oacute;n de los puntos como en el descriptor,  el tipo de vocabulario construido, el tipo de kernel junto con otros par&aacute;metros  que se pueden modificar en el entrenamiento de la SVM y la experimentaci&oacute;n con  la base de datos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se propone el uso de un vocabulario  construido solo con caracter&iacute;sticas de objetos met&aacute;licos (vocabulario met&aacute;lico).  El mismo present&oacute; mejores resultados que el construido con todo tipo de  caracter&iacute;sticas (vocabulario universal). Esto se puede deber a que al filtrar  los rasgos de zonas no met&aacute;licas, se elimina informaci&oacute;n no relevante en los  histogramas, concentr&aacute;ndose en representar diferentes objetos met&aacute;licos. Por  esta raz&oacute;n y por el n&uacute;mero de palabras usadas se cree que el vocabulario  propuesto es superior al de Ba&#351;tan (BASTAN et al., 2011). Adem&aacute;s se obtuvo que el kernel x<sup>2</sup> es superior al Intersecci&oacute;n, esto contradice lo mencionado  por Ba&#351;tan (BASTAN et al., 2013) donde se plantea que el Intersecci&oacute;n es superior. Sin embargo  en ninguna de las referencias consultadas aparece la gr&aacute;fica que muestra la  comparaci&oacute;n de las curvas ROC de los kernels utilizados en busca del que tenga  mejor comportamiento. Este experimento es de suma importancia dado la  incidencia en el resultado general. Para otros tipos de im&aacute;genes tambi&eacute;n se ha  reportado la superioridad de x<sup>2</sup> (JIANG et al., 2007; ZHANG et al., 2007), lo  que resulta coherente con nuestro resultado. Igualmente, en las referencias  consultadas no aparecen los experimentos en busca de la mejor funci&oacute;n de p&eacute;rdida.  Se pudo comprobar en este estudio c&oacute;mo este par&aacute;metro influye en la calidad de  los resultados. Adicionalmente se obtuvo una medida de la peor precisi&oacute;n del  algoritmo en el reconocimiento de armas solapadas con objetos met&aacute;licos, an&aacute;lisis  que no se contempla en dem&aacute;s estudios. Dado que es m&aacute;s probable encontrarse  esta situaci&oacute;n, como un intento para esconder armas, tiene gran importancia  analizar la eficiencia del algoritmo para esta situaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otro lado el trabajo de Ba&#351;tan (BASTAN et al., 2013) utiliza  la m&eacute;trica AP (<em>Average Precision</em>) que es el &aacute;rea bajo la curva <em>Precision-Recall</em> para presentar sus resultados. Para poder realizar una comparaci&oacute;n se calcul&oacute;  la curva <em>Precision-Recall</em> que aparece en la <a href="/img/revistas/rcci/v10n1/f0312116.jpg" target="_blank">figura 3 d)</a>. Donde se obtuvo como  resultado 96.48% de AP. Este resultado supera al mejor resultado de 94.6% que  presenta Ba&#351;tan en 2013 para el caso de clasificaci&oacute;n con una &uacute;nica vista en  armas cortas. El resultado de Ba&#351;tan 2013 fue alcanzado con otro algoritmo de  extracci&oacute;n de caracter&iacute;sticas, un vocabulario universal de 5000 palabras  visuales, sin realizar validaci&oacute;n cruzada y con el kernel de Intersecci&oacute;n de  histogramas.</font> </p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este art&iacute;culo  se mostr&oacute; el desarrollo de un algoritmo para el reconocimiento de armas cortas  en im&aacute;genes de rayos X usando el m&eacute;todo Saco de Palabras Visuales, alcanzando  un resultado general con raz&oacute;n de verdaderos positivos de 97.12% y raz&oacute;n de  falsos positivos de 7.4%. Se contribuy&oacute; en el tipo de vocabulario construido,  el kernel y la funci&oacute;n de p&eacute;rdida utilizada. Para futuros trabajos investigar  una alternativa para aumentar la eficiencia en el reconocimiento de armas  solapadas con objetos met&aacute;licos. Los resultados alcanzados en esta investigaci&oacute;n  muestran que es posible implementar un sistema de visi&oacute;n por computadora que  reconozca armas de fuego, que facilite el trabajo de los operadores y que el proceso  de inspecci&oacute;n sea m&aacute;s r&aacute;pido y preciso en el reconocimiento de objetos  peligrosos.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">BASTAN, M., BYEON, W., and BREUEL, T. M. (2013). Object recognition in multi-view dual energy x-ray images. In <em>British Machine Vision Conference BMVC</em>.    </font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">BASTAN, M., YOUSEFI, M. R., and BREUEL, T. M. (2011). Visual words on baggage x-ray images. In <em>Computer Analysis of Images and Patterns</em>, volume 6854 of <em>Lecture Notes in Computer Science</em>, pages 360&ndash;368. Springer Berlin Heidelberg.</font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">BOSCH, A., ZISSERMAN, A., and MUNOZ, X. (2007). Image classification using random forests and ferns. In <em>Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on</em>, pages 1&ndash;8. IEEE.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHATFIELD, K., LEMPITSKY, V., VEDALDI, A., and ZISSERMAN, A. (2011). The devil is in the details: an evaluation of recent feature encoding methods. In <em>British Machine Vision Conference</em>.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CSURKA, G., DANCE, C., FAN, L., WILLAMOWSKI, J., and BRAY, C. (2004). Visual categorization with bags of keypoints. In <em>Workshop on statistical learning in computer vision, ECCV</em>, volume 1, pages 1&ndash;2.</font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">GONZALEZ, R. and WOODS, R. (2002). <em>Digital Image Processing</em>. Prentice Hall, Upper Saddle River, NJ, 2nd edition.    </font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">JIANG, Y. G., NGO, C. W., and YANG, J. (2007). Towards optimal bag-of- fe atures for ob je ct categorization and semantic video retrieval. In <em>Proceedings of the 6th ACM international conference on Image and video</em> <em>retrieval</em>, pages 494&ndash;501. ACM.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">JONES, M. and VIOLA, P. (2001). Robust real-time object detection. In <em>Workshop on Statistical and</em> <em>Computational Theories of Vision</em>.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOWE, D. G. (2004). Distinctive image features from scale-invariant keypoints. <em>International journal of</em> <em>computer vision</em>, 60(2):91&ndash;110.</font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">PERRONNIN, F., DANCE, C., CSURKA, G., and B., M. (2006). Adapted vocabularies for generic visual categorization. In <em>Computer Vision&ndash;ECCV 2006</em>, pages 464&ndash;475. Springer.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TURCSANY, D., MOUTON, A., and BRECKON, T. P. (2013). Improving feature-based object recognition for x-ray baggage security screening using primed visualwords. In <em>Industrial Technology (ICIT), 2013 IEEE</em> <em>International Conference on</em>, pages 1140&ndash;1145. IEEE.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">VAPNIK, V. N. (1998). <em>Statistical learning theory</em>, volume 1. Wiley New York.    </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEDALDI, A. and FULKERSON, B. (2008). VLFeat: An open and portable library of computer vision algorithms. http://www.vlfeat.org/.</font></p>     <!-- ref --><p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEDALDI, A. and ZISSERMAN, A. (2011). Image classification practical. http://www.di.ens.fr/willow/events/cvml2011/ materials/practical-classification/. Accessed: 2014-05-10.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEDALDI, A. and ZISSERMAN, A. (2012). Efficient additive kernels via explicit feature maps. <em>Pattern</em> <em>Analysis and Machine Intelligence, IEEE Transactions on</em>, 34(3):480&ndash;492.</font></p>     <p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG, J., JIANG, Y. G., HAUPTMANN, A. G., and NGO, C. W. (2007). Evaluating bag-of-visual-words representations in scene classification. In <em>Proceedings of the international workshop on Workshop on multimedia information retrieval</em>, pages 197&ndash;206. ACM.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHANG, J., MARSZA LEK, M., LAZEBNIK, S., and SCHMID, C. (2007). Local features and kernels for classification of texture and object categories: A comprehensive study. <em>International journal of computer</em> <em>vision</em>, 73(2):213&ndash;238.</font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 30/09/2015    <br> Aceptado: 20/12/2015</font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BASTAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[BYEON]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[BREUEL]]></surname>
<given-names><![CDATA[T. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Object recognition in multi-view dual energy x-ray images.]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BASTAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[YOUSEFI]]></surname>
<given-names><![CDATA[M. R]]></given-names>
</name>
<name>
<surname><![CDATA[BREUEL]]></surname>
<given-names><![CDATA[T. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Visual words on baggage x-ray images.]]></source>
<year>2011</year>
<volume>volume 6854</volume>
<page-range>pages 360-368</page-range><publisher-name><![CDATA[Springer Berlin Heidelberg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BOSCH]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[MUNOZ]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<source><![CDATA[Image classification using random forests and ferns.]]></source>
<year>2007</year>
<page-range>pages 1-8</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHATFIELD]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[LEMPITSKY]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[VEDALDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[The devil is in the details: an evaluation of recent feature encoding methods.]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CSURKA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[DANCE]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[FAN]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[WILLAMOWSKI]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[BRAY]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Visual categorization with bags of keypoints.]]></source>
<year>2004</year>
<volume>volume 1</volume>
<page-range>pages 1-2.</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GONZALEZ]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[WOODS]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Digital Image Processing]]></source>
<year>2002</year>
<edition>2nd edition</edition>
<publisher-loc><![CDATA[^eNJ NJ]]></publisher-loc>
<publisher-name><![CDATA[Upper Saddle River]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[Y. G]]></given-names>
</name>
<name>
<surname><![CDATA[NGO]]></surname>
<given-names><![CDATA[C. W]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Towards optimal bag-of- fe atures for ob je ct categorization and semantic video retrieval.]]></source>
<year>2007</year>
<page-range>pages 494-501</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JONES]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[VIOLA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Robust real-time object detection.]]></source>
<year>2001</year>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOWE]]></surname>
<given-names><![CDATA[D. G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distinctive image features from scale-invariant keypoints.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>60</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>91-110</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PERRONNIN]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[DANCE]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[CSURKA]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[B]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Adapted vocabularies for generic visual categorization.]]></source>
<year>2006</year>
<page-range>pages 464-475.</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TURCSANY]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MOUTON]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[BRECKON]]></surname>
<given-names><![CDATA[T. P]]></given-names>
</name>
</person-group>
<source><![CDATA[Improving feature-based object recognition for x-ray baggage security screening using primed visualwords.]]></source>
<year>2013</year>
<page-range>pages 1140-1145.</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VAPNIK]]></surname>
<given-names><![CDATA[V. N.]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistical learning theory]]></source>
<year>1998</year>
<volume>volume 1</volume>
<publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEDALDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[FULKERSON]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[VLFeat: An open and portable library of computer vision algorithms.]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEDALDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Image classification practical.]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEDALDI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Efficient additive kernels via explicit feature maps.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>34</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>480-492.</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[Y. G]]></given-names>
</name>
<name>
<surname><![CDATA[HAUPTMANN]]></surname>
<given-names><![CDATA[A. G]]></given-names>
</name>
<name>
<surname><![CDATA[NGO]]></surname>
<given-names><![CDATA[C. W.]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluating bag-of-visual-words representations in scene classification.]]></source>
<year>2007</year>
<page-range>pages 197-206.</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[MARSZA LEK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[LAZEBNIK]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMID]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Local features and kernels for classification of texture and object categories: A comprehensive study]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<volume>73</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>213-238</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
