<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992017000400007</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Componente para la extracción automática de metadatos bibliográficos desde corpus textuales en formato PDF]]></article-title>
<article-title xml:lang="en"><![CDATA[Component for automatic metadata extraction from textual corpus in PDF]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Flores Riera]]></surname>
<given-names><![CDATA[Leduan]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Mariño Molerio]]></surname>
<given-names><![CDATA[Alejandro]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Mojena Román]]></surname>
<given-names><![CDATA[Luis]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hidalgo Delgado]]></surname>
<given-names><![CDATA[Yusniel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas  ]]></institution>
<addr-line><![CDATA[ Ciudad de La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2017</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2017</year>
</pub-date>
<volume>11</volume>
<numero>4</numero>
<fpage>85</fpage>
<lpage>98</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992017000400007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992017000400007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992017000400007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Las bibliotecas digitales se encargan de la gestión documental de los recursos digitales que almacenan, realizando tres procesos fundamentales: la selección, tratamiento y explotación de los recursos. La extracción de los metadatos es una de las tareas del tratamiento de los documentos digitales, facilita la búsqueda, acceso y recuperación de la información. La extracción de metadatos es un proceso que requiere tiempo para su ejecución y en caso de ejecutarse manualmente puede existir el riesgo de introducir errores humanos. Estos problemas se pueden aliviar con el uso de herramientas automatizadas que apoyen esta actividad. En este artículo se describe un componente web para la extracción automática de metadatos bibliográficos. El componente está basado en tres procesos fundamentales que siguen un flujo de datos representando una arquitectura de tuberías y filtros, donde la salida de un proceso constituye la entrada al próximo. Para validar si el componente de extracción de metadatos reduce el tiempo de extracción se realiza un diseño experimental a partir de un caso de estudio. Además de validar el componente a través del diseño experimental se le aplican un conjunto de pruebas de calidad. Estas pruebas van encaminadas a comprobar si el funcionamiento del componente es el adecuado, si las funciones implementadas se ejecutan correctamente, si los resultados obtenidos son los deseados y si el usuario final tiene un nivel alto de aceptación con el componente de extracción de metadatos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Digital libraries are responsible for management of stored digitals resources and perform three fundamental processes: the selection, treatment and exploitation of resources. One of the functions of treatment is the metadata extraction process; in order to facilitate its use, that is, allow the search, access and retrieval of information. Metadata extraction is a process that requiring time for its execution and if executed manually could there is the risk of introducing human errors. These problems can be reduced by the use of automated tools to support this process. In this article, we describe a web component for automatic extraction of bibliographic metadata from PDF files. The component is based on three fundamental processes that follow a data flow that represents a tubes and filters architecture, where the output of one process constitutes the input to the next. To validate if the metadata extraction component reduces the extraction time, an experimental design is made using a case study. Furthermore, a set of quality tests is applied. These tests are aimed at verifying if the functioning of the component is correct, if the implemented functions are executed correctly, if the obtained results are the desired ones and if the user has a high level of acceptance with the component of extraction of metadata.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Artículos científicos]]></kwd>
<kwd lng="es"><![CDATA[Documentos PDF]]></kwd>
<kwd lng="es"><![CDATA[Extracción de metadatos]]></kwd>
<kwd lng="es"><![CDATA[Metadatos]]></kwd>
<kwd lng="es"><![CDATA[Web Semántica]]></kwd>
<kwd lng="en"><![CDATA[Scientific articles]]></kwd>
<kwd lng="en"><![CDATA[Metadata extraction]]></kwd>
<kwd lng="en"><![CDATA[Metadata]]></kwd>
<kwd lng="en"><![CDATA[PDF Documents]]></kwd>
<kwd lng="en"><![CDATA[Semantic Web]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Componente para la extracci&oacute;n autom&aacute;tica de metadatos  bibliogr&aacute;ficos desde corpus textuales en formato PDF</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Component  for automatic metadata extraction from textual corpus in PDF</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Leduan  Flores Riera<strong><sup>1*</sup></strong>, Alejandro  Mari&ntilde;o Molerio<strong><sup>1</sup></strong>, Luis  Mojena Rom&aacute;n</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup>, Yusniel  Hidalgo Delgado<sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Universidad de las Ciencias Inform&aacute;ticas. Carretera a San  Antonio de los Ba&ntilde;os, km 2 &frac12;, Lisa, Ciudad de La Habana, Cuba. <a href="mailto:lflores@uci.cu">lflores@uci.cu</a>, <a href="mailto:ajmarino@uci.cu">ajmarino@uci.cu</a>, <a href="mailto:lamojena@estudiantes.uci.cu">lamojena@estudiantes.uci.cu</a>,  yhdelgado@uci.cu</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">    <br> </font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span><font size="2">lflores@uci.cu </font></font>      <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las bibliotecas digitales se encargan de la gesti&oacute;n  documental de los recursos digitales que almacenan, realizando tres procesos  fundamentales: la selecci&oacute;n, tratamiento y explotaci&oacute;n de los recursos. La  extracci&oacute;n de los metadatos es una de las tareas del tratamiento de los  documentos digitales, facilita la b&uacute;squeda, acceso y recuperaci&oacute;n de la  informaci&oacute;n. La extracci&oacute;n de metadatos es un proceso que requiere tiempo para  su ejecuci&oacute;n y en caso de ejecutarse manualmente puede existir el riesgo de  introducir errores humanos. Estos problemas se pueden aliviar con el uso de herramientas  automatizadas que apoyen esta actividad. En este art&iacute;culo se describe un  componente web para la extracci&oacute;n autom&aacute;tica de metadatos bibliogr&aacute;ficos. El  componente est&aacute; basado en tres procesos fundamentales que siguen un flujo de  datos representando una arquitectura de tuber&iacute;as y filtros, donde la salida de  un proceso constituye la entrada al pr&oacute;ximo. Para validar si el componente de  extracci&oacute;n de metadatos reduce el tiempo de extracci&oacute;n se realiza un dise&ntilde;o  experimental a partir de un caso de estudio. Adem&aacute;s de validar el componente a  trav&eacute;s del dise&ntilde;o experimental se le aplican un conjunto de pruebas de calidad.  Estas pruebas van encaminadas a comprobar si el funcionamiento del componente  es el adecuado, si las funciones implementadas se ejecutan correctamente, si  los resultados obtenidos son los deseados y si el usuario final tiene un nivel  alto de aceptaci&oacute;n con el componente de extracci&oacute;n de metadatos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Art&iacute;culos cient&iacute;ficos, Documentos PDF, Extracci&oacute;n de  metadatos, Metadatos, Web Sem&aacute;ntica.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Digital libraries are responsible for management of  stored digitals resources and perform three fundamental processes: the  selection, treatment and exploitation of resources. One of the functions of  treatment is the metadata extraction process; in order to facilitate its use,  that is, allow the search, access and retrieval of information. Metadata  extraction is a process that requiring time for its execution and if executed  manually could there is the risk of introducing human errors. These problems  can be reduced by the use of automated tools to support this process. In this  article, we describe a web component for automatic extraction of bibliographic  metadata from PDF files. The component is based on three fundamental processes  that follow a data flow that represents a tubes and filters architecture, where  the output of one process constitutes the input to the next. To validate if the  metadata extraction component reduces the extraction time, an experimental  design is made using a case study. Furthermore, a set of quality tests is  applied. These tests are aimed at verifying if the functioning of the component  is correct, if the implemented functions are executed correctly, if the  obtained results are the desired ones and if the user has a high level of  acceptance with the component of extraction of metadata.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Scientific  articles, Metadata extraction, Metadata, PDF Documents, Semantic Web.</font> </p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La Web Sem&aacute;ntica surge con el  objetivo de resolver las limitaciones: integraci&oacute;n, formato y recuperaci&oacute;n de  la web actual y como una extensi&oacute;n de esta. Tim Berners-Lee, promotor del  concepto de Web Sem&aacute;ntica propone: &ldquo;<em>La Web Sem&aacute;ntica no pretende sustituir  la Web actual, sino que es una extensi&oacute;n de la misma en la que la informaci&oacute;n  tiene un significado bien definido, posibilitando a los humanos y las  computadoras trabajar en cooperaci&oacute;n</em>&rdquo; (Berners-Lee  et&nbsp;al. 2001; Wenger 2014). A pesar de no estar generalizada debido en gran parte  al poco desarrollo de las tecnolog&iacute;as existentes, tiene varias aplicaciones  entre las que se encuentran la gesti&oacute;n de documentos digitales y la gesti&oacute;n de  referencias bibliogr&aacute;ficas (Hidalgo Delgado y  Rodr&iacute;guez Puente 2013). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las bibliotecas digitales son  sistemas de computaci&oacute;n que surgen para apoyar el trabajo realizado en las  bibliotecas f&iacute;sicas, llevando a cabo la gesti&oacute;n documental de los recursos u  objetos digitales que almacenan. Este proceso consta de la selecci&oacute;n,  tratamiento y explotaci&oacute;n de los documentos, donde en el tratamiento se  realizan un conjunto de tareas como la catalogaci&oacute;n y extracci&oacute;n de los  metadatos de los documentos, libros y otros recursos, con el objetivo de que  los usuarios puedan acceder m&aacute;s r&aacute;pido a la informaci&oacute;n que buscan y tener  almacenados los datos que identifican a cada objeto contenido en la biblioteca  ya sea digital o f&iacute;sico.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso de extracci&oacute;n de  metadatos se encarga de obtener los atributos o etiquetas que identifican a  cada documento (Senso y Pi&ntilde;ero 2003; Nogueira 2013). Estos metadatos servir&aacute;n para la b&uacute;squeda,  recuperaci&oacute;n, autenticaci&oacute;n y evaluaci&oacute;n de un recurso dentro de la biblioteca  digital. Realizar este proceso manualmente requiere de expertos en  bibliotecolog&iacute;a y puede demorar teniendo en consideraci&oacute;n la cantidad de  documentos a los cuales se les extraer&aacute;n los metadatos (Flynn 2014). Como v&iacute;a de soluci&oacute;n se han desarrollado  aplicaciones que pueden ser utilizadas desde la web o como una aplicaci&oacute;n de  escritorio. La etapa de extracci&oacute;n de metadatos tiene el objetivo de procesar  cada uno de los documentos cient&iacute;ficos para obtener sus metadatos  bibliogr&aacute;ficos. Los metadatos obtenidos en este proceso son el t&iacute;tulo, los  autores, las afiliaciones de cada autor, el resumen y las palabras claves,  pertenecientes a la portada de los documentos cient&iacute;ficos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La extracci&oacute;n de metadatos es  un proceso que requiere tiempo y se lleva a cabo para identificar y extraer los  metadatos como son el t&iacute;tulo y los autores, para luego ser guardados en una  base de datos en l&iacute;nea. Como ya se plante&oacute; anteriormente, realizar la  extracci&oacute;n de metadatos manualmente puede ser muy costoso en cuanto al tiempo.  El tiempo real que demora este proceso var&iacute;a seg&uacute;n el dominio que tenga un  especialista en realizar el proceso y el prop&oacute;sito por el cual son extra&iacute;dos  los metadatos (Sicilia 2013). Por ejemplo, el tiempo de archivado de los metadatos  de un art&iacute;culo en un repositorio institucional se ha estimado que demora 5  minutos y 37 segundos como promedio por cada uno de los documentos (Carr y Harnad  2009; Cerejo 2013). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  este art&iacute;culo se describe un componente de software para la extracci&oacute;n de  metadatos bibliogr&aacute;ficos a partir de documentos en formato PDF. Con la utilizaci&oacute;n  de este componente se podr&iacute;a reducir el tiempo empleado por los especialistas  en bibliotecolog&iacute;a para la extracci&oacute;n de metadatos bibliogr&aacute;ficos. El  componente ha sido desarrollado para ser desplegado en un servidor web, por lo  que les brinda la ventaja a los usuarios de tener acceso desde cualquier  computadora, siempre que exista una conexi&oacute;n a internet. Adem&aacute;s, al estar  desarrollado en forma de componente favorece su reutilizaci&oacute;n en otros  proyectos donde se utilicen metadatos bibliogr&aacute;ficos. Para la implementaci&oacute;n  del componente se emplearon herramientas de c&oacute;digo abierto o libre lo que  reduce los costos durante la etapa de desarrollo del componente. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este ac&aacute;pite se realiza un an&aacute;lisis  sobre los tipos de metadatos existentes seg&uacute;n la bibliograf&iacute;a consultada, donde  se especifican sus aplicaciones y se dan ejemplos de estos tipos de metadatos.  Para la extracci&oacute;n de metadatos bibliogr&aacute;ficos se han desarrollado  herramientas, las cuales pueden ser utilizadas desde la web, como aplicaciones  de escritorio o pueden ser integradas a otros proyectos. De las herramientas  existentes en este apartado se lleva a cabo un estudio sobre tres herramientas  con el objetivo describir sus principales caracter&iacute;sticas y determinar sus  ventajas.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Tipos  de metadatos existentes</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  clasificaci&oacute;n de los metadatos por sus tipos o usos todav&iacute;a no es definitiva,  debido al car&aacute;cter evolutivo que tiene el concepto de metadato seg&uacute;n como sean  creados y utilizados los mismos (Sicilia 2013). A continuaci&oacute;n, se explican  tres tipos de metadatos existente en la literatura consultada: </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los <strong>metadatos descriptivos</strong>, se utilizan  para la descripci&oacute;n e identificaci&oacute;n de la informaci&oacute;n contenida en un recurso  de informaci&oacute;n. Contienen atributos f&iacute;sicos (medios, condici&oacute;n de las  dimensiones) y atributos bibliogr&aacute;ficos (t&iacute;tulo, autor/creador, idioma,  palabras claves) (Senso y Pi&ntilde;ero  2003; Testa 2013). Mientras que,  los <strong>metadatos administrativos</strong> se  refieren a las caracter&iacute;sticas y propiedades del recurso, facilitando la  gesti&oacute;n, procesamiento tecnol&oacute;gico y f&iacute;sico de las colecciones digitales tanto  a corto como a largo plazo. Incluyen informaci&oacute;n sobre la creaci&oacute;n y el control  de la calidad, la gesti&oacute;n de derechos, el control de acceso, la utilizaci&oacute;n y  las condiciones de preservaci&oacute;n (Senso y Pi&ntilde;ero  2003; Testa 2013). Por &uacute;ltimo, los <strong>metadatos estructurales</strong> proporcionan  informaci&oacute;n sobre la estructura interna de los recursos electr&oacute;nicos, como  p&aacute;gina, secci&oacute;n, cap&iacute;tulo, &iacute;ndice y tabla de contenido, describiendo la  relaci&oacute;n entre los materiales. Facilitan la navegaci&oacute;n y presentaci&oacute;n de los  recursos y relacionan las diferentes partes que lo componen (Testa y Ceriotto  2012; Testa 2013). De los tres  tipos de metadatos analizados, en esta investigaci&oacute;n se utilizar&aacute;n los  metadatos descriptivos. Espec&iacute;ficamente, de los metadatos descriptivos se  usar&aacute;n sus atributos bibliogr&aacute;ficos, ya que estos son los atributos que est&aacute;n  contenidos en los art&iacute;culos cient&iacute;ficos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Herramientas  para la extracci&oacute;n de metadatos bibliogr&aacute;ficos</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen  varias herramientas dedicadas a la extracci&oacute;n de metadatos bibliogr&aacute;ficos de  documentos cient&iacute;ficos y t&eacute;cnicos en formato PDF, de las cuales se  seleccionaron aquellas que utilizan t&eacute;cnicas de aprendizaje autom&aacute;tico tales  como: Grobid, Mendeley y ParsCit. A continuaci&oacute;n, se caracterizan cada una de  ellas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Grobid</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es  un sistema para la extracci&oacute;n y generaci&oacute;n autom&aacute;tica de metadatos  bibliogr&aacute;ficos de documentos cient&iacute;ficos y t&eacute;cnicos y el reconocimiento de la  estructura del documento (Lopez y Romary 2010a; Hasan y Ng 2014). Es software  libre, desarrollado utilizando el lenguaje de programaci&oacute;n Java. Puede ser  utilizada como una aplicaci&oacute;n web o integrada a otros sistemas. Puede extraer  metadatos bibliogr&aacute;ficos tales como: autores, el t&iacute;tulo, el resumen, palabras  claves y otros. Para lograr el reconocimiento de la estructura del documento y  la extracci&oacute;n de los metadatos la herramienta realiza la conversi&oacute;n de los  documentos cient&iacute;ficos en formato PDF a documentos en formato TEI (Text  Encoding Initiative) (Lopez y Romary 2010b; Hasan y Ng 2014). Los metadatos  extra&iacute;dos pueden ser representados utilizando BibTex, lenguaje para la  descripci&oacute;n de bibliograf&iacute;a. La herramienta se enfoca en las secciones:  encabezado (t&iacute;tulo, resumen), introducci&oacute;n, la secci&oacute;n de t&iacute;tulos, las  conclusiones y las referencias bibliogr&aacute;ficas, ya que en estas secciones los  autores introducen los conceptos principales y los lectores suelen prestar m&aacute;s  atenci&oacute;n a estas partes del documento. Su uso puede ser extendido a las  bibliotecas digitales como un m&oacute;dulo para el an&aacute;lisis y procesado de documentos  de texto, esto permite la obtenci&oacute;n de informaci&oacute;n para generar y sugerir citas  bibliogr&aacute;ficas a los usuarios (Lopez 2009; Tkaczyk et&nbsp;al. 2015).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Mendeley</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Software  libre, que combina un sitio web y una aplicaci&oacute;n para PC y dispositivos Apple  (IPhone y IPad) para el almacenamiento y manejo de documentos PDF. Permite  tener los documentos almacenados en la Nube y tambi&eacute;n compartirlos con otros  como una red social. La aplicaci&oacute;n organiza autom&aacute;ticamente los art&iacute;culos por  categor&iacute;as (autor, t&iacute;tulo, revista, fecha y dem&aacute;s) en una base de datos para  luego realizar filtrados por categor&iacute;as. Proporciona el manejo de referencias  bibliogr&aacute;ficas, la selecci&oacute;n o creaci&oacute;n de estilos de citas textuales y la  creaci&oacute;n autom&aacute;tica de bibliograf&iacute;a (Russo  et&nbsp;al. 2013). Permite  agregar art&iacute;culos a la base de datos desde diferentes fuentes, bases de datos  online, desde la propia PC o de otras bibliotecas digitales (Russo  et&nbsp;al. 2013).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>ParsCit</strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es una herramienta  de c&oacute;digo abierto para el an&aacute;lisis de referencias bibliogr&aacute;ficas. ParsCit  realiza el an&aacute;lisis examinando cada una de las referencias e identificando cada  campo que las componen. Los campos extra&iacute;dos pueden ser utilizados por otros  autores. Consta de dos procesos fundamentales para la extracci&oacute;n de las  referencias, el preprocesado y el postprocesado (Councill, Giles y Kan 2008; Guy et&nbsp;al. 2014;  Ramakrishnan et&nbsp;al. 2012). En el preprocesado, ParsCit utiliza m&eacute;todos heur&iacute;sticos para  convertir el documento en formato PDF a texto plano, empleando UTF-8<a></a><a></a> (Councill, Giles y Kan 2008; Guy et&nbsp;al. 2014;  Ramakrishnan et&nbsp;al. 2012). Luego, en el  post-procesado utiliza CRF++, implementaci&oacute;n del m&eacute;todo de aprendizaje  autom&aacute;tico CRF, para obtener cada uno de los <em>tokens</em> que componen la referencia<a></a><a></a> (Granitzer et&nbsp;al. 2012). La herramienta puede ser utilizada tanto como un servicio web o  como una aplicaci&oacute;n independiente. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el prop&oacute;sito de conocer qu&eacute; aplicaci&oacute;n tiene un mejor desempe&ntilde;o en  el proceso de extracci&oacute;n de metadatos bibliogr&aacute;ficos se toma como referencia la  comparaci&oacute;n hecha por (Lipinski  et&nbsp;al. 2013). Para  llevar a cabo la comparaci&oacute;n, Lipinski seleccion&oacute; aleatoriamente una colecci&oacute;n  de 1153 art&iacute;culos cient&iacute;ficos en PDF, incluyendo sus metadatos, para  compararlos con los extra&iacute;dos por las herramientas estudiadas. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las herramientas deben cumplir el requisito de permitir la integraci&oacute;n  con otros proyectos de desarrollo, por ejemplo, una biblioteca digital, a  trav&eacute;s de una biblioteca de clases o ser una aplicaci&oacute;n independiente que  permita cargar archivos PDF. A partir de aqu&iacute; se realizan tres evaluaciones con  dos configuraciones de pruebas seg&uacute;n el n&uacute;mero de art&iacute;culos que se procesan,  cien en la primera y 1153 en la segunda. Los resultados obtenidos para las  herramientas seleccionadas se muestran en la <a href="/img/revistas/rcci/v11n4/t0107417.jpg" target="_blank">tabla 1</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  valores representados en la tabla corresponden a la evaluaci&oacute;n del desempe&ntilde;o  que tuvo cada una de las herramientas en la extracci&oacute;n de los metadatos  seleccionados. El valor uno indica que el metadato extra&iacute;do coincide con los  datos referenciados, cero que el metadato fue extra&iacute;do incorrectamente. De las  aplicaciones analizadas Grobid tuvo el mejor desempe&ntilde;o; 0.92 para t&iacute;tulos, 0.83  para los autores, 0.90 para el apellido de los autores, 0.74 para el resumen y  0.69 para el a&ntilde;o de publicaci&oacute;n. El desempe&ntilde;o de Grobid indica que los  metadatos extra&iacute;dos tuvieron un mayor nivel de coincidencia con los metadatos  que se tomaron como referencia para la comparaci&oacute;n. Tiene ventajas sobre las  otras herramientas, ya que al trabajar directamente con grandes cantidades de documentos  es poca la informaci&oacute;n que se pierde. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el art&iacute;culo (Granitzer  et&nbsp;al. 2012) se  comparan las herramientas Mendeley y ParsCit, obteniendo Mendeley una mejor  evaluaci&oacute;n. En esta investigaci&oacute;n indican que el m&eacute;todo SVM es mejor que el  m&eacute;todo CRF, pero con los resultados obtenidos en la comparaci&oacute;n se dice que la  implementaci&oacute;n de CRF que utiliza Grobid es mejor que el SVM de Mendeley y  Grobid tiene un mejor desempe&ntilde;o en la extracci&oacute;n de metadatos que Mendeley.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A continuaci&oacute;n, se describe el  componente para la extracci&oacute;n de metadatos bibliogr&aacute;ficos a partir de corpus  textuales en formato PDF. Esta aproximaci&oacute;n implicar&iacute;a una reducci&oacute;n en cuanto  al costo de tiempo empleado en el proceso de extracci&oacute;n de los metadatos que  realizan los especialistas en bibliotecolog&iacute;a en una biblioteca.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La comparaci&oacute;n hecha en el  ac&aacute;pite anterior entre las herramientas descritas arroj&oacute; como resultado que  Grobid es la que mejor desempe&ntilde;o tiene en el proceso de extracci&oacute;n de metadatos  bibliogr&aacute;ficos. Por esta raz&oacute;n se decide utilizar Grobid para ser integrada a  la propuesta de soluci&oacute;n. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El componente es descrito a  trav&eacute;s del diagrama de procesos mostrado en la <a href="#f01">figura 1</a>. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el diagrama de procesos se  visualizan seis subprocesos que en su conjunto conforman el proceso de  extracci&oacute;n de metadatos. De estos subprocesos se describen a continuaci&oacute;n tres  de ellos, ya que son los de mayor relevancia para la implementaci&oacute;n del  componente:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n4/f0107417.jpg" alt="f01" width="462" height="390"></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">1. Introducir  datos y documentos en formato PDF</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este proceso consiste en introducir los datos  relacionados con la procedencia de los documentos y cargar en el sistema un  documento o una colecci&oacute;n de documentos. Los datos a especificar son el tipo de  colecci&oacute;n a la que pertenece el documento, o sea si pertenece a una revista o  evento cient&iacute;fico, adem&aacute;s del n&uacute;mero y volumen y la edici&oacute;n respectivamente.  Los documentos a&ntilde;adidos constituyen la entrada al siguiente proceso que se  encargar&aacute; de su procesamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>2. Procesar  documentos</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la fase de procesamiento de documentos se lleva a  cabo la extracci&oacute;n autom&aacute;tica de los metadatos bibliogr&aacute;ficos. Este proceso  tiene como entrada los documentos obtenidos en la fase inicial. Los documentos  son procesados utilizando la herramienta Grobid, la cual genera un documento  XML que contiene los metadatos correspondientes a un documento. El archivo XML  es analizado utilizando un <em>parser</em> que  se encarga de obtener los metadatos. Finalmente, los metadatos son almacenados  en una base de datos relacional para su posterior revisi&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>3. Catalogar  metadatos</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso de  catalogaci&oacute;n es donde el usuario debe revisar si los metadatos extra&iacute;dos est&aacute;n  en correspondencia con el documento procesado. El usuario selecciona el  documento y a continuaci&oacute;n se muestran los metadatos correspondientes al mismo.  Los metadatos pueden ser editados si est&aacute;n incorrectos y se actualizan  directamente en la base de datos.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Arquitectura del componente</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El componente sigue un estilo arquitect&oacute;nico de flujo  de datos. Es aplicado en cada proceso desarrollado en el componente. Los datos  de entrada de un proceso son transformados en datos de salida que ser&aacute;n la  entrada al pr&oacute;ximo proceso para su manipulaci&oacute;n. El patr&oacute;n arquitect&oacute;nico  utilizado es tuber&iacute;as y filtros. Con el patr&oacute;n tuber&iacute;as y filtros cada etapa de  procesamiento se encapsula en un filtro. Cada filtro se encarga de procesar los  datos que recibe como entrada para transformarlos en datos de salida. Los datos  son transmitidos a trav&eacute;s de tubos a los filtros adyacentes para as&iacute; continuar  con el flujo de procesamiento de los datos (Pressman y Maxim  2015). </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <strong><a href="#f02">Figura 2</a> </strong>se muestra el dise&ntilde;o arquitect&oacute;nico del componente. Como  datos de entrada a la arquitectura se tienen un documento o varios de ellos en  formato PDF, adem&aacute;s de un grupo de datos que indican si el documento pertenece  a una revista o evento cient&iacute;fico espec&iacute;fico. Estos datos de entrada son  manejados por el filtro entrada de datos y documentos. Los documentos se  guardan en un repositorio de documentos y los datos sobre la revista o el  evento son obtenidos a partir del repositorio de metadatos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Luego de almacenados los  documentos PDF, estos pasan a ser procesados por el filtro procesamiento de  documentos. Este filtro se encarga de extraer los metadatos de cada uno de los  documentos. Para la extracci&oacute;n de los metadatos este filtro utiliza la  herramienta Grobid. Esta herramienta es integrada a la propuesta de soluci&oacute;n y  como resultado generan archivo  XML donde est&aacute;n cada uno de los metadatos de un documento, los cuales pueden  ser: el t&iacute;tulo, cada uno de los autores, sus afiliaciones o instituciones a las  que pertenece cada autor y otros. Los archivos XML son analizados para obtener  los metadatos los cuales son almacenados en el repositorio de metadatos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  metadatos extra&iacute;dos en el filtro procesamiento de documentos no siempre son  correctos, pueden no ser totalmente extra&iacute;dos o ser intercambiados unos por  otros. Teniendo en cuenta lo anterior se incluye el filtro catalogaci&oacute;n de  metadatos. Este filtro muestra los metadatos al usuario para que a partir del  documento correspondiente los corrija. Una vez corregidos son actualizados en  el Repositorio de metadatos. </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n4/f0207417.jpg" alt="f02" width="505" height="375"><a name="f02"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  la <strong><a href="/img/revistas/rcci/v11n4/f0307417.jpg" target="_blank">Figura 3</a></strong> se puede observar una captura del componente en  funcionamiento. La imagen corresponde al filtro catalogaci&oacute;n de metadatos: </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Validaci&oacute;n de resultados</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el objetivo de validar la  soluci&oacute;n al problema de investigaci&oacute;n se dise&ntilde;a un caso de estudio. Se utiliza  para ello una colecci&oacute;n de 200 art&iacute;culos en formato PDF los cuales est&aacute;n  almacenados <em>a priori</em> en un directorio  local y posteriormente estos son incorporados al servidor de la aplicaci&oacute;n para  ser procesados. La colecci&oacute;n de art&iacute;culos cient&iacute;ficos proviene de las memorias  del evento Inform&aacute;tica 2013. Para el caso de estudio se cuenta con un equipo de  c&oacute;mputo con las siguientes prestaciones: </font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Tipo de CPU: Intel Dual Core 2.10 GHz</font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Memoria del sistema: 3 Gb de RAM</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Dise&ntilde;o  experimental</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se utiliza en la investigaci&oacute;n  un pre-experimento para validar la propuesta de soluci&oacute;n. Para el  pre-experimento se precisa del resultado de una observaci&oacute;n inicial que ser&aacute;  comparada en otro momento con los valores obtenidos luego de la aplicaci&oacute;n de  un est&iacute;mulo. Se definen cuatro tareas a  realizar, enumeradas seguidamente:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesar 10 documentos en formato PDF.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesar 50 documentos en formato PDF.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesar 100 documentos en formato PDF.</font></p>   </li>       ]]></body>
<body><![CDATA[<li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Procesar  200 documentos en formato PDF.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v11n4/t0207417.jpg" target="_blank">tabla siguiente</a> se muestra el dise&ntilde;o experimenta  propuesto:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se definieron los siguientes  escenarios para la evaluaci&oacute;n, en cada uno de ellos se midi&oacute; el tiempo que  demora la extracci&oacute;n de los metadatos bibliogr&aacute;ficos:</font></p> <ul>   <ol>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Realizar la extracci&oacute;n de los metadatos bibliogr&aacute;ficos  de art&iacute;culos cient&iacute;ficos en formato PDF de manera manual, sin la utilizaci&oacute;n de  la propuesta de soluci&oacute;n.</font></p>     </li>         <li>           <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Extraer  los metadatos bibliogr&aacute;ficos de art&iacute;culos cient&iacute;ficos en formato PDF utilizando  la propuesta de soluci&oacute;n como est&iacute;mulo.</font></p>     </li>       </ol>     ]]></body>
<body><![CDATA[</ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>An&aacute;lisis de los resultados</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una  vez realizada la medici&oacute;n del tiempo que demoran los especialistas en extraer  los metadatos bibliogr&aacute;ficos a diez art&iacute;culos cient&iacute;ficos se obtiene un tiempo  medio de <em>2:08.80</em> minutos por  art&iacute;culo. El proceso de extracci&oacute;n utilizando el est&iacute;mulo, el Componente para  la Extracci&oacute;n de Metadatos Bibliogr&aacute;ficos (CEMB), se obtiene un tiempo promedio  de <em>1:53.60</em> minutos por documento. En  la <strong><a href="/img/revistas/rcci/v11n4/t0307417.jpg" target="_blank">Tabla 3</a> </strong>se muestra el dise&ntilde;o  experimental propuesto y se aplican los resultados obtenidos para determinar  cu&aacute;nto demorar&iacute;an los especialistas y el CEMB en el procesado de varias  cantidades de art&iacute;culos cient&iacute;ficos, en este caso desde 10 hasta 200 art&iacute;culos  cient&iacute;ficos. La poblaci&oacute;n utilizada para realizar el pre-experimento es de 200  art&iacute;culos cient&iacute;ficos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Grobid presenta un alto desempe&ntilde;o en el procesamiento  de los art&iacute;culos cient&iacute;ficos. Seg&uacute;n los creadores de la herramienta para una  colecci&oacute;n de 4000 PDF Grobid realiza el proceso de extracci&oacute;n de metadatos del  encabezado de los documentos en 10 minutos, o sea, 3 PDF por segundo y 18  segundos procesando 3000 referencias bibliogr&aacute;ficas (Lopez 2017). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La aplicaci&oacute;n del CEMB reduce  el tiempo en aproximadamente 55 segundos y dos cent&eacute;simas siendo una soluci&oacute;n  factible para ser introducida dentro de un ambiente real donde uno de sus  procesos sea la extracci&oacute;n de metadatos bibliogr&aacute;ficos. En el an&aacute;lisis de este  resultado se debe tener en cuenta la disponibilidad de recursos de hardware  donde es desplegado el componente, ya que este proceso requiere de un alto  procesamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Carr y Harnad  2009; Cerejo 2013) se plantea que el tiempo medio que demora una persona  en llevar a cabo el proceso de extracci&oacute;n de metadatos es de 5 minutos y 37  segundos por art&iacute;culo cient&iacute;fico. El CEMB reduce el tiempo de extracci&oacute;n de  metadatos bibliogr&aacute;ficos de art&iacute;culos cient&iacute;ficos por una persona planteado en  el art&iacute;culo en aproximadamente en 3 minutos y 44 segundos. El CEMB es una  soluci&oacute;n viable para llevar a cabo el proceso de extracci&oacute;n de metadatos  bibliogr&aacute;ficos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como parte del proceso de  validaci&oacute;n del componente se realizaron pruebas de calidad para comprobar su  ejecuci&oacute;n, si los resultados obtenidos eran los deseados y si el cliente estaba  de acuerdo con la herramienta. Las pruebas aplicadas fueron: unitarias, de  integraci&oacute;n, de caja negra y de aceptaci&oacute;n con el cliente. En cada una de las  pruebas implementadas se realizaron entre una y tres iteraciones hasta obtener  el resultado correcto. La aplicaci&oacute;n de las pruebas permiti&oacute; la detecci&oacute;n de  errores en el c&oacute;digo implementado que a simple vista no se hab&iacute;an detectado.  Adem&aacute;s, las pruebas realizadas con el cliente interactuando con la aplicaci&oacute;n a  partir de un flujo definido en los casos de pruebas, dieron como resultados las  no conformidades que surgieron durante el proceso y permitieron conocer el  nivel de aceptaci&oacute;n que ten&iacute;a el cliente con el componente desarrollado.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el dise&ntilde;o experimental se  demostr&oacute; que el Componente para la extracci&oacute;n de metadatos bibliogr&aacute;ficos  reduce el tiempo que demoran los especialistas en bibliotecolog&iacute;a en extraer  los metadatos bibliogr&aacute;ficos a partir de art&iacute;culos cient&iacute;ficos en formato PDF.  Al reducirse el tiempo de extracci&oacute;n de metadatos se da cumplimiento al  objetivo trazado inicialmente en el art&iacute;culo. Con el desarrollo de este  experimento se pudo demostrar la aplicabilidad y factibilidad del componente  para ser adoptado en una biblioteca para realizar procesos de extracci&oacute;n de  metadatos. Actualmente el componente implementado solo est&aacute; dise&ntilde;ado para  procesar art&iacute;culos cient&iacute;ficos publicados en revistas y eventos. Se est&aacute;  trabajando en extender las funcionalidades del componente para extraer  metadatos de otros documentos cient&iacute;ficos tales como Libros y Tesis.</font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BERNERS-LEE, T.,  HENDLER, J., LASSILA, O. y OTHERS, 2001. The semantic web.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CARR, L. y HARNAD,  S., 2009. Keystroke Economy: A Study of the Time and Effort Involved in  Self-Archiving. 2005. <em>Web (Accessed:)</em>,     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CEREJO, C., 2013.  How to make your paper more accessible through self-archiving. <em>Editage Insights  (04-11-2013)</em> [en l&iacute;nea], Disponible en: goo.gl/Lm95X3. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">COUNCILL, I.G., GILES, C.L. y KAN, M.-Y., 2008. ParsCit: an Open-source CRF Reference String Parsing  Package. . S.l.: s.n.    , </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FLYNN, P.K., 2014. <em>Document Classification in Support of Automated Metadata Extraction from  Heterogeneous Collections</em>. S.l.: OLD DOMINION UNIVERSITY.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GRANITZER, M.,  HRISTAKEVA, M., JACK, K. y KNIGHT, R., 2012. A comparison of metadata  extraction techniques for crowdsourced bibliographic metadata management. <em>Proceedings  of the 27th Annual ACM Symposium on Applied Computing</em>. S.l.: ACM, pp.  962&ndash;964. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GUY, T., GLASZIOU,  P., CHOONG, M.K., DUNN, A., GALGANI, F. y COIERA, E., 2014. Systematic review  automation technologies. <em>BioMed Central</em>, vol. 3, no. 1, pp. 74. DOI  10.1186/2046-4053-3-74. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HASAN, K.S. y NG, V., 2014. Automatic  Keyphrase Extraction: A Survey of the State of the Art. <em>ACL (1)</em>. S.l.: s.n., pp.  1262&ndash;1273. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HIDALGO DELGADO, Y. y RODR&Iacute;GUEZ PUENTE, R., 2013. La web sem&aacute;ntica: una  breve revisi&oacute;n. <em>Revista Cubana de Ciencias Inform&aacute;ticas</em>, vol. 7, no. 1,  pp. 76&ndash;85. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIPINSKI, M., YAO, K., BREITINGER, C., BEEL, J. y GIPP, B., 2013. Evaluation of header metadata extraction  approaches and tools for scientific PDF documents. <em>Proceedings of the 13th  ACM/IEEE-CS joint conference on Digital libraries</em>. S.l.: ACM, pp. 385&ndash;386. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOPEZ, P., 2009.  GROBID: Combining automatic bibliographic data recognition and term extraction  for scholarship publications. <em>International Conference on Theory and  Practice of Digital Libraries</em>. S.l.: Springer, pp. 473&ndash;474. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOPEZ, P., 2017. <em>grobid:  A machine learning software for extracting information from scholarly documents</em> [en l&iacute;nea]. Java. S.l.: s.n. [Consulta: 16 junio 2017]. Disponible en:  https://github.com/kermitt2/grobid.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOPEZ, P. y ROMARY, L., 2010a. HUMB:  Automatic key term extraction from scientific articles in GROBID. <em>Proceedings  of the 5th international workshop on semantic evaluation</em>. S.l.: Association  for Computational Linguistics, pp. 248&ndash;251. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LOPEZ, P. y ROMARY, L., 2010b. HUMB:  Automatic key term extraction from scientific articles in GROBID. <em>Proceedings  of the 5th international workshop on semantic evaluation</em>. S.l.: Association  for Computational Linguistics, pp. 248&ndash;251. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NOGUEIRA, D.M., 2013. <em>Herramientas de apoyo a la Gesti&oacute;n por el  Conocimiento para docentes e investigadores de las Ciencias Empresariales en  Cuba.</em> S.l.: s.n.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PRESSMAN, R.S. y  MAXIM, B.R., 2015. <em>Software Engineering: A Practitioner&rsquo;s Approach</em>.  S.l.: s.n. ISBN 0-07-802212-6. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RAMAKRISHNAN, C.,  PATNIA, A., HOVY, E. y BURNS, G.A., 2012. Layout-aware text extraction from  full-text PDF of scientific articles. <em>Source Code for Biology and Medicine</em>,  vol. 7, no. 1, pp. 7. ISSN 1751-0473. DOI 10.1186/1751-0473-7-7. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RUSSO, G.L., SPOLVERI, F., CIANCIO, F. y MORI, A., 2013. Mendeley: An easy way to manage, share,  and synchronize papers and citations. <em>Plastic and reconstructive  surgery</em>, vol. 131, no. 6, pp. 946e&ndash;947e. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SENSO, J.A. y PI&Ntilde;ERO, A. de la R., 2003. El concepto de metadato. Algo  m&aacute;s que descripci&oacute;n de recursos electr&oacute;nicos. <em>Ci&ecirc;ncia da Informa&ccedil;&atilde;o</em>, vol. 32, no. 2, pp. 95&ndash;106. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SICILIA, M.-A.,  2013. <em>Handbook of metadata, semantics and ontologies</em>. S.l.: World  Scientific.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TESTA, P., 2013. <em>Esquemas de metadatos para los repositorios  institucionales de las universidades nacionales argentinas</em>. S.l.: s.n.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TESTA, P. y CERIOTTO, P., 2012. Descripci&oacute;n de objetos digitales:  metadatos. <em>Sistema Integrado de Documentaci&oacute;n, Universidad Nacional del Cuyo</em>,     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TKACZYK, D., SZOSTEK, P., FEDORYSZAK, M., DENDEK, P.J. y BOLIKOWSKI,  \Lukasz, 2015. CERMINE: automatic  extraction of structured metadata from scientific literature. <em>International  Journal on Document Analysis and Recognition (IJDAR)</em>, vol. 18, no. 4, pp.  317&ndash;335. ISSN 1433-2825. DOI 10.1007/s10032-015-0249-8. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WENGER, E., 2014. <em>Artificial intelligence and tutoring  systems: computational and cognitive approaches to the communication of  knowledge</em>. S.l.: Morgan Kaufmann.    </font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 17/03/2017    <br> Aceptado: 15/10/2017</font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BERNERS-LEE]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[HENDLER]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[LASSILA]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
</person-group>
<source><![CDATA[The semantic web]]></source>
<year>2001</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CARR]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[HARNAD]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Keystroke Economy: A Study of the Time and Effort Involved in Self-Archiving.]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CEREJO]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[How to make your paper more accessible through self-archiving.]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COUNCILL]]></surname>
<given-names><![CDATA[I.G.]]></given-names>
</name>
<name>
<surname><![CDATA[GILES]]></surname>
<given-names><![CDATA[C.L.]]></given-names>
</name>
<name>
<surname><![CDATA[KAN]]></surname>
<given-names><![CDATA[M.-Y.]]></given-names>
</name>
</person-group>
<source><![CDATA[ParsCit: an Open-source CRF Reference String Parsing Package.]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FLYNN]]></surname>
<given-names><![CDATA[P.K.]]></given-names>
</name>
</person-group>
<source><![CDATA[Document Classification in Support of Automated Metadata Extraction from Heterogeneous Collections]]></source>
<year>2014</year>
<publisher-name><![CDATA[OLD DOMINION UNIVERSITY]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GRANITZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[HRISTAKEVA]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[JACK]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[KNIGHT]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A comparison of metadata extraction techniques for crowdsourced bibliographic metadata management.]]></source>
<year>2012</year>
<page-range>962-964</page-range><publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUY]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[GLASZIOU]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[CHOONG]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[DUNN]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[GALGANI]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[COIERA]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Systematic review automation technologies.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>3</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>74</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HASAN]]></surname>
<given-names><![CDATA[K.S.]]></given-names>
</name>
<name>
<surname><![CDATA[NG]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Automatic Keyphrase Extraction: A Survey of the State of the Art.]]></source>
<year>2014</year>
<month>.</month>
<page-range>1262-1273</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HIDALGO DELGADO]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[RODRÍGUEZ PUENTE]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[La web semántica: una breve revisión.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>7</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>76-85</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIPINSKI]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[YAO]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[BREITINGER]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[BEEL]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[GIPP]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluation of header metadata extraction approaches and tools for scientific PDF documents.]]></source>
<year>2013</year>
<page-range>385-386</page-range><publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOPEZ]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications.]]></source>
<year>2009</year>
<page-range>473-474</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOPEZ]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[grobid: A machine learning software for extracting information from scholarly documents]]></source>
<year>2017</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOPEZ]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[ROMARY]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[HUMB: Automatic key term extraction from scientific articles in GROBID.]]></source>
<year>2010</year>
<month>b</month>
<page-range>248-251</page-range><publisher-name><![CDATA[Association for Computational Linguistics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NOGUEIRA]]></surname>
<given-names><![CDATA[D.M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Herramientas de apoyo a la Gestión por el Conocimiento para docentes e investigadores de las Ciencias Empresariales en Cuba.]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PRESSMAN]]></surname>
<given-names><![CDATA[R.S.]]></given-names>
</name>
<name>
<surname><![CDATA[MAXIM]]></surname>
<given-names><![CDATA[B.R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Software Engineering: A Practitioner’s Approach]]></source>
<year>2015</year>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RAMAKRISHNAN]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[PATNIA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[HOVY]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[BURNS]]></surname>
<given-names><![CDATA[G.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Layout-aware text extraction from full-text PDF of scientific articles.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>7</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>7</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RUSSO]]></surname>
<given-names><![CDATA[G.L.]]></given-names>
</name>
<name>
<surname><![CDATA[SPOLVERI]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[CIANCIO]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[MORI]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mendeley: An easy way to manage, share, and synchronize papers and citations.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>131</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>946e-947e</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SENSO]]></surname>
<given-names><![CDATA[J.A.]]></given-names>
</name>
<name>
<surname><![CDATA[PIÑERO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[El concepto de metadato.]]></source>
<year>2003</year>
<volume>32</volume>
<page-range>95-106</page-range><publisher-name><![CDATA[Ciência da Informação]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SICILIA]]></surname>
<given-names><![CDATA[M.-A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Handbook of metadata, semantics and ontologies.]]></source>
<year>2013</year>
<publisher-name><![CDATA[World Scientific]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TESTA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Esquemas de metadatos para los repositorios institucionales de las universidades nacionales argentinas.]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TESTA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[CERIOTTO]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Descripción de objetos digitales: metadatos]]></source>
<year>2012</year>
<publisher-name><![CDATA[Universidad Nacional del Cuyo]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TKACZYK]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[SZOSTEK]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[FEDORYSZAK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[DENDEK]]></surname>
<given-names><![CDATA[P.J.]]></given-names>
</name>
<name>
<surname><![CDATA[BOLIKOWSKI]]></surname>
<given-names><![CDATA[Lukasz]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[CERMINE: automatic extraction of structured metadata from scientific literature.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>18</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>317-335</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WENGER]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Artificial intelligence and tutoring systems: computational and cognitive approaches to the communication of knowledge.]]></source>
<year>2014</year>
<publisher-name><![CDATA[Morgan Kaufmann]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
