<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992014000300010</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Desambiguación del nombre de los autores en revistas científicas]]></article-title>
<article-title xml:lang="en"><![CDATA[Disambiguation of Names of Authors in Scientific Journals]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Alonso Sierra]]></surname>
<given-names><![CDATA[Luis Enrique]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hidalgo Delgado]]></surname>
<given-names><![CDATA[Yusniel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Leiva Mederos]]></surname>
<given-names><![CDATA[Amed Abel]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas  ]]></institution>
<addr-line><![CDATA[Boyeros La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Central Marta Abreu de las Villas  ]]></institution>
<addr-line><![CDATA[ Villa Clara]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2014</year>
</pub-date>
<volume>8</volume>
<numero>3</numero>
<fpage>149</fpage>
<lpage>169</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992014000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992014000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992014000300010&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La ambigüedad en el nombre de los autores en las revistas científicas es un problema que afecta a las publicaciones de este tipo. Dicho problema se refiere a la posibilidad de representar el nombre de los autores de diferentes formas en los metadatos bibliográficos presentes en los repositorios digitales. Este se puede manifestar de dos formas diferentes, (1) pueden aparecer nombres de autores iguales, pero que no se refieren al mismo autor y (2) aparecen nombres diferentes, pero que se refieren al mismo autor. En este artículo se presenta un análisis crítico de las principales aproximaciones existentes en la literatura para solucionar el problema antes mencionado. Se realizó una revisión bibliográfica en las principales Bases de Datos referenciadas a nivel mundial, con el objetivo de identificar los elementos más actuales y rigurosos posibles. Se pudo constatar que la variedad de técnicas utilizadas para resolver el problema de la ambigüedad abarcan desde la utilización de técnicas de minería de datos hasta la utilización de la web como fuente de información. Cada una de las soluciones planteadas posee limitaciones y ventajas que dependen de las características de los datos utilizados. Finalmente, se concluye que no existe una solución definitiva para resolver el problema tratado debido a que los resultados de las aproximaciones no son cien por ciento completos y dependen estrechamente de los datos utilizados.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The ambiguity in the names of authors in scientific journals is a problem that affects such publications. This problem concerns the possibility of representing the name of the authors of different ways in bibliographic metadata inside of digital repositories. This problem can manifest itself in two different ways. At first place, it is possible to find names of authors syntactically identical, but that do not refer to the same author. The second case refers to the appearance of different names that refer to the same author. This paper shows a study of the main approaches found in the literature to solve the above problem, in addition to a critical analysis of these solutions. To carry out research, a literature review was conducted in major databases referenced globally, with the goal of possibly exposing the latest and thorough elements. After having conducted the study, it was found that the variety of techniques used to solve the problem of ambiguity, range from the use of data mining techniques to the use of the web as an information source. Each of the proposed solutions has advantages and drawbacks, depending on the characteristics of the data used. Also it can be concluded that there is an ultimate solution for solving the problem addressed, due to its close dependence on the used data.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[bibliometría]]></kwd>
<kwd lng="es"><![CDATA[desambiguación]]></kwd>
<kwd lng="es"><![CDATA[minería de datos]]></kwd>
<kwd lng="es"><![CDATA[nombre de autor]]></kwd>
<kwd lng="es"><![CDATA[revistas científicas]]></kwd>
<kwd lng="en"><![CDATA[author name]]></kwd>
<kwd lng="en"><![CDATA[bibliometrics]]></kwd>
<kwd lng="en"><![CDATA[data mining]]></kwd>
<kwd lng="en"><![CDATA[disambiguation]]></kwd>
<kwd lng="en"><![CDATA[journals]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N </B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Desambiguaci&oacute;n del nombre  de los autores en revistas cient&iacute;ficas</font></strong></font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">Disambiguation  of Names of Authors in Scientific Journals</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Luis Enrique Alonso Sierra<strong><sup>1*</sup></strong>, Yusniel Hidalgo Delgado<strong><sup>1</sup></strong>,  Amed Abel Leiva Mederos<strong><sup>3</sup></strong></strong></font></p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup> Grupo de Web Sem&aacute;ntica. Universidad de las  Ciencias Inform&aacute;ticas, Carretera a San Antonio de los Ba&ntilde;os, km 2 &frac12;, Torrens, Boyeros,  La Habana, Cuba. CP.: 19370. Correo-e: <a href="mailto:yhdelgado@uci.cu">yhdelgado@uci.cu</a>     <br>   <sup>3</sup> Departamento de Ciencias de la Informaci&oacute;n, Facultad de  Ingenier&iacute;a Industrial, Universidad Central &quot;Marta Abreu&quot; de las  Villas, Villa Clara, Cuba. Correo-e: <a href="mailto:amed@uclv.edu.cu">amed@uclv.edu.cu</a></font>    ]]></body>
<body><![CDATA[<br> </p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">   *Autor para la    correspondencia: <a href="mailto:lealonso24@gmail.com">lealonso24@gmail.com</a></font></p>     <P>     <P> <hr>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>RESUMEN</B></font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La ambig&uuml;edad en el nombre de los autores en las revistas  cient&iacute;ficas es un problema que afecta a las publicaciones de este tipo. Dicho  problema se refiere a la posibilidad de representar el nombre de los autores de  diferentes formas en los metadatos bibliogr&aacute;ficos presentes en los repositorios  digitales. Este se puede manifestar de dos formas diferentes, (1) pueden  aparecer nombres de autores iguales, pero que no se refieren al mismo autor y (2)  aparecen nombres diferentes, pero que se refieren al mismo autor. En este  art&iacute;culo se presenta un an&aacute;lisis cr&iacute;tico de las principales aproximaciones existentes  en la literatura para solucionar el problema antes mencionado. Se realiz&oacute; una  revisi&oacute;n bibliogr&aacute;fica en las principales Bases de Datos referenciadas a nivel  mundial, con el objetivo de identificar los elementos m&aacute;s actuales y rigurosos  posibles. Se pudo constatar que la variedad de t&eacute;cnicas utilizadas para  resolver el problema de la ambig&uuml;edad abarcan desde la utilizaci&oacute;n de t&eacute;cnicas  de miner&iacute;a de datos hasta la utilizaci&oacute;n de la web como fuente de informaci&oacute;n. Cada  una de las soluciones planteadas posee limitaciones y ventajas que dependen de  las caracter&iacute;sticas de los datos utilizados. Finalmente, se concluye que no  existe una soluci&oacute;n definitiva para resolver el problema tratado debido a que  los resultados de las aproximaciones no son cien por ciento completos y  dependen estrechamente de los datos utilizados. </font>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><B><font size="2">Palabras    clave:</font></B></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">bibliometr&iacute;a, desambiguaci&oacute;n, miner&iacute;a de datos, nombre de  autor, revistas cient&iacute;ficas. </font></P> <hr>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2"><B>ABSTRACT</b></font>    </font></p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">The ambiguity in the names of authors in scientific journals is a problem  that affects such publications. This problem concerns the possibility of  representing the name of the authors of different ways in bibliographic  metadata inside of digital repositories. This problem can manifest itself in  two different ways. At first place, it is possible to find names of authors  syntactically identical, but that do not refer to the same author. The second  case refers to the appearance of different names that refer to the same author.  This paper shows a study of the main approaches found in the literature to  solve the above problem, in addition to a critical analysis of these solutions.  To carry out research, a literature review was conducted in major databases  referenced globally, with the goal of possibly exposing the latest and thorough  elements. After having conducted the study, it was found that the variety of  techniques used to solve the problem of ambiguity, range from the use of data  mining techniques to the use of the web as an information source. Each of the  proposed solutions has advantages and drawbacks, depending on the  characteristics of the data used. Also it can be concluded that there is an  ultimate solution for solving the problem addressed, due to its close dependence  on the used data.</font>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Key words: </B>author name, bibliometrics, data mining, disambiguation, journals.</font></P> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el creciente desarrollo de  las nuevas tecnolog&iacute;as de la informaci&oacute;n, internet se ha convertido en una  fuente de informaci&oacute;n importante para los investigadores. Con la aparici&oacute;n de  la web 2.0 los usuarios de internet han tenido la posibilidad de publicar  informaci&oacute;n en la red que muchas veces no cuenta con la calidad requerida, esto  ha determinado la necesidad de encontrar formas de almacenar y publicar el  conocimiento cient&iacute;fico siguiendo normas rigurosas para la publicaci&oacute;n de dicho  conocimiento. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una de las formas de  almacenamiento y publicaci&oacute;n del conocimiento cient&iacute;fico es a trav&eacute;s de las  revistas cient&iacute;ficas. Estas no son m&aacute;s que publicaciones peri&oacute;dicas en la que  se intenta recoger el progreso de la ciencia, entre otras cosas, incluyendo  informes sobre las nuevas investigaciones (Lawson, 2000). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  En la actualidad el desarrollo  de las tecnolog&iacute;as y la evoluci&oacute;n del conocimiento han tomado un paso  acelerado, las nuevas tecnolog&iacute;as, son usadas como herramientas para el desarrollo de otras. Debido a  este fen&oacute;meno el volumen de informaci&oacute;n almacenada en las revistas cient&iacute;ficas  tiende a ser elevado, lo que dificulta la facilidad y rapidez en la obtenci&oacute;n  de la informaci&oacute;n que requieren los investigadores para realizar sus estudios.  Por este motivo se han desarrollado t&eacute;cnicas y procedimientos para facilitar el  trabajo a los investigadores. La bibliometr&iacute;a es uno de estos elementos, &eacute;sta  se define como una parte de la cienciometr&iacute;a que aplica m&eacute;todos matem&aacute;ticos y  estad&iacute;sticos a toda la literatura de car&aacute;cter cient&iacute;fico y a los autores que la  producen, con el objetivo de estudiar y analizar la actividad cient&iacute;fica (P&eacute;rez,  2002). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La bibliometr&iacute;a por su parte  usa los metadatos bibliogr&aacute;ficos de un determinado conjunto de informaci&oacute;n al  cual se le pretenden realizar estudios bibliom&eacute;tricos. Por su parte los metadatos  son un conjunto de datos estructurados y codificados que describen caracter&iacute;sticas de instancias,  conteniendo informaciones para ayudar a identificar, descubrir, valorar y  administrar las instancias descritas (M.d, 2011). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de  los elementos importantes en los estudios bibliom&eacute;tricos son los nombres de los  autores, si estos no cuentan con la calidad requerida los estudios  bibliom&eacute;tricos no tendr&aacute;n los resultados esperados. Enti&eacute;ndase como calidad de  los nombres de los autores a la correcta representaci&oacute;n de los mismos en las  bases de datos cient&iacute;ficas. Este problema est&aacute; relacionado con la ambig&uuml;edad  del nombre de los autores el cual se refiere a la posibilidad de representar de  diferentes formas los nombres de los mismos y su respectiva identificaci&oacute;n en  las revistas cient&iacute;ficas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La ambig&uuml;edad  en el nombre de los autores puede evidenciarse de dos formas diferentes. La  primera es que pueden encontrarse nombres sint&aacute;cticamente iguales que no se  refieren al mismo autor. Esta situaci&oacute;n es la m&aacute;s compleja de resolver debido a  que la representaci&oacute;n del nombre es uno de los elementos m&aacute;s importantes en el  proceso de desambiguaci&oacute;n. Muchas de las soluciones estudiadas asumen o parten  del hecho de que si dos nombres son iguales entonces estos se refieren al mismo  autor. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La segunda y  m&aacute;s com&uacute;n es que pueden aparecer nombres sint&aacute;cticamente diferentes para  referirse a un mismo autor. Un elemento importante en esta situaci&oacute;n es el  idioma de procedencia en que est&eacute; representado el nombre del autor. En idiomas  como el ingl&eacute;s y el franc&eacute;s, los autores suelen representarse con un nombre y  un apellido, lo cual disminuye la complejidad del proceso de desambiguaci&oacute;n. En  idiomas como el espa&ntilde;ol los nombres son representados con un nombre (en  ocasiones hasta nombres compuestos) y dos apellidos, trayendo consigo la  posibilidad de representar dicho nombre de diversas maneras. Por ejemplo, un  nombre com&uacute;n en el idioma espa&ntilde;ol puede ser: <em>Luis Enrique Alonso Sierra</em>, algunas formas de representar el mismo  pueden ser las siguientes:</font></p> <ul>       ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Luis E. Alonso</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Luis Enrique Alonso</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Luis E. Alonso Sierra</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Luis Enrique Alonso Sierra</em></font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>L. E. Alonso Sierra.</em></font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se puede  apreciar la variedad puede ser amplia, esto sin tener en cuenta los errores de  escritura que pueden aparecer en los mismos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De acuerdo  a la bibliograf&iacute;a consultada y por las caracter&iacute;sticas del problema en  cuesti&oacute;n, la principal herramienta utilizada para solucionar el problema de la  ambig&uuml;edad del nombre de los autores es mediante la aplicaci&oacute;n de t&eacute;cnicas de miner&iacute;a  de datos. La miner&iacute;a de datos es el proceso de extraer  conocimiento &uacute;til y comprensible, previamente desconocido, desde grandes  cantidades de datos almacenados en distintos formatos (Hern&aacute;ndez, 2002). Por su parte la miner&iacute;a de datos es un &aacute;rea del  conocimiento amplia de la cual se derivan un conjunto de t&eacute;cnicas que hacen  posible la aplicaci&oacute;n de la misma en diversas &aacute;reas de la sociedad. A  continuaci&oacute;n se mencionan algunas de las m&aacute;s importantes para la presente  investigaci&oacute;n. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una de  las t&eacute;cnicas que se desarrollaron como parte de la miner&iacute;a de datos es el  Aprendizaje Supervisado. El mismo es una t&eacute;cnica para deducir  una funci&oacute;n a partir de datos de entrenamiento. Los datos de entrenamiento  consisten de pares de objetos (normalmente vectores) donde una componente del par  son los datos de entrada y el otro los resultados deseados. Por otro lado existe otra t&eacute;cnica  llamada Aprendizaje no Supervisado. Este es un m&eacute;todo donde un modelo es ajustado  a las observaciones. Se distingue del Aprendizaje supervisado por el hecho de  que no hay un conocimiento a priori. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otra parte, los algoritmos de Agrupamiento son procedimientos de agrupaci&oacute;n de una serie de vectores de acuerdo con  un criterio de cercan&iacute;a. Esta cercan&iacute;a se define en t&eacute;rminos de una determinada funci&oacute;n de distancia,  como la eucl&iacute;dea, aunque existen otras m&aacute;s robustas o que permiten extenderla a  variables discretas.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existe otro tipo  de t&eacute;cnica que se encarga de Clasificar las relaciones establecidas en  correctas e incorrectas, a esta se le conoce como Clasificador. Un clasificador no es m&aacute;s que un algoritmo utilizado para asignar un  elemento entrante no etiquetado en una categor&iacute;a concreta conocida. Estos algoritmos,  permiten ordenar o disponer por clases elementos entrantes, a partir de cierta  informaci&oacute;n caracter&iacute;stica de &eacute;stos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otro lado, los Modelos  Probabil&iacute;sticos son formas que pueden tomar un conjunto de datos obtenidos de muestreos de datos, con comportamiento que se supone aleatorio. Pueden ser modelos probabil&iacute;sticos discretos o continuos (Vilares, 2009).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la  presente investigaci&oacute;n se realiza una valoraci&oacute;n cr&iacute;tica de las principales  aproximaciones existentes para desambiguar el nombre de los autores en  publicaciones cient&iacute;ficas. Se pretende adem&aacute;s, identificar las principales  herramientas, m&eacute;todos y t&eacute;cnicas utilizadas en la soluci&oacute;n del problema objeto  de estudio. Tambi&eacute;n se pretende analizar de forma cr&iacute;tica los principales  problemas detectados por los investigadores en las soluciones estudiadas. Esta investigaci&oacute;n  pretende servir como un punto de partida para el desarrollo de soluciones a la  ambig&uuml;edad del nombre de los autores. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En las secciones siguientes se describen los materiales y m&eacute;todos usados  para la realizaci&oacute;n de la investigaci&oacute;n. Luego se describen cada una de las  soluciones estudiadas, clasific&aacute;ndolas de acuerdo a las t&eacute;cnicas usadas para su  realizaci&oacute;n. Adem&aacute;s se describen algunas iniciativas que han surgido con el  objetivo de solventar el problema de la ambig&uuml;edad a trav&eacute;s de metadatos  p&uacute;blicos en la web. Tambi&eacute;n se realiza un an&aacute;lisis de las principales  deficiencias encontradas en dichas soluciones. Por &uacute;ltimo se presentan las  conclusiones de la investigaci&oacute;n. </font></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">DESARROLLO</font></strong>     <br>       <br> Para la realizaci&oacute;n del estudio  documental se consultaron numerosas fuentes bibliogr&aacute;ficas, como revistas cient&iacute;ficas  indexadas en SciELO y SCOPUS. Se identificaron las principales revistas  cient&iacute;ficas a las cuales se les han aplicado soluciones para la desambiguaci&oacute;n  del nombre de los autores y adem&aacute;s se visitaron sus sitios oficiales para  lograr una mayor veracidad en la informaci&oacute;n mostrada. Adem&aacute;s, se consultaron  libros de autores que est&aacute;n relacionados con la Miner&iacute;a de Datos en los &uacute;ltimos  5 a&ntilde;os.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las aproximaciones estudiadas pueden  dividirse en dos grandes grupos de acuerdo a (1) la t&eacute;cnica de miner&iacute;a de datos  utilizada, (2) la fuente de datos utilizada. La clasificaci&oacute;n de las soluciones  de acuerdo a la t&eacute;cnica de miner&iacute;a de datos se puede dividir en 4 grupos de  soluciones, (1) soluciones que usan t&eacute;cnicas de agrupamiento, (2) soluciones  que usan t&eacute;cnicas de clasificaci&oacute;n, (3) soluciones que utilizan modelos  probabil&iacute;sticos, (4) soluciones que usan una combinaci&oacute;n de los m&eacute;todos  anteriores. Luego, la clasificaci&oacute;n de las soluciones de acuerdo a fuente de  datos utilizados se pueden dividir en dos grupos, (1) soluciones que usan los  metadatos bibliogr&aacute;ficos de los repositorios digitales, (2) soluciones que usan  la web como fuente de informaci&oacute;n. A continuaci&oacute;n se muestra en la <a href="/img/revistas/rcci/v8n3/f0110314.jpg" target="_blank">figura 1</a> una taxonom&iacute;a con  lo antes expuesto.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Soluciones</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong> usando t&eacute;cnicas  de clasificaci&oacute;n</strong> </font></font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><font face="Verdana, Arial, Helvetica, sans-serif">  Las  soluciones desarrolladas utilizando t&eacute;cnicas de clasificaci&oacute;n, tratan de  establecer una correspondencia entre las entradas y las salidas deseadas del sistema. </font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Lin, 2010) se toma como caso de estudio la red social de investigadores ArnetMiner.  Dicha soluci&oacute;n est&aacute; basada en un algoritmo de clasificaci&oacute;n, en ella se manejan  todos los elementos presentes en dicha red social: coautores, afiliaci&oacute;n, citas  de los art&iacute;culos, similitud entre los t&iacute;tulos de los art&iacute;culos, las p&aacute;ginas web  de los autores y la retroalimentaci&oacute;n de los usuarios en la red social. Durante  el an&aacute;lisis de los datos utilizados se construye un vector de valores binarios  donde se coloca 1 si los nombres que se est&aacute;n comparando cumplen con una  determinada caracter&iacute;stica. El valor asignado al vector depende del elemento  que se est&eacute; comparando. Por ejemplo, partiendo de que los autores que se comparan  comparten el primer nombre (exactamente igual), cuando se comparan los segundos  nombres de los autores, se coloca 1 si estos son iguales, 0 en cualquier otro  caso.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  (Treeratpituk, 2009) se presenta una aproximaci&oacute;n orientada a la explotaci&oacute;n de  toda la informaci&oacute;n referente a los autores en los datos utilizados: co-autor,  afiliaci&oacute;n, lugar de publicaci&oacute;n, entre otros elementos. Tambi&eacute;n permite  calcular el n&uacute;mero exacto de autores presentes en un conjunto de datos  determinado. En la aproximaci&oacute;n se define el problema como se muestra a  continuaci&oacute;n: Dada una lista de publicaciones P = {p1, p2, p3,&hellip;, pn} suponga  que existen m diferentes personas {t1, t2, t3,&hellip;, tn} compartiendo un mismo  nombre, entonces la tarea consiste en asignar a cada persona la publicaci&oacute;n que  en realidad escribi&oacute;. Tomando esta definici&oacute;n como base estamos en presencia de  un problema t&iacute;pico de clasificaci&oacute;n. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Wang, 2012) se proponen cuatro pasos  fundamentales para resolver el problema de la ambig&uuml;edad en el nombre de los  autores. Primero, se realiza el filtrado de los datos por los nombres y la  afiliaci&oacute;n, luego se construye un vector de similitudes, despu&eacute;s son agrupados  los autores y finalmente se realiza la clasificaci&oacute;n de los mismos. En la  aproximaci&oacute;n tambi&eacute;n son calculadas las tasas de error permitidas por el  algoritmo utilizado. Con los experimentos realizados sobre el m&eacute;todo propuesto  se puede demostrar la efectividad de la soluci&oacute;n desarrollada. </font></p> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Ferreira, 2012) se reconoce la necesidad  de contar con conjunto de datos amplio con el objetivo de obtener resultados  satisfactorios en la soluci&oacute;n del problema de ambig&uuml;edad en el  nombre de los autores, tanto con la utilizaci&oacute;n de aprendizaje  supervisado como no supervisado. La aproximaci&oacute;n es una actualizaci&oacute;n de un  trabajo previo encaminado a generar y clasificar datos de entrenamiento. La  propuesta actual genera un gran volumen de datos que pueden ser utilizados como  conjunto de datos de entrenamiento. El proceso consiste en la selecci&oacute;n de un  peque&ntilde;o grupo de datos, este conjunto es  enviado a especialistas  para que estos clasifiquen dicho conjunto de datos. </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  los experimentos realizados se muestra que con un peque&ntilde;o conjunto de datos  (cerca del 5% de los datos) el rendimiento del proceso de desambiguaci&oacute;n mejora  en aproximadamente el 10%. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="2">Soluciones</font></strong><font size="2"><strong> usando t&eacute;cnicas  de agrupamiento</strong> </font></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">  Las soluciones basadas en el uso de  t&eacute;cnicas de agrupamiento son definidas por una funci&oacute;n de similitud para  establecer los criterios de agrupamientos entre los nombres de los autores. </font></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">  En (Zhu, 2011) se usa  un mecanismo para identificar p&aacute;ginas web con informaci&oacute;n referente a los  autores. Para la identificaci&oacute;n de las p&aacute;ginas web se utiliza un modelo de  identificaci&oacute;n mediante redes neuronales. Despu&eacute;s de identificadas las p&aacute;ginas  web, no era posible la extracci&oacute;n de la informaci&oacute;n de forma directa ya que  estas no contienen la informaci&oacute;n necesaria de forma estructurada. Por tanto,  se cre&oacute; un mecanismo para la extracci&oacute;n de informaci&oacute;n referente a la  afiliaci&oacute;n, los coautores y los t&iacute;tulos de trabajos. Por &uacute;ltimo, se procede a  realizar el proceso de agrupamiento. Con el proceso de extracci&oacute;n de  informaci&oacute;n realizado previamente se mejor&oacute; dicho proceso de agrupamiento. </font></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><font size="2">  En (Yang, 2008) se establecen dos tipos de  relaciones entre las publicaciones: (1) Correlaci&oacute;n de Tema y (2) Correlaci&oacute;n Web,  con el objetivo de explorar las relaciones entre las publicaciones que  compartan el mismo nombre de autor. La Correlaci&oacute;n de Tema se refiere a la  relaci&oacute;n que puede existir entre las tem&aacute;ticas de las publicaciones. La  Correlaci&oacute;n Web se refiere a la relaci&oacute;n que puede existir entre las  publicaciones en las p&aacute;ginas web. Luego de determinadas cada una de estas  correlaciones se procede a realizar el proceso de agrupamiento teniendo en  cuenta estos dos elementos.</font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Kern, 2011) se hace un an&aacute;lisis de las  estrategias de desambiguaci&oacute;n basada en el m&eacute;todo de agrupamiento. Se  desarrolla un m&eacute;todo para la selecci&oacute;n de un modelo que estima el n&uacute;mero  correcto de autores presentes en un conjunto de datos bibliogr&aacute;ficos. Este  modelo est&aacute; basado en la correlaci&oacute;n existente entre los coautores. Se muestra  adem&aacute;s que dada las caracter&iacute;sticas del problema, el m&eacute;todo desarrollado para la selecci&oacute;n del modelo  ofrece los resultados exactos. Con la aproximaci&oacute;n desarrollada se resuelve el  problema de determinar cu&aacute;ntos autores o <em>clusters</em> est&aacute;n presentes en el conjunto de datos utilizados para la desambiguaci&oacute;n. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Bernardi, 2011) se reconoce que  los datos presentes en  las bibliotecas digitales institucionales poseen mayor calidad en la  informaci&oacute;n y mayor grado de organizaci&oacute;n lo que facilita el proceso de  desambiguaci&oacute;n. Por otro lado los repositorios de internet no poseen estas  caracter&iacute;sticas por lo que es necesario enriquecer los mismos. En la  aproximaci&oacute;n, el m&eacute;todo utilizado para este proceso fueron los modelos de  t&oacute;picos, para los cuales es necesario contar con una fuente de informaci&oacute;n con  determinadas caracter&iacute;sticas, usando para esto Wikipedia.  Luego se usa agrupamiento aglomerativo para realizar el proceso de  desambiguaci&oacute;n del nombre de los autores. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Veloso, 2012) se  analizan diversos factores que intervienen en el bajo rendimiento de las  propuestas de soluci&oacute;n existentes en la literatura, el enorme espacio de b&uacute;squeda  de la soluci&oacute;n y la diferencia entre la cantidad de citas de los autores (algunos  aparecen solo unas pocas veces, mientras que otros son muy productivos  cient&iacute;ficamente). En la aproximaci&oacute;n se proponen tres resultados principales:(1)  un m&eacute;todo que se encarga de explorar reglas de asociaci&oacute;n para realizar el  proceso de desambiguaci&oacute;n, (2) un m&eacute;todo que se encarga de extraer reglas de  asociaci&oacute;n por demanda, lo que reduce de forma significativa el espacio de  b&uacute;squeda de la soluci&oacute;n propuesta, (3) una extensi&oacute;n del segundo m&eacute;todo con la  capacidad de auto-entrenarse, reduciendo esto la cantidad de datos de  entrenamientos necesitados por la soluci&oacute;n propuesta. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La propuesta (Kang, 2011) est&aacute;  basada en la creaci&oacute;n de un conjunto de datos de entrenamiento aplicable a las  soluciones existentes en la bibliograf&iacute;a. Los pasos seguidos para la creaci&oacute;n  de dicho conjunto de datos son: (1) determinaci&oacute;n de la fuente de datos a  utilizar, (2) determinaci&oacute;n del conjunto de nombres de autores presentes en los  datos seleccionados, (3) generaci&oacute;n de las citas de los autores en el conjunto  de dato de datos, (4) recolecci&oacute;n de informaci&oacute;n referente a los autores, (5) asignaci&oacute;n  de identificadores a los nombres de los autores y (6) verificaci&oacute;n y repetici&oacute;n  del paso anterior. Luego de generado los datos de entrenamiento el mismo fue  probado en una soluci&oacute;n basada en t&eacute;cnicas de agrupamiento, arrojando la misma  resultados satisfactorios.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Soluciones</strong> <strong>usando modelos</strong> <strong>probabil&iacute;sticos</strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  Las aproximaciones basadas en modelos  probabil&iacute;sticos establecen relaciones entre las caracter&iacute;sticas presentes en  los metadatos para determinar la probabilidad de que dos art&iacute;culos sean  escritos por el mismo autor. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Torvik, 2005) se presenta un modelo  probabil&iacute;stico para la generaci&oacute;n autom&aacute;tica del conjunto de datos de  entrenamiento. Adem&aacute;s, permite estimar la probabilidad de que un par de  art&iacute;culos de la base de datos MEDLINE, que compartan el mismo nombre de autor  sean escritos por la misma persona, basado en que los mismos comparten el t&iacute;tulo,  la revista de publicaci&oacute;n, coautores en com&uacute;n, entre otros. Esta aproximaci&oacute;n  marc&oacute; un punto de partida para la creaci&oacute;n de nuevos m&eacute;todos de soluci&oacute;n  relacionados con el tema. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Tang, 2008) se presenta un marco de trabajo  que permite la incorporaci&oacute;n de atributos y sus relaciones dentro de un modelo  probabil&iacute;stico. Se experimenta en una aproximaci&oacute;n din&aacute;mica para la estimaci&oacute;n  del n&uacute;mero de nombres de autores &uacute;nicos en el conjunto de datos utilizado,  adem&aacute;s se desarroll&oacute; una medici&oacute;n de distancia adaptativa para estimar la  distancia entre los objetos del modelo. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  En (J.Pricilla, 2013) se utiliza un modelo probabil&iacute;stico para resolver  el problema de la ambig&uuml;edad en el nombre de los autores. Teniendo como  principal caracter&iacute;stica para realizar el proceso de desambiguaci&oacute;n el t&iacute;tulo  de las publicaciones realizadas por cada autor. Estos t&iacute;tulos son analizados,  luego colocados en la misma agrupaci&oacute;n aquellas publicaciones que posean mayor  probabilidad de referirse al mismo t&iacute;tulo y cuyo dominio tenga una fuerte  relaci&oacute;n con las publicaciones de dicha agrupaci&oacute;n. Este proceso contin&uacute;a hasta  que no es posible agrupar m&aacute;s los nombres de los autores, terminado as&iacute; el  proceso de desambiguaci&oacute;n. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  En (Li, 2012) se hace un  an&aacute;lisis sobre el bajo rendimiento de los m&eacute;todos usados en la mayor&iacute;a de las  soluciones que abordan el problema de la ambig&uuml;edad en el nombre de los autores. Debido a que,  en la mayor&iacute;a de los casos las agrupaciones que se conforman generalmente son  peque&ntilde;as. A partir de dicho an&aacute;lisis los autores proponen un nuevo m&eacute;todo para  la soluci&oacute;n del problema. Dicho m&eacute;todo est&aacute; basado en la selecci&oacute;n de un nuevo  conjunto de atributos a partir del cual se lleva a cabo el proceso de  agrupamiento. Luego de la selecci&oacute;n de dicho conjunto, este es utilizado para determinar un ratio de  probabilidad, para el cual, mayores valores  significa que hay mayor probabilidad de que dos conjuntos de autores se  refieran a la misma persona. Adem&aacute;s se propone un m&eacute;todo para determinar la  cantidad exacta de autores, dado un nombre, a partir de las estad&iacute;sticas  extra&iacute;das de un repositorio digital. Con los resultados de los experimentos los  autores demuestran que el rendimiento del m&eacute;todo propuesto es mejor que los  m&eacute;todos tradicionales. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Soluciones</strong> <strong>usando  una combinaci&oacute;n de m&eacute;todos</strong> </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las aproximaciones estudiadas  en la presente investigaci&oacute;n tambi&eacute;n comprenden la utilizaci&oacute;n de combinaciones  de m&eacute;todos para su desarrollo. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Ferreira, 2010) se afirma que los m&eacute;todos de aprendizaje supervisados  arrojan mejores resultados para este tipo de soluci&oacute;n pero es necesaria la  intervenci&oacute;n de los humanos en el proceso de generaci&oacute;n de los datos de  entrenamiento. Los autores proponen un m&eacute;todo para la soluci&oacute;n de la desambiguaci&oacute;n  basado en dos pasos. El primero de ellos es utilizado para la generaci&oacute;n de los  datos de entrenamiento a trav&eacute;s de un algoritmo de agrupamiento, basado en la  similitud entre el nombre de los coautores. El segundo paso utiliza un algoritmo  de aprendizaje supervisado para realizar el proceso de desambiguaci&oacute;n. El  objetivo es detectar los autores no incluidos en ninguno de los datos de  entrenamiento generados en el paso anterior.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En  (Gurney, 2012) se reconoce la  importancia que tiene poseer un equilibrio entre precisi&oacute;n y rapidez en los  m&eacute;todos de desambiguaci&oacute;n. A partir de esto, se propone un algoritmo para  resolver el problema de la ambig&uuml;edad usando todos los campos disponibles.  Adem&aacute;s el proceso de comparaci&oacute;n entre dos autores es din&aacute;mico, es decir, los  elementos que se toman en cuenta para comparar un par de autores no son  necesariamente los mismos que  para comparar otros, var&iacute;an en dependencia de la disponibilidad de la  informaci&oacute;n. Tienen en cuenta la diferencia en las tem&aacute;ticas de publicaci&oacute;n de  los autores y las fechas de publicaci&oacute;n de los trabajos. La propuesta tiene la  particularidad de que no preselecciona elementos previamente para realizar el  proceso de desambiguaci&oacute;n. Esto ocasiona que el conjunto de datos a comparar  sea mayor, pero aumenta la exhaustividad de la propuesta. Los  resultados expuestos en el informe muestran que la soluci&oacute;n mejora en rapidez y  precisi&oacute;n con respecto a las propuestas existentes en la bibliograf&iacute;a. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Ferreira, 2012) se propone una  herramienta para la evaluaci&oacute;n de los m&eacute;todos propuestos en la literatura sobre  la desambiguaci&oacute;n del nombre de los autores. Adem&aacute;s dichas aproximaciones no  tienen en cuenta la adici&oacute;n de nuevos registros en las revistas digitales ni  los cambios que puedan aparecer en los intereses de los investigadores. Despu&eacute;s  de realizar las pruebas pertinentes sobre tres soluciones desarrolladas se  demuestra la efectividad de la herramienta desarrollada.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Cheng, 2013) se  utiliza un modelo basado en grafos para resolver el problema de la  desambiguaci&oacute;n del nombre de los autores. Luego de utilizar un m&eacute;todo basado en  la partici&oacute;n de grafos se realiza el proceso de desambiguaci&oacute;n, teniendo como  base un conjunto de datos de entrenamiento. Los datos de entrenamiento  utilizados son determinados por una soluci&oacute;n propuesta en la aproximaci&oacute;n, con  el objetivo de que estos sean la menor cantidad posible </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Clasificaciones</strong> <strong>de las soluciones de acuerdo a la  naturaleza de los datos</strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  Las  soluciones estudiadas se pueden clasificar en dos grandes grupos de acuerdo a  la naturaleza de los datos que utilizan: <strong>soluciones que usan los metadatos de  las revistas cient&iacute;ficas </strong>y <strong>soluciones  que usan la web como fuente de informaci&oacute;n.</strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las primeras  utilizan diversos mecanismos (protocolos, librer&iacute;as, etc.) para obtener los  registros bibliogr&aacute;ficos (metadatos) de las revistas cient&iacute;ficas. En este caso  los metadatos cuentan con un mayor nivel de detalle y organizaci&oacute;n lo que  permite que el trabajo con estos sea menos complicado, ocurriendo todo lo  contrario con la informaci&oacute;n obtenida de la web. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las segundas utilizan la informaci&oacute;n  que se encuentra p&uacute;blica en la web referente a los autores en las revistas  cient&iacute;ficas. En este caso los datos son obtenidos a trav&eacute;s de consultas a  motores de b&uacute;squeda. Las formas de componer las consultas pueden ser variadas,  por ejemplo: nombre del autor + t&iacute;tulo de la publicaci&oacute;n. Otro caso puede ser:  nombre del autor + t&iacute;tulo de la publicaci&oacute;n + afiliaci&oacute;n del autor (en caso de  estar disponible). En este caso los datos obtenidos deben ser tratados  una vez que se recuperen con el objetivo de facilitar el trabajo con los  mismos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Sistemas de metadatos para la  identificaci&oacute;n y desambiguaci&oacute;n del nombre de los autores</strong>    ]]></body>
<body><![CDATA[<br>   Tener un  registro &uacute;nico de cada uno de los autores en la web ser&iacute;a un gran paso de  avance para solventar el problema de la ambig&uuml;edad en el nombre de los autores.  La idea mencionada consiste en contar con un determinado <em>token</em> o mecanismo de identificaci&oacute;n que permita a los autores  registrar sus datos solo en una ocasi&oacute;n en un determinado sitio o base de datos  (Beall, 2010), luego  para identificarse en una revista solo usa el mecanismo de identificaci&oacute;n  proporcionado por la base de datos donde registr&oacute; sus datos. Este proceso  minimizar&iacute;a en gran medida la aparici&oacute;n de errores de escritura en los nombres  de los autores, adem&aacute;s que permitir&iacute;a a los sistemas que usan este tipo de  informaci&oacute;n acceder a ella de una forma mucho m&aacute;s eficiente y r&aacute;pida. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Muchas  iniciativas han surgido teniendo como base esta idea, entre ellas se pueden  mencionar:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Library of Congress Authorities: </strong>Esta biblioteca combina nombre, tem&aacute;tica y t&iacute;tulos  de los autores registrados en ella, est&aacute; formada por registros generados por bibliotecas  de los Estados Unidos aunque existe contribuciones de otras instituciones de  este tipo, como por ejemplo la biblioteca brit&aacute;nica. Los registros de los  autores est&aacute;n almacenados en el formato de autoridad MARC.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Virtual International Authority File (VIAF): </strong>Es un proyecto conjunto de varias bibliotecas  internacionales que tiene como objetivo disminuir los costos y aumentar la  utilidad de los archivos de autoridad comparando y relacionando estos y luego  haci&eacute;ndolos accesibles desde la web. Teniendo en cuenta que es un proyecto  conjunto internacional es necesario contar con varias formas de introducir los  datos de un mismo autor. Este proyecto almacena los archivos de autoridad en  formato MARC y UNIMARC.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>ResearcherID: </strong>De acuerdo a la informaci&oacute;n existente, esta iniciativa es una comunidad  multidisciplinaria que provee un identificador &uacute;nico a cada uno de los autores  que participen en el proyecto. Esta iniciativa fue creada y es soportada por  Thomson Reuters. En la iniciativa cada uno de los autores deben crear una p&aacute;gina  en la cual se registran los elementos relacionados con los autores, por ejemplo  los art&iacute;culos cient&iacute;ficos, los libros de los autores, citaciones que hayan  recibido los trabajos, entre otras. Cada una de las p&aacute;ginas creadas por los  autores es de libre acceso.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>International Standard Name Identifier (ISNI): </strong>El prop&oacute;sito de esta iniciativa es asignar un  n&uacute;mero &uacute;nico a los autores que aparezcan en publicaciones tanto online como  impresas. Este n&uacute;mero es similar al ISBN que aparece en los libros pero se diferencia  en que, por ejemplo, un libro con dos ediciones distintas, cada una de las  ediciones tienen ISBN diferentes, mientras que con la iniciativa el n&uacute;mero  asignado ser&aacute; siempre el mismo. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Digital  Author Identification System (DAI): </strong>Este es un ejemplo de un Sistema de identificaci&oacute;n de los nombres de  los autores internacional. Consiste en la asignaci&oacute;n de un n&uacute;mero a cada uno de  los profesores e investigadores que se encuentran registrados en el sistema. El  n&uacute;mero asignado por el sistema sigue el patr&oacute;n y es compatible con ISNI. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Open  Researcher &amp; Contributor ID (ORCID): </strong>Iniciativa creada con el objetivo de solucionar el problema de la  ambig&uuml;edad de los nombres de los autores. Esta iniciativa crea un registro  &uacute;nico de cada uno de los autores y un mecanismo de enlazado con otras  iniciativas de este tipo. ORCID permite mejorar el rendimiento del proceso de  descubrimiento de informaci&oacute;n relacionada con un autor determinado. El proceso  comienza con el registro de los datos de un autor, luego le es asignado un  identificador &uacute;nico el cual es usado como mecanismo de identificaci&oacute;n cuando  dicho autor firme un art&iacute;culo o contribuci&oacute;n. </font></p>     <p>&nbsp;</p>     <p><strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">DISCUSI&Oacute;N</font></strong></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  Las revistas  cient&iacute;ficas constituyen una de las principales fuentes de consulta por parte de  la comunidad cient&iacute;fica mundial, lo cual determina que la calidad de los  registros bibliogr&aacute;ficos que las mismas poseen deben tener la mayor calidad  posible. En este art&iacute;culo se mencionaron algunas de las principales soluciones desarrolladas  con el objetivo de resolver el problema de la ambig&uuml;edad en el nombre de los  autores. Aunque no son pocas las soluciones y los m&eacute;todos utilizados para  mitigar dicho problema, dichas soluciones no est&aacute;n expensas a problemas que  dificultan la obtenci&oacute;n de los mejores resultados. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En las  soluciones revisadas no se tienen en cuenta la calidad de los datos utilizados.  Es necesario tener en cuenta las caracter&iacute;sticas, inconsistencias y ruidos que  pueden aparecer en estos para determinar los m&eacute;todos que mejor se adapten a las  particularidades de los datos utilizados. De igual forma, no se realiza un  previo procesamiento de los mismos. En muchas ocasiones las caracter&iacute;sticas de  los datos permiten la realizaci&oacute;n de dicho procesamiento de forma tal que los  resultados de las soluciones mejoren considerablemente. Por otro lado se asume que si aparecen dos nombres iguales entonces esos  nombres se refieren a la misma persona. Teniendo en cuenta el estudio previo,  podemos afirmar que esta es una suposici&oacute;n incorrecta. Tambi&eacute;n se toman como  punto de partida para realizar el proceso de desambiguaci&oacute;n que los nombres de  los autores deben coincidir completamente para entonces comenzar a realizar el  proceso antes mencionado, esta condici&oacute;n obtendr&iacute;a resultados err&oacute;neos si  existiesen errores de escritura en los nombres que se est&aacute;n analizando. Tambi&eacute;n  podemos afirmar que la mayor&iacute;a de las soluciones est&aacute;n orientadas al idioma  ingl&eacute;s, muy pocas se centran en otros idiomas y sus particularidades, como por  ejemplo: el espa&ntilde;ol.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Ventajas y desventajas de las  soluciones estudiadas</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  Las soluciones  basadas en t&eacute;cnicas de agrupamiento permiten la obtenci&oacute;n de resultados sin la  necesidad de tener un conocimiento previo de la informaci&oacute;n que ser&aacute; tratada,  es decir, no es necesario poseer un conjunto de datos de entrenamiento, como es  el caso de los algoritmos de clasificaci&oacute;n. Tambi&eacute;n posibilita que el proceso  de desambiguaci&oacute;n sea automatizado, permite la eliminaci&oacute;n de la intervenci&oacute;n  de la actividad humana en el proceso de desambiguaci&oacute;n. Por otro lado este tipo  de soluciones tienen limitantes que dificultan su utilizaci&oacute;n. Los resultados  obtenidos poseen una menor calidad que los resultados obtenidos por otros tipos  de soluciones, por ejemplo, las soluciones basadas en clasificadores. Tambi&eacute;n se  puede plantear que, cuando se utilizan t&eacute;cnicas de agrupamiento no conocemos  con exactitud el n&uacute;mero de agrupaciones o <em>clusters</em> que se deben crear en el proceso de desambiguaci&oacute;n, introduciendo esto, errores  en los resultados obtenidos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las soluciones  basadas en clasificadores permiten que los resultados obtenidos tengan un grado  de fidelidad alto en comparaci&oacute;n con otras t&eacute;cnicas, como por ejemplo, las  t&eacute;cnicas de agrupamiento. En muchas ocasiones este tipo de soluci&oacute;n es la m&aacute;s eficaz  para su utilizaci&oacute;n debido a la forma de modelar el problema de la ambig&uuml;edad. Entre  sus limitaciones se encuentra que, es necesario conocer informaci&oacute;n previa de  los datos tratados, tener un conjunto de datos de entrenamiento para utilizarlos  en la construcci&oacute;n del modelo creado por el clasificador. Esto hacer que sea  necesaria la intervenci&oacute;n de la actividad humana para determinar las  principales caracter&iacute;sticas de los datos utilizados. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las soluciones basadas en la utilizaci&oacute;n de modelos  probabil&iacute;sticos son unas de las menos complicadas para su utilizaci&oacute;n. La  determinaci&oacute;n de los elementos que compondr&aacute;n el modelo probabil&iacute;stico y sus  respectivas ponderaciones es un trabajo relativamente sencillo. Dichas  ponderaciones pueden ser determinadas utilizando m&eacute;todos heur&iacute;sticos. Por otro  lado, la utilizaci&oacute;n de este tipo de soluciones deben ser aplicadas en entornos  muy controlados, es decir, donde las caracter&iacute;sticas de los datos utilizados  sean conocidas. Conocer las caracter&iacute;sticas de los datos utilizados es un  elemento importante para la determinaci&oacute;n de los principales elementos que  contendr&aacute; el modelo probabil&iacute;stico. Esto hace que este tipo de soluci&oacute;n solo se  pueda aplicar, con resultados satisfactorios cuando se conocen las  caracter&iacute;sticas de los datos tratados. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las soluciones basadas en la utilizaci&oacute;n de una  combinaci&oacute;n de los m&eacute;todos estudiados tratan de resolver los problemas de los  restantes enfoques mencionados en la presente investigaci&oacute;n. Con este enfoque  se tratan de resolver algunos problemas, entre los que se encuentran: la  generaci&oacute;n de datos de entrenamiento con algoritmos de agrupamiento, para la  posterior utilizaci&oacute;n de estos en los algoritmos de clasificaci&oacute;n. Es decir,  est&aacute;n centradas en solucionar el problema de la ambig&uuml;edad del nombre de los  autores teniendo como base las dificultades encontradas en otros enfoques de  soluci&oacute;n. Esto hace que los resultados obtenidos con este tipo de soluci&oacute;n  muchas veces tengan mayor calidad que los resultados obtenidos con otros tipos  de soluciones. Tambi&eacute;n, debido a la utilizaci&oacute;n de diferentes m&eacute;todos de  soluci&oacute;n, se propicia la aparici&oacute;n de errores y dificultades propias de cada  uno de los tipos de soluciones estudiadas anteriormente. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La principal  importancia que tiene la desambiguaci&oacute;n del nombre de los autores es que, una  vez que cada registro en la revista cient&iacute;fica se corresponda con uno y solo  uno de los investigadores asociados a los art&iacute;culos, los resultados de las  b&uacute;squedas de informaci&oacute;n referentes a dichos autores arrojaran los resultados  correctos. Otro aspecto importante radica en la posibilidad de que los estudios  bibliom&eacute;tricos realizados sobre los metadatos de las revistas (una vez  realizado el proceso de desambiguaci&oacute;n), determinar&aacute;n con exactitud resultados  como: qu&eacute; autor es el m&aacute;s representativo del tema de estudio en cuesti&oacute;n, qu&eacute;  art&iacute;culos se deben consultar primero en la investigaci&oacute;n, entre otros resultado  de importancia. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">CONCLUSIONES</font></strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el presente  trabajo se realiz&oacute; un an&aacute;lisis cr&iacute;tico de las aproximaciones existentes en la  literatura sobre el problema de la ambig&uuml;edad del nombre de los autores en las  revistas cient&iacute;ficas. Las aproximaciones sobre la tem&aacute;tica son abordadas  utilizando cuatro enfoques, (1) usando t&eacute;cnicas de agrupamiento, (2) usando  t&eacute;cnicas de clasificaci&oacute;n, (3) usando m&eacute;todos probabil&iacute;sticos, (4) usando una combinaci&oacute;n  de los enfoques vistos anteriormente. Por otro lado, las soluciones estudiadas  tambi&eacute;n pueden dividirse de acuerdo a la naturaleza de los datos, (1)  soluciones que utilizan los metadatos de las revistas digitales, (2)  soluciones que usan la web como fuente de informaci&oacute;n.  Tambi&eacute;n se puede concluir que las aproximaciones existentes no realizan un  previo procesamiento de la informaci&oacute;n, tampoco tienen en cuenta la calidad de  los datos utilizado en las soluciones. Adem&aacute;s, ninguna de las aproximaciones  estudiadas est&aacute; orientada a las caracter&iacute;sticas del idioma espa&ntilde;ol. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Luego de la  revisi&oacute;n realizada los investigadores pretenden desarrollar un algoritmo para  solucionar el problema de la ambig&uuml;edad del nombre de los autores en las  revistas cient&iacute;ficas cubanas. Para la realizaci&oacute;n de dicho algoritmo ser&aacute;n  utilizadas t&eacute;cnicas de la miner&iacute;a de datos y elementos asociados al procesamiento  del lenguaje natural.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">REFERENCIAS    BIBLIOGR&Aacute;FICAS</font></B></font>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BEALL, J. Metadata for Name  Disambiguation and Collocation. <em>Future Internet</em> [online]. 2010.  Vol.&nbsp;2, no.&nbsp;1, p.&nbsp;1&ndash;15. DOI&nbsp;10.3390/fi2010001. Available  from: http://www.mdpi.com/1999-5903/2/1/1</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BERNARDI, R. and LE D. T.  Metadata enrichment via topic models for author name disambiguation. En: <em>Proceedings  of the 2009 international conference on Advanced language technologies for  digital libraries</em> [online]. Berlin, Heidelberg: Springer-Verlag. 2011.  p.&nbsp;92&ndash;113. ISBN&nbsp;978-3-642-23159-9. Available from: http://dl.acm.org/citation.cfm?id=2039901.2039908</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHENG Y., CHEN Z., WANG J.,  AGRAWAL A. and CHOUDHARY A. Bootstrapping Active Name Disambiguation with  Crowdsourcing. En: <em>CIKM&rsquo;13</em>. 2013. DOI&nbsp;10.1145/2505515.2507858. </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CULOTTA, A., KANANI, P., HALL,  R., WICK, M., &amp; MCCALLUM, A. Author disambiguation using error-driven  machine learning with a ranking loss function. En: <em>Sixth International  Workshop on Information Integration on the Web (IIWeb-07), Vancouver, Canada, </em>2007.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FERREIRA, A. A., VELOSO, A,  GON\CCALVES, M. A. and LAENDER, A H.F. Effective self-training author name  disambiguation in scholarly digital libraries. En: <em>Proceedings of the 10th  annual joint conference on Digital libraries</em> [online]. New York, NY, USA: ACM. 2010. pp.&nbsp;39&ndash;48.  Disponible en: http://doi.acm.org/10.1145/1816123.1816130. Gold Coast,  Queensland, Australia</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FERREIRA A. A., GON\CCALVES M.  A., ALMEIDA J. M., LAENDER A. H. F. and VELOSO A. A tool for generating  synthetic authorship records for evaluating author name disambiguation methods. <em>Inf. Sci.</em> [online]. 2012. Vol.&nbsp;206, p.&nbsp;42&ndash;62.  DOI&nbsp;10.1016/j.ins.2012.04.022. Available from: http://dx.doi.org/10.1016/j.ins.2012.04.022</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FERREIRA A. A., MACHADO T. M.  and GON&Ccedil;ALVES M. A. Improving Author Name Disambiguation with User Relevance  Feedback. <em>Journal of Information and Data Management</em> [online]. 2012.  Vol.&nbsp;3, no.&nbsp;3, p.&nbsp;332. Available from: http://seer.lcc.ufmg.br/index.php/jidm/article/view/200</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GURNEY T., HORLINGS E. and  BESSELAAR P. Author disambiguation using multi-aspect similarity indicators. <em>Scientometrics</em> [online]. 2012. Vol.&nbsp;91, no.&nbsp;2, p.&nbsp;435&ndash;449.  DOI&nbsp;10.1007/s11192-011-0589-1. Available from:  http://link.springer.com/article/10.1007/s11192-011-0589-1</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HERN&Aacute;NDEZ J. O,  Ram&iacute;rez M.a J. Q. and Ram&iacute;rez C. F. <em>Introducci&oacute;n a la Miner&iacute;a de Datos</em>. Espa&ntilde;a. PEARSON PRENTICE HALL. Segunda edici&oacute;n.  ISBN&nbsp;84-205-4091-9.     </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">  KERN R., ZECHNER M. and GRANITZER M. Model Selection Strategies for Author  Disambiguation. En: <em>Proceedings of the 2011 22nd International Workshop on  Database and Expert Systems Applications</em> [online]. Washington, DC, USA:  IEEE Computer Society. 2011. pp.&nbsp;155&ndash;159. Disponible en: <a href="http://dx.doi.org/10.1109/DEXA.2011.54">http://dx.doi.org/10.1109/DEXA.2011.54</a>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">J.PRICILLA. An Efficient  Framework for Name Disambiguation In Digital Library. <em>International Journal  Of Engineering And Computer Science</em>. 2013. Vol.&nbsp;2, no.&nbsp;4,  p.&nbsp;1097&ndash;1105. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KANG I. S., KIM P., LEE S.,  JUNG H. and YOU B. J. Construction of a large-scale test set for author  disambiguation. <em>Information Processing &amp; Management</em> [online]. 2011.  Vol.&nbsp;47, no.&nbsp;3, p.&nbsp;452&ndash;465. DOI&nbsp;10.1016/j.ipm.2010.10.001.  Available from: http://www.sciencedirect.com/science/article/pii/S0306457310000865</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LAWSON A. E., ALKHOURY S.,  BENFORD R., CLARK B. R. and FALCONER K. A. What kinds of scientific concepts  exist? Concept construction and intellectual development in college biology.  En: <em>Journal of Research in Science Teaching</em> [online]. 2000.  Vol.&nbsp;37, no.&nbsp;9, pp.&nbsp;996&ndash;1018.  </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DOI&nbsp;10.1002/1098-2736(200011)37:9&lt;996::AID-TEA8&gt;3.0.CO;2-J.  Disponible en: http://onlinelibrary.wiley.com/doi/10.1002/1098-2736(200011)37:9&lt;996::AID-TEA8&gt;3.0.CO;2-J/abstract. </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIN Q., WANG B., DU Y., WANG X.,  LI Y. and CHEN S. Disambiguating Authors by Pairwise Classification. <em>Tsinghua  Science &amp; Technology</em> [online]. 2010. Vol.&nbsp;15, no.&nbsp;6,  p.&nbsp;668&ndash;677. DOI&nbsp;10.1016/S1007-0214(10)70114-0. Available from: <a href="http://www.sciencedirect.com/science/article/pii/S1007021410701140">http://www.sciencedirect.com/science/article/pii/S1007021410701140</a></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LI S., CONG G. and MIAO C.  Author name disambiguation using a new categorical distribution similarity. En: <em>Proceedings of the 2012 European conference on Machine Learning and  Knowledge Discovery in Databases - Volume Part I</em> [online]. Berlin,  Heidelberg&nbsp;: Springer-Verlag. 2012. p.&nbsp;569&ndash;584. ECML PKDD&rsquo;12.  ISBN&nbsp;978-3-642-33459-7. Available from:  http://dx.doi.org/10.1007/978-3-642-33460-3_42</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M.D, Dr PRAKASH M. N. What Is  Metadata? En: <em>Metadata-driven Software Systems in Biomedicine</em> [online].  S.l.: Springer London. Health  Informatics. 2011. pp.&nbsp;1&ndash;16. ISBN&nbsp;978-0-85729-509-5,  978-0-85729-510-1. Disponible en: http://link.springer.com/chapter/10.1007/978-0-85729-510-1_1. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">P&Eacute;REZ N. E. M.  La bibliograf&iacute;a, bibliometr&iacute;a y las ciencias afines. En: <em>ACIMED</em> [online]. 2002. Vol.&nbsp;10, no.&nbsp;3, pp.&nbsp;1&ndash;2. Disponible en:  http://scielo.sld.cu/scielo.php?pid=S1024-94352002000300001&amp;script=sci_arttext. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TANG J., ZHANG J, ZHANG D and  LI, J. A unified framework for name disambiguation. En: <em>Proceedings of the  17th international conference on World Wide Web</em> [online]. New York, NY, USA: ACM. 2008. pp.&nbsp;1205&ndash;1206.  Disponible en: http://doi.acm.org/10.1145/1367497.1367728.    <br>   Beijing, China.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TORVIK V. I., WEEBER M.,  SWANSON D. R. and SMALHEISER N. R. A probabilistic similarity metric for  Medline records: A model for author name disambiguation: Research Articles. En: <em>J. Am. Soc. Inf. Sci. Technol.</em> [online]. January 2005. Vol.&nbsp;56,  no.&nbsp;2, pp.&nbsp;140&ndash;158. DOI&nbsp;10.1002/asi.v56:2.  Disponible en: http://dx.doi.org/10.1002/asi.v56:2. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">TREERATPITUK P. and GILES, C.  L. Disambiguating authors in academic publications using random forests. En: <em>Proceedings  of the 9th ACM/IEEE-CS joint conference on Digital libraries</em> [online]. New York, NY, USA: ACM. 2009. pp.&nbsp;39&ndash;48.  Disponible en: <a href="http://doi.acm.org/10.1145/1555400.1555408">http://doi.acm.org/10.1145/1555400.1555408</a>. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VILARES J. El  modelo probabil&iacute;stico: caracter&iacute;sticas y modelos derivados. En: <em>Revista  General de Informaci&oacute;n y Documentaci&oacute;n</em> [online]. 2009. Vol.&nbsp;18,  pp.&nbsp;345 &ndash; 363. DOI&nbsp;-. Disponible en:  http://revistas.ucm.es/index.php/RGID/article/view/RGID0808110345A. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VELOSO A., FERREIRA A. A.,  GON\CCALVES M. A., LAENDER A. H. F. and MEIRA, JR., W. Cost-effective on-demand  associative author name disambiguation. <em>Inf. Process. Manage.</em> [online].  2012. Vol.&nbsp;48, no.&nbsp;4, p.&nbsp;680&ndash;697.  DOI&nbsp;10.1016/j.ipm.2011.08.005. Available from:  http://dx.doi.org/10.1016/j.ipm.2011.08.005</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WANG J., BERZINS K., HICKS D.,  MELKERS J., XIAO, F. and PINHEIRO D. A boosted-trees method for name  disambiguation. <em>Scientometrics</em> [online]. 2012. Vol.&nbsp;93, no.&nbsp;2,  p.&nbsp;391&ndash;411. DOI&nbsp;10.1007/s11192-012-0681-1. Available from:  http://dx.doi.org/10.1007/s11192-012-0681-1</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG K. H., PENG H. T., JIANG J.  Y., LEE H. M. and HO J. M.. Author Name Disambiguation for Citations Using  Topic and Web Correlation. En: <em>Proceedings of the 12th European conference  on Research and Advanced Technology for Digital Libraries</em> [online]. Berlin,  Heidelberg: Springer-Verlag. 2008. pp.&nbsp;185&ndash;196. Disponible en: <a href="http://dx.doi.org/10.1007/978-3-540-87599-4_19">http://dx.doi.org/10.1007/978-3-540-87599-4_19</a>. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHU J., FUNG G. and WANG L.  Efficient Name Disambiguation in Digital Libraries. En: <em>Web-Age Information  Management</em> [online]. 2011. Springer Berlin Heidelberg. p.&nbsp;430&ndash;441.  Lecture Notes in Computer Science, 6897. ISBN&nbsp;978-3-642-23534-4,  978-3-642-23535-1. Available from: http://link.springer.com/chapter/10.1007/978-3-642-23535-1_37 </font></p>     <p align="left">     <p>&nbsp;</p>     <p>&nbsp;</p>     <p align="left">     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 14/11/2013       <br>   Aceptado: 24/06/2014  </font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BEALL]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Metadata for Name Disambiguation and Collocation. Future Internet]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>2</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-15</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BERNARDI]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[LED]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Metadata enrichment via topic models for author name disambiguation.]]></source>
<year>2011</year>
<page-range>92-113</page-range><publisher-loc><![CDATA[^eBerlin Berlin]]></publisher-loc>
<publisher-name><![CDATA[Heidelberg: Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHENG]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[AGRAWAL]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[CHOUDHARY]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Bootstrapping Active Name Disambiguation with Crowdsourcing.]]></source>
<year>2013</year>
<publisher-name><![CDATA[En: CIKM&#8217;13]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CULOTTA]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[KANANI]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[HALL]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[WICK]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[MCCALLUM]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Author disambiguation using error-driven machine learning with a ranking loss function.]]></source>
<year>2007</year>
<publisher-loc><![CDATA[^eVancouver Vancouver]]></publisher-loc>
<publisher-name><![CDATA[En: Sixth International Workshop on Information Integration on the Web (IIWeb-07)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FERREIRA]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[VELOSO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[GON\CCALVES]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[LAENDER]]></surname>
<given-names><![CDATA[A H.F]]></given-names>
</name>
</person-group>
<source><![CDATA[Effective self-training author name disambiguation in scholarly digital libraries]]></source>
<year>2010</year>
<page-range>39-48</page-range><publisher-loc><![CDATA[Gold Coast^eQueensland Queensland]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 10th annual joint conference on Digital libraries. New York, NY, USA: ACM.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FERREIRA]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[GON\CCALVES]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[ALMEIDA]]></surname>
<given-names><![CDATA[J. M]]></given-names>
</name>
<name>
<surname><![CDATA[LAENDER]]></surname>
<given-names><![CDATA[A. H. F]]></given-names>
</name>
<name>
<surname><![CDATA[VELOSO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A tool for generating synthetic authorship records for evaluating author name disambiguation methods. Inf. Sci.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>206</volume>
<page-range>42-62</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FERREIRA]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[MACHADO]]></surname>
<given-names><![CDATA[T. M]]></given-names>
</name>
<name>
<surname><![CDATA[GONÇALVES]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improving Author Name Disambiguation with User Relevance Feedback.]]></article-title>
<source><![CDATA[Journal of Information and Data Management]]></source>
<year></year>
<volume>3</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>332</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GURNEY]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[HORLINGS]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[BESSELAAR]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Author disambiguation using multi-aspect similarity indicators.]]></article-title>
<source><![CDATA[Scientometrics]]></source>
<year></year>
<volume>91</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>435-449</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[J. O]]></given-names>
</name>
<name>
<surname><![CDATA[Ramírez M.a]]></surname>
<given-names><![CDATA[J. Q]]></given-names>
</name>
<name>
<surname><![CDATA[Ramírez]]></surname>
<given-names><![CDATA[C. F]]></given-names>
</name>
</person-group>
<source><![CDATA[Introducción a la Minería de Datos]]></source>
<year></year>
<publisher-name><![CDATA[PEARSON PRENTICE HALL]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KERN]]></surname>
</name>
<name>
<surname><![CDATA[ZECHNER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[GRANITZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Model Selection Strategies for Author Disambiguation]]></source>
<year>2011</year>
<page-range>155-159</page-range><publisher-loc><![CDATA[^eWashington, DC Washington, DC]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 2011 22nd International Workshop on Database and Expert Systems Applications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PRICILLA]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An Efficient Framework for Name Disambiguation In Digital Library]]></article-title>
<source><![CDATA[International Journal Of Engineering And Computer Science]]></source>
<year>2013</year>
<volume>2</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>1097-1105</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KANG]]></surname>
<given-names><![CDATA[I. S]]></given-names>
</name>
<name>
<surname><![CDATA[KIM]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[JUNG]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[YOU]]></surname>
<given-names><![CDATA[B. J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Construction of a large-scale test set for author disambiguation.]]></article-title>
<source><![CDATA[Information Processing & Management]]></source>
<year>2011</year>
<volume>47</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>452-465</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LAWSON]]></surname>
<given-names><![CDATA[A. E]]></given-names>
</name>
<name>
<surname><![CDATA[ALKHOURY]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[BENFORD]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[CLARK]]></surname>
<given-names><![CDATA[B. R]]></given-names>
</name>
<name>
<surname><![CDATA[FALCONER]]></surname>
<given-names><![CDATA[K. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[What kinds of scientific concepts exist? Concept construction and intellectual development in college biology.]]></article-title>
<source><![CDATA[En: Journal of Research in Science Teaching]]></source>
<year>2000</year>
<volume>37</volume>
<numero>9</numero>
<issue>9</issue>
<page-range>996-1018</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIN]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[DU]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Disambiguating Authors by Pairwise Classification.]]></article-title>
<source><![CDATA[Tsinghua Science & Technology]]></source>
<year>2010</year>
<volume>15</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>668-677</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[CONG]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[MIAO]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Author name disambiguation using a new categorical distribution similarity.]]></source>
<year>2012</year>
<page-range>569-584</page-range><publisher-loc><![CDATA[Heidelberg : Springer-Verlag^eBerlin Berlin]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 2012 European conference on Machine Learning and Knowledge Discovery in Databases - Volume Part I]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PRAKASH M]]></surname>
<given-names><![CDATA[M.D]]></given-names>
</name>
</person-group>
<source><![CDATA[What Is Metadata?]]></source>
<year>2011</year>
<page-range>1-16</page-range><publisher-name><![CDATA[En: Metadata-driven Software Systems in Biomedicine]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[N. E]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La bibliografía, bibliometría y las ciencias afines.]]></article-title>
<source><![CDATA[En: ACIMED]]></source>
<year>2002</year>
<volume>10</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>1-2</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[A unified framework for name disambiguation.]]></source>
<year>2008</year>
<page-range>1205-1206</page-range><publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 17th international conference on World Wide Web]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TORVIK]]></surname>
<given-names><![CDATA[V. I]]></given-names>
</name>
<name>
<surname><![CDATA[WEEBER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[SWANSON]]></surname>
<given-names><![CDATA[D. R]]></given-names>
</name>
<name>
<surname><![CDATA[SMALHEISER]]></surname>
<given-names><![CDATA[N. R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[probabilistic similarity metric for Medline records: A model for author name disambiguation: Research Articles.]]></article-title>
<source><![CDATA[En: J. Am. Soc. Inf. Sci. Technol.]]></source>
<year>Janu</year>
<month>ar</month>
<day>y </day>
<volume>56</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>140-158</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TREERATPITUK]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[GILES]]></surname>
<given-names><![CDATA[C. L]]></given-names>
</name>
</person-group>
<source><![CDATA[Disambiguating authors in academic publications using random forests.]]></source>
<year>2009</year>
<page-range>39-48</page-range><publisher-loc><![CDATA[^eNew York, NY New York, NY]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VILARES]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[El modelo probabilístico: características y modelos derivados]]></article-title>
<source><![CDATA[En: Revista General de Información y Documentación]]></source>
<year>2009</year>
<volume>18</volume>
<page-range>345 - 363</page-range></nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VELOSO]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[FERREIRA]]></surname>
<given-names><![CDATA[A. A]]></given-names>
</name>
<name>
<surname><![CDATA[GON\CCALVES]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[LAENDER]]></surname>
<given-names><![CDATA[A. H. F]]></given-names>
</name>
<name>
<surname><![CDATA[MEIRA]]></surname>
<given-names><![CDATA[JR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[-effective on-demand associative author name disambiguation.]]></article-title>
<source><![CDATA[Inf. Process. Manage.]]></source>
<year>2012</year>
<volume>48</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>680-697</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[BERZINS]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[HICKS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[MELKERS]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[XIAO]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[PINHEIRO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A boosted-trees method for name disambiguation.]]></article-title>
<source><![CDATA[Scientometrics]]></source>
<year>2012</year>
<volume>93</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>391-411</page-range></nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[K. H]]></given-names>
</name>
<name>
<surname><![CDATA[PENG]]></surname>
<given-names><![CDATA[H. T]]></given-names>
</name>
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[J. Y]]></given-names>
</name>
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[H. M]]></given-names>
</name>
<name>
<surname><![CDATA[HO]]></surname>
<given-names><![CDATA[J. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Author Name Disambiguation for Citations Using Topic and Web Correlation]]></source>
<year>2008</year>
<page-range>185-196</page-range><publisher-loc><![CDATA[^eHeidelberg: Springer-Verlag Heidelberg: Springer-Verlag]]></publisher-loc>
<publisher-name><![CDATA[En: Proceedings of the 12th European conference on Research and Advanced Technology for Digital Libraries]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[FUNG]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[WANG]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Efficient Name Disambiguation in Digital Libraries.]]></source>
<year>2011</year>
<page-range>430-441</page-range><publisher-loc><![CDATA[^eSpringer Berlin Heidelberg. Springer Berlin Heidelberg.]]></publisher-loc>
<publisher-name><![CDATA[En: Web-Age Information Management]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
