<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2307-2113</journal-id>
<journal-title><![CDATA[Revista Cubana de Información en Ciencias de la Salud]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. cuba. inf. cienc. salud]]></abbrev-journal-title>
<issn>2307-2113</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias MédicasEditorial Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2307-21132018000100005</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Requerimientos para mejorar la normalización de datos en software de análisis métricos de la información]]></article-title>
<article-title xml:lang="en"><![CDATA[Requirements to improve the normalization of data in software for metric analysis of information]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Albo Hernández]]></surname>
<given-names><![CDATA[Ramón Orlando]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Guzmán Sánchez]]></surname>
<given-names><![CDATA[María Victoria]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Álvarez Díaz]]></surname>
<given-names><![CDATA[Ivet]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Bouza Figueroa]]></surname>
<given-names><![CDATA[Jesús Francisco]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Calero Ramos]]></surname>
<given-names><![CDATA[Romel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto Finlay Dpto. Inteligencia Empresarial ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Centro de Ciencias de la Complejidad C3  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2018</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2018</year>
</pub-date>
<volume>29</volume>
<numero>1</numero>
<fpage>55</fpage>
<lpage>73</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2307-21132018000100005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2307-21132018000100005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2307-21132018000100005&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Por la diversidad de formas en la entrada de los campos de autor-afiliación, la normalización de los datos bibliográficos es uno de los problemas que limitan los análisis de información métrica en tiempo de ejecución, fiabilidad de los indicadores y tamaño del corpus de datos. Este trabajo tiene como objetivo proponer los requerimientos para el mejoramiento de la normalización de datos en software de análisis métricos. Para lograr el objetivo se realizó un diagnóstico de los principales métodos y técnicas que son empleados a nivel mundial en este tipo de estudio. Como resultado principal, se relacionan los requerimientos para una aplicación de preprocesamiento automatizado de datos con fines métricos. Se proponen la base de datos, las tareas, los pasos y los algoritmos que contendrá esa aplicación. Se debe usar una combinación de algoritmos para desambiguar los campos afiliación y autor.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Due to the diversity of methods used to enter author-affiliation information, the resulting lack of standardization of bibliographic data has become one of the problems limiting analysis of metric information in terms of execution time, reliability of indicators and size of the data corpus. The purpose of the study was to propose requirements to improve data normalization in metric analysis software. To achieve this objective, a diagnosis was made of the main methods and techniques used worldwide in this type of study. The main result is the presentation of requirements to be met by an application for automated pre-processing of data for metric purposes. A proposal is made of the database, tasks, steps and algorithms that this application will contain. A combination of algorithms should be used to disambiguate author and affiliation fields.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[procesamiento de datos]]></kwd>
<kwd lng="es"><![CDATA[minería de datos]]></kwd>
<kwd lng="es"><![CDATA[bibliometría]]></kwd>
<kwd lng="es"><![CDATA[descubrimiento basado en la literatura]]></kwd>
<kwd lng="es"><![CDATA[análisis de datos]]></kwd>
<kwd lng="en"><![CDATA[data processing]]></kwd>
<kwd lng="en"><![CDATA[data mining]]></kwd>
<kwd lng="en"><![CDATA[bibliometrics]]></kwd>
<kwd lng="en"><![CDATA[literature based discovery]]></kwd>
<kwd lng="en"><![CDATA[data analysis]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <div align="left">       <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>ART&Iacute;CULO      TE&Oacute;RICO-METODOL&Oacute;GICO</b></font> </p>       <p>&nbsp;</p> </div>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="4">Requerimientos    para mejorar la normalizaci&#243;n de datos en software de an&#225;lisis m&#233;tricos    de la informaci&#243;n </font></b> </font></p>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>    <font size="4">Requirements to improve the normalization of data in software    for metric analysis of information </font></b> </font></p>     <p align="left">&nbsp; </p>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>    Ram&#243;n Orlando Albo Hern&aacute;ndez,</b><sup><b>I</b></sup><b> Mar&#237;a    Victoria Guzm&aacute;n S&aacute;nchez,</b><sup><b>I</b></sup><b> Ivet &Aacute;lvarez    D&iacute;az,</b><sup><b>I</b></sup><b> Jes&uacute;s Francisco Bouza Figueroa,</b><sup><b>I</b></sup><b>    Romel Calero Ramos</b><sup><b>II</b></sup></font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><sup>I</sup>    Instituto &quot;Finlay&quot;. Dpto. Inteligencia Empresarial. La Habana, Cuba.    ]]></body>
<body><![CDATA[<br>   <sup>II </sup>Centro de Ciencias de la Complejidad C3. M&eacute;xico.</font></p>     <p align="left">&nbsp;</p>     <p align="left">&nbsp;</p> <hr>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>RESUMEN</b>    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Por    la diversidad de formas en la entrada de los campos de autor-afiliaci&#243;n,    la normalizaci&#243;n de los datos bibliogr&#225;ficos es uno de los problemas    que limitan los an&#225;lisis de informaci&#243;n m&#233;trica en tiempo de    ejecuci&#243;n, fiabilidad de los indicadores y tama&#241;o del <i>corpus </i>de    datos. Este trabajo tiene como objetivo proponer los requerimientos para el    mejoramiento de la normalizaci&#243;n de datos en software de an&#225;lisis    m&#233;tricos. Para lograr el objetivo se realiz&#243; un diagn&#243;stico de    los principales m&#233;todos y t&#233;cnicas que son empleados a nivel mundial    en este tipo de estudio. Como resultado principal, se relacionan los requerimientos    para una aplicaci&#243;n de preprocesamiento automatizado de datos con fines    m&#233;tricos. Se proponen la base de datos, las tareas, los pasos y los algoritmos    que contendr&#225; esa aplicaci&#243;n. Se debe usar una combinaci&#243;n de    algoritmos para desambiguar los campos afiliaci&#243;n y autor. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Palabras    clave:</b> procesamiento de datos; miner&#237;a de datos; bibliometr&#237;a;    descubrimiento basado en la literatura; an&#225;lisis de datos.</font></p> <hr>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>ABSTRACT</b>    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Due    to the diversity of methods used to enter author-affiliation information, the    resulting lack of standardization of bibliographic data has become one of the    problems limiting analysis of metric information in terms of execution time,    reliability of indicators and size of the data corpus. The purpose of the study    was to propose requirements to improve data normalization in metric analysis    software. To achieve this objective, a diagnosis was made of the main methods    and techniques used worldwide in this type of study. The main result is the    presentation of requirements to be met by an application for automated pre-processing    of data for metric purposes. A proposal is made of the database, tasks, steps    and algorithms that this application will contain. A combination of algorithms    should be used to disambiguate author and affiliation fields. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Key    words:</b> data processing; data mining; bibliometrics; literature based discovery;    data analysis.</font></p> <hr>     <p align="left">&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">INTRODUCCI&#211;N</font></b>    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Existen    tres tipos de conceptos cient&#237;ficos: clasificatorios, comparativos y m&#233;tricos.    Los dos primeros son cualitativos, mientras que los m&#233;tricos son cuantitativos.    La obtenci&#243;n de conceptos cuantitativos se basa en la medici&#243;n de    las magnitudes correspondientes.<sup>1</sup> En ese sentido, formar conceptos    cuantitativos en ciencias sociales, y espec&#237;ficamente en la Ciencia de    la Informaci&#243;n, radica en llevar los conceptos cualitativos a cuantitativos;    es decir, en buscar unidades de medici&#243;n para las diferentes problem&#225;ticas    asociadas a las actividades informativas, como lo son los an&#225;lisis asociados    al estudio de la actividad cient&#237;fica y tecnol&#243;gica a diversos niveles    de complejidad. Es por eso, que se trata de identificar el desarrollo cient&#237;fico    de un pa&#237;s, representar un dominio del conocimiento, caracterizar los flujos    en la colaboraci&#243;n, etc., a partir de indicadores m&#233;tricos como conteo    de art&#237;culos, conteo de patentes o la cantidad de colaboraci&#243;n que    registra una instituci&#243;n, entre otras magnitudes.<sup>2</sup> </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> La    obtenci&#243;n de conceptos m&#233;tricos tiene en la actualidad varias acepciones,    como bibliometr&#237;a, informetr&#237;a, cienciometr&#237;a, patentometr&#237;a,    etc. en funci&#243;n del objeto y del tema de estudio de cada una de ellas.    Sin embargo, de forma general se podr&#237;a plantear que las metr&#237;as son    una disciplina instrumental, que aplica indicadores m&#233;tricos a la informaci&#243;n    registrada en diferentes soportes, empleando t&#233;cnicas provenientes de cualquier    algoritmo de an&#225;lisis y visualizaci&#243;n; es decir, implica la aplicaci&#243;n    de un algoritmo a cualquier conjunto de datos con significado. Este conjunto    de datos est&#225; contenido en un soporte y proviene de una fuente determinada    como bases de datos (BD) digitales o en papel. Igualmente, estos soportes tienen    diversas estructuras y prop&#243;sitos. En este trabajo, se abordar&#225;n las    problem&#225;ticas asociadas a las BD digitales de tipo bibliogr&#225;fico,    independientemente de su contenido (biol&#243;gicas, de patentes, prensa, etc&#233;tera).    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Estas    BD tienen una gran probabilidad de registrar datos &quot;sucios&quot; o con    &quot;ruido&quot;, por la manera en que se recoge la informaci&#243;n, los diferentes    formatos de las citas, las violaciones de las restricciones de integridad y    de los est&#225;ndares, los nombres de autores muy frecuentes o ambiguos, las    abreviaturas de los nombres de las fuentes de publicaci&#243;n y los grandes    vol&#250;menes de datos de las citaciones, etc&#233;tera. La ambig&#252;edad    en los nombres de los autores en las bases de datos bibliogr&#225;ficas ha sido    reconocida desde hace tiempo como un problema importante. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    resultado de los an&#225;lisis m&#233;tricos a partir de estos valores con &quot;ruido&quot;    puede llevar a interpretaciones err&#243;neas y poco realistas. Igualmente,    puede conducir a encubrir patrones de comportamiento &#250;tiles que est&#225;n    escondidos en los datos, as&#237; como a un bajo rendimiento y a una baja calidad    en las salidas. Todos estos elementos son causas importantes para concentrar    esfuerzos en la preparaci&#243;n de datos. Esta problem&#225;tica coincide con    lo reportado en la literatura consultada.<sup>3-6</sup> Seg&#250;n <i>Spinak<sup>7</sup></i>    y <i>Lardy,</i><sup>8 </sup>estos problemas constituyen un importante inconveniente    para la explotaci&#243;n m&#233;trica de las BD. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Para    nombrar la etapa de preprocesamiento de datos suelen utilizarse indistintamente    t&#233;rminos como preprocesamiento, normalizaci&#243;n y preparaci&#243;n de    datos. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En    resumen, el preprocesamiento de los datos contenidos en las BD, hasta el momento    actual, tiene las siguientes limitaciones y particularidades: </font></p>     <blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 1. Existen numerosas      causas que provocan &quot;suciedad&quot; en los registros de los sistemas,      lo que trae como consecuencia que haya gran cantidad de datos almacenados      que carecen de la calidad adecuada para ser utilizados de forma confiable      y se hace necesario tratarlos de diferentes formas. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 2. La limpieza      de datos se divide en varios pasos: separar elementos, estandarizar, verificar,      comparar, agrupar y documentar. </font></p>       ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 3. La correcci&#243;n      de datos incluye la eliminaci&#243;n de registros duplicados o con valores      inv&#225;lidos. En muchos casos, la informaci&#243;n y el conocimiento disponibles      son insuficientes para determinar las transformaciones necesarias para eliminar      las anomal&#237;as; solo nos queda la eliminaci&#243;n de esos registros como      &#250;nica soluci&#243;n pr&#225;ctica, a pesar de que puede conducir a la      p&#233;rdida de informaci&#243;n. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 4. Es la etapa      en la que el analista invierte mayor cantidad de tiempo y esfuerzo. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 5. Es altamente      costoso en tiempo de c&#243;mputo. </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Actualmente,    los problemas en las BD pueden ser reconocidos y resueltos de dos maneras: </font></p>     <blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> a) Manualmente      con la participaci&#243;n de un especialista. Gran parte de las tareas de      esta etapa se realizan de forma manual o con muy bajo nivel de automatizaci&#243;n      por expertos en el tema en cuesti&#243;n, ya que se requiere conocimiento      previo del tema y determinada pericia y habilidades.<sup>9</sup> </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> b) Automatizadamente,      en menor o mayor grado, con la utilizaci&#243;n de herramientas para la detecci&#243;n      de los valores particulares que est&#225;n en contradicci&#243;n con algunas      dependencias funcionales impl&#237;citas en la BD.<sup>10</sup> Sin embargo,      las herramientas de software que existen orientadas al an&#225;lisis m&#233;trico      no tienen suficientemente soportado el preprocesamiento. </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Ante    el contexto explicado anteriormente, este trabajo se ha trazado como objetivo    proponer los requerimientos para mejorar la normalizaci&#243;n de datos en software    de an&#225;lisis m&#233;trico. </font></p>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">FUNDAMENTACI&#211;N    DEL M&#201;TODO PROPUESTO</font></b> </font></p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> DIAGN&#211;STICO    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Se    realiz&#243; un diagn&#243;stico de los m&#233;todos y las tendencias empleadas    en el preprocesamiento de datos. Con este fin se hizo una b&#250;squeda en la    BD multidisciplinar Scopus y se obtuvieron 486 registros en el per&#237;odo    1985-2015. La estrategia seguida fue buscar los posibles t&#233;rminos asociados    al objeto de estudio, ya que no hay un descriptor &#250;nico definido para esta    &#225;rea del conocimiento. Este an&#225;lisis sirvi&#243; de base para identificar    el campo de investigaci&#243;n y los algoritmos que pueden utilizarse para el    preprocesamiento. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Los    486 documentos fueron analizados usando la t&#233;cnica de an&#225;lisis documental    cl&#225;sico. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Sobre    la base de los m&#233;todos usados a nivel internacional para el preprocesamiento    y los algoritmos que se describen, se obtuvieron como resultados los requerimientos    fundamentales que debe poseer una aplicaci&#243;n inform&#225;tica para el preprocesamiento    de datos. Se explican el dise&#241;o de la base de datos, las tareas que la    aplicaci&#243;n debe realizar y c&#243;mo se articulan. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    mapa obtenido fue procesado siguiendo la metodolog&#237;a ViBlioSOM, la cual    permiti&#243;, a partir del algoritmo de los Mapas Auto-Organizados (SOM o <i>Self-Organizing    Maps</i>), organizar la informaci&#243;n de entrada de forma autom&#225;tica    y visualizar relaciones importantes entre los datos. En este caso se representan    los descriptores asociados a los art&#237;culos analizados. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    mapa representado en la <a href="#f1">figura 1</a> permite apreciar que las    t&#233;cnicas de preprocesamiento de datos van desde los &#225;rboles de decisi&#243;n    (<i>Decision Trees</i>, <i>cluster</i> C8) hasta los algoritmos gen&#233;ticos    (<i>Genetic Algorithms</i>, <i>cluster</i> C2). Se pueden identificar otras    t&#233;cnicas como <i> Artificial Neural Networks, Association Rule Mining,    Bayes Theorem, Clustering, Discretizations, Heuristic Methods, Hierarchical    Systems, Feature Selection, Learning Algorithms and Machine-Learning </i> .    Estas t&#233;cnicas se enmarcan en el campo de la inteligencia artificial y    se aplican principalmente para la desambiguaci&#243;n de los datos de autor    y afiliaci&#243;n, as&#237; como para el procesamiento del lenguaje natural    en el tratamiento de textos. </font></p>     <blockquote>        <p align="center"><img src="/img/revistas/ics/v29n1/f01_1184.jpg" width="573" height="640"><a name="f1"></a><font face="Verdana, Arial, Helvetica, sans-serif" size="2">      </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> En    el mapa no se aprecian de forma expl&#237;cita aquellas t&#233;cnicas que se    enmarcan dentro de la estad&#237;stica y que fundamentalmente se aplican para    el tratamiento de errores y soluci&#243;n de conflictos; es decir, para el tratamiento    de faltantes, valores at&#237;picos, duplicados y datos con ruido, aunque todas    estas t&#233;cnicas se encuentran muy interrelacionadas entre s&#237;. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> En    la BD analizada no se encontraron estudios en Cuba que abordaran las problem&#225;ticas    relacionadas con el preprocesamiento de datos enfocado a las metr&#237;as. Esto    contrasta con el aumento que se reporta en la literatura, en el uso de t&#233;cnicas    m&#233;tricas y su nivel actual de aplicabilidad (estudios de inteligencia,    vigilancia cient&#237;fico-tecnol&#243;gica, evaluaci&#243;n de proyectos, etc&#233;tera).<sup>2</sup>    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">CAMPOS    DE LAS BASES DE DATOS BIBLIOGR&#193;FICAS A NORMALIZAR </font></p>     ]]></body>
<body><![CDATA[<p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">En    el <a href="#t1">cuadro 1</a> se detallan los campos a normalizar y los tipos    de estudios m&#233;tricos relacionados. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los    campos procedentes de las BD bibliogr&#225;ficas que tienen alta relevancia    y mayor necesidad de preprocesamiento para los estudios m&#233;tricos son los    autores, la afiliaci&#243;n de procedencia del autor o signatario de una patente,    as&#237; como los datos de car&#225;cter tem&#225;tico (descriptores, t&#233;rminos    MeSH o Medical Subject Headings, temas, etc&eacute;tera).<sup>11</sup><a></a>    <a></a></font></p>     <blockquote>        <p align="center"><img src="/img/revistas/ics/v29n1/c01_1184.gif" width="540" height="421"><a name="t1"></a></p> </blockquote>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">M&#201;TODOS    GENERALES PARA EL PREPROCESAMIENTO DE LOS DATOS </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Los    mejores resultados de los m&#233;todos y algoritmos de preprocesamiento dependen    de la naturaleza de cada conjunto de datos. El papel que juega la experiencia    del analista de datos tambi&#233;n es relevante. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A    continuaci&#243;n se explican los m&#233;todos generales identificados que fueron    apropiados y factibles de emplear en este estudio. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>    M&#233;todos para la desambiguaci&#243;n de los datos &quot;autor&quot; y &quot;afiliaci&#243;n    del autor&quot; </b> </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    problema de asociar los nombres con las entidades reales es conocido como desambiguaci&#243;n    de nombres. La desambiguaci&#243;n de los nombres de los autores es un proceso    que pretende simult&#225;neamente separar los casos de nombres ambiguos referidos    a individuos diferentes y fusionar los casos de variantes de nombres referidos    a un mismo individuo. El problema de la desambiguaci&#243;n de los nombres de    autores comprende: </font></p>     <blockquote>        <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 1. <i>Sinonimia:</i>      un mismo individuo puede publicar con m&#250;ltiples nombres. Esto incluye:      <br/>     </font></p>       <blockquote>          ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> a) Variantes        ortogr&#225;ficas y cambios de letras. </font></p>         <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> b) Errores        mecanogr&#225;ficos. </font></p>         <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> c) Cambios        de nombre en el tiempo como ocurre por matrimonios, divorcios, conversi&#243;n        religiosa o cambio de sexo. </font></p>         <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> d) Uso de        seud&#243;nimos, alias y variantes de los nombres y apellidos. </font></p>   </blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">2. <i>Homonimia:</i>      muchos individuos diferentes tienen el mismo nombre. <br/>     </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 3. Los metadatos      necesarios a menudo est&#225;n incompletos o faltan. <br/>     </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 4. Muchas publicaciones      tienen varios autores, quienes adem&#225;s representan m&#250;ltiples instituciones.      </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    campo &quot;afiliaci&#243;n institucional&quot; presenta una ambig&#252;edad    an&#225;loga. Muchas afiliaciones pueden aparecer con variantes distintas en    la BD. Tambi&#233;n se producen ambig&#252;edades producto de la jerarqu&#237;a,    ya que algunas instituciones pertenecen a otras y pueden interpretarse como    si fueran distintas. El amplio uso de acr&#243;nimos y siglas para identificar    las instituciones tambi&#233;n es origen de ambig&#252;edades. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> La    desambiguaci&#243;n de los nombres de los autores y afiliaciones es un paso    fundamental para la identificaci&#243;n de los dominios del conocimiento y para    otros an&#225;lisis m&#233;tricos.<sup>12</sup> En este estudio se comprob&#243;    que no existe un m&#233;todo de desambiguaci&#243;n que deba ser tomado como    paradigma. Cada tarea de investigaci&#243;n, cada base de datos, cada conjunto    de datos tiene sus particularidades propias. Debe buscarse la flexibilidad del    m&#233;todo y el balance conveniente entre exactitud, escalabilidad y tiempo    de c&#243;mputo. Adem&#225;s, se apreci&#243; c&#243;mo cada uno de los distintos    autores consultados experimenta diversas variantes y enfoques, combinando diferentes    funciones y algoritmos de desambiguaci&#243;n en distintas BD y luego comparan    la eficiencia y los resultados obtenidos por otros autores con los propios.    El <a href="#c2">cuadro 2</a> incluye un resumen de los m&#233;todos que aparecen    en la literatura sobre la desambiguaci&#243;n de nombres. </font></p>     <blockquote>        ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/ics/v29n1/c02_1184.gif" width="540" height="1125"><a name="c2"></a></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Una    de las propuestas m&#225;s usadas es la de <i>Torvik,</i><sup>12</sup> quien    plantea que la mayor&#237;a de los m&#233;todos de desambiguaci&#243;n resumen    las puntuaciones de todas las caracter&#237;sticas en un solo n&#250;mero, que    indica el grado de similitud de un par de art&#237;culos. <i>Torvik</i><sup>26</sup>    elabor&#243; un modelo para generar autom&#225;ticamente los conjuntos de datos    para entrenamiento y posterior estimaci&#243;n de la probabilidad, de que un    par de art&#237;culos de Medline que poseen el mismo apellido y la primera letra    del nombre son del mismo autor, basados en otros metadatos (t&#237;tulo, nombre    de la publicaci&#243;n, MeSH, coautores, afiliaci&#243;n).<sup>11,27 </sup>    </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Han,    Zha y Giles</i><sup>15</sup> consideran que la aplicaci&#243;n &quot;k-way&quot;    del m&#233;todo de clusterizaci&#243;n espectral con descomposici&#243;n QR,    brinda mejores resultados que los m&#233;todos tradicionales de clusterizaci&#243;n    que, por ejemplo, el k-medias (k-means). <i>Giles</i> y otros<sup>16</sup> aplican    primero un m&#233;todo de poda por autor y luego una clusterizaci&#243;n empleando    como funci&#243;n de distancia SVM. Por otra parte, <i>Bhattacharya</i><sup>12</sup>    propone una adaptaci&#243;n de Asignaci&#243;n Dirichlet Latente (LDA). Los    autores pueden pertenecer a uno o varios grupos de individuos que tienden a    escribir juntos. Este m&#233;todo descubre simult&#225;neamente <i>clusters</i>    de autores-individuos y <i>clusters</i> de art&#237;culos, lo cual tiene un    alto costo computacional. Emplean un m&#233;todo de entrenamiento no supervisado    y el algoritmo de &quot;esperanza-maximizaci&#243;n&quot; (<a href="/img/revistas/ics/v29n1/c03_1184.gif">cuadro    3</a>). Un primer paso de limpieza, estandarizaci&#243;n y poda por el campo    apellido, es propuesto por <i>Pino-Mej&#237;as</i>.<sup>20</sup> Posteriormente,    se deben realizar comparaciones entre seis campos de cada par de art&#237;culos    y se calcula un &#237;ndice de semejanza entre 1 (las cadenas son iguales) y    0 (las cadenas son totalmente distintas) empleando funciones de similitud (cadena    exacta, Levenshtein, Jaro, Winkler). El conjunto de datos obtenido se somete    a una clusterizaci&#243;n. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Al    analizar los m&#233;todos resumidos en el p&#225;rrafo anterior, se corrobora    que esos autores aplican principios comunes, los cuales deben ser tenidos en    consideraci&#243;n en las propuestas de este estudio, como son entre otros:    aplicar una &quot;limpieza&quot; previa, un mecanismo de poda para reducir la    complejidad, funciones de distancia y algoritmos de clusterizaci&#243;n. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Ordo&#241;ez</i><sup>28</sup>    ha experimentado que la mejor forma de realizar el preprocesamiento es aprovechando    las ventajas de los sistemas de gesti&#243;n de bases de datos (SGBD), como    es el lenguaje SQL (<i>Structured Query Language</i>). Este es un aspecto importante    a considerar para la aplicaci&#243;n propuesta, pues se considera m&#225;s conveniente    contar con un entorno integrado soportado sobre un SGBD a emplear aplicaciones    externas conocidas como ETL ( <i>Extract-Transform-Load</i>) concebidas para    m&#225;s amplio espectro de problemas y entornos espec&#237;ficos. </font></p>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>    <font size="3">PROPUESTA DE LOS PROCEDIMIENTOS Y M&#201;TODOS A EMPLEAR EN EL    PREPROCESAMIENTO </font> </b> </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">A    partir del an&#225;lisis de cada uno de los m&#233;todos se establecieron las    siguientes premisas, las cuales podr&#237;an ser pautas a seguir en el dise&#241;o    de la aplicaci&#243;n: </font></p>     <blockquote>        <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 1. El algoritmo      para la desambiguaci&#243;n debe poseer al menos tres componentes principales,      que se ejecutan secuencialmente: </font></p>       ]]></body>
<body><![CDATA[<blockquote>          <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Un mecanismo        de selecci&#243;n o poda (<i>blocking</i>) mediante una funci&#243;n <i>hash,        </i>para dividir el conjunto de datos y as&#237; reducir el costo computacional.        Un ejemplo de esto es el propuesto por <i>Bilenko,</i><sup>12</sup> que        separa en grupos los autores que tienen igual el apellido y la inicial del        primer nombre. </font></p>         <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">- Una funci&#243;n        de comparaci&#243;n de similitud para analizar pares de registros o cadenas.        Esta funci&#243;n debe determinar si dos registros o cadenas se refieren        a una misma entidad basados en algunos atributos o caracter&#237;sticas,        por lo que su salida debe ser una decisi&#243;n binaria (s&#237; o no) o        un &#237;ndice de semejanza, que generalmente es entre 0 y 1. Esta funci&#243;n        puede ser basada en <i>tokens</i> o en distancias de edici&#243;n. </font></p>         <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">- Un algoritmo        de clasificaci&#243;n que puede ser supervisado, no supervisado o h&#237;brido.        Algunos clasificadores supervisados como SVM y los &#225;rboles de decisi&#243;n        tambi&#233;n pueden ser usados como funci&#243;n de comparaci&#243;n.<sup>17</sup></font></p>   </blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">2. El algoritmo      para la desambiguaci&#243;n debe resumir las puntuaciones de todas las caracter&#237;sticas      para indicar el grado de similitud de un par de registros, pero teniendo en      cuenta que estas sean independientes entre s&#237;.<sup>12 </sup> </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 3. Los errores      de cambios de letra en los nombres y apellidos de los autores pueden ignorarse.      <i>Torvik</i> y <i>Smalhaiser</i><sup>22</sup> demostraron que aparecen en      aproximadamente 1,8 % en la BD Medline. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 4. La selecci&#243;n      de caracter&#237;sticas es el aspecto m&#225;s importante en el dise&#241;o      de un modelo de desambiguaci&#243;n, porque determina el l&#237;mite superior      de precisi&#243;n. Un buen criterio es emplear la mayor cantidad posible de      caracter&#237;sticas &#250;tiles disponibles, porque utilizar solamente una      o pocas caracter&#237;sticas probablemente limiten los resultados del m&#233;todo.<sup>12</sup>      </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 5. El algoritmo      de desambiguaci&#243;n debe ser lo suficientemente flexible como para que      el usuario pueda ajustarlo a las necesidades del an&#225;lisis que est&#225;      realizando, las caracter&#237;sticas del conjunto de datos, etc&#233;tera.</font></p> </blockquote>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El preprocesamiento    de los campos &quot;afiliaci&#243;n&quot; y &quot;autor&quot; es m&#225;s complejo    que el tratamiento de otros como &quot;a&#241;o&quot; y &quot;MeSH&quot;, y    puede depender de estos. Por eso, no basta con seleccionar los m&#233;todos    a emplear, sino que se requiere una secuencia l&#243;gica, en su uso, para obtener    mejores resultados. Una propuesta aparece en el <a href="/img/revistas/ics/v29n1/c04_1184.gif">cuadro    4</a>.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Se recomienda un    orden en la aplicaci&#243;n de los m&#233;todos por campos de un registro (en    este caso algunos campos de la BD Medline). Debe tenerse en cuenta que algunos    m&#233;todos requieren par&#225;metros de entrada. Por ejemplo, imputar valores    faltantes puede ser por la moda, la media, etc., un valor dado por el usuario.    </font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para realizar la    desambiguaci&#243;n se recomienda: </font></p>     <blockquote>        <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Emplear diferentes      m&#233;todos para los campos autor y afiliaci&#243;n del autor por tener caracter&#237;sticas      diferentes. Estas diferencias consisten en que el autor est&#225; compuesto      por tres campos (nombre, apellidos e iniciales), mientras que la afiliaci&#243;n      es un solo campo, pero que puede contener los datos de pa&#237;s y email.      Estos datos deben ser separados antes. Adem&#225;s, para la desambiguaci&#243;n      del campo autor se incluyen metadatos, no as&#237; para la afiliaci&#243;n      donde solamente es relevante el campo pa&#237;s, y se debe acudir a la similitud      entre cadenas. Es evidente que la desambiguaci&#243;n de la afiliaci&#243;n      debe acometerse primero, ya que aporta caracter&#237;sticas que pueden contribuir      a la desambiguaci&#243;n del autor. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Emplear procedimientos      de limpieza a los datos que van a ser desambiguados -en este caso autor y      afiliaci&#243;n- as&#237; como al resto de los campos que se van a emplear      como caracter&#237;sticas relevantes para el m&#233;todo de desambiguaci&#243;n      o sean relevantes para el estudio bibliom&#233;trico que est&#233; realizando      el usuario. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Contar con      una aplicaci&#243;n que sea suficientemente flexible, ya que no existe un      procedimiento ideal, y por eso se requiere que el usuario (que es el experto      en el dominio de los datos) pueda configurar lo que necesite. </font></p> </blockquote>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> La selecci&#243;n    de los m&#233;todos empleados en la aplicaci&#243;n se bas&#243; en los siguientes    criterios: </font></p>     <blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Que sean apropiados,      efectivos y eficientes para resolver el problema planteado. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Que est&#233;n      suficientemente documentados como para comprenderlos y emplearlos plenamente.      </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Que existan      en bibliotecas de c&#243;digo abierto y su complejidad de programaci&#243;n      no sea muy grande. </font></p>       ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Que sean flexibles      y ajustables al problema planteado. </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Para    la desambiguaci&#243;n de la afiliaci&#243;n del autor se propone emplear el    m&#233;todo de <i>Magnani </i>y <i>Montesi</i>.<sup>24</sup> Estos autores destacan    la comparaci&#243;n de nombres de empresas ( <i>Company Name Matching</i>) como    otra forma del problema de la desambiguaci&#243;n, aplicada a BD de patentes    como Amadeus y Patstat. Como resultado se obtiene el nombre legal de la empresa.    Se realiza una limpieza de los datos eliminando signos de puntuaci&#243;n, palabras    vac&#237;as, espacios m&#250;ltiples, etc&eacute;tera. Posteriormente se eliminan    filas duplicadas y se aplican a los nombres de empresas funciones de distancia    de edici&#243;n y basadas en t&#233;rminos o <i>tokens</i>. Mediante otra funci&#243;n    determinan el peso que tiene cada <i>token</i> proporcional a su significaci&#243;n    o importancia. Se emplea la t&#233;cnica de poda mediante el campo &quot;pa&#237;s&quot;    para reducir la complejidad, o sea, obteniendo primero el pa&#237;s se puede    despu&#233;s dividir en subconjuntos y disminuir el tiempo de c&#225;lculo.    </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> A    partir de los m&#233;todos estudiados y de las problem&#225;ticas del usuario,    se considera que para el caso de la desambiguaci&#243;n de nombres de autores,    el m&#233;todo m&#225;s flexible y conveniente es el de <i>Bolikovski,</i><sup>22</sup>    que consta de tres pasos: </font></p>     <blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 1. Mediante      una poda, los documentos son separados en grupos mediante una funci&#243;n      hash. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 2. Para cada      par de documentos de un mismo grupo se calcula su afinidad (semejanza) total,      que es la suma de las afinidades at&#243;micas para cada una de las caracter&#237;sticas      (atributos) a considerar. Estas, a su vez, se obtienen como resultado de una      funci&#243;n que devuelve un valor entre -1 y 1, que representa el aporte      de esa caracter&#237;stica en la comparaci&#243;n y que posteriormente se      multiplica por el peso correspondiente a esta. El valor 1 indica que seg&#250;n      esa funci&#243;n es seguro que los atributos corresponden al mismo individuo.      Un valor cero indica que esa funci&#243;n no puede determinar si esas caracter&#237;sticas      corresponden o no a una misma persona. El valor -1 indica que esos dos atributos      corresponden a dos personas distintas. Algunas caracter&#237;sticas aportan      un alto peso cuando coinciden, por ejemplo el email, pues demuestran que es      la misma persona; otras tienen una importancia d&#233;bil, por ejemplo, el      nombre de la publicaci&#243;n. A veces ocurre que una misma caracter&#237;stica      es fuerte para la coincidencia, pero d&#233;bil para la diferencia (o viceversa),      por ejemplo, el email. Un elemento importante del m&#233;todo de este autor      es que los pesos pueden ser ajustados de forma flexible; tambi&#233;n pueden      determinarse mediante una aplicaci&#243;n inform&#225;tica. El resultado de      este paso es una matriz de las afinidades totales. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 3. El &#250;ltimo      paso consiste en la clusterizaci&#243;n a partir de las matrices obtenidas      en el paso anterior y empleando el algoritmo &quot;clusterizaci&#243;n aglomerada      jer&#225;rquica con enlace simple&quot; (<i>Single-Linkage Hierarchical Agglomerative      Clustering</i>, SLHAC),<sup>23</sup> que compara con un umbral establecido.      </font></p> </blockquote>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Una    ventaja significativa en este m&#233;todo es su flexibilidad, ya que la funci&#243;n    <i>hash</i>, la funci&#243;n de similitud y el algoritmo de clusterizaci&#243;n<i>    </i>pueden ser sustituidos por otros a conveniencia. Esto permitir&#237;a adecuar    el m&#233;todo a las necesidades, experimentar diferentes variantes, nuevos    algoritmos e ir creando una base te&#243;rico-pr&#225;ctica propia en el tema    del preprocesamiento. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> DISE&#209;O    DE LA BASE DE DATOS </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Estas    recomendaciones y exigencias son espec&#237;ficas para el caso de nuestro estudio.    Son las m&#225;s importantes para el dise&#241;o de una aplicaci&#243;n inform&#225;tica    para el preprocesamiento, lo cual no excluye que se deber&#225; elaborar un    documento m&#225;s detallado y que cumpla con los requisitos de la Ingenier&#237;a    de Software para dise&#241;ar, programar y explotar dicha aplicaci&#243;n. Es    previsible que en ese proceso y con las experiencias de trabajo con la aplicaci&#243;n    se detecten aspectos que deban ser perfeccionados, m&#233;todos de programaci&#243;n    m&#225;s eficientes, rutinas y funciones existentes que pueden emplearse y otros.</font></p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    alcance de este trabajo debe contemplarse por etapas. En la primera etapa    la aplicaci&#243;n: </font></p>     <blockquote>        <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Se limitar&#225;      al preprocesamiento de datos obtenidos de la base de datos Medline en formato      XML a trav&#233;s del ViBlioSOM Software, que posee un dise&#241;o de base      de datos propio. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Se limitar&#225;      al preprocesamiento (normalizaci&#243;n seg&#250;n la metodolog&#237;a ViBlioSOM)      de los datos, sin inmiscuirse en la creaci&#243;n de la BD. </font></p>       <p> - <font face="Verdana, Arial, Helvetica, sans-serif" size="2">Funcionar&#225;      como una aplicaci&#243;n concebida para un &#250;nico usuario y una base de      datos en una red de &#225;rea local. No es relevante si se programa como una      aplicaci&#243;n web o de escritorio. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - No requerir&#225;      de medidas de seguridad contra el acceso no autorizado a la informaci&#243;n,      pero s&#237; para prevenir la posible destrucci&#243;n de la informaci&#243;n,      tales como la realizaci&#243;n de salvas, implementaci&#243;n de chequeos      de consistencia en las transacciones y la recuperaci&#243;n (<i>rollback</i>)      en caso de que no puedan ser finalizadas exitosamente, derechos limitados      para los usuarios y otras. De esta forma se garantizar&#225; una mayor confiabilidad      en los resultados de las tareas que se realizan en la aplicaci&#243;n. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Contar&#225;      con una interfaz que debe ser de f&#225;cil comprensi&#243;n, intuitiva y      amigable, acorde con los est&#225;ndares actuales, considerando que el usuario      de la aplicaci&#243;n es un trabajador de la informaci&#243;n, no necesariamente      experto en inform&#225;tica. </font></p>       <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">- Deber&#225;      brindar mensajes claros ante los errores de la aplicaci&#243;n o del usuario      y soluciones que permitan a este &#250;ltimo continuar trabajando  y no      perder la informaci&#243;n. Todos los errores deben quedar registrados. </font></p>       <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Deber&#225;      interactuar con el ViBlioSOM Software de forma modular, sin interferir en      modo alguno con su funcionamiento actual, o sea, importar&#225; los datos      desde la base de datos del mismo, los preprocesar&#225; y posteriormente los      restaurar&#225;. En dependencia de los resultados que se obtengan con esta      aplicaci&#243;n se har&#225;n sugerencias para que en el dise&#241;o de las      nuevas versiones de ViBlioSOM este m&#243;dulo de preprocesamiento est&#233;      totalmente integrado. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Se programar&#225;      en c&#243;digo abierto. Existen repositorios de algoritmos y c&#243;digo que      pueden ser valorados para emplearlos en la programaci&#243;n de la aplicaci&#243;n.      Entre estos se encuentran: </font></p>       ]]></body>
<body><![CDATA[<blockquote>          <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>SecondString:</i>        Paquete de c&#243;digo abierto en Java con t&#233;cnicas de comparaci&#243;n        aproximada de cadenas. </font></p>         <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Simmetrics:</i>        Biblioteca de c&#243;digo abierto en Java con t&#233;cnicas de similitud.        </font></p>         <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Febrl:</i>        Biblioteca de c&#243;digo abierto en Python con t&#233;cnicas de desambiguaci&#243;n.        </font></p>         <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>ATLaS:        </i> Extensi&#243;n al lenguaje SQL para potenciar funciones de agregado        y la miner&#237;a de datos. </font></p>   </blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - El SGBD a      emplear ser&#225; PostgreSQL v.8.4, por ser donde est&#225; soportado el ViBlioSOM      y que garantiza que el mayor procesamiento sea realizado en el lado del servidor.      Este posee el lenguaje PL/pgSQL, que es tambi&#233;n de c&#243;digo abierto      y con amplias posibilidades, como es su extensibilidad con Java, Python y      otros lenguajes. Adem&#225;s, entre sus ventajas cuenta con facilidades para      manipular arreglos, que en nuestra aplicaci&#243;n son necesarios para crear      las matrices de similitud y procesamiento de tokens. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Aunque no      tendr&#225; exigencias cr&#237;ticas en cuanto al desempe&#241;o, se tratar&#225;      de disminuir lo m&#225;s posible los tiempos de ejecuci&#243;n, emplear las      potencialidades de c&#225;lculo del servidor, racionalizar la escritura en      disco y tomar otras medidas en la programaci&#243;n (<a href="#f2">Fig. 2</a>).      </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - La aplicaci&#243;n      tendr&#225; como objetivo principal mejorar el preprocesamiento de los datos      en una metodolog&#237;a tomada como marco de referencia como el ViBlioSOM.      Otro objetivo ser&#225; obtener una plataforma de desarrollo y experimentaci&#243;n      que permitan evaluar las potencialidades y resultados de los diversos algoritmos      y m&#233;todos para el preprocesamiento. Este trabajo permitir&#225; desarrollar      una concepci&#243;n propia sobre este tema. </font></p>       <blockquote>          <p align="center"><img src="/img/revistas/ics/v29n1/f02_1184.jpg" width="549" height="877"><a name="f2"></a></p>   </blockquote> </blockquote>     ]]></body>
<body><![CDATA[<p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">CONCLUSIONES    </font> </b> </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> La    propuesta de un algoritmo para el preprocesamiento de los campos &quot;autor-afiliaci&#243;n&quot;    con un enfoque m&#233;trico y que adem&#225;s pudiera ser implementado en un    sistema de an&#225;lisis m&#233;trico de la informaci&#243;n, no es un problema    trivial. Sobre este tema se tiene poco conocimiento acumulado a nivel internacional    y en Cuba no se encontraron documentos publicados sobre el tema. Esto permiti&#243;    constatar que, a pesar del aumento en el uso de las metr&#237;as, el desarrollo    de aplicaciones que solucionen los problemas de preprocesamiento de datos no    ha sido abordado, por lo que las t&#233;cnicas para el preprocesamiento de datos    en su sentido m&#225;s amplio, no est&#225;n siendo aprovechadas suficientemente    en Cuba para fines m&#233;tricos. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> El    estudio de la literatura sobre preprocesamiento ha permitido establecer que    esta puede definirse como un proceso dirigido a las transformaciones &#243;ptimas    de los datos, destinados a la obtenci&#243;n de un conocimiento significativo    y puede estar compuesta por uno o varios m&#233;todos. Aunque el preprocesamiento    est&#225; asociado con la aplicaci&#243;n inform&#225;tica de algoritmos matem&#225;ticos,    tambi&#233;n est&#225; vinculada a un proceso cognitivo en cuanto a su prop&#243;sito    de &#8220;descubrir un conocimiento nuevo&#8221;. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Los    an&#225;lisis m&#233;tricos pueden mejorar sus resultados al emplear estad&#237;grafos    antes de tomar decisiones de transformaci&#243;n o eliminaci&#243;n de los datos,    as&#237; como aplicar m&#233;todos para la desambiguaci&#243;n de los nombres    de autores y afiliaciones, como soluci&#243;n a uno de los problemas que m&#225;s    deterioran la calidad de los estudios m&#233;tricos. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Un    enfoque viable para optimizar el preprocesamiento de datos para los estudios    m&#233;tricos puede ser como el que aqu&#237; se propone: modular, basado en    las potencialidades del SGBD, aprovechando el c&#243;digo abierto existente,    configurable y flexible y donde el especialista en informaci&#243;n no pierda    el control de lo que est&#225; sucediendo. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Se    logr&#243; establecer un grupo de requerimientos al dise&#241;o de una aplicaci&#243;n    inform&#225;tica para el preprocesamiento de los datos que puede estar conformada    por un conjunto de tareas, pasos y algoritmos. Se sugiere usar no un solo algoritmo,    sino una combinaci&#243;n de estos para llegar a desambiguar el campo afiliaci&#243;n    y autor. Estos pueden ser seleccionados en funci&#243;n de los datos y las necesidades    del usuario. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para    otras etapas de desarrollo de la aplicaci&#243;n se recomienda<a>:</a> </font></p>     <blockquote>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Considerar      la necesidad de procesar otras bases de datos bibliogr&#225;ficas. </font></p>       ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Considerar      el procesamiento paralelo (por ejemplo, Google's Map Reduce). </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Considerar      la posibilidad de trabajo en grupo. </font></p>       <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> - Extender el      preprocesamiento a otros campos (por ejemplo, t&#237;tulos, res&#250;menes,      etc&#233;tera). </font></p> </blockquote>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Contribuci&#243;n    de los autores</strong> </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Ram&#243;n    Albo</i> determin&#243; el tema, dise&#241;&#243; el estudio, analiz&#243; los    datos, propuso la soluci&#243;n, redact&#243; las versiones;</font><i><font face="Verdana, Arial, Helvetica, sans-serif" size="2">    </font></i><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Mar&#237;a    Victoria Guzm&#225;n </i>determin&#243; el tema, dise&#241;&#243; el estudio,    redact&#243; y revis&#243; las versiones; </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Romel    Calero, Ivet &#193;lvarez y Jes&#250;s Bouza</i> Revisaron la soluci&#243;n    propuesta. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Todos    los autores revisaron la redacci&#243;n del manuscrito y aprueban la versi&#243;n    finalmente remitida. </font><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El    art&#237;culo no ha sido publicado previamente ni est&#225; siendo considerado    actualmente por otra publicaci&#243;n. </font></p>     <p align="left">&nbsp; </p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Conflicto    de intereses</strong> </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Los    autores declaran que no existe conflicto de intereses en el presente art&#237;culo.    </font></p>     <p align="left">&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">REFERENCIAS    BIBLIOGR&#193;FICAS </font></b></font></p>     <!-- ref --><p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 1.    Omelianovsky ME. Los m&#233;todos de la matem&#225;tica contempor&#225;nea y    la matematizaci&#243;n del saber. En: Omelianovsky ME, editor. La dial&#233;ctica    y los m&#233;todos cient&#237;ficos generales de investigaci&#243;n (Tomo I).    La Habana: Ciencias Sociales; 1981. p. 179-243.    <!-- ref --> <a> <br/>   <br/>   </a> 2. Guzm&#225;n MV. Vibliosom: Metodolog&#237;a para la visualizaci&#243;n    de informaci&#243;n m&#233;trica con mapas auto-organizados [Tesis Doctoral].    La Habana: Universidad de La Habana; 2009.    <!-- ref --> <br/>   <br/>   3. Kimball R. Dealing with dirty data. DBMS. 1996;9(10):55-60.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">4.    M&#252;ller H, Freytag JC. Problems, methods and challenges in comprehensive    data cleansing. Berlin: Professoren des Inst. F&#252;r Informatik; 2005:23.        </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">5.    Rahm E, Do HH. Data cleaning: Problems and current approaches. IEEE DEBU. 2001;23(4):3-13.        </font></p>     <!-- ref --><p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 6.    Ontalba-Ruip&#233;rez J. Normalizaci&#243;n de campos en bibliometr&#237;a:    acciones de la Fecyt. Prof Inf. 2007;16(4):381-3.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    7. Spinak E. Errores ortogr&#225;ficos en el ingreso en bases de datos. Rev    Esp Doc Cient. 1995;18(3):307-19.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">8.    Lardy J, Herzhaft L. Bibliometric treatments according to bibliographic errors    and data heterogeneity: the end-user point of view. En: 16th international online    information meeting. London. Oxford: Learned Information; 1992. p. 547-56.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">9.    Anguita A, P&#233;rez D, Crespo J, Maojo VM. Automatic generation of integration    and preprocessing ontologies for biomedical sources in a distributed scenario.    En: Proceedings of 21st International Symposium on Computer-Based Medical Systems    (CBMS-2008). Washington DC: IEEE Computer Society; 2008. p. 336-41.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    10. Zimei S. KDDML: Estensione alla fase di Preprocessing [Tesis de Grado].    Pisa: Universidad de Pisa; 2004.     </font></p>     <!-- ref --><p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 11.    Bordons M, Costas R. Algoritmos para solventar la falta de normalizaci&#243;n    de nombres de autor en los estudios bibliom&#233;tricos. Investig Bibliotecol.    2007;21(42):13-32.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    12. Smalheiser NR, Torvik VI. Author name disambiguation. Annu Rev Inform Sci.    2009;43(1):1-43.     </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 13.    Han H, Giles CL, Zha H, Li C, Tsioutsiouliklis K. Two supervised learning approaches    for name disambiguation in author citations. En: Proceedings of Joint Conference    on Digital Libraries (JCDL 2004). Tucson, EE.UU.: ACM; 2004. p. 296-305. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">14.    Han H, Zha H, Giles CL. A model-based k-means algorithm for name disambiguation.    En: Proceedings of 2nd International Semantic Web Conference (ISWC-03) Workshop    on Semantic Web Technologies for Searching and Retrieving Scientific Data. Sanibel    Island FL, Alemania: Springer; 2003. </font></p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> 15.    Giles CL, Han H, Zha H. Name disambiguation in author citations using a K-way    spectral clustering method. En: Proceedings of the 5th ACM/IEEE-CS joint conference    on digital libraries (JCDL '05). Denver, New York: ACM; 2005. p. 334-43. </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    16. Huang J, Ertekin S, Giles CL. Efficient name disambiguation for large-scale    databases. En: 10th European Conference on Principles and Practice of Knowledge    Discovery in Databases. Berlin: Humboldt-Universit&#228;t zu Berlin; 2006. p.    536&#8211;44.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">17.    Treeratpituk P, Giles CL. Disambiguating authors in academic publications using    random forests. En: Proceedings of the 9th ACM/IEEE-CS Joint Conference on Digital    Libraries (JCDL-09). New York: ACM; 2009. p. 39-48.     </font></p>     ]]></body>
<body><![CDATA[<p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    18. Ferreira AA, Veloso A, Gon&#231;alves MA, Laender AHF. Effective self-training    author name disambiguation in scholarly digital libraries. En: Proceedings of    the 10th annual joint conference on Digital libraries (JCDL'10 ). Gold Coast,    New York: ACM; 2010. p. 39-48. </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    19. Torvik VI, Smalheiser NR. Author name disambiguation in Medline. ACM Trans    Knowl Discov Data. 2009;3(3):1-29.     </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    20. Pino R, Cubiles MD, Caballero E. A comparison of probabilistic record linkage    techniques in the Institute of Statistics of Andalusia (ISI' 2011). En: 58th    World Statistics Congress of the International Statistical Institute. Dublin:    ISI; 2011. </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">21.    Jijkoun V, Khalid MA, Marx M, Rijke M. Named entity normalization in user generated    content. En: Proceedings of the second workshop on Analytics for noisy unstructured    text data (AND'08). Singapore, New York: ACM; 2008. p. 23-30. </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">22.    Bolikowski L, Dendek PJ. Towards a flexible author name disambiguation framework.    En: Sojka P, Bouche T, editores. Towards a digital mathematics library. Brno:    Masaryk University Press; 2011. p. 27-37.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    23. Manning CD, Raghavan P, Sch&#252;tze H. Introduction to information retrieval.    New York: Cambridge University Press; 2008:482.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    24. Magnani M, Montesi D. A study on company name matching for database integration.    Bologna: University of Bologna. 2007. Technical Report: UBLCS-07-15.     </font></p>     <p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    25. Ferreira AA, Laender AHF, Gon&#231;alves MA, Cota RG, Santos RLT, Silva    AJC. Keeping a digital library clean: new solutions to old problems. En: Eighth    ACM symposium on document engineering (DocEng '08); 2008 16-19 Sep, Sao Paolo.    New York: ACM; 2008. p. 257-62. </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">26.    Torvik VI, Weeber M, Swanson DR, Smalheiser NR. A probabilistic similarity metric    for Medline records: A model for author name disambiguation. J Am Soc Inf Sci    Technol. 2004;56(2):140-58.     </font></p>     <!-- ref --><p align="left"> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">    27. Costas R. An&#225;lisis bibliom&#233;trico de la actividad cient&#237;fica    de los investigadores del CSIC en tres &#225;reas: Biolog&#237;a y Biomedicina,    Ciencia de Materiales y Recursos Naturales. Una aproximaci&#243;n metodol&#243;gica    a nivel micro (Web of Science, 1994-2004) [Tesis Doctoral]. Madrid: Universidad    Carlos III; 2008.    <!-- ref --> <br/>   <br/>   28. Ordonez C. Data set preprocessing and transformation in a database system.    Intell Data Anal. 2011;15(4):613-31.     </font></p>     <p align="left">&nbsp;</p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Recibido:    15 de noviembre de 2017.    ]]></body>
<body><![CDATA[<br>   Aprobado: 16 de noviembre de 2017.</font></p>     <p align="left">&nbsp;</p>     <p align="left">&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Ram&#243;n    Orlando Albo Hern&aacute;ndez.</i> Instituto &quot;Finlay&quot;. La Habana,    Cuba. Correo electr&oacute;nico: <a href="mailto:ralbo@finlay.edu.cu">ralbo@finlay.edu.cu</a></font></p>     <p align="left">&nbsp; </p>       ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Omelianovsky]]></surname>
<given-names><![CDATA[ME]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Los métodos de la matemática contemporánea y la matematización del saber]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Omelianovsky]]></surname>
<given-names><![CDATA[ME]]></given-names>
</name>
</person-group>
<source><![CDATA[La dialéctica y los métodos científicos generales de investigación (Tomo I)]]></source>
<year>1981</year>
<page-range>179-243</page-range><publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Ciencias Sociales]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Guzmán]]></surname>
<given-names><![CDATA[MV]]></given-names>
</name>
</person-group>
<source><![CDATA[Vibliosom: Metodología para la visualización de información métrica con mapas auto-organizados]]></source>
<year>2009</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Universidad de La Habana]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kimball]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dealing with dirty data]]></article-title>
<source><![CDATA[DBMS]]></source>
<year>1996</year>
<volume>9</volume>
<numero>10</numero>
<issue>10</issue>
<page-range>55-60</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Müller]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Freytag]]></surname>
<given-names><![CDATA[JC]]></given-names>
</name>
</person-group>
<source><![CDATA[Problems, methods and challenges in comprehensive data cleansing]]></source>
<year>2005</year>
<page-range>23</page-range><publisher-name><![CDATA[Professoren des Inst. Für Informatik]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rahm]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Do]]></surname>
<given-names><![CDATA[HH]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data cleaning: Problems and current approaches]]></article-title>
<source><![CDATA[IEEE DEBU]]></source>
<year>2001</year>
<volume>23</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>3-13</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ontalba-Ruipérez]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Normalización de campos en bibliometría: acciones de la Fecyt]]></article-title>
<source><![CDATA[Prof Inf]]></source>
<year>2007</year>
<volume>16</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>381-3</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Spinak]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Errores ortográficos en el ingreso en bases de datos]]></article-title>
<source><![CDATA[Rev Esp Doc Cient]]></source>
<year>1995</year>
<volume>18</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>307-19</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lardy]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Herzhaft]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Bibliometric treatments according to bibliographic errors and data heterogeneity: the end-user point of view]]></article-title>
<source><![CDATA[16th international online information meeting]]></source>
<year>1992</year>
<page-range>547-56</page-range><publisher-loc><![CDATA[Oxford^eLondon London]]></publisher-loc>
<publisher-name><![CDATA[Learned Information]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Anguita]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Pérez]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Crespo]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Maojo]]></surname>
<given-names><![CDATA[VM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Automatic generation of integration and preprocessing ontologies for biomedical sources in a distributed scenario]]></article-title>
<source><![CDATA[Proceedings of 21st International Symposium on Computer-Based Medical Systems (CBMS-2008)]]></source>
<year>2008</year>
<page-range>336-41</page-range><publisher-loc><![CDATA[Washington^eDC DC]]></publisher-loc>
<publisher-name><![CDATA[IEEE Computer Society]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zimei]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[KDDML: Estensione alla fase di Preprocessing]]></source>
<year>2004</year>
<publisher-loc><![CDATA[Pisa ]]></publisher-loc>
<publisher-name><![CDATA[Universidad de Pisa]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bordons]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Costas]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Algoritmos para solventar la falta de normalización de nombres de autor en los estudios bibliométricos]]></article-title>
<source><![CDATA[Investig Bibliotecol]]></source>
<year>2007</year>
<volume>21</volume>
<numero>42</numero>
<issue>42</issue>
<page-range>13-32</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Smalheiser]]></surname>
<given-names><![CDATA[NR]]></given-names>
</name>
<name>
<surname><![CDATA[Torvik]]></surname>
<given-names><![CDATA[VI]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Author name disambiguation]]></article-title>
<source><![CDATA[Annu Rev Inform Sci]]></source>
<year>2009</year>
<volume>43</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-43</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Han]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Giles]]></surname>
<given-names><![CDATA[CL]]></given-names>
</name>
<name>
<surname><![CDATA[Zha]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Tsioutsiouliklis]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Two supervised learning approaches for name disambiguation in author citations]]></article-title>
<source><![CDATA[Proceedings of Joint Conference on Digital Libraries (JCDL 2004)]]></source>
<year>2004</year>
<page-range>296-305</page-range><publisher-loc><![CDATA[^eTucson Tucson]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Han]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Zha]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Giles]]></surname>
<given-names><![CDATA[CL]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A model-based k-means algorithm for name disambiguation]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Sanibel Island]]></surname>
<given-names><![CDATA[FL]]></given-names>
</name>
</person-group>
<source><![CDATA[Proceedings of 2nd International Semantic Web Conference (ISWC-03) Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data]]></source>
<year>2003</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Giles]]></surname>
<given-names><![CDATA[CL]]></given-names>
</name>
<name>
<surname><![CDATA[Han]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Zha]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Name disambiguation in author citations using a K-way spectral clustering method]]></article-title>
<source><![CDATA[Proceedings of the 5th ACM/IEEE-CS joint conference on digital libraries (JCDL /apos;05).]]></source>
<year>2005</year>
<page-range>334-43</page-range><publisher-loc><![CDATA[^eDenver^eNew York DenverNew York]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Huang]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Ertekin]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Giles]]></surname>
<given-names><![CDATA[CL]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Efficient name disambiguation for large-scale databases]]></article-title>
<source><![CDATA[10th European Conference on Principles and Practice of Knowledge Discovery in Databases]]></source>
<year>2006</year>
<page-range>536-44</page-range><publisher-name><![CDATA[Humboldt-Universität zu Berlin]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Treeratpituk]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Giles]]></surname>
<given-names><![CDATA[CL]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Disambiguating authors in academic publications using random forests]]></article-title>
<source><![CDATA[Proceedings of the 9th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL-09)]]></source>
<year>2009</year>
<page-range>39-48</page-range><publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ferreira]]></surname>
<given-names><![CDATA[AA]]></given-names>
</name>
<name>
<surname><![CDATA[Veloso]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Gonçalves]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
<name>
<surname><![CDATA[Laender]]></surname>
<given-names><![CDATA[AHF]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Effective self-training author name disambiguation in scholarly digital libraries]]></article-title>
<source><![CDATA[Gold Coast,]]></source>
<year>2010</year>
<page-range>39-48</page-range><publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Torvik]]></surname>
<given-names><![CDATA[VI]]></given-names>
</name>
<name>
<surname><![CDATA[Smalheiser]]></surname>
<given-names><![CDATA[NR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Author name disambiguation in Medline]]></article-title>
<source><![CDATA[ACM Trans Knowl Discov Data]]></source>
<year>2009</year>
<volume>3</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>1-29</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pino]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Cubiles]]></surname>
<given-names><![CDATA[MD]]></given-names>
</name>
<name>
<surname><![CDATA[Caballero]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A comparison of probabilistic record linkage techniques in the Institute of Statistics of Andalusia (ISI/apos; 2011)]]></article-title>
<source><![CDATA[58th World Statistics Congress of the International Statistical Institute]]></source>
<year>2011</year>
<publisher-loc><![CDATA[^eDublin Dublin]]></publisher-loc>
<publisher-name><![CDATA[ISI]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jijkoun]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Khalid]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
<name>
<surname><![CDATA[Marx]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Rijke]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Named entity normalization in user generated content]]></article-title>
<source><![CDATA[Proceedings of the second workshop on Analytics for noisy unstructured text data (AND/apos;08)]]></source>
<year>2008</year>
<page-range>23-30</page-range><publisher-loc><![CDATA[^eSingapore^eNew York SingaporeNew York]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bolikowski]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Dendek]]></surname>
<given-names><![CDATA[PJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Towards a flexible author name disambiguation framework]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Sojka]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Bouche]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<source><![CDATA[Towards a digital mathematics library]]></source>
<year>2011</year>
<page-range>27-37</page-range><publisher-loc><![CDATA[^eBrno Brno]]></publisher-loc>
<publisher-name><![CDATA[Masaryk University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Manning]]></surname>
<given-names><![CDATA[CD]]></given-names>
</name>
<name>
<surname><![CDATA[Raghavan]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Schütze]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to information retrieval]]></source>
<year>2008</year>
<page-range>482</page-range><publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Cambridge University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Magnani]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Montesi]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[A study on company name matching for database integration]]></source>
<year>2007</year>
<publisher-loc><![CDATA[^eBologna Bologna]]></publisher-loc>
<publisher-name><![CDATA[University of BolognaTechnical Report: UBLCS-07-15]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ferreira]]></surname>
<given-names><![CDATA[AA]]></given-names>
</name>
<name>
<surname><![CDATA[Laender]]></surname>
<given-names><![CDATA[AHF]]></given-names>
</name>
<name>
<surname><![CDATA[Gonçalves]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
<name>
<surname><![CDATA[Cota]]></surname>
<given-names><![CDATA[RG]]></given-names>
</name>
<name>
<surname><![CDATA[Santos]]></surname>
<given-names><![CDATA[RLT]]></given-names>
</name>
<name>
<surname><![CDATA[Silva]]></surname>
<given-names><![CDATA[AJC]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Keeping a digital library clean: new solutions to old problems]]></article-title>
<source><![CDATA[Eighth ACM symposium on document engineering (DocEng /apos;08); 2008 16-19 Sep, Sao Paolo]]></source>
<year>2008</year>
<page-range>257-62</page-range><publisher-loc><![CDATA[^eNew York New York]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Torvik]]></surname>
<given-names><![CDATA[VI]]></given-names>
</name>
<name>
<surname><![CDATA[Weeber]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Swanson]]></surname>
<given-names><![CDATA[DR]]></given-names>
</name>
<name>
<surname><![CDATA[Smalheiser]]></surname>
<given-names><![CDATA[NR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A probabilistic similarity metric for Medline records: A model for author name disambiguation]]></article-title>
<source><![CDATA[J Am Soc Inf Sci Technol]]></source>
<year>2004</year>
<volume>56</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>140-58</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Costas]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Análisis bibliométrico de la actividad científica de los investigadores del CSIC en tres áreas: Biología y Biomedicina, Ciencia de Materiales y Recursos Naturales. Una aproximación metodológica a nivel micro (Web of Science, 1994-2004)]]></source>
<year>2008</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Universidad Carlos III]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ordonez]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data set preprocessing and transformation in a database system]]></article-title>
<source><![CDATA[Intell Data Anal]]></source>
<year>2011</year>
<volume>15</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>613-31</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
