<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352012000400002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Reconocimiento y anotación de nombres de fármacos genéricos en la literatura biomédica]]></article-title>
<article-title xml:lang="en"><![CDATA[Recognizing and annotating generic drug names in biomedical literature]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Gálvez]]></surname>
<given-names><![CDATA[Carmen]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Departamento de Información y Comunicación de la Universidad de Granada  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>España</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2012</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2012</year>
</pub-date>
<volume>23</volume>
<numero>4</numero>
<fpage>326</fpage>
<lpage>345</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352012000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352012000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352012000400002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Este trabajo propone un sistema para la identificación y anotación de nombres de fármacos genéricos en textos biomédicos basado en modelos de estado-finito. El procedimiento presentado utiliza reglas de nomenclatura para fármacos genéricos, recomendadas por el Consejo United States Adoptated Names (USAN), que van a permitir la clasificación de los fármacos en familias farmacológicas, y una herramienta de ingeniería lingüística basada en tecnología de estado-finito. Por medio de una interfaz gráfica, se han construido analizadores capaces de identificar, clasificar y etiquetar nombres de fármacos genéricos, utilizando los afijos recomendados por USAN. El sistema consigue un 99,8 % de precisión y un 92 % de exhaustividad sobre una colección de 259 resúmenes de artículos científicos extraídos de la base de datos Medline. La combinación de reglas USAN y tecnología de estado-finito constituye un procedimiento eficaz para la detección, clasificación y etiquetado de nombres de fármacos genéricos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[This paper proposes a system for identification and annotation of generic drug names in biomedical texts based on finite-state models. The proposed procedure uses naming rules for generic drugs, recommended by the United States Adoptated Names (USAN) Council, allow the classification of drugs in drug families, and linguistic engine based on finite-state techniques. Through a graphical interface, we have built analyzers able to identify to identify, classify and assign annotations to generic drug names, using affixes recommended by USAN. The evaluation corpus consists of 256 Medline abstracts. The system achieves a 99.8% precision and 92% recall. The combination of rules USAN and finite-state technology is an effective procedure for the detection, classification and tagging of generic drug names.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[fármacos genéricos]]></kwd>
<kwd lng="es"><![CDATA[nombres de fármacos]]></kwd>
<kwd lng="es"><![CDATA[reconocimiento de entidades biomédicas]]></kwd>
<kwd lng="es"><![CDATA[interacciones farmacológicas]]></kwd>
<kwd lng="en"><![CDATA[generic drugs]]></kwd>
<kwd lng="en"><![CDATA[drug naming]]></kwd>
<kwd lng="en"><![CDATA[biomedical named entities]]></kwd>
<kwd lng="en"><![CDATA[drug-drug interactions]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO</B></font></p>    <p align="left">&nbsp;</p>    <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="4"><b>Reconocimiento  y anotaci&oacute;n de nombres de f&aacute;rmacos gen&eacute;ricos en la literatura  biom&eacute;dica </b></font></p>    <p> </p>    <p><b><font face="Verdana, Arial, Helvetica, sans-serif" size="2">    <br>      <br> <font size="3">Recognizing and annotating generic drug names in biomedical  literature     <br> </font>    <br>     <br>     ]]></body>
<body><![CDATA[<br> </font></b></p><B>     <p> </p>    <p> </p>    <p> </p>    <p>  </p></B>     <p><b><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Prof.  Carmen G&aacute;lvez</font></b></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Departamento  de Informaci&oacute;n y Comunicaci&oacute;n de la Universidad de Granada, Espa&ntilde;a.  </font></p>    <p> </p>    <p> </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>    <br>      <br> </B></font></p><hr> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>RESUMEN</B>  </font>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Este trabajo  propone un sistema para la identificaci&oacute;n y anotaci&oacute;n de nombres  de f&aacute;rmacos gen&eacute;ricos en textos biom&eacute;dicos basado en modelos  de estado-finito. El procedimiento presentado utiliza reglas de nomenclatura para  f&aacute;rmacos gen&eacute;ricos, recomendadas por el Consejo <I>United States  Adoptated Names</I> (USAN), que van a permitir la clasificaci&oacute;n de los  f&aacute;rmacos en familias farmacol&oacute;gicas, y una herramienta de ingenier&iacute;a  ling&uuml;&iacute;stica basada en tecnolog&iacute;a de estado-finito. Por medio  de una interfaz gr&aacute;fica, se han construido analizadores capaces de identificar,  clasificar y etiquetar nombres de f&aacute;rmacos gen&eacute;ricos, utilizando  los afijos recomendados por USAN. El sistema consigue un 99,8 % de precisi&oacute;n  y un 92 % de exhaustividad sobre una colecci&oacute;n de 259 res&uacute;menes  de art&iacute;culos cient&iacute;ficos extra&iacute;dos de la base de datos Medline.  La combinaci&oacute;n de reglas USAN y tecnolog&iacute;a de estado-finito constituye  un procedimiento eficaz para la detecci&oacute;n, clasificaci&oacute;n y etiquetado  de nombres de f&aacute;rmacos gen&eacute;ricos. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>Palabras  clave</B>: f&aacute;rmacos gen&eacute;ricos, nombres de f&aacute;rmacos, reconocimiento  de entidades biom&eacute;dicas, interacciones farmacol&oacute;gicas. </font></p><hr>  <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ABSTRACT</B> </font>      <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">This paper proposes  a system for identification and annotation of generic drug names in biomedical  texts based on finite-state models. The proposed procedure uses naming rules for  generic drugs, recommended by the <I>United States Adoptated Names</I> (USAN)  Council, allow the classification of drugs in drug families, and linguistic engine  based on finite-state techniques. Through a graphical interface, we have built  analyzers able to identify to identify, classify and assign annotations to generic  drug names, using affixes recommended by USAN. The evaluation corpus consists  of 256 Medline abstracts. The system achieves a 99.8% precision and 92% recall.  The combination of rules USAN and finite-state technology is an effective procedure  for the detection, classification and tagging of generic drug names. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>Key  words: </B>generic drugs, drug naming, biomedical named entities, drug-drug interactions.    <br>  </font></p><hr>     <p>    ]]></body>
<body><![CDATA[<br>     <br> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">  </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">    <br>  INTRODUCCI&Oacute;N</font></B>     <br>     <br> </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El  reconocimiento y clasificaci&oacute;n de nombres de f&aacute;rmacos constituye  la primera etapa en el desarrollo de los sistemas dirigidos a la extracci&oacute;n  autom&aacute;tica de interacciones farmacol&oacute;gicas de la literatura biom&eacute;dica.  Los &uacute;ltimos avances en biomedicina han provocado un incremento vertiginoso  del n&uacute;mero de publicaciones cient&iacute;ficas. Por este motivo, es necesario  el desarrollo de sistemas que faciliten la extracci&oacute;n de conocimiento y  un acceso eficiente a la informaci&oacute;n en el dominio de la biomedicina. La  identificaci&oacute;n, clasificaci&oacute;n y anotaci&oacute;n de las entidades  biom&eacute;dicas es el primer paso en progreso de tales sistemas. En este sentido,  la identificaci&oacute;n de nombres de f&aacute;rmacos gen&eacute;ricos es una  tarea compleja, teniendo en cuenta los problemas que implica el procesamiento  del texto farmacol&oacute;gico. </font></p>    <p> </p>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Las  interacciones farmacol&oacute;gicas est&aacute;n provocadas por modificaciones  o alteraciones cuantitativas o cualitativas del efecto de un f&aacute;rmaco, causadas  por la administraci&oacute;n simult&aacute;nea o sucesiva de otro f&aacute;rmaco,  pero tambi&eacute;n a trav&eacute;s de plantas medicinales, alimentos, bebidas  o contaminantes ambientales.<SUP>1</SUP> Esta modificaci&oacute;n suele traducirse  en una variaci&oacute;n de la intensidad, aumento o disminuci&oacute;n del efecto  habitual o en la aparici&oacute;n de un efecto distinto al esperado. El riesgo  de aparici&oacute;n de una interacci&oacute;n farmacol&oacute;gica aumenta en  funci&oacute;n del n&uacute;mero de f&aacute;rmacos administrados al mismo tiempo  a un paciente. Si un paciente que toma dos f&aacute;rmacos ve aumentado el efecto  de uno de ellos se puede caer en una situaci&oacute;n de sobredosis y, por tanto,  de mayor riesgo de que aparezcan efectos secundarios. A la inversa, si ve su acci&oacute;n  disminuida se puede encontrar ante falta de utilidad terap&eacute;utica por infradosificaci&oacute;n.  Por ejemplo, los pacientes que reciben paracetamol pueden aumentar su efecto analg&eacute;sico  si se les administra code&iacute;na. Del mismo modo, la combinaci&oacute;n de  &aacute;cido clavul&aacute;nico y la amoxicilina puede evitar la resistencia de  las bacterias al antibi&oacute;tico. As&iacute;, la polimedicaci&oacute;n facilita  la aparici&oacute;n de interacciones cuyo resultado puede ser una reacci&oacute;n  adversa o la p&eacute;rdida de efecto terap&eacute;utico; de aqu&iacute; se deduce  la importancia de la identificaci&oacute;n de interacciones en el campo de la  medicina.<SUP>2-3</SUP> </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2" color="#000000">Aunque  la incidencia de la interacci&oacute;n farmacol&oacute;gica es dif&iacute;cil  de determinar, se relaciona fundamentalmente con el n&uacute;mero de f&aacute;rmacos  administrados conjuntamente al mismo paciente. Conocer las interacciones de inter&eacute;s  cl&iacute;nico y sus mecanismos de producci&oacute;n podr&iacute;a ayudar a identificarlas  y prevenirlas. Por otra parte, la investigaci&oacute;n y el desarrollo de medicamentos  requiere esfuerzos coordinados de m&uacute;ltiples disciplinas; entre ellas, las  experimentales, como la gen&oacute;mica, la prote&oacute;mica, la qu&iacute;mica  farmac&eacute;utica o la farmacolog&iacute;a, se unen con las distintas especialidades  m&eacute;dicas y con la epidemiolog&iacute;a. Todas estas disciplinas se conectan  en proyectos de gran complejidad que permiten avanzar desde el descubrimiento  de nuevas dianas terap&eacute;uticas hasta la puesta en el mercado de nuevos medicamentos.  </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los  profesionales de la salud utilizan distintas bases de datos para identificar interacciones  farmacol&oacute;gicas, que incluyen adem&aacute;s informaci&oacute;n sobre el  mecanismo de acci&oacute;n y gravedad de las posibles reacciones adversas, tales  como: </font></p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Base de datos <I>Micromedex,</I><SUP>4</SUP> que contiene adem&aacute;s informaci&oacute;n  relevante respecto a interacciones farmacol&oacute;gicas: a) <I>DRUG-REAX</I>:  recoge las interacciones medicamentosas y reacciones adversas notificadas en la  literatura biom&eacute;dica o por los titulares de comercializaci&oacute;n del  medicamento, y b) <I><font color="#000000">DRUGDEX</font></I>: recoge monograf&iacute;as  de medicamentos con amplia informaci&oacute;n basada en la evidencia disponible  en cuanto a utilidad terap&eacute;utica y comparaci&oacute;n con principios activos  similares, incluyendo adem&aacute;s informaci&oacute;n de inter&eacute;s sobre  interacciones. </font></li>    </ul>    <p> </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Base de datos <I>Lexi-Comp,</I><SUP>5</SUP> que mediante un sistema de acceso  sencillo es capaz de responder a las preguntas m&aacute;s comunes, como la verificaci&oacute;n  de la dosis, advertencias, precauciones o reacciones adversas, as&iacute; como  una visi&oacute;n del contenido referencial, para ayudar a los farmac&eacute;uticos  cl&iacute;nicos en la formulaci&oacute;n de recomendaciones de tratamientos. </font></li>    </ul>    ]]></body>
<body><![CDATA[<p>  </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En diversos  trabajos realizados, se ha demostrado que la calidad de las bases de datos de  interacciones es muy desigual, y en consecuencia es muy dif&iacute;cil concretar  la relevancia cl&iacute;nica de cada una de las interacciones.<SUP>6-8</SUP> Frente  a esta situaci&oacute;n, los textos biom&eacute;dicos constituyen el principal  recurso para obtener informaci&oacute;n sobre nuevas interacciones. </font></p>    <p>  </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Por tanto,  la literatura biom&eacute;dica constituye la fuente de informaci&oacute;n cient&iacute;fica  por excelencia, as&iacute; como los res&uacute;menes de la base de datos <I>Medline</I>,  producida por la <I>National Library of Medicine</I> (NLM) de Estados Unidos.  Nunca antes los m&eacute;dicos han tenido un acceso tan f&aacute;cil e inmediato  al &uacute;ltimo hallazgo cient&iacute;fico como ahora, pero tampoco nunca antes  el exceso de informaci&oacute;n se ha convertido en una barrera para que los profesionales  puedan tomar la mejor decisi&oacute;n, sabiendo que lo hacen a partir de las mejores  evidencias disponibles. La informaci&oacute;n m&eacute;dica es cada vez mayor,  y la base de datos <I>Medline</I> se ha convertido en la fuente de informaci&oacute;n  biom&eacute;dica m&aacute;s utilizada; sin embargo, a pesar de la accesibilidad  a estos recursos, la extracci&oacute;n automatizada de informaci&oacute;n &uacute;til  sigue suponiendo un desaf&iacute;o, ya que los textos y res&uacute;menes est&aacute;n  en lenguaje natural. Por tanto, el uso de recursos y tecnolog&iacute;as de procesamiento  del lenguaje podr&iacute;a facilitar el acceso a la informaci&oacute;n en el dominio  farmacol&oacute;gico. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  relaci&oacute;n con lo anterior, la extracci&oacute;n de informaci&oacute;n (EI)  tiene un papel fundamental, como disciplina perteneciente al procesamiento del  lenguaje natural (PLN), ya que utiliza conjunto de t&eacute;cnicas para la obtenci&oacute;n  de datos estructurados y no-ambiguos del lenguaje natural con diferentes prop&oacute;sitos,  tales como la construcci&oacute;n de bases de datos, o aplicaciones relacionadas  con la recuperaci&oacute;n de informaci&oacute;n (RI).<SUP>9</SUP> La EI es esencial  para analizar y extraer informaci&oacute;n &uacute;til de los textos biom&eacute;dicos,  imposible de realizar de forma manual. Por esta &uacute;ltima raz&oacute;n, son  muchos los trabajos dedicados a la investigaci&oacute;n sobre el empleo de t&eacute;cnicas  de EI a los textos biom&eacute;dicos.<SUP>10-12</SUP> </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Otros  m&eacute;todos de procesamiento y acceso a la informaci&oacute;n, los constituyen  las t&eacute;cnicas de miner&iacute;a de datos, <I>data-mining</I>, y la miner&iacute;a  de texto o miner&iacute;a textual, <I>text-mining</I>. Estas tecnolog&iacute;as  surgen como m&eacute;todos emergentes que sirven de soporte para el descubrimiento  de conocimiento que poseen los datos almacenados. La miner&iacute;a de datos se  define como el descubrimiento de conocimiento, a partir de patrones observables  de datos estructurados en bases de datos relacionales. Se le denomina com&uacute;nmente  <I>Knowledge-Discovery in Databases</I> (KDD). La miner&iacute;a textual est&aacute;  orientada a la extracci&oacute;n de conocimiento a partir de datos no-estructurados  en lenguaje natural almacenados en las bases de datos textuales. Se identifica  con el descubrimiento de conocimiento en los textos y se le denomina com&uacute;nmente  <I>Knowledge-Discovery in Text</I> (KDT). Tanto la miner&iacute;a de datos como  la miner&iacute;a de texto son t&eacute;cnicas de an&aacute;lisis de informaci&oacute;n.  En el caso de la informaci&oacute;n biom&eacute;dica, mediante el proceso de an&aacute;lisis  se le agrega valor a la informaci&oacute;n hasta convertirla en conocimiento.  Solo las computadoras pueden manipular r&aacute;pidamente la gran cantidad de  datos.<SUP>13 </SUP>La miner&iacute;a de texto es una herramienta de an&aacute;lisis  encargada del descubrimiento de conocimiento que no exist&iacute;a expl&iacute;citamente  en ning&uacute;n texto de la colecci&oacute;n, pero que surge al relacionar el  contenido de varios de ellos.<SUP>14</SUP> La miner&iacute;a de texto adopta un  enfoque semiautom&aacute;tico, y establece un equilibrio entre el an&aacute;lisis  humano y el autom&aacute;tico (antes de la etapa de descubrimiento de conocimiento  es necesario procesar de forma autom&aacute;tica la informaci&oacute;n disponible  en grandes colecciones documentales y transformarla en un formato que facilite  su comprensi&oacute;n y an&aacute;lisis). </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Desde  el punto de vista tecnol&oacute;gico, el procesamiento de grandes vol&uacute;menes  de informaci&oacute;n biom&eacute;dica en texto libre no-estructurado requiere  la aplicaci&oacute;n de una serie de t&eacute;cnicas de an&aacute;lisis, tales  como la identificaci&oacute;n, extracci&oacute;n y anotaci&oacute;n de entidades  biom&eacute;dicas, as&iacute; como el descubrimiento de conocimiento y visualizaci&oacute;n  de datos. En este contexto, las t&eacute;cnicas basadas en PLN permiten mejorar  la utilizaci&oacute;n de la lengua en los sistemas inform&aacute;ticos, asimilando,  analizando, seleccionando y presentando la informaci&oacute;n para contribuir  a superar el problema de exceso de informaci&oacute;n. </font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Por  constituir la identificaci&oacute;n de los nombres de f&aacute;rmacos una tarea  esencial en los sistemas de EI &uacute;til en farmacolog&iacute;a, el objetivo  se este trabajo es proponer un procedimiento basado en una combinaci&oacute;n  de recursos y t&eacute;cnicas de PLN para la identificaci&oacute;n de nombres  de f&aacute;rmacos gen&eacute;ricos en la literatura biom&eacute;dica. Nuestra  propuesta se basa en la aplicaci&oacute;n de: </font></p>    <p> </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Reglas de nomenclatura para f&aacute;rmacos gen&eacute;ricos, recomendadas por  el Consejo <I>United States Adoptated Names</I> (USAN) que van a permitir la clasificaci&oacute;n  de los f&aacute;rmacos en familias farmacol&oacute;gicas. </font></li>    </ul>    <p>  </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Una  herramienta ling&uuml;&iacute;stica que utiliza una amplia gama de dispositivos  de c&oacute;mputo que utilizan tecnolog&iacute;a de estado-finito. </font></li>    </ul>    <p>  </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p>&nbsp;</p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">REGLAS  DE NOMENCLATURA PARA F&Aacute;RMACOS GEN&Eacute;RICOS </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los  f&aacute;rmacos son sustancias qu&iacute;micas que presentan una acci&oacute;n  biol&oacute;gica, lo cual no significa que puedan ser siempre utilizadas con fines  terap&eacute;uticos. Mientras que los medicamentos son sustancias qu&iacute;micas  que se utilizan con fines terap&eacute;uticos, es decir, todos los medicamentos,  son f&aacute;rmacos; pero no todos los f&aacute;rmacos son medicamentos. Adem&aacute;s,  un medicamento puede estar constituido por uno o varios f&aacute;rmacos. Un f&aacute;rmaco  tiene tres nombres: </font></p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>Nombre  qu&iacute;mico</I>, que se refiere a la composici&oacute;n molecular del f&aacute;rmaco  y debe seguir las reglas de la nomenclatura qu&iacute;mica.     <br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>Nombre  gen&eacute;rico</I> o nombre oficial del f&aacute;rmaco durante su existencia,  establecido por organismos oficiales nacionales e internacionales. Se trata de  un nombre de titularidad p&uacute;blica y que no est&aacute; protegido por patente.      <br>     ]]></body>
<body><![CDATA[<br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>Nombre  comercial</I> o marca, que es el nombre dado por la compa&ntilde;&iacute;a farmac&eacute;utica  que lo comercializa. Se trata del nombre registrado o de la patente y consiste  en la protecci&oacute;n que se da oficialmente para explotar de modo industrial  un f&aacute;rmaco. </font></li>    </ul>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para  la denominaci&oacute;n oficial de los f&aacute;rmacos gen&eacute;ricos, contamos  con la <I>Denominaci&oacute;n Com&uacute;n Internacional </I>(DCI) de los principios  activos, establecida por la Organizaci&oacute;n Mundial de la Salud (OMS) a nivel  internacional. Cada DCI es un nombre &uacute;nico que es reconocido a nivel mundial  y es de propiedad p&uacute;blica. Son nombres independientes de los laboratorios  y no tienen propietario, de manera que pueden ser usados sin restricci&oacute;n  alguna. Se recomienda que sean nombres muy simples, debido a la generalizaci&oacute;n  de su uso internacional. Las DCI deben tender a mantener un parentesco con otras  sustancias que pertenezcan al mismo grupo farmacol&oacute;gico. Sin embargo, la  implantaci&oacute;n de las DCI no es universal. Existen organismos que regulan  los nombres a nivel nacional (<U><FONT  COLOR="#0000ff"><a href="#t1">tabla 1</a></FONT></U>). Estos organismos adoptan  los nombres de las DCI y los adaptan a la lengua de cada pa&iacute;s. </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/t0102412.gif" width="521" height="254"><a name="t1"></a></p>    <p>  </p>    <p> </p>    <p> </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La  OMS ha aprobado part&iacute;culas, tanto prefijos como sufijos, espec&iacute;ficas  para los distintos grupos farmacol&oacute;gicos. Las pr&aacute;cticas habituales  para nombrar f&aacute;rmacos recaen en el uso de afijos. Estos afijos permiten  clasificar los f&aacute;rmacos en familias farmacol&oacute;gicas seg&uacute;n  su estructura qu&iacute;mica. La lista recomendada por el Consejo USAN representa  los afijos comunes establecidos para cada par&aacute;metro qu&iacute;mico o farmacol&oacute;gico.  Por ejemplo, los antiinflamatorios podr&iacute;an contener alguno de los siguientes  afijos: -<I>ac</I>, -<I>bufen</I>, -<I>butazone</I>, -<I>fenamic</I>, -<I>icam</I>,  -<I>metacin</I>, -<I>nidap</I>, -<I>nixin</I>, -<I>profen</I>, <I>sal</I>-, -<I>sal</I>-  y <I>sal</I>. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Estos  afijos, reglas de nomenclatura y sus definiciones aprobados por el Consejo USAN  se recomiendan para que se acu&ntilde;en en los nuevos nombres de f&aacute;rmacos  que pertenezcan a una serie establecida de agentes relacionados. De este modo,  se proporciona un reconocimiento inmediato de los compuestos similares pertenecientes  a una misma familia farmacol&oacute;gica. La lista de afijos no es exhaustiva,  ya que no incluye todos los afijos utilizados por el Consejo USAN ni otros grupos  de nomenclaturas nacionales o internacionales. Adem&aacute;s, hemos de tener en  cuenta que constantemente nuevos afijos se pueden crear y que otros existentes  se pueden modificar. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  el procedimiento presentado en este trabajo, hemos adoptado la clasificaci&oacute;n  de los f&aacute;rmacos, seg&uacute;n sus afijos, recomendada por USAN.<SUP>15</SUP>  En la <U><FONT COLOR="#0000ff"><a href="#t2">tabla 2</a></FONT></U> se muestra  algunos de estos afijos.</font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/t0202412.gif" width="441" height="785"><a name="t2"></a></p>    <p>  </p>    ]]></body>
<body><![CDATA[<p>&nbsp;</p>    <p> </p>    <p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">T&Eacute;CNICAS  B&Aacute;SICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A  trav&eacute;s de tecnolog&iacute;as basadas en PLN se construyen herramientas  autom&aacute;ticas con suficiente informaci&oacute;n ling&uuml;&iacute;stica en  forma de reglas y patrones que permite realizar numerosas actividades. Los sistemas  de PLN deben identificar todos los niveles de la lengua: nivel morfol&oacute;gico,  l&eacute;xico, sint&aacute;ctico. La mayor&iacute;a de t&eacute;cnicas de procesamiento  del lenguaje se desarrolla por medio de diferentes etapas que pueden operar de  manera secuencial o paralela, tales como: a) pre-procesamiento textual; b) an&aacute;lisis  morfol&oacute;gico; y c) an&aacute;lisis sint&aacute;ctico o <I>parsing</I>.<SUP>16</SUP>  </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La primera  etapa de pre-procesamiento de cualquier sistema de PLN tiene lugar en el nivel  textual. En este nivel, el texto puede ser considerado como una simple secuencia  de caracteres. Las tareas b&aacute;sicas que deben abordarse a este nivel son:  la segmentaci&oacute;n del texto, y la localizaci&oacute;n de unidades l&eacute;xicas  o palabras. Localizar las palabras ortogr&aacute;ficas constituye una tarea sencilla  si el espacio o los signos de puntuaci&oacute;n act&uacute;an como separadores.  </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El siguiente  paso en el tratamiento de la lengua consiste en el an&aacute;lisis morfol&oacute;gico.  Esta tarea es normalmente realizada por un analizador morfol&oacute;gico cuyo  papel es el de recuperar la morfolog&iacute;a de las palabras; es decir, las formas  con que se construyen las palabras a partir de unidades significativas m&aacute;s  peque&ntilde;as, llamadas `morfemas'. Los morfemas se clasifican en dos clases:  morfema ra&iacute;z o lema (<I>stem</I>) y afijos. Generalmente, las palabras  se forman a trav&eacute;s de mecanismos de flexi&oacute;n, derivaci&oacute;n o  composici&oacute;n a partir de sus formas can&oacute;nicas. La tarea de descomposici&oacute;n  de una palabra de la entrada en su forma de base y sus afijos se denomina <I>stemming  </I>o lematizaci&oacute;n. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Un  analizador morfol&oacute;gico debe constar por lo menos tres partes: un diccionario  o lexic&oacute;n con la lista de los lemas; una lista de afijos con sus reglas  de orden, ya que los afijos no pueden aparecer en un orden arbitrario, y un conjunto  de reglas ortogr&aacute;ficas en el caso de que la adici&oacute;n de un afijo  las requiera. Para que el procesamiento morfol&oacute;gico sea posible, cada lema  debe ser previamente etiquetado. Se denomina `etiquetado', <I>POS tagging</I>  (<I>part-of-speech tagging) </I>al procedimiento de asignar a cada una de las  unidades l&eacute;xicas presentes el conjunto de sus categor&iacute;as gramaticales  posibles.<SUP>16 </SUP>El objetivo de un etiquetador es el de asignar a cada palabra  la categor&iacute;a m&aacute;s `apropiada' dentro de un contexto. Existen tres  grandes procedimiento de etiquetado: </font></p><ul>     ]]></body>
<body><![CDATA[<li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>T&eacute;cnicas  de etiquetado basadas en reglas</i>. Los etiquetadores basados en reglas utilizan  conocimiento ling&uuml;&iacute;stico, generalmente expresado en forma de reglas  o restricciones para establecer las combinaciones de etiquetas aceptables o prohibidas.  Las reglas se escriben manualmente, responden a criterios ling&uuml;&iacute;sticos  y se representan en forma expl&iacute;cita. Otros m&eacute;todos se enfrentan  al problema de la variabilidad del lenguaje desde una aproximaci&oacute;n ling&uuml;&iacute;stica,  por medio de t&eacute;cnicas cuyo objetivo es la reducci&oacute;n de las variantes  l&eacute;xicas a lemas. En esta l&iacute;nea, una de las implementaciones computaciones  m&aacute;s importantes la constituyen los analizadores basados en tecnolog&iacute;a  de estado-finito:<SUP>17,18</SUP>     <br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>T&eacute;cnicas  de etiquetado basadas en m&eacute;todos estad&iacute;sticos o probabil&iacute;sticos</I>.  Estos etiquetadores se basan en la evidencia emp&iacute;rica obtenida de corpus  ling&uuml;&iacute;sticos voluminosos. El problema de estos sistemas reside en  el aprendizaje del modelo estad&iacute;stico utilizado. Se han utilizado t&eacute;cnicas  de aprendizaje supervisado partiendo de <i>corpus</i> etiquetados manualmente  y t&eacute;cnicas de aprendizaje no supervisado en las que no es precisa esa intervenci&oacute;n  manual. Un algoritmo cl&aacute;sico utilizado para el etiquetado estad&iacute;stico  es el de los Modelos Ocultos de Markov (<I>Hidden Markov Models</I>). Este enfoque  se caracteriza por asumir que la probabilidad de una cadena de s&iacute;mbolos  puede ser calculada en base a sus partes o <I>n-gramas.</I> El modelo de <I>n-gramas</I>  m&aacute;s b&aacute;sico es el de los <I>unigramas</I>; es decir, la b&uacute;squeda  de la etiqueta m&aacute;s probable para cada palabra o <I>token.</I> Para esto,  es necesario entrenar el sistema con un <i>corpus</i> etiquetado previamente.<SUP>19</SUP>      <br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>T&eacute;cnicas  de etiquetado h&iacute;bridas</I>, que combinan tanto los m&eacute;todos basados  en reglas como los estad&iacute;sticos para intentar recoger los aspectos positivos  de cada una de ellas y evitar sus limitaciones. Un sistema de este tipo fue introducido  por <i>Brill</i><SUP>20</SUP> y se basa en el aprendizaje autom&aacute;tico. Cada  palabra se rotula con la etiqueta m&aacute;s probable, luego se cambia la etiqueta  aplicando reglas del tipo <I>`si la palabra -1 es un determinante cambie la etiqueta  a nombre</I>' y se reetiqueta la palabra. Se obtiene de esta manera una secuencia  de reglas de transformaci&oacute;n de etiquetas. </font></li>    </ul>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Una  vez analizado y etiquetado tal texto de forma total o parcial, puede realizarse  el an&aacute;lisis sint&aacute;ctico (<I>parsing</I>). Se trata de un proceso  por medio del cual se convierte el texto de entrada en otras estructuras, com&uacute;nmente  denominadas `<I>&aacute;rboles</I>', que son m&aacute;s &uacute;tiles para el  posterior an&aacute;lisis y capturan la jerarqu&iacute;a impl&iacute;cita de la  entrada. Durante el procesamiento se producen distintas estructuras intermedias  o de trabajo, hasta producir un &aacute;rbol de an&aacute;lisis estructural de  la secuencia de entrada.<SUP>21</SUP> Hay diferentes t&eacute;cnicas y algoritmos  de <I>parsing.</I> Estas se pueden agrupar b&aacute;sicamente entre tres tipos  diferentes: </font></p><ul>     <li><i><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Procesamiento  paralelo o secuencial</font></i><font face="Verdana, Arial, Helvetica, sans-serif" size="2">.  Se refiere fundamentalmente a dos tipos de an&aacute;lisis de secuencias. La t&eacute;cnica  de procesamiento en paralelo prueba diferentes posibilidades de combinaci&oacute;n  en paralelo y guarda la pista de los estados posibles. Frente a este, la estrategia  de procesamiento secuencial prueba primero una posibilidad hasta el final, y si  no tiene &eacute;xito, retrocede al punto de partida y prueba otra ruta hasta  dar con la estructura que corresponde a la secuencia de la entrada.    ]]></body>
<body><![CDATA[<br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  <i>Procesamiento descendente o ascendente</i>. Se refiere al punto de partida  del &aacute;rbol estructural que el <I>parser </I>debe construir. Si se est&aacute;  procesando una oraci&oacute;n, en la parte superior se representa a la oraci&oacute;n  en su totalidad y, en la parte inferior del &aacute;rbol hay nodos que representan  los elementos l&eacute;xicos individuales o palabras. La direcci&oacute;n ascendente  y la descendente dependen del punto de partida: si comienza el procesamiento en  la parte superior de la oraci&oacute;n y va dividiendo la entrada progresivamente  en partes cada vez m&aacute;s peque&ntilde;as, hasta llegar a las palabras, ser&aacute;  un <I>parser</I> descendente (<I>top-down-parser). </I>El <I>parser </I>ser&aacute;  ascendente <I>(bottom-up)</I> si, por el contrario, el an&aacute;lisis comienza  por los elementos l&eacute;xicos individuales y culmina con la oraci&oacute;n  en su totalidad. </font></li>    </ul>    <p> </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  <i>Procesamiento determinista/no-determinista</i>. Se refiere al car&aacute;cter  guiado o no guiado del modelo. Es decir, si el modelo no permite decidir qu&eacute;  regla de la gram&aacute;tica se aplicar&aacute; en un momento determinado, se  tratar&aacute; de un modelo no-determinista; en cambio, si se utilizan mecanismos  que conducen a un resultado concreto sin vacilaciones, se hablar&aacute; de un  procesamiento determinista. </font></li>    </ul>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Sin  embargo, las t&eacute;cnicas de an&aacute;lisis sint&aacute;ctico tienen dos grandes  problemas propios de los analizadores autom&aacute;ticos: la ambig&uuml;edad y  el costo inform&aacute;tico que implica el tiempo de procesamiento, que suele  ser muy lento y costoso. Para solucionar estos problemas se puede realizar un  an&aacute;lisis superficial o fragmental (<I>shallow parsing</I>) en lugar de  un an&aacute;lisis en profundidad. Para muchas aplicaciones no es necesario desarrollar  un an&aacute;lisis del texto completo. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El  objetivo de los analizadores fragmentales, tambi&eacute;n denominados agrupadores  sint&aacute;cticos o <I>chunkers</I>, es la detecci&oacute;n de determinados segmentos  textuales, tales como de frases nominales, determinados nombres o entidades. En  estos casos, es frecuente el uso de t&eacute;cnicas de estado-finito y la actuaci&oacute;n  de transductores en cascada.<SUP>22</SUP> </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  este trabajo se van a utilizar modelos de estado-finito tanto para el an&aacute;lisis  morfol&oacute;gico como sint&aacute;ctico de las entidades biom&eacute;dicas;  en este caso, nombres de f&aacute;rmacos gen&eacute;ricos. </font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p>  </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">    <br>     <br> APROXIMACI&Oacute;N  A LOS MODELOS DE ESTADO-FINITO </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La  teor&iacute;a de los lenguajes formales se dirige a aquellas expresiones que pueden  ser descritas de forma muy precisa, como son los lenguajes de programaci&oacute;n.  Los lenguajes naturales no son lenguajes formales, y, por tanto, no hay un l&iacute;mite  claramente definido entre una sentencia correcta de otra que no lo es. Sin embargo,  se pueden adoptar algunas aproximaciones formales a ciertos fen&oacute;menos del  lenguaje natural susceptibles de una codificaci&oacute;n similar a la realizada  en los lenguajes de programaci&oacute;n. Estas descripciones formales se utilizan  por los ling&uuml;istas computacionales para expresar teor&iacute;as sobre aspectos  espec&iacute;ficos de los lenguajes naturales, tales como el an&aacute;lisis morfol&oacute;gico  y el an&aacute;lisis y etiquetado de segmentos de texto. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>Johnson</I><SUP>23  </SUP>fue el primero en observar que determinadas morfol&oacute;gicas se podr&iacute;an  representar por mecanismos de estado-finito, denominando a su formalismo <I>`two  level model'</I>. La idea del modelo de dos-niveles fue clave para el progreso  del formalismo computacional sobre la morfolog&iacute;a propuesto por <I>Koskenniemi</I>.<SUP>24</SUP>  El modelo de <i>Koskenniemi</i> estableci&oacute; una correspondencia entre la  forma can&oacute;nica, o forma l&eacute;xica, y la forma superficial de las palabras.  Esta relaci&oacute;n la represent&oacute; usando transductores finitos. </font></p>    <p>  </p>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">De forma sintetizada,  un transductor de estado-finito (FST, siglas en ingl&eacute;s), es un sistema  de representaci&oacute;n computacional que comprende un conjunto de estados y  una funci&oacute;n de transici&oacute;n, que define el cambio de estado. La funci&oacute;n  de transici&oacute;n se etiqueta con un par de s&iacute;mbolos que constituyen  el alfabeto del <I>input</I> y el alfabeto de <I>output</I>. Este mecanismo se  puede representar en la forma de un diagrama o gr&aacute;fico de estado-finito.  El transductor tomar&iacute;a cadenas en el <I>input</I> y las relacionar&iacute;a  con cadenas en el <I>output</I>. Formalmente un FST se define como una tupla de  cinco elementos que se expresa de la forma siguiente:</font><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><SUP>25</SUP></font></p>    <blockquote>      <p><sup><font face="Verdana, Arial, Helvetica, sans-serif" size="2">FST = (<font face="Symbol">S</font>,  Q, i, F, E)</font></sup></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">donde:</font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><sup><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><font face="Symbol">S</font></font></sup>  = alfabeto de input y output    <br> Q = n&uacute;mero de estados    <br> i = estado inicial    <br>  F = estado final    <br> E = n&uacute;mero de relaciones de transici&oacute;n    <br>  </font></p></blockquote>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  la <U><FONT COLOR="#0000ff"><a href="#f1">figura 1</a></FONT></U> se muestra la  representaci&oacute;n gr&aacute;fica de un transductor cuyos arcos est&aacute;n  etiquetados con pares de s&iacute;mbolos que constituyen el alfabeto de <I>input</I>  y <I>output</I>. Por ejemplo, &quot;<I>a</I>&quot; denota el s&iacute;mbolo superior  y &quot;<I>b</I>&quot; el s&iacute;mbolo inferior. </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/f0102412.jpg" width="406" height="139"><a name="f1"></a></p>    <p>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Este  transductor podr&iacute;a establecer una relaci&oacute;n entre el lenguaje superior  y el inferior. As&iacute;, este mecanismo podr&iacute;a reconocer la cadena representada  por &quot;<I>ac</I>&quot; y la podr&iacute;a transformar en la cadena &quot;<I>bd</I>&quot;.  La equiparaci&oacute;n es bidireccional, y una cadena de un lenguaje se podr&iacute;a  corresponder a una, o m&aacute;s cadenas de otro lenguaje. Las transducciones  son posibles si la cadena en la parte del <I>input</I> lleva al transductor a  un estado final. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La  aplicaci&oacute;n del formalismo de estado-finito a la unificaci&oacute;n y etiquetado  de t&eacute;rminos parte b&aacute;sicamente de que se puede establecer una relaci&oacute;n  de equivalencia entre las distintas formas superficiales y la ra&iacute;z, o lema,  a la que se le puede a&ntilde;adir una etiqueta de la categor&iacute;a gramatical  correspondiente, o etiqueta POS (<I>part-of-speech).</I> Esta correspondencia  se puede implementar computacionalmente por medio de transductores.<SUP>26</SUP>  Una analizador de <I>dos-niveles</I> o <I>lematizador</I> desarrollado con tecnolog&iacute;a  de estado-finito se encargar&iacute;a de equiparar formas variantes l&eacute;xicas,  a formas unificadas, tal y como se representa en la <U><FONT COLOR="#0000ff"><a href="#f2">figura  2</a></FONT></U>. </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/f0202412.jpg" width="559" height="213"><a name="f2"></a></p>    <p>  </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">De  la misma forma, se ha utilizado el formalismo de estado-finito para el an&aacute;lisis  superficial (<I>shallow parsing</I>), donde lo que se intenta es recuperar solo  una parte de la informaci&oacute;n sint&aacute;ctica del texto. Estas aproximaciones  se han basado principalmente en realizar el an&aacute;lisis y etiquetado de segmentos  de texto a trav&eacute;s de cascadas de transductores, donde cada transductor  agrega informaci&oacute;n sint&aacute;ctica dependiendo del contexto.<SUP>27</SUP>  El etiquetado gramatical consiste en asociar a cada palabra la categor&iacute;a  gramatical a la que pertenece. Esta tarea suele ser una de las primeras etapas  en cualquier sistema de procesamiento de textos. La mayor dificultad de este problema  viene provocada por la ambig&uuml;edad que presentan numerosas palabras, que pueden  tener diferentes funciones gramaticales. Esta ambig&uuml;edad hace que la soluci&oacute;n  al etiquetado gramatical sea compleja y que pase por el uso de la informaci&oacute;n  que proporciona el contexto de cada palabra. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El  an&aacute;lisis y etiquetado del texto se realiza a trav&eacute;s de cascadas  de transductores, donde cada transductor agrega, o modifica, informaci&oacute;n  previamente generada por los transductores de la cascada. Esta t&eacute;cnica  se desarrollar&iacute;a b&aacute;sicamente en cuatro fases: </font></p>    <p> </p><ul>      <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> Cargar el texto  original, representado como una secuencia de <I>tokens</I>.    <br>     ]]></body>
<body><![CDATA[<br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Reconocimiento y etiquetado de las ra&iacute;ces, y terminaciones, de las palabras  en un grafo de texto.     <br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Realizaci&oacute;n de sucesivas pasadas sobre el grafo de texto, aplicando en  cada una de ellas m&oacute;dulos de reglas. La aplicaci&oacute;n de las reglas  recorre el grafo de texto de izquierda a derecha, analizando cada una de las posiciones  si el <i>&iacute;tem</i> coincide con la categor&iacute;a, que toda regla seg&uacute;n  la implementaci&oacute;n debe especificar.     <br>     <br> </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  Generaci&oacute;n de la salida a partir de grafo etiquetado. </font></li>    </ul>    <p>    ]]></body>
<body><![CDATA[<br>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">HERRAMIENTA  LING&Uuml;&Iacute;STICA BASADA EN MODELOS DE ESTADO-FINITO </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Siguiendo  con el planteamiento anterior, en nuestra propuesta hemos utilizado un software  de ingenier&iacute;a ling&uuml;&iacute;stica, basado en modelos de estado-finito,<SUP>28  </SUP>denominada NooJ.<SUP>29</SUP> Se trata de una herramienta de libre acceso  capaz de formalizar e identificar distintas unidades ling&uuml;&iacute;sticas  de forma autom&aacute;ticas, tales como an&aacute;lisis morfol&oacute;gico y etiquetado  de palabras, an&aacute;lisis sint&aacute;ctico y reconocimiento de entidades.  Las descripciones de las lenguas naturales se formalizan en diccionarios electr&oacute;nicos  y gram&aacute;ticas representadas por conjuntos de gr&aacute;ficos. Este recurso  permite, adem&aacute;s, aplicar sofisticadas consultas ling&uuml;&iacute;sticas  a los textos con el objetivo de crear &iacute;ndices y concordancias, anotar y  etiquetar autom&aacute;ticamente textos o realizar an&aacute;lisis estad&iacute;sticos.  NooJ incluye herramientas para construir, depurar, mantener y acumular grandes  conjuntos de recursos ling&uuml;&iacute;sticos, y se puede aplicar a los textos  de gran tama&ntilde;o. Una de las caracter&iacute;sticas de NooJ es que puede  procesar varios tipos de unidades ling&uuml;&iacute;sticas en los textos. Esta  herramienta ling&uuml;&iacute;stica utiliza un sistema de etiquetado que se puede  aplicar, en todos los niveles de an&aacute;lisis, permitiendo la formalizaci&oacute;n  de diversos fen&oacute;menos ling&uuml;&iacute;sticos de forma independiente.  Todas las unidades ling&uuml;&iacute;sticas reconocidas por los analizadores l&eacute;xicos,  sint&aacute;cticos y sem&aacute;nticos de NooJ se representan en forma de anotaciones.30  </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Una  etiqueta o anotaci&oacute;n es un par <I>posici&oacute;n-informaci&oacute;n</I>  que indica que cierta secuencia del texto tiene determinadas propiedades. La Interfaz  Gr&aacute;fica de NooJ (<I>Graphical User Interface</I>) nos ofrece la posibilidad  de construir los analizadores de estado-finito l&eacute;xicos y sint&aacute;cticos,  que operan en cascada en todos los niveles de la formalizaci&oacute;n. De forma  sint&eacute;tica, la herramienta trabaja con la siguiente estrategia de procedimiento  para conseguir la identificaci&oacute;n y etiquetado de los nombres de f&aacute;rmacos  gen&eacute;ricos: </font></p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>Preprocesamiento  del texto,</i> que ejecuta la segmentaci&oacute;n del texto en palabras, d&iacute;gitos  y delimitadores textuales.     <br>     <br> </font></li>    ]]></body>
<body><![CDATA[<li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>An&aacute;lisis  morfol&oacute;gico de estado-finito</i>, que tiene como <I>input</I> las unidades  ling&uuml;&iacute;sticas (<I>Atomic Linguistic Units, ALU</I>), tales como ra&iacute;ces  y afijos de los nombres de f&aacute;rmacos gen&eacute;ricos, y producir, como  <I>output,</I> un conjunto de etiquetas, representadas en forma de anotaciones  en el texto (Text Annotation Structure, TAS). Estas anotaciones est&aacute;n siempre  sincronizadas con el fichero de texto original, que nunca se modifica.     <br>     <br>  </font></li>    <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><i>An&aacute;lisis  sint&aacute;ctico de estado-finito</i>, que tiene como <I>input</I> las unidades  ling&uuml;&iacute;sticas anotadas, identificadas en el proceso anterior y como  <I>output</I> la correspondiente etiqueta. </font></li>    </ul>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Esta  arquitectura requiere que los analizadores de NooJ se comuniquen a trav&eacute;s  de diversas anotaciones en el texto; es decir, que cada estructura anotada se  almacena por el sistema y los resultados pasan al analizador siguiente. Por otra  parte, esas anotaciones, en los textos, se pueden etiquetar y exportar finalmente  como un documento XML. </font></p>    <p></p>    <p></p>    <p>    ]]></body>
<body><![CDATA[<br>     <br> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">M&Eacute;TODOS</font></B>      <br>     <br> </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El  primer paso para desarrollar el procedimiento presentado en este trabajo es obtener  una muestra de textos biom&eacute;dicos, que act&uacute;en de <I>corpus</I> para  la extracci&oacute;n de los nombres de f&aacute;rmacos gen&eacute;ricos. Aunque  la literatura biom&eacute;dica es la fuente de informaci&oacute;n cient&iacute;fica  por excelencia, nos restringimos a res&uacute;menes o <I>abstracts</I> de la base  de datos <I>Medline</I>. Se ha trabajado con una colecci&oacute;n de 259 res&uacute;menes  de art&iacute;culos cient&iacute;ficos de <I>Medline</I> recuperada mediante una  b&uacute;squeda de nombres de familias farmacol&oacute;gicas definidas como analg&eacute;sicos.  Tomando los afijos recomendados por USAN, realizamos la siguiente <I>query</I>:  &quot;*<I>adol OR *butazone OR *fenine OR *eridine OR *fentanil</I>&quot; con  el l&iacute;mite adicional del siguiente per&iacute;odo: <I>&quot;</I>desde<I>  </I>el 1ro. de enero de 2011 hasta el 31 de diciembre de 2011&quot;. </font></p>    <p>  </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A partir del  material anterior, el m&eacute;todo propuesto consta de cuatro m&oacute;dulos  que se ejecutan en cascada utilizando, como ya se ha mencionado, la herramienta  ling&uuml;&iacute;stica NooJ:</font></p>    <blockquote> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">1.  Procesamiento de los res&uacute;menes extra&iacute;dos de la base de datos <I>Medline.</I>  </font>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">2. Construcci&oacute;n  de la gram&aacute;tica morfol&oacute;gica en forma de transductor, utilizando  la Intefaz Gr&aacute;fica de NooJ, que nos va a permitir la identificaci&oacute;n  de las unidades ling&uuml;&iacute;sticas m&aacute;s peque&ntilde;as, ALU (<I>Atomic  Linguistic Units</I>), es decir, ra&iacute;ces y afijos contenidos en los nombres  de f&aacute;rmacos gen&eacute;ricos, as&iacute; como su representaci&oacute;n  en forma de anotaciones textuales, o TAS (<I>Text Annotation Structure</I>). </font></p>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">3.  Construcci&oacute;n del analizador sint&aacute;ctico en forma de transductor,  utilizando la Intefaz Gr&aacute;fica de NooJ, que nos facilitar&aacute; la identificaci&oacute;n  de los nombres de f&aacute;rmacos gen&eacute;ricos, a los que se les asign&oacute;  una etiqueta. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">4.  Exportaci&oacute;n de los res&uacute;menes con los nombres de los f&aacute;rmacos  gen&eacute;ricos anotados y clasificados. </font></p></blockquote>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  primer lugar, importamos el fichero con los res&uacute;menes a la herramienta  NooJ. En esta fase, los res&uacute;menes se dividen en oraciones, se identifican  los tokens, palabras, d&iacute;gitos y delimitadores. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">  El segundo paso es el dise&ntilde;o y construcci&oacute;n del analizador l&eacute;xico  capaz de reconocer las unidades ling&uuml;&iacute;sticas, ALU, definidas aqu&iacute;  como afijos, que clasifican los f&aacute;rmacos en familias farmacol&oacute;gicas.  La gram&aacute;tica morfol&oacute;gica que identifica los nombres de f&aacute;rmacos  y sus afijos se representa por medio de gr&aacute;ficos. NooJ proporciona herramientas  para reconocer y describir dichas unidades ling&uuml;&iacute;sticas mediante gr&aacute;ficos,  que internamente se compilan en transductores de estado-finito. Un grafo es un  conjunto de nodos conectados, en el que se distingue un nodo inicial y un nodo  final. Con el fin de describir y representar estas secuencias se sigue una ruta  o camino, es decir, una secuencia de conexiones que comienza en el nodo inicial  del gr&aacute;fico, y termina en el nodo final. </font></p>    <p align="left"> </p>    <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Utilizando  la Interfaz Gr&aacute;fica de NooJ, hemos dise&ntilde;ado un gr&aacute;fico de  estado-finito (<U><font color="#0000ff"><a href="#Fig3">Fig. 3</a></font></U>)  en el que el s&iacute;mbolo &lt;L&gt; identifica cualquier secuencia de letras  dentro de una palabra y el nodo siguiente reconoce los afijos de la familia farmacol&oacute;gica  de los analg&eacute;sicos:<I> -adol, -butazone, -eridine, -fenine, -fentanil </I>y<I>  -profen.</I> Por ejemplo, el gr&aacute;fico reconoce la ra&iacute;z de la palabra  &quot;<I>pip</I>&quot; (a trav&eacute;s del s&iacute;mbolo &lt;L&gt;) y el nodo  siguiente se encargar&iacute;a de identificar el afijo relacionado con dicha ra&iacute;z,  en este caso &quot;<I>eridine</I>&quot;; a continuaci&oacute;n la variable $R  almacena la ra&iacute;z y la asocia con la informaci&oacute;n &quot;DRUG+ERIDINE+analgesics&quot;.  </font></p>    <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">    <br>      <br> <img src="/img/revistas/aci/v23n4/f0302412.jpg" width="556" height="463"><a name="Fig3"></a>  </font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p> </p>    <p> </p>    <p>&nbsp;</p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A  continuaci&oacute;n, aplicamos el analizador l&eacute;xico dise&ntilde;ado a los  res&uacute;menes del <i>corpus</i>. Como se muestra en la <U><FONT COLOR="#0000ff"><a href="#t3">tabla  3</a></FONT></U>, el an&aacute;lisis dar&iacute;a como resultado la identificaci&oacute;n  de los distintos afijos de los nombres pertenecientes a una familia farmacol&oacute;gica  y la correspondiente equiparaci&oacute;n con la anotaci&oacute;n, o TAS (<I>Text  Annotation Structure</I>). </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/t0302412.gif" width="509" height="159"><a name="t3"></a></p>    <p>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  tercer lugar, procedemos al dise&ntilde;o de un analizador sint&aacute;ctico capaz  de asignar una etiqueta a los nombres de f&aacute;rmacos. Para esto, primero localizamos  en el texto procesado la anotaci&oacute;n &lt;DRUG&gt; para obtener todos los  nombres de f&aacute;rmacos reconocidos. El resultado nos da un total de 89 nombres  de f&aacute;rmacos gen&eacute;ricos diferentes reconocidos. </font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Nuestro  prop&oacute;sito ahora es etiquetar los nombres de f&aacute;rmacos reconocidos  con la categor&iacute;a &quot;DRUG&quot;. Para esto, dise&ntilde;amos un analizador  sint&aacute;ctico por medio de un gr&aacute;fico de estado-finito (<U><font color="#0000ff"><a href="#Fig4">Fig.  4</a></font></U>), en el que en el nodo inicial insertamos la etiqueta &quot;&lt;DRUG&quot;,  y en el nodo final la etiqueta &quot;&gt;&quot;, es decir, cada anotaci&oacute;n  identificada comenzar&iacute;a donde se encuentra el car&aacute;cter &quot;&lt;&quot;  y terminar&iacute;a donde se encuentra el car&aacute;cter &quot;&gt;&quot;). Adem&aacute;s,  incorporaremos informaci&oacute;n sobre la familia farmacol&oacute;gica a la que  pertenece, a&ntilde;adiendo a la etiqueta la propiedad &quot;+Analgesics&quot;.  </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/f0402412.jpg" width="549" height="437"><a name="Fig4"></a></p>    <p>  </p>    <p> </p>    <p> </p>    <p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Seguidamente  aplicamos el analizador a los res&uacute;menes, en el que los nombres de pertenecientes  a una familia farmacol&oacute;gica ya han sido reconocidos previamente. Como se  muestra en la <U><FONT COLOR="#0000ff"><a href="#t4">tabla 4</a></FONT></U>, el  an&aacute;lisis dar&iacute;a como resultado la asociaci&oacute;n a los nombres  de f&aacute;rmacos identificados con la etiqueta correspondiente. </font></p>    ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/aci/v23n4/t0402412.gif" width="507" height="144"><a name="t4"></a></p>    <p></p>    <p>  </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Por &uacute;ltimo,  una vez procesados los res&uacute;menes con las correspondientes anotaciones asignadas  a los nombres de f&aacute;rmacos gen&eacute;ricos se exportan como documentos  de texto, o como un fichero XML, para su potencial aplicaci&oacute;n a un sistema  autom&aacute;tico de extracci&oacute;n de informaci&oacute;n en el dominio de  la farmacolog&iacute;a. </font></p>    <p> </p>    <p> </p>    <p>&nbsp;</p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">  EVALUACI&Oacute;N Y RESULTADOS</font></B>    <br>     <br> </font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La  evaluaci&oacute;n de los sistemas de detecci&oacute;n y etiquetado de nombres  de f&aacute;rmacos, que se ha presentado en este trabajo, cuenta con dos dificultades  a&ntilde;adidas. Por un lado, la ausencia de planteamientos similares con los  que comparar la eficacia del sistema propuesto. La mayor&iacute;a de los sistemas  de reconocimiento de entidades biom&eacute;dicas se han centrado principalmente  en los nombres de los genes y prote&iacute;nas. No obstante, tambi&eacute;n se  han realizado trabajos sobre la detecci&oacute;n de otro tipo de entidades como  sustancias qu&iacute;micas31 y f&aacute;rmacos.<SUP>32,33</SUP> Estos &uacute;ltimos  trabajos, aunque utilizan herramientas del PLN, se basan fundamentalmente en m&eacute;todos  que equiparan de forma autom&aacute;tica los nombres de f&aacute;rmacos a conceptos  dentro de un sistema de codificaci&oacute;n normalizado, como Metatesauro UMLS<SUP>&#174;</SUP>  (<I>Unified Medical Language System</I><SUP>&#174;</SUP>). Por otra parte, otro  gran obst&aacute;culo en la evaluaci&oacute;n del modelo de etiquetado propuesto  reside en la falta de <i>corpus</i> de evaluaci&oacute;n. A pesar de que durante  los &uacute;ltimos a&ntilde;os se han desarrollado varios <i>corpus </i>biom&eacute;dicos  para evaluar el rendimiento de los sistemas que utilizan PLN, tales como <I>TREC  Genomics Track,</I><SUP>34,35</SUP> GENETAG,<SUP>36</SUP> BioCreative<SUP>37</SUP>(<I>Critical  Assessment of Information Extraction systems in Biology</I>), no disponemos de  <i>corpus</i> etiquetados en el dominio farmacol&oacute;gico. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Teniendo  en cuenta las limitaciones anteriores, la evaluaci&oacute;n de nuestro sistema  se realiza sobre una colecci&oacute;n de textos extra&iacute;dos de la base de  datos <I>Medline</I>, que est&aacute; compuesto por 259 res&uacute;menes de art&iacute;culos  cient&iacute;ficos. Por otra parte, hemos utilizado los par&aacute;metros de precisi&oacute;n  y exhaustividad (<I>recall)</I>, que son los que se emplean habitualmente en las  herramientas basadas en PLN. El par&aacute;metro de precisi&oacute;n se define  aqu&iacute; como la proporci&oacute;n de nombres de f&aacute;rmacos gen&eacute;ricos  identificados correctamente. La exhaustividad se define como la proporci&oacute;n  de nombres de f&aacute;rmacos gen&eacute;ricos que el sistema es capaz de identificar  y anotar. Incorporando estas dos m&eacute;tricas de evaluaci&oacute;n, nuestro  prop&oacute;sito es medir el grado de correcci&oacute;n y eficacia con el que  el sistema es capaz de reconocer y etiquetar los nombres de f&aacute;rmacos gen&eacute;ricos  en la literatura biom&eacute;dica. Las dos medidas se calculan con las siguientes  ecuaciones: </font></p>    <p align="left"><img src="/img/revistas/aci/v23n4/e0102412.gif" width="525" height="51"></p>    <p align="left"><img src="/img/revistas/aci/v23n4/e0202412.gif" width="506" height="51"></p>    <p></p>    <p>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Adem&aacute;s,  vamos a evaluar el sistema con la medida <I>F </I>(<I>F-Measure</I>) que combina  en un solo valor la exhaustividad y la precisi&oacute;n. Se trata de una media  ponderada y arm&oacute;nica que sirve para corregir el error de distancia<I> </I>en  los casos en los que la exhaustividad y la precisi&oacute;n se compensan, de tal  forma que a mayor valor de <I>F-Mesaure</I> mejor resultado. Su ecuaci&oacute;n  es: </font></p>    ]]></body>
<body><![CDATA[<p align="left"><img src="/img/revistas/aci/v23n4/e0302412.gif" width="89" height="51"></p>    <p></p>    <p>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para  poder aplicar los par&aacute;metros anteriores, necesitar&iacute;amos adquirir  los siguientes datos: </font></p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>N&uacute;mero  de nombres de f&aacute;rmacos identificados y anotados correctamente</I>. Para  adquirir estos datos, contrastamos cada uno de lo nombres de f&aacute;rmacos gen&eacute;ricos  reconocidos por el m&eacute;todo propuesto con la informaci&oacute;n que nos proporciona  el portal de nombres de f&aacute;rmacos, <I>Drug Information Portal</I>, producido  por <I>U.S. National Library of Medicine</I> (NLP). Adem&aacute;s, los nombres  de f&aacute;rmacos reconocidos se han contrastado con la informaci&oacute;n que  aporta la base de datos de libre acceso <I>ChemSynthesis.</I> </font></li>    </ul>    <p>  </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>N&uacute;mero  total de nombres de f&aacute;rmacos gen&eacute;ricos identificados y anotados</I>.  Para obtener estos datos aplicamos los analizadores l&eacute;xicos y sint&aacute;cticos,  que se han dise&ntilde;ado, al <i>corpus</i> extra&iacute;do de la base de datos  <I>Medline</I>. </font></li>    </ul>    ]]></body>
<body><![CDATA[<p> </p><ul>     <li><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><I>N&uacute;mero  total de nombres de f&aacute;rmacos posibles</I> <i>existentes en el corpus</i>.  Estos datos se obtienen por un proceso manual realizado por un experto, lo que  implica una gran cantidad de tiempo y de esfuerzo, por la falta de <i>corpus</i>  etiquetados para el dominio farmacol&oacute;gico. </font></li>    </ul>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El  n&uacute;mero total de f&aacute;rmacos gen&eacute;ricos reconocidos, relativos  a la familia farmacol&oacute;gica de los analg&eacute;sicos despu&eacute;s de  aplicar los analizadores, es de 2 511 <I>matches</I> en total, de los cuales 89  son diferentes (<U><FONT  COLOR="#0000ff"><a href="/img/revistas/aci/v23n4/t0502412.gif">tabla 5</a></FONT></U>).  </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los</font>  <font face="Verdana, Arial, Helvetica, sans-serif" size="2">resultados globales  de la evaluaci&oacute;n se muestran en la <font color="#0000FF"><a href="#t6">tabla  6</a></font>. El sistema consigue una precisi&oacute;n de P<I> </I>= 99,8 %, sobre  la media de F<I> </I>= 95 %. El total de los nombres de f&aacute;rmacos gen&eacute;ricos  pertenecientes a la familia farmacol&oacute;gica de los analg&eacute;sicos que  los analizadores han identificado y anotado en el <i>corpus</i> es de 2 511, de  los cuales 2 507 nombres corresponden a nombres de f&aacute;rmacos reconocidos  correctamente. La tasa de precisi&oacute;n se ha visto afectada fundamentalmente  por errores ortogr&aacute;ficos, tales como <i>&quot;</i> <I>oftramadol</I>&quot;  (en lugar de &quot;<I>of tramadol</I>&quot;), &quot; <I>ofmeperidine</I>&quot;  (en lugar de <I>&quot;of meperidine</I>&quot;), &quot; <I>Fsufentanil</I>&quot;  (en lugar de &quot;<I>sufentanil</I>&quot;), o &quot;<I>Dmethylpteridine</I>&quot;  (en lugar de &quot;<I>Dimethylpyridine</I>&quot;). A pesar de estos errores, se  puede considerar que la herramienta dise&ntilde;ada es bastante precisa. </font></p>    <p align="center"><img src="/img/revistas/aci/v23n4/t0602412.gif" width="498" height="154"><a name="t6"></a></p>    <p></p>    <p>  </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La  tasa de exhaustividad de los analizadores dise&ntilde;ados es de R = 92 %, sobre  la media de<i> </i>F = 95 %. Esto significa que si el total de los nombres de  f&aacute;rmacos gen&eacute;ricos posibles existentes en el <i>corpus</i> y susceptibles  de ser identificados es de 2 711, los analizadores han conseguido identificar  y anotar correctamente 2 507 nombres. El n&uacute;mero de nombres de f&aacute;rmacos  que los analizadores no han sido capaces de identificar es de 263 en total, que  corresponden a 6 nombres diferentes: &quot;<I>Piperidines&quot;, &quot;Pteridines&quot;,  &quot;Dipiperidines&quot;, &quot;Dioxopiperidines&quot;, &quot;Arylpiperidines&quot;  y &quot;butanesulfinylpiperidines&quot;</I>. Es necesario aclarar que los analizadores  se dise&ntilde;aron para reconocer el afijo <I>eridine</I>, y no <I>eridines</I>.  Por tanto, no se trata de un error de <I>infraan&aacute;lisis</I> de la herramienta,  sino de una falta de identificaci&oacute;n que no estaba prevista por los analizadores.  En consecuencia, se puede considerar que la cobertura del sistema es bastante  aceptable. </font></p>    <p> </p>    <p> </p>    <p>&nbsp;</p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><b>CONCLUSIONES      <br>     <br> </b></font></p>    ]]></body>
<body><![CDATA[<p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Las  bases de datos de interacciones farmacol&oacute;gicas, a pesar de contener datos  muy bien estructurados, aportan una informaci&oacute;n que puede ser incompleta.  Por esta raz&oacute;n, muchos especialistas m&eacute;dicos se ven obligados a  revisar una gran cantidad de art&iacute;culos cient&iacute;ficos sobre seguridad  de medicamentos para estar al d&iacute;a en todo lo publicado en relaci&oacute;n  con el tema. El desarrollo de m&eacute;todos autom&aacute;ticos que permitan recopilar,  mantener e interpretar toda esta informaci&oacute;n es crucial para la detecci&oacute;n  de interacciones entre f&aacute;rmacos. La primera etapa de los m&eacute;todos  autom&aacute;ticos de extracci&oacute;n de informaci&oacute;n es el reconocimiento  y clasificaci&oacute;n de los nombres de f&aacute;rmacos. </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En  este trabajo hemos presentado un sistema capaz de identificar y anotar nombres  de f&aacute;rmacos gen&eacute;ricos en res&uacute;menes extra&iacute;dos de la  base de datos <I>Medline</I>. Los resultados de la evaluaci&oacute;n sobre la  eficacia del sistema propuesto nos han llevado a las siguientes conclusiones:  primero, los analizadores basados en tecnolog&iacute;a de estado-finito consiguen  identificar y anotar los nombres de f&aacute;rmacos gen&eacute;ricos con una alta  precisi&oacute;n. Segundo, los analizadores basados en tecnolog&iacute;a de estado-finito  son capaces de identificar los nombres de f&aacute;rmacos gen&eacute;ricos con  una gran cobertura. Si hay nombres que no son capaces de reconocer es porque no  se han tenido en cuenta todos los posibles afijos y, por tanto, no se producen  errores de <I>infraan&aacute;lisis</I>. </font></p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A  pesar de las dificultades que supone la evaluaci&oacute;n del procedimiento propuesto,  por la ausencia de sistemas similares con los que establecer una comparaci&oacute;n  o la falta de <i>corpus</i> etiquetados para el dominio farmacol&oacute;gico,  los resultados preliminares muestran que se han detectado y anotado los nombres  de f&aacute;rmacos gen&eacute;ricos de forma eficaz. Extender progresivamente  el campo de aplicaci&oacute;n, ampliando la cobertura de las anotaciones a trav&eacute;s  de la inclusi&oacute;n de un mayor n&uacute;mero de afijos, as&iacute; como integrar  el sistema de reconocimiento de t&eacute;rminos en un proyecto m&aacute;s amplio  de extracci&oacute;n autom&aacute;tica de interacciones farmacol&oacute;gicas  de la literatura biom&eacute;dica, son algunas de las l&iacute;neas futuras de  esta investigaci&oacute;n. </font></p>    <p>&nbsp;</p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">REFERENCIAS  BIBLIOGR&Aacute;FICAS     <br>     ]]></body>
<body><![CDATA[<br> </font></B></font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">1.  Stockley I. Interacciones Farmacol&oacute;gicas. Barcelona: Pharma Editores; 2004.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">2.  Amariles P, Giraldo NA, Faus MJ. Interacciones medicamentosas: aproximaci&oacute;n  para establecer y evaluar su relevancia cl&iacute;nica. Med Cl&iacute;n. 2007;129(1):27-35.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">3.  Rodr&iacute;guez-Terol A, Santos-Ramos B, Caraballo-Camacho M, Ollero-Baturone  M. Relevancia cl&iacute;nica de las interacciones medicamentosas. Med Cl&iacute;n.  2008;130(19):758-59.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">4.  Thomson Healthcare Micromedex. 2012 [citado: 13-07-2012]. Disponible en: <a href="http://www.micromedex.com" target="_blank">http://www.micromedex.com</a></font><!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">5.  Lexi-Comp, Inc. Lexi-interact. 2012 [consultado: 11-07-2012]. Disponible en: <a href="http://www.lexi.com" target="_blank">http://www.lexi.com</a></font><!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">6.  Minh VL, McCart GM, Tsourounis C. An assessment of free, online drug-drug interaction  screening programs (DSPs). Hospital Pharmacy. 2003;38(7):662-68.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">7.  Hansten PD, Horn JR. Drug Interactions Analysis and Management. St. Louis: Facts  and Comparations;2007.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">8.  Rodr&iacute;guez-Terol A, Caraballo M, Palma D, Santos-Ramos B, Molina T, Desongles  T, Aguilar A. Calidad estructural de las bases de datos de interacciones. Farm  Hosp. 2009;33(3):134-46.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">9.  Cunningham H. Information Extraction, Automatic. Enclyclopedia of Language and  Linguistics. Oxford: Elsevier;2005.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">10.  Proux D, Rechenmann F, Julliard L. Detecting Gene Symbols and Names in Biological  Texts: a First Step toward Pertinent Information Extraction. Proceedings of Genome  Informatics. 1998;78-80.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">11.  Thomas J, Milward D, Ouzounis C, Pulman S, Carroll M. Automatic extraction of  protein interactions from scientific abstracts. Proceedings of the Pacific Symposium  on Biocomputing. 2000;5:538-49.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">12.  Friedman C, Kra P, Yu H, Krauthammer M, Rzhetsky A. GENIES: a natural-language  processing system for the extraction of molecular pathways from journal articles.  Bioinformatics. 2001;17(1):74-82.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">13.  Hirschman L, Park C, Tsujii J, Wong L, Wu CH. Accomplishments and challenges in  literature data mining for biology. Bioninformatics. 2002;18(12):1553-61.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">14.  Hearst M. Untangling text data mining. Proceedings of ACL'99: the 37th Annual  Meeting of the Association for Computational Linguistic. 1999;3-10.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">15.  United States Adopted Names Council [citado: 12-07-2012]. Disponible en: <a href="http://www.ama-assn.org/ama/pub/physician-resources/medical-science/united-states-adopted-names-council/naming-guidelines/approved-stems.page?" target="_blank">http://www.ama-assn.org/ama/pub/physician-resources/medical-science/united-states-adopted-names-council/naming-guidelines/approved-stems.page?</a></font><!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">16.  Jurafsky D, Martin J. Speech and language processing. An introduction to natural  language processing, Computational linguistics, and speech recognition. New Jersery:  Prentice-Hall; 2000.    </font></p>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">17.  Karttunen L. Constructing lexical transducers. Proceedings of the 15th conference  on Computational linguistics. Kyoto: Coling 94.1994;406-11.</font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">18.  Rodr&iacute;guez S, Carretero J. A formal approach to Spanish morphology: the  COES tools. XII Congreso de la Sociedad Espa&ntilde;ola para el Procesamiento  del Lenguaje Natural (SEPLN). Sevilla: SEPLN. 1996;118-26.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">19.  Siddiqui T, Tiwary US. Natural language processing and information retrieval.  New Dehli: Oxford University Press; 2008.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">20.  Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing:  A Case Study in Part-of-Speech Tagging. Computational Linguistics. 1995;21(4):543-65.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">21.  Lavid J. Lenguaje y nuevas tecnolog&iacute;as. Nuevas perspectivas, m&eacute;todos  y herramientas para el ling&uuml;ista del siglo XXI. Madrid: C&aacute;tedra; 2005.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">22.  Rodr&iacute;guez H. T&eacute;cnicas b&aacute;sicas en el tratamiento inform&aacute;tico  de la lengua. Quark. Ciencia, Medicina, Comunicaci&oacute;n y Cultura. 2000;19:26-34.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">23.  Johnson CD. Formal aspects of phonological description. La Haya: Mouton; 1972.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">24.  Koskenniemi K. Two-level morphology: a general computational model for word-form  recognition and production. University of Helsinki: Department of General Linguistics;  1983.    </font></p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">25.  Hopcroft JE, Ullman JD. Introduction to Automata Theory, Languages and Computation.  Reading, MA: Addison-Wesley;1979.</font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">26.  Karttunen L, Kaplan RM, Zaenen A. Two-level morphology with composition. Proceedings  of the 15th International Conference on Computational Linguistics. Nantes, France:  Coling 92. 1992.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">27.  Abney S. Partial parsing via finite-state cascades. Journal of Natural Language  Engineering. 1996;2(4):337-44.    </font></p>    ]]></body>
<body><![CDATA[<!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">28.  Roche E, Schabes Y. Deterministic part-of-speech tagging with finite state transducers.  Computational Linguistics. 1995;21(2):227-53.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">29.  Silberztein M. NooJ Manual. 2002 [citado: 14-07-2012]. Disponible en: <a href="http://www.nooj4nlp.net" target="_blank">http://www.nooj4nlp.net</a></font><!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">30.  Silberztein M. Complex Annotations with NooJ. Proceedings of the 2007 International  NooJ Conference. Newcastle: Cambridge Scholars Publishing. 2008:214-27.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">31.  Wilbur WJ, Hazard GF, Divita G, Mork JG, Aronson AR, Browne AC. Analysis of biomedical  text for chemical names: a comparison of three methods Proceedings AMIA Annual  Symposium. 1999;176-80.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">32.  Rindflesch TC, Tanabe L, Weinstein JN, Hunter L. EDGAR: Extraction of drugs, genes  and Relations from the biomedical Literature. Pacific Symposium on Biocomputing.  2000;5:514-25.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">33.  Segura Bedmar I, Mart&iacute;nez P, Samy D. Detecci&oacute;n de f&aacute;rmacos  gen&eacute;ricos en textos biom&eacute;dicos. Procesamiento del Lenguaje Natural.  2008;40:27-34.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">34.  Hersh WR, Bhupatiraju RT. TREC genomics track overview, The Twelfth Text Retrieval  Conference - TREC 2003;14-23.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">35.  Hersh W, Bhupatiraju RT, Ross L, Johnson P, Cohen AM, Kraemer DF. TREC 2004 genomics  track overview. The Thirteenth Text Retrieval Conference - TREC 2004;13-24.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">36.  Tanabe L, Xie N, Thom LH, Matten W and Wilbur WJ. GENETAG: a tagged corpus for  gene/protein named entity recognition. BMC Bioinformatics. 2005;6(Suppl. 1):S3.    </font></p>    <!-- ref --><p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">37.  Hirschman L, Yeh A, Blaschke C, Valencia A. Overview of BioCreAtIvE: Critical  assessment of information extraction for biology. BMC Bioinformatics. 2005;6:S1.    </font></p>    <p>&nbsp;</p>    ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Recibido:14  de mayo de 2012.    <br> Aceptado: 23 de julio de 2012.    <br>     <br>     <br> </font></p>    <p>  </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Prof.  <i>Carmen G&aacute;lvez</i><b>. </b> Departamento de Informaci&oacute;n y comunicaci&oacute;n.  Universidad de Granada. Campus Cartuja 18071, Granada, Espa&ntilde;a. Correo electr&oacute;nico:  <a href="mailto:cgalvez@ugr.es">cgalvez@ugr.es</a>     <br> </font><font face="Verdana, Arial, Helvetica, sans-serif">  </font> </p>    <p> </p>    ]]></body>
<body><![CDATA[<p> </p>    <p> </p>    <p> </p>    <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b></b></font></p>    <p>&nbsp;  </p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Stockley]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Interacciones Farmacológicas]]></source>
<year>2004</year>
<publisher-loc><![CDATA[Barcelona ]]></publisher-loc>
<publisher-name><![CDATA[Pharma Editores]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Amariles]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Giraldo]]></surname>
<given-names><![CDATA[NA]]></given-names>
</name>
<name>
<surname><![CDATA[Faus]]></surname>
<given-names><![CDATA[MJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Interacciones medicamentosas: aproximación para establecer y evaluar su relevancia clínica]]></article-title>
<source><![CDATA[Med Clín.]]></source>
<year>2007</year>
<volume>129</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>27-35</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rodríguez-Terol]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Santos-Ramos]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Caraballo-Camacho]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Ollero-Baturone]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Relevancia clínica de las interacciones medicamentosas]]></article-title>
<source><![CDATA[Med Clín.]]></source>
<year>2008</year>
<volume>130</volume>
<numero>19</numero>
<issue>19</issue>
<page-range>758-59</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="">
<source><![CDATA[Thomson Healthcare Micromedex]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="">
<source><![CDATA[Lexi-Comp, Inc. Lexi-interact]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Minh]]></surname>
<given-names><![CDATA[VL]]></given-names>
</name>
<name>
<surname><![CDATA[McCart]]></surname>
<given-names><![CDATA[GM]]></given-names>
</name>
<name>
<surname><![CDATA[Tsourounis]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An assessment of free, online drug-drug interaction screening programs (DSPs)]]></article-title>
<source><![CDATA[Hospital Pharmacy.]]></source>
<year>2003</year>
<volume>38</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>662-68</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hansten]]></surname>
<given-names><![CDATA[PD]]></given-names>
</name>
<name>
<surname><![CDATA[Horn]]></surname>
<given-names><![CDATA[JR]]></given-names>
</name>
</person-group>
<source><![CDATA[Drug Interactions Analysis and Management]]></source>
<year>2007</year>
<publisher-loc><![CDATA[St. Louis ]]></publisher-loc>
<publisher-name><![CDATA[Facts and Comparations]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rodríguez-Terol]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Caraballo]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Palma]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Santos-Ramos]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Molina]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Desongles]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Aguilar]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Calidad estructural de las bases de datos de interacciones]]></article-title>
<source><![CDATA[Farm Hosp.]]></source>
<year>2009</year>
<volume>33</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>134-46</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cunningham]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Information Extraction, Automatic. Enclyclopedia of Language and Linguistics]]></source>
<year>2005</year>
<publisher-loc><![CDATA[Oxford ]]></publisher-loc>
<publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Proux]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Rechenmann]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Julliard]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Detecting Gene Symbols and Names in Biological Texts: a First Step toward Pertinent Information Extraction. Proceedings of Genome Informatics]]></source>
<year>1998</year>
<page-range>78-80</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thomas]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Milward]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Ouzounis]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Pulman]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Carroll]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Automatic extraction of protein interactions from scientific abstracts. Proceedings of the Pacific Symposium on Biocomputing]]></source>
<year>2000</year>
<page-range>538-49</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Friedman]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Kra]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Yu]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Krauthammer]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Rzhetsky]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles]]></article-title>
<source><![CDATA[Bioinformatics.]]></source>
<year>2001</year>
<volume>17</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>74-82</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hirschman]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Park]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Tsujii]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Wong]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Wu]]></surname>
<given-names><![CDATA[CH]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Accomplishments and challenges in literature data mining for biology]]></article-title>
<source><![CDATA[Bioninformatics.]]></source>
<year>2002</year>
<volume>18</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>1553-61</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hearst]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Untangling text data mining. Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistic]]></source>
<year>1999</year>
<page-range>3-10</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="">
<collab>United States Adopted Names Council</collab>
<source><![CDATA[]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jurafsky]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Martin]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Speech and language processing. An introduction to natural language processing, Computational linguistics, and speech recognition]]></source>
<year>2000</year>
<publisher-loc><![CDATA[New Jersery ]]></publisher-loc>
<publisher-name><![CDATA[Prentice-Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Karttunen]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Constructing lexical transducers. Proceedings of the 15th conference on Computational linguistics]]></source>
<year>1994</year>
<page-range>406-11</page-range><publisher-loc><![CDATA[Kyoto ]]></publisher-loc>
<publisher-name><![CDATA[Coling]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rodríguez]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Carretero]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[A formal approach to Spanish morphology: the COES tools]]></source>
<year></year>
<conf-name><![CDATA[XII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)]]></conf-name>
<conf-date>1996</conf-date>
<conf-loc>Sevilla </conf-loc>
<page-range>118-26</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Siddiqui]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Tiwary]]></surname>
<given-names><![CDATA[US]]></given-names>
</name>
</person-group>
<source><![CDATA[Natural language processing and information retrieval]]></source>
<year>2008</year>
<publisher-loc><![CDATA[New Dehli ]]></publisher-loc>
<publisher-name><![CDATA[Oxford University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Brill]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging]]></article-title>
<source><![CDATA[Computational Linguistics.]]></source>
<year>1995</year>
<volume>21</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>543-65</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lavid]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Lenguaje y nuevas tecnologías. Nuevas perspectivas, métodos y herramientas para el lingüista del siglo XXI]]></source>
<year>2005</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Cátedra]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rodríguez]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Técnicas básicas en el tratamiento informático de la lengua]]></article-title>
<source><![CDATA[Quark Ciencia, Medicina, Comunicación y Cultura.]]></source>
<year>2000</year>
<volume>19</volume>
<page-range>26-34</page-range></nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Johnson]]></surname>
<given-names><![CDATA[CD]]></given-names>
</name>
</person-group>
<source><![CDATA[Formal aspects of phonological description]]></source>
<year>1972</year>
<publisher-loc><![CDATA[La Haya ]]></publisher-loc>
<publisher-name><![CDATA[Mouton]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Koskenniemi]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[Two-level morphology: a general computational model for word-form recognition and production]]></source>
<year>1983</year>
<publisher-name><![CDATA[University of Helsinki,Department of General Linguistics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hopcroft]]></surname>
<given-names><![CDATA[JE]]></given-names>
</name>
<name>
<surname><![CDATA[Ullman]]></surname>
<given-names><![CDATA[JD]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to Automata Theory, Languages and Computation]]></source>
<year>1979</year>
<publisher-name><![CDATA[Addison-Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Karttunen]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Kaplan]]></surname>
<given-names><![CDATA[RM]]></given-names>
</name>
<name>
<surname><![CDATA[Zaenen]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Two-level morphology with composition]]></source>
<year></year>
<conf-name><![CDATA[15th International Conference on Computational Linguistics]]></conf-name>
<conf-date>1992</conf-date>
<conf-loc>Nantes </conf-loc>
</nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Abney]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Partial parsing via finite-state cascades]]></article-title>
<source><![CDATA[Journal of Natural Language Engineering.]]></source>
<year>1996</year>
<volume>2</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>337-44</page-range></nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Roche]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Schabes]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Deterministic part-of-speech tagging with finite state transducers]]></article-title>
<source><![CDATA[Computational Linguistics.]]></source>
<year>1995</year>
<volume>21</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>227-53</page-range></nlm-citation>
</ref>
<ref id="B29">
<label>29</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Silberztein]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[NooJ Manual]]></source>
<year>2002</year>
</nlm-citation>
</ref>
<ref id="B30">
<label>30</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Silberztein]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Complex Annotations with NooJ]]></source>
<year></year>
<conf-name><![CDATA[ International NooJ Conference]]></conf-name>
<conf-date>2008</conf-date>
<conf-loc>Newcastle </conf-loc>
<page-range>214-27</page-range></nlm-citation>
</ref>
<ref id="B31">
<label>31</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wilbur]]></surname>
<given-names><![CDATA[WJ]]></given-names>
</name>
<name>
<surname><![CDATA[Hazard]]></surname>
<given-names><![CDATA[GF]]></given-names>
</name>
<name>
<surname><![CDATA[Divita]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Mork]]></surname>
<given-names><![CDATA[JG]]></given-names>
</name>
<name>
<surname><![CDATA[Aronson]]></surname>
<given-names><![CDATA[AR]]></given-names>
</name>
<name>
<surname><![CDATA[Browne]]></surname>
<given-names><![CDATA[AC]]></given-names>
</name>
</person-group>
<source><![CDATA[Analysis of biomedical text for chemical names: a comparison of three methods]]></source>
<year></year>
<conf-name><![CDATA[ AMIA Annual Symposium]]></conf-name>
<conf-date>1999</conf-date>
<conf-loc> </conf-loc>
<page-range>176-80</page-range></nlm-citation>
</ref>
<ref id="B32">
<label>32</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rindflesch]]></surname>
<given-names><![CDATA[TC]]></given-names>
</name>
<name>
<surname><![CDATA[Tanabe]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Weinstein]]></surname>
<given-names><![CDATA[JN]]></given-names>
</name>
<name>
<surname><![CDATA[Hunter]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[EDGAR: Extraction of drugs, genes and Relations from the biomedical Literature]]></article-title>
<source><![CDATA[Pacific Symposium on Biocomputing.]]></source>
<year>2000</year>
<volume>5</volume>
<page-range>514-25</page-range></nlm-citation>
</ref>
<ref id="B33">
<label>33</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Segura Bedmar]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[Martínez]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Samy]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Detección de fármacos genéricos en textos biomédicos]]></article-title>
<source><![CDATA[Procesamiento del Lenguaje Natural.]]></source>
<year>2008</year>
<volume>40</volume>
<page-range>27-34</page-range></nlm-citation>
</ref>
<ref id="B34">
<label>34</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hersh]]></surname>
<given-names><![CDATA[WR]]></given-names>
</name>
<name>
<surname><![CDATA[Bhupatiraju]]></surname>
<given-names><![CDATA[RT]]></given-names>
</name>
</person-group>
<source><![CDATA[TREC genomics track overview, The Twelfth Text Retrieval Conference - TREC 2003]]></source>
<year></year>
<page-range>14-23</page-range></nlm-citation>
</ref>
<ref id="B35">
<label>35</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hersh]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Bhupatiraju]]></surname>
<given-names><![CDATA[RT]]></given-names>
</name>
<name>
<surname><![CDATA[Ross]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Johnson]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Cohen]]></surname>
<given-names><![CDATA[AM]]></given-names>
</name>
<name>
<surname><![CDATA[Kraemer]]></surname>
<given-names><![CDATA[DF]]></given-names>
</name>
</person-group>
<source><![CDATA[TREC 2004 genomics track overview. The Thirteenth Text Retrieval Conference - TREC 2004]]></source>
<year></year>
<page-range>13-24</page-range></nlm-citation>
</ref>
<ref id="B36">
<label>36</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tanabe]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Xie]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Thom]]></surname>
<given-names><![CDATA[LH]]></given-names>
</name>
<name>
<surname><![CDATA[Matten]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Wilbur]]></surname>
<given-names><![CDATA[WJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[GENETAG: a tagged corpus for gene/protein named entity recognition]]></article-title>
<source><![CDATA[BMC Bioinformatics]]></source>
<year>2005</year>
<volume>6</volume>
<numero>^sSuppl. 1</numero>
<issue>^sSuppl. 1</issue>
<supplement>Suppl. 1</supplement>
<page-range>S3</page-range></nlm-citation>
</ref>
<ref id="B37">
<label>37</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hirschman]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Yeh]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Blaschke]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Valencia]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Overview of BioCreAtIvE: Critical assessment of information extraction for biology]]></article-title>
<source><![CDATA[BMC Bioinformatics.]]></source>
<year>2005</year>
<volume>6</volume>
<page-range>S1</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
