<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352002000200003</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aplicación de la minería de datos en la bioinformática]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Febles Rodríguez]]></surname>
<given-names><![CDATA[Juan Pedro]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[González Pérez]]></surname>
<given-names><![CDATA[Abel]]></given-names>
</name>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro Nacional de Bioinformática  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>04</month>
<year>2002</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>04</month>
<year>2002</year>
</pub-date>
<volume>10</volume>
<numero>2</numero>
<fpage>69</fpage>
<lpage>76</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352002000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352002000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352002000200003&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En los próximos años ocurrirá un avance espectacular de las ciencias biomédicas como resultado del proyecto Genoma Humano. Las nuevas tecnologías, basadas en la genética molecular y la informática, son claves para este desarrollo, pues ellas suministran potentes instrumentos para la obtención y el análisis de la información genética. La aparición de nuevas tecnologías ha posibilitado el desarrollo de la genómica, al facilitar el estudio de las interacciones de los genes y su influencia en el desarrollo de enfermedades, todo lo cual influye en el diagnóstico clínico, la investigación de nuevos fármacos, la epidemiología y la informática médica. En los últimos años, la minería de datos (data mining) ha experimentado un auge como soporte para las filosofías de la gestión de la información y el conocimiento, así como para el descubrimiento del significado que poseen los datos almacenados en grandes bancos. Esta permite explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones; además de facilitar la extracción de la información existente en los textos, así como crear sistemas inteligentes capaces de entenderlos, a esto se denomina comúnmente como minería de textos (text mining). Se describen sintéticamente los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[An extraordinary advance of the biomedical sciences will take place in the next years as a result of the Human Genome project. The new technologies based on the molecular genetics and informatics are key factors for this development, since they provide powerful tools for the obtention and analysis of genetic information. The appearance of new technologies has made possible the development of genomics, on making possible the study of the interactions of genes and their influence on the development of diseases. All this influences on the clinical diagnosis, the investigation of new drugs epidemiology and medical informatics. In the last years, data mining has experienced an increase as a support for the phylosophies of information management and knowledge, as well as for the discovery of the meaning of the data stored in big banks. This allows to explore and analyze the databases available to help in the decision-making process and it also facilitates the extraction of the information existing in the texts and to create smart systems capable of understanding them. This is commonly known as text mining. The basic components of data mining and its application to an emerging and trascendent scientifc activity, bioinformatics, are synthetically described.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[BIOLOGIA COMPUTACIONAL]]></kwd>
<kwd lng="es"><![CDATA[INFORMATICA MEDICA]]></kwd>
<kwd lng="es"><![CDATA[BASES DE DATOS]]></kwd>
<kwd lng="es"><![CDATA[TOMA DE DECISIONES]]></kwd>
<kwd lng="en"><![CDATA[COMPUTATIONAL BIOLOGY]]></kwd>
<kwd lng="en"><![CDATA[MEDICAL INFORMATICS]]></kwd>
<kwd lng="en"><![CDATA[DATABASES]]></kwd>
<kwd lng="en"><![CDATA[DECISIÓN MAKING]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <h2>Aplicaci&oacute;n de la miner&iacute;a de datos en la bioinform&aacute;tica</h2>     <p><a href="#cargo"><i>Juan Pedro Febles Rodr&iacute;guez<span class="superscript">1</span>    y Abel Gonz&aacute;lez P&eacute;rez<span class="superscript">2</span></i> </a><a name="autor"></a></p> <h4>Resumen</h4>     <p>En los pr&oacute;ximos a&ntilde;os ocurrir&aacute; un avance espectacular de    las ciencias biom&eacute;dicas como resultado del proyecto Genoma Humano. Las    nuevas tecnolog&iacute;as, basadas en la gen&eacute;tica molecular y la inform&aacute;tica,    son claves para este desarrollo, pues ellas suministran potentes instrumentos    para la obtenci&oacute;n y el an&aacute;lisis de la informaci&oacute;n gen&eacute;tica.    La aparici&oacute;n de nuevas tecnolog&iacute;as ha posibilitado el desarrollo    de la gen&oacute;mica, al facilitar el estudio de las interacciones de los genes    y su influencia en el desarrollo de enfermedades, todo lo cual influye en el    diagn&oacute;stico cl&iacute;nico, la investigaci&oacute;n de nuevos f&aacute;rmacos,    la epidemiolog&iacute;a y la inform&aacute;tica m&eacute;dica. En los &uacute;ltimos    a&ntilde;os, la miner&iacute;a de datos (data mining) ha experimentado un auge    como soporte para las filosof&iacute;as de la gesti&oacute;n de la informaci&oacute;n    y el conocimiento, as&iacute; como para el descubrimiento del significado que    poseen los datos almacenados en grandes bancos. Esta permite explorar y analizar    las bases de datos disponibles para ayudar a la toma de decisiones; adem&aacute;s    de facilitar la extracci&oacute;n de la informaci&oacute;n existente en los    textos, as&iacute; como crear sistemas inteligentes capaces de entenderlos,    a esto se denomina com&uacute;nmente como miner&iacute;a de textos (text mining).    Se describen sint&eacute;ticamente los componentes b&aacute;sicos de la miner&iacute;a    de datos y su aplicaci&oacute;n en una emergente y trascendental actividad cient&iacute;fica:    la bioinform&aacute;tica.</p>     <p> <i>DeCS</i>: BIOLOGIA COMPUTACIONAL; INFORMATICA MEDICA; BASES DE DATOS; TOMA    DE DECISIONES    <br>       <br> </p>     <p>El conocimiento es un recurso estrat&eacute;gico para el desarrollo econ&oacute;mico    y social contempor&aacute;neo. La informaci&oacute;n es el elemento b&aacute;sico    principal en el proceso de adquisici&oacute;n, generaci&oacute;n, gesti&oacute;n    y trasmisi&oacute;n del conocimiento. Las tecnolog&iacute;as, m&eacute;todos    y herramientas asociadas con estos procesos se han desarrollado notablemente    en los &uacute;ltimos a&ntilde;os. La aparici&oacute;n de Internet ha facilitado    compartir, en puntos distantes, los resultados cient&iacute;ficos. Los an&aacute;lisis    en l&iacute;nea (en ingl&eacute;s, <i>On-Line Analytical Processing, o OALP</i>),    un enfoque novedoso, ha tomado gran fuerza en los &uacute;ltimos tiempos.    <br> </p>     <p>El aumento continuo de la disponibilidad de datos, en particular, a partir    de las redes de comunicaciones y la aplicaci&oacute;n de la computaci&oacute;n    de alto desempe&ntilde;o, con proezas como la descripci&oacute;n del genoma    humano, convierten en imprescindible el empleo de t&eacute;cnicas y herramientas    que le den sentido y utilidad a la informaci&oacute;n existente.    <br> </p>     ]]></body>
<body><![CDATA[<p>En los &uacute;ltimos a&ntilde;os del presente siglo, ha alcanzado un auge    la miner&iacute;a de datos, soporte de filosof&iacute;as como la gesti&oacute;n    de las relaciones de una organizaci&oacute;n con sus clientes. Su fin es explorar    y analizar las bases de datos disponibles para ayudar a la toma de decisiones    en las organizaciones, permite, a su vez, la extracci&oacute;n de la informaci&oacute;n    existente en textos, as&iacute; como crear sistemas inteligentes capaces de    entenderlos, a lo que se le conoce, com&uacute;nmente, como miner&iacute;a de    textos.    <br> </p>     <p>El surgimiento de t&eacute;cnicas como la miner&iacute;a de datos est&aacute;    asociado con la necesidad de procesar y analizar grandes vol&uacute;menes de    datos, a fin de obtener informaci&oacute;n &#150;mediante la consolidaci&oacute;n    de los datos- y conocimientos, &uacute;tiles a la toma de decisiones, y construir    una experiencia, a partir de los millones de transacciones que registra una    corporaci&oacute;n en sus sistemas inform&aacute;ticos.<span class="superscript">1</span>    <br> </p>     <p>El presente trabajo pretende s&oacute;lo realizar una somera descripci&oacute;n    de los componentes b&aacute;sicos de la miner&iacute;a de datos y su aplicaci&oacute;n    en una emergente y trascendental actividad cient&iacute;fica: la bioinform&aacute;tica.</p> <h4>    <br>   La miner&iacute;a de datos</h4>     <p>La tecnolog&iacute;a inform&aacute;tica constituye la infraestructura fundamental    de las grandes organizaciones y permite, hoy, registrar m&uacute;ltiples detalles    de la vida de las empresas. Las bases de datos posibilitan almacenar cada transacci&oacute;n,    as&iacute; como otros muchos elementos que reflejan la interacci&oacute;n de    la organizaci&oacute;n con otras organizaciones, clientes, o internamente, entre    sus divisiones y empleados, etc&eacute;tera.     <br> </p>     <p>Es imprescindible convertir los grandes vol&uacute;menes de datos existentes    en experiencia, conocimiento y sabidur&iacute;a, formas que atesora la humanidad    para que sea &uacute;til a la toma de decisiones, especialmente en las grandes    organizaciones y proyectos cient&iacute;ficos. La b&uacute;squeda de informaci&oacute;n    relevante siempre es &uacute;til a la administraci&oacute;n empresarial: el    control de la producci&oacute;n, el an&aacute;lisis de los mercados, el dise&ntilde;o    en ingenier&iacute;a y la exploraci&oacute;n cient&iacute;fica, porque pueden    ofrecer las respuestas m&aacute;s apropiadas a las necesidades de informaci&oacute;n.    Varias preguntas se relacionan frecuentemente con los datos, la informaci&oacute;n    y el conocimiento. Su respuesta, demanda la participaci&oacute;n de varios especialistas.    &iquest;C&oacute;mo puede entenderse un fen&oacute;meno sobre la base de la    interpretaci&oacute;n de grandes vol&uacute;menes de datos? &iquest;De qu&eacute;    manera puede utilizarse la informaci&oacute;n para la toma de decisiones?, son    algunos ejemplos de interrogantes comunes.     <br> </p>     ]]></body>
<body><![CDATA[<p>La respuesta a estas preguntas es el objetivo de la miner&iacute;a de datos,    un conjunto de t&eacute;cnicas agrupadas con el fin de crear mecanismos adecuados    de direcci&oacute;n, entre ellas puede citarse la estad&iacute;stica, el reconocimiento    de patrones, la clasificaci&oacute;n y la predicci&oacute;n.     <br> </p>     <p>Para descubrir patrones de relaciones &uacute;tiles en un conjunto de datos    se empezaron a utilizar m&eacute;todos que fueron denominados de diferente forma.    El t&eacute;rmino data mining, en ingl&eacute;s, no era, al principio, del agrado    de muchos estad&iacute;sticos, porque sus investigaciones estaban dirigidas    a procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen    las hip&oacute;tesis planteadas. Desde este &aacute;ngulo, la miner&iacute;a    de datos aplica una din&aacute;mica que se mueve en sentido contrario al m&eacute;todo    cient&iacute;fico tradicional.     <br> </p>     <p>Con frecuencia, el investigador formula una hip&oacute;tesis; luego, dise&ntilde;a    un experimento para captar los datos necesarios y realizar los experimentos    que confirmen o refuten la hip&oacute;tesis planteada. Este es un proceso, que    realizado de forma rigurosa, debe generar nuevos conocimientos.     <br> </p>     <p>En la miner&iacute;a de datos, por el contrario, se captan y procesan los datos    con la esperanza de que de ellos surja una hip&oacute;tesis apropiada. Se desea    que los datos nos describan o indiquen el porqu&eacute; presentan determinada    configuraci&oacute;n y comportamiento. Como afirma <i>Eduardo Morales</i>: &#147;La    m&aacute;s inocente mirada a los datos puede inspirar una hip&oacute;tesis.    Recu&eacute;rdese que los humanos tienen un gran poder para generalizar e identificar    patrones. Luego entonces, validar una hip&oacute;tesis inspirada por los datos    en los datos mismos, ser&aacute; num&eacute;ricamente significativa, pero experimentalmente    inv&aacute;lida.&#148; <span class="superscript">2</span>    <br> </p>     <p>No es ocioso insistir, en que las t&eacute;cnicas de miner&iacute;a de datos    no pueden utilizarse para confirmar o rechazar hip&oacute;tesis, porque puede    conducir a errores fatales. Su funci&oacute;n es otra, como antes se expres&oacute;,    se trata de explorar datos, darles sentido, convertir un volumen de datos, que    poco o nada aportan a la descripci&oacute;n, en informaci&oacute;n para interpretar    un fen&oacute;meno, para adoptar decisiones de acuerdo con las necesidades.</p> <h4>    <br>   Componentes de la miner&iacute;a de datos</h4>     ]]></body>
<body><![CDATA[<p>Las componentes b&aacute;sicas de los m&eacute;todos de la miner&iacute;a de    datos son: </p> <ol>       <li><i>Lenguaje de representaci&oacute;n del modelo:</i> comprende las suposiciones      y restricciones utilizadas en la representaci&oacute;n empleada.     <br>   </li>       <li><i>Evaluaci&oacute;n del modelo:</i> incluye el uso de t&eacute;cnicas de      validaci&oacute;n cruzada para la predictividad y aplicaci&oacute;n de principios      como el de m&aacute;xima verosimilitud o el de descripci&oacute;n m&iacute;nima      para evaluar la calidad descriptiva del modelo.     <br>   </li>       <li><i>M&eacute;todo de b&uacute;squeda:</i> puede dividirse en b&uacute;squeda      de par&aacute;metros y del modelo, determinan los criterios que se siguen      para encontrar los modelos.</li>     </ol>     <p>Algunas de las t&eacute;cnicas m&aacute;s comunes usadas en la miner&iacute;a    de datos son:</p> <ul>       <li>&Aacute;rboles de decisi&oacute;n y reglas de clasificaci&oacute;n.    <br>   </li>       ]]></body>
<body><![CDATA[<li>M&eacute;todos de clasificaci&oacute;n y regresiones no-lineales.     <br>   </li>       <li>M&eacute;todos basados en ejemplos protot&iacute;picos.     <br>   </li>       <li>Modelos gr&aacute;ficos de dependencias probabil&iacute;sticas.     <br>   </li>       <li>Modelos relacionales.</li>     </ul> <h4>    <br>   La miner&iacute;a de datos y el descubrimiento de conocimientos en bases de    datos</h4>     <p>Existe cierta tendencia a identificar como sin&oacute;nimos a la miner&iacute;a    de datos y el descubrimiento de conocimientos en bases de datos, que de forma    abreviada se refiere con las siglas KDD ( del ingl&eacute;s <i>Knowledge Discovery    in Data Bases</i>), la convergencia del aprendizaje autom&aacute;tico, la estad&iacute;stica,    el reconocimiento de patrones, la inteligencia artificial, las bases de datos,    la visualizaci&oacute;n de datos, los sistemas para el apoyo a la toma de decisiones,    la recuperaci&oacute;n de informaci&oacute;n y otros muchos campos.     ]]></body>
<body><![CDATA[<br> </p>     <p>El KDD es el proceso completo de extracci&oacute;n de conocimientos, no trivial,    previamente desconocidos y potencialmente &uacute;til a partir de un conjunto    de datos, mientras que &laquo;la miner&iacute;a de datos es una compilaci&oacute;n    de t&eacute;cnicas reunidas para crear mecanismos adecuados para la toma de    decisiones. Entre estas t&eacute;cnicas se pueden citar la estad&iacute;stica,    el reconocimiento de patrones, la clasificaci&oacute;n y la predicci&oacute;n,    la excavaci&oacute;n de informaci&oacute;n relevante de la administraci&oacute;n    empresarial, el control de la producci&oacute;n, el an&aacute;lisis de los mercados,    el dise&ntilde;o en ingenier&iacute;a y la exploraci&oacute;n cient&iacute;fica.&#148;    3 En otras palabras, el concepto miner&iacute;a de datos se asocia al proceso    de construcci&oacute;n de reglas a partir de colecciones de datos con una finalidad    previamente determinada y para su uso en la toma de decisiones con respecto    a dicha finalidad. El concepto de KDD no comprende necesariamente esta segunda    parte. Esta diferencia, muchas veces inadvertida, puede ser la causa de que    ambos conceptos se utilicen indistintamente en gran parte de la literatura.        <br> </p>     <p>Recientemente ha alcanzado gran popularidad la construcci&oacute;n de almacenes    de datos (<i>Data Warehouse</i>, en ingl&eacute;s) que tambi&eacute;n puede    verse traducido de otras formas, bodeg&oacute;n de datos, por ejemplo. Aunque    un almac&eacute;n es una base de datos en s&iacute;, se diferencia de esta en    que contiene res&uacute;menes, consolidaciones y an&aacute;lisis de la interrelaci&oacute;n    de los datos a trav&eacute;s del tiempo. Por sus caracter&iacute;sticas, a un    almac&eacute;n de datos se accede con menos frecuencia que a las bases de datos    temporales, y es la forma m&aacute;s simple de permitir el acceso a los datos    y de facilitar la toma de decisiones sobre la base de los procesos.     <br> </p>     <p>Un <i>Data warehouse </i>se conforma con datos operacionales y se dise&ntilde;a    con el prop&oacute;sito de facilitar la toma de decisiones. La informaci&oacute;n    que se almacena en &eacute;l, nunca se actualiza y s&oacute;lo se habilita para    consultas. Del otro lado, integra y hace consistentes a los datos extra&iacute;dos    de las bases de datos operacionales.    <br> </p>     <p>Puede resultar conveniente construir data warehouse localizados y espec&iacute;ficos    para un objetivo determinado. Estos dep&oacute;sitos reciben el nombre de <i>datamarts</i>.    <br> </p>     <p>Un enfoque que ha cobrado actualmente fuerza es el an&aacute;lisis en l&iacute;nea    (en ingl&eacute;s, denominado <i>On-Line Analytical Processing u OLAP</i>).    Se trata de una tecnolog&iacute;a orientada al acceso y el an&aacute;lisis de    datos en l&iacute;nea. Su nombre se deriva del contraste con el procesamiento    de transacciones en l&iacute;nea (<i>On-Line Transaction Processing, OLTP</i>).    Mientras que el OLTP depende de bases de datos relacionales, el OLAP ha desarrollado    una tecnolog&iacute;a de bases de datos multidimensionales. Estas bases de datos    fundan los cimientos para el desarrollo de los c&aacute;lculos y an&aacute;lisis    multidimensionales que requiere la inteligencia empresarial.<span class="superscript">4</span>  </p> <h4>    ]]></body>
<body><![CDATA[<br>   Criterios para aplicar los m&eacute;todos de la miner&iacute;a de datos</h4> <ul>       <li><i>Factibilidad econ&oacute;mica - organizativa:</i> existe potencialmente      un impacto significativo, no se conocen m&eacute;todos alternativos, se dispone      de personal calificado, no existen problemas de legalidad o violaci&oacute;n      de la informaci&oacute;n.    <br>   </li>       <li><i>Factibilidad t&eacute;cnica:</i> se dispone de suficientes datos, los      datos contienen rasgos relevantes, existe poco ruido en los datos y se domina      la aplicaci&oacute;n de los m&eacute;todos.</li>     </ul> <h4>    <br>   Bioinform&aacute;tica</h4>     <p>La bioinform&aacute;tica se encuentra en la intersecci&oacute;n entre las ciencias    de la vida y de la informaci&oacute;n, proporciona las herramientas y recursos    necesarios para favorecer la investigaci&oacute;n biom&eacute;dica. Como campo    interdisciplinario, comprende la investigaci&oacute;n y el desarrollo de sistemas    &uacute;tiles para entender el flujo de informaci&oacute;n desde los genes a    las estructuras moleculares, su funci&oacute;n bioqu&iacute;mica, su conducta    biol&oacute;gica y, finalmente, su influencia en las enfermedades y en la salud.<span class="superscript">5</span></p>     <p>Los est&iacute;mulos principales para el desarrollo de la bioinform&aacute;tica    son:</p> <ul>       <li>El enorme volumen de datos generados por los distintos proyectos denominados      genoma (humano y de otros organismos).    <br>   </li>       ]]></body>
<body><![CDATA[<li>Los nuevos enfoques experimentales, basados en biochips, que permiten obtener      datos gen&eacute;ticos a gran velocidad, bien de genomas individuales (mutaciones,      polimorfismos) de enfoques celulares (expresi&oacute;n g&eacute;nica).    <br>   </li>       <li>El desarrollo de Internet, que permite el acceso universal a las bases de      datos de informaci&oacute;n biol&oacute;gica.</li>     </ul>     <p>La magnitud de la informaci&oacute;n que genera las investigaciones realizadas    sobre el genoma humano es tal que, probablemente, supera la generada por otras    investigaciones en otras disciplinas cient&iacute;ficas. Como se sabe, la vida    es la forma m&aacute;s compleja de organizaci&oacute;n de la materia que se    conoce. En estos momentos, los ordenadores no clasificados para uso civil m&aacute;s    potentes del mundo (en <i>Celera</i> y en <i>Oak Ridge National Laboratory</i>,    por ejemplo, con una capacidad de c&aacute;lculo cercana a los 2 <i>Teraflops</i>,    billones de operaciones por segundo) est&aacute;n dedicados a la investigaci&oacute;n    biol&oacute;gica, concretamente a la obtenci&oacute;n y al an&aacute;lisis de    las secuencias de nucle&oacute;tidos de los genomas conocidos.     <br> </p>     <p>Ante tal situaci&oacute;n, uno de los retos de la bioinform&aacute;tica es    el desarrollo de m&eacute;todos que permitan integrar los datos gen&oacute;micos    &#150;de secuencia, de expresi&oacute;n, de estructura, de interacciones, etc.&#150;    para explicar el comportamiento global de la c&eacute;lula viva, minimizando    la intervenci&oacute;n humana. Dicha integraci&oacute;n, sin embargo, no puede    producirse sin considerar el conocimiento acumulado durante decenas de a&ntilde;os,    producto de la investigaci&oacute;n de miles de cient&iacute;ficos, recogido    en millones de comunicaciones cient&iacute;ficas.    <br> </p>     <p>La bioinform&aacute;tica se ocupa de la utilizaci&oacute;n y almacenamiento    de grandes cantidades de informaci&oacute;n biol&oacute;gica, es decir, trata    del uso de las computadoras para el an&aacute;lisis de la informaci&oacute;n    biol&oacute;gica, entendida esta como la adquisici&oacute;n y consulta de datos,    los an&aacute;lisis de correlaci&oacute;n, la extracci&oacute;n y el procesamiento    de la informaci&oacute;n. En otras palabras, la bioinform&aacute;tica es un    &aacute;rea del espacio que representa la biolog&iacute;a molecular computacional,    que incluye la aplicaci&oacute;n de las computadoras y de las ciencias de la    informaci&oacute;n en &aacute;reas como la geon&oacute;mica, el mapeo, la secuencia    y determinaci&oacute;n de las secuencias y estructuras por m&eacute;todos cl&aacute;sicos.    Las metas fundamentales de la bioinform&aacute;tica son la predicci&oacute;n    de la estructura tridimensional de las prote&iacute;nas a partir de su secuencia,    la predicci&oacute;n de las funciones biol&oacute;gicas y biof&iacute;sicas    a partir de la secuencia o la estructura, as&iacute; como simular el metabolismo    y otros procesos biol&oacute;gicos basados en esas funciones. Muchos de los    m&eacute;todos de la computaci&oacute;n y de las ciencias de la informaci&oacute;n    sirven para estos fines, incluyendo el aprendizaje de las m&aacute;quinas, las    teor&iacute;as de la informaci&oacute;n, la estad&iacute;stica, la teor&iacute;a    de los gr&aacute;ficos, los algoritmos, la inteligencia artificial, los m&eacute;todos    estoc&aacute;sticos, la simulaci&oacute;n, la l&oacute;gica, etc.    <br> </p>     ]]></body>
<body><![CDATA[<p>En la reuni&oacute;n <i>Chips to Hits</i> &#146;99, donde hubo representantes    de compa&ntilde;&iacute;as de <i>software</i> como <i>Lion Biosciences</i>,    <i>Informax</i>, <i>Molecular Applications Group o Gene Logic</i>, de empresas    farmac&eacute;uticas como <i>Bristol-Myers</i> y del <i>National Cancer Institute</i>    del gobierno estadounidense, se coment&oacute; que actualmente uno de los cuellos    de botella de los ensayos con tecnolog&iacute;as basadas en <i>biochips</i>    se encuentra en la carencia de herramientas bioinform&aacute;ticas adecuadas    para el an&aacute;lisis y gesti&oacute;n de los datos, debido a los enormes    vol&uacute;menes de datos que ellos generan. Asimismo, se resalt&oacute; la    necesidad de emplear las t&eacute;cnicas de la miner&iacute;a de datos, como    la mejor forma de obtener conocimientos a partir de los resultados experimentales.<span class="superscript">6</span>    <br> </p>     <p>&#147;El reto en la construcci&oacute;n de bases de datos es el establecimiento    de una arquitectura que permita la realizaci&oacute;n de b&uacute;squedas inteligentes,    la comunicaci&oacute;n con otras bases de datos y la uni&oacute;n con herramientas    de an&aacute;lisis y de miner&iacute;a de datos, espec&iacute;ficas, que permitan    responder a problemas biol&oacute;gicos concretos. Los cient&iacute;ficos, encargados    de la&nbsp; construcci&oacute;n de estas bases de datos, deben disponer de conocimientos    previos que permitan determinar cu&aacute;les problemas cient&iacute;ficos concretos    necesitan una soluci&oacute;n y cu&aacute;l o cu&aacute;les m&eacute;todos son    los mejores para resolverlos&#148;.&nbsp;&nbsp;As&iacute; se declara en el art&iacute;culo    &#147;Qu&eacute; es la Bioinform&aacute;tica&#148; publicado por BIOTIC. Y en    la propia publicaci&oacute;n del Instituto Carlos III de Madrid, Espa&ntilde;a,    se afirma: &#147;Se necesitan herramientas para gestionar informaci&oacute;n    gen&eacute;tica en paralelo. Para ello se emplean nuevas tecnolog&iacute;as    de extracci&oacute;n de conocimientos, miner&iacute;a de datos y visualizaci&oacute;n.    Se aplican t&eacute;cnicas de descubrimiento de conocimientos a problemas biol&oacute;gicos    como an&aacute;lisis de datos del genoma y el proteoma.&#148;<span class="superscript">7</span>&nbsp;    <br> </p>     <p>En estos momentos, la mayor&iacute;a de los proyectos que se desarrollan en    el mundo en materia de gen&oacute;mica y prote&oacute;mica, demandan la aplicaci&oacute;n    de t&eacute;cnicas de la miner&iacute;a de datos para poder determinar qu&eacute;    es realmente importante dentro del enorme volumen de informaci&oacute;n que    se genera diariamente en el mundo. Consid&eacute;rese que el n&uacute;mero total    de letras (pares de bases qu&iacute;micas) del ADN humano ha resultado ser de    3.120 millones. El Proyecto Genoma Humano asegur&oacute; que, a los 10 a&ntilde;os    de su creaci&oacute;n, ha terminado un primer borrador de la secuencia y completado    el 85 % del ensamblaje. De los 3.120 millones de datos que componen el &laquo;libro    de la vida&raquo;, los cient&iacute;ficos han encontrado que el 99,8 % son id&eacute;nticos    para todas las personas.    <br> </p>     <p>Como ha se&ntilde;alado <i>Ignacio F. Bayo</i>: &#147;El principal escollo    al que se enfrenta la prote&oacute;mica, y en general la biolog&iacute;a b&aacute;sica,    es la carencia de sistemas inform&aacute;ticos apropiados para la inmensa cantidad    de c&aacute;lculos implicados en este tipo de investigaciones&#148;.<span class="superscript">8</span>    <br> </p>     <p>El investigador del Consejo Superior de Investigaciones Cient&iacute;ficas,    <i>Alfonso Valencia</i>, quien se dedica al desarrollo de software para el an&aacute;lisis    de prote&iacute;nas en todos los niveles, an&aacute;lisis de genoma, determinaci&oacute;n    de secuencias y estructuras, as&iacute; como a la comparaci&oacute;n con bases    de datos o predicci&oacute;n de funciones, se&ntilde;ala: &#147;Pese a todo,    con los equipos m&aacute;s potentes se podr&iacute;a obtener mucha m&aacute;s    informaci&oacute;n que la que se consigue, pero existe otro problema: la dispersi&oacute;n    de los datos. Los investigadores y las empresas guardan celosamente los resultados    de sus trabajos debido a la posibilidad de realizar patentes a partir de ellos.    Incluso en los casos en que se coloca la informaci&oacute;n en la red es dif&iacute;cil    trabajar con ellos porque no se han desarrollado mecanismos adecuados de b&uacute;squeda.    &laquo;La base de datos de la National Library of Medicine de Estados Unidos    es la mayor fuente accesible computadorizada y contiene 10 millones de referencias,    pero s&oacute;lo est&aacute;n los sumarios de los art&iacute;culos t&eacute;cnicos,    luego tiene uno que buscar lo que le interese en otros sitios...&raquo;, se    queja Valencia y a&ntilde;ade: &laquo;Se trata de una informaci&oacute;n desestructurada,    que no puede incorporarse directamente para estudiar la funci&oacute;n de una    prote&iacute;na. Es, por as&iacute; decir, una informaci&oacute;n muerta. Lo    deseable ser&iacute;a poder cruzar datos de miles de genes o de prote&iacute;nas    para conseguir con rapidez indicios de su estructura y de su funci&oacute;n    que permitan avanzar en la investigaci&oacute;n. Una posibilidad ser&iacute;a    aplicar la tecnolog&iacute;a que est&aacute;n utilizando los buscadores en el    web para seleccionar cada vez con mayor precisi&oacute;n la informaci&oacute;n    demandada, mediante an&aacute;lisis estad&iacute;stico de las palabras claves    introducidas. Ahora se empiezan a aplicar estas t&eacute;cnicas en el campo    de la prote&oacute;mica, pero aun as&iacute;, resolver un proteoma, relativamente    sencillo, llevar&aacute; a&uacute;n muchos a&ntilde;os, decenios probablemente    en el caso del proteoma humano.&#148; 8 Consid&eacute;rese, que si se analiza    s&oacute;lo desde el punto de vista cuantitativo, los componentes del DNA son    cuatro nucle&oacute;tidos y sin embargo, las prote&iacute;nas la integran 20    amino&aacute;cidos. El aumento de volumen es evidente.    <br> </p> <h4>Consideraciones finales</h4>     ]]></body>
<body><![CDATA[<p>El desarrollo de la tecnolog&iacute;a de miner&iacute;a de datos est&aacute;    en un punto de inflexi&oacute;n, con respecto a su consolidaci&oacute;n, en    las aplicaciones. Existen una serie de elementos que la hacen aplicable, y una    realidad que la demanda; sin embargo, existe una serie de retos que atentan    contra su credibilidad. Uno de ellos es que los productos comercializados son    costosos, por tanto los consumidores pueden hallar una relaci&oacute;n costo/beneficio    improductiva.     <br> </p>     <p>La aplicaci&oacute;n de la miner&iacute;a de datos, adem&aacute;s de permitir    el descubrimiento de conocimientos para el sector comercial, soporta las investigaciones    en la rama biol&oacute;gica, encuentran en ella una herramienta insustituible    para enfrentar la avalancha de datos que producen las investigaciones gen&oacute;micas    y prote&oacute;micas. En este sentido, es necesario continuar elaborando herramientas    computa-cionales apropiadas para su uso en varios proyectos y elevar el nivel    de conocimientos sobre su utilidad para los investigadores.    <br> </p>     <p>Algunos de los factores que pueden crear una desilusi&oacute;n con las promesas    de la miner&iacute;a de datos son:</p> <ul>       <li>Que se necesite mucha experiencia para utilizar herramientas de la tecnolog&iacute;a,      o que sea f&aacute;cil hallar patrones equ&iacute;vocos, triviales o no interesantes.          <br>   </li>       <li>Que no sea posible hallar patrones en tiempo o en espacio.    <br>   </li>       <li>Que no se establezca una adecuada comunicaci&oacute;n en los equipos multidis-ciplinarios      para elegir la herramienta adecuada y que, por lo tanto, no se alcancen los      resultados esperados.    ]]></body>
<body><![CDATA[<br>   </li>       <li>Que existan razones organizativas, &eacute;ticas o de otro car&aacute;cter      que impidan la utilizaci&oacute;n de toda la informaci&oacute;n necesaria      para la aplicaci&oacute;n de estas herramientas.</li>     </ul>     <p>La primera d&eacute;cada del siglo xxi, ser&aacute; un per&iacute;odo de importancia    para la aplicaci&oacute;n de estas herramientas a gran escala.</p> <h4>Abstract</h4>     <p>An extraordinary advance of the biomedical sciences will take place in the    next years as a result of the Human Genome project. The new technologies based    on the molecular genetics and informatics are key factors for this development,    since they provide powerful tools for the obtention and analysis of genetic    information. The appearance of new technologies has made possible the development    of genomics, on making possible the study of the interactions of genes and their    influence on the development of diseases. All this influences on the clinical    diagnosis, the investigation of new drugs epidemiology and medical informatics.    In the last years, data mining has experienced an increase as a support for    the phylosophies of information management and knowledge, as well as for the    discovery of the meaning of the data stored in big banks. This allows to explore    and analyze the databases available to help in the decision-making process and    it also facilitates the extraction of the information existing in the texts    and to create smart systems capable of understanding them. This is commonly    known as text mining. The basic components of data mining and its application    to an emerging and trascendent scientifc activity, bioinformatics, are synthetically    described.</p>     <p>Subject headings: COMPUTATIONAL BIOLOGY; MEDICAL INFORMATICS; DATABASES; DECISI&Oacute;N    MAKING</p> <h4>Referencias bibliogr&aacute;ficas</h4> <ol>       <li>         <!-- ref --><div align="left"> Consultor&iacute;a BIOMUNDI. Estado del arte en Bioinform&aacute;tica.        La Habana: Consultor&iacute;a BIOMUNDI, 2001.    <br>     </div>   </li>       <li>         ]]></body>
<body><![CDATA[<!-- ref --><div align="left"> Morales E. Descubrimiento de conocimientos en bases de        datos. [Disponible en: http://w3.mor.itesm.mx/~emorales/Cursos/KDD/node9.html]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Goglino D. Miner&iacute;a de datos. [Disponible en: http://www.infonews21.com/columnas/goglino/goglino.htm]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Accrue Software. An Introduction to OLAP Multidimensional        Terminology and Technology. [Disponible en: http://www.accrue.com/olap/wp_intro_olap.pdf]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Mart&iacute;n S&aacute;nchez F, L&oacute;pez Campos G,        Maojo Garc&iacute;a V. Bioinform&aacute;tica y salud: impactos de la aplicaci&oacute;n        de las nuevas tecnolog&iacute;as para el tratamiento de la informaci&oacute;n        gen&eacute;tica en la investigaci&oacute;n biom&eacute;dica y la pr&aacute;ctica        cl&iacute;nica. Inform&aacute;tica y Salud 1999;(19). [Disponible en: http://www.seis.es/i_s/i_s19/i_s19l.htm]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Parsaye K. DataMines for DataWarehouses. [Disponible en:        http://www.datamining.com/    ]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Unidad de Coordinaci&oacute;n de Inform&aacute;tica Sanitaria        (BIOTIC). &iquest;Qu&eacute; es la Bioinform&aacute;tica? [Disponible en:        http://biotic.isciii.es/informacion/bioinfo/definicion/queesbioinfo.htm]    <br>     </div>   </li>       <li>         <!-- ref --><div align="left"> Bayo IF. El pr&oacute;ximo desaf&iacute;o se llama proteoma.        [Disponible en: http://www.elpais.es/especiales/2000/genoma/descifra/proteoma.html]</div>   </li>    </ol>     <p>Recibido: 25 de octubre del 2001    <br>   Aprobado: 13 de noviembre del 2001</p>     <p>Dr. <i>Juan Pedro Febles Rodr&iacute;guez</i>    <br>   Centro Nacional de Bioinform&aacute;tica    <br>   Calle 17 No. 1420 e/n 26 y 28, El Vedado, Ciudad de La Habana. Cuba. Correo    electr&oacute;nico: <a href="mailto:febles@aid.inf.cu">mailto:febles@aid.inf.cu</a></p>     <p><a href="#autor">1 Doctor en Ciencias Técnicas. Profesor Titular en Informática    Médica. Director del Centro Nacional de Bioinformática.    <br>   2 Licenciado en Bioquímica. Centro Nacional de Bioinformática.</a><a name="cargo"></a><a href="#%20autor">    <br>   </a> </p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<collab>Consultoría BIOMUNDI</collab>
<source><![CDATA[Estado del arte en Bioinformática]]></source>
<year>2001</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Consultoría BIOMUNDI]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Morales]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Descubrimiento de conocimientos en bases de datos]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Goglino]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Minería de datos]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<collab>Accrue Software</collab>
<source><![CDATA[An Introduction to OLAP Multidimensional Terminology and Technology]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martín Sánchez]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[López Campos]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Maojo García]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Bioinformática y salud:: impactos de la aplicación de las nuevas tecnologías para el tratamiento de la información genética en la investigación biomédica y la práctica clínica]]></article-title>
<source><![CDATA[Informática y Salud]]></source>
<year>1999</year>
<numero>19</numero>
<issue>19</issue>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Parsaye]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[DataMines for DataWarehouses]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<collab>Unidad de Coordinación de Informática Sanitaria (BIOTIC)</collab>
<source><![CDATA[Qué es la Bioinformática?]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bayo]]></surname>
<given-names><![CDATA[IF]]></given-names>
</name>
</person-group>
<source><![CDATA[El próximo desafío se llama proteoma]]></source>
<year></year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
