<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1684-1859</journal-id>
<journal-title><![CDATA[Revista Cubana de Informática Médica]]></journal-title>
<abbrev-journal-title><![CDATA[RCIM]]></abbrev-journal-title>
<issn>1684-1859</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Ciencias Médicas de La Habana]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1684-18592012000200007</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Técnicas de minería de datos aplicadas al diagnóstico de entidades clínicas]]></article-title>
<article-title xml:lang="en"><![CDATA[Data mining techniques aplied to diagnosys of clinical entities]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Dávila Hernández]]></surname>
<given-names><![CDATA[Frank]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sánchez Corales]]></surname>
<given-names><![CDATA[Yovannys]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,CESIM Departamento Atención Primaria de Salud Universidad de las Ciencias Informáticas]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2012</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2012</year>
</pub-date>
<volume>4</volume>
<numero>2</numero>
<fpage>174</fpage>
<lpage>183</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1684-18592012000200007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1684-18592012000200007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1684-18592012000200007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Disminuir el error médico y mejorar los procesos de salud es prioridad de todo el personal sanitario. En este contexto surgen los "Sistemas Clínicos de Soporte para la Toma de Decisiones" (CDSS), los cuales son un componente fundamental en la informatización de la capa clínica. Con la evolución de las tecnologías gran cantidad de datos han podido ser estudiados y clasificados a partir de la minería de datos. Una de las principales ventajas de la utilización de esta, en los CDSS, ha sido su capacidad de generar nuevos conocimientos. Con este fin se propone, mediante la combinación de dos modelos matemáticos, cómo se puede contribuir al diagnóstico de enfermedades usando técnicas de minería de datos. Para mostrar los modelos utilizados se tomó como caso de estudio la hipertensión arterial. El desarrollo de la investigación se rige por la metodología más utilizada actualmente en los procesos de Descubrimiento de Conocimiento en Bases de Datos: CRISP-DM 1.0, y se apoya en la herramienta de libre distribución WEKA 3.6.2, de gran prestigio entre las utilizadas para el modelado de minería de datos. Como resultados se obtuvieron diversos patrones de comportamiento con relación a los factores de riesgo a sufrir hipertensión mediante técnicas de minería de datos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Reduce medical errors and improve health processes is a priority of all health personnel. In this context arise the "Clinical Support Systems for Decision Making" (CDSS), which are a key component in computerization of the clinical layer. With the evolution of technologies, large amounts of data have been studied and classified based on data mining. One of the main advantages of using this in the CDSS, has been its ability to generate new knowledge. For this purpose, this paper presents, by combining two mathematical models, a way to contribute to the diagnosis of diseases using data mining techniques. Hypertension was taken as a case study to show the models used. The research development methodology follows the most used processes of knowledge discovery in databases: CRISP-DM 1.0, and relies on the free distribution tool WEKA 3.6.2. We obtained different patterns of behavior in relation to risk factors for developing hypertension using data mining techniques.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[CRISP-DM]]></kwd>
<kwd lng="es"><![CDATA[hipertensión arterial]]></kwd>
<kwd lng="es"><![CDATA[KDD]]></kwd>
<kwd lng="es"><![CDATA[minería de datos]]></kwd>
<kwd lng="es"><![CDATA[diagnóstico clínico]]></kwd>
<kwd lng="es"><![CDATA[WEKA]]></kwd>
<kwd lng="en"><![CDATA[CRISP-DM]]></kwd>
<kwd lng="en"><![CDATA[data mining]]></kwd>
<kwd lng="en"><![CDATA[arterial hypertension]]></kwd>
<kwd lng="en"><![CDATA[KDD]]></kwd>
<kwd lng="en"><![CDATA[clinical diagnosys]]></kwd>
<kwd lng="en"><![CDATA[WEKA]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2" face="Verdana"><strong>ART&Iacute;CULO ORIGINAL</strong></font></p>     <p align="right">&nbsp;</p>     <p align="left"><font size="4" face="Verdana"><strong>T&eacute;cnicas de miner&iacute;a    de datos aplicadas al diagn&oacute;stico de entidades cl&iacute;nicas</strong></font></p>     <p align="left">&nbsp;</p>     <p align="left"><font size="3" face="Verdana"><strong>Data mining techniques aplied    to diagnosys of clinical entities</strong></font></p>     <p align="left">&nbsp;</p>     <p align="left">&nbsp;</p>     <p align="left"><font size="2" face="Verdana"><strong>Frank D&aacute;vila Hern&aacute;ndez,<sup>I</sup>    Yovannys S&aacute;nchez Corales,<sup>II</sup> </strong></font></p>     <P><font size="2" face="Verdana"> <sup>I</sup>CESIM. Departamento Atenci&oacute;n    Primaria de Salud. Universidad de las Ciencias Inform&aacute;ticas, Carretera    a San Antonio de los Ba&ntilde;os, km 2 &#189;, Torrens, Boyeros, La Habana,    Cuba. E-mail: <a href="mailto:fdavila@uci.cu">fdavila@uci.cu</a>    <br>   <sup>II</sup>CESIM. Departamento Atenci&oacute;n Primaria de Salud. Universidad    de las Ciencias Inform&aacute;ticas, Carretera a San Antonio de los Ba&ntilde;os,    km 2 &#189;, Torrens, Boyeros, La Habana, Cuba. E-mail: <a href="mailto:yscorales@uci.cu">yscorales@uci.cu</a></font>      ]]></body>
<body><![CDATA[<P>&nbsp;     <P>&nbsp; <hr> <font size="2" face="Verdana"><strong>RESUMEN</strong></font>      <P><font size="2" face="Verdana">Disminuir el error m&eacute;dico y mejorar los    procesos de salud es prioridad de todo el personal sanitario. En este contexto    surgen los &quot;Sistemas Cl&iacute;nicos de Soporte para la Toma de Decisiones&quot;    (CDSS), los cuales son un componente fundamental en la informatizaci&oacute;n    de la capa cl&iacute;nica. Con la evoluci&oacute;n de las tecnolog&iacute;as    gran cantidad de datos han podido ser estudiados y clasificados a partir de    la miner&iacute;a de datos. Una de las principales ventajas de la utilizaci&oacute;n    de esta, en los CDSS, ha sido su capacidad de generar nuevos conocimientos.    Con este fin se propone, mediante la combinaci&oacute;n de dos modelos matem&aacute;ticos,    c&oacute;mo se puede contribuir al diagn&oacute;stico de enfermedades usando    t&eacute;cnicas de miner&iacute;a de datos. Para mostrar los modelos utilizados    se tom&oacute; como caso de estudio la hipertensi&oacute;n arterial. El desarrollo    de la investigaci&oacute;n se rige por la metodolog&iacute;a m&aacute;s utilizada    actualmente en los procesos de Descubrimiento de Conocimiento en Bases de Datos:    CRISP-DM 1.0, y se apoya en la herramienta de libre distribuci&oacute;n WEKA    3.6.2, de gran prestigio entre las utilizadas para el modelado de miner&iacute;a    de datos. Como resultados se obtuvieron diversos patrones de comportamiento    con relaci&oacute;n a los factores de riesgo a sufrir hipertensi&oacute;n mediante    t&eacute;cnicas de miner&iacute;a de datos. </font>     <P><font size="2" face="Verdana"><strong><font size="2" face="Verdana">P</font></strong><font size="2" face="Verdana"><strong>alabras    clave:</strong></font></font><font size="2" face="Verdana"> </font><font size="2" face="Verdana">CRISP-DM,    hipertensi&oacute;n arterial, KDD, miner&iacute;a de datos, diagn&oacute;stico    cl&iacute;nico, WEKA. </font> <hr> <font size="2" face="Verdana"><strong>ABSTRACT</strong></font>      <P><font size="2" face="Verdana">Reduce medical errors and improve health processes    is a priority of all health personnel. In this context arise the &quot;Clinical    Support Systems for Decision Making&quot; (CDSS), which are a key component    in computerization of the clinical layer. With the evolution of technologies,    large amounts of data have been studied and classified based on data mining.    One of the main advantages of using this in the CDSS, has been its ability to    generate new knowledge. For this purpose, this paper presents, by combining    two mathematical models, a way to contribute to the diagnosis of diseases using    data mining techniques. Hypertension was taken as a case study to show the models    used. The research development methodology follows the most used processes of    knowledge discovery in databases: CRISP-DM 1.0, and relies on the free distribution    tool WEKA 3.6.2. We obtained different patterns of behavior in relation to risk    factors for developing hypertension using data mining techniques. </font>     <P><font size="2" face="Verdana"><strong>Key words:</strong></font><font size="2" face="Verdana">    </font><font size="2" face="Verdana">CRISP-DM, data mining, arterial hypertension,    KDD, clinical diagnosys, WEKA.</font> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"> <strong>INTRODUCCI&Oacute;N </strong></font></p>     <P><font size="2" face="Verdana">La Universidad de las Ciencias Inform&aacute;ticas    (UCI), posee varios centros de desarrollo de software. El Centro de Inform&aacute;tica    M&eacute;dica (CESIM) es uno de ellos, encargado del desarrollo de aplicaciones    para el sector de la salud; entre estas se encuentra el Sistema Integral para    la Atenci&oacute;n Primaria de la Salud (alas SIAPS), el cual posee un componente    de tipo Sistema Cl&iacute;nico de Soporte para la Toma de Decisiones (CDSS),<sup>1</sup>    para que facilite el procesamiento anal&iacute;tico en l&iacute;nea y la miner&iacute;a    de datos y que servir&aacute; adem&aacute;s al resto de los ambientes bajo un    escenario tecnol&oacute;gicamente s&oacute;lido. Actualmente en el Centro de    Toma de Decisiones se est&aacute; manejando la informaci&oacute;n con t&eacute;cnicas    estad&iacute;sticas; sin embargo, con estas t&eacute;cnicas no se est&aacute;    aprovechando al m&aacute;ximo la informaci&oacute;n almacenada. </font>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Las Historias Cl&iacute;nicas Electr&oacute;nicas    (HCE)<sup>2 </sup> pertenecientes al alas SIAPS, se encuentran almacenadas en    un gran repositorio y su informaci&oacute;n se env&iacute;a peri&oacute;dicamente    a un Datamart.<sup>3 </sup>Dado el gran volumen de datos acumulado en &eacute;l,    y la incapacidad de los especialistas de identificar patrones de comportamiento    y extraer conocimiento oculto en los datos almacenados para apoyar sus decisiones,    surge la necesidad de aplicar la miner&iacute;a de datos. </font>      <P><font size="2" face="Verdana">En la actualidad, la Hipertensi&oacute;n Arterial    se ha convertido en una de las primeras causas de muertes en el mundo. Seg&uacute;n    el reporte de la Organizaci&oacute;n Mundial de la Salud (OMS) del 2012<sup>4</sup>    1 de cada 3 personas en el mundo padece de Hipertensi&oacute;n Arterial; adem&aacute;s    agrega que 1 de cada 10 personas es diab&eacute;tica. Algunos autores como Cumb&aacute;,<sup>5</sup>    coinciden que anualmente existen 7.2 millones de muertes por enfermedades del    coraz&oacute;n. La hipertensi&oacute;n arterial es la segunda causa de muerte    a nivel mundial, se reconoce internacionalmente como &quot;muerte silenciosa&quot;    pues en la mayor&iacute;a de los casos los pacientes tienden a ser asintom&aacute;ticos.    </font>      <P><font size="2" face="Verdana">Debido al gran volumen de datos existentes en    el datamart, se dificulta la toma de decisiones de los especialistas para realizar    un an&aacute;lisis r&aacute;pido y efectivo y de esta manera encontrar informaci&oacute;n    &uacute;til y valiosa oculta en ellos; por otra parte, la no predicci&oacute;n    del comportamiento futuro de algunos problemas de salud presentes en las HCE    con un alto porcentaje de certeza, basado en el entendimiento del pasado. </font>     <P><font size="2" face="Verdana">La miner&iacute;a de datos<sup>6</sup> es un    &aacute;rea de la inteligencia artificial que permite darle soluci&oacute;n    al problema descrito, la misma se basa en varias disciplinas, algunas de ellas    m&aacute;s tradicionales, se distingue de ellas en la orientaci&oacute;n m&aacute;s    hacia el fin que hacia el medio. Y el fin lo merece: ser capaces de extraer    patrones, de describir tendencias y regularidades, de predecir comportamientos    y, en general, de sacar partido a la informaci&oacute;n computarizada que nos    rodea hoy en d&iacute;a y que permite a los individuos y a las organizaciones    comprender y modelar de una manera m&aacute;s eficiente y precisa el contexto    en el que deben actuar y tomar decisiones. </font>      <P><font size="2" face="Verdana">En este art&iacute;culo se propone exponer, mediante    la combinaci&oacute;n de dos modelos matem&aacute;ticos, c&oacute;mo se puede    contribuir al diagn&oacute;stico de enfermedades, usando t&eacute;cnicas de    miner&iacute;a de datos. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>MATERIAL Y M&Eacute;TODOS </strong></font>      <P><font size="2" face="Verdana">Para mostrar la forma de combinar los modelos,    se tom&oacute; como caso de estudio la hipertensi&oacute;n arterial. Esta entidad    se encuentra con relativa frecuencia en las personas que trabajan y/o estudian    en nuestra universidad, lo que permiti&oacute; disponer de una base de datos    propia que sirviera de ejemplo, a pesar de ser una base peque&ntilde;a y de    personas relativamente j&oacute;venes. La hipertensi&oacute;n arterial no es    la entidad m&aacute;s apropiada como ejemplo para el uso de la miner&iacute;a    de datos, ya que est&aacute; bastante bien estudiada y no necesita someterse    a estas t&eacute;cnicas inform&aacute;ticas modernas para establecer su diagn&oacute;stico    positivo. Por este motivo, es importante destacar que los datos analizados en    este trabajo pudieran no corresponderse con la realidad. Sin embargo debe prestarse    mayor atenci&oacute;n a la importancia que tiene la utilizaci&oacute;n de dichas    t&eacute;cnicas en la inform&aacute;tica aplicada a la medicina. </font>     <P><font size="2" face="Verdana"> <strong>Metodolog&iacute;a computacional, tecnolog&iacute;as    y lenguajes utilizados </strong></font>      <P><font size="2" face="Verdana">Cuando se va a realizar un proyecto de miner&iacute;a    siempre es necesario contar con una metodolog&iacute;a que gu&iacute;e todo    el proceso. En este caso, se seleccion&oacute; CRISP-DM versi&oacute;n 1.0 como    metodolog&iacute;a de desarrollo a utilizar en el proceso de Miner&iacute;a    de Datos. </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La CRISP-DM (Cross Industry Standard Process    for Data Mining) es una metodolog&iacute;a de libre distribuci&oacute;n que    puede trabajar con cualquier herramienta para desarrollar cualquier proyecto.    Esta metodolog&iacute;a estructura el ciclo de vida de un proyecto de Miner&iacute;a    de Datos en seis fases, que interact&uacute;an entre ellas de forma iterativa    durante el desarrollo del proyecto. Fue dise&ntilde;ada de forma neutra a la    herramienta que se utilice para el desarrollo del proyecto, es de distribuci&oacute;n    libre y se encuentra en constante perfeccionamiento por parte de la comunidad    internacional.<sup>7</sup></font>      <P><font size="2" face="Verdana">Para realizar el pre-procesado, los que deseen    extraer conocimientos a partir de datos deben apoyarse en herramientas de software    que les faciliten la tarea. Despu&eacute;s de haber realizado un an&aacute;lisis    exhaustivo y un estudio comparativo entre aquellas que gozan de mayor popularidad    en el mercado se selecciona WEKA versi&oacute;n 3.6.2 como herramienta a utilizar    en el proceso de miner&iacute;a de datos. </font>     <P><font size="2" face="Verdana">WEKA (Waikato Environment for Knowledge Analysis)<sup>8    </sup>es una herramienta visual de libre distribuci&oacute;n bajo licencia GNU    desarrollada por un equipo de investigadores de la Universidad de Waikato de    Nueva Zelanda. La herramienta est&aacute; implementada en Java. Es interesante    remarcar que, dado que se trata de una herramienta bajo licencia GNU, es posible    actualizar su c&oacute;digo fuente para incorporar nuevas utilidades o modificar    las ya existentes, de ah&iacute; que podamos encontrar toda una serie de proyectos    asociados a WEKA que permiten garantizar la continua evoluci&oacute;n y adaptaci&oacute;n    de dicha herramienta.<sup>9</sup></font>      <P><font size="2" face="Verdana">PostgreSQL es un sistema de gesti&oacute;n de    base de datos (SGBD) objeto-relacional que posee una gran escalabilidad. Es    capaz de ajustarse al n&uacute;mero de computadoras y a la cantidad de memoria    que posee el sistema de forma &oacute;ptima, pudiendo soportar una mayor cantidad    de peticiones simult&aacute;neas de manera correcta. Es multiplataforma, se    seleccion&oacute; teniendo en cuenta la necesidad de utilizar herramientas libres,    para el desarrollo, adem&aacute;s de que es un gestor confiable, estable, con    control de concurrencia y funcionalidades que lo destacan como uno de los SGBD    m&aacute;s potentes en la actualidad.<sup>10</sup></font>     <P><font size="2" face="Verdana"><strong>Trabajos relacionados </strong></font>      <P><font size="2" face="Verdana">Actualmente el panorama es alentador con respecto    al desarrollo de aplicaciones que utilizan la miner&iacute;a de datos. Existen    un conjunto de t&eacute;cnicas y herramientas capaces de ayudar a la toma de    decisiones de los expertos. A pesar de ser relativamente joven, la miner&iacute;a    de datos presenta aplicaciones en casi todos los sectores de la sociedad. En    la salud, a nivel internacional se destaca la &quot;Aplicaci&oacute;n de t&eacute;cnicas    de miner&iacute;a de datos para el diagn&oacute;stico prematuro del c&aacute;ncer    de mamas&quot;. Este sistema se encarga de realizar un diagn&oacute;stico del    c&aacute;ncer de mama a partir de una base de datos de im&aacute;genes de mamograf&iacute;as.<sup>11    </sup> En Cuba se han desarrollado investigaciones como por ejemplo &quot;Aplicaciones    de la miner&iacute;a de datos para el an&aacute;lisis de la Informaci&oacute;n    Cl&iacute;nica&quot;. Este estudio se basa en el apoyo a la toma de decisiones    a partir de coronariograf&iacute;as realizadas a pacientes que padecen cardiopat&iacute;as    isqu&eacute;micas.<sup>12 </sup> La UCI tampoco ha estado ajena al desarrollo    de aplicaciones que emplean la miner&iacute;a de datos, y en ese sentido se    destaca el &quot;Diagn&oacute;stico de enfermedades de transmisi&oacute;n sexual    mediante t&eacute;cnicas de inteligencia artificial&quot;, que utiliza la informaci&oacute;n    proveniente de un documento Excel para la creaci&oacute;n de una aplicaci&oacute;n    basada en reglas que ayuda a diagnosticar si una persona est&aacute; infectada    de blenorragia o clamidia.<sup>13</sup></font>      <P><font size="2" face="Verdana">En los tres casos anteriormente mencionados existe    una limitante com&uacute;n si se compara con el sistema que este trabajo propone,    y es que la informaci&oacute;n que utilizan para generar los modelos proviene    de diversas fuentes y en distintos formatos y no permiten extraerla a partir    de un Repositorio Centralizado de Documentos Cl&iacute;nicos. </font>     <P><font size="2" face="Verdana"> <strong>Algoritmos utilizados </strong></font>      <P><font size="2" face="Verdana">Para el desarrollo de la investigaci&oacute;n    se seleccionaron dos algoritmos, el J48 dentro de la t&eacute;cnica supervisada    &Aacute;rboles de Decisi&oacute;n y el Simple K-Means para el desarrollo de    la t&eacute;cnica no supervisada Agrupamiento. Los mismos fueron seleccionados    debido a que son, de acuerdo a la bibliograf&iacute;a consultada, los m&aacute;s    utilizados mundialmente dentro de las t&eacute;cnicas a la que pertenecen. El    algoritmo J48 ampl&iacute;a las funcionalidades del C4.5, tales como permitir    la realizaci&oacute;n del proceso de post-poda del &aacute;rbol mediante un    m&eacute;todo basado en la reducci&oacute;n del error o que las divisiones sobre    las variables discretas sean siempre binarias. Este algoritmo permite modelar    el resultado del &aacute;rbol de decisi&oacute;n en lenguaje SQL, tiene una    gran velocidad computacional y existe una acertada fiabilidad de los resultados.<sup>14    </sup> El algoritmo Simple K-Means pertenece al grupo de algoritmos de partici&oacute;n-optimizaci&oacute;n,    garantiza una elevada semejanza intra-cl&uacute;ster y desemejanza inter-cl&uacute;ster.    Este algoritmo presenta como propiedades fundamentales gran velocidad, la cual    puede ser considerable cuando se trata de grandes vol&uacute;menes de datos,    devuelve al usuario buenos resultados y da la posibilidad de cambiar los puntos    in&iacute;ciales y obtener resultados diferentes.<sup>15</sup></font>      <P><font size="2" face="Verdana"> <strong>Soluci&oacute;n</strong> </font>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Lo primero ser&aacute; crear una vista minable,    para ello se deben realizar con anterioridad, seg&uacute;n CRISP-DM, varios    pasos que posibilitar&aacute;n la adecuada configuraci&oacute;n de los registros    que se desean analizar. Los mismos se describen brevemente a continuaci&oacute;n.    </font>     <P><font size="2" face="Verdana">Para recolectar los datos necesarios en la investigaci&oacute;n    se hizo un an&aacute;lisis de la hipertensi&oacute;n arterial, para lo cual    se le realizaron encuestas a los especialistas en este tema. Cada una de las    variables que se tuvieron en cuenta fue localizada en las tablas del almac&eacute;n    de HCE y posteriormente descritas para optimizar la comprensi&oacute;n de las    mismas. Los datos contenidos en el almac&eacute;n fueron sometidos a un riguroso    an&aacute;lisis basado fundamentalmente en cuanto a representaci&oacute;n de    la realidad, consistencia, campos innecesarios, campos vac&iacute;os y datos    de naturaleza h&iacute;brida o poco genuina. </font>     <P><font size="2" face="Verdana">Una vez efectuada la recolecci&oacute;n inicial    de datos, se procede a su preparaci&oacute;n para adaptarlos a las t&eacute;cnicas    de miner&iacute;a de datos que se utilicen posteriormente. La preparaci&oacute;n    de datos incluye las tareas generales de selecci&oacute;n de datos a los que    se va a aplicar una determinada t&eacute;cnica de modelado, limpieza de datos,    generaci&oacute;n de variables adicionales, integraci&oacute;n de diferentes    or&iacute;genes de datos y cambios de formato. En este punto se deciden seleccionar    los atributos y tuplas que ser&aacute;n incluidos en el proceso de miner&iacute;a.    </font>     <P><font size="2" face="Verdana"><u>Atributos</u>: genero_paciente, etnia_paciente,    edad_paciente. </font>      <P><font size="2" face="Verdana"><u>Tuplas</u>: Antecedentes familiares de enfermedades    cardiovasculares, de diabetes mellitus, de hipertensi&oacute;n arterial y de    enfermedades renales; antecedentes personales de enfermedades endocrinas, de    enfermedades cardiovasculares y de enfermedades renales; disnea, edemas, palpitaciones,    n&aacute;useas, cefalea y dolor abdominal. </font>      <P><font size="2" face="Verdana">Posteriormente se analizan los datos que son    necesarios para el proyecto y se combinan con el objetivo de obtener la informaci&oacute;n    que proviene de las diferentes dimensiones del almac&eacute;n de datos integradas    en una sola tabla: <em>pre_vista_minable</em>. A esta tabla se le aplicaron    un conjunto de transformaciones para las cuales se hizo necesaria la creaci&oacute;n    de un software desarrollado en el IDE NetBeans, el cual funciona como intermediario    entre la tabla <em>md.pre_vista_minable</em> y <em>md.vista_minable_j48</em>    (<a href="/img/revistas/rcim/v4n2/f0107212.jpg">Fig. 1</a>), tabla que almacena los datos que ser&aacute;n    utilizados para la creaci&oacute;n del modelo mediante &aacute;rboles de decisi&oacute;n.    Se gener&oacute; adem&aacute;s de la tabla <em>md.vista_minable_j48</em>, una    llamada <em>md.vista_minable_skm</em> (<a href="/img/revistas/rcim/v4n2/f0207212.jpg">Fig. 2</a>), tabla    que almacena los datos que ser&aacute;n utilizados para la creaci&oacute;n del    modelo mediante agrupamiento, la misma es un duplicado de <em>md.vista_minable_j48</em>,    la diferencia radica en que sus tuplas son num&eacute;ricas, esto permite una    mejor asignaci&oacute;n de las variables a la hora de calcular los centroides    de los grupos.</font>     
<P>&nbsp;     <P><font size="3" face="Verdana"> <strong>RESULTADOS Y DISCUSI&Oacute;N </strong></font>      <P><font size="2" face="Verdana">Los datos utilizados en esta investigaci&oacute;n    fueron recopilados de 78 historias cl&iacute;nicas de pacientes hipertensos    en la Universidad de las Ciencias Inform&aacute;ticas. Debe insistirse en resaltar    que al ser datos de pacientes con caracter&iacute;sticas espec&iacute;ficas,    en su gran mayor&iacute;a j&oacute;venes, esta no es una muestra representativa    de la entidad. Sin embargo, la investigaci&oacute;n se propone analizar relaciones    entre los factores de riesgos (antecedentes patol&oacute;gicos tanto personales    como familiares, problemas de salud y h&aacute;bitos personales) y determinar    mediante la t&eacute;cnica de &aacute;rboles de decisi&oacute;n cu&aacute;les    son los patrones o comportamientos gen&eacute;ricos que caracterizan a los pacientes    que acuden a consulta y que permiten ayudar a predecir la enfermedad, y mediante    agrupamiento cu&aacute;les son los grupos de edades, regiones poblacionales,    y otros datos de inter&eacute;s, que m&aacute;s son afectados por la hipertensi&oacute;n    arterial; as&iacute; como establecer relaciones entre las variables analizadas    y c&oacute;mo influyen unas con respecto a las otras. </font>      <P><font size="2" face="Verdana">A continuaci&oacute;n se describen los modelos    obtenidos as&iacute; como los patrones identificados para cada uno de ellos,    sin &aacute;nimo de generalizarlos, brindando algunos detalles que servir&aacute;n    para una mayor comprensi&oacute;n de los mismos. Seguidamente se muestra el    modelo obtenido despu&eacute;s de haber aplicado el algoritmo Simple K-Means    sobre los datos de entrenamiento almacenados en la tabla <em>vista_minable_skm</em>.    Se procedi&oacute; a agrupar el set de datos en tres grupos. Para la ejecuci&oacute;n    de este algoritmo es necesario seleccionar un n&uacute;mero, denominado semilla,    para realizar una distribuci&oacute;n aleatoria inicial a partir de la cual    el algoritmo comience las sucesivas iteraciones. Para la selecci&oacute;n de    este n&uacute;mero se realizaron 20 corridas consecutivas probando distintas    semillas y se seleccion&oacute; aquella que minimizaba la suma del error cuadr&aacute;tico    (semilla igual 8). Si bien este m&eacute;todo heur&iacute;stico no garantiza    la semilla &oacute;ptima, asegura una relativamente buena asignaci&oacute;n.<sup>15</sup>    En la <a href="/img/revistas/rcim/v4n2/f0307212.jpg">figura 3</a> se sintetiza un fragmento del resultado    obtenido con WEKA tras la ejecuci&oacute;n de Simple K-Means con 3 grupos y    una semilla de 8. Antes de realizar un an&aacute;lisis a profundidad sobre este    modelo, primero es necesario observar las caracter&iacute;sticas de cada grupo    obtenido una vez aplicado el algoritmo. </font>     
]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">A partir de la interpretaci&oacute;n conjunta    de los gr&aacute;ficos de dispersi&oacute;n podemos descubrir en el conjunto    de datos lo siguiente: </font>      <P><font size="2" face="Verdana"><strong>- Grupo 0 (40%):</strong> se destacan    las personas que se encuentran entre 45 y 65 a&ntilde;os de edad, predomina    el sexo masculino y la mayor&iacute;a de ellos son de raza mestiza. La distribuci&oacute;n    de los pacientes que tienen antecedentes patol&oacute;gicos familiares de hipertensi&oacute;n    arterial es bastante uniforme; sin embargo, se puede apreciar una ligera mayor&iacute;a    de personas que no tienen este tipo de antecedente. </font>      <P><font size="2" face="Verdana"><strong>- Grupo 1 (26%):</strong> Muy concentrado    por personas de m&aacute;s de 65 a&ntilde;os de edad, generalmente del sexo    femenino y hay mayor concentraci&oacute;n de personas de raza blanca. En este    grupo, aunque al igual que en el grupo 0 existe una distribuci&oacute;n relativamente    uniforme de casos de antecedentes familiares de hipertensi&oacute;n arterial,    es m&aacute;s notable que en la generalidad de los casos tampoco presentan antecedentes    de esta &iacute;ndole. </font>      <P><font size="2" face="Verdana"><strong>- Grupo 2 (34%):</strong> Representa    en su mayor&iacute;a a las personas que son menores de 45 a&ntilde;os de edad,    generalmente masculinos de raza negra. Se puede apreciar una notable concentraci&oacute;n    de personas que s&iacute; presentan antecedentes de hipertensi&oacute;n arterial    en su familia. </font>      <P><font size="2" face="Verdana">- Se puede apreciar que en los 3 grupos la generalidad    de los pacientes que se encuentran agrupados son personas que tienen hipertensi&oacute;n    arterial. </font>     <P><font size="2" face="Verdana">Una vez analizado el contenido de cada grupo    se deducen a grandes rasgos los siguientes patrones: </font>     <P><font size="2" face="Verdana">- En el 40% de los casos de los pacientes que    padecen hipertensi&oacute;n arterial est&aacute;n entre 45 y 65 a&ntilde;os    de edad, son de sexo masculino y de raza mestiza. </font>     <P><font size="2" face="Verdana">- El 34% de las personas que padecen hipertensi&oacute;n    arterial tienen antecedentes patol&oacute;gicos familiares de la enfermedad    y consumen tabaco. </font>     <P><font size="2" face="Verdana">- El 66 % de los casos con hipertensi&oacute;n    arterial fueron asintom&aacute;ticos. </font>     <P><font size="2" face="Verdana">En la <a href="/img/revistas/rcim/v4n2/f0407212.jpg">figura 4</a> se    muestra un fragmento del &aacute;rbol obtenido a partir de aplicar el algoritmo    J48. Los nodos representan atributos, las ramas representan valores de dichos    atributos y los nodos finales representan los valores de la clase. Cada camino    del &aacute;rbol representa una regla. </font>     
]]></body>
<body><![CDATA[<P>&nbsp;     <P><font size="3" face="Verdana"> <strong>CONCLUSIONES </strong></font>      <P><font size="2" face="Verdana">El objetivo fundamental de este trabajo ha sido    el estudio y an&aacute;lisis de dos t&eacute;cnicas: clasificaci&oacute;n y    agrupamiento. A lo largo del mismo, se ha llevado a cabo una importante recopilaci&oacute;n    bibliogr&aacute;fica y revisi&oacute;n te&oacute;rica sobre algunos aspectos    b&aacute;sicos relacionados con el tema. Se han propuesto adem&aacute;s, dos    modelos matem&aacute;ticos cuya combinaci&oacute;n puede utilizarse como ayuda    al diagn&oacute;stico de entidades cl&iacute;nicas. Aunque los algoritmos se    propusieron en el sector de la salud, su uso no est&aacute; restringido a esta    &aacute;rea. El primer aporte de este trabajo se centra en la construcci&oacute;n    de dos modelos mediante clasificaci&oacute;n y agrupamiento, &aacute;rbol de    decisi&oacute;n J48, Simple K-Means respectivamente, con la estrategia de encontrar    patrones ocultos en los datos cl&iacute;nicos de pacientes que sufren de hipertensi&oacute;n    arterial. Adem&aacute;s tendr&aacute; un aporte pr&aacute;ctico basado en que    el Sistema Integral para la Atenci&oacute;n Primaria de la Salud contar&aacute;    con un soporte de toma de decisiones que lo convertir&aacute; en un sistema    m&aacute;s robusto, el mismo permitir&aacute; acelerar el proceso de an&aacute;lisis    de la informaci&oacute;n de los especialistas en la toma de decisiones m&eacute;dicas.    Finalmente, cabe destacar el hecho de que los dos modelos obtenidos han sido    evaluados sobre datos reales, comparando sus resultados con los obtenidos de    diferentes procedimientos, mediante las propias evaluaciones de los modelos    que ofrece WEKA y el visto bueno de los expertos en HTA. </font>     <P><font size="2" face="Verdana">Esta investigaci&oacute;n servir&aacute; como    base para la realizaci&oacute;n de otros trabajos de manera que perfeccionen    lo descrito anteriormente. Servir&aacute; de modelo que puede ser implementado    en el CDSS y de esta manera encontrar nuevo conocimiento a partir de otras enfermedades,    relacionando sus s&iacute;ntomas, causas y diagn&oacute;sticos futuros. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"> <strong>REFERENCIAS BIBLIOGR&Aacute;FICAS</strong></font>      <!-- ref --><P><font size="2" face="Verdana">1. Sanchez, Y. et al. Centro de Toma de Decisiones    en el Sistema Integral para la Atenci&oacute;n Primaria de Salud. La Habana,    Cuba: Memorias del Evento INFORM&Aacute;TICA; 2011. ISBN: 978-959-7213-01-7.        </font>      <!-- ref --><P><font size="2" face="Verdana">2. Cosialls, D. Informaci&oacute;n para la gesti&oacute;n    cl&iacute;nica. Contrato de servicio Vol. 2. Madrid: ELSEVIER ESPA&Ntilde;A;    2000.     </font>      ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">3. Kimball R, Ross M. The Data Warehouse Toolkit.    Canberra, Australia: John Wiley &amp; Sons Incorporated; 2006. ISBN: 0-471-15337-0.        </font>      <!-- ref --><P><font size="2" face="Verdana">4. OMS. Estad&iacute;sticas Sanitarias Mundiales    2012. US: World Health Organization; 2012. ISBN: 978 92 4 356444 9.     </font>      <!-- ref --><P><font size="2" face="Verdana">5. Fern&aacute;ndez Cumb&aacute; E. Propuesta    did&aacute;ctica para la promoci&oacute;n de salud en el caso de la hipertensi&oacute;n    arterial en los pacientes de la Universidad de las Ciencias Inform&aacute;ticas.    La Habana: Instituto Superior Polit&eacute;cnico Jos&eacute; A. Echeverr&iacute;a;    2008.     </font>      <!-- ref --><P><font size="2" face="Verdana">6. Hand D, Mannila H, Smyth P. Principles of    Data Mining. Cambridge, Massachusetts London England: Massachusetts Institute    of Technology; 2001.     </font>      <!-- ref --><P><font size="2" face="Verdana">7. Chapman P, Clinton J, Kerber R, Khabaza T,    Reinartz T, Shearer C, Wirth R. CRISP-DM 1.0. Gu&iacute;a paso a paso de miner&iacute;a    de datos. [Citado el 12 Ago. 2012]. Disponible en: <a href="http://www.crisp-dm.org" target="_blank">http://www.crisp-dm.org</a></font>     <!-- ref --><P><font size="2" face="Verdana">8. Witten IH, Frank E. Data mining: Practical    machine learning tools and techniques. Morgan Kaufmann Series in Data Management    Systems; 2005.     </font>      <!-- ref --><P><font size="2" face="Verdana">9. Weka. [homepage] Nueva Zelanda: Universidad    de Waikato. [Citado el: 9 de Mayo de 2011]. Disponible en: <a href="http://www.cs.waikato.ac.nz/ml/weka/" target="_blank">http://www.cs.waikato.ac.nz/ml/weka/</a></font>     <!-- ref --><P><font size="2" face="Verdana">10. S/A. S/T. [Citado el 28 de Enero de 2011].    Disponible en: <a href="http://www.opensistemas.com/sectores/sanidad_y_farmacia_copy_1/servidor_de_aplicaciones/" target="_blank">http://www.opensistemas.com/sectores/sanidad_y_farmacia_copy_1/servidor_de_aplicaciones/</a></font>     <!-- ref --><P><font size="2" face="Verdana">11. Vallejo Delgado N, Rodr&iacute;guez Jara    F. Aplicaci&oacute;n de t&eacute;cnicas de miner&iacute;a de datos para el diagn&oacute;stico    prematuro de c&aacute;ncer. [citado el 13 Nov. 2012]. Disponible en: <a href="http://www.it.uc3m.es/jvillena/irc/descarga.htm?url=practicas/08-09/02.pdf" target="_blank">http://www.it.uc3m.es/jvillena/irc/descarga.htm?url=practicas/08-09/02.pdf</a></font>     <!-- ref --><P><font size="2" face="Verdana">12. Rosete Su&aacute;rez A, Rodr&iacute;guez    D&iacute;az A, Acosta S&aacute;nchez R. Predicci&oacute;n de pacientes diab&eacute;ticos.    Preprocesado para Miner&iacute;a de Datos. Revista Cubana de Inform&aacute;tica    M&eacute;dica. 2009 [Citado el 3 de Nov. 2011]; 9(1). Disponible en: <a href="http://www.rcim.sld.cu/revista_18/articulos_htm/prediccionpaciente.htm#t" target="_blank">http://www.rcim.sld.cu/revista_18/articulos_htm/prediccionpaciente.htm#t</a></font>     <!-- ref --><P><font size="2" face="Verdana">13. Ba&ntilde;obre Corpas Y, Brossard Gonz&aacute;lez    Y. Diagn&oacute;stico de Enfermedades de Transmisi&oacute;n Sexual mediante    t&eacute;cnicas de Inteligencia Artificial. La Habana: Universidad de las Ciencias    Inform&aacute;ticas, Facultad 5; 2009.     </font>      <!-- ref --><P><font size="2" face="Verdana">14. Marante Jacas D, Marante Jacas D. Aplicaci&oacute;n    de la miner&iacute;a de datos para la exploraci&oacute;n y detecci&oacute;n    de patrones delictivos. La Habana: Universidad de las Ciencias Inform&aacute;ticas,    Facultad 8; 2008.     </font>      <!-- ref --><P><font size="2" face="Verdana">15. Perversi I. Aplicaci&oacute;n de miner&iacute;a    de datos para la exploraci&oacute;n y detecci&oacute;n de patrones delictivos    en Argentina. [Citado el: 9 de Noviembre de 2011]. Disponible en: <a href="http://laboratorios.fi.uba.ar/lsi/rgm/tesistas/PERVERSI-tesisdegradoeningenieria.pdf" target="_blank">http://laboratorios.fi.uba.ar/lsi/rgm/tesistas/PERVERSI-tesisdegradoeningenieria.pdf</a></font>     <P>&nbsp;     <P>&nbsp;     <P><font size="2" face="Verdana">Recibido: 12 de octubre de 2012.    <br>   Aprobado: 13 de noviembre de 2012. </font>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sanchez]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Centro de Toma de Decisiones en el Sistema Integral para la Atención Primaria de Salud]]></source>
<year>2011</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Memorias del Evento INFORMÁTICA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cosialls]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Información para la gestión clínica. Contrato de servicio Vol. 2]]></source>
<year>2000</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[ELSEVIER ESPAÑA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kimball]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Ross]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[The Data Warehouse Toolkit. Canberra]]></source>
<year>2006</year>
<publisher-name><![CDATA[John Wiley & Sons Incorporated]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="book">
<collab>OMS</collab>
<source><![CDATA[Estadísticas Sanitarias Mundiales 2012]]></source>
<year>2012</year>
<publisher-name><![CDATA[World Health Organization]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fernández Cumbá]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Propuesta didáctica para la promoción de salud en el caso de la hipertensión arterial en los pacientes de la Universidad de las Ciencias Informáticas]]></source>
<year>2008</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Instituto Superior Politécnico José A. Echeverría]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hand]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Mannila]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Smyth]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Principles of Data Mining. Cambridge, Massachusetts London England]]></source>
<year>2001</year>
<publisher-name><![CDATA[Massachusetts Institute of Technology]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chapman]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Clinton]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Kerber]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Khabaza]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Reinartz]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Shearer]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Wirth]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[CRISP-DM 1.0. Guía paso a paso de minería de datos]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Witten]]></surname>
<given-names><![CDATA[IH]]></given-names>
</name>
<name>
<surname><![CDATA[Frank]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Data mining: Practical machine learning tools and techniques]]></source>
<year>2005</year>
<publisher-name><![CDATA[Morgan Kaufmann Series in Data Management Systems]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<collab>Weka</collab>
<source><![CDATA[homepage Nueva Zelanda]]></source>
<year></year>
<publisher-name><![CDATA[Universidad de Waikato]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="">
<source><![CDATA[S/A. S/T]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vallejo Delgado]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Rodríguez Jara]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Aplicación de técnicas de minería de datos para el diagnóstico prematuro de cáncer]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rosete Suárez]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Rodríguez Díaz]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Acosta Sánchez]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Predicción de pacientes diabéticos. Preprocesado para Minería de Datos]]></article-title>
<source><![CDATA[Revista Cubana de Informática Médica]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bañobre Corpas]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Brossard González]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Diagnóstico de Enfermedades de Transmisión Sexual mediante técnicas de Inteligencia Artificial]]></source>
<year>2009</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Universidad de las Ciencias Informáticas, Facultad 5]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marante Jacas]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Marante Jacas]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Aplicación de la minería de datos para la exploración y detección de patrones delictivos]]></source>
<year>2008</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[Universidad de las Ciencias Informáticas, Facultad 8]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Perversi]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<source><![CDATA[Aplicación de minería de datos para la exploración y detección de patrones delictivos en Argentina]]></source>
<year></year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
