<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992013000100007</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Método para la extracción de información estructurada desde textos]]></article-title>
<article-title xml:lang="en"><![CDATA[Method to extract structured information from texts]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rodríguez Blanco]]></surname>
<given-names><![CDATA[Aramis]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Simón Cuevas]]></surname>
<given-names><![CDATA[Alfredo J.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto Superior Politécnico José Antonio Echeverría Facultad de Ingeniería Informática ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2013</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2013</year>
</pub-date>
<volume>7</volume>
<numero>1</numero>
<fpage>55</fpage>
<lpage>67</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992013000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992013000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992013000100007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En el trabajo se presenta un método para la extracción de información estructurada desde textos escritos en idioma español, como base para el desarrollo de una propuesta de Minería de Texto. La información extraída es estructurada en forma de grafo, específicamente mediante un Mapa Conceptual, el cual constituye una forma de representación de conocimiento basada en conceptos significativos y sus relaciones en una estructura proposicional. El método propuesto permite procesar documentos de diferentes formatos, y combina el análisis sintáctico superficial y profundo o de dependencias, el reconocimiento de entidades, patrones lingüísticos y conocimientos de referencia almacenado en un corpus de Mapas Conceptuales, para identificar frases conceptuales y relaciones entre ellas, a ser extraídas y representadas en el Mapa Conceptual. SEINET constituye la herramienta que implementa el método propuesto, y a la cual se le han incorporado un conjunto de prestaciones que posibilitan un uso del método eficiente y flexible. Se exponen casos de estudio simples para ejemplificar el funcionamiento del método, y a su vez SEINET.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In this work a method for extraction of information structured from Spanish texts is presented, as a base for a Mining of Text proposal development. Extracted information is structured in graph form, specifically in a Concept Map, which constitutes a knowledge representation form based on significant concepts and its relationships in a propositional structure. The proposed method allows to process documents of different formats, and it combines the superficial and deep syntactic analysis or of dependences, entities recognition, linguistic patterns and reference knowledge stored in a Concept Maps corpus, to identify conceptual sentences and relationships among them, to be extracted and represented in the Concept Map. SEINET constitutes the tool that implements the proposed method, and to which have been incorporated a group of benefits that facilitate the efficient and flexible use of the method. Simple cases of study are exposed to exemplify the operation method, and in turn SEINET.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[minería de texto]]></kwd>
<kwd lng="es"><![CDATA[extracción de información]]></kwd>
<kwd lng="es"><![CDATA[mapas conceptuales]]></kwd>
<kwd lng="es"><![CDATA[construcción automática de grafos desde textos]]></kwd>
<kwd lng="en"><![CDATA[text mining]]></kwd>
<kwd lng="en"><![CDATA[information extraction]]></kwd>
<kwd lng="en"><![CDATA[concept maps]]></kwd>
<kwd lng="en"><![CDATA[automatic construction of graph from text]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <div align="right">        <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO      ORIGINAL </B></font></p> </div>     <p>&nbsp;</p>     <P><b><font face="Verdana, Arial, Helvetica, sans-serif" size="4">M&eacute;todo    para la extracci&oacute;n de informaci&oacute;n estructurada desde textos</font></b></P>     <P>&nbsp; </P>     <P><b><font face="Verdana, Arial, Helvetica, sans-serif" size="3">Method&nbsp;to&nbsp;extract&nbsp;structured&nbsp;information&nbsp;from&nbsp;texts</font>    </b>     <P>&nbsp; </P>     <P>&nbsp;</P>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><b><font size="2"><B>Aramis    Rodr&iacute;guez Blanco<sup>*</sup>, Alfredo J. Sim&oacute;n Cuevas</B></font></b>    </font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Facultad de Ingenier&iacute;a    Inform&aacute;tica, Instituto Superior Polit&eacute;cnico &ldquo;Jos&eacute;    Antonio Echeverr&iacute;a&rdquo;. Calle 114, No. 11901 e/ 119 y 127, Marianao,    La Habana, Cuba.</font> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">Correo    electr&oacute;nico:<b><B><sup>*</sup></B></b><a href="mailto: aridriguezb@ceis.cujae.edu.cu">aridriguezb@ceis.cujae.edu.cu</a></font>      ]]></body>
<body><![CDATA[<P>&nbsp;</P>     <P>&nbsp;</P> <hr>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>RESUMEN </B></font>      <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En el trabajo se    presenta un m&eacute;todo para la extracci&oacute;n de informaci&oacute;n estructurada    desde textos escritos en idioma espa&ntilde;ol, como base para el desarrollo    de una propuesta de Miner&iacute;a de Texto. La informaci&oacute;n extra&iacute;da    es estructurada en forma de grafo, espec&iacute;ficamente mediante un Mapa Conceptual,    el cual constituye una forma de representaci&oacute;n de conocimiento basada    en conceptos significativos y sus relaciones en una estructura proposicional.    El m&eacute;todo propuesto permite procesar documentos de diferentes formatos,    y combina el an&aacute;lisis sint&aacute;ctico superficial y profundo o de dependencias,    el reconocimiento de entidades, patrones ling&uuml;&iacute;sticos y conocimientos    de referencia almacenado en un corpus de Mapas Conceptuales, para identificar    frases conceptuales y relaciones entre ellas, a ser extra&iacute;das y representadas    en el Mapa Conceptual. SEINET constituye la herramienta que implementa el m&eacute;todo    propuesto, y a la cual se le han incorporado un conjunto de prestaciones que    posibilitan un uso del m&eacute;todo eficiente y flexible. Se exponen casos    de estudio simples para ejemplificar el funcionamiento del m&eacute;todo, y    a su vez SEINET.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> <b>Palabras clave:</b>    miner&iacute;a de texto, extracci&oacute;n de informaci&oacute;n, mapas conceptuales,    construcci&oacute;n autom&aacute;tica de grafos desde textos.</font></p> <hr>     <P> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ABSTRACT </B></font>      <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2">In this work a    method for extraction of information structured from Spanish texts is presented,    as a base for a Mining of Text proposal development. Extracted information is    structured in graph form, specifically in a Concept Map, which constitutes a    knowledge representation form based on significant concepts and its relationships    in a propositional structure. The proposed method allows to process documents    of different formats, and it combines the superficial and deep syntactic analysis    or of dependences, entities recognition, linguistic patterns and reference knowledge    stored in a Concept Maps corpus, to identify conceptual sentences and relationships    among them, to be extracted and represented in the Concept Map. SEINET constitutes    the tool that implements the proposed method, and to which have been incorporated    a group of benefits that facilitate the efficient and flexible use of the method.    Simple cases of study are exposed to exemplify the operation method, and in    turn SEINET.</font>      <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"> <b>Key words:    </b>text mining, information extraction, concept maps, automatic construction    of graph from text.</font>  <hr>     <P>&nbsp; </P>     <P>&nbsp;</P>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">INTRODUCCI&Oacute;N</font></B>    </font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La gran cantidad    de informaci&oacute;n, textual y no estructurada, que se encuentra almacenada    y que continuamente se genera, sobre todo en la Web, demanda de iniciativas    que propicien un mayor aprovecha miento de ese recurso - informaci&oacute;n    - para el descubrimiento de conocimiento y la toma de decisiones. La <em>Miner&iacute;a    de Texto</em> <em>(MT)</em> constituye el &aacute;rea de conocimiento dentro    de la que se estudia esta problem&aacute;tica, y desde donde se generan soluciones    para el <em>descubrimiento de conocimientos potencialmente &uacute;tiles, y    no expl&iacute;cito, en una colecci&oacute;n de textos, a partir de la identificaci&oacute;n    y exploraci&oacute;n de patrones interesantes</em> (Feldman et al., 1998). Un    aspecto importante en el desarrollo de soluciones de MT lo constituye la representaci&oacute;n    intermedia que se utilice para la estructuraci&oacute;n y almacenamiento de    los contenidos extra&iacute;dos en la etapa de pre-procesamiento, ya que sobre    esa estructura es que aplican las t&eacute;cnicas de an&aacute;lisis para alcanzar    el descubrimiento de conocimiento. El trabajo que se presenta aborda esta problem&aacute;tica.</font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> Espec&iacute;ficamente,    se presenta una propuesta dirigida a la construcci&oacute;n, de forma autom&aacute;tica,    de una representaci&oacute;n intermedia basada en gafos para representar y estructurar    el contenido conceptual de textos, espec&iacute;ficamente, se propone usar el    Mapa Conceptual (MC). Los MCs constituyen <em>una herramienta para organizar    y representar el conocimiento</em> (Novak y Ca&ntilde;as, 2008), en forma de    <em>grafo dirigido</em> y <em>etiquetado</em>. Se componen de <em>conceptos</em>    y <em>relaciones</em> que forman una estructura de <em>proposiciones</em>. Los    conceptos representan eventos u objetos, o evidencias de ellos, especificados    por una etiqueta y las relaciones est&aacute;n etiquetadas por una frase que    establece el tipo de relaci&oacute;n entre los conceptos. Las proposiciones    se forman por dos o m&aacute;s conceptos interconectados mediante una <em>frase-enlace</em>,    representando expresiones significativas (Novak y Ca&ntilde;as, 2008), y en    ocasiones son consideradas como unidades sem&aacute;nticas o de significado.    Un aspecto motivador y que aporta valor a esta propuesta es que se cuenta con    un &aacute;lgebra de consulta para repositorios de MCs, CMQL (Concept Maps Query    Language) (Sim&oacute;n-Cuevas et al., 2008), que permite la b&uacute;squeda,    exploraci&oacute;n, recuperaci&oacute;n de conocimiento desde diferentes vistas    y perspectivas, as&iacute; como la generaci&oacute;n de nuevos conocimientos    potencialmente &uacute;tiles, a partir de la integraci&oacute;n autom&aacute;tica    de conocimientos inicialmente aislados. Por lo que, CMQL, puede formar parte,    o ser una base importante en una propuesta de MT a partir de que el contenido    conceptual de los textos sea extra&iacute;do y estructurado en forma de MC.</font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> La construcci&oacute;n    autom&aacute;tica de MCs a partir de texto ha sido abordado por varios autores    y hay contribuciones interesantes (Valerio y Leake, 2006; Valerio et al., 2008;    Kowata et al., 2010; Estrada, 2011), pero en su gran mayor&iacute;a dirigidas    al idioma ingl&eacute;s, y solo la reportada en (Estrada, 2011) antecedente    de la propuesta que se hace as&iacute;, aborda el procesamiento de textos en    idioma espa&ntilde;ol. El m&eacute;todo que se propone en este trabajo, permite    el procesamiento de documentos de diferentes formatos y de forma masiva, combina    el an&aacute;lisis sint&aacute;ctico superficial y profundo o de dependencias,    el reconocimiento de entidades, un conjuntos de patrones ling&uuml;&iacute;sticos    y conocimientos de referencia almacenado en un corpus de MCs, para identificar    frases conceptuales y relaciones entre ellas, a ser extra&iacute;das y representadas    en el MC. </font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> El m&eacute;todo    que se propone ha sido implementado a trav&eacute;s de la herramienta SEINET,    que representa las siglas de: <em>S</em>istemas para la <em>E</em>xtracci&oacute;n    de <em>IN</em>formaci&oacute;n <em>E</em>structurada desde <em>T</em>extos.    En SEINET se incorporan un conjunto de prestaciones que posibilitan un uso del    m&eacute;todo eficiente y flexible, tal es el caso de t&eacute;cnicas de paralelismo    para el procesamiento masivo de documentos y el pre-procesado, un editor de    MC para refinar los resultados sin necesidad de un editor extra, reportes de    estad&iacute;sticas para el estudio y experimentaci&oacute;n del m&eacute;todo,    la generaci&oacute;n de CXL (Ca&ntilde;as et al., 2006) para almacenar el MCs    y posibilitar la reutilizaci&oacute;n de ese conocimiento, entre otras. A trav&eacute;s    de la exposici&oacute;n de casos de estudio simples se ejemplifica la aplicaci&oacute;n    del m&eacute;todo, y la herramienta SEINET, sobre textos en espa&ntilde;ol,    donde se puede apreciar la calidad los resultados, los cuales han sido comparados    con una propuesta antecedente.</font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <B>Miner&iacute;a    de texto</B></font>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <em>Miner&iacute;a    de Texto</em> <em>(MT)</em> surge como un enfoque particular del proceso de    descubrimiento de conocimiento, espec&iacute;ficamente, orientado al descubrimiento    en fuentes textuales y no estructuradas. Se puede definir como un <em>proceso    de descubrimiento de conocimientos potencialmente &uacute;tiles, y no expl&iacute;cito,    en una colecci&oacute;n de textos, a partir de la identificaci&oacute;n y exploraci&oacute;n    de patrones interesantes</em> (Feldman et al., 1998). En la MT se utilizan t&eacute;cnicas    provenientes de la inteligencie artificial, de la gesti&oacute;n del conocimiento,    de la miner&iacute;a de datos y del aprendizaje autom&aacute;tico, as&iacute;    como del procesamiento de lenguaje natural y de la recuperaci&oacute;n de informaci&oacute;n,    desde donde se proveen m&eacute;todos y herramientas para identificar, organizar    y comprender la sintaxis y la sem&aacute;ntica de los contenidos en lenguaje    natural no estructurados presentes en los textos. Algunos de los elementos a    descubrir en las colecciones de documentos son cosas tales como: tendencias,    desviaciones y asociaciones (Montes y G&oacute;mez, 2001).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> La MT involucra    un conjunto de fases (Feldman y Sanger, 2007): </font></p> <ol start="1" type="1">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">pre-procesamiento      de la colecci&oacute;n de documentos (ej. categorizaci&oacute;n de textos,      extracci&oacute;n de informaci&oacute;n, extracci&oacute;n de t&eacute;rminos);      </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la estructuraci&oacute;n      y almacenamiento de los contenidos extra&iacute;dos en una representaci&oacute;n      intermedia (modelos vectoriales, relacionales, lista de palabras, entre otros);      </font></li>       ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la aplicaci&oacute;n      de t&eacute;cnicas de an&aacute;lisis sobre la representaci&oacute;n intermedia      (tales como an&aacute;lisis de distribuci&oacute;n, clustering, an&aacute;lisis      de tendencias, y reglas de asociaci&oacute;n), con el objetivo de llegar al      descubrimiento;</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la visualizaci&oacute;n      de los resultados. </font></li>     </ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El trabajo que    se presenta constituye una propuesta dirigida a la construcci&oacute;n, de forma    autom&aacute;tica, de una representaci&oacute;n intermedia basada en gafos para    representar y estructurar el contenido conceptual de textos, espec&iacute;ficamente,    un MC. El uso de los MC como forma de representaci&oacute;n intermedia, alcanza    un mayor valor, y al mismo tiempo ha constituido una fuente motivacional para    el desarrollo del trabajo, la disponibilidad un &aacute;lgebra de consulta para    repositorios de MC, CMQL (Concept Maps Query Language) (Sim&oacute;n-Cuevas    et al., 2008) que permite la b&uacute;squeda, exploraci&oacute;n, recuperaci&oacute;n    de conocimiento desde diferentes vistas y perspectivas, as&iacute; como la generaci&oacute;n    de nuevos conocimientos potencialmente &uacute;tiles, a partir de la integraci&oacute;n    autom&aacute;tica de conocimientos inicialmente aislados. En este sentido, CMQL    puede ser considerado una alternativa base en una propuesta de MT a partir de    que el contenido conceptual de los textos sea extra&iacute;do y estructurado    en forma de MC. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Mapas Conceptuales</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El MC fue creado    por J. D. Novak como una forma de instrumentar la teor&iacute;a de aprendizaje    significativo, la que se sustenta en que el nuevo conocimiento es adquirido    a partir de lo que ya se conoce y esto se realiza a trav&eacute;s de un proceso    constructivista (Ausubel y Novak, 1989). En este escenario, Novak define un    MC como <em>una t&eacute;cnica que representa, simult&aacute;neamente, una estrategia    de aprendizaje, un m&eacute;todo para captar lo m&aacute;s significativo de    un tema y un recurso esquem&aacute;tico para representar un conjunto de significados    conceptuales incluidos en una estructura de proposiciones</em> (Novak y Gowin,    1984). Otra definici&oacute;n m&aacute;s general es la que los reconoce como    <em>una herramienta para organizar y representar el conocimiento</em> (Novak    y Ca&ntilde;as, 2008), en forma de <em>grafo dirigido</em> y <em>etiquetado</em>.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> Los MC se componen    de conceptos y relaciones formando proposiciones. Los conceptos son definidos    como regularidades percibidas en eventos u objetos, evidencias de ellos, especificados    por una etiqueta, generalmente formada por una palabra (simple), pero es posible    usar m&aacute;s de una (compuesta). Las relaciones est&aacute;n etiquetadas    por una frase que establece el tipo de relaci&oacute;n entre los conceptos.    Las proposiciones se forman por dos o m&aacute;s conceptos interconectados mediante    una frase-enlace, representando expresiones significativas (Novak y Ca&ntilde;as,    2008), y en ocasiones son consideradas como unidades sem&aacute;nticas o de    significado. En la <a href="/img/revistas/rcci/v7n1/f0107113.png">Figura 1</a>.    se muestra un ejemplo de un MC en el que se representa e interrelacionan algunos    de los conceptos antes mencionados, as&iacute; como otros que lo caracterizan.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las principales    aplicaciones de los MCs son en la pedagog&iacute;a, como apoyo al proceso de    ense&ntilde;anza y el aprendizaje, aprovechando las bondades que brinda siendo    muy intuitivo para las personas. Sin embargo, otras de las aplicaciones importantes    lo constituye su uso como herramienta para la captura de conocimiento t&aacute;cito    de experto, as&iacute; como apoyo en varias de las actividades b&aacute;sicas    de la gesti&oacute;n del conocimiento, a saber: crear, generar, compartir, transferir,    capturar, almacenar conocimiento, entre otras. En este trabajo se propone emplear    los MC como herramienta de representaci&oacute;n intermedia del contenido de    documentos en espa&ntilde;ol, en el sentido de que &eacute;stos sean construidos    autom&aacute;ticamente a partir de los documentos, como resultado del m&eacute;todo    para la extracci&oacute;n de informaci&oacute;n estructurada en grafo que se    presenta m&aacute;s adelante.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Construcci&oacute;n    autom&aacute;tica a partir de textos</B> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Varios autores    han tratado el tema de la construcci&oacute;n autom&aacute;tica de MCs a partir    de textos (Valerio y Leake, 2006; Valerio et al., 2008; Kowata et al., 2010;    Estrada, 2011), y se han hecho propuestas, caracterizadas en su mayor&iacute;a    por ser soluciones dirigidas a textos en idioma ingl&eacute;s. Valerio y Leake    proponen un algoritmo de extracci&oacute;n de informaci&oacute;n a partir de    documentos, cuya informaci&oacute;n es utilizada en la construcci&oacute;n de    un MC parcial, a ser refinado posteriormente por expertos. La informaci&oacute;n    se extrae de los documentos en l&iacute;nea, y la construcci&oacute;n del MC    est&aacute; planteada como una relaci&oacute;n 1-1 (MC-documento), pero puede    transformada en una relaci&oacute;n n-m, introduciendo la segmentaci&oacute;n    por t&oacute;picos. Inicialmente el documento es segmentado y cada sentencia    o segmento es analizada sint&aacute;cticamente usando el algoritmo de Charniak    (Charniak y Johnson, 2005). En la extracci&oacute;n de conceptos, se determina    que una palabra forma una frase conceptual, si es sustantivo o adjetivo, abord&aacute;ndose    primero las frases m&aacute;s simples, que son las m&aacute;s cercanas a las    hojas en un &aacute;rbol de dependencias, luego las m&aacute;s complejas. En    (Valerio et al., 2008) se reporta una propuesta de aplicaci&oacute;n de la construcci&oacute;n    autom&aacute;tica de MC desde textos para la clasificaci&oacute;n de documentos.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> En (Kowata et    al., 2010), se presenta un m&eacute;todo de construcci&oacute;n de MC a partir    de texto en el que se incluyen las siguientes tareas (en ese mismo orden de    ejecuci&oacute;n, y cada una depende de la salida de la anterior): </font></p> <ol start="1" type="1">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Extracci&oacute;n      de Texto Plano,</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Segmentaci&oacute;n      del Texto</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Extracci&oacute;n      de tokens</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">POS Tagging</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Reconocimiento      de elementos Centrales Candidatos (conceptos y enlaces candidatos)</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Int&eacute;rprete      de dependencias</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Constructor      del MC </font></li>     </ol>     <p><font face="Verdana, Arial, Helvetica, sans-serif">E<font size="2">n esta propuesta    se consideran las frases sustantivas, verbales y preposicionales como primeros    candidatos a ser elementos principales de los MCs. Se indica que la fragmentaci&oacute;n    de la oraci&oacute;n es una tarea importante para el reconocimiento de los principales    elementos candidatos a incorporar al MC y que cada fragmento es creado de un    conjunto de patrones ling&uuml;&iacute;sticos formalmente descritos por expresiones    regulares. El uso de m&eacute;todos ling&uuml;&iacute;sticos para la construcci&oacute;n    de MC a partir de texto tambi&eacute;n se considera en (Valerio y Leake, 2006),    donde tambi&eacute;n se usan frases sustantivas y verbales para extraer conceptos    y relaciones.</font></font></p>     ]]></body>
<body><![CDATA[<P>&nbsp; </P>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>DESARROLLO</B></font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>M&eacute;todo    de extracci&oacute;n de informaci&oacute;n estructurada</B></font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> El m&eacute;todo    que se propone toma como base las propuestas reportadas en (Sim&oacute;n et    al., 2004; Estrada, 2011), y propone una variante mejorada a partir de tomar    en consideraci&oacute;n algunos aspectos tenidos en cuenta en las propuestas    reportadas en (Valerio y Leake, 2006; Valerio et al., 2008; Kowata et al., 2010),    aunque con la caracter&iacute;stica que al igual que en (Sim&oacute;n et al.,    2004; Estrada, 2011), la nueva versi&oacute;n tambi&eacute;n est&aacute; dirigida    al procesamiento de textos en idioma espa&ntilde;ol. </font>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el proceso de    extracci&oacute;n y estructuraci&oacute;n de informaci&oacute;n se parte de    una informaci&oacute;n textual (contenida en un fichero o introducida manualmente)    en lenguaje natural no estructurado, y se ejecutan un conjunto de tareas que    pueden ser agrupadas en tres etapas, a saber: <em>pre-procesamiento</em>, <em>extracci&oacute;n    de informaci&oacute;n</em> (frases conceptuales y relaciones) y <em>refinado    y construcci&oacute;n del MC</em>, donde como resultado se estar&iacute;a obteniendo    de forma autom&aacute;tica un MC que representa el conjunto de frases conceptuales    (como nodos) que fueron identificadas (todas las posibles) y las relaciones    entre ellas. En el caso de las relaciones que se identifican, a diferencia del    resto de las propuestas reportadas, es posible identificar relaciones no expl&iacute;citas    en el texto, las cuales se pueden detectar a partir del uso de un corpus de    MC como recursos de conocimiento con el que se puede dotar al procesamiento    que se ejecuta en este m&eacute;todo. El corpus de MCs tambi&eacute;n facilita    la identificaci&oacute;n de frases conceptuales. En la <a href="/img/revistas/rcci/v7n1/f0207113.png">Figura    2</a>. se muestra el esquema general del m&eacute;todo.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Pre-Procesamiento    del texto</B></font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Extracci&oacute;n    de Texto Plano</em>: El m&eacute;todo parte de informaci&oacute;n textual almacenada    en uno o varios ficheros o proporcionado de forma manual. En esta tarea se extrae    el texto plano de la fuente, y en el caso de ficheros se emplean librer&iacute;as    implementadas en lenguaje Java para la extracci&oacute;n del texto plano de    ficheros con formato: pdf, docx, doc, html, htm, rtf, y txt, brindando una mayor    cobertura del m&eacute;todo.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <em>Segmentaci&oacute;n    de Texto</em>: La segmentaci&oacute;n de texto consiste en desfragmentar el    mismo en p&aacute;rrafos y oraciones, las cuales se segmentan utilizando un    algoritmo para la determinaci&oacute;n de sus fronteras, teniendo en cuenta    varios tipos de segmentaci&oacute;n, principalmente, la segmentaci&oacute;n    a partir de los <em>puntos finales</em>, para su identificaci&oacute;n se tuvo    en cuenta cuales son las funciones que puede jugar un punto en la oraci&oacute;n.    De esta forma, se obtiene una lista de oraciones a ser procesada, como resultado    de la segmentaci&oacute;n.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <em>Extracci&oacute;n    de tokens</em>: Cada oraci&oacute;n est&aacute; compuesta por <em>tokens</em>,    que no son m&aacute;s que cada una de las partes de la oraci&oacute;n, o sea,    palabras, n&uacute;meros, signos de puntuaci&oacute;n, etc. Este proceso divide    cada oraci&oacute;n en un conjunto de <em>tokens</em>, los cuales ser&aacute;n    la base de an&aacute;lisis posteriores. Los <em>tokens</em> se identifican en    una oraci&oacute;n mediante un algoritmo que realiza una lectura de la misma,    identificando las fronteras entre las diferentes clasificaciones de tokens.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <em>An&aacute;lisis    morfo-sint&aacute;ctico</em>: El an&aacute;lisis morfo-sint&aacute;ctico del    texto se realiza a cada oraci&oacute;n por separado. Inicialmente se etiqueta    cada <em>token</em> con lo que se determina que es su ra&iacute;z morfol&oacute;gica    y su categor&iacute;a gramatical. A partir de los <em>tokens etiquetados</em>    se realiza el <em>An&aacute;lisis Sint&aacute;ctico Superficial (</em>ASS<em>)</em>    del texto, el cual consiste en agrupar a varios <em>tokens</em> en lo que en    la bibliograf&iacute;a se le conoce como <em>chunks</em>. </font></p>     ]]></body>
<body><![CDATA[<p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> Los    <em>chunks</em> constituyen estructuras gramaticales, como grupos verbales,    sintagmas preposicionales, sintagmas nominales, etc., las cuales se organizan    en forma de &aacute;rbol y se agrupan en un conjunto consecutivo de sub&aacute;rboles.    Luego del ASS se realiza el <em>An&aacute;lisis Sint&aacute;ctico Profundo</em>    o conocido tambi&eacute;n como <em>An&aacute;lisis de Dependencias</em> (AD),    con el cual se determinan las dependencias entre las diferentes estructuras    gramaticales identificadas en el ASS, dando como resultado otra estructura en    forma de &aacute;rbol. El ASS es realizado empleando la herramienta libre FreeLing    2.0. Freeling es una herramienta de c&oacute;digo abierto que provee servicios    de an&aacute;lisis del lenguaje natural como an&aacute;lisis morfol&oacute;gico,    an&aacute;lisis sint&aacute;ctico y de dependencias, etiquetador de categor&iacute;as    sint&aacute;cticas, divisor de oraciones, reconocedor de entidades, fechas,    n&uacute;meros, magnitudes f&iacute;sicas, monedas y anotaci&oacute;n de sentidos    basado en WordNet (Miller et al., 1993). Otro elemento importante en la elecci&oacute;n    de FreeLing, es que es una de las pocas herramientas que proporcionan funcionalidades    para el procesamiento y an&aacute;lisis de documentos en idioma espa&ntilde;ol.    </font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> En    el caso del AD es realizado mediante un algoritmo propio elaborado como parte    de la soluci&oacute;n propuesta, y con el fin de obtener un resultado superior    al obtenido con el algoritmo de dependencias que proporciona FreeLing. La propuesta    de AD parte del resultado del ASS realizado por FreeLing y devuelve un &aacute;rbol    de dependencias como salida. Para ello se ejecutan tres tareas principales:    </font></p> <ol start="1" type="1">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">el refinado      del ASS devuelto por FreeLing;</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la transformaci&oacute;n      de la estructura superficial a la estructura de dependencias; y </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la determinaci&oacute;n      de las dependencias.</font></li>     </ol>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En    la primera tarea se resuelve la mayor&iacute;a de los problemas sint&aacute;cticos    no resueltos por la versi&oacute;n 2.0 de FreeLing y prepara el ASS para la    segunda y tercera tarea, de forma tal que esta se pueda ejecutar con calidad.    La segunda tarea transforma la estructura del &aacute;rbol del ASS, de manera    que cada estructura quede representada por un &aacute;rbol de dependencias.    La tercera tarea crea las dependencias entre las ra&iacute;ces de los sub&aacute;rboles    de la lista unific&aacute;ndolos en un solo &aacute;rbol de dependencias, y    en el caso de no haber sido unificados todos los sub&aacute;rboles de la lista,    entonces el &aacute;rbol de dependencia resultante consistir&iacute;a en una    floresta, en la cual las ra&iacute;ces de cada uno de los arboles est&aacute;n    al mismo nivel. En el an&aacute;lisis morfo-sint&aacute;ctico tambi&eacute;n    se lleva a cabo la tarea de reconocer todas las entidades incluidas en el documento    y seg&uacute;n sean identificadas por FreeLing, ya que se ha considerado de    principio que todas las entidades, pueden ser consideradas como frases conceptuales    potenciales, lo que se trata a continuaci&oacute;n. </font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Extracci&oacute;n    de informaci&oacute;n </B></font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El    m&oacute;dulo de extracci&oacute;n de informaci&oacute;n representa el n&uacute;cleo    del m&eacute;todo propuesto, dado que aqu&iacute; es donde se extraen los contenidos    de informaci&oacute;n claves para la estructuraci&oacute;n y construcci&oacute;n    del MC, tal es el caso de las frases que expresan conceptos potenciales, como    las relaciones que se establecen entre ellos y sus correspondientes etiquetas.    En este proceso se tiene en cuenta toda la informaci&oacute;n sint&aacute;ctica    obtenida en la fase anterior y se dispone de un mecanismo de trabajo con un    corpus de MCs, el cual es conformado seg&uacute;n los intereses de dominio del    usuario.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <em>Extracci&oacute;n    de conceptos: </em>El proceso de extracci&oacute;n de conceptos consiste en    identificar aquellas frases (conjunto de palabras) o palabras simples que pueden    tener un sentido conceptual. Para la identificaci&oacute;n de estos conceptos    potenciales se definen un conjunto de patrones ling&uuml;&iacute;sticos, formulados    a partir de un conjunto de categor&iacute;as gramaticales las que se muestran    en la <a href="#t1">Tabla 1</a>. En la selecci&oacute;n de las categor&iacute;as    gramaticales relevantes para la identificaci&oacute;n de conceptos se tuvieron    en cuenta los resultados reportados en (Villalon et al., 2010), como por ejemplo    que el 80% de los conceptos correspond&iacute;an a frases sustantivas lo cual    sugiere que existe una estrecha relaci&oacute;n entre sustantivos y conceptos.    Esto hace considerar que las frases sustantivas representadas en el &aacute;rbol    sint&aacute;ctico superficial puedan ser identificadas como conceptos potenciales    de forma directa a ser incluidos en el MC resultante. La tarea iniciar de extracci&oacute;n    est&aacute; dirigida a usar el corpus de MC, espec&iacute;ficamente, identificando    conceptos que est&eacute;n en alguno de los MC y tambi&eacute;n en el texto.    Luego se procede al uso de los patrones ling&uuml;&iacute;sticos para identificar    conceptos en el &aacute;rbol sint&aacute;ctico resultante del ASS. En la <a href="#t2">Tabla    2</a> se muestran algunos ejemplos de patrones ling&uuml;&iacute;sticos. </font></p>     ]]></body>
<body><![CDATA[<p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">    <a name="t1"></a>Tabla 1. Categor&iacute;as Gramaticales Consideradas en la    formulaci&oacute;n de Patrones Ling&uuml;&iacute;sticos </font></p> <table border="2" align="center" cellpadding="0" cellspacing="0">   <tr>      <td valign="top"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Categor&iacute;as        Gramaticales</B> </font></td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Ejemplo</B></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NC:          sustantivo com&uacute;n.</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>casa</em></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NP:          sustantivo propio.</font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Uni&oacute;n          Europea</em></font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ONU</font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A:          adjetivo.</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>grande</em></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">R:          adverbio.</font></p>     </td>     <td colspan="2" valign="top">            ]]></body>
<body><![CDATA[<p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>ahora</em></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Z:          n&uacute;mero.</font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Treinta          y dos</em></font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>32</em></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">W:          fechas.</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>10          de mayo de 2001</em></font></p>     </td>   </tr>   <tr>      <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VMN:          verbo en infinitivo.</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Vivir</em></font></p>     </td>   </tr> </table>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a name="t2"></a>Tabla    2. Formulaci&oacute;n y Ejemplificaci&oacute;n de Algunos Patrones Ling&uuml;&iacute;stico    </font></p> <table border="2" align="center" cellpadding="0" cellspacing="0">   <tr>      <td width="309" valign="top"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Patrones        Ling&uuml;&iacute;sticos</B> </font></td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Ejemplos</B></font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            ]]></body>
<body><![CDATA[<p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(*)</font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>esta          casa</em></font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El          32</font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(NC          | NP)+(A | VMP)</font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>casa          grande</em></font></p>     </td>     <td valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>casa          destruida</em></font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(NC)+(Z)</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>La          habitaci&oacute;n 32</em></font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(A)+(NC)+(Z)</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>nueva          habitaci&oacute;n 32</em></font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            ]]></body>
<body><![CDATA[<p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(&lt;(A)+(&lt;(Fc)+(A)&gt;)!+(CC)+(A)&gt;)+((NC)</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>La          alta y vieja casa</em></font></p>     </td>   </tr>   <tr>      <td width="309" valign="top">            <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">((D))+(NC)+(&lt;(A)+(&lt;(Fc)+(A)&gt;)!+(CC)+(A)&gt;)</font></p>     </td>     <td colspan="2" valign="top">            <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>La          casa alta, ancha, larga y vieja</em></font></p>     </td>   </tr>   <tr>      <td width="569" colspan="3" valign="top">            <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Leyenda:</em>    <br>         D: Determinantes; SP: Preposici&oacute;n; VMP: forma verbal en pasado          participio en funci&oacute;n adjetiva;     <br>         Fc: , (coma); CC: Conjunci&oacute;n; ( ): T&eacute;rmino obligatorio;          ( )!: T&eacute;rmino repetido 0 o m&aacute;s veces; (( )): T&eacute;rmino          opcional; (*): Categor&iacute;a gramatical (enunciada en <a href="#t1">Tabla          1</a>); &lt; &gt;: Lista de t&eacute;rminos; | : Disyunci&oacute;n</font></p>     </td>   </tr> </table>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La    aparici&oacute;n en el texto, de una secuencia de las posibles combinaciones    que se formulan a trav&eacute;s de los patrones, definidas por signos de separaci&oacute;n    y conjunciones, constituye una lista de conceptos. Algunos conceptos se complementan    con otros a trav&eacute;s de preposiciones para evitar la p&eacute;rdida de    sentido conceptual. Los conceptos identificados son almacenados en una lista,    para poder ser usados en la identificaci&oacute;n de relaciones.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <em>Extracci&oacute;n    de relaciones:</em> La extracci&oacute;n de relaciones va dirigida a dos caminos    fundamentalmente, la <em>extracci&oacute;n de relaciones expl&iacute;citas</em>    y la <em>extracci&oacute;n de relaciones impl&iacute;citas</em>, siendo esta    &uacute;ltima aquel tipo de relaci&oacute;n entre conceptos que no aparece de    forma evidente en el texto que se procesa. Las relaciones expl&iacute;citas    generalmente ocurrir&aacute;n entre frases conceptuales que ese encuentran en    una misma oraci&oacute;n, y en muy poca medida entre conceptos que est&eacute;n    en diferentes partes del texto, lo que no ocurre con las relaciones impl&iacute;citas,    que si fundamentalmente conectan conceptos que no est&aacute;n en la misma oraci&oacute;n,    aunque esto depender&aacute; de la manera en que el conocimiento de referencia    ha sido representado en los MCs del corpus. </font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> La    <em>extracci&oacute;n de relaciones explicitas</em> se realiza a partir de un    proceso de identificaci&oacute;n de estas relaciones sobre el &aacute;rbol de    dependencias resultante del AD. Aqu&iacute; se estar&iacute;an aprovechando    las dependencias que existen entre las estructuras gramaticales para crear reglas    que conecten a los conceptos entre ellos. Esto permite conectar a uno o m&aacute;s    conceptos con otro(s) a trav&eacute;s de una misma frase de enlace. Los conceptos    que se conectan a trav&eacute;s de frase de enlaces verbales, se conectan mediante    un mecanismo que identifica las relaciones verbales que existen entre los sujetos    de cada oraci&oacute;n simple con los complementos que pertenecen a su contexto    de dependencia. Las relaciones en las que la frase de enlace est&aacute; compuesta    por una conjunci&oacute;n subordinada y una frase verbal indican subordinaci&oacute;n    o dependencia. Estas relaciones se determinan mediante la dependencia de una    conjunci&oacute;n subordinada de una estructura conceptual, la cual se conecta    con el sujeto de la oraci&oacute;n subordinada a la conjunci&oacute;n. Las relaciones    en las que la frase de enlace son preposiciones, utilizan la ventaja de las    dependencias para relacionar a varios conceptos consecutivos con varios conceptos    estructurados de la misma manera. Los conceptos relacionados en el &aacute;rbol    de dependencia se construyen a partir de la identificar en la lista de conceptos,    un posible concepto, que se construye a partir de la informaci&oacute;n relacionada    en un sub&aacute;rbol que tiene como ra&iacute;z un token etiquetado con una    de las categor&iacute;as gramaticales enunciadas en la <a href="#t1">Tabla 1</a>.    Las frases de enlace, en caso de contener una frase verbal se construyen a partir    de recolectar la informaci&oacute;n referente a un grupo verbal, identificado    en el &aacute;rbol de dependencias como un sub&aacute;rbol que tiene como ra&iacute;z    un <em>token</em> etiquetado como forma verbal, y como hijos directos, los modificadores    de la frase de enlace, as&iacute; como los conceptos que se relacionan a trav&eacute;s    de la misma. En caso de ser una frase de enlace preposicional, se determina    los conceptos or&iacute;genes, que pueden estar agrupados en un sub&aacute;rbol,    con los conceptos destinos, que deben estar agrupados en un sub&aacute;rbol    subordinado al nodo de la frase preposicional. El uso del AD permite abarcar    m&aacute;s relaciones, que con el uso del ASS, como se reporta en (Estrada,    2010). Adem&aacute;s, la posibilidad de extraer relaciones incorrectas disminuye    considerablemente. Aunque hay que reconocer que la calidad de las relaciones    est&aacute; influenciada, en gran medida, por la calidad del AD. </font></p>     ]]></body>
<body><![CDATA[<p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> La    <em>extracci&oacute;n de</em> <em>relaciones impl&iacute;citas</em> se basa    en el uso del corpus de MCs como conocimiento de referencia y bien formado,    cuyos MCs se recomiendan que sean de dominio espec&iacute;fico, vinculado con    el MC que se procesa. Este tipo de relaciones de id&eacute;ntica cuando existe    una relaci&oacute;n entre conceptos representados en alguno de los MCs del corpus    y que tambi&eacute;n est&aacute;n en el texto. </font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> Al    final, los conceptos que no son relacionados se catalogan como &ldquo;conceptos    hu&eacute;rfanos&rdquo; y se extraen a una lista aparte la cual ser&aacute;    incluida en la lista final de conceptos cuando se genere el MC de modo que pueda    brindarse la mayor informaci&oacute;n posible sobre el texto.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Refinado    y construcci&oacute;n del Mapa Conceptual</B></font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Esta    constituye la &uacute;ltima fase del m&eacute;todo. Luego de haber extra&iacute;do    los conceptos y relaciones expl&iacute;cita y no explicita entre ellos y formada    las proposiciones, se procede a eliminar posibles errores que puedan existir    en dichas proposiciones, para lo cual se ejecutan una serie de reglas, las cuales    indicaran que proposiciones deben ser eliminadas. Por ejemplo, son eliminadas    las proposiciones en las que el concepto origen es igual al concepto destino,    o en las que alguno de los dos conceptos contenga a la frase de enlace. Adem&aacute;s    se eliminan las proposiciones repetidas, que son las que cada concepto en una    proposici&oacute;n sea igual o contenga a su correspondiente en otra proposici&oacute;n    y que las frases de enlace sean iguales o una incluya a la otra.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> Luego    de concluido el refinado de las proposiciones, se procede con la normalizaci&oacute;n    de los conceptos, que no es m&aacute;s que un proceso de unificaci&oacute;n    de conceptos, a partir de un algoritmo de comparaci&oacute;n sint&aacute;ctica,    unific&aacute;ndose aquellos conceptos muy similares sint&aacute;cticamente.    Tambi&eacute;n se unifica las frases de enlace, pero en este caso no solo es    suficiente con que sean iguales, sino que se toma en cuenta su funci&oacute;n    en el MC, ya que si se unifica incorrectamente se le puede estar atribuyendo    a un concepto origen, los conceptos destinos a los que se une a trav&eacute;s    de la frase de enlace otro concepto origen. Por tanto para unificar se debe    verificar que en todas las proposiciones en la que esta est&eacute;, los conceptos    origen se enlacen con los mismos conceptos destinos. Las frases desenlazadas    se eliminan posteriormente. Se consideran como iguales aquellas frases de enlace    en las que las palabras sean las mismas en el mismo orden. Por &uacute;ltimo,    luego que se ha refinado la informaci&oacute;n extra&iacute;da y estructurada    en proposiciones se procede a la &uacute;ltima tarea y es la integraci&oacute;n    de todas las proposiciones para construir finalmente el Mc y visualizarlo.</font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Implementaci&oacute;n    y ejemplificaci&oacute;n</B></font></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El    m&eacute;todo propuesto ha sido implementado en una herramienta experimental    que se ha bautizado con el nombre de <em>SEINET</em>, correspondiente a las    siglas de Sistema para la Extracci&oacute;n de Informaci&oacute;n Estructurada    en Textos, fundamentalmente orientada al procesamiento de textos en espa&ntilde;ol.    Algunas de sus cualidades m&aacute;s relevantes son las siguientes:</font></p> <ul type="disc">       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">soporte para      el procesamiento masivo de documentos, es decir, dada una colecci&oacute;n      de documentos la herramienta es capaz de procesar cada uno de los documentos      de forma autom&aacute;tica, y en un tiempo razonablemente breve.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">posibilidad      de exportar el MC resultante a formato CXL (Concept Mapping Extensible Language)      (Ca&ntilde;as et al., 2006), lo que posibilita que pueda ser editado en CmapTools      (Ca&ntilde;as et al., 2004), as&iacute; como reutilizado ese contenido por      terceras aplicaciones.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">aplicaci&oacute;n      de t&eacute;cnicas de paralelismo en el procesamiento masivo de documentos,      as&iacute; como en actividades de la fase de pre-procesamiento.</font></li>       ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">incorporaci&oacute;n      de un editor de MC que permite modificar/refinar el MC resultante sin necesidad      de disponer de CmapTools.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">generaci&oacute;n      de reportes estad&iacute;sticos sobre el procesamiento y construcci&oacute;n      de los MCs &uacute;tiles para la realizaci&oacute;n de pruebas continuas al      m&eacute;todo.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">parametrizaci&oacute;n      de categor&iacute;as gramaticales y los patrones ling&uuml;&iacute;sticos      para facilitar el estudio del m&eacute;todo en diferentes escenarios. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">implementaci&oacute;n      del m&eacute;todo basada en componentes, lo que permite la reutilizaci&oacute;n      de sus partes funcionales.</font></li>     </ul>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En    la <a href="/img/revistas/rcci/v7n1/f0307113.png">Figura 3</a>. se muestran    diferentes vistas de la interfaz de SEINET.</font></p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v7n1/t0307113.png">Tabla    3</a>. se muestra, a modo de ejemplo los resultados que obtiene SEINET y CMAG    (Estrada, 2011) para un texto simple. Los MCs que se muestran en dicha tabla    han sido construidos autom&aacute;ticamente por ambas herramientas. Aunque en    amos MC se logra representar casi la totalidad del contenido del texto simple    de ejemplo, se aprecia que a trav&eacute;s de SEINET se logra una mayor calidad    en cuanto a la precisi&oacute;n en la extracci&oacute;n de frases conceptuales,    obteni&eacute;ndose conceptos con una estructura m&aacute;s simple y no est&aacute;n    repetidos, como sucede en la salida de CMAG. Tambi&eacute;n se aprecian mejoras    en la extracci&oacute;n de relaciones, evidenci&aacute;ndose en estas &uacute;ltimas,    una mayor coherencia y mayor cantidad de relaciones entre conceptos que la identificada    en CMAG. Se aprecia adem&aacute;s como el resultado del proceso de refinado    o normalizaci&oacute;n contribuyen a que se logre un MC en el que se integra    todo el contenido, lo que no ocurre en el MC obtenido por CMAG. La ampliaci&oacute;n    de los patrones ling&uuml;&iacute;sticos en la identificaci&oacute;n de conceptos    y relaciones, as&iacute; como y la aplicaci&oacute;n del AD han incidido en    un aumento de la calidad en la salida de SEINET en comparaci&oacute;n con la    de CMAG. Por otro lado, el uso de una t&eacute;cnica de acceso r&aacute;pido    a la herramienta FreeLing y ha permitido que el tiempo de ejecuci&oacute;n disminuya    considerablemente (CMAG: 6.2 seg. vs. SEINET: 0.1 seg.). Los conceptos tienen    una estructura m&aacute;s simple y no est&aacute;n repetidos, como sucede en    la salida de CMAG, esto confirma la calidad del proceso de identificaci&oacute;n    de conceptos. </font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> En la <a href="#t04">Tabla    4</a>. se muestra otro ejemplo, pero en este caso, solo ejecutando SEINET pero    al que se le ha incorporado un MC formado por una proposici&oacute;n como conocimiento    de referencia para el procesamiento del texto de la <a href="/img/revistas/rcci/v7n1/t0307113.png">Tabla    3</a>. </font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra    de las mejoras incluidas en la salida de SEINET es la identificaci&oacute;n    de la relevancia de los conceptos y las relaciones mediante su representaci&oacute;n    con diferentes colores. En el caso de los conceptos, los que son extra&iacute;dos    solamente del texto, se representan gr&aacute;ficamente con un color aleatorio,    mientras que los que adem&aacute;s est&aacute;n presentes en los mapas de referencia,    se representan usando un color predefinido y que contrasta con el color del    resto de los conceptos. </font>      <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="t04" id="t04"></a><img src="/img/revistas/rcci/v7n1/t0407113.png" width="460" height="337"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De igual manera    ocurre con las relaciones, las cuales se representan de color rojo, si son relaciones    expl&iacute;citas, o sea, que son identificadas en el texto, mientras que las    relaciones impl&iacute;citas, que se extraen de los MCs de referencias, se representan    de color negro. Ambas situaciones son apreciadas en la <a href="#t04">Tabla    4</a>, donde aqu&iacute; se precia como se ha incorporado al MC resultante (a    la izquierda) una relaci&oacute;n impl&iacute;cita entre los conceptos &lsquo;<em>mapas    conceptuales</em>&rsquo; y &lsquo;<em>procesamiento de la informaci&oacute;n</em>&rsquo;    complementando la informaci&oacute;n extra&iacute;da del texto y evidenciando    la utilidad del uso de MCs de referencia en un corpus configurable. </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el trabajo se    ha presentado un m&eacute;todo para la extracci&oacute;n de informaci&oacute;n    estructurada desde textos escritos en idioma espa&ntilde;ol, con beneficios    para la Miner&iacute;a de Texto y que representa bases para futuros desarrollo    en esa direcci&oacute;n. La informaci&oacute;n extra&iacute;da autom&aacute;ticamente    es estructurada a trav&eacute;s de un MC. Las tareas de pre-procesamiento brindan    soporte para diferentes formatos de textos, y se combina el an&aacute;lisis    sint&aacute;ctico superficial y profundo o de dependencias, as&iacute; como    el reconocimiento de entidades, para aportar la mayor cantidad de informaci&oacute;n    sint&aacute;ctica posible a la fase de identificaci&oacute;n y extracci&oacute;n    de frases conceptuales y relaciones expl&iacute;citas e impl&iacute;citas. Los    patrones ling&uuml;&iacute;sticos definidos y el conocimiento en el corpus de    MCs como referencia posibilitan aprovechar en mayor medida la informaci&oacute;n    sint&aacute;ctica suministrada en la fase anterior, y al mismo tiempo mejorar    la calidad en la identificaci&oacute;n de conceptos y relaciones, con respecto    a otras propuestas. Se presenta SEINET como herramienta experimental que implementa    el m&eacute;todo propuesto, a la que se han incorporado un conjunto de prestaciones    que contribuyen a un uso m&aacute;s eficiente y flexible del m&eacute;todo,    as&iacute; como la reutilizaci&oacute;n de las funcionalidades que implementa    de la informaci&oacute;n estructurada en MCs resultante. Los casos de estudio,    aunque simples, permiten ejemplificar el m&eacute;todo propuesto, as&iacute;    como el funcionamiento de SEINET, y apreciar resultados parcialmente satisfactorios,    considerando que el grado de complejidad, del problema tratado en este trabajo    es nada despreciable.</font>      <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">AUSUBEL, D. y NOVAK    J. D., &quot;Psicolog&iacute;a Educativa,&quot; M&eacute;xico Trillas ed, 1989.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CA&Ntilde;AS A.    J., y Carvalho M., Concept Maps and AI: an Unlikely Marriage?&quot;, Revista    Brasileira de Inform&aacute;tica na Educa&ccedil;&atilde;o, 2004.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ca&ntilde;as A.    J., Hill G., Carff R., Suri N., Lott J., G&oacute;mez G., Eskridge T. C., Arroyo    M., y Carvajal R., CMapTools: A Knowledge Modeling and Sharing Environment,    en Proc. of the First International Conference on Concept Mapping, Universidad    P&uacute;blica de Navarra: Pamplona, Spain, 2004, pp. 125-133.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CA&Ntilde;AS A.    J., HILL G., BUNCH L., CARFF R., ESKRIDGE T., Y P&Eacute;REZ C., KEA: A Knowledge    Exchange Architecture Based On Web Service, Concept Maps and CmapTools, en Proc.    Of Second International Conference on Concept Mapping (CMC&rsquo;06), Vol. 1,    San Jos&eacute;, Costa Rica, 2006, pp. 304-310.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Charniak E., y    Johnson M., Coarse-to-fine n-best parsing and Maximum Entropy discriminative    reranking. ACL'05, 2005.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FELDMAN R., SANGER    J., The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured    Data. New York, Cambridge University Press, 2007, 410 p.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FELDMAN R.; Fresko    M.; Kinar Y.; Lindell Y.; Liphstat O.; Rajman M.; Schler Y.; Zamir O., Text    Mining at the Term Level, en Proc. of the 2nd European Symposium on Principles    of Data Mining and Knowledge Discovery (PKDD'98), 1998.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Kowata J. H., Cury    D. y Boeres M. C. S., Concept Maps Core Elements Candidates Recognition From    Texts, en Proc. of Fourth International Conference on Concept Mapping (CMC&rsquo;10),    Vi&ntilde;a del Mar, Chile, 2010.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Miller G., Beckwidth    R., Fellbaum C., Gross D., y Miller K., Introduction to WordNet: An On-line    Lexical Database. International Journal of Lexicography, 3(4), 1993, pp. 235-244.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Montes y G&oacute;mez    M., Miner&iacute;a de texto: Un nuevo reto computacional, Instituto Nacional    de Astrof&iacute;sica, Optica y Electr&oacute;nica (INAOE), M&eacute;xico, 2001,    Disponible en: <a href="http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf" target="_blank">http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf</a>    </font><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ESTRADA E., CMAG:    Herramienta para la Construcci&oacute;n Autom&aacute;tica de un Mapa Conceptual    a Partir de un Texto No Estructurado en Lenguaje Natural, Tesis de Diploma,    Facultad de Ingenier&iacute;a Inform&aacute;tica, Instituto Superior Polit&eacute;cnico    &ldquo;Jos&eacute; Antonio Echeverr&iacute;a&rdquo;, 2011.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VILLALON J., Calvo    R. A. y Montenegro R., Analysis of a gold standard for concept map mining &ndash;    How humans summarize text using concept maps, en Proc. of Fourth International    Conference on Concept Mapping (CMC&rsquo;10), Vi&ntilde;a del Mar, Chile, 2010,    pp. 14-22.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NOVAK J. D. y GOWIN    D. B., Learning How to Learn, New York, Estados Unidos, 1984.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NOVAK J. D., y    CA&Ntilde;AS A. J., The Theory Underlying Concept Maps and How to Construct    Them, Technical Report IHMC CmapTools 2006-01 (Rev 2008-01), Florida Institute    for Human and Machine Cognition, Pensacola Fl, 32502, USA, 2008.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SIM&Oacute;N A.    J., Rosete A., Panucia K. y Ortiz A., Aproximaci&oacute;n a un m&eacute;todo    para la representaci&oacute;n en Mapas Conceptuales del conocimiento almacenado    en textos, con beneficios para la Miner&iacute;a de Texto, I Simposio Cubano    de Inteligencia Artificial (SiCIA&rsquo;04), 10ma Convenci&oacute;n y Feria    Internacional Inform&aacute;tica 2004, C. Habana, Cuba, 2004.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sim&oacute;n A.,    Ceccaroni L., Rosete A., Suarez A., y Victoria R., A Support to Formalize a    Conceptualization from a Concept Maps Repository, en Proc. of the Third Int.    Conference on Concept Mapping. Tallinn University, Tallinn, Estonia, 2008, pp.    68-75.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VALERIO, A. y LEAKE    D. B., Jump-Starting Concept Map Construction with Knowledge Extracted from    Documents, en Proc. Of Second International Conference on Concept Mapping (CMC&rsquo;06),    Vol. 1, San Jos&eacute;, Costa Rica, 2006, pp. 296-303.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VALERIO, A., LEAKE    D. B., y CA&Ntilde;AS A. J., Associating Documents To Concept Maps In Context,    en Proc. Of Third International Conference on Concept Mapping (CMC&rsquo;08),    Vol. 1, Tallinn University, Tallinn, Estonia, 2008, pp. 114-121.</font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Recibido: 15 de    enero de 2013.    <BR>   Aprobado: 3 de marzo de 2013.</font>       ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[AUSUBEL]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[NOVAK]]></surname>
<given-names><![CDATA[J. D.]]></given-names>
</name>
</person-group>
<source><![CDATA[Psicología Educativa]]></source>
<year>1989</year>
<publisher-name><![CDATA[México Trillas ed]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAÑAS]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Carvalho]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Concept Maps and AI: an Unlikely Marriage?]]></source>
<year>2004</year>
<publisher-name><![CDATA[Revista Brasileira de Informática na Educação]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cañas]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Hill]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Carff]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[CMapTools: A Knowledge Modeling and Sharing Environment, en Proc. of the First International Conference on Concept Mapping]]></source>
<year>2004</year>
<page-range>125-133</page-range><publisher-name><![CDATA[Universidad Pública de Navarra]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAÑAS]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
<name>
<surname><![CDATA[HILL]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[BUNCH]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<source><![CDATA[KEA: A Knowledge Exchange Architecture Based On Web Service, Concept Maps and CmapTools, en Proc]]></source>
<year>2006</year>
<volume>1</volume>
<page-range>304-310</page-range><publisher-loc><![CDATA[San José ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Charniak]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[Johnson]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Coarse-to-fine n-best parsing and Maximum Entropy discriminative reranking]]></source>
<year>2005</year>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FELDMAN]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[SANGER]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data]]></source>
<year>2007</year>
<page-range>410</page-range><publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Cambridge University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FELDMAN]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Fresko]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Kinar]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
</person-group>
<source><![CDATA[Text Mining at the Term Level]]></source>
<year>1998</year>
<publisher-name><![CDATA[Proc. of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'98)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kowata]]></surname>
<given-names><![CDATA[J. H.]]></given-names>
</name>
<name>
<surname><![CDATA[Cury]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Boeres]]></surname>
<given-names><![CDATA[M. C. S.]]></given-names>
</name>
</person-group>
<source><![CDATA[Concept Maps Core Elements Candidates Recognition From Texts]]></source>
<year>2010</year>
<publisher-loc><![CDATA[Viña del Mar ]]></publisher-loc>
<publisher-name><![CDATA[Proc. of Fourth International Conference on Concept Mapping (CMC&#8217;10)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Miller]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Beckwidth]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Fellbaum]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to WordNet: An On-line Lexical Database]]></source>
<year>1993</year>
<volume>4</volume>
<page-range>235-244</page-range><publisher-name><![CDATA[International Journal of Lexicography]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Montes y Gómez]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Minería de texto: Un nuevo reto computacional]]></source>
<year></year>
<publisher-name><![CDATA[Instituto Nacional de Astrofísica, Optica y Electrónica (INAOE)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ESTRADA]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<source><![CDATA[CMAG: Herramienta para la Construcción Automática de un Mapa Conceptual a Partir de un Texto No Estructurado en Lenguaje Natural]]></source>
<year>2011</year>
<publisher-name><![CDATA[Facultad de Ingeniería Informática, Instituto Superior Politécnico &#8220;José Antonio Echeverría&#8221;]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VILLALON]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Calvo]]></surname>
<given-names><![CDATA[R. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Montenegro]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Analysis of a gold standard for concept map mining: How humans summarize text using concept maps]]></source>
<year>2010</year>
<page-range>14-22</page-range><publisher-loc><![CDATA[Viña del Mar ]]></publisher-loc>
<publisher-name><![CDATA[Proc. of Fourth International Conference on Concept Mapping (CMC&#8217;10)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NOVAK]]></surname>
<given-names><![CDATA[J. D.]]></given-names>
</name>
<name>
<surname><![CDATA[GOWIN]]></surname>
<given-names><![CDATA[D. B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning How to Learn]]></source>
<year>1984</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NOVAK]]></surname>
<given-names><![CDATA[J. D.]]></given-names>
</name>
<name>
<surname><![CDATA[CAÑAS]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[The Theory Underlying Concept Maps and How to Construct Them, Technical Report IHMC CmapTools]]></source>
<year>2006</year>
<month>20</month>
<day>08</day>
<publisher-name><![CDATA[Florida Institute for Human and Machine Cognition]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SIMÓN]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Rosete]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Panucia]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
<name>
<surname><![CDATA[Ortiz]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Aproximación a un método para la representación en Mapas Conceptuales del conocimiento almacenado en textos, con beneficios para la Minería de Texto]]></source>
<year>2004</year>
<publisher-loc><![CDATA[C. Habana ]]></publisher-loc>
<publisher-name><![CDATA[I Simposio Cubano de Inteligencia Artificial (SiCIA&#8217;04)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Simón]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Ceccaroni]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Rosete]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Suarez]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Victoria]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[A Support to Formalize a Conceptualization from a Concept Maps Repository]]></source>
<year>2008</year>
<page-range>68-75</page-range><publisher-loc><![CDATA[Tallinn ]]></publisher-loc>
<publisher-name><![CDATA[Proc. of the Third Int. Conference on Concept Mapping]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VALERIO]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[LEAKE]]></surname>
<given-names><![CDATA[D. B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Jump-Starting Concept Map Construction with Knowledge Extracted from Documents]]></source>
<year>2006</year>
<volume>1</volume>
<page-range>296-303</page-range><publisher-loc><![CDATA[San José ]]></publisher-loc>
<publisher-name><![CDATA[Proc. Of Second International Conference on Concept Mapping (CMC&#8217;06)]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VALERIO]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[LEAKE]]></surname>
<given-names><![CDATA[D. B.]]></given-names>
</name>
<name>
<surname><![CDATA[CAÑAS]]></surname>
<given-names><![CDATA[A. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Associating Documents To Concept Maps In Context]]></source>
<year>2008</year>
<volume>1</volume>
<page-range>114-121</page-range><publisher-loc><![CDATA[Tallinn ]]></publisher-loc>
<publisher-name><![CDATA[Proc. Of Third International Conference on Concept Mapping (CMC&#8217;08)]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
