<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352007000500014</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[La minería de texto: perspectiva metodológica para la realización de resúmenes documentales]]></article-title>
<article-title xml:lang="en"><![CDATA[Text Mining: A Methodological Perspective for Document Summaries]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Castillo Zayas]]></surname>
<given-names><![CDATA[Y. Mariela del]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Leiva Mederos]]></surname>
<given-names><![CDATA[Amed Abel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Información y Documentación. Escuela de Hotelería y Turismo Playas del Este. ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Central de Las Villas.  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>05</month>
<year>2007</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>05</month>
<year>2007</year>
</pub-date>
<volume>15</volume>
<numero>5</numero>
<fpage>0</fpage>
<lpage>0</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352007000500014&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352007000500014&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352007000500014&amp;lng=en&amp;nrm=iso"></self-uri></article-meta>
</front><body><![CDATA[  <h3 align="justify">Cartas </h3> <h2 align="justify">La miner&iacute;a de texto: perspectiva metodol&oacute;gica para la realizaci&oacute;n de res&uacute;menes documentales </h2>     <p align="justify"><a href="#autoe">Lic. Y. Mariela del Castillo Zayas<span class="superscript">1</span> y Lic. Amed Abel Leiva Mederos<span class="superscript">2</span></a><a name="cargo"></a> </p>     <p align="justify">Copyright: &copy; ECIMED. Contribuci&oacute;n de acceso abierto, distribuida bajo los t&eacute;rminos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar p&uacute;blicamente y utilizar los resultados del trabajo en la pr&aacute;ctica, as&iacute; como todos sus derivados, sin prop&oacute;sitos comerciales y con licencia id&eacute;ntica, siempre que se cite adecuadamente el autor o los autores y su fuente original. </p>     <p align="left">Cita (Vancouver): Castillo Zayas YM, Leiva Mederos AA. La miner&iacute;a de texto: perspectiva metodol&oacute;gica para la realizaci&oacute;n de res&uacute;menes documentales. Acimed 2007;15(5). Disponible en: <a href="http://bvs.sld.cu/revistas/aci/vol15_5_07/aci02507.htm">http://bvs.sld.cu/revistas/aci/vol15_5_07/aci14507.htm </a>[Consultado: d&iacute;a/mes/a&ntilde;o]. </p>     <p align="justify"><strong> </strong>La Ciencia de la Informaci&oacute;n ha incorporado a su quehacer algunos de los avances tecnol&oacute;gicos m&aacute;s importantes de las ciencias computacionales que, sin duda, permean las estructuras de representaci&oacute;n de esta especialidad. Uno de los campos que m&aacute;s expresiones de cambio ofrece es la representaci&oacute;n y organizaci&oacute;n de la informaci&oacute;n; y dentro de esta, la indizaci&oacute;n y el resumen es uno de los estratos que, desde el punto de vista metodol&oacute;gico, necesita m&aacute;s apropiarse de las herramientas l&oacute;gicas que la inteligencia artificial desarrolla. </p>     <p align="justify">Por otra parte, los dominios diversos que interact&uacute;an con esta informaci&oacute;n no poseen el tiempo para la consulta y la asimilaci&oacute;n de los grandes vol&uacute;menes de informaci&oacute;n existentes. Este fen&oacute;meno no s&oacute;lo ata&ntilde;a a los usuarios como consultores de informaci&oacute;n, sino tambi&eacute;n a los especialistas de la informaci&oacute;n. Estos, evidentemente, han cambiado sus funciones y actitudes y son cada vez menos lo que se dedican a la labor de extracci&oacute;n o de realizaci&oacute;n de res&uacute;menes. La miner&iacute;a de textos, en estos momentos, ofrecen perspectivas, desde un punto de vista elemental, que podr&iacute;an explotarse por los servicios de las instituciones de informaci&oacute;n a la vez que sus presupuestos metodol&oacute;gicos pudieran relacionarse con el desarrollo de nuevos m&eacute;todos para resumir informaci&oacute;n en el ciberespacio. </p>     <p align="justify">Los cambios que han ocurrido en el entorno de Internet y sobre todo en los documentos que circulan por esta red exigen buscar nuevas formas para resumir los grandes vol&uacute;menes de informaci&oacute;n que se generan diariamente y que incorporan nuevos elementos como voz, imagen, sonido y movimientos. En este entorno, los res&uacute;menes y los servicios de res&uacute;menes como instrumentos de condensaci&oacute;n de la informaci&oacute;n relevante, adquieren un mayor valor. </p> <h6 align="justify">Miner&iacute;a de texto </h6>     <p align="justify">Muchos autores coinciden en que la miner&iacute;a de texto o <em>Text Mining </em> es una herramienta que proviene del &aacute;rea del procesamiento autom&aacute;tico de textos y que permite localizar y extraer la informaci&oacute;n m&aacute;s significativa y esencial de los documentos, as&iacute; como informaci&oacute;n y conocimiento impl&iacute;cito y oculto en grandes <em>corpus </em> textuales electr&oacute;nicos, estructurados o no estructurados, como mensajes de correos electr&oacute;nicos, discursos, art&iacute;culos, entre otros. Debido a esto, en ocasiones se asocia con el espionaje. </p>     <p align="justify">Funciona a partir de una telara&ntilde;a sem&aacute;ntica, que tiene como objetivo construir toda una estructura de metadatos, informaci&oacute;n sobre la estructura y significado de los datos almacenados e incluirlos en los documentos de forma que sean navegables, identificables y entendibles por las m&aacute;quinas, por lo que es una herramienta eficaz para gestionar el conocimiento. "S e enfoca en el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, es decir, su objetivo es descubrir tendencias, desviaciones y asociaciones en la gran cantidad de informaci&oacute;n textual disponible",<span class="superscript">1</span> e s decir, facilita realizar an&aacute;lisis y se erige como un &aacute;rea emergente de la miner&iacute;a de datos. Elimina la informaci&oacute;n duplicada y detecta informaci&oacute;n similar o relacionada con la existente. La miner&iacute;a de textos utilizada en las Ciencias de la Informaci&oacute;n pudiera explotarse como herramienta en los nuevos m&eacute;todos de resumen porque permite la decodificaci&oacute;n y an&aacute;lisis del lenguaje natural e interfaces en la lengua materna de cada dominio, traducci&oacute;n autom&aacute;tica, procesamiento de voz, generaci&oacute;n de texto, etc&eacute;tera.<span class="superscript">2</span> Todas estas cualidades de la miner&iacute;a de texto son la raz&oacute;n que fundamenta la propuesta de esta herramienta como perspectiva metodol&oacute;gica para la realizaci&oacute;n de res&uacute;menes documentales.</p>     <p align="justify">Las perspectivas metodol&oacute;gicas de la miner&iacute;a de texto aplicables en las instituciones de informaci&oacute;n son dis&iacute;miles, porque su rango de acci&oacute;n no s&oacute;lo se desarrolla en el trabajo con el texto, sino que adem&aacute;s explora otros sectores como el procesamiento de voz, decodificaci&oacute;n de im&aacute;genes, construcci&oacute;n de <em>corpus</em> documentales, representaci&oacute;n y graficaci&oacute;n de t&eacute;rminos mediante herramientas de ponderaci&oacute;n asociadas, entre otros. </p>     ]]></body>
<body><![CDATA[<p align="justify">Algunos sistemas que se emplean para hacer miner&iacute;a de texto son: <em>SMART</em>, <em>ANES</em>, <em>SIM-SUM</em>, <em>KADS</em>, <em>Classifier</em>, <em>Parse </em>r, <em>Text Classifier</em>, <em>Text Recognizer</em>, la plataforma ILC, <em>NEURODOC</em>, <em>SDOC</em>, <em>HENOCH</em>, algunos basados en inteligencia artificial, entre otros. Todos estos sistemas permiten extraer la informaci&oacute;n relevante de un documento, agregan y comparan informaci&oacute;n autom&aacute;ticamente, clasifican y organizan los documentos seg&uacute;n su contenido y organizan los dep&oacute;sitos para la b&uacute;squeda y recuperaci&oacute;n de la informaci&oacute;n, pero la elecci&oacute;n del sistema que permitir&aacute; hacer miner&iacute;a de texto estar&aacute; determinada por la misi&oacute;n, visi&oacute;n y objetivos de la instituci&oacute;n de informaci&oacute;n, as&iacute; como las tecnolog&iacute;as disponibles para su implementaci&oacute;n. </p>     <p align="justify">Hacer un resumen autom&aacute;tico a partir de la extracci&oacute;n de palabras clave o frases significativas del texto produce como resultado un resumen de muy baja calidad, con dificultades desde el punto de vista ling&uuml;&iacute;stico (sinonimia, polisemia, an&aacute;fora, etc.). Tradicionalmente, su producci&oacute;n se ha basado en m&eacute;todos estad&iacute;sticos y t&eacute;cnicas de probabilidades, las cuales no aportan ning&uacute;n nivel de entendimiento de los conceptos y t&eacute;rminos. La capacidad de entender el lenguaje humano est&aacute; en terreno de la ling&uuml;&iacute;stica. Sus principales dificultades estriban en las t&eacute;cnicas l&eacute;xico-sint&aacute;cticas de selecci&oacute;n, en las actividades l&oacute;gico-sem&aacute;nticas de interpretaci&oacute;n y en las tareas pragm&aacute;tico-documentales de producci&oacute;n. Algunos especialistas en la materia ven la soluci&oacute;n de este problema en los sistemas expertos de inteligencia artificial, porque con solo analizar las dificultades que presentan se hace evidente que los sistemas actuales en general a&uacute;n no est&aacute;n preparados para el reto que implica la producci&oacute;n de res&uacute;menes autom&aacute;ticos de alta calidad. </p> <h4 align="justify">Consideraciones finales </h4>     <p align="justify">A pesar de todos los intentos que se han realizado en esta &aacute;rea, a&uacute;n faltan esfuerzos en pos de lograr que el estudio de estos sistemas est&eacute; soportado desde una &oacute;ptica ling&uuml;ista, es decir, que se orienten a entender la forma de pensamiento humano que es su principal aspiraci&oacute;n. </p>     <p align="justify">Se han estudiado poco las caracter&iacute;sticas f&iacute;sicas, intelectuales y operativas de estas nuevas formas de representaci&oacute;n, as&iacute; como sus complementos: sonido, im&aacute;genes fijas y en movimiento, etc&eacute;tera. </p>     <p align="justify">Los m&eacute;todos autom&aacute;ticos no logran proporcionar res&uacute;menes con igual calidad que los tradicionales, pero s&iacute; son eficaces para determinados contextos. </p>     <p align="justify">La informaci&oacute;n de origen connotativo que est&eacute; presente en los documentos, podr&aacute; interpretarse por el hombre, pero no por un sistema, lo que limita en gran medida la recuperaci&oacute;n de informaci&oacute;n. </p>     <p align="justify">La miner&iacute;a de textos es una forma m&aacute;s de enfrentar el problema de la representaci&oacute;n y por ende de la recuperaci&oacute;n de informaci&oacute;n relevante y pertinente un &aacute;ngulo diferente, pero tampoco ofrece la soluci&oacute;n definitiva. </p>     <p align="justify">Se pretende que la miner&iacute;a de textos se base no s&oacute;lo en la detecci&oacute;n de palabras clave, sino que adem&aacute;s emplee representaciones que consideren m&aacute;s tipos de elementos textuales, como grafos conceptuales para representar el contenido de los textos y llegar a un nivel m&aacute;s descriptivo. </p> <h4 align="justify">Referencias bibliogr&aacute;ficas </h4>     <div align="justify">       <p> 1. Montes y G&oacute;mez M. Miner&iacute;a de texto: un nuevo reto computacional. Disponible en: <a href="http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf">http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf </a> [Consultado: 3 de marzo del 2007]. </p>       ]]></body>
<body><![CDATA[<p>  2. Gelbukh A, Bolshakov I. Avances y perspectivas de procesamiento autom&aacute;tico de lenguaje natural: cuento de una m&aacute;quina parlante. Disponible en: <a href="http://www.gelbukh.com/CV/Publications/2000/IPN-Proc-Leng-Nat.htm">http://www.gelbukh.com/CV/Publications/2000/IPN-Proc-Leng-Nat.htm </a> [Consultado: 3 de marzo del 2007].      </div> </p>   </div>     <p align="justify">Recibido: 30 de marzo del 2007. Aprobado: 12 de abril del 2007.     <br> Lic. <em>Y</em>.<em> Mariela del Castillo Zayas</em>. Centro de Informaci&oacute;n y Documentaci&oacute;n. Escuela de Hoteler&iacute;a y Turismo Playas del Este. Calle 462 e/ 5ta y 7ma, Guanabo. CP 19120. La Habana, Cuba. Correo electr&oacute;nico: <a href="mailto:mariela@ehtpe.co.cu">mariela@ehtpe.co.cu </a></p>     <p align="justify"><span class="superscript"><a href="#cargo">1</a></span><a href="#cargo">Licenciada en Bibliotecolog&iacute;a y Ciencia de la Informaci&oacute;n. Centro de Informaci&oacute;n y Documentaci&oacute;n. Escuela de Hoteler&iacute;a y Turismo Playas del Este. Cuba.     <br>   <span class="superscript"><strong>2</strong></span>Licenciado en Bibliotecolog&iacute;a y Ciencia de la Informaci&oacute;n. Universidad Central de Las Villas. Cuba.</a><a name="autor"></a> </p>     <p align="justify">Ficha de procesamiento </p>     <p align="justify">T&eacute;rminos sugeridos para la indizaci&oacute;n </p>     <p align="justify">Seg&uacute;n DeCS<span class="superscript">1</span> </p>     <p align="justify">RESUMEN E INDIZACI&Oacute;N; PROCESAMIENTO AUTOMATIZADO DE LA INFORMACI&Oacute;N. </p>     <p align="justify">ABSTRACTING AND INDEXING; AUTOMATICA DATA PROCESSING. </p>     ]]></body>
<body><![CDATA[<p align="justify">Seg&uacute;n DeCI<span class="superscript">2</span> </p>     <p align="justify">PROCESAMIENTO AUTOMATIZADO DE LA INFORMACI&Oacute;N; PROCESAMIENTO DE LA INFORMACI&Oacute;N, RES&Uacute;MENES. </p>     <p align="justify">AUTOMATICA DATA PROCESSING; INFORMATION PROCESSING; ABSTRACTS. </p>     <p align="justify"><span class="superscript">1</span>BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004. </p>     <p align="justify">Disponible en:<a href="#"> http://decs.bvs.br/E/homepagee.htm</a></p>     <p align="justify"><span class="superscript">2</span>D&iacute;az del Campo S. Propuesta de t&eacute;rminos para la indizaci&oacute;n en Ciencias de la Informaci&oacute;n. Descriptores en Ciencias de la Informaci&oacute;n (DeCI). Disponible en: <a href="#">http://cis.sld.cu/E/tesauro.pdf </a>}</p>      ]]></body>
</article>
