<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352007000600006</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Segmentación por tópicos en documentos de múltiples párrafos]]></article-title>
<article-title xml:lang="en"><![CDATA[Segmentation by topics in multiparagraph documents]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Medina Pagola]]></surname>
<given-names><![CDATA[José E.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández Rojas]]></surname>
<given-names><![CDATA[Laritza]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV). Departamento Minería de Datos. ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba.</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2007</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2007</year>
</pub-date>
<volume>15</volume>
<numero>6</numero>
<fpage>0</fpage>
<lpage>0</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352007000600006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352007000600006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352007000600006&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Detectar automáticamente los límites físicos adecuados de los subtópicos en un documento es una tarea difícil y muy útil en el procesamiento de texto. Existen algunos métodos que intentan resolver este problema, varios de ellos con resultados favorables, aunque presentan algunas deficiencias; además, muchas de estas soluciones dependen del dominio de la aplicación. Se realiza un análisis de dos algoritmos para la segmentación de documentos y se comparan los resultados obtenidos con cada uno de ellos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[To automatically detect the adequate physical limits of subtopics in a document is a difficult but highly useful task in text processing. There is a few methods attempting to solve this problem, several of which have favorable results, although presenting some difficulties; also, many of these solutions depend on application skills. An analysis was made of two document segmentation algorithms and the results from each of them were compared.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Cohesión léxica]]></kwd>
<kwd lng="es"><![CDATA[segmentación por tópicos.]]></kwd>
<kwd lng="en"><![CDATA[Lexical cohesion]]></kwd>
<kwd lng="en"><![CDATA[topic segmentation]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <h2>Segmentaci&oacute;n por t&oacute;picos en documentos de m&uacute;ltiples p&aacute;rrafos </h2>     <p><a href="#cargo">Dr.C. Jos&eacute; E. Medina Pagola<span class="superscript">1</span> y Lic. Laritza Hern&aacute;ndez Rojas<span class="superscript">2</span> </a><a name="autor"></a></p> <h4>Resumen </h4>     <p align="justify">Detectar autom&aacute;ticamente los l&iacute;mites f&iacute;sicos    adecuados de los subt&oacute;picos en un documento es una tarea dif&iacute;cil    y muy &uacute;til en el procesamiento de texto. Existen algunos m&eacute;todos    que intentan resolver este problema, varios de ellos con resultados favorables,    aunque presentan algunas deficiencias; adem&aacute;s, muchas de estas soluciones    dependen del dominio de la aplicaci&oacute;n. Se realiza un an&aacute;lisis    de dos algoritmos para la segmentaci&oacute;n de documentos y se comparan los    resultados obtenidos con cada uno de ellos. </p>     <p><em>Palabras clave</em>: Cohesi&oacute;n l&eacute;xica, segmentaci&oacute;n por t&oacute;picos. </p> <h4>Abstract </h4>     <p>To automatically detect the adequate physical limits of subtopics in a document    is a difficult but highly useful task in text processing. There is a few methods    attempting to solve this problem, several of which have favorable results, although    presenting some difficulties; also, many of these solutions depend on application    skills. An analysis was made of two document segmentation algorithms and the    results from each of them were compared. </p>     <p><i>Key words</i>: Lexical cohesion, topic segmentation.    <br> </p>     <p align="justify">Copyright: &copy; ECIMED. Contribuci&oacute;n de acceso abierto,    distribuida bajo los t&eacute;rminos de la Licencia Creative Commons Reconocimiento-No    Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir,    comunicar p&uacute;blicamente y utilizar los resultados del trabajo en la pr&aacute;ctica,    as&iacute; como todos sus derivados, sin prop&oacute;sitos comerciales y con    licencia id&eacute;ntica, siempre que se cite adecuadamente el autor o los autores    y su fuente original. </p>     <p>Cita (Vancouver): Medina Pagola JE, Hern&aacute;ndez Rojas L. Segmentaci&oacute;n por t&oacute;picos en documentos de m&uacute;ltiples p&aacute;rrafos Acimed 2007;15(6). Disponible en: <a href="http://bvs.sld.cu/revistas/aci/vol15_5_07/aci02507.htm">http://bvs.sld.cu/revistas/aci/vol15_6_07/aci06607.htm <strong></strong></a>[Consultado: d&iacute;a/mes/a&ntilde;o]. </p>     <p align="justify">Con frecuencia, un documento contiene varios subt&oacute;picos. Estos se definen como piezas de texto que tratan sobre “algo”; ellas est&aacute;n formadas por unidades de texto: palabras, oraciones o p&aacute;rrafos. Sin embargo, no siempre los autores de los documentos utilizan marcas, subt&iacute;tulos o comentarios para identificar los subt&oacute;picos. </p>     ]]></body>
<body><![CDATA[<p align="justify">El proceso autom&aacute;tico para identificar en un texto, los subt&oacute;picos que lo forman, se conoce como <em>Segmentaci&oacute;n de textos por t&oacute;picos</em>. En lo adelante se denominar&aacute; segmentos a los subt&oacute;picos. </p>     <p>La segmentaci&oacute;n por t&oacute;picos es &uacute;til en varias tareas del procesamiento de texto, como: la realizaci&oacute;n de res&uacute;menes de los documentos, la segmentaci&oacute;n de una transmisi&oacute;n continua de noticias, la recuperaci&oacute;n de informaci&oacute;n, entre otras. </p>     <p align="justify">En la recuperaci&oacute;n de informaci&oacute;n, m&aacute;s    espec&iacute;ficamente en la recuperaci&oacute;n de pasajes, se utilizan los    m&eacute;todos de segmentaci&oacute;n por t&oacute;picos para devolver, como    resultados, los segmentos o pasajes m&aacute;s relacionados con la consulta    &#151;que realizar&iacute;a un usuario&#151; en lugar del documento completo.  </p>     <p align="justify">El resumen de documentos ser&iacute;a m&aacute;s robusto si    se conocieran todos los subt&oacute;picos que lo forman, porque estos subt&oacute;picos    se emplean como gu&iacute;a para la selecci&oacute;n de las ideas principales    que conformar&aacute;n el resumen del documento. </p>     <p align="justify">Aunque se han encontrado algunas aproximaciones para resolver el problema de la segmentaci&oacute;n, los resultados demuestran que estas no siempre tienen una alta calidad. Esto motiv&oacute; la presente investigaci&oacute;n en el que se describe el comportamiento de dos m&eacute;todos de segmentaci&oacute;n de documentos de m&uacute;ltiples p&aacute;rrafos y particularmente la segmentaci&oacute;n de documentos que expl&iacute;citamente explican o ense&ntilde;an sobre un t&oacute;pico, en los cuales es m&aacute;s probable que se repitan las palabras. </p> <h4><strong> </strong>M&eacute;todos </h4>     <p align="justify">Para realizar el experimento, se escogi&oacute; el primer ac&aacute;pite del cap&iacute;tulo 2 del libro titulado <em>Mars</em>, de Percival Lowell: <em>Evidence of it</em>.<span class="superscript">1</span> Este ep&iacute;grafe tiene aproximadamente 55 p&aacute;rrafos y se segment&oacute; manualmente por cinco personas. Se escogieron como v&aacute;lidos los siete l&iacute;mites de segmento (3, 10, 15, 28, 36, 43, 52), donde al menos existieron tres coincidencias (fig. 1). </p>     <p align="center"><a href="/img/revistas/aci/v15n6/f0106607.jpg"><img src="/img/revistas/aci/v15n6/f0106607.jpg" width="228" height="93" border="0"></a></p>     
<p align="center">FIG. 1. Resultados de la segmentaci&oacute;n manual basada en    el juicio humano. </p>     <p align="justify">A continuaci&oacute;n, se aplicaron ambos algoritmos a los textos seleccionados. Se construy&oacute;, adem&aacute;s, para continuar con el experimento, un texto con ocho subt&oacute;picos de siete art&iacute;culos diferentes tomados de la enciclopedia libre <em>Wikipedia</em>: <em>Solar System</em>, <em>Sun</em>, <em>Geography</em>, Hydrography, <em>Earth</em>, <em>Atmosphere</em>, <em>Animal y Soil</em>; <span class="superscript">2-8</span> seguidamente se realiz&oacute; su segmentaci&oacute;n con los algoritmos estudiados; se tomaron en este caso, como l&iacute;mites v&aacute;lidos, los l&iacute;mites exactos entre los ocho subt&oacute;picos escogidos. </p>     <p align="justify">Se calcularon entonces los valores de precisi&oacute;n, recobrado y de la m&eacute;trica <em>WindowDif </em> para las segmentaciones de los dos algoritmos en ambos textos: <em>Evidence of it, </em> de Mars, y los art&iacute;culos de <em>Wikipedia</em>. </p> <h6>M&eacute;todos de segmentaci&oacute;n </h6>     ]]></body>
<body><![CDATA[<p align="justify">Muchas de las investigaciones realizadas sobre la segmentaci&oacute;n por t&oacute;picos emplean el termino “cohesi&oacute;n l&eacute;xica”. En 1976, <em>Halliday </em> y <em>Hasan </em> definieron este t&eacute;rmino como una propiedad sem&aacute;ntica del discurso, referida a las relaciones de sentido que existe entre las unidades textuales en el texto.<span class="superscript">9</span> Entre los mecanismos que indican relaci&oacute;n de sentido se distinguen la repetici&oacute;n o reiteraci&oacute;n l&eacute;xica, la par&aacute;frasis, la elipsis y otras. </p>     <p align="justify">Los resultados de estas investigaciones muestran que la cohesi&oacute;n l&eacute;xica es un elemento muy &uacute;til para detectar los cambios de subt&oacute;picos en un texto, porque las unidades textuales que se relacionan fuertemente por una cohesi&oacute;n l&eacute;xica com&uacute;nmente constituyen un segmento que abarca un subt&oacute;pico simple. </p>     <p align="justify">A continuaci&oacute;n se describir&aacute;n dos m&eacute;todos utilizados para la segmentaci&oacute;n de textos en subt&oacute;picos y que se apoyan de alguna forma en la cohesi&oacute;n l&eacute;xica para el proceso de segmentaci&oacute;n. Pero antes, y aunque no es el objetivo de esta contribuci&oacute;n, es oportuno precisar que existen algunos trabajos en el &aacute;rea de la segmentaci&oacute;n, enfocados al descubrimiento de unidades de t&oacute;pico y al descubrimiento de la estructura de subt&oacute;picos en los documentos. </p>     <p align="justify">Un ejemplo es el sistema elaborado por <em>Stokes</em>, <em>Carthy </em>y <em>Smeaton</em>, y que se denomina <em>SeLeCT</em>, orientado a distinguir noticias individuales en un programa de transmisi&oacute;n de noticias.<span class="superscript">10</span> <em>SeLeCT </em> se basa en el an&aacute;lisis de la fuerza de cohesi&oacute;n l&eacute;xica entre las unidades textuales y utiliza una t&eacute;cnica ling&uuml;&iacute;stica llamada <em>encadenamiento l&eacute;xico</em>.<span class="superscript">11</span> </p>     <p align="justify">En esta misma l&iacute;nea se encuentra un m&eacute;todo prepuesto por <em>Ponte </em> y <em>Croft </em> que comprende como objetivo de aplicaci&oacute;n el rastreo de t&oacute;picos en trasmisiones de noticias y la identificaci&oacute;n de t&oacute;picos en una base de datos documental. Su trabajo est&aacute; dirigido hacia textos con tama&ntilde;os de segmentos relativamente peque&ntilde;os y para los cuales las oraciones dentro de los segmentos tengan relativamente pocas palabras en com&uacute;n; esto hace de la segmentaci&oacute;n un problema m&aacute;s complicado. Este m&eacute;todo emplea una t&eacute;cnica de <em>expansi&oacute;n de consulta </em> para encontrar rasgos comunes en los segmentos de t&oacute;picos.<span class="superscript">12</span> </p>     <p><em>Segmentaci&oacute;n en subt&oacute;picos propuesta por Hearst </em></p>     <p align="justify">Entre los m&eacute;todos de segmentaci&oacute;n que se dirigen a la identificaci&oacute;n de estructuras de subt&oacute;picos en los documentos se encuentran el desarrollado por <em>Hearst</em>, quien propuso un algoritmo al que denomin&oacute; <em>TextTiling</em>. Este algoritmo divide textos explicativos en unidades de discurso de m&uacute;ltiples p&aacute;rrafos. Contrario a muchos modelos de discurso, que asumen una segmentaci&oacute;n jer&aacute;rquica de este, el autor determin&oacute; representar el texto en una secuencia lineal de segmentos.<span class="superscript">13</span> </p>     <p align="justify">El algoritmo tiene tres partes principales: preprocesamiento,    c&aacute;lculo de puntuaciones l&eacute;xicas e identificaci&oacute;n de los    l&iacute;mites. En la primera se eliminan los <em>stopwords </em>o palabras    negativas (proposiciones, art&iacute;culos, etc.), se realiza un an&aacute;lisis    morfol&oacute;gico del texto y los documentos se dividen en secuencias de palabras    significativas, sin considerar signos de puntuaci&oacute;n; a estas secuencias    se les llama oraciones. <strong></strong></p>     <p align="justify">Luego se pasa a determinar una puntuaci&oacute;n l&eacute;xica para los espacios entre grupos de oraciones seg&uacute;n sea el m&eacute;todo que se escoja entre los dos propuestos en <em>TextTiling </em>. El primer m&eacute;todo compara bloques adyacentes de texto, formados por un grupo de oraciones, y asigna una puntuaci&oacute;n de similitud entre estos bloques de acuerdo con la cantidad de palabras que tengan en com&uacute;n. El segundo m&eacute;todo, nombrado introducci&oacute;n de vocabulario, forma intervalos de texto con oraciones y asigna una puntuaci&oacute;n l&eacute;xica al punto medio del intervalo, basada en la cantidad de palabras nuevas (palabras no vistas antes en el texto) que aparecen alrededor de este punto medio. </p>     <p align="justify">Finalmente, la identificaci&oacute;n del l&iacute;mite se realiza    en forma id&eacute;ntica para los dos m&eacute;todos de puntuaci&oacute;n l&eacute;xica.    Sobre esta base, se asigna una puntuaci&oacute;n de profundidad a cada espacio    entre oraciones donde ocurra un valle (baja puntuaci&oacute;n l&eacute;xica).    La puntuaci&oacute;n de profundidad del valle corresponde a cu&aacute;n fuertemente    cambiaron las se&ntilde;ales para un subt&oacute;pico en ambos lados del valle,    basada en la distancia desde el valle a los dos picos que lo forman. En otras    palabras, si una baja puntuaci&oacute;n l&eacute;xica es precedida y sucedida    por una alta puntuaci&oacute;n l&eacute;xica, esto se asume como indicador de    un cambio en el vocabulario que corresponder&aacute;, seg&uacute;n lo asumido,    con un cambio de subt&oacute;pico. Seguidamente, las puntuaciones de profundidad    se ordenan y se utilizan para determinar los l&iacute;mites de los segmentos;    son las posiciones con puntuaciones m&aacute;s altas las de mayor probabilidad    para que ocurran los l&iacute;mites.<span class="superscript">13</span> </p>     ]]></body>
<body><![CDATA[<p align="justify">Este algoritmo tiene un buen desempe&ntilde;o, pero presenta la dificultad que provoca la interrupci&oacute;n de un segmento que contenga un subt&oacute;pico simple. Esto ocurre cuando existe un p&aacute;rrafo corto u otro que pueda hacer que se interrumpa la continuidad del sentido entre dos p&aacute;rrafos. El algoritmo no detecta este comportamiento porque, al bajar la puntuaci&oacute;n l&eacute;xica, notablemente en esta zona del texto el algoritmo asigna un l&iacute;mite de segmento. </p>     <p><em>Segmentaci&oacute;n en subt&oacute;picos propuesta por Heinone </em></p>     <p align="justify"><em>Heinone</em>, a diferencia de <em>Hearst</em>, propuso un m&eacute;todo que emplea una ventana que recorre todo el texto y determina para cada p&aacute;rrafo el p&aacute;rrafo m&aacute;s similar dentro de la ventana. Esta se formar&aacute; por una cantidad de p&aacute;rrafos superiores e inferiores al que se analiza. </p>     <p align="justify">Este m&eacute;todo es muy &uacute;til cuando es necesario controlar la longitud (en cantidad de palabras) de los segmentos. El m&eacute;todo de segmentaci&oacute;n utiliza un m&eacute;todo de programaci&oacute;n din&aacute;mica para garantizar que se encuentren los l&iacute;mites de segmento de m&iacute;nimo costo con respecto a una curva de cohesi&oacute;n l&eacute;xica entre los p&aacute;rrafos, una longitud de preferencia para los segmentos especificada por el usuario y una funci&oacute;n param&eacute;trica definida de costo de longitud.<span class="superscript">14</span> </p>     <p>Primeramente se construye un vector de cohesi&oacute;n <img width="93" height="24" src="/img/revistas/aci/v15n6/aci06607_clip_image002.gif">    con todos los p&aacute;rrafos del documento, donde a cada uno se le asocia el    valor de similitud m&aacute;s alto en su ventana. </p>     
<p align="justify">Como en el algoritmo se considera la longitud de los segmentos, se utiliza una funci&oacute;n de costo de longitud que determina la correspondencia entre la longitud de un segmento y la longitud deseada para este, <img width="81" height="21" src="/img/revistas/aci/v15n6/aci06607_clip_image004.gif">, donde x es la longitud del segmento, plalongitud deseada, y h un par&aacute;metro de escala para ajustar las longitudes. </p>     
<p align="justify">La l&oacute;gica que sigue el algoritmo es determinar los costos de segmentaci&oacute;n para cada p&aacute;rrafo de forma secuencial del primero al &uacute;ltimo, seg&uacute;n la siguiente expresi&oacute;n: </p>     <p align="center"><a href="/img/revistas/aci/v15n6/d0106607.jpg"><img src="/img/revistas/aci/v15n6/d0106607.jpg" width="253" height="102" border="0"></a></p>     
<p>Adem&aacute;s, por cada p&aacute;rrafo se determina su l&iacute;mite, que ser&aacute; el &uacute;ltimo p&aacute;rrafo del segmento anterior al que lo contiene. Este l&iacute;mite queda determinado por la expresi&oacute;n: </p>     <p align="center"><img src="/img/revistas/aci/v15n6/d0206607.jpg" width="417" height="40"></p>     
]]></body>
<body><![CDATA[<p align="justify">Aunque este m&eacute;todo logra determinar una correspondencia &oacute;ptima entre la longitud de los segmentos que se obtienen, la longitud deseada para estos y el valor de similitud asociado con cada p&aacute;rrafo, tiene el inconveniente de que el vector de cohesi&oacute;n del documento asocia cada p&aacute;rrafo con el valor de similitud m&aacute;s alto en su ventana, pero no considera que este valor puede corresponderse con un p&aacute;rrafo superior o inferior a &eacute;l. A pesar de esto, dicho valor decide si el p&aacute;rrafo asociado se incluye o no en el &uacute;ltimo segmento que se procesa y que, hasta ese instante del algoritmo, se extiende hasta el p&aacute;rrafo inferior. Como puede observarse, permitir que la alta similitud se observe con p&aacute;rrafos superiores para decidir su inclusi&oacute;n en un segmento inferior debilita los presupuestos del m&eacute;todo. </p>     <p>Comparaci&oacute;n y evaluaci&oacute;n de los resultados obtenidos con las propuestas de <em>Hearst </em> y <em>Heinone </em></p>     <p align="justify">Evaluar los resultados de los algoritmos de segmentaci&oacute;n tiene dos dificultades fundamentales. La primera est&aacute; determinada por la naturaleza subjetiva de la detecci&oacute;n de los l&iacute;mites f&iacute;sicos de los subt&oacute;picos, en la que pueden, incluso, estar en desacuerdo varios lectores humanos que decidan realizar esta tarea; esto hace dif&iacute;cil seleccionar un <em>corpus </em> de prueba para realizar las comparaciones.<span class="superscript">11,15</span> Frecuentemente, esta dificultad se resuelve al comparar el resultado de los algoritmos contra las marcas, encabezados o subt&iacute;tulos, para identificar los subt&oacute;picos que especifica el autor del documento; pero estas marcas no siempre se precisan. Algunos comparan sus resultados contra un conjunto de documentos concatenados, donde se distingan diferentes t&oacute;picos. Mientras tanto, otros comparan contra el resultado de una segmentaci&oacute;n manual basada en el juicio de varios lectores humanos. </p>     <p align="justify">La segunda dificultad es que la importancia de los tipos de errores depende de las aplicaciones donde se precisan las t&eacute;cnicas de segmentaci&oacute;n; por ejemplo, en la recuperaci&oacute;n de informaci&oacute;n pueden aceptarse l&iacute;mites de segmento que difieran en unas pocas oraciones del l&iacute;mite real del segmento. En cambio, para la segmentaci&oacute;n de una transmisi&oacute;n continua de noticias es muy importante la exactitud de la ubicaci&oacute;n de los l&iacute;mites. </p>     <p align="justify">Encontrar una m&eacute;trica de evaluaci&oacute;n adecuada para determinar la exactitud de un algoritmo de segmentaci&oacute;n es un tema que ha generado mucha pol&eacute;mica. Una medida de evaluaci&oacute;n que se ha utilizado por muchos autores es la de <em>precisi&oacute;n y recobrado</em>, que es una medida est&aacute;ndar en las experimentaciones con sistemas de recuperaci&oacute;n de informaci&oacute;n. En la evaluaci&oacute;n de la segmentaci&oacute;n, la precisi&oacute;n y el recobrado se definen de la siguiente forma. </p>     <p align="justify"><em>Precisi&oacute;n</em>: El porcentaje que representan los l&iacute;mites de segmento correctamente detectados por el algoritmo del total de l&iacute;mites detectados por el algoritmo. </p>     <p align="justify"><em>Recobrado </em>: El porcentaje que representan los l&iacute;mites de segmento correctamente detectados por el algoritmo del total de l&iacute;mites reales detectados en la segmentaci&oacute;n de referencia. </p>     <p align="justify">Esta medida de evaluaci&oacute;n suele ser muy conveniente en aplicaciones donde es imprescindible la exactitud de la localizaci&oacute;n de los l&iacute;mites de segmento. Pero no es as&iacute; en aquellas aplicaciones que no lo requieren, porque penaliza muy fuerte al algoritmo cuando encuentra l&iacute;mites que no coinciden exactamente con los l&iacute;mites reales, y no considera si existe proximidad entre ellos. </p>     <p align="justify">En el a&ntilde;o 2000, <em>Pevzner </em> y <em>Hearst </em> propusieron una m&eacute;trica denominada <em>WindowDiff </em>para mejorar el proceso de evaluaci&oacute;n de la segmentaci&oacute;n.<span class="superscript">15</span> <em>WindowDif </em>utiliza una ventana corrediza de longitud <em>k </em> para recorrer todo el texto y encontrar las discrepancias entre la segmentaci&oacute;n de referencia y la que se obtiene como resultado del algoritmo. </p>     <p align="justify">En la literatura, se encuentran muchos autores que experimentan con varios tama&ntilde;os de la ventana; es decir, con varios valores de <em>k. </em>En este trabajo, <em> k </em>se toma como la mitad del promedio del tama&ntilde;o que tienen los segmentos en la segmentaci&oacute;n de referencia como sugieren los autores de la m&eacute;trica. </p>     ]]></body>
<body><![CDATA[<p align="justify">En cada posici&oacute;n de la ventana, se determina para ambas segmentaciones el n&uacute;mero de l&iacute;mites existentes en la ventana, y si el n&uacute;mero de l&iacute;mites no es el mismo se penaliza el algoritmo. Posteriormente, se suman todas las penalizaciones que se encontraron en el texto completo y se normaliza este valor de forma que la m&eacute;trica toma un valor entre 0 y 1. <em>WindowDiff </em> toma el valor de 0 si el algoritmo asigna todos los l&iacute;mites correctamente y toma el valor de 1 si difiere con la segmentaci&oacute;n de referencia en todas las posiciones de la ventana. M&aacute;s formalmente: </p>     <p align="center"><a href="/img/revistas/aci/v15n6/d0306607.jpg"><img src="/img/revistas/aci/v15n6/d0306607.jpg" width="427" height="55" border="0"></a></p>     
<p align="justify">Donde <em>b(i,j) </em> representa el n&uacute;mero de l&iacute;mites entre la posici&oacute;n <em>i </em> y <em> j </em> en el texto, <em>N </em> representa el n&uacute;mero total de unidades textuales en el texto completo seg&uacute;n sea el inter&eacute;s de la segmentaci&oacute;n, como por ejemplo, oraciones o p&aacute;rrafos, <em> ref </em> es la segmentaci&oacute;n de referencia y <em> hyp </em> la segmentaci&oacute;n del algoritmo. </p>     <p align="justify">A continuaci&oacute;n se comparar&aacute;n los resultados obtenidos con una segmentaci&oacute;n manual y otra realizada con los algoritmos estudiados - <em>TextTiling </em> y <em>Heinone</em>. </p>     <p align="justify">La segmentaci&oacute;n manual (fig 1) produjo siete l&iacute;mites v&aacute;lidos, donde coincidieron al menos tres de los individuos que participaron en esta segmentaci&oacute;n. Los resultados de los algoritmos coinciden en ocasiones con los l&iacute;mites que se especifican como v&aacute;lidos para los dos textos de referencia. Cuando esto no ocurre, los l&iacute;mites establecidos por ellos son pr&oacute;ximos a los v&aacute;lidos (figs. 2 y 3). </p>     <p align="center"><a href="/img/revistas/aci/v15n6/f0206607.jpg"><img src="/img/revistas/aci/v15n6/f0206607.jpg" width="313" height="86" border="0"></a>    
<br>       <br>   FIG. 2. Resultados de la segmentaci&oacute;n manual, TextTiling y Heinone.     <br>       <br> </p>     ]]></body>
<body><![CDATA[<p align="center"><a href="/img/revistas/aci/v15n6/f0306607.jpg"><img src="/img/revistas/aci/v15n6/f0306607.jpg" width="308" height="92" border="0"></a>    
<br>       <br>   FIG. 3. Resultados de la segmentaci&oacute;n entre los art&iacute;culos de Wikipedia,  TextTiling y Heinone. </p>     <p align="justify">Las medidas <em>precisi&oacute;n </em> y <em>recobrado </em>    son poco ilustrativas para medir el desempe&ntilde;o de los algoritmos utilizados,    porque ellas no consideran la proximidad de los l&iacute;mites encontrados sino    la exactitud de estos. </p>     <p align="justify">Los resultados muestran un mejor desempe&ntilde;o del algoritmo de <em>Heinone</em>, con el que se obtiene una menor cantidad de l&iacute;mites falsos (tablas 1 y 2). Sin embargo, este algoritmo requiere de la especificaci&oacute;n de la longitud aproximada de los subt&oacute;picos, un valor impredecible realmente y que no suele ser similar para todos los subt&oacute;picos de un documento. </p>     <p align="center">Tabla 1. Valores de precisi&oacute;n, recobrado y <em>WindowDif </em> de la segmentaci&oacute;n manual, <em>TextTiling </em> y <em>Heinone</em>, para el texto <em>Evidence of it </em></p> <table align="center" cellpadding="0" cellspacing="3">   <tr>     <td width="90" valign="top">    <p align="center">Algoritmos </p></td>     <td width="77" valign="top">    <p align="center">Precisi&oacute;n </p></td>     <td width="87" valign="top">    <p align="center">Recobrado </p></td>     <td width="94" valign="top">    <p align="center">WindowDif </p></td>   </tr>   <tr>     <td width="90" valign="top">    ]]></body>
<body><![CDATA[<p align="left">TextTiling </p></td>     <td width="77" valign="top">    <p align="center">7,14 </p></td>     <td width="87" valign="top">    <p align="center">28,57 </p></td>     <td width="94" valign="top">    <p align="center">0,75 </p></td>   </tr>   <tr>     <td width="90" valign="top">    <p align="left">Heinone </p></td>     <td width="77" valign="top">    <p align="center">10 </p></td>     <td width="87" valign="top">    <p align="center">14,2 </p></td>     <td width="94" valign="top">    <p align="center">0,55 </p></td>   </tr> </table>     <p align="center">Tabla 2. Valores de precisi&oacute;n, recobrado y <em>WindowDif </em> de la segmentaci&oacute;n manual, <em>TextTiling </em> y <em>Heinone</em>, para el texto de <em>Wikipedia </em></p> <table align="center" cellpadding="0" cellspacing="3">   <tr>     <td width="90" valign="top">    <p align="center">Algoritmos </p></td>     <td width="77" valign="top">    ]]></body>
<body><![CDATA[<p align="center">Precisi&oacute;n </p></td>     <td width="87" valign="top">    <p align="center">Recobrado </p></td>     <td width="94" valign="top">    <p align="center">WindowDif </p></td>   </tr>   <tr>     <td width="90" valign="top">    <p align="left">TextTiling </p></td>     <td width="77" valign="top">    <p align="center">16,67 </p></td>     <td width="87" valign="top">    <p align="center">28,57 </p></td>     <td width="94" valign="top">    <p align="center">0,5 </p></td>   </tr>   <tr>     <td width="90" valign="top">    <p align="left">Heinone </p></td>     <td width="77" valign="top">    <p align="center">75 </p></td>     <td width="87" valign="top">    <p align="center">42,86 </p></td>     <td width="94" valign="top">    ]]></body>
<body><![CDATA[<p align="center">0,18 </p></td>   </tr> </table> <h4 align="left">&nbsp;</h4> <h4 align="left">Conclusiones </h4>     <p align="justify">Se aprecia un comportamiento aceptable para ambos algoritmos,    porque cuando no coinciden los l&iacute;mites de segmentos que estos presentan    con los de segmentos considerados como v&aacute;lidos, se observa una cercan&iacute;a    entre ellos. Sin embargo, sus resultados distan mucho de ser los necesarios    como para introducirse en la pr&aacute;ctica real de un procesamiento automatizado    de textos. Su perfeccionamiento depende precisamente de la eliminaci&oacute;n    de las deficiencias expuestas en esta contribuci&oacute;n. </p> <h4>Referencias bibliogr&aacute;ficas </h4>     <!-- ref --><p>1. Lowell P. Mars S.n: s.e. 1895. Disponible en: <a href="http://www.wanderer.org/references/lowell/Mars/">http://www.wanderer.org/refere n ces/lowell/Mars/ </a> [Consultado: 7 de marzo de 2007]. <!-- ref --><p>2. Solar System. Disponible en: <a href="http://en.wikipedia.org/wiki/Solar_System">http://en.wikipedia.org/wiki/Solar_System </a> [Consultado: 8 de marzo de 2007]. <!-- ref --><p>3. Geography. Disponible en: <a href="http://en.wikipedia.org/wiki/Geography">http://en.wikipedia.org/wiki/Geography </a>[Consultado: 8 de marzoabril de 2007]. <!-- ref --><p>4. Hydrography. Disponible en: <a href="http://en.wikipedia.org/wiki/Hydrography">http://en.wikipedia.org/wiki/Hydrography </a> [Consultado: 8 de abril de 2007]. <!-- ref --><p>5. Herat. Disponible en: <a href="http://en.wikipedia.org/wiki/Soil">http://en.wikipedia.org/wiki/Soil      </a> [Consultado: 8 de abril de 2007]. <!-- ref --><p>6. Atmosphere. Disponible en: http://en.wikipedia.org/wiki/Atmosphere [Consultado: 8 de abril de 2007]. <!-- ref --><p>7. Animal. Disponible en: <a href="http://en.wikipedia.org/wiki/Animal">http://en.wikipedia.org/wiki/Animal </a> [Consultado: 8 de abril del 2007]. <!-- ref --><p>8. Soil. Disponible en: <a href="http://en.wikipedia.org/wiki/Soil">http://en.wikipedia.org/wiki/Soil </a> [Consultado: 8 de abril de 2007]. <!-- ref --><p>9. Halliday MAK, Hasan R. Cohesion in English. New York C: Longman Group. 1976. <!-- ref --><p>10. Stokes N, Carthy J, Smeaton AF. SeLeCT: A Lexical Cohesion Based News Story Segmentation System. Dublin: IOS Press; 2004. <!-- ref --><p>11. Stokes N. Applications of Lexical Cohesion Analysis in the Topic Detection and Tracking Domain. Dublin: Department of Computer Science Faculty of Science, National University Of Ireland. 2004. <!-- ref --><p>12. Ponte JM, Croft WB. Text segmentation by topic. Massachusetts: Computer Science Department, University of Massachusetts. 1997. <!-- ref --><p>13. Hearst MA. TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages. Computational Linguistics. 1997;23(1):33-64.     Disponible en: <a href="http://ucrel.lancs.ac.uk/acl/J/J97/J97-1003.pdf">http://ucrel.lancs.ac.uk/acl/J/J97/J97-1003.pdf </a>[Consultado: 9 de abril de 2007]. </p>     <!-- ref --><p>14. Heinonen O. Optimal Multi-Paragraph Text Segmentation by Dynamic Programming. Helsinki: University of Helsinki.1998. <!-- ref --><p>15. Pevzner L, Hearst M. A Critique and Improvement of an Evaluation Metric for Text Segmentation. Computational Linguistics. 2002;28(1):19-36. <p>Recibido: 13 de abril de 2007 Aprobado: 17 de abril de 2007.     <br>   Dr.C.<em> Jos&eacute; E. Medina Pagola</em>. Departamento Miner&iacute;a de    Datos. Centro de Aplicaciones de Tecnolog&iacute;as de Avanzada (CENATAV). Calle    7ma. No. 21 812 e/ 218 y 222. Reparto Siboney, Playa. CP 12 200. La Habana,    Cuba. Correo electr&oacute;nico:<a href="mailto:jmedina@cenatav.co.cu ">jmedina@cenatav.co.cu    </a></p>     ]]></body>
<body><![CDATA[<p>Ficha de procesamiento </p>     <p>T&eacute;rminos sugeridos para la indizaci&oacute;n </p>     <p>Seg&uacute;n DeCS<span class="superscript">1</span> </p>     <p>PROCESAMIENTO AUTOMATIZADO DE DATOS/m&eacute;todos; RESUMEN E INDIZACI&Oacute;N/ m&eacute;todos. </p>     <p>AUTOM&Aacute;TICA DATA PROCESSING/methods; ABSTRACTING AND INDEXING/ methods.  </p>     <p>Seg&uacute;n DeCI<span class="superscript">2</span> </p>     <p>PROCESAMIENTO DE LA INFORMACI&Oacute;N; PROCESAMIENTO DEL LENGUAJE NATURAL;    PROCESAMIENTO DE TEXTOS/m&eacute;todos; RES&Uacute;MENES. </p>     <p>INFORMATION PROCESSING; NATURAL LANGUAJE PROCESSING; WORD PROCESSING/methods; ABSTRACTS. </p>     <p><span class="superscript">1</span>BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004. </p>     <p>Disponible en: <a href="http://decs.bvs.br/E/homepagee.htm%20">http://decs.bvs.br/E/homepagee.htm </a></p>     ]]></body>
<body><![CDATA[<p><span class="superscript">2</span>D&iacute;az del Campo S. Propuesta de t&eacute;rminos para la indizaci&oacute;n en Ciencias de la Informaci&oacute;n. Descriptores en Ciencias de la Informaci&oacute;n (DeCI). Disponible en: <a href="http://cis.sld.cu/E/tesauro.pdf%20">http://cis.sld.cu/E/tesauro.pdf </a></p>     <p><span class="superscript"><a href="#autor">1</a></span><a href="#autor">Doctor en Ciencias T&eacute;cnicas. Departamento Miner&iacute;a de Datos. Centro de Aplicaciones de Tecnolog&iacute;as de Avanzada (CENATAV). Cuba.     <br>     <span class="superscript">2</span>Licenciada en Ciencias de la Computaci&oacute;n. Departamento Miner&iacute;a de Datos. Centro de Aplicaciones de Tecnolog&iacute;as de Avanzada (CENATAV). Cuba. </a><a name="cargo"></a></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1.</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lowell]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Mars S.n: s.e.]]></source>
<year>1895</year>
<month>.</month>
</nlm-citation>
</ref>
<ref id="B2">
<label>2.</label><nlm-citation citation-type="">
<source><![CDATA[Solar System.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B3">
<label>3.</label><nlm-citation citation-type="">
<source><![CDATA[Geography.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B4">
<label>4.</label><nlm-citation citation-type="">
<source><![CDATA[Hydrography]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B5">
<label>5.</label><nlm-citation citation-type="">
<source><![CDATA[Herat.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B6">
<label>6.</label><nlm-citation citation-type="">
<source><![CDATA[Atmosphere.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B7">
<label>7.</label><nlm-citation citation-type="">
<source><![CDATA[Animal.]]></source>
<year></year>
<edition>http://en.wikipedia.org/wiki/Animal</edition>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<source><![CDATA[Soil.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B9">
<label>9.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Halliday]]></surname>
<given-names><![CDATA[MAK]]></given-names>
</name>
<name>
<surname><![CDATA[Hasan]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Cohesion in English.]]></source>
<year>1976</year>
<month>.</month>
<publisher-loc><![CDATA[New York C ]]></publisher-loc>
<publisher-name><![CDATA[Longman Group]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Stokes]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Carthy]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Smeaton]]></surname>
<given-names><![CDATA[AF]]></given-names>
</name>
</person-group>
<source><![CDATA[SeLeCT: A Lexical Cohesion Based News Story Segmentation System.]]></source>
<year>2004</year>
<month>.</month>
<publisher-loc><![CDATA[Dublin ]]></publisher-loc>
<publisher-name><![CDATA[IOS Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Stokes]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<source><![CDATA[Applications of Lexical Cohesion Analysis in the Topic Detection and Tracking Domain]]></source>
<year>2004</year>
<month>.</month>
<publisher-loc><![CDATA[Dublin ]]></publisher-loc>
<publisher-name><![CDATA[Department of Computer Science Faculty of Science, National University Of Ireland.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ponte]]></surname>
<given-names><![CDATA[JM]]></given-names>
</name>
<name>
<surname><![CDATA[Croft]]></surname>
<given-names><![CDATA[WB.]]></given-names>
</name>
</person-group>
<source><![CDATA[Text segmentation by topic.]]></source>
<year></year>
<publisher-loc><![CDATA[Massachusetts ]]></publisher-loc>
<publisher-name><![CDATA[Computer Science Department, University of Massachusetts.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hearst]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages]]></article-title>
<source><![CDATA[Computational Linguistics.]]></source>
<year>1997</year>
<volume>23</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>33-64</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Heinonen]]></surname>
<given-names><![CDATA[O.]]></given-names>
</name>
</person-group>
<source><![CDATA[Optimal Multi-Paragraph Text Segmentation by Dynamic Programming.]]></source>
<year></year>
<publisher-loc><![CDATA[Helsinki ]]></publisher-loc>
<publisher-name><![CDATA[University of Helsinki.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pevzner]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Hearst]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Critique and Improvement of an Evaluation Metric for Text Segmentation]]></article-title>
<source><![CDATA[Computational Linguistics.]]></source>
<year>2002</year>
<volume>28</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>19-36</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
