<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352006000100008</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[El web como sistema de información]]></article-title>
<article-title xml:lang="en"><![CDATA[The Web as an information system]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rodríguez Perojo]]></surname>
<given-names><![CDATA[Keilyn]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ronda León]]></surname>
<given-names><![CDATA[Rodrigo]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Red Telemática de Salud en Cuba. Centro Nacional de Información de Ciencias Médicas-Infomed.  ]]></institution>
<addr-line><![CDATA[Ciudad de La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Facultad de Comunicación. Universidad de La Habana.  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>02</month>
<year>2006</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>02</month>
<year>2006</year>
</pub-date>
<volume>14</volume>
<numero>1</numero>
<fpage>0</fpage>
<lpage>0</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352006000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352006000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352006000100008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Se abordan los antecedentes históricos, teóricos y prácticos, necesarios para el surgimiento de una nueva área en las ciencias de la información: la recuperación y la importancia del Web como nuevo espacio para la interacción del hombre con la información hipertextual. Se exponen también, los conceptos Web superficial y Web profundo; se describen algunos de los principales buscadores útiles para explorar el Web profundo, así como las nuevas herramientas para la recuperación de la información como la minería textual y de datos y el descubrimiento de conocimientos en bases de datos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The practical, theoretical, and historic antecedents necessary for the rise of a new area in information sciences are analyzed: the recovery and the importance of the Web as a new space for the interaction of man with the hypertextual information. The concepts of superficial Web and deep Web are exposed, and some of the main useful search engines to explore the deep Web, as well as the new tools for the information retrieval, such as the textual and data mining and the discovery of know-how in databases are described.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Web]]></kwd>
<kwd lng="es"><![CDATA[procesamiento de la información]]></kwd>
<kwd lng="es"><![CDATA[recuperación de la información]]></kwd>
<kwd lng="en"><![CDATA[Web]]></kwd>
<kwd lng="en"><![CDATA[information processing]]></kwd>
<kwd lng="en"><![CDATA[information retrieval]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <h2>El web como sistema de informaci&oacute;n </h2>     <p><a href="#cargo">Lic. Keilyn Rodr&iacute;guez Perojo<span class="superscript">1</span> y Lic. Rodrigo Ronda Le&oacute;n<span class="superscript">2</span></a><span class="superscript"><a name="autor"></a></span></p> <h4><strong> </strong>Resumen </h4>     <div align="justify">Se abordan los antecedentes hist&oacute;ricos, te&oacute;ricos y pr&aacute;cticos, necesarios para el surgimiento de una nueva &aacute;rea en las ciencias de la informaci&oacute;n: la recuperaci&oacute;n y la importancia del Web como nuevo espacio para la interacci&oacute;n del hombre con la informaci&oacute;n hipertextual. Se exponen tambi&eacute;n, los conceptos Web superficial y Web profundo; se describen algunos de los principales buscadores &uacute;tiles para explorar el Web profundo, as&iacute; como las nuevas herramientas para la recuperaci&oacute;n de la informaci&oacute;n como la miner&iacute;a textual y de datos y el descubrimiento de conocimientos en bases de datos. </div>     <p><em>Palabras clave</em>: Web, procesamiento de la informaci&oacute;n, recuperaci&oacute;n de la informaci&oacute;n. </p> <h4>Abstract </h4>     <p align="justify">The practical, theoretical, and historic antecedents necessary for the rise of a new area in information sciences are analyzed: the recovery and the importance of the Web as a new space for the interaction of  man with the hypertextual information. &nbsp;The concepts of superficial Web and deep Web  are exposed, and&nbsp;some of the main useful search engines to explore the deep Web, as well as the new tools for the information &nbsp; retrieval, such as the textual &nbsp;and data mining and the discovery of know-how in databases are described. </p>     <p><em>Key words</em>:  Web, information processing, information retrieval. </p>     <p align="justify">Copyright: &copy; ECIMED. Contribuci&oacute;n de acceso abierto, distribuida bajo los t&eacute;rminos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar p&uacute;blicamente y utilizar los resultados del trabajo en la pr&aacute;ctica, as&iacute; como todos sus derivados, sin prop&oacute;sitos comerciales y con licencia id&eacute;ntica, siempre que se cite adecuadamente el autor o los autores y su fuente original. &nbsp; </p>     <p align="left">Cita (Vancouver): Rodr&iacute;guez Perojo K, Ronda Le&oacute;n R. El Web como sistema de informaci&oacute;n. Acimed 2006;14(1). Disponible en: <a href="http://bvs.sld.cu/revistas/aci/vol14_1_06/aci08106.htm">http://bvs.sld.cu/revistas/aci/vol14_1_06/aci08106.htm </a><strong> </strong>Consultado: d&iacute;a/mes/a&ntilde;o. </p>     <p align="justify"> “Esto que hoy se consideran materiales de biblioteca, las obras del pensamiento y la creaci&oacute;n literaria, circularon de forma oral durante mucho tiempo despu&eacute;s de la invenci&oacute;n de la escritura”.<span class="superscript">1</span> El descubrimiento de la biblioteca de <em>Ebla</em>, entre las m&aacute;s antiguas que se conoce hasta el momento, revela que las funciones bibliotecarias estaban bien definidas en sus l&iacute;neas esenciales hace m&aacute;s de 4 500 a&ntilde;os: </p> <ul>       <li> Clasificaci&oacute;n de los materiales. </li>       ]]></body>
<body><![CDATA[<li> Signaturas en los lomos de las tabletas para su pronta localizaci&oacute;n. </li>       <li> Estanter&iacute;as donde los materiales se ordenan por su forma y contenido para que se conserven con seguridad y se encuentren con rapidez. </li>     </ul>     <p align="justify">El lenguaje documental existe desde la creaci&oacute;n de la primera biblioteca, porque este surge cuando el n&uacute;mero de vol&uacute;menes depositados en un lugar es tan alto que se hace imprescindible su organizaci&oacute;n de alg&uacute;n modo para permitir la localizaci&oacute;n de ellos en el momento oportuno y esa organizaci&oacute;n, desde los or&iacute;genes de la biblioteca, se realiz&oacute; por medio de sistemas rudimentarios de clasificaci&oacute;n. El concepto moderno de lenguaje documental debe buscarse a finales del siglo XIX en los aportes de <em>Melvil Dewey</em>, autor de la “<em>Clasificaci&oacute;n decimal</em>” (1876) y <em>Charles </em><em>Cutter</em>, autor del “<em>Cat&aacute;logo diccionario” </em> (1893), ambos exponentes de dos sistemas documentales: </p> <ul>       <li> La clasificaci&oacute;n decimal (<em>Dewey</em>). </li>       <li> La lista de encabezamientos de materia (<em>Cutter</em>). </li>     </ul>     <p align="justify">El esquema de la Clasificaci&oacute;n Decimal de <em>Dewe </em>y, una clasificaci&oacute;n decimal que se compone de 10 clases principales, divididas, a su vez, en otras 10, y as&iacute; sucesivamente, hasta llegar al grado de especificidad considerado deseable, responde a las siguientes caracter&iacute;sticas: </p> <ul>       <li> Lenguaje precoordinado. </li>       <li> Estructura jer&aacute;rquica. </li>       ]]></body>
<body><![CDATA[<li> Vocabulario controlado. </li>     </ul>     <p align="justify">Esta clasificaci&oacute;n, antecedente del resto de las clasificaciones decimales modernas, se ha empleado en bibliotecas de todo el mundo; origin&oacute;, a su vez, otro sistema a&uacute;n m&aacute;s popular: la “<em>Clasificaci&oacute;n Decimal Universal</em>”. Asimismo, las teor&iacute;as de <em>Cutter </em> tambi&eacute;n est&aacute;n vigentes a&uacute;n, sobre todo las que sirvieron de base a los llamados lenguajes de encabezamientos de materia, caracterizados por ser: </p> <ul>       <li> Lenguajes precoordinados. </li>       <li> Con estructura asociativa. </li>       <li> Vocabulario controlado. </li>     </ul>     <p align="justify">Regidos por el principio de especificidad y entrada directa, resultante de su &nbsp; estructura asociativa y alfab&eacute;tica, <em>Cutter </em> introdujo una clase de lenguaje documental: los encabezamientos de materia, in&eacute;ditos hasta entonces y basados en principios completamente diferentes de los que inspiran las clasificaciones: </p> <ul>       <li> El principio de especificidad. </li>       <li> El principio de entrada directa. </li>     ]]></body>
<body><![CDATA[</ul>     <p align="justify">Ambos principios son los pilares en los que se apoya el sistema y rompen con el esquema arb&oacute;reo de las clasificaciones bibliogr&aacute;ficas; ello, representa un paso de acercamiento al usuario de los sistemas de informaci&oacute;n. Durante el primer cuarto del siglo XX, se consolidaron las teor&iacute;as propuestas en las &uacute;ltimas d&eacute;cadas del siglo XIX con la aparici&oacute;n de nuevos sistemas de clasificaci&oacute;n bibliogr&aacute;fica y nuevas listas de encabezamientos de materia. </p>     <p align="justify">Tambi&eacute;n, comenzaron a aparecer los lenguajes documentales especializados en tem&aacute;ticas particulares, al observarse dificultades en los centros especializados  para indizar con los lenguajes enciclop&eacute;dicos, que no profundizan como es l&oacute;gico en ninguna tem&aacute;tica al intentar abarcarlo todo. Durante este tiempo, el centro principal de la actividad de investigaci&oacute;n se desplaz&oacute; a Europa e incluso a otros continentes. Aparecieron clasificaciones como la de <em>Henry Evelyn Bliss </em> (Inglaterra), la de <em>Brown </em> (Inglaterra) y la Clasificaci&oacute;n Decimal Universal de Paul Otlet (B&eacute;lgica). Menci&oacute;n especial merece la clasificaci&oacute;n de <em>Ranganathan </em> (India), por romper con el esquema de las clasificaciones enumerativas, imperante hasta entonces, y extender el concepto de facetas que tendr&iacute;a repercusi&oacute;n posterior, y que concretamente fue inspiradora del tesauro facetado, aunque realmente fue <em>Otlet </em> el primero en ponerlas en pr&aacute;ctica. </p>     <p align="justify">Tradicionalmente, como resultado del an&aacute;lisis documental, se obtiene una referencia bibliogr&aacute;fica sobre el documento primario que puede constar de los siguientes elementos: </p> <ul>       <li> Una descripci&oacute;n bibliogr&aacute;fica, que incluye datos como el autor, la fecha de publicaci&oacute;n, el t&iacute;tulo, etc&eacute;tera (noci&oacute;n de metadatos). </li>       <li> Los t&eacute;rminos de indizaci&oacute;n que representan el contenido del documento y para su posterior recuperaci&oacute;n. Estos t&eacute;rminos pueden pertenecer al lenguaje libre o natural (no estructurado), proceder de un lenguaje documental, tambi&eacute;n denominado lenguaje de indizaci&oacute;n (estructurado y con un vocabulario controlado), o ser una combinaci&oacute;n de ambos. </li>       <li> C&oacute;digos de clasificaci&oacute;n, que representan tem&aacute;ticamente el contenido por medio de alg&uacute;n esquema de clasificaci&oacute;n (tambi&eacute;n considerado un lenguaje documental). </li>       <li> Un resumen que representa brevemente el contenido del documento de forma &nbsp; objetiva, es decir, sin interpretaci&oacute;n ni cr&iacute;tica. Este resumen puede ayudar al usuario a determinar si el documento realmente es de inter&eacute;s antes de proceder a la consulta del documento primario. </li>     </ul>     <p align="justify">El an&aacute;lisis documental, por tanto, abarca muchas t&eacute;cnicas tradicionales de las bibliotecas, como: la descripci&oacute;n bibliogr&aacute;fica, indizaci&oacute;n, clasificaci&oacute;n y resumen. Combinar las habilidades de los especialistas en informaci&oacute;n y de los inform&aacute;ticos puede ayudar a organizar el caos existente en Internet. Adem&aacute;s, si se considera que el contenido en el Web se encuentra mucho m&aacute;s disperso que en una colecci&oacute;n est&aacute;ndar, es comprensible la necesidad de que las habilidades de clasificaci&oacute;n y de selecci&oacute;n de los sistemas bibliotecarios, se complementen con la automatizaci&oacute;n de las tareas de indizaci&oacute;n, clasificaci&oacute;n y almacenamiento de la informaci&oacute;n. </p>     ]]></body>
<body><![CDATA[<p align="justify">En este sentido, los t&eacute;rminos de indizaci&oacute;n pueden obtenerse por derivaci&oacute;n, mediante indizaci&oacute;n autom&aacute;tica, por asignaci&oacute;n o por indizaci&oacute;n intelectual con la utilizaci&oacute;n de un lenguaje documental externo, por ejemplo un tesauro. En la indizaci&oacute;n intelectual es un operador humano -generalmente un especialista en informaci&oacute;n- quien analiza el documento y asigna los descriptores o encabezamientos de materias que considera convenientes. </p>     <p align="justify">La asignaci&oacute;n de t&eacute;rminos de indizaci&oacute;n consiste en la elecci&oacute;n y atribuci&oacute;n de t&eacute;rminos de indizaci&oacute;n, aparezcan o no en el texto, para representar documentos o datos, con un lenguaje documental predeterminado. En cambio, en la indizaci&oacute;n autom&aacute;tica es un programa de computadora quien interpreta el documento y asigna los descriptores. </p>     <p align="justify">Se trata entonces de una operaci&oacute;n compleja en la que intervienen diversas disciplinas como la estad&iacute;stica, la inteligencia artificial, la ling&uuml;&iacute;stica, la inform&aacute;tica, as&iacute; como la informaci&oacute;n y la documentaci&oacute;n en funci&oacute;n de lograr mejores t&eacute;cnicas para la recuperaci&oacute;n de informaci&oacute;n, porque la exhaustividad y especificidad, o precisi&oacute;n del vocabulario empleado en la indizaci&oacute;n, influye directamente en la efectividad de la recuperaci&oacute;n. La exhaustividad indica en qu&eacute; grado se registran en el &iacute;ndice del sistema los diferentes aspectos sem&aacute;nticos de un documento, es decir, si los aspectos relacionados con el contenido del documento se registran en el &iacute;ndice con la asignaci&oacute;n de un t&eacute;rmino de indizaci&oacute;n. </p>     <p align="justify">A diferencia de los lenguajes de indizaci&oacute;n, entre los que ninguno se considera como modelo de referencia, entre los lenguajes de clasificaci&oacute;n, existen prestigiosos esquemas, como la <em>Dewey Decimal </em><em> Classification </em>(DDC), la <em>Universal Decimal </em><em> Classification </em>(UDC) y la <em>Library </em><em> of Congress Classification </em> (LCC). </p>     <p align="justify">Actualmente, el aumento geom&eacute;trico del n&uacute;mero de documentos existentes en Internet, en particular en el Web y su inestabilidad, ocasionan que los directorios donde la clasificaci&oacute;n se realiza por humanos s&oacute;lo sean capaces de cubrir una peque&ntilde;a parte del total de recursos existentes en la red y que sean dif&iacute;ciles de actualizar. Es por ello, que los procesos de clasificaci&oacute;n autom&aacute;tica buscan crear herramientas que ayuden a reducir los costos de la catalogaci&oacute;n tradicional mediante la asignaci&oacute;n autom&aacute;tica de temas a los registros en formato electr&oacute;nico. </p>     <p align="justify">“Con el paso del tiempo, la necesidad de recuperar la informaci&oacute;n que se encontraba dispersa se hizo evidente, “pero s&oacute;lo a partir del siglo XX, comenz&oacute; a  considerarse como un fen&oacute;meno de importancia en todos los terrenos” <em>(Linares </em><em>Columbi&eacute; R</em>. La ciencia de la informaci&oacute;n y sus matrices te&oacute;ricas: contribuci&oacute;n a su historia. [Tesis para optar por el t&iacute;tulo de Doctor en Ciencias de la Informaci&oacute;n ]. Universidad de la Habana : Facultad de Comunicaci&oacute;n, 2004); as&iacute; se increment&oacute; el inter&eacute;s por sistemas de indizaci&oacute;n y clasificaci&oacute;n orientados a ambientes autom&aacute;ticos. Con este objetivo, el avance de la ciencia moderna se ha orientado  hacia la inteligencia artificial por dos caminos fundamentales: la investigaci&oacute;n psicol&oacute;gica y fisiol&oacute;gica de la naturaleza del pensamiento humano, y el desarrollo tecnol&oacute;gico de sistemas inform&aacute;ticos cada vez m&aacute;s complejos. </p>     <p align="justify">La inteligencia artificial, en su sentido m&aacute;s amplio, indicar&iacute;a la capacidad de un artefacto de realizar los mismos tipos de funciones que caracterizan el pensamiento humano, aplicado a sistemas y programas inform&aacute;ticos capaces de realizar tareas complejas. </p> <h4>La recuperaci&oacute;n de la informaci&oacute;n </h4>     <p align="justify">Acontecimientos tan relevantes para la historia de la ciencia en el siglo XX, como la creaci&oacute;n de la primera computadora digital- ENIAC (<em>Electronic Numerical Integrator and Computer</em>)- por <em>John Presper Eckert y John </em><em>William Mauchly </em> entre 1943 y 1946,  la formulaci&oacute;n de la Teor&iacute;a Matem&aacute;tica de la Comunicaci&oacute;n por <em>Claude E. </em><em>Shannon </em> en 1948 y la concepci&oacute;n de una nueva disciplina en el &aacute;rea de la informaci&oacute;n: la Recuperaci&oacute;n por <em>Calvin Mooers </em> en 1951, revolucionaron la forma en que se percib&iacute;a, procesaba, recuperaba y diseminaba la informaci&oacute;n como activo en las distintas esferas de la econom&iacute;a y la sociedad. </p>     <p align="justify">La informaci&oacute;n, que se trataba desde una perspectiva meramente tradicional (usuario-intermediario-sistema o fondo documental) comenz&oacute; a experimentar cambios significativos gracias al desarrollo de las nuevas tecnolog&iacute;as y una <em>“</em>amplia proyecci&oacute;n de todo tipo de bases de datos en l&iacute;nea<em>”</em>.<span class="superscript">2</span> <em>&nbsp;&nbsp;&nbsp; </em></p>     <p align="justify">Desafortunadamente, los distintos modelos de recuperaci&oacute;n de informaci&oacute;n existentes, -un modelo es aquel esquema te&oacute;rico de un esquema o de una realidad compleja, que se elabora para facilitar su comprensi&oacute;n y el estudio de su comportamiento- conjuntamente con los distintos sistemas de recuperaci&oacute;n a los que dieron lugar, no evolucionaron ni mejoraron en la medida que demandaba el crecimiento de la informaci&oacute;n y la necesidad de acceso a ella. En 1957, tuvo lugar un acontecimiento de innegable repercusi&oacute;n en el &aacute;mbito del procesamiento y la recuperaci&oacute;n de informaci&oacute;n: el proyecto <em>Cranfield I</em>. Desarrollado en el Cranfield I <em>nstitute of Technolgy</em>, constituy&oacute; la primera iniciativa para la aproximaci&oacute;n a un modelo orientado a crear una metodolog&iacute;a para la evaluaci&oacute;n de los sistemas de recuperaci&oacute;n de informaci&oacute;n, dicho modelo a&uacute;n contin&uacute;a vigente. </p>     ]]></body>
<body><![CDATA[<p align="justify">Los elementos fundamentales del sistema comenzaron a cambiar la funci&oacute;n &nbsp; del intermediario -especialista que participaba activamente en la b&uacute;squeda y recuperaci&oacute;n de la informaci&oacute;n- y se delega esta tarea a los sistemas inform&aacute;ticos, &nbsp; sobre la base de que la informaci&oacute;n procesada por estos, se organiza en forma de documentos hipertextuales, que constituyen <em>“ </em>las representaciones documentales, entendidas &eacute;stas, como un conjunto de caracteres que se agrupan para formar frases y, por &uacute;ltimo, p&aacute;rrafos y que &eacute;stos, de forma m&aacute;s o menos extensa, componen documentos<em>”</em>. <span class="superscript">3 </span>El usuario, como elemento activo de la consulta y del interrogatorio directo al sistema, representa b&aacute;sicamente su necesidad de informaci&oacute;n en un proceso en el que se trata de equiparar la representaci&oacute;n de los documentos almacenados en la base de datos y los cat&aacute;logos automatizados con el estado subjetivo de su necesidad de informaci&oacute;n. </p>     <p align="justify">El car&aacute;cter experimental de estos sistemas de recuperaci&oacute;n de informaci&oacute;n como el “ <em>SMART de Salton </em>“ - un sistema autom&aacute;tico de manipulaci&oacute;n y recuperaci&oacute;n  de textos fundamentado en principios estad&iacute;sticos, cuyo dise&ntilde;o se inici&oacute; en 1961 por <em>Gerard Salton </em> y sus colegas-; el desarrollo de t&eacute;cnicas de retroalimentaci&oacute;n como las propuestas por <em>Rochio </em> y extendidas por <em>Amanda </em><em>Spink</em>; as&iacute; como el an&aacute;lisis del concepto de relevancia por <em>Tefko Saracevic</em>, constituyen algunos de los ejemplos de que el modelo utilizado y sus t&eacute;cnicas no eran perfectas. En la d&eacute;cada de los a&ntilde;os 70, cobr&oacute; fuerza la inform&aacute;tica y la recuperaci&oacute;n de informaci&oacute;n se convirti&oacute; en un proceso interactivo. </p>     <p align="justify">A finales de los a&ntilde;os 80 y principios de los 90, comenzaron a materializarse las investigaciones basadas en entornos reales y no en entornos simulados como se hac&iacute;a hasta aquel entonces. La materializaci&oacute;n del Web en los inicios de la &uacute;ltima d&eacute;cada del pasado siglo por <em>Timothy Berners-Lee</em>, el desarrollo del primer navegador web, llamado <em>Mosaic </em>en 1993, as&iacute; como la evoluci&oacute;n de las interfaz gr&aacute;ficas de usuario en los sistemas de b&uacute;squeda y recuperaci&oacute;n de informaci&oacute;n, se integran para formar  una gran arquitectura de componentes -protocolos, interfaz de aplicaciones, lenguajes de descripci&oacute;n de forma y contenido, etc.-, cuyo funcionamiento din&aacute;mico gener&oacute; lo que hoy se conoce como el Web. </p>     <p align="justify">Pero una vez m&aacute;s, la pr&aacute;ctica ha demostrado que la interacci&oacute;n entre el usuario del Web y los sistemas de recuperaci&oacute;n de informaci&oacute;n no es efectiva del todo. La d&eacute;bil estructura de la informaci&oacute;n procesada en bases de datos y sitios Web mediante un esquema de informaci&oacute;n normalizado, organizado e interoperable que permita una efectiva recuperaci&oacute;n de los contenidos, tanto en el llamado Web superficial (<em>Surface Web</em>) como en la Web profunda (<em>Deep Web</em>), han estimulado a muchos especialistas de distintas &aacute;reas del conocimiento -inform&aacute;tica, ling&uuml;&iacute;stica, inteligencia artificial, psicolog&iacute;a, informaci&oacute;n y documentaci&oacute;n, entre otras- a integrar experiencias en favor de crear un Web m&aacute;s organizado. Una de las soluciones posibles es la Web sem&aacute;ntica. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </p>     <p align="justify">Ahora bien &iquest;por qu&eacute; la Web sem&aacute;ntica? La falta de una infraestructura s&oacute;lida y estable ha hecho del Web un sistema de informaci&oacute;n complejo y no muy bien estructurado, donde la gesti&oacute;n, organizaci&oacute;n, mantenimiento y recuperaci&oacute;n de la informaci&oacute;n se han convertido en un problema para los gestores de informaci&oacute;n y para el usuario. Como resultado del crecimiento del Web en Internet, se han propuesto distintos mecanismos con el objetivo de reducir las limitaciones de los sistemas de recuperaci&oacute;n basados en la navegaci&oacute;n hipertextual. Esto ha provocado, a su vez, problemas y limitaciones en los sistemas de recuperaci&oacute;n en texto libre, entre ellas: </p> <ul>       <li> Ruido en la recuperaci&oacute;n. </li>       <li> Imposibilidad de acceder a los documentos por campos concretos: autor, tem&aacute;tica, fecha, instituciones, etc&eacute;tera. </li>       <li> Inadecuaci&oacute;n de los m&eacute;todos de ponderaci&oacute;n. </li>       <li> Sobrecarga del tr&aacute;fico de la red. </li>     </ul>     ]]></body>
<body><![CDATA[<p align="justify">Ante estos problemas, surgi&oacute; la necesidad de establecer mecanismos para la descripci&oacute;n de recursos, mediante la aplicaci&oacute;n de metadatos. El incremento del n&uacute;mero de esquemas de metadatos con varios niveles de riqueza y complejidad generados por diferentes comunidades, sean de prop&oacute;sitos espec&iacute;ficos o generales, ha ocasionado problemas de interoperabilidad entre estos, porque cada modelo difiere en t&eacute;rminos de estructura, sintaxis y sem&aacute;ntica. </p>     <p align="justify">La interoperabilidad entre metadatos y aplicaciones, definida como la habilidad que poseen dos sistemas y sus componentes para trabajar en conjunto para el intercambio de informaci&oacute;n de forma eficiente, requiere ante todo del establecimiento de convenciones sobre la sem&aacute;ntica, la sintaxis y la estructura de los datos. La sem&aacute;ntica se refiere a las necesidades de entendimiento entre esquemas de datos mediante equivalencias del significado mientras que la sintaxis hace referencia a la necesidad de una consistencia sistem&aacute;tica de los datos para el procesamiento por m&aacute;quina, para el uso y el intercambio de metadatos entre m&uacute;ltiples aplicaciones. Esta &uacute;ltima establece restricciones formales sobre la sintaxis para la representaci&oacute;n consistente de la sem&aacute;ntica. La interoperabilidad de los metadatos y las aplicaciones constituye una de las fortalezas de la Web sem&aacute;ntica. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </p> <h4>El web  como sistema de informaci&oacute;n </h4>     <p align="justify">La evoluci&oacute;n de Internet como red de comunicaci&oacute;n global y el surgimiento y desarrollo del Web como servicio imprescindible para compartir informaci&oacute;n, cre&oacute; un excelente espacio para la interacci&oacute;n del hombre con la informaci&oacute;n hipertextual, a la vez que sent&oacute; las bases para el desarrollo de una herramienta integradora de los servicios existentes en Internet. Los sitios Web, como expresi&oacute;n de sistemas de informaci&oacute;n, deben poseer los siguientes componentes: </p> <ul>       <li> Usuarios. </li>       <li> Mecanismos de entrada y salida de la informaci&oacute;n. </li>       <li> Almacenes de datos, informaci&oacute;n y conocimiento. </li>       <li> Mecanismos de recuperaci&oacute;n de informaci&oacute;n. </li>     </ul>     <p align="justify">Pudi&eacute;semos definir entonces como sistema de informaci&oacute;n al conjunto de elementos relacionados y ordenados, seg&uacute;n ciertas reglas que aporta al sistema objeto- ,es decir, a la organizaci&oacute;n a la que sirve y que marca sus directrices de funcionamiento- la informaci&oacute;n necesaria para el cumplimiento de sus fines; para ello, debe recoger, procesar y almacenar datos, procedentes tanto de la organizaci&oacute;n como de fuentes externas, con el prop&oacute;sito de facilitar su recuperaci&oacute;n, elaboraci&oacute;n y presentaci&oacute;n. Ac tualmente, los sistemas de informaci&oacute;n se encuentran al alcance de las grandes masas de usuarios por medio de Internet; as&iacute; se crean las bases de un nuevo modelo, en el que los usuarios interact&uacute;an directamente con los sistemas de informaci&oacute;n para satisfacer sus necesidades de informaci&oacute;n. </p> <h4>Modelo de red como mecanismo de flujo, organizaci&oacute;n y recuperaci&oacute;n de informaci&oacute;n en el Web </a></h4>     <p align="justify">La nueva manera de entender el espacio urbano est&aacute;, en opini&oacute;n de <em> Gabriel </em><em>Dupuy </em>, centrada en el concepto de red “como un conjunto de puntos de transacci&oacute;n, sean estas ciudades, redes t&eacute;cnicas, servicios p&uacute;blicos, redes que generan su propia organizaci&oacute;n territorial, sin detenerse, en evoluci&oacute;n siempre”. <span class="superscript">4</span> La red es, no s&oacute;lo un objeto, sino tambi&eacute;n una idea globalizadora que expresa la nueva organizaci&oacute;n del espacio. La idea de red explica mejor que otros enfoques ciertos tipos de relaciones entre el espacio, el tiempo y la informaci&oacute;n, que se constituyen como elementos  esenciales de las sociedades modernas. </p>     ]]></body>
<body><![CDATA[<p>A&ntilde;os antes de que <em>Vannevar Bush </em> dise&ntilde;ara <em>Memex y Ted Nelson </em> acu&ntilde;ara el t&eacute;rmino <em>hipertexto </em>, <em>Paul Otlet </em> se refiri&oacute; a una nueva forma de trabajo en la que por medio de estaciones de trabajo que estar&iacute;an conectadas en forma de red – <em>r&eacute;seau- </em>, los usuarios podr&iacute;an compartir informaci&oacute;n -mediante microfichas en aquella &eacute;poca; as&iacute; como buscar, leer y escribir a partir de la consulta de grandes bases de datos, cuyo nuevo &aacute;mbito de investigaci&oacute;n posibilitar&iacute;a a los usuarios recuperar documentos compartidos en forma de un gran repositorio universal. </p>     <p align="justify">La idea de crear redes, tanto desde el punto de vista tecnol&oacute;gico como social, comienza a materializarse con la llegada de Internet a finales de la d&eacute;cada de los a&ntilde;os 1960, la antesala de lo que hoy se conoce como la red de redes. A principio de la d&eacute;cada de los a&ntilde;os 1970, un estudiante del Massachussets Institute of Technology  (MIT), llamado <em>Robert Metcalfe </em> experimentaba con la reci&eacute;n estrenada Arpanet y conectaba computadoras en un laboratorio; con ello, cre&oacute; lo que lleg&oacute; a conocerse como <em>Ethenet</em>, la tecnolog&iacute;a de &aacute;rea local que se utiliza actualmente para conectar a millones de computadoras en todo el mundo. <em>Metlcalfe</em>, cofundador de 3Com, hizo la observaci&oacute;n de que las redes, bien sean telef&oacute;nicas, de computadoras o de personas incrementan dram&aacute;ticamente incrementan su valor con cada nodo adicional. Esto se puede expresar como que la utilidad de una red es equivalente al cuadrado del n&uacute;mero de sus usuarios, conocido como Efecto de Red ( <em>Network Effect </em>).<span class="superscript">5</span> <strong><em>&nbsp; </em></strong></p>     <p>Internet es un ejemplo v&aacute;lido de la Ley de <em>Metcalfe</em>, su r&aacute;pida expansi&oacute;n en todos los &aacute;mbitos de la sociedad as&iacute; lo demuestra; la red aumenta exponencialmente y, en forma paralela, lo hace su valor. Para <em>Orihuela</em>, existen siete paradigmas que caracterizan el nuevo paisaje medi&aacute;tico que emerge en la red:<span class="superscript">6</span> </p>     <p>&#149;&nbsp; Interactividad: La red genera un modelo bilateral, debido a su arquitectura cliente-servidor. As&iacute;, los proveedores de contenidos y los usuarios pueden establecer un v&iacute;nculo bilateral, porque sus funciones resultan intercambiables. </p>     <p>&#149;&nbsp; Personalizaci&oacute;n: Los servicios de informaci&oacute;n en l&iacute;nea no s&oacute;lo se orientan a &nbsp; objetivos con perfiles demogr&aacute;ficos, profesionales o econ&oacute;micos similares, sino a individuos, porque la red permite responder a las demandas de informaci&oacute;n espec&iacute;ficas de cada usuario en particular. </p>     <p>&#149;&nbsp; Multimedialidad: La tecnolog&iacute;a digital permite la integraci&oacute;n de todos los formatos de informaci&oacute;n (texto, audio, video, gr&aacute;ficos, animaciones) en un mismo soporte. </p>     <p>&#149;&nbsp; Hipertextualidad: Los soportes digitales permiten un modelo de construcci&oacute;n narrativa caracterizado por la distribuci&oacute;n de la informaci&oacute;n en unidades discretas (nodos) y su articulaci&oacute;n mediante &oacute;rdenes de programaci&oacute;n (enlaces). </p>     <p>&#149;&nbsp; Actualizaci&oacute;n: La red posibilita el seguimiento al minuto de la actualidad informativa, y se utiliza en paralelo con la televisi&oacute;n para retransmitir acontecimientos a escala mundial en tiempo real. </p>     <p>&#149;&nbsp; Abundancia: Los medios digitales trastocan el argumento del recurso escaso, porque multiplican los canales disponibles y trasmiten mayor cantidad de informaci&oacute;n en menor tiempo y a escala universal. </p>     <p>&#149;&nbsp; Mediaci&oacute;n: La red cuestiona el paradigma de la mediaci&oacute;n profesional de los comunicadores en los procesos de acceso del p&uacute;blico a las fuentes y a los propios medios. </p>     ]]></body>
<body><![CDATA[<p align="justify">Estos paradigmas, que intentan ofrecer una visi&oacute;n razonada de los cambios en los medios de comunicaci&oacute;n, potencian nuevos usos y nuevas relaciones en aspectos relacionados con lo econ&oacute;mico, lo social y lo cultural. Los nuevos usos se relacionan con la informaci&oacute;n que fluye por medio de las redes y la manera como &eacute;sta se transforma en conocimiento pr&aacute;ctico para los usuarios, como es el caso de las redes sociales. </p>     <p align="justify">Las redes sociales constituyen un espacio de di&aacute;logo y coordinaci&oacute;n mediante el cual se vinculan organizaciones sociales e instituciones p&uacute;blicas y privadas en funci&oacute;n de un objetivo com&uacute;n y sobre la base de normas y valores compartidos. Estas redes pueden definirse tambi&eacute;n como un conjunto de personas que representan a organizaciones e instituciones, que establecen relaciones y producen intercambios de manera continua, con el fin de alcanzar metas comunes en forma efectiva y eficiente. Las redes sociales permiten generar relaciones de colaboraci&oacute;n, poner en com&uacute;n recursos, desarrollar actividades en beneficio de los participantes, ampliar y estrechar v&iacute;nculos, crear sentido de pertenencia, socializar conocimientos, experiencias y conocimientos, reconstituir la confianza social, as&iacute; como establecer relaciones de intercambio y reciprocidad. </p>     <p align="justify">Desde el punto de vista tecnol&oacute;gico, uno de los problemas que afronta la visi&oacute;n de intercambio en el Web,  radica en la calidad de la recuperaci&oacute;n de informaci&oacute;n una vez m&aacute;s. Buscar informaci&oacute;n en Internet, con los buscadores tradicionales puede &nbsp; compararse con arrastrar una red en la superficie de un oc&eacute;ano: “ <em>no se podr&aacute; obtener muchos peces de aguas profundas”</em>.<span class="superscript">7 </span>&nbsp; </p> <h4>Web superficial <em>versus </em> web profundo </a></h4>     <p align="justify">En 1994, la Dra. <em>Jill </em><em> Ellsworth</em>, especializada en el estudio de Internet, utiliz&oacute; el t&eacute;rmino <em>Web invisible </em>, por primera vez, para denominar a la informaci&oacute;n que resultaba “invisible” para los motores de b&uacute;squeda convencionales en el Web. Tambi&eacute;n, se denomina “Web profundo” (<em>Deep Web</em>), por oposici&oacute;n a la “Web superficial” (<em>Surface Web) </em>cuya informaci&oacute;n puede recuperarse con los buscadores de Internet. La existencia de esta denomina red profunda es un producto de la metodolog&iacute;a que utilizan los buscadores para indexar las p&aacute;ginas. El mecanismo se basa en programas llamados robots o ara&ntilde;as, que recorren las p&aacute;ginas de la red siguiendo los enlaces que presentan o se dirigen hacia ellas. Cuando se utiliza alguno de los buscadores conocidos, no se busca en toda la red, sino en su base de datos, construida gracias a la acci&oacute;n de los robots. </p>     <p align="justify">A pesar de su pretendida exhaustividad, se calcula que los mayores motores de b&uacute;squeda (Google, AlltheWeb) indizan s&oacute;lo entre un tercio y la mitad de los documentos disponibles para el p&uacute;blico en la red. El Web profundo almacena p&aacute;ginas din&aacute;micas que se obtienen como respuesta a interrogantes directas a bases de datos, as&iacute; como documentos en diversos formatos (mp3. doc, pdf, wma, avi, entre otros), la mayor parte de esta informaci&oacute;n no se recupera por medio de los directorios y buscadores tradicionales. </p>     <p align="justify">En el a&ntilde;o 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por <em>Michael Bergman </em>, confirmaba y explicaba la existencia de una red profunda que tendr&iacute;a aproximadamente 7 500 terabytes (equivalente a 7 500 billones de bytes) de informaci&oacute;n frente a los 19 de la Web superficial o parte de la red accesible mediante los buscadores convencionales. </p>     <p align="justify">Actualmente, existen herramientas orientadas espec&iacute;ficamente a la labor de recuperar informaci&oacute;n en el Web profundo como: buscadores, agentes de b&uacute;squedas, &iacute;ndices generales y portales verticales. Estas herramientas facilitan el acceso a una mayor parte del Web, porque, adem&aacute;s de buscar en el Web superficial, buscan en el Web profundo tambi&eacute;n, inaccesible para la mayor parte de los buscadores tradicionales. Entre los principales, se encuentran: </p> <ul>       <li> Complete Planet. </li>     </ul>     <p align="justify">Perteneciente a la compa&ntilde;&iacute;a BrightPlanet, dispone de la lista m&aacute;s completa de todas las m&aacute;quinas de la Web superficial y de las bases de datos del Web profundo. Creado como un servicio p&uacute;blico y como banco de pruebas para el Gestor de Consultas del Web Profundo (<em>Deep Query Manager o DQM</em>), que es un servicio para abonados y una poderosa herramienta para gestionar y descubrir contenido en Internet, presenta las siguientes caracter&iacute;sticas: </p> <ul>       ]]></body>
<body><![CDATA[<li> Posee m&aacute;s de 100 000 sitios para buscar, organizados en 4 000 temas. </li>       <li> Permite buscar en su directorio o realizar b&uacute;squedas mediante la combinaci&oacute;n de distintas tem&aacute;ticas. </li>       <li> La estrategia de b&uacute;squeda puede ser una lista de t&eacute;rminos, una frase o una pregunta escrita en lenguaje natural. </li>       <li> Al mostrar los resultados de una b&uacute;squeda, CompletePlanet ofrece un grupo de indicadores sobre cada sitio: </li>     </ul>     <p>- Relevant: relevancia para la estrategia de b&uacute;squeda. </p>     <p>- Popular: frecuencia con que el sitio es solicitado. </p>     <p>- New: Indica si el sitio se ha incorporado recientemente. </p>     <p>- Link: Presentan los enlaces externos desde el sitio recuperado. </p>     <p>- In DQM: Indica si el sitio es controlado por el Deep Query Manager (DQM). </p> <ul>       ]]></body>
<body><![CDATA[<li> Profusi&oacute;n. </li>     </ul>     <p align="justify">Creado en 1995 en la Universidad de Kansas como un metabuscador inteligente para el Web, fue adquirido por la compa&ntilde;&iacute;a de b&uacute;squedas Intelliseek, <em></em>en abril de a&ntilde;o 2000. Busca en algunas de las mayores m&aacute;quinas de b&uacute;squeda del Web superficial y en un gran n&uacute;mero de fuentes en el Web profundo. Permite orientar las b&uacute;squedas al definir t&oacute;picos generales en los que ellas deben realizarse. Tambi&eacute;n se puede personalizar un grupo de buscadores correspondientes a determinadas materias y obtener resultados de los principales buscadores. </p> <ul>       <li> <em>Copernic Agent</em>. </li>     </ul>     <p align="justify">Es un agente inteligente disponible comercialmente que consulta simult&aacute;neamente las m&aacute;s importantes m&aacute;quinas de b&uacute;squedas en Internet. Posee la versi&oacute;n <em>Copernic Agent Basic</em>, que es gratuita, adem&aacute;s de una versi&oacute;n Profesional. <em>Copernic Agent </em> Pro, por suscripci&oacute;n y con mayores capacidades de recuperaci&oacute;n de la informaci&oacute;n; re&uacute;ne sus b&uacute;squedas en m&aacute;s de 120 categor&iacute;as especializadas y entre sus principales caracter&iacute;sticas est&aacute;n que: </p> <ul>       <li> Puede consultar m&aacute;s de 1 000 m&aacute;quinas de b&uacute;squeda entre las que se destacan: <em>Google, MSN Web Search Engine, Yahoo, AOL.com Search </em>, entre otras. </li>       <li> Los informes de las b&uacute;squedas pueden generarse en formato de p&aacute;ginas Web, para facilitar el filtraje, la clasificaci&oacute;n y la revisi&oacute;n de los documentos. </li>       <li> Suprime los enlaces muertos de los resultados. </li>       <li> Puede extraer conceptos de las p&aacute;ginas recuperadas. </li>       ]]></body>
<body><![CDATA[<li> Los documentos se listan seg&uacute;n su relevancia. </li>     </ul>     <p align="justify">El desarrollo de las herramientas del Web superficial, cuantitativamente superiores a las herramientas orientadas a la recuperaci&oacute;n de informaci&oacute;n en el Web profundo, las primeras con m&aacute;s de una d&eacute;cada de desarrollo y las segundas con &nbsp; alrededor de 5 a&ntilde;os de existencia, no pueden resolver problemas t&eacute;cnicos que limitan la cobertura y accesibilidad (en t&eacute;rminos de cantidad y calidad) a las fuentes de informaci&oacute;n disponibles. La sobrecarga de informaci&oacute;n en el Web supone un gran reto para las organizaciones,  especialmente en el manejo de grandes vol&uacute;menes de datos para conocer el entorno y predecir su evoluci&oacute;n, porque muchas veces poseen la informaci&oacute;n necesaria para responder a las solicitudes de determinados segmentos de usuarios en el mercado, pero en ocasiones no son capaces de aprovechar al m&aacute;ximo esta informaci&oacute;n por no tenerla organizada adecuadamente y carecer de los m&eacute;todos necesarios para procesarla y analizarla de la mejor manera. </p> <h4>Procesamiento y recuperaci&oacute;n de informaci&oacute;n: nuevas aplicaciones </a></h4>     <p>Resulta de gran importancia traducir esos grandes vol&uacute;menes de datos en informaci&oacute;n. Desde hace tiempo, es claro que s&oacute;lo las computadoras pueden manipular r&aacute;pidamente la inmensa masa de datos y producir informes que apoyen la toma de decisiones. Sin embargo, los res&uacute;menes estad&iacute;sticos no son la &uacute;nica cosa oculta en el mar de datos. La identificaci&oacute;n de patrones comunes, asociaciones, reglas generales y nuevo conocimiento tiene actualmente un gran inter&eacute;s para disciplinas como la miner&iacute;a de texto y el descubrimiento del conocimiento en bases de datos. </p> <h6>Miner&iacute;a textual </a></h6>     <p align="justify">La miner&iacute;a textual (<em>text mining</em>) es una de las aplicaciones que, desde su formulaci&oacute;n a principios de la d&eacute;cada de los a&ntilde;os 90' del pasado siglo, ha tenido mayor impacto en las actividades de la inteligencia militar. Emplea distintas t&eacute;cnicas de la recuperaci&oacute;n de informaci&oacute;n y la ling&uuml;&iacute;stica computacional para facilitar la identificaci&oacute;n y extracci&oacute;n de nuevo conocimiento a partir de colecciones documentales. <em>Marti A. Hearst </em> en su libro “ <em>Untangling text data mining </em>”, <em></em>afirma que &eacute;sta tiene como objetivo descubrir informaci&oacute;n y conocimiento previamente desconocido y que no existe en ning&uacute;n documento previo.<span class="superscript">8 </span></p>     <p align="justify">Relacionada con la miner&iacute;a de datos, la diferencia fundamental radica en que &nbsp; &eacute;sta &uacute;ltima pretende extraer conocimiento a partir de patrones observables en grandes colecciones de datos estructurados que se almacenan en bases de datos relacionales mientras que la miner&iacute;a de texto realiza la extracci&oacute;n del nuevo conocimiento a partir de grandes vol&uacute;menes de informaci&oacute;n no estructurada. <em> Hearst </em> expone que el alcance de la miner&iacute;a textual no est&aacute; determinado por el desarrollo de la inteligencia artificial propiamente dicha, sino que propone un equilibrio entre el an&aacute;lisis humano y autom&aacute;tico a la vez, es decir, un enfoque semiautom&aacute;tico cuyo objetivo intermedio-previo al descubrimiento del conocimiento-es procesar y presentar informaci&oacute;n disponible en grandes colecciones documentales en un formato que facilite su comprensi&oacute;n y an&aacute;lisis. Entre sus funciones principales se pueden destacar las siguientes:<span class="superscript">8 </span></p> <ul>       <li> Identificar hechos y datos puntuales a partir del texto de los documentos. </li>       <li> Agrupar documentos similares (<em>an&aacute;lisis de clusters</em>). </li>       <li> Determinar el tema o los temas tratados en el documento mediante la categorizaci&oacute;n autom&aacute;tica de textos. </li>       <li> Identificar los conceptos tratados en los documentos y crear redes de conceptos. </li>       ]]></body>
<body><![CDATA[<li> Visualizaci&oacute;n y navegaci&oacute;n de colecciones de texto. </li>     </ul>     <p align="justify">La miner&iacute;a textual se presenta como una actividad complementaria a la &nbsp; miner&iacute;a de datos, a pesar de no haber logrado el impacto de esta &uacute;ltima. De hecho,  existe una similitud entre la miner&iacute;a textual y la de datos, porque ambas persiguen la misma finalidad: deducir informaci&oacute;n a partir de informaci&oacute;n existente; cambia s&oacute;lo el tipo de informaci&oacute;n que se toma como base de an&aacute;lisis. &nbsp;&nbsp;&nbsp; </p> <h6>Descubrimiento de conocimientos en bases de datos. </a></h6>     <p>El descubrimiento de conocimiento en bases de datos (<em>Knowledge Discovery in Database</em>) implica un proceso interactivo, que comprende la aplicaci&oacute;n de m&eacute;todos de miner&iacute;a de datos para extraer o identificar aquello que se considera conocimiento, a partir de la especificaci&oacute;n de ciertos par&aacute;metros en una base de datos. La meta de este proceso es justamente procesar autom&aacute;ticamente grandes cantidades de datos en bruto, identificar los patrones m&aacute;s significativos y presentarlos como conocimiento apropiado para satisfacer las metas del usuario. El proceso de descubrimiento del &nbsp; conocimiento en bases de datos requiere de varios pasos:<span class="superscript">9</span> </p> <ul>       <li> Entender el dominio de aplicaci&oacute;n, el conocimiento relevante a utilizar y las metas del usuario. </li>       <li> Seleccionar el conjunto de datos y enfocar la b&uacute;squeda hacia los subconjuntos de variables o muestras de datos donde se realizar&aacute; el proceso de descubrimiento. </li>       <li> Filtrar y preprocesar datos, dise&ntilde;ar una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, etc&eacute;tera. </li>       <li> Reducir datos y proyecciones para disminuir el n&uacute;mero de variables a considerar. </li>       <li> Seleccionar la tarea de descubrimiento a realizar (clasificaci&oacute;n, agrupamiento, regresi&oacute;n). </li>       <li> Seleccionar el o los algoritmos a utilizar. </li>       ]]></body>
<body><![CDATA[<li> Realizar el proceso de miner&iacute;a de datos. </li>       <li> Interpretar los resultados. </li>       <li> Incorporar el conocimiento descubierto al sistema. </li>     </ul>     <p>Los algoritmos de la miner&iacute;a de datos realizan por lo general tareas de predicci&oacute;n (de datos desconocidos) y descripci&oacute;n de patrones mediante algoritmos de aprendizaje y estad&iacute;sticos como:<span class="superscript">9</span> </p> <ul>       <li> An&aacute;lisis de dependencias. </li>       <li> Identificaci&oacute;n de clases (agrupamiento de registros en clases o clustering). </li>       <li> Descripci&oacute;n de conceptos. </li>       <li> Detecci&oacute;n de desviaciones, casos extremos y anomal&iacute;as. </li>     </ul>     ]]></body>
<body><![CDATA[<p>Entre los componentes b&aacute;sicos de los m&eacute;todos de miner&iacute;a de datos est&aacute;n: </p> <ul>       <li> El lenguaje de representaci&oacute;n del modelo. </li>       <li> Evaluaci&oacute;n del modelo. </li>       <li> M&eacute;todo de b&uacute;squeda. </li>     </ul>     <p>La miner&iacute;a de datos ha surgido del an&aacute;lisis potencial de grandes vol&uacute;menes de informaci&oacute;n, con el fin de obtener res&uacute;menes y conocimiento que apoyen la toma de decisiones. Por ello, la miner&iacute;a de datos puede clasificarse seg&uacute;n las siguientes variantes:<span class="superscript">9 </span></p>     <p>a) Las t&eacute;cnicas aplicadas: </p> <ul>       <li> Sin  algoritmos de aprendizaje. </li>       <li> Consultas SQL (Structured Query Language). </li>       <li> Procesamiento anal&iacute;tico en l&iacute;nea OLAP (<em>On- line Transactional Processing</em>). </li>       ]]></body>
<body><![CDATA[<li> An&aacute;lisis estad&iacute;stico (correlaci&oacute;n, regresiones). </li>     </ul>     <p>b) Las funciones que realizan: </p> <ul>       <li> Redes neuronales y algoritmos gen&eacute;ticos. </li>       <li> Inducci&oacute;n de &aacute;rboles &nbsp; y reglas. </li>     </ul>     <p>c) Nuevos algoritmos: </p> <ul>       <li> Inducci&oacute;n de reglas de asociaci&oacute;n. </li>       <li> Inducci&oacute;n de clasificadores bayesianos. </li>     </ul>     ]]></body>
<body><![CDATA[<p>Las diferentes t&eacute;cnicas permiten realizar a sociaciones, clasificaciones, agrupamientos y el establecimiento de patrones secuenciales. </p>     <p align="justify">Aunque los diferentes campos de aplicaci&oacute;n de la miner&iacute;a de datos &nbsp; demandan el desarrollo de poderosas y costosas herramientas para crear m&eacute;todos de b&uacute;squeda de patrones, no es el &uacute;nico camino existente. El Web, como se conoce hoy, requiere una visi&oacute;n m&aacute;s integral de los problemas de organizaci&oacute;n y recuperaci&oacute;n de informaci&oacute;n, sobre todo, si se considera que se encuentra estructurado mediante lenguajes de etiquetado que pr&aacute;cticamente describen s&oacute;lo la forma en que la informaci&oacute;n debe presentarse al usuario (colores, maquetaci&oacute;n, tipograf&iacute;a, etc&eacute;tera) y dicen muy poco sobre su significado: sem&aacute;ntica. </p>     <p align="justify">El proyecto denominado Web sem&aacute;ntica (Semantic Web) busca que la informaci&oacute;n pueda reunirse de forma que un buscador pueda comprenderla en lugar de ponerla simplemente en una lista, donde el trabajo que hasta hoy se realizaba en funci&oacute;n del usuario (el humano), se centrar&aacute; en otro tipo de usuario que se valdr&aacute; de grandes c&uacute;mulos de informaci&oacute;n, clasificada, descrita y estructurada para una eficiente recuperaci&oacute;n: el agente inteligente. </p> <h4>Consideraciones finales </h4>     <p align="justify">De manera general, se puede afirmar que el Web actual requiere de nuevas formas de organizaci&oacute;n de la informaci&oacute;n y el conocimiento para mejorar la capacidad de acceso, uso y recuperaci&oacute;n de informaci&oacute;n. La Web sem&aacute;ntica persigue una Web m&aacute;s inteligente, cuyo objetivo es convertir la informaci&oacute;n en conocimiento sobre la base del marcado sem&aacute;ntico y descriptivo no s&oacute;lo de la informaci&oacute;n, sino tambi&eacute;n de los datos, por medio de metadatos, informaci&oacute;n estructurada y legible autom&aacute;ticamente, sobre la informaci&oacute;n distribuida en el Web, que proporcionen a las computadoras una mayor capacidad para gestionar y recuperar dichos datos. </p> <h4>Referencias bibliogr&aacute;ficas </h4>     <!-- ref --><p> 1. Escolar Sobrino H. Historia de las bibliotecas. Madrid: Pir&aacute;mide, 1987. <!-- ref --><p> 2. Vargas Quesada B, Moya Aneg&oacute;n F de, Olvera Lobo MD. Enfoques en torno al modelo cognitivo para la recuperaci&oacute;n de informaci&oacute;n: an&aacute;lisis cr&iacute;tico. Ciencia da Informa&ccedil;ao 2002;31(2):107-40. Disponible en: &nbsp; <a href="http://scimago.ugr.es/file.php?file=/1/Documents/CInfo-02.pdf">http://scimago.ugr.es/file.php?file=/1/Documents/CInfo-02.pdf</a> &nbsp; [Consultado: 2 de febrero del 2005]. <!-- ref --><p> 3. Moya Aneg&oacute;n F de. Los sistemas integrados de gesti&oacute;n bibliotecaria: estructuras de datos y recuperaci&oacute;n de informaci&oacute;n. <em></em>Madrid: Anabad, 1994. <!-- ref --><p> 4. Dupuy G. El urbanismo de las redes: teor&iacute;as y m&eacute;todos. Barcelona: Oikos-Tau, 1998. p.35. <!-- ref --><p> 5. Downes L, Chunka M. Unleashing the Killer App.&nbsp; Harvard: Harvard Business School Press, 1998. <!-- ref --><p> 6. Orihuela JL. Internet: Nuevos paradigmas de la comunicaci&oacute;n. Chasqui. Revista Latinoamericana de Comunicaci&oacute;n 2002(77). Disponible en: <a href="http://chasqui.comunica.org/">http://chasqui.comunica.org/</a> [Consultado: 5 de marzo del 2005]. <!-- ref --><p> 7. Llanes Vilaragut L, Carro Su&aacute;rez JR. Para acceder al Web profundo: conceptos y herramientas. En: Congreso Internacional de Informaci&oacute;n INFO'2004; abril, 12-16; La Habana ; Cuba. &nbsp; La Habana : IDICT, 2004. <!-- ref --><p> 8. Hearst MA. <em></em>Untangling text data mining. Disponible en: <a href="http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html">http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html </a>[Consultado: 9 de marzo del 2005]. <!-- ref --><p> 9. Morales E. Descubrimiento de conocimiento en bases de datos. Disponible en: <a href="http://dns1.mor.itesm.mx/%7Eemorales/Cursos/KDD03/%20">http://dns1.mor.itesm.mx/~emorales/Cursos/KDD03/ </a>[Consultado: 25 de marzo del 2005]. <p align="left">Recibido: 12 de enero  del 2006. Aprobado: 16 de enero  del 2006.     <br> Lic. Keilyn Rodr&iacute;guez Perojo.  Red Telem&aacute;tica de Salud en Cuba. Centro Nacional de Informaci&oacute;n de Ciencias M&eacute;dicas-Infomed. Calle 27 No. 110 e/ N y M, El Vedado. Plaza de la Revoluci&oacute;n. Ciudad de La Habana. Cuba. Correo electr&oacute;nico: <a href="mailto:keylin@infomed.sld.cu ">keylin@infomed.sld.cu </a></p>     <p><span class="superscript"><a href="#autor">1</a></span><a href="#autor">Licenciado en Bibliotecolog&iacute;a y Ciencia de la Informaci&oacute;n. Red Telem&aacute;tica de Salud en Cuba (Infomed). Centro Nacional de Informaci&oacute;n de Ciencias M&eacute;dicas-Infomed.     <br>     <span class="superscript"><strong>2</strong></span>Licenciado en Bibliotecolog&iacute;a y Ciencias de la Informaci&oacute;n. Facultad de Comunicaci&oacute;n. Universidad de La Habana. </a><a name="cargo"></a></p>     <p>Ficha de procesamiento </p>     <p>T&eacute;rminos sugeridos para la indizaci&oacute;n &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </p>     <p>Seg&uacute;n DeCS<span class="superscript">1</span> </p>     ]]></body>
<body><![CDATA[<p>INTERNET; <strong></strong>ALMACENAMIENTO Y RECUPERACI&Oacute;N DE LA INFORMACI&Oacute;N . &nbsp; </p>     <p>INTERNET; INFORMATION STORAGE AND RETRIEVAL <strong>&nbsp;. </strong></p>     <p>Seg&uacute;n DeCI<span class="superscript">2</span> </p>     <p>INTERNET; WWW; CLASIFICACI&Oacute;N; INDIZACI&Oacute;N, RECUPERACI&Oacute;N DE LA INFORMACI&Oacute;N.     <br> INTERNET; WWW; CLASSIFICATION; INDEXING; INFORMATION RETRIEVAL. </p>     <p><span class="superscript">1</span>BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004. </p>     <p>Disponible en: <a href="http://decs.bvs.br/E/homepagee.htm%20">http://decs.bvs.br/E/homepagee.htm </a></p>     <p><span class="superscript">2</span>D&iacute;az del Campo S. Propuesta de t&eacute;rminos para la indizaci&oacute;n en Ciencias de la Informaci&oacute;n. Descriptores en Ciencias de la Informaci&oacute;n (DeCI). Disponible en: <a href="http://cis.sld.cu/E/tesauro.pdf%20">http://cis.sld.cu/E/tesauro.pdf </a></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Escolar Sobrino]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Historia de las bibliotecas]]></source>
<year>1987</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Pirámide]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vargas Quesada]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Moya Anegón]]></surname>
<given-names><![CDATA[F de]]></given-names>
</name>
<name>
<surname><![CDATA[Olvera Lobo]]></surname>
<given-names><![CDATA[MD]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Enfoques en torno al modelo cognitivo para la recuperación de información: análisis crítico]]></article-title>
<source><![CDATA[Ciencia da Informaçao]]></source>
<year>2002</year>
<volume>31</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>107-40</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Moya Anegón]]></surname>
<given-names><![CDATA[F de]]></given-names>
</name>
</person-group>
<source><![CDATA[Los sistemas integrados de gestión bibliotecaria: estructuras de datos y recuperación de información]]></source>
<year>1994</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Anabad]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dupuy]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[El urbanismo de las redes: teorías y métodos]]></source>
<year>1998</year>
<page-range>35</page-range><publisher-loc><![CDATA[Barcelona ]]></publisher-loc>
<publisher-name><![CDATA[Oikos-Tau]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Downes]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Chunka]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Unleashing the Killer App]]></source>
<year>1998</year>
<publisher-loc><![CDATA[Harvard ]]></publisher-loc>
<publisher-name><![CDATA[Harvard Business School Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Orihuela]]></surname>
<given-names><![CDATA[JL]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Internet: Nuevos paradigmas de la comunicación. Chasqui]]></article-title>
<source><![CDATA[Revista Latinoamericana de Comunicación]]></source>
<year>2002</year>
<numero>77</numero>
<issue>77</issue>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Llanes Vilaragut]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Carro Suárez]]></surname>
<given-names><![CDATA[JR]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Para acceder al Web profundo: conceptos y herramientas]]></article-title>
<source><![CDATA[Congreso Internacional de Información INFO'2004; abril, 12-16; La Habana; Cuba]]></source>
<year>2004</year>
<publisher-loc><![CDATA[La Habana ]]></publisher-loc>
<publisher-name><![CDATA[IDICT]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hearst]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
</person-group>
<source><![CDATA[Untangling text data mining]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Morales]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Descubrimiento de conocimiento en bases de datos]]></source>
<year></year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
