<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1024-9435</journal-id>
<journal-title><![CDATA[ACIMED]]></journal-title>
<abbrev-journal-title><![CDATA[ACIMED]]></abbrev-journal-title>
<issn>1024-9435</issn>
<publisher>
<publisher-name><![CDATA[Centro Nacional de Información de Ciencias Médicas]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1024-94352007001000011</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Minería Web: un recurso insoslayable para el profesional de la información]]></article-title>
<article-title xml:lang="en"><![CDATA[Web Mining: a necessary resource for the information professional]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Fuentes Reyes]]></surname>
<given-names><![CDATA[Sady C]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ruiz Lobaina]]></surname>
<given-names><![CDATA[Marina]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto de Información Científica y Tecnológica (IDICT) Instituto de Información Científica y Tecnológica ]]></institution>
<addr-line><![CDATA[Ciudad de La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>10</month>
<year>2007</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>10</month>
<year>2007</year>
</pub-date>
<volume>16</volume>
<numero>4</numero>
<fpage>0</fpage>
<lpage>0</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1024-94352007001000011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1024-94352007001000011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1024-94352007001000011&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Se estudian los principales conceptos relacionados con la minería Web (Web mining) y se enfatiza en la minería de uso del Web (Web usage mining). Se muestran, además, los resultados obtenidos con la aplicación de la herramienta Sawmill V.7.0, utilizada para el procesamiento de ficheros Log.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The main concepts related to Web mining are studied, and emphasis is made on the Web usage mining. The results obtained with the application of the Sawmill V.7.0 tool, which is used for processing Log files, are made known.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Minería Web]]></kwd>
<kwd lng="es"><![CDATA[minería de uso Web]]></kwd>
<kwd lng="es"><![CDATA[software]]></kwd>
<kwd lng="en"><![CDATA[Web Mining]]></kwd>
<kwd lng="en"><![CDATA[Web Usage Mining]]></kwd>
<kwd lng="en"><![CDATA[software]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <h2> Miner&iacute;a  Web: un recurso insoslayable para el profesional de la informaci&oacute;n<a href="#asterisco">*</a>&nbsp;&nbsp;</h2>     <p><a href="#cargo">Lic. Sady C. Fuentes Reyes<span class="superscript">1 </span>e Ing. Marina Ruiz Lobaina<span class="superscript">2</span></a><a name="autor" id="autor"></a></p> <h4> Resumen</h4>     <p align="justify"> Se estudian los principales conceptos relacionados  con la miner&iacute;a Web (Web mining)  y se enfatiza en la miner&iacute;a de uso del Web (Web usage mining). Se muestran, adem&aacute;s, los  resultados obtenidos con la aplicaci&oacute;n de la herramienta <em>Sawmill V.7.0</em>, utilizada para el &nbsp;procesamiento de ficheros Log.</p>     <p><em>Palabras  clave</em>: Miner&iacute;a Web, miner&iacute;a de uso Web,  software.</p> <h4>   Abstract</h4>     <p>The main  concepts related to&nbsp; Web mining<strong> </strong>are  studied, and emphasis is made on the Web usage mining. The results obtained  with the application of the Sawmill V.7.0 tool, which is used&nbsp; for&nbsp;  processing&nbsp; Log files, are made  known..</p>     <p><em>Key words</em>:&nbsp; Web  Mining, Web Usage Mining, software.&nbsp; </p>     <p align="justify">Copyright: &copy; ECIMED. Contribuci&oacute;n de acceso  abierto, distribuida bajo los t&eacute;rminos de la Licencia Creative Commons  Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir,  distribuir, comunicar p&uacute;blicamente y utilizar los resultados del trabajo en la  pr&aacute;ctica, as&iacute; como todos sus derivados, sin prop&oacute;sitos comerciales y con  licencia id&eacute;ntica, siempre que se cite adecuadamente el autor o los autores y  su fuente original. </p>     <p>Cita (Vancouver): Fuentes Reyes SC, Ruiz Lobaina  M. Miner&iacute;a Web: un  recurso insoslayable para el profesional de la informaci&oacute;n. Acimed 2007;16(4). Disponible en: <a href="http://bvs.sld.cu/revistas/aci/vol16_4_07/aci11_07.htm">http://bvs.sld.cu/revistas/aci/vol16_4_07/aci11</a><a href="http://bvs.sld.cu/revistas/aci/vol16_4_07/aci03107.htm">10</a><a href="http://bvs.sld.cu/revistas/aci/vol16_4_07/aci11_07.htm">07.htm </a> [Consultado:  d&iacute;a/mes/a&ntilde;o].<br /> </p>     <p align="right"><em>&ldquo;.... en la antig&uuml;edad, el hombre occidental quer&iacute;a  ser sabio; luego el hombre moderno quiso&nbsp;  ser conocedor;&nbsp; el hombre  contempor&aacute;neo parece contentarse con estar informado (y posiblemente el hombre  futuro no est&eacute; interesado en otra cosa que en tener datos).&rdquo;</em></p>     <p align="right"><em>Iraset P&aacute;ez  Urdaneta</em></p>     ]]></body>
<body><![CDATA[<p align="justify"> World  Wide Web es un medio de difusi&oacute;n econ&oacute;mico y de gran importancia en el entorno  empresarial. Ante el acelerado crecimiento del  World Wide Web y de la competencia entre las organizaciones ha surgido la  necesidad de mejorar la calidad de los sitios Web, esencialmente sobre la base  del comportamiento de los usuarios que lo utilizan.</p>     <p align="justify">Para el descubrimiento de  informaci&oacute;n &uacute;til en el Web, la denominada miner&iacute;a Web es una herramienta &uacute;til  para el hallazgo de nuevos conocimientos; para eso, emplea la informaci&oacute;n&nbsp; obtenida de los documentos y servicios Web  (textos, im&aacute;genes, videos, hiperenlaces, ficheros Log, etc.). A continuaci&oacute;n, se realiza una panor&aacute;mica  sobre la miner&iacute;a Web, con &eacute;nfasis en la&nbsp;  miner&iacute;a de uso Web, y finalmente se exponen los resultados obtenidos en  el procesamiento de los ficheros Log de un servidor Web, por medio de <em>Sawmill V.7.0</em>, &nbsp;una herramienta de software para estos fines. </p> <h4>&nbsp;Miner&iacute;a Web </h4>     <p>En el &aacute;mbito  del acceso, recuperaci&oacute;n y organizaci&oacute;n de informaci&oacute;n, la miner&iacute;a Web es un campo  importante de aplicaci&oacute;n en Internet. Se utiliza  para el estudio del comportamiento de ciertos aspectos esenciales para mejorar la  arquitectura de un sitio ayuda a descubrir conocimientos potencialmente &uacute;tiles  a las organizaciones.</p>     <p><em>Etzioni </em>define la miner&iacute;a Web  como el empleo de las t&eacute;cnicas de la miner&iacute;a de datos &nbsp;&mdash;data mining (DM) &mdash; para descubrir y extraer  informaci&oacute;n autom&aacute;ticamente del Web.1 Entre sus campos  de aplicaci&oacute;n principales se encuentran:2 </p> <ul>       <li>Los  motores de b&uacute;squeda.</li>       <li>El  comercio electr&oacute;nico.</li>       <li>El  dise&ntilde;o Web.</li>       <li>El  posicionamiento Web.</li>       <li>La  seguridad.</li>     </ul>     ]]></body>
<body><![CDATA[<p>La miner&iacute;a Web  se subdivide en &aacute;reas que abarcan el contenido del sitio, la estructura de  navegaci&oacute;n y el comportamiento de los usuarios (fig. 1).</p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0111107.jpg"><img src="/img/revistas/aci/v16n4/f0111107.jpg" width="376" height="173" border="0" /></a></p>     
<p align="center">FIG. 1. Mapa conceptual&nbsp; de la clasificaci&oacute;n miner&iacute;a Web, seg&uacute;n <em>Juan Carlos D&uuml;rsteler</em>. </p> <h6>Clases de miner&iacute;a</h6>     <p>En materia de miner&iacute;a Web, existen tres clases fundamentales:</p> <ol>       <li><em>Miner&iacute;a  Web de contenido</em>. En el Web existen variados documentos, hipertexto,  im&aacute;genes, v&iacute;deos, audio, s&iacute;mbolos,  datos, meta-datos, link, textos, pdf y muchos otros, que dificulta  su clasificaci&oacute;n. La miner&iacute;a de contenido del Web trata de extraer informaci&oacute;n  relevante sobre el contenido del Web, con vista a su clasificaci&oacute;n y mejor  organizaci&oacute;n de este, para posteriormente perfeccionar el acceso y la  recuperaci&oacute;n de la informaci&oacute;n.<br />   </li>       <li><em>Miner&iacute;a  Web de estructura</em>. Permite conocer c&oacute;mo se organiza  un Web, c&oacute;mo se &nbsp;estructura y c&oacute;mo ocurre  la navegaci&oacute;n en ella.</li>       <li>    <em>Miner&iacute;a  de uso Web</em>. Tiene como principal objetivo extraer patrones  de uso del Web por parte de los usuarios. Para esto, se utilizan los archivos Log  (registros de sucesos/eventos) de los servidores Web. Este tipo de  miner&iacute;a tiene dos objetivos principales: <br />     <br />     <ul>           <li>Extraer       patrones generales de uso de un sitioWeb de manera que pueda       reestructurarse para que sea m&aacute;s f&aacute;cil de utilizar y mejore el acceso por       parte de los usuarios.<br />       </li>           <li> Obtener       perfiles de los distintos tipos de usuarios a partir de su comportamiento       y navegaci&oacute;n, para ofrecer una atenci&oacute;n m&aacute;s personalizada.</li>         </ul>   </li>     ]]></body>
<body><![CDATA[</ol>     <p>El procesamiento de Log  que se genera autom&aacute;ticamente en los servidores produce informaci&oacute;n de alto valor. Los datos almacenados  en los Log siguen un formato est&aacute;ndar y se almacenan en un archivo de texto,  separado cada campo por comas (&quot;,&quot;) y cada acceso es un rengl&oacute;n  distinto.</p>     <p>Entre los datos  que registran los llamados Log se encuentran:</p> <ul type="disc">       <li>Direcci&oacute;n IP del usuario.</li>       <li>Fecha y hora de acceso.</li>       <li>URL de la p&aacute;gina accedida.</li>       <li>Protocolo utilizado para la transmisi&oacute;n de       los datos.</li>       <li>C&oacute;digo de error.</li>       <li>N&uacute;mero de bytes transmitidos.</li>     </ul> <h6>Fases</h6>     ]]></body>
<body><![CDATA[<p>La miner&iacute;a de uso Web presenta cuatro fases  fundamentales (fig. 2):</p> <ol start="1" type="1">       <li><em>Recolecci&oacute;n       de datos- b&uacute;squeda. </em>Consiste en la  recuperaci&oacute;n autom&aacute;tica de la informaci&oacute;n relevante para su posterior  procesamiento.</li>       <li><em>Procesamiento       de los datos</em>. Una vez recuperados los documentos, se ordenan y se  preparan para la pr&oacute;xima etapa; se utilizan herramientas para obtener informaci&oacute;n  valiosa en forma autom&aacute;tica.</li>       <li><em>Descubrimiento       de patrones. </em>Existen m&uacute;ltiples  t&eacute;cnicas, aplicables al descubrimiento de patrones. Entre ellas, para el agrupamiento y  clasificaci&oacute;n, para el establecimiento de reglas de asociaci&oacute;n y el hallazgo de  secuencias frecuentes.&nbsp;</li>       <li>An&aacute;lisis       de patrones. Comprende la  interpretaci&oacute;n y validaci&oacute;n de los patrones.</li>     </ol>     <p align="center"><a href="/img/revistas/aci/v16n4/f0211107.jpg"><img src="/img/revistas/aci/v16n4/f0211107.jpg" width="799" height="45" border="0" /></a></p>     
<p align="center">FIG. 2. Fases  de la miner&iacute;a de uso Web.</p> <h4>T&eacute;cnicas empleadas  en la miner&iacute;a de uso Web &nbsp;</h4>     <p align="justify">Entre las  t&eacute;cnicas utilizadas se encuentran:<span class="superscript">3<br />   <br /> </span><em>Agrupamiento y clasificaci&oacute;n</em>. Las t&eacute;cnicas de agrupamiento o <em>clustering</em> distribuyen comportamientos  de individuos similares en grupos homog&eacute;neos, es decir, &nbsp;dos elementos con caracter&iacute;sticas similares &nbsp;pertenecer&aacute;n al mismo grupo y las  caracter&iacute;sticas de un grupo (definidas por el elemento prototipo o ideal) ser&aacute;n  diferentes a las de otro grupo. En dependencia de la informaci&oacute;n almacenada en  los ficheros Log, es posible detectar grupos de usuarios como:</p> <ul>       <li>Aquellos que visitan gran cantidad de  p&aacute;ginas con un tiempo de estancia similar en todas ellas.</li>       ]]></body>
<body><![CDATA[<li>Los que visitan un n&uacute;mero peque&ntilde;o de  p&aacute;ginas en sesiones cortas.</li>       <li>Los que visitan un n&uacute;mero  peque&ntilde;o-mediano de p&aacute;ginas con tiempo variable en cada una de ellas. Una vez descubiertos los prototipos o  perfiles de cada grupo, se pueden utilizar las caracter&iacute;sticas de cada uno de  ellos para realizar la clasificaci&oacute;n. En la miner&iacute;a de uso Web, las  t&eacute;cnicas de clasificaci&oacute;n permiten desarrollar un perfil para clientes/usuarios  que acceden a ficheros particulares del servidor, en funci&oacute;n de sus patrones de  acceso. El agrupamiento de clientes/usuarios puede facilitar el desarrollo de estrategias  de mercado futuras, tanto en l&iacute;nea como fuera de l&iacute;nea. Por ejemplo, env&iacute;o de  correos autom&aacute;ticos a aquellos clientes/usuarios que se encuentren en cierto  grupo, reasignaci&oacute;n din&aacute;mica de servidor para un cliente, tal vez menos  sobrecargado, para darle un mejor servicio o la presentaci&oacute;n de contenidos  espec&iacute;ficos seg&uacute;n el tipo de cliente. </li>     </ul>     <p><em>Reglas de asociaci&oacute;n</em>. Las reglas de asociaci&oacute;n permiten determinar  patrones en los conjuntos de datos en los que ocurren transacciones de datos.  Con esta t&eacute;cnica, pueden encontrarse relaciones sin que exista intervenci&oacute;n  alguna por parte de alg&uacute;n operador. El descubrimiento de estas reglas ayuda a  las organizaciones dedicadas al e-commerce a definir estrategias de mercado efectivas. El aprendizaje de reglas de asociaci&oacute;n  se divide normalmente en dos fases: </p> <ol start="1" type="1">       <li>Extracci&oacute;n       de los conjuntos de &iacute;tems que cumplen con la cobertura requerida a partir       de los datos. </li>       <li>Generaci&oacute;n       de las reglas a partir de estos documentos.</li>     </ol>     <p align="justify"><em>Secuencias frecuentes</em>. La miner&iacute;a de secuencias permite  descubrir el tiempo de las secuencias ordenadas de URLs que han seguido los usuarios  y predecir los futuros. En general, en las bases de datos de  transacciones est&aacute;n disponibles los datos en un per&iacute;odo de tiempo y se dispone  de la fecha en que se realiz&oacute; la transacci&oacute;n. El descubrimiento de patrones de  secuencia (<em>sequential patterns</em>) en el  Log puede utilizarse para predecir las futuras visitas y as&iacute; poder organizar  mejor los accesos y publicidades para determinados per&iacute;odos de tiempo. Por ejemplo,  los d&iacute;as laborables entre las 9 a.m.  y las 12   m., muchas de las personas que  accedieron al servidor lo hicieron para ver las ofertas, y en los siguientes  d&iacute;as la mayor&iacute;a compr&oacute; productos. Entonces, por las ma&ntilde;anas se  deber&iacute;a facilitar el acceso a las ofertas y brindar la publicidad m&aacute;s llamativa  posible. </p> <h4>Herramientas para el an&aacute;lisis de Log</h4>     <p align="justify"><strong>&nbsp;</strong>Con el crecimiento explosivo de las fuentes de  informaci&oacute;n disponibles en Internet, es cada vez m&aacute;s necesario que los  investigadores utilicen herramientas automatizadas para el hallazgo de los  recursos deseados de la informaci&oacute;n, y as&iacute; poder conocer y analizar sus  patrones de uso. </p>     <p align="justify">Para realizar el proceso de extraer conocimiento  del contenido de los documentos y de sus descripciones, algo que tambi&eacute;n se  conoce como explotaci&oacute;n minera y que permite identificar patrones de  comportamiento en los registros de acceso a Internet, existen variadas herramientas.  Estas herramientas son sistemas inteligentes que trabajan tanto del lado del  servidor, como del lado del cliente, para poder &ldquo;minar&rdquo; la informaci&oacute;n que se  genera con el uso de Internet y su an&aacute;lisis se realiza a partir de la  informaci&oacute;n que existe en los archivos Log del servidor de Internet y el  servidor de correo. Tenemos entonces:</p> <ul>       ]]></body>
<body><![CDATA[<li><em>Las que  trabajan como herramientas incorporadas al propio servidor</em>. Estas son aplicaciones del lado del servidor, que corresponden a programas que procesan en tiempo real los datos que  se almacenan en los archivos Log. Corren en el servidor, y el acceso a la  informaci&oacute;n del tr&aacute;fico, tanto estad&iacute;stica, como grafica, se realiza mediante  una interfase en l&iacute;nea. Generalmente, este tipo de soluciones vienen incluidas  en las ofertas de alojamiento Web, sea un servidor dedicado o compartido.</li>     </ul> <ul>       <li><em>Las que trabajan  como herramientas en m&aacute;quinas personales</em>. Son software  que se instalan de manera independiente en m&aacute;quinas de escritorio, y su  objetivo es igualmente realizar an&aacute;lisis de archivos Log pero no en tiempo  real. Esta opci&oacute;n consiste en la descarga de los  archivos Log y su posterior procesamiento; por lo tanto, es necesario tener  acceso a estos registros, cuesti&oacute;n que debe consultarse con el proveedor del  alojamiento Web. Luego, mediante uno de estos programas especializados que se  utiliza en una t&iacute;pica PC de escritorio, y sin requerir acceso a Internet, se  desarrollan informes estad&iacute;sticos en poco tiempo. Este es uno de los modos m&aacute;s  atractivos y productivos de ejecutar an&aacute;lisis los investigadores del Web.</li>     </ul>     <p>Cada una de estas herramientas tiene prop&oacute;sitos  espec&iacute;ficos, como el an&aacute;lisis del uso de la tecnolog&iacute;a, el nivel del  conocimiento en una instituci&oacute;n, las estad&iacute;sticas de ventas, la usabilidad y  muchas otras.</p>     <p>Cabe destacar que cada una de estas herramientas  tiene sus propios requerimientos t&eacute;cnicos: espacio disponible en disco,  capacidad de memoria, sistema operativo y, por tanto, tambi&eacute;n diferentes  resultados finales.</p>     <p>Entre las herramientas que trabajan incorporadas al  servidor de navegaci&oacute;n o de correo, se encuentran: <em>OmniAnalyzer</em>, <em>AWStats</em>, <em>Deep Log Analizer V 3.1</em>, <em>Advanced Log Analizer</em>, y <em>WebLog Expert</em>. Entre los comerciales,  est&aacute;n <em>DB Miner</em> y <em>SpeedTracer</em>;  entre los p&uacute;blicos: <em>STstat</em> y<em> Analog</em>. </p> <h4>Estudio de caso </h4>     <p><strong>La aplicaci&oacute;n<em> Sawmill</em></strong></p>     <p>Con el objetivo de ilustrar los aspectos tratados,  se estudi&oacute; el comportamiento de la navegaci&oacute;n de los trabajadores del Instituto  de informaci&oacute;n Cient&iacute;fica y Tecnol&oacute;gica durante dos d&iacute;as.</p>     <p align="justify">Tras una amplia b&uacute;squeda en Internet, se determin&oacute;  escoger como herramienta para el an&aacute;lisis de miner&iacute;a de texto de los archivos  Log disponibles el <em>Sawmill7.2.9_x86_win32</em> (Demo), que puede utilizarse en servidores de navegaci&oacute;n con ISA SERVER Proxy,  es decir, que puede emplearse en servidores que generan Log con una estructura  diferente a los que genera <em>Internet  Information Server</em>.</p>     ]]></body>
<body><![CDATA[<p align="justify"><em>Sawmill</em> es una potente  herramienta de an&aacute;lisis de Log. Est&aacute; especialmente dise&ntilde;ado para analizar Log  de acceso a servidores Web, pero puede procesar casi cualquier Log. Se ejecuta como un programa CGI en un servidor Web, y publica un intuitivo  interfaz gr&aacute;fico de usuario, que puede utilizarse desde cualquier navegador  para configurar y ejecutar <em>Sawmill</em> o  para ver estad&iacute;sticas de p&aacute;ginas. Las estad&iacute;sticas son jer&aacute;rquicas, atractivas y poseen enlaces que facilitan la  navegaci&oacute;n. El programa incluye una completa documentaci&oacute;n. </p>     <p align="justify"><em>Sawmill</em> ofrece una  gran cantidad de opciones, incluida una base de datos persistente, el control  sobre la apariencia de las p&aacute;ginas de estad&iacute;sticas y diversas opciones de  filtrado sobre el Log. Este software muestra, tras su instalaci&oacute;n, una  interfase amigable en <em>Windows Internet  Explorer </em>&nbsp;y presenta, en un cuadro de  selecci&oacute;n de opciones ubicado a la izquierda, una serie de estad&iacute;sticas  posibles:</p> <ul type="disc">       <li>Cantidad de visitas por hora, por d&iacute;a, por       mes, etc&eacute;tera. </li>       <li>Horas pico y horas de baja audiencia.</li>       <li>P&aacute;ginas m&aacute;s visitadas. </li>       <li>P&aacute;ginas de entrada y salida m&aacute;s frecuentes del       sitio. </li>       <li>Utilizaci&oacute;n de buscadores, clasificaci&oacute;n de palabras       clave empleadas para buscar. </li>     </ul> <h6>Algunos resultados </h6>     <p>Se procesaron dos d&iacute;as de navegaci&oacute;n en el mes de  enero del presente a&ntilde;o (fig. 3). Se presenta una gr&aacute;fica y una tabla de la cantidad  de visitas realizadas. Estos datos permiten medir el nivel de navegaci&oacute;n. Puede  observarse, adem&aacute;s, que despu&eacute;s de las 12:00 del d&iacute;a y hasta las 9:00 de la  noche existe un mayor uso (fig 4). En la lista de usuarios, ubicada debajo, puede  constatarse si esta carga en el horario se&ntilde;alado se corresponde con la descarga  de antivirus y actualizaciones de sistemas.</p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0311107.jpg"><img src="/img/revistas/aci/v16n4/f0311107.jpg" width="373" height="185" border="0" /></a></p>     
]]></body>
<body><![CDATA[<p align="center">FIG. 3. Informe de uso por a&ntilde;o, mes y d&iacute;a.</p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0411107.jpg"><img src="/img/revistas/aci/v16n4/f0411107.jpg" width="370" height="201" border="0" /></a></p>     
<p align="center">FIG. 4.&nbsp; Estad&iacute;stica de la  navegaci&oacute;n en el d&iacute;a.</p>     <p>Otra estad&iacute;stica es un desglose por n&uacute;mero de IP,  la cantidad de entradas, el porcentaje que este representa y el n&uacute;mero de  p&aacute;ginas visitadas en Internet (fig. 5). </p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0511107.jpg"><img src="/img/revistas/aci/v16n4/f0511107.jpg" width="314" height="191" border="0" /></a></p>     
<p align="center">FIG. 5. Informe por cliente IP.</p>     <p>Es posible tambi&eacute;n hallar las direcciones de  Internet visitadas, la cantidad de entradas, el porcentaje que representa y el  n&uacute;mero de p&aacute;ginas visitadas en Internet (figura 6). </p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0611107.jpg"><img src="/img/revistas/aci/v16n4/f0611107.jpg" width="353" height="204" border="0" /></a></p>     
<p align="center">FIG.&nbsp; 6. Informe sobre los URLs.</p>     <p>En el informe denominado <em>Localizaci&oacute;n geogr&aacute;fica</em>, se muestra por pa&iacute;s la cantidad de visitas  realizadas y el porcentaje que representa (fig. 7). En este caso, el mayor porcentaje  de p&aacute;ginas visitadas corresponde a Cuba, seguida de los Estados Unidos.</p>     ]]></body>
<body><![CDATA[<p align="center"><a href="/img/revistas/aci/v16n4/f0711107.jpg"><img src="/img/revistas/aci/v16n4/f0711107.jpg" width="342" height="201" border="0" /></a></p>     
<p align="center">FIG.&nbsp; 7. Localizaci&oacute;n geogr&aacute;fica.</p>     <p>En otro informe, denominado <em>Spider</em> o Ara&ntilde;a, se presenta una lista de los motores de b&uacute;squeda utilizados  y la relaci&oacute;n de las p&aacute;ginas visitadas, tanto en forma gr&aacute;fica como num&eacute;rica  (fig. 8). Se puede apreciar que el motor de b&uacute;squeda de mayor demanda es <em>Google</em>; <em>Yahoo</em>, uno de los motores que lider&oacute; Internet, pasa a un tercer  lugar.</p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0811107.jpg"><img src="/img/revistas/aci/v16n4/f0811107.jpg" width="382" height="231" border="0" /></a></p>     
<p align="center">FIG. 8. Motores de b&uacute;squeda utilizados.</p>     <p>Con respecto a la clasificaci&oacute;n de las palabras m&aacute;s  utilizadas, no pudieron obtenerse resultados porque el Log que genera el <em>ISA Server Proxy</em> no guarda la frase o palabras  clave que se emplearon en las b&uacute;squedas. Este puede ser un buen indicador de  los temas que se trabajan con m&aacute;s frecuencia en la organizaci&oacute;n (fig. 9).</p>     <p align="center"><a href="/img/revistas/aci/v16n4/f0911107.jpg"><img src="/img/revistas/aci/v16n4/f0911107.jpg" width="399" height="245" border="0" /></a></p>     
<p align="center">FIG.&nbsp; 9. Frase buscada con motores  de b&uacute;squeda.</p> <h4>Referencias bibliogr&aacute;ficas</h4>     <!-- ref --><p>1. Ponju&aacute;n Dante G. Gesti&oacute;n de informaci&oacute;n en las organizaciones:    principios conceptos y aplicaciones. Santiago de Chile. Centro de Capacitaci&oacute;n    en Informaci&oacute;n Prorrector&iacute;a. Universidad de Chile. 1998.<!-- ref --><p>2. de Gyves Camacho FM. Web Mining: Fundamentos b&aacute;sicos. Disponible    en: &nbsp;<a href="http://zarza.usal.es/~fgarcia/doctorado/iweb/05-07/Trabajos/WMINING.pdf">http://zarza.usal.es/~fgarcia/doctorado/iweb/05-07/Trabajos/WMINING.pdf    </a> [Consultado: 22 de agosto de 2007].<!-- ref --><p>3. Montes y G&oacute;mez M. Miner&iacute;a de texto: Un nuevo reto computacional.    Disponible en: <a href="http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf">http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf    </a> &nbsp;[Consultado: 22 de agosto de 2007]. <p>Recibido: 30 de agosto de 2007. Aprobado: 4 de septiembre de 2007.<br />     Lic. <em>Sady C. Fuentes Reyes</em>.Instituto de Informaci&oacute;n Cient&iacute;fica y Tecnol&oacute;gica. Instituto de  Informaci&oacute;n Cient&iacute;fica y Tecnol&oacute;gica (IDICT). Capitolio de La Habana. Prado  entre Dragones y San Jos&eacute;, La Habana Vieja. Ciudad de La Habana, Cuba. Apartado  postal 2213. C&oacute;digo postal 10200. Correo electr&oacute;nico:<a href="mailto:cimas@idict.cu">cimas@idict.cu</a> </p>     <p><a href="#asterisco">*Es una edici&oacute;n revisada y ampliada de la  ponencia presentada por las autoras en la VI Jornada  Bibliotecaria del IDICT, celebrada entre los d&iacute;as 17 y 18 de julio de 2007 en  el Capitolio Nacional, La Habana, Cuba. Disponible en: la VI Jornada Bibliotecaria  del IDICT, celebrada entre los d&iacute;as 17 y 18 de julio del 2007 en el Capitolio  Nacional, La Habana,  Cuba. </a><a name="asterisco" id="asterisco"></a></p>     <p><span class="superscript"><a href="#autor">1</a></span><a href="#autor">Licenciada    en Informaci&oacute;n Cient&iacute;fico T&eacute;cnica y Bibliotecolog&iacute;a.    Centro de Referencia del Forum de Ciencia y T&eacute;cnica. Instituto de Informaci&oacute;n    Cient&iacute;fica y Tecnol&oacute;gica.&nbsp;<span class="superscript">2</span>Ingeniera    Industrial. Departamento Multimedia y Web. Instituto de Informaci&oacute;n    Cient&iacute;fica y Tecnol&oacute;gica.&nbsp;</a><a name="cargo" id="cargo"></a></p>     <p>Ficha de procesamiento<br />   <br /> T&eacute;rminos sugeridos para la indizaci&oacute;n </p>     <p>Seg&uacute;n DeCS<span class="superscript">1 </span><br />   GERENCIA DE LA INFORMACI&Oacute;N; AN&Aacute;LISIS DE DATOS; PROGRAMAS DE  COMPUTACI&Oacute;N; INTERNET. <br /> INFORMATION MANAGEMENT; DATA  ANALYSIS; SOFTWARE; INTERNET. &nbsp;</p>     <p>Seg&uacute;n DeCI<span class="superscript">2 </span><br />   GESTI&Oacute;N DEL CONOCIMIENTO; AN&Aacute;LISIS DE DATOS; PROGRAMAS DE COMPUTADORA; INTERNET. <br /> KNOWLEDGE MANAGEMENT; DATA ANALYSIS; SOFTWARE;  INTERNET. &nbsp;</p>     <p><span class="superscript">1</span>BIREME. Descriptores en  Ciencias de la Salud  (DeCS). Sao Paulo:  BIREME, 2004. <br />   Disponible en: <a href="http://decs.bvs.br/E/homepagee.htm%20">http://decs.bvs.br/E/homepagee.htm<strong> </strong></a><br />   <span class="superscript">2</span>D&iacute;az del Campo  S. Propuesta de t&eacute;rminos para la indizaci&oacute;n en Ciencias de la Informaci&oacute;n. Descriptores en Ciencias  de la Informaci&oacute;n (DeCI). Disponible en: <a href="http://cis.sld.cu/E/tesauro.pdf%20">http://cis.sld.cu/E/tesauro.pdf<strong> </strong></a></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ponjuán Dante]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Gestión de información en las organizaciones: principios conceptos y aplicaciones]]></source>
<year>1998</year>
<publisher-loc><![CDATA[Santiago de Chile ]]></publisher-loc>
<publisher-name><![CDATA[Centro de Capacitación en Información Prorrectoría. Universidad de Chile]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[de Gyves Camacho]]></surname>
<given-names><![CDATA[FM]]></given-names>
</name>
</person-group>
<source><![CDATA[Web Mining: Fundamentos básicos]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Montes y Gómez]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Minería de texto: Un nuevo reto computacional]]></source>
<year></year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
