Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización

Rodríguez Perojo, Keilyn; Ronda León, Rodrigo

Mi SciELO

Servicios personalizados

Servicios Personalizados

Revista

Articulo

Enviar articulo por email

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

ACIMED

versión impresa ISSN 1024-9435

ACIMED v.14 n.1 Ciudad de La Habana ene.-feb. 2006

Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización

Lic. Keilyn Rodríguez Perojo1 y Lic. Rodrigo Ronda León2

Resumen

Se aborda la organización y recuperación de la información desde la perspectiva de la automatización. Así, se trata la indización automática o asistida por computadora, el lugar de la lingüística en la recuperación de la información, la aplicación del paradigma cognitivo a esta área del conocimiento y los diferentes modelos para la recuperación interactiva de la información y la interacción hombre-máquina.

Palabras clave: Organización de la información, recuperación de la información, automatización.

Abstract

The organization and retrieval of information is analysed from the perspective of the automatization process. The automatic or computer-assisted indexing, the role of linguistics in information retrieval, the application of the cognitive paradigm to this area of knowledge, the different models for the interactive retrieval of information and the human-computer interaction are dealt with.

Key words: Information organization, information retrieval, automatization.

Copyright: © ECIMED. Contribución de acceso abierto, distribuida bajo los términos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar públicamente y utilizar los resultados del trabajo en la práctica, así como todos sus derivados, sin propósitos comerciales y con licencia idéntica, siempre que se cite adecuadamente el autor o los autores y su fuente original.

Cita (Vancouver): Rodríguez Perojo K, Ronda León R. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización. Acimed 2006;14(1). Disponible en: http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm Consultado: día/mes/año.

Al delimitar la recuperación como un nuevo espacio para la Ciencia de la Información , orientado a la localización de la información, Calvin Mores , fue el primero en definirlo como un proceso paradigmático de la actividad informativa.

En 1946, se produjo la invención de las tecnologías computacionales. Estas obtuvieron una aplicación progresiva e inmediata en la naciente esfera, especialmente para solucionar las preocupaciones dominantes sobre cómo localizar y buscar información puntualmente en medio de la llamada explosión documental. Con este objetivo, se impulsó la elaboración de procedimientos que permitieran representar el contenido de un documento, según la riqueza de los sistemas de clasificación e indizaciones existentes.

Con la intención de asumir el incremento exponencial de la información científica acumulada, principalmente en el área de las ciencias experimentales, a finales de la década de los años 50, ocurre la inserción de la organización en el ámbito de la recuperación de la información en los sistemas automatizados o asistidos por computadora ocurre. Ello se fundamenta en las siguientes razones:1

La idea de que una computadora pudiera realizar análisis de grandes volúmenes de texto y, en especial, catalogar, indizar y diseñar tesauros conceptuales de forma repetitiva.
La disponibilidad de máquinas capaces de procesar información alfanumérica.
El desarrollo, como resultado de los esfuerzos conjuntos entre la naciente inteligencia artificial, la teoría lingüística y la lingüística computacional, que es la aplicación de la ciencia de la computación al conocimiento de la estructura y el significado del lenguaje, con Noam Chomsky al frente.
El perfeccionamiento del tiempo de ejecución de estas labores y el ahorro de recursos financieros.
La pretensión de evitar que personas que realizaran las diferentes funciones para un mismo documento, pero en momentos diferentes, cometieran errores a la hora de organizar su contenido.

Estos constituyen algunos de los factores determinantes de la aplicación del análisis semiautomático y automático de textos en los sistemas experimentales de recuperación de información como Cranfield I y II; así como en el Smart de Salton, entre otros.

Indización automática o asistida por computadora

Uno de los autores más importantes en el campo de la indización, Jacques Chaumier, definió la indización desde dos puntos de vista: como proceso y finalidad. Desde la primera posición, la indización es la descripción y la caracterización del contenido de un documento, con la ayuda de las representaciones de los conceptos; sin embargo, su fin último es posibilitar la recuperación de la información almacenada en el sistema.2 Es decir, Chaumier, junto con muchos otros autores, considera a la indización como el paso previo para una adecuada recuperación de la información. La definición de automatización de la indización se debe acometer desde una triple perspectiva:2

Programas informáticos que asisten en el almacenamiento de los términos de indización, una vez obtenidos de modo intelectual -indización asistida por computadora durante la fase de almacenamiento.
Sistemas que analizan los documentos de modo automático, donde los términos de indización propuestos se validan y editan -si es necesario- por un profesional -indización semiautomática).
Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento -indización automática.

A mediados de la década de los años 60, Stevens, definió la indización automática: como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez que se han establecido programas o normas relativas al procedimiento.3 En estos momentos, comienzan a distinguirse distintas concepciones, en ocasiones complementarias. Por una parte, se encuentra la aplicación de los métodos no lingüísticos que agrupan esencialmente: a los estadísticos, la atribución de pesos a la información, los probabilísticos y los basados en técnicas de agrupamiento-clustering, álgebra booleana, escalamiento multidimensional) y por otra, los que ejecutan ciertos análisis lingüísticos de los textos, que se enmarcan dentro del estudio del procesamiento del lenguaje natural, una disciplina surgida a finales de los años 50.

Métodos matemáticos

En un principio, los sistemas de recuperación de información se sustentaron sobre la base de métodos y técnicas de procesamiento de la información no lingüística. En opinión de Amy J. Warner, profesora colaboradora de la Escuela de Información de la Universidad de Michigan, existen dos formas básicas en las que pueden realizarse las búsquedas en bases de datos a texto completo en los sistemas comerciales disponibles en la actualidad. La primera utiliza una variedad de operadores estructurales, como son los símbolos de truncado y los operadores de proximidad y booleanos, que han estado disponibles desde los primeros días en los sistemas en línea. La segunda forma utiliza la clasificación estadística para ordenar grandes series de artículos recuperados mediante su relación predeterminada con la solicitud, de los más relacionados a los menos relacionados.4

Todos estos sistemas son y continuarán siendo muy útiles. Sin embargo, son lingüísticamente crudos y se encuentran limitados por dos problemas generales:4

Utilizan un mínimo de estructura gramatical de la que se encuentra en el documento original.
Continúan descansando en el aparejamiento superficial de los términos claves; por tanto, ocurre una pobre explotación de los elementos significativos de los documentos y las solicitudes.

Entre esos, se destacan:1,4

Estimación de la frecuencia.

Hans Peter Luhn fue el primero en sugerir que la frecuencia de aparición de los términos en una colección se relaciona con la utilidad de éstos para la indización. Los términos de frecuencia muy alta-aquellos que aparecen en muchos documentos- son muy generales y producen una menor precisión en la búsqueda; mientras que aquellos de frecuencia muy baja son muy específicos y producen una baja exhaustividad. Para Luhn, los mejores términos son los que tiene una frecuencia media, es decir, los que no se presentan en muchos ni en pocos documentos.

Estimación de la probabilidad.

Al mismo tiempo que proliferaba el número de investigaciones aplicadas a la recuperación de la información desde la perspectiva anterior, surgieron otras experiencias dirigidas a examinar varios de los sistemas existentes con el propósito de predecir los posibles términos de indización. Los modelos de probabilidades se aplicaron debido a la necesidad de estimar la relevancia de un documento a una consulta.

En un entorno operacional, es el usuario quien inspecciona los documentos que entrega el sistema de recuperación de información y quien decide su adecuación; sin embargo, en entornos experimentales, se busca una evaluación de la salida más objetiva. Para ello, se emplean medidas que ofrecen una idea de la calidad de la recuperación: la exhaustividad, que representa la cantidad de documentos relevantes recuperados y la precisión, equivalente a la proporción de documentos recuperados que son relevantes. Entre los modelos probabilísticas, desarrollados en los sistemas de recuperación de la información, se destacan las redes bayesianas, con éxito en los entornos caracterizados por la incertidumbre.

Estimación de clases de palabras (clustering).

Los algoritmos de clustering aplicados a la organización y recuperación de información, agrupan muestras de entrada en una serie de grupos y en contraste con la indización manual, en la automática es un algoritmo el que toma la posición del indizador y se aplica repetidamente a cada documento. Estudian la forma en que se agrupan los términos de indización asignados a los documentos o los propios documentos para revelar la relación que existe entre documentos de materias similares y crear grupos con características comunes. Las técnicas de análisis de clusters y los sistemas de información tienen un mismo objetivo: organizar temáticamente la información almacenada. Basados en el cálculo de la similitud entre pares de objetos, los métodos, básicamente pueden ser de dos tipos:

Métodos heurísticos: Son aquellos que dividen un conjunto de documentos en subconjuntos entre los que no existen relaciones jerárquicas, por medio de parámetros que permiten controlar el proceso de creación de los grupos. Entre dichos parámetros se encuentran: el número total de clusters a formar y su tamaño máximo y mínimo.
Métodos jerárquicos: Exigen como punto de partida el cálculo de la similitud entre todos los pares de documentos del sistema de información. La construcción de la jerarquía se realiza a partir de: una técnica divisiva, donde los cluster se crean de arriba hacia abajo, grupos con características comunes y luego grupos más específicos y una técnica acumulativa, por medio de la cual se construye, a partir de grupos pequeños, grupos más grandes, de abajo hacia arriba.

Las metodologías empleadas en la automatización de la indización desde finales de los años cincuenta hasta la actualidad han variado. En los primeros momentos, se utilizaba casi exclusivamente la estadística para obtener los términos de indización representativos de los documentos, pero a partir de los años 80, se incorporaron en las propuestas para la automatización de la indización técnicas de procesamiento del lenguaje natural como herramientas para conseguir las raíces de las palabras, etiquetadores morfológicos, así como analizadores sintácticos, entre otras. Pero lo habitual es que las propuestas o prototipos presentados por los investigadores incluyan una combinación de ambas aproximaciones, es decir, cálculo de la frecuencia y herramientas, más o menos complejas, para el procesamiento del lenguaje natural.

Lingüística y recuperación de información

El estudio del procesamiento y la recuperación de información -tanto aplicado como experimental- con enfoques semiautomáticos y automático, pueden utilizar técnicas de la estadística, la lingüística, la psicología y la inteligencia artificial como complemento para el diseño eficaz de sistemas de información. El debate sobre la relación de la lingüística y la recuperación de información comenzó hace más de veinte años.4 Los que defienden esta tesis plantean que prevalece una estrecha relación entre ambos campos, así como el criterio de que la recuperación de información sólo puede progresar si el lugar y la función de la lingüística se comprende con mayor profundidad.5

Los investigadores en el área de la recuperación han propuesto el desarrollo de sistemas más interactivos, es decir, que actúen como un intermediario humano. Según plantea Cristine Montgomery, para estimular en algún sentido la ayuda brindada por un colega humano, el sistema de información activo debe tener al menos tres tipos de conocimiento:6

Conocimiento lingüístico: Para comunicar y recibir información, conocimiento de los artículos léxicos (palabras, frases), categorías gramaticales (sustantivo, verbo) y relaciones gramaticales (sujeto de, complemento de) que represente el conocimiento lingüístico en los dominios particulares.
Conocimiento extra-lingüístico: Conocimiento sobre las entidades, atributos, eventos, procesos y relaciones que conforman los modelos de información para el dominio correspondiente.
Capacidad: El sistema debe utilizar el conocimiento lingüístico y extra- lingüístico para alcanzar un objetivo.

Enfoques del análisis lingüístico en torno a la recuperación de información

Entre las áreas de estudio que emplean el análisis del lenguaje, las que mayor potencial demuestran para su aplicación en la organización y recuperación de la información son la teoría lingüística y el procesamiento del lenguaje natural.

La teoría lingüística estudia el lenguaje con el sólido fin de construir una teoría de su estructura, de sus funciones en un punto determinado y sin considerar ninguna aplicación práctica que pudiera tener la investigación del lenguaje.7 Por otra parte, el procesamiento del lenguaje natural es el área de investigación y de aplicación que explora la forma en que el lenguaje natural que entra a un sistema de computación, puede manipularse y almacenarse de forma que preserve ciertos aspectos del original.8

El procesamiento del lenguaje natural ofrece dos enfoques al problema del análisis lingüístico mediante la existencia de una equivalencia débil y una fuerte entre el uso del lenguaje humano y el procesamiento de los datos lingüísticos por computadora. El enfoque de equivalencia débil busca desarrollar algoritmos particulares para el procesamiento de los datos y se caracteriza por un fuerte enfoque de manejo. El enfoque de equivalencia fuerte trata de caracterizar la naturaleza subyacente en la computación en particular y sus bases en el mundo físico, frecuentemente conocido como enfoque cognitivo y plantea que un programa de computación es un modelo de cognición humano.9

Procesamiento lingüístico en los sistemas de recuperación de información

Generalmente los sistemas de recuperación de información comerciales, estadísticos y los que incluyen análisis lingüístico, muestran cuatro niveles orientados al procesamiento de la información desde su estructura superficial hacia la estructura profunda del texto (tabla 1).

Tabla 1. Tabla comparativa entre sistemas de recuperación de información
RI: Recuperación de información

Nivel lingüístico	RI comercial	RI estadística	RI lingüística
Morfológico	Símbolo de truncado	Familia	Análisis morfológico
Sintáctico	Operadores de proximidad	Frases estadísticas	Frases gramaticales
Semántico	Tesauros	Grupos de palabras concurrentes	Red de palabras con relaciones semánticas
Pragmático	Búsqueda heurística	Retroalimentación por relevancia.	Procesamiento de texto en tópicos

Como no es nuestra intención realizar un análisis minucioso de cada componente del lenguaje, consideramos pertinente circunscribirnos a tres de ellos relacionados con las nuevas iniciativas puestas en práctica y que apuntan hacia un mejor desempeño de los sistemas de recuperación de información semiautomáticos y automáticos:

Nivel sintáctico: Centra su estudio en la función que cada palabra presenta (una oración, párrafo) y las relaciones gramaticales entre estas.
Nivel semántico: Un tema común que la recuperación de información incorpora a la semántica -que trata sobre el significado de las palabras- es la capacidad de considerar los conceptos referidos en los textos y no sus simples términos claves, conocida como la recuperación de información basada en el contexto, que sólo puede lograrse por medio de la creación y mantenimiento de bases de conocimientos como los tesauros conceptuales y las redes semánticas. Sobre la Teoría de Grafos se ha ideado la noción de la red semántica como una colección de conceptos que pueden ser objetos, situaciones o nociones, así como las relaciones entre ellas y su interpretación. Los nodos que la forman representan los conceptos, mientras que las aristas reflejan relaciones binarias entre los nodos.
Nivel pragmático: Se refiere a las regularidades que rigen la elección de un lenguaje de comunicación, de ahí que existan reglas del discurso coherente y cooperativo que rigen los textos escritos y la estructura de las interacciones entre los individuos.10 Un sistema automático que incorpora información pragmática del análisis lingüístico es capaz de procesar textos completos y extraer tópicos generales comprendidos, el ejemplo más ilustrativo lo constituyen las redes neuronales artificiales o sistemas expertos.

Actualmente, proliferan iniciativas dirigidas a la creación de productos y sistemas con el objetivo de facilitar y mejorar el rendimiento de las aplicaciones de recuperación de información en ambientes automatizados por medio de la ingeniería lingüística. Entre ellos, pueden citarse los siguientes ejemplos:

Bitext y DTSearch: Ambas son empresas especializadas en la producción de tecnología lingüística que firmaron un acuerdo de colaboración en el cual DTSearch aporta su herramienta Text Retrieval Engine y Bitext la inteligencia lingüística mediante DataLexica. Text Retrieval Engine es un motor de búsqueda e indización, mientras que DataLexica dota de inteligencia a este proceso, y convierte este en algo sencillo e intuitivo, a la vez que proporciona una cobertura máxima y elimina el ruido. La posibilidad de incluir inteligencia lingüística a la recuperación de información mejoraría el rendimiento de los actuales buscadores -tanto en precisión como en exhaustividad. Están especialmente pensados para la gestión de información y el conocimiento en intranet, extranet e Internet.
UIMA (Unestructured Information Management Architecture): Es un proyecto de la empresa de tecnologías de la información IBM. Propone aunar diferentes aproximaciones a la inteligencia artificial en el ámbito de la recuperación de información y la web semántica, donde se utilizará desde el cálculo estadístico de la relevancia de las respuestas de Google, XML y RDF, hasta técnicas del procesamiento del lenguaje natural.

Naturalmente, la aplicación de diferentes técnicas para el análisis de los flujos de información, sean lingüísticas, matemáticas o ambas, suponen un nuevo reto para los profesionales de la información desde otra arista: el usuario. La falta de adecuación del modelo tradicional para la recuperación de información desde sus inicios, impulsa a considerar distintas propuestas de implementación dirigidas a construir un modelo teórico general orientado a la recuperación de información, en favor de mejorar la interacción entre el usuario y los sistemas de información en ambientes automatizados.

El paradigma cognitivo aplicado a la recuperación de información

Desde finales de la década de los años 70 y principios de los 80´, es posible identificar dos tipos de estudios en la recuperación de la información:

Aquellos, centrados en los sistemas automatizados propiamente dichos (paradigma físico).
Aquellos, centrados en los usuarios que acceden a los sistemas interactivos (paradigma cognitivo).

Ambos enfoques estudian la recuperación de información, pero con perspectivas diferentes.11 La falta de adecuación del modelo tradicional a las nuevas necesidades impuestas por un proceso de recuperación de información de carácter interactivo y en constante retroalimentación entre el usuario y la computadora, motivó el surgimiento de una comunidad científica orientada al estudio e investigación de un Paradigma cognitivo de la recuperación de la información, en el que el usuario se ubica en el centro de todo el proceso.

En los primeros precedentes explicativos de la recuperación de la información se notaba más preocupación por recuperar documentos físicos que por recuperar la información que contenían.12 El modelo cognitivo integra lo que constituye la base del modelo tradicional y origina lo que Peter Ingwersen, denomina Teoría cognitiva de la recuperación de la información: un intento de globalizar la recuperación de la información por medio de la representación de todos sus componentes como representaciones estructurales con distintos niveles de complejidad que cooperan en un proceso de comunicación interactivo.13

En este modelo, se consideran factores vinculados con la recuperación interactiva de la información de carácter subjetivo y contextual de cada individuo (usuario) como pueden ser: su estado de ánimo, áreas de interés, grado de motivación, entre otros, en el que resulta de interés conocer cómo estos interactúan para generar una necesidad de información o lo que Belkin, Oddy y Brooks denominaron un Estado anómalo del conocimiento ( Anomalous State of Knowledge o ASK).14 Asimismo, el problema de la recuperación interactiva de la información-que es como se define en el modelo cognitivo- se ha tratado desde diferentes perspectivas a pesar de su corta historia, entre las propuestas más destacadas, se encuentran:15

El modelo global de poli-representación.
El modelo episódico.
El modelo estratificado.
El modelo de retroalimentación interactivo.

Modelo global de poli-representación

Se nutre de las representaciones de las consultas y los documentos, así como de la aplicación de diferentes técnicas en el proceso de recuperación de información. Ello se debe a dos elementos que se manifiestan durante el proceso de recuperación interactiva de la información: uno, la recuperación interactiva de la información es tan compleja y abstracta que cualquier representación o técnica que se emplee no logra abarcar toda la complejidad de la interacción sistema-usuario, entonces se requiere del uso de disímiles técnicas de representación y recuperación.

Dos, se basa en el modelo probabilístico de Robertson, que plantea que cuantas más pruebas o evidencias existan sobre la consulta, los documentos y las relaciones entre ellos, mayores serán las probabilidades de que los resultados se adecuen a la necesidad de información del usuario.16 De aquí, que Peter Ingwersen, se base en la idea de la redundancia intencional y las redes de inferencia de Turtte y Croft, para proponer un sistema de poli-representación de la recuperación de la información como complemento del modelo práctico.

Modelo episódico

Denominado así por Nicolas Belkin , define el conjunto de interacciones que se producen entre el usuario y el sistema durante la consulta, de forma similar al intercambio que se producía entre él y el intermediario de una base de datos, en un principio, para conceptuar, etiquetar y transcribir la necesidad de información, así como emitir juicios de relevancia sobre uno o varios documentos. Los componentes que integran dicho modelo son los mismos que se utilizan en el modelo tradicional:14,17

Técnicas de navegación (browsing).
Técnicas consulta (querying).
Técnicas de visualización.
Técnicas de indización.
Técnicas de representación y equiparación.

Sólo que se presta muy poca atención a la estructura de los documentos y su recuperación, y se centra en el estado anómalo del conocimiento del individuo, cómo representarlo y cómo recuperarlo, es decir, este sistema se basa en el almacenamiento, la recuperación y la interacción de las estrategias de búsqueda.

Modelo estratificado

Tefko Saracevic , toma como referencia la estructura de la teoría estratificada de la lingüística y la comunicación, adopta y adapta modelos y técnicas de los sistemas e investigaciones existentes sobre la recuperación interactiva de la información. Uno de sus objetivos fundamentales es localizar e identificar los procesos de búsqueda de información de los usuarios para incorporarlos al diseño de interfaz como garantía para el éxito de la interacción entre sistema y el usuario.18

Para Saracevic, la recuperación de la información es uno más de los procesos que integran la interacción hombre-máquina (IHM); considera que esta y la recuperación interactiva de la información son lo mismo y adopta la definición de GA Storrs para la IHM: (...) el intercambio de información entre participantes, con el objetivo de cambiar el estado de conocimiento propio o del resto de los participantes.19 Pero intenta ir más allá y modifica la definición anterior de IHM para entenderla como: (...) un diálogo con el fin de cambiar el estado de conocimientos de uno o más participantes.18

Modelo de retroalimentación interactiva

Uno de los principales problemas de los sistemas interactivos durante años fue entender la interacción como un proceso inherente al sistema de recuperación de la información. Una vez establecida la interacción entre el hombre y la máquina, no se especifica de forma clara qué elementos y procesos permiten la interacción entre los dos extremos del sistema de recuperación de información.

Amanda Spink, propone que el principal responsable de la interacción, tanto en el modelo tradicional como en el interactivo, es la retroalimentación como aspecto no siempre ligado al concepto de relevancia, sino a la generalidad de elementos que permiten la interacción entre el sistema y el usuario. Sobre esta base, Spink identificó, en un estudio aplicado a una muestra de 40 usuarios reales, con necesidades informativas reales y 4 intermediarios para responder a sus consultas, los siguientes tipos de retroalimentación:18

Retroalimentación por relevancia de contenido.
Retroalimentación por relevancia de términos.
Retroalimentación por magnitud de respuestas.
Retroalimentación por revisión de consultas anteriores.
Retroalimentación por revisión de términos.

Una vez identificados y descritos los elementos sobre los que recae el peso de la retroalimentación, la autora de la investigación se basó en el modelo de recuperación interactiva de la información propuesto por Saracevic, y contempló sus distintos niveles de interacción. En síntesis, un proceso de búsqueda interactivo puede estar formado por una serie de estrategias de búsqueda, construidas por una o más iteraciones y uno o más ciclos de retroalimentación interactiva, 18 de los tipos descritos anteriormente.

Los inconvenientes de estos modelos no son pocos, debido a que:

Se limitan a realizar una aproximación prácticamente teórica a las necesidades de información de los usuarios desde diferentes ángulos, carentes de todo tipo de desarrollo práctico en los entornos del usuario.
Se centran excesivamente en el usuario sin considerar que las conclusiones a las que llega corresponden a cada individuo concreto objeto de estudio, difícilmente extrapolables a un grupo más amplio de individuos.

Interacción hombre-máquina

A partir de la explosión tecnológica ocurrida durante los años 70, se hizo necesaria la comunicación directa entre el hombre y las computadoras. Del estudio de este fenómeno, surgió una nueva área estudio: la interacción hombre-máquina (Machine Men Interaction) o más específicamente HCI (Human Computer Interaction).20

La Association for Computer Machinery (ACM), una organización internacional de investigadores y profesionales interesados en todos los aspectos de la computación, junto a su grupo especial en temas de la IHM denominado SIGHI (Special Interest Group in Computer Human Interaction), propusieron la siguiente definición para esta nueva área del conocimiento: Es la disciplina relacionada con el diseño, evaluación e implementación de sistemas informáticos interactivos para el uso de seres humanos y con el estudio de los fenómenos más importantes con los que se relaciona.21

Sobre esta base, puede afirmarse que el tema principal de esta disciplina está en la interacción y más específicamente en la interacción entre uno a más usuarios y una o más computadoras. Pero, entre el usuario y una computadora existen un conjunto de factores que actúan como mediadores a lo largo del proceso de interacción:

Las computadoras pueden formar parte de monitores de autos, teléfonos móviles, libros electrónicos, sistemas de realidad virtual, etcétera.
El usuario puede tener su visión o movilidad disminuida y utilizar software de lectura de pantalla o de reconocimiento de voz para el manejo de la pantalla.
Los usuarios pueden formar parte de grupos u organizaciones, y necesitan, por tanto, interfaz para sistemas distribuidos o de trabajo cooperativo.

La IHM puede abordar todas estas situaciones, ella se ocupa, en síntesis, del análisis y diseño de interfaz para la relación hombre-máquina, conocidas como interfaz de usuario. La IHM puede analizarse en función de su estilo, estructura y contenido:

Estilo: Se refiere a la forma en que el usuario introduce y recibe información-distribución de los comandos, menús de selección.
Estructura: Se relaciona con la forma de organizar los componentes-distribución de los comandos en pantalla o de los campos en un formulario.
Contenido: Aborda los significados semánticos y pragmáticos que se producen mediante el diálogo.

La interacción hombre-máquina como área interdisciplinaria

La IHM surgió como un campo entrecruzado de disciplinas: gráficos por computadora, sistemas operativos, ergonomía o factores humanos, ingeniería industrial, psicología cognitiva e ingeniería informática, conocida en sus inicios en el mundo anglosajón como Computer Science. La interacción hombre-computadora se desarrolla dentro del contexto social y organizacional en el que se requieren distintos tipos de aplicaciones para distintos propósitos.

A principios de los años 80, los sicólogos comenzaron a interesarse en diversos aspectos del procesamiento de la información y del diseño de sistemas de información; emergió así, por ejemplo, el estudio del diseño de los menús. A mediados de los años 80, la usabilidad de los sistemas monousuarios cobró fuerzas como respuesta a la explosión de las PCs (Personal Computers). Hacia finales de esta década e inicios de los años 90, la tendencia se centró en las potentes estaciones de trabajo multiusuario, con énfasis en las comunicaciones más avanzadas, las aplicaciones multimedia y la realidad virtual. El estudio de la IHM precisa de diversas disciplinas; unas vinculadas a los aspectos humanos, otras a las tecnologías y otras en ambos sentidos.

En el caso de la Informática , que comprende el estudio, tanto la parte física como la programación de la computadora, su finalidad es producir máquinas más rápidas y potentes. Su vinculación con otras áreas del conocimiento como la ingeniería y el diseño industrial genera estudios preliminares en diversos aspectos relacionados con la adaptación del software y el hardware al entorno de usuario:

La generación de gráficos por computadoras (gráficos interactivos): Nacen con el uso de los monitores de rayos catódicos (CRT). Esto conlleva a que se desarrollen varias técnicas de IHM, algunas de las cuales marcaron el inicio de los gráficos por computadora como disciplina, datan del año 1963 de la tesis doctoral de Ivan, Shutherland, realizada en el MIT: Sketchpad. Sketchpad era un sistema de manipulación directa de objetos gráficos que soportaba la manipulación de objetos gráficos mediante un lápiz óptico, permitía escoger los objetos, moverlos y cambiarles el tamaño con ciertas restricciones. Se produjo en los laboratorios Lincoln con el soporte de las Fuerzas Aérea y la NSF. El trabajo dentro de esta disciplina ha continuado con el desarrollo de algoritmos y hardware que permitan la manipulación y representación de objetos más realistas (CAD/CAM - Computer Aided Design/Computer Aided Manufacturing), así como el desarrollo del ratón (mouse), los dispositivos de mapa bits (bitmapped displays), las ventanas (windows), la metáfora de escritorio y los editores Paint & Clic.
Sistemas operativos (sistemas de gestión de interfaz de usuario y kits de herramientas de la interfaz de usuario- toolkits): El trabajo en los sistemas operativos desarrolló técnicas para las interfaz de los dispositivos de entrada/salida, técnicas para el tunning del tiempo de respuesta del sistema frente al tiempo de interacción humana, técnicas de multiproceso y técnicas para soportar entornos de ventanas y animación en tiempo real.

En cuanto al factor humano, la psicología cognitiva se ocupa del estudio del comportamiento humano y el proceso mental que implica. En la IHM es importante atender a aspectos como la percepción, la atención, la memoria, el aprendizaje, el pensamiento y la solución de problemas. Los primeros estudios se interesaron en saber cuánta información podía procesar y recordar el hombre pero, actualmente, se centra más bien en el modo de trabajo de las personas con los demás y con las máquinas.

Ergonomía o factores humanos: Esta disciplina, llamada Ergonomía en Europa y Factores Humanos en Estados Unidos, nació durante la segunda guerra mundial con el objetivo de diseñar armamento militar cómodo de utilizar. En los años 60, comenzaron a realizarse estos estudios en el ámbito de la informática con el propósito de diseñar interfaz de pantalla. Se basa en potenciar la calidad de uso de los objetos, en maximizar la comodidad y la eficiencia para hacer más fáciles las tareas, aumentar el confort y la satisfacción.

Para mejorar la IHM se ha hecho especial énfasis en el hardware (monitores, teclados y otros periféricos) y en aspectos del software que afectan a la psicología como son: la legibilidad de la pantalla, los colores, las texturas de las fuentes y gráficos. La Organización Internacional de Normalización (ISO) ha creado varios comités para la elaboración de normas sobre ergonomía, entre los que se encuentra el TC 159 que se ocupa de la ergonomía en general y se estructura en cuatro subcomités:

El TC 159/ SC1: Que se ocupa de los principios de la ergonomía y consta, a su vez, de tres grupos de trabajo: el WG1 que estudia el diseño de sistemas de trabajo, el WG2, para trabajo mental y el WG3 para la terminología.
El TC 159/ SC3: Dedicado a la antropometría y la biomecánica.
El TC 159/ SC4: Orientado al tema de la ergonomía en el entorno físico, también cuenta con diferentes grupos de trabajo, entre los cuales se destaca el WG5, encargado del diseño centrado en el hombre y los sistemas interactivos.
El TC 159/ SC5: Especializado en la ergonomía de la IHM.
La ISO 9241: Dedicada a normativas sobre diseño e interactividad.

En cuanto a la lingüística, la aplicación de las teorías lingüísticas a la IHM permite dotar a la interfaz en lenguaje natural de una sintaxis y una semántica sobre la base de la inteligencia artificial. Una actividad concreta en la automatización de diversos aspectos lingüísticos es la denominada industria de la lengua, que surge del procesamiento automático del lenguaje natural y que se vincula fuertemente con la inteligencia artificial. En estos estudios, se investiga en la generación y síntesis de voz, los sistemas de indización automáticos, los sistemas terminológicos y los de traducción por computadora.

Otro campo de marcado interés para los estudios y la aplicación de la IHM es, sin duda, la inteligencia artificial, que se ocupa del diseño de programas informáticos inteligentes que simulan aspectos del comportamiento humano, especialmente para la solución de problemas. La IHM se ha aplicado en el desarrollo de sistemas expertos con interfaces inteligentes para codificar y automatizar el conocimiento de personas experimentadas en dominios concretos del saber. Para su creación es necesario conocer cómo trabaja una persona especializada en determinada materia, observarla y pedirle que indique cada regla para la toma de decisiones.

Los sistemas expertos están diseñados sobre la base de los lenguajes de programación-como Lisp y Prolog- basados en datos y reglas de inferencia del lenguaje. El conjunto de datos se especifica en forma de bases del conocimiento (Knowledge Base). Sus componentes fundamentales son:

Una base de conocimientos: Comprende el conocimiento factual (de datos) e inferencial (de reglas) que se introducen en el sistema con la ayuda de expertos en la materia.
Un motor de inferencia : Son reglas y principios que se aplican de forma consistente para asegurar que el sistema sea estable y predecible; lo más difícil de precisar es cuáles deben aplicarse y en qué orden.
Interfaz de usuario: Debe estar preparada para recibir datos y añadirlos a la memoria de trabajo durante la sesión; puede explicar la decisión adoptada según la lógica seguida.

Los sistemas expertos aplicados al área bibliotecaria, pueden utilizarse en la catalogación, indización, búsqueda en bases de datos, préstamo interbibliotecario y combinarse con el resto de las áreas que abarca la inteligencia artificial.

Consideraciones finales

Tanto la organización como la recuperación de información, son áreas de la Ciencia de la Información que pueden beneficiarse de los estudios e investigaciones sobre la IHM para ofrecer a los usuarios interfaz que faciliten su trabajo. El estudio de otros procedimientos como la navegación (browsing), la asignación de vectores y las técnicas de agrupamiento (clustering), constituyen algunas vías para solucionar los problemas de organización de información dentro de los sistemas de recuperación de información en ambientes automatizados y, específicamente, en la Web actual.

Referencias bibliográficas

1. Gil Leiva I. La automatización de la indización de documentos. Gijón: Trea, 1998.

2. Chaumier J. Referencia Análisis y lenguajes documentales. Madrid: Mitre, 1986.

3. Stevens ME. Automatic indexing: a state of the art report. Washington , D.C: National Bureau of Standars, 1965 (Monograph 91).

4. Warner AJ. The Role of Linguistic Analysis in Full Text Retrieval. En: Rasmussen El. Full Text: From Tutorial to Innovations. New York : Greenwood Press, 1994; 265-75.

5. Spark Jones K. Automatic Keyword Classification for Information Retrieval, London : Butterworths, 1971.

6. Montgomery CA. Linguistic and Information Science. JASIS 1972;(2):195-219.

7. Lyons J. Languages and Linguistics: An introduction. Cambridge : Cambridge University Press, 1981.

8. Harris MD. Natural Processing. Reston: Reston Publishing, 1985.

9. Winston, P. Artificial Intellegence, 2da ed. Reading: Adison-Wesley, 1984.

10. Cystal D. The Cambridge Enciclopedy of Language, New York : Cambridge University Press, 1987.

11. Saracevic T. Information Science. JASIS 1999;50(12):1051–63.

12. Vargas Quesada B, Moya Anegón F de, Olvera Lobo MD. Enfoques en torno al modelo cognitivo para la recuperación de información: análisis crítico. Ciencia da Informaçao 2002;31(2):107-40. Disponible en: http://scimago.ugr.es/file.php?file=/1/Documents/CInfo-02.pdf [Consultado: 2 de febrero del 2005].

13. Ingwersen P. Information Retrieval Interaction London : Taylor & Francis, 1992.

14. Belkin NJ , Oddy RN, Brooks HM. ASK for Information Retrieval: Part I. Background and Theory. Journal of Documentation1982;38(2):61-71.

15. Ingwersen P. Cognitive perspectives of information retrieval interaction: elements of a cognitive IR theory. J Doc 1996;52(1):3-50.

16. Roberton SE. The probability ranking principle: The probability ranking principle in Information Retrieval. J Doc1977;33(4):294-304.

17. Belkin NJ , Oddy RN, Brooks HM. ASK for Information Retrieval: Part II . Results of a Design Study. Journal of Documentation 1982;38(3):145-64.

18. Spink A, Saracevic T. Human-Computer Interaction in Information Retrieval: nature and manifestations of feedback. Interacting with Computers 1998;10(3):241-67.

19. Storrs GA. A conceptualization of multiparty interaction. Interacting with Computers 1994;6(2):173-89.

20. Marcos MC. HCI (Human Computer Interaction): concepto y desarrollo. El Profesional de la Información 2001;10(6):4-16.

21. ACM's Special Interest Group on Computer-Human Interaction [sitio web]. Disponible en: http://www.acm.org/sigchi/ [Consultado: 2 de febrero del 2005].

Recibido: 12 de enero del 2006. Aprobado: 16 de enero del 2006.
Lic. Keilyn Rodríguez Perojo. Red Telemática de Salud en Cuba. Centro Nacional de Información de Ciencias Médicas-Infomed. Calle 27 No. 110 e/ N y M, El Vedado. Plaza de la Revolución. Ciudad de La Habana. Cuba. Correo electrónico: keylin@infomed.sld.cu

1Licenciado en Bibliotecología y Ciencia de la Información. Red Telemática de Salud en Cuba (Infomed). Centro Nacional de Información de Ciencias Médicas-Infomed.
2Licenciado en Bibliotecología y Ciencias de la Información. Facultad de Comunicación. Universidad de La Habana.

Ficha de procesamiento

Clasificación: Artículo docente.

Teaching article

Términos sugeridos para la indización

Según DeCS1

INTERNET; ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN .

INTERNET; INFORMATION STORAGE AND RETRIEVAL.

Según DeCI2

INTERNET; WWW; INDIZACIÓN, RECUPERACIÓN DE LA INFORMACIÓN ; TECNOLOGÍA DE LA INFORMACIÓN.

INTERNET; WWW; INDEXING; INFORMATION RETRIEVAL; INFORMATION TECHNOLOGY.

1BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004.

Disponible en: http://decs.bvs.br/E/homepagee.htm

2Díaz del Campo S. Propuesta de términos para la indización en Ciencias de la Información. Descriptores en Ciencias de la Información (DeCI). Disponible en: http://cis.sld.cu/E/tesauro.pdf