Mi SciELO
Servicios Personalizados
Articulo
Indicadores
- Citado por SciELO
Links relacionados
- Similares en SciELO
Compartir
ACIMED
versión impresa ISSN 1024-9435
ACIMED v.14 n.4 Ciudad de La Habana jul.-ago. 2006
Descripción de los recursos de información en Internet: formato Dublín Core
Resumen
Se muestran diferentes tendencias que caracterizan las herramientas de búsqueda de información existentes en Internet con respecto a la utilización de los metadatos. Se aborda también el tema del empleo de los formatos normalizados de metadatos para la descripción de los recursos de información, con énfasis en los principios, las características y la codificación del formato Dublín Core en HTML.
Palabras clave: Herramientas de búsqueda, metadatos, Dublin Core, HTML.
Abstract
The different tendencies that characterize the information search tools existing on the Internet as regards the utilization of metadata are analyzed. The topic of the use of normalized metadata formats to describe the information resources is also approached, making emphasis on the principles, characteristics and codification of the Dublin Core format in HTML.
Key words: Search tools, metadata, Dublin Core, HTML.
Copyright: © ECIMED. Contribución de acceso abierto, distribuida bajo los términos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar públicamente y utilizar los resultados del trabajo en la práctica, así como todos sus derivados, sin propósitos comerciales y con licencia idéntica, siempre que se cite adecuadamente el autor o los autores y su fuente original.
Cita (Vancouver): Daudinot Founier I. Descripción de los recursos de información en Internet: formato Dublín Core. Acimed 2006;14(4). Disponible en: http://bvs.sld.cu/revistas/aci/vol14_4_06/aci09406.htm Consultado: día/mes/año.
Los usuarios de Internet se encuentran inmersos en grandes volúmenes de información cuya utilidad se ve cada vez más reducida, tanto por las características propias de los recursos digitales -volatilidad, inestabilidad, -, como por carecer de la semántica necesaria como para que las herramientas diseñadas para la búsqueda y recuperación de la información en Internet puedan recobrarlos según sus necesidades.
Dichas herramientas se basan fundamentalmente en la automatización de las tareas de clasificación e indización; la mayoría emplean un robot que se ocupa de recorrer constantemente la Web para clasificar y organizar automáticamente la información encontrada y confeccionar a partir de ella sus bases de datos. Este tipo de indización es, sin lugar a dudas, menos costosa que la indización humana, pero, a diferencia de esta última, la indización automática es bastante imperfecta y no puede identificar las características de los documentos -materia, autor, fecha de publicación -, o distinguir el tipo de documento, por ejemplo, si se trata de un artículo o de un libro.
Todo esto se debe a que la mayoría de estas herramientas no soportan metadatos y, en los casos en que están preparadas para reconocerlos, la mayoría de los autores de páginas Web no los emplean en los documentos que generan, bien sea por el desconocimiento de su importancia o de cómo hacerlo.
Si los autores de páginas Web utilizaran modelos de metadatos estándares para agregar una descripción a los documentos que ellos generan, se facilitaría, tanto el trabajo de las herramientas para la recuperación de información en el Web que reconocen metadatos, como de los usuarios que realizan sus consultas, quienes podrían valorar el contenido de los documentos sin necesidad de acceder al original, y ahorrarse un tiempo valioso.
En el contexto de Internet, existen diversos mecanismos o herramientas para la recuperación de información, cada una de ellas con tendencias diferentes hacia la utilización o no de los metadatos; entre las herramientas más significativas, se distinguen: los directorios o índices, los motores de búsquedas, los metabuscadores y los portales temáticos.
Los índices o directorios son listas de recursos, organizados en categorías temáticas por expertos. Las categorías temáticas se organizan jerárquicamente en un árbol de materia que permite descender desde las más generales a las más específicas, las categorías presentan una lista de enlaces a las páginas Web referidas en el buscador. Los directorios son sistemas precoordinados de recuperación de información, que ofrecen inventarios de materias. Los directorios han comenzado a evolucionar hacia los portales temáticos. El ejemplo más representativo de directorio hasta el momento es Yahoo (http://www.yahoo.com), que se ha convertido también en un portal, pero mantiene aún su estructura según categorías.
No se puede hablar en sentido estricto de metadatos asociados a este tipo de sistemas de recuperación de información en Internet, sin embargo las categorías clasificatorias que establecen estos sistemas podrían entenderse como metainformación que anticipa, en cierta manera, el contenido de los recursos clasificados dentro de cada tema, al agrupar la información en listas precoordinadas de encabezamiento de materia. La organización de los recursos que realizan estos directorios nos podría llevar a considerarlos sistemas de recuperación de información con organización bibliotecaria; porque aun cuando no son bibliotecas digitales en sentido estricto, sí se basan en criterios semánticos de organización del conocimiento.
Se puede hablar de metadatos estrictos, vinculados a directorios generales en el caso del Open Directory Proyect (ODP) (http://dmoz.org), un directorio puro que sirve para la clasificación cooperativa de información en RDF.1
Los buscadores de información como sistema de recuperación de información en Internet Altavista, Excite y otros son sistemas post-coordinados de recuperación de información, consistentes en bases de datos muy voluminosas, generadas a partir de la indización automática de los textos completos o partes significativas de los documentos encontrados en Internet por los robots, que emplean principalmente técnicas de análisis estadísticos y ponderación.1
Con independencia de las técnicas utilizadas por los buscadores, Gimeno Montoro y otros autores opinan que su principal inconveniente es la calidad de los registros recuperados.2 Aunque en general, los métodos de ordenamiento de los resultados se rigen por su relevancia, el usuario se enfrenta a listas de miles de documentos. Su presentación consiste en una mezcla del texto extraído de determinadas etiquetas del código fuente HTML del recurso, sin ningún tipo de coherencia, y de los metadatos, cuando, en el mejor de los casos, el autor los colocó debidamente, que no siempre es así.
En opinión de Méndez, los metadatos que se consideran en la indización -y en su caso, en el cálculo de relevancia-, son los que se denominan metaetiquetas o metatags, creadas como estructuras genéricas de metainformación (cabeceras HTML) por los autores o editores de los recursos Web. 1 Si estos sistemas utilizan metadatos HTML para indizar (Altavista, Hotbot, MetaCrawler, Inktomi, Infoseek, entre otros), lo hacen sobre valores básicos (Description, Keywords) de las metaetiquetas HTML o a lo sumo las metaetiquetas author u otras partes del documento HTML que puedan entenderse en cierto sentido, como metainformación. No existe un acuerdo sobre los motores de búsqueda que utilizan las etiquetas <META> para el cálculo de relevancia de sus búsquedas, porque normalmente el funcionamiento interno de los buscadores es transparente para los usuarios y los propios creadores de este tipo de software tampoco realizan mucha publicidad sobre sus funcionalidades.
Rodríguez Gairín , en un artículo escrito sobre el buscador Altavista, plantea que muchos motores de búsqueda emplean la información almacenada en los metaelementos para crear sus índices y permitir al usuario un acotamiento por campos, que posibilite que el ruido generado por la indización del texto completo pueda reducirse fácilmente.3 En el caso de Altavista, por el momento, sólo utiliza la metainformación almacenada en KeyWords para generar sus índices y la almacenada en Description para elaborar el breve resumen que presenta en la hoja de resultados.
En opinión de Koch, los sistemas de recuperación globales que se basaban, de alguna forma, en metaetiquetas HTML para la indización eran: Altavista, Infoseek, SwistSearch, Hotbot, Webcrawler, los motores de búsquedas de información en alemán, Aladin y Eule y los sistemas de recuperación de información en Internet especiales para metainformación, Fireball, Polish Academic Web Index, Hotmeta Search Engine (que indizaba metadatos DC) y Nordis Metadata Index -que indizaba los modelos IAFA, DC y Gil.4
Para Rowland, los metadatos que soportan metaetiquetas son Altavista, Excite y Webcrawler.5
Medeiro (2000) señalaba que solo Altavista, Go, HotBot e Inktomi consideran las metaetiquetas.
En un estudio en el que se evaluaron las fluctuaciones de acceso a los documentos por medio del análisis de treces motores de búsqueda, Mettrop estableció que las etiquetas de títulos las soportan los treces motores analizados; la metaetiqueta Keywords la utilizan Altavista, la consideran HotBot, Ilse, Infoseek, MSN, Snap y Windex; la etiqueta Description: Altavista, HotBot, Ilse, InfoSeek, MSN, Search.nl y Snap; la metaetiqueta relativa al autor: Robot, MSN y Snap.6
Como puede apreciarse, cada autor tiene una opinión diferente sobre cuales son los motores globales de búsqueda y recuperación de información en Internet, que soportan metadatos y en que medida los soportan, no existe un consenso general en este problema. Y en este sentido, coincidimos con la opinión de la Dra. Eva Maria Méndez con relación a que los creadores de estos motores apenas ofrecen información sobre su funcionamiento.
Algunos motores como es el caso de Altavista y de Northern Light, que, en principio, indizan y están preparados para indizar las etiquetas META, tienden a obviarlas para su cálculo de relevancia, esto se debe a que muchos autores de páginas Web utilizan la metainformación de manera abusiva para conseguir una mejor posición en los clasificaciones de relevancia de los buscadores. Se ha detectado el uso por parte de algunos autores de aquellas palabras que más utilizan los usuarios de robots en las búsquedas para describir sus documentos, aunque no tengan ninguna relación con el contenido temático, con el único propósito de aumentar su visibilidad en la red y tratar de atraer la mayor cantidad posible de visitantes a sus páginas.
Es necesaria una toma de conciencia entre los creadores de páginas Web en materia de una correcta asignación de metadatos a cada página.
El otro tipo de herramienta global para la recuperación de información en Internet son los metabuscadores, que son motores que no tienen base de datos propias, sino que envían sus solicitudes a varios buscadores o directorios a la vez, actúan como intermediarios de los propietarios de las bases de datos y organizan los resultados para su presentación. Realizan las consultas con bastante rapidez debido a que asignan un tiempo de búsqueda limitado a cada buscador o directorio. Otra de sus características es la eliminación de los duplicados, esto quiere decir, que cuando coinciden varios enlaces iguales en la respuesta, se eliminan los repetidos. De esta manera, el número de páginas que se obtiene es menor.
La relación de estos sistemas con los metadatos es la que tenga cada uno de los motores de búsqueda o directorios con los que trabaja, es decir, la política de indización que tenga cada uno de ellos con relación a la metaetiquetas.1
La búsqueda y recuperación de información basada en metadatos es objetivamente mejor que la automática basada en texto completo (full-text) que utilizan muchas de las herramientas actualmente existentes en Internet para la recuperación de información, por las siguientes razones:7
- Los metadatos facilitan la descripción de recursos no textuales e información binaria, como: audio, software, imágenes, videos, etc., esto supone una ventaja con respecto a la indización automática dirigida sólo a texto.
- Los metadatos deben proporcionar instrumentos para describir el contenido semántico de un recurso y están mejor preparados para soportar la recuperación de información que el propio documento. En muchos casos, los recursos de información no son capaces de facilitar por sí mismos sus propias relaciones semánticas. Por ejemplo, un código de un programa no puede facilitar cual es su utilidad si no dispone de una caracterización (metadatos) en la que se describa.
- La existencia de gran cantidad de recursos electrónicos no textuales en Internet, justifica la necesidad de que existan sistemas de recuperación de información en la red basados en metadatos.
- Una categoría especial de metadatos que hace que los sistemas que los utilizan presenten una ventaja comparativa en la recuperación frente a los que buscan sobre el texto completo, son los metadatos sobre recursos que no son fácilmente accesibles porque están ocultos (protegidos por contraseñas), o que son accesibles sólo por medio de protocolo específicos (Internet invisible). Estos metadatos deben publicarse de forma que los programas que indizan sobre ellos puedan acceder fácilmente a su metainformación.
Son muchas las razones que avalan la búsqueda de información basadas en metadatos como cualitativamente superior con relación a la búsqueda automática basada en texto completo, los datos requieren contener información que auxilien a los usuarios en la toma de decisiones sobre su debida aplicación. Los sistemas de recuperación de información basados en metadatos, a diferencia de los automáticos, pueden discernir la importancia relativa de los documentos, identificar el contexto de la información, facilitan la recuperación de materiales no textuales, etcétera. Además de todas las desventajas que presentan los sistemas de recuperación automática en la recuperación de información, se suma el hecho de que el número de estos robot que recorren la red en función de descubrir e indizar nuevos recursos es cada vez mayor, y ello genera un aumento del tráfico y la saturación de la red.
Para darle mayor consistencia y flexibilidad a la búsqueda de información basada en metadatos, se han desarrollado en Internet diferentes modelos o formatos de metainformación.
Formatos para la implementación de metadatos
Actualmente, existe en Internet una gran proliferación de formatos de metadatos para la descripción y gestión de recursos en la red, muchos de los cuales se concibieron en sus inicios, en el ámbito de comunidades especializadas y sectores del mercado, con el propósito de cubrir las necesidades específicas que requerían el tratamiento de la información en su ámbito; esto originó una gran variedad de formatos especializados,8 con independencia que la mayoría de los formatos se concibieron para estructurar la información de una comunidad determinada; muchos de estos formatos se han adaptado para describir información con fines distintos a los se crearon, pero todos deben reunir las siguientes características considerarse como verdaderos formatos de metadatos:9
- Independientemente del área del conocimiento para la cual se utilicen, todos los formatos deben responder a las particularidades de los recursos de información de la red para facilitar su identificación y ulterior recuperación.
- Todos los esquemas tienen un número limitado de elementos, un nombre para cada elemento o etiqueta y un significado asociado a cada elemento.
- Todos contienen también, una semántica descriptiva con información relativa al contenido, ubicación, atributos físicos, tipo de documento, etcétera.
Por su parte, Gimeno Montoso, indica los requerimientos mínimos que debe presentar un formato para su uso en la descripción de objetos de información:2
- Que tenga algún grado de normalización: que emane de alguna institución reconocida, como las tradicionales ISO, NISO o, en el ámbito de Internet IETF.
- Que posea un software que permita su gestión y se apoyen en programas probados por otros proyectos similares, mucho mejor que lanzarnos a la costosa tarea, en tiempo y dinero, de desarrollar un software propio.
- Que se implemente por proyectos de características similares, para compartir experiencias y aprender de los errores.
- Que presente la posibilidad de conversión entre formatos presentes y futuros, debido al carácter cambiante de la descripción de los recursos en Internet.
Cuando se habla de modelos de metadatos, se habla no sólo de una semántica para la descripción de los recursos, sino también de una estructura de codificación o de una forma de almacenamiento. El lenguaje HTML permite que los atributos de la etiqueta <META> pueden soportan esquemas de metadatos concretos como es el caso del DC, mientras que el lenguaje XML, permite una descripción abierta y personalizable mediante el RDF (Resource description Framework) y de otras tecnologías relacionadas.
Los formatos en dependencia de su área de aplicación se dividen en:1
- Formatos de propósitos generales: modelos destinados a la descripción de documentos electrónicos sin consideración de la temática y su finalidad.
- Formatos de propósitos específicos: formatos que consideran la temática y finalidad de los recursos a describir, generalmente, se desarrollan por determinadas comunidades que requieren de diferentes tipos de elementos y complejidad en un formato, razón por la cual, los formatos de propósito general resultan inadecuados o insuficientes.
Entre los formatos mas utilizados en la red, pueden citarse al formato MARC, emblemático por su historia de más de cuarenta años en el mundo de la recuperación de información; TEI, Text Encoding Initiative, el proyecto para el etiquetado de texto; el RDF, el formato de metadatos en el nuevo contexto del XML y el Dublin Core, el formato más importante en el contexto de esta contribución y que se describirá a continuación.
Formato Dublin Core
Entre la gran variedad de formatos de metadatos existentes en Internet, el Dublin Core es el más citado y aceptado, descrito por la mayoría de los autores como uno de los más prometedores hasta el momento; es un formato producto de un esfuerzo internacional e interdisciplinario con una vida muy intensa y el más influyente en relación con el desarrollo de la teoría del uso de los metadatos para la recuperación de información en la red.
Creado en 1995 por iniciativas de las asociaciones de bibliotecarios americanos, y patrocinado por la OCLC (On Line Computer Library Center), tiene su origen en un círculo intelectual de Dublin, en el estado de Ohio en Estados Unidos. La primera reunión para tratar aspectos relacionados con el Dublin Core la convocó la OCLC y el NCSA (National Center for Supercomputing Applications); en ella participaron 52 investigadores expertos en el campo de la bibliotecología, ciencias de la computación, codificadores de textos y áreas afines, con el objetivo de impulsar el desarrollo de los registros descriptivos de recursos de información en línea.10
Muchas son las personalidades e instituciones que se han interesado y han participado en el desarrollo de este formato. Su progreso ha ocurrido aparejado al desarrollo del XML y del RDF; en octubre del 2001, se logró convertir el conjunto de elementos del vocabulario de Dublin (DCMES, Dublin Core Metadata Element Set) en un estándar formal, ANSI/NISO Z39.852001.1
El Dublin Core tiene como objetivo, definir un conjunto básico de atributos que sirvan para describir todos los recursos existentes en la red, se supone que este formato ayudara a los motores de búsqueda en la recuperación global de información en la red, este fin lo convierte en un formato de propósito general.
Para cumplir con su objetivo, el Dublin Core define un conjunto de quince elementos (tabla 1), que pueden modificarse y ampliarse debido a su flexibilidad, esto permite que los autores de las páginas Web puedan codificar sus documentos en el momento de generarlos.
Tabla 1. Elementos del formato Dublin Core
Elementos del DC | Descripción y uso |
DC-Title | El nombre dado al material, generalmente por el Creador o Editor. |
DC-Creator | La persona u organización principal que es responsable de la creación del contenido intelectual del material. Por ejemplo, los autores en el caso de los documentos escritos, los artistas, fotógrafos, o ilustradores en el caso de los materiales visuales. |
DC-Subject | El tema del material. Generalmente, las materias son expresadas a través de las palabras clave o frases que describen el tema o contenido del material. Se recomienda el empleo de vocabularios controlados y de esquemas (schemes) de clasificación formales. |
DC-Description | Una descripción textual del contenido del material, incluyendo resúmenes en el caso de documentos como objetos, o descripciones de contenido en el caso de materiales visuales. |
DC-Publischer | La entidad responsable de que el material esté disponible en su formato actual, tales como una casa editorial, un departamento universitario, o una entidad corporativa. |
DC-Contributor | Persona u organización que haya tenido una contribución intelectual significativa en la creación del documento, (ejemplo, editor, traductor, ilustrador, etc.) |
DC-Date | Una fecha asociada con la creación o disponibilidad del material. Tal fecha no debe confundirse con la correspondiente al elemento Cobertura, el cual debe de estar asociado con el material solo en los casos que el contenido intelectual se refiera a esa fecha. Para determinar la fecha de publicación o de disposición al público se utiliza el formato del Consorcio Web, Data and Time Format (W3CDTF) <http://www.w3.org/TR/NOTE-datetime> |
DC-Type | La clase del material, tales como: homepage, novela, poema, documento de trabajo, reporte técnico, ensayo, diccionario. |
Elementos del DC | Descripción y uso |
DC-Identifier | Una cadena de signos o números empleados para identificar el material de manera unívoca. Los ejemplos para los materiales existentes en red incluyen los URLs y los URNs (cuando han sido incorporados). |
DC- Sourse | Información acerca de algún material secundario del cual se deriva el material principal. Puesto que generalmente sólo son recomendados aquellos elementos que contienen información acerca del material principal, este elemento podrá contener la fecha, creador, formato, identificador u otros metadatos del material secundario considerados importantes para la identificación del material principal. |
DC-Languaje | El idioma del contenido intelectual del material. El contenido de este campo debería coincidir con la norma ISO 639 (RFC 1766) |
DC-Relation | Un identificador de un material secundario y su relación con el material principal. Este elemento permite vínculos entre materiales relacionados y las descripciones del material deben de ser indicadas. Los ejemplos incluyen la edición de un trabajo (IsVersionOf), la traducción de un trabajo (IsBasedOn), el capítulo de un libro (IsPartOf) y una transformación mecánica de una serie de datos en imagen (IsFormatOf). |
Dc-Format | Formato de datos de un documento, usado para identificar el software y, posiblemente también el hardware que se necesita para mostrarlo |
Elementos del DC | Descripción y uso |
DC-Coverage | Las características espaciales o temporales del contenido intelectual del material. La cobertura espacial se refiere a una región física (por ejemplo, sector celeste); uso de coordenadas (por ejemplo, longitud y latitud), o nombres de lugares que provienen de una lista controlada o escritos en su forma completa. La cobertura temporal se refiere a lo que trata el material, a diferencia de cuando fue creado o puesto a disponibilidad (esto último pertenece al elemento Fecha). Aunque usa el mismo formato ISO 8601/W3CDTF. |
DC-Right | Referencia sobre derecho de autor (por ej. URL), bien a un servicio de gestión de derecho o a un servicio que dará información sobre los términos y condiciones de acceso a un recurso electrónico. |
Elementos del formato Dublin Core
El total de 15 elementos que conforma el formato DC pueden clasificarse en tres grupos que indican la clase o el ámbito de la información que se guarda en ellos: (Donos, 1998; Méndez, 2002; San Segundo, 1998)
- Elementos relacionados principalmente con el contenido del recurso: titulo, tema, descripción, fuente, lenguaje, relación y cobertura.
- Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual: autor, editor, otras colaboraciones y derechos.
- Elementos relacionados principalmente con la temporalidad y formato del documento así como su identificación: fecha, tipo de recurso, formato, identificador del recurso.
El desarrollo y evolución que ha alcanzado el formato Dublin Core se debe al arduo y constante trabajo desarrollado por los diferentes grupos de trabajos vinculados a este formato en los diferentes talleres, seminarios y otras reuniones realizadas en función de lograr un estándar cuyas características garanticen la interoperabilidad en la recuperación e intercambio de información en la red.
Características del Dublin Core
Entre las principales características de este formato pueden citarse:
- Alcance internacional: con i ndependencia de que el formato Dublín Core tiene un origen netamente anglosajón se ha traducido a más de 20 idiomas, esto es posible como resultado de la participación en el proyecto de representantes de prácticamente todos los continentes, que ha garantizado que el formato considere la naturaleza multilingüe y multicultural del universo de la información que alberga hoy Internet. Se puede hablar de un consenso internacional en número y definición de los elementos que integran el formato.
- Simplicidad y flexibilidad: el Dublín Core es un simple, pero eficaz conjunto de elementos descriptivos, pensado, desde su inicio, para su uso, tanto por profesionales como por cualquier autor que desee describir su recurso con el objetivo de hacerla más visible. Todos los elementos del formato son opcionales y repetibles, lo que permite a cada autor poder escoger los elementos del formatos que considere necesarios en correspondencia con las necesidades descriptivas de sus recursos de información. La disposición de los elementos puede tener cualquier orden.
La complejidad en la semántica y la estructura de los diferentes formatos de metadatos que se emplean actualmente en Internet dificultan la comprensión y el intercambio de información entre las diferentes comunidades. El Dublín Core propone un conjunto de elementos común, cuya semántica es sencilla, universalmente entendida y soportada. La mayoría de los quince elementos del formato tienen una semántica que puede describirse como equivalente a un registro de catalogo de una biblioteca tradicional.
- Interoperabilidad semántica, diferentes comunidades -bibliotecas, museos, universidades, etc., que conviven en Internet, utilizan diferentes normas para la descripción de los recursos, éstas responden a diferentes necesidades y evolucionan de manera independiente. Sin embargo, la mayoría de los recursos comparten elementos comunes, aún con nombres diferentes, en dependencia de cada comunidad. El Dublin Core intenta promover un conjunto de descriptores comprensibles a todas las disciplinas y favorece de este modo, la búsqueda interdisciplinaria. Está orientado a la interoperabilidad semántica entre las diferentes comunidades que conviven en Internet.
- Uso de términos de matización de los elementos y esquemas de codificación: los términos de refinamiento tienen como objetivo que el significado de un elemento sea más específico, más estrecho, en ningún caso se utilizan para extender dicho significado y comparten el significado del elemento. Por ejemplo, el término de refinamiento abstract' esta asociado al elemento description' e indica que el valor del elemento es un resumen del recurso en cuestión.
Los esquemas de codificación contextualizan los valores de los elementos, especifican un contexto para la interpretación de un elemento específico, su objetivo es referenciar a un esquema externo, definido como un estándar a incorporar y sólo por medio del cual se puede entender el valor del elemento. Los cualificadores esquemas permiten a los autores proporcionar un contexto para la interpretación correcta de los metadatos. Un ejemplo de esquema de codificación, asociado al elemento date' es el W3C-DTF', que define las reglas de codificación W3C para fechas y horas y se basa en el formato ISO 8601'. Este esquema de codificación define que la fecha debe escribirse de acuerdo al siguiente formato: yyyy-mm-dd, o sea, año (las 4 cifras), mes (dos cifras) y día (dos cifras), si no se especifica este esquema, una fecha como 2005-11-12, puede interpretarse lo mismo como 11 de diciembre del 2005 que como 12 de noviembre del 2005. El cualificador esquema W3C-DTF' elimina esta ambigüedad.
- Extensibilidad: los creadores del formato Dublin Core han creado mecanismos que permiten ampliar el conjunto de sus elementos, y esto permite que las diferentes comunidades que utilizan o desean utilizar el formato puedan formular y fundamentar propuestas de agregación de modificaciones y nuevos elementos al formato, según una necesidad descriptiva concreta.
Presenta gran importancia también, la creación de perfiles de aplicación, que consisten en tomar elementos de datos de uno o más formatos de metadatos y adaptarlos a una aplicación local determinada. Esto permite que diferentes comunidades puedan utilizar en sus perfiles de aplicación elementos de sus formatos, mezclados con elementos del formato Dublín Core y viceversa.
Principios del formato Dublín Core
Entre los principios más importantes para una correcta comprensión sobre cómo deben relacionarse los metadatos del Dublín Core con los recursos que describen, pueden establecerse los siguientes:11
Principio de simplificación
Este principio considera la posibilidad de convertir fácilmente el Dublín Core cualificado en simple y por tanto, cualquier cliente puede ignorar cualquier cualificador del formato Dublín Core que no entienda y utilizar el valor del elemento sin el cualificador, es decir, como si estuviese sin cualificar, esto aunque menos específico puede servir para la localización y recuperación de la información en Internet. Por tanto, los cualificadores se utilizan sólo para matizar y nunca para extender el alcance semántico de un elemento.
Principio uno a uno (One-to-One Principle)
El principio uno a uno define que a cada manifestación o versión de un recurso corresponde una descripción con metadatos, es decir, una manifestación de un recurso no sustituye a la otra y, por tanto, cada una lleva su descripción, por ejemplo: no se puede describir la traducción de un documento determinado, como si fuese el original, porque, aun cuando tengan mucho en común, son recursos diferentes, que involucran en su descripción, diferentes tipos de elementos de metadatos, por ejemplo: el idioma, la traducción tendría el traductor como colaborador o contribuidor e involucraría también otro tipo de metadato que la relacione con el original.
Principio de valores apropiados
La forma más correcta o la mejor práctica para la codificación de un elemento o cualificador en particular, puede variar con el contexto, pero normalmente quien implementa no puede siempre predecir quien va a interpretar los metadatos, si una máquina o una persona y, por tanto, los valores que se utilicen deben adecuarse para ambos; esto puede imponer ciertas limitaciones en la forma de construir los metadatos, pero ellos deben continuar siendo útiles y cumplir con su objetivo de localización y recuperación de información.
Dublin Core y HTML
Aunque el estándar Dublin Core, al igual que otros formatos de metadatos en Internet, no prescribe ningún tipo de relación particular entre los metadatos y el recurso que describe, y permite que sean los autores de los recursos los que establezcan como vincular las descripciones con los recursos, la forma más común de vincular los metadatos con el documento que describen es por medio de la etiqueta <META> en la cabecera de la página, es decir, los metadatos se insertan o incrustan en la cabecera (head) del documento, exactamente después del título, como se muestra a continuación:
<html>
<head>
<title>Untitled Document</title>
< meta http-equiv="Content-Type" content="text/html; charset=iso-88591">
</head>
<body bgcolor="#FFFFFF" text="#000000">
</body>
</html>
La sintaxis de Dublin Core para HTML se representa de la forma siguiente:
<META NAME="DC.Title "CONTENT="
<META NAME="DC.Creatorr"CONTENT="
<META NAME="DC.Subject"CONTENT="
<META NAME="DC.Description"CONTENT="
<META NAME="DC.Publisher"CONTENT="
<META NAME="DC.Contributor"CONTENT="
<META NAME="DC.Date"CONTENT="
<META NAME="DC.Coverage"CONTENT="
<META NAME="DC.Format"CONTENT="
<META NAME="DC.Identifier"CONTENT="
<META NAME="DC.Fuente"CONTENT="
<META NAME="DC.Language"CONTENT="
<META NAME="DC. type"CONTENT="
<META NAME="DC.Relation"CONTENT="
<META NAME="DC.Rights"CONTENT=
La sintaxis anterior muestra que cada uno de los elementos del núcleo de Dublin se codifican con la etiqueta META e incluyen dos atributos: NAME Y CONTENT
<META NAME = "DC. NombreElemento " CONTENT = " VALOR ">
donde, NombreElemento y Valor se sustituirían respectivamente por uno de los 15 elementos del formato Dublin Core y su valor. Por ejemplo:
<META NAME = "DC. Creator " CONTENT = " Empresa de Tecnologías de la Información y Servicios Telemáticos Avanzados ">
La sigla DC , corresponde a la identificación del formato que se utiliza para la descripción:
DC = Dublin Core
El atributo CONTENT se usa para describir el valor del elemento.
Cada uno de los elementos del formato puede ser repetible como se muestra a continuación:
<META NAME="DC.Creator" CONTENT=" Fernández, José ">
<META NAME="DC.Creator" CONTENT=" Pascual, Ricardo ">
Independientemente, también es válido utilizar un solo atributo NAME y dentro del atributo CONTENT, separar cada uno de los elementos con un punto y coma.
Ejemplo
<META NAME="DC.Creator" CONTENT=" Fernández, José; Pascual, Ricardo ">
DC simple y DC cualificado
El formato Dublín Core tiene dos niveles de codificación: simple y cualificado, el Dublín Core simple emplea sólo los 15 elementos originales que forman parte del formato y que se describieron anteriormente; el cualificado además de los 15 elementos del Dublín Core simple, tiene un elemento adicional: audience, un conjunto limitado de términos de refinamiento y esquemas de codificación de los elementos (tablas 2 y 3). Para que un registro de metadatos Dublín Core se considere cualificado, debe incluir todos o, al menos, uno de los elementos anteriores.
El conjunto completo de cualificadores y de términos de matización de los elementos del DC (DCMI Metadata Terms) puede consultarse en la siguiente dirección: http://es.dublincore.org/documents/dcmi-terms/
Tabla 2. Algunos elementos del Dublín Core con sus términos de refinamientos.
Elementos del Dublín Core | Términos de refinamiento | Descripción de los términos de refinamiento |
DC.tiltle | alternative | Otra forma del título utilizada como un subtítulo o alternativa al título formal del recurso. |
DC.description | abstract | Un resumen del contenido del recurso. |
tableOfContens | La tabla de contenido del recurso. | |
DC.date | available | Fecha (a menudo un rango) en la que el recurso comenzará o estará disponible. |
created | Fecha de creación del recurso. | |
DC.coverage | spatial | La cobertura espacial se refiere a una región física, uso de coordenadas o nombre de lugares proveniente de una lista controlada. |
temporal | La cobertura temporal se refiere a lo que trata el material (rango de tiempo abordado) |
Tabla 3. Algunos elementos del DC con sus esquemas de codificación.
Elementos del Dublín Core | Esquemas de codificación | Descripción del esquema de codificación |
DC.date | W3CDTF | Este esquema define las reglas de codificación del W3C para fechas y horas y se basa en el formato ISO 8601' |
DC.type | DCMIType | Vocabulario definido y utilizado por la Iniciativa de Metadatos Dublín Core (DCMI) para codificar el elemento DC.type (naturaleza o género del contenido de un recurso). |
DC.subject | DDC | Clasificación Decimal de Dewey (Dewey Decimal Classification) |
LCC | Clasificación de la Biblioteca del Congreso (Library of Congress Classification) | |
LCSH | Encabezamientos de materias de la Biblioteca del Congreso (Library of Congress Subject Headings) | |
DC.format | IMT | Los tipos de medios en Internet del recurso. Un conjunto de términos que describen los tipos de recursos en Internet. |
Como se explicó anteriormente al formato Dublin Core, se ha adicionado un nuevo elemento, es decir, un elemento que no formaba parte de los 15 originales: audience. Este elemento se codifica como los anteriores, sólo que en lugar de utilizar el prefijo DC', se utiliza el prefijo DCTERMS', como se muestra a continuación:12
<meta name=DCTERMS.audience content=cadena de valor />
<meta name=DCTERMS.audience content=Científicos y profesionales en
general />
Los términos de refinamiento o matización, se codifican siguiendo el mismo patrón que el elemento audience':
<meta name="DCTERMS.elemento de refinamiento" content="cadena de
valor" />
Por ejemplo:
<meta name="DCTERMS.created" content=2005-01-15 />
El elemento de refinamiento created' se asocia al elemento date' e indica que el recurso de información se creó en la fecha indicada. Asociados al elemento date' están, también los elementos de refinamientos: valid (valido), available (disponible), issued (editado) y modified (modificado).
Esquemas de codificación del formato DC
Los esquemas de codificación se codifican con el atributo scheme' del elemento <meta> de HTML, como se muestra a continuación:
<meta name="DC.element" scheme="DCTERMS.Scheme" content="cadena de valor" />
Ejemplos:
<meta name="DC.format" scheme="DCTERMS. IMT content="Text/html" />
< meta name="DCTERMS.created" scheme="DCTERMS.W3C-DTF" content="2006-01-20" />
< meta name="DCTERMS.type" scheme="DCTERMS.DCMIType" content="Text
Para codificar el elemento DC.type, la Iniciativa de Metadatos Dublin Core tiene su propio vocabulario que puede consultarse en:
http://dublincore.org/documents/dcmi-type-vocabulary/
Para concluir, se expone a continuación la codificación en Dublín Core simple y Dublín Core cualificado del Portal Cuba.cu:
DC simple
<meta name=DC.title content=Portal Cuba.cu />
<meta name=DC.creator content=Empresa de Tecnología de la Información y Servicios Telemáticos Avanzados, CITMATEL />
< meta name="DC.date" content="2000-01-05" />
<meta name="DC.description" content= "El Portal Cuba.cu recoge información general sobre nuestro país, organizada por categorías que agrupan las más importantes temáticas de interés para quienes lo visiten. Ofrece diversos y útiles servicios que abarcan una amplia gama de posibilidades de recuperación de información sobre Cuba y los cubanos, con un alto valor agregado. />
<meta name="DC.subject" content= Cuba, Información de Cuba, Arte, Humanidades, Ciencia, Tecnología, Deportes, Economía, Negocios, Educación, Eventos, Medios de comunicación, Política, Gobierno, Salud y Medicina, Turismo, Bazar Cuba, Cocina cubana, Consultas médicas, Cuba-NIC, NIC, Cursos en línea, Efemérides, Tiempo, Clima, Pronóstico del tiempo, Libros cubanos, Autores cubanos, Páginas amarillas, Páginas blancas, Sitios cubanos, Cuba.cu, Portal Cuba, CITMATEL, Postales />
<meta name="DC.type" content="Página Web" />
<meta name="DC.language" content ="es" />
<meta name="DC.identifier" content ="http://www.cuba.cu" />
DC cualificado
<meta name=DC.title content=Portal Cuba.cu />
<meta name=DC.creator content=Empresa de Tecnología de la Información y Servicios Telemáticos Avanzados, CITMATEL />
< meta name="DCTERMS.created" scheme="DCTERMS.W3C-DTF" content="2000-01-05" />
<meta name="DC.description" content= "El Portal Cuba.cu recoge información general sobre nuestro país, organizada por categorías que agrupan las más importantes temáticas de interés para quienes lo visiten. Ofrece diversos y útiles servicios que abarcan una amplia gama de posibilidades de recuperación de información sobre Cuba y los cubanos, con un alto valor agregado. />
<meta name="DC.subject" content= Cuba, Información de Cuba, Arte, Humanidades, Ciencia, Tecnología, Deportes, Economía, Negocios, Educación, Eventos, Medios de comunicación, Política, Gobierno, Salud y Medicina, Turismo, Bazar Cuba, Cocina cubana, Consultas médicas, Cuba-NIC, NIC, Cursos en línea, Efemérides, Tiempo, Clima, Pronóstico del tiempo, Libros cubanos, Autores cubanos, Páginas amarillas, Páginas blancas, Sitios cubanos, Cuba.cu, Portal Cuba, CITMATEL Postales />
<meta name=DCTERMS.audience content=Científicos, profesionales y técnicos en general />
<meta name="DC.format" scheme="DCTERMS.IMT" content="Text/html" />
<meta name="DC.type" scheme="DCTERMS.DCMIType" content="Text" />
<meta name="DC.language" SCHEME= "ISO639-2" content ="Spa" />
<meta name="DC.identifier" scheme="DCTERMS.URI" content ="http://www.cuba.cu" />
Referencias bibliográficas
1. Méndez Rodríguez EM. Metadatos y recuperación de información: estándares, problemas y aplicabilidad en bibliotecas digitales. Gijón: Trea; 2002.
2. Gimeno Montoro JM, Barrueco Cruz JM, García Testal C. 1998. Catalogación de recursos electrónicos accesibles en Internet: revisión de propuestas para una normativa. 1998. Disponible en: http://fesabid98.floridauni.es/Comunicaciones/mj_gimeno.htm [Consultado: 10 de enero del 2006].
3. Rodríguez Gairín J. M. Valoración del impacto de la información en Internet. Altavista, el Science Citation Index de la red. Revista Española de Documentación Científica 1997;20(2):175-181. Disponible en: http://bd.ub.es/pub/rzgairin/altavis.htm [Consultado: 8 de enero del 2006].
4. Koch T. Documentation to: metadata Indexing and searching in large search. 1998. Disponible en: http://www.lub.lu.se/~traugott/Mdsearch-docu.html [Consultado: 15 de enero del 2006].
5. Medeiros N. XML and the Resourse Description Framework: The Great Web Home. 2000. Disponible en: http://www.onlineinc.com/onlinemag/OL2000/medeiros9.html [Consultado: 16 de enero del 2006].
6. Mettrop W. Internet Search Engines: Fluctuation in Document Accessibility, Journal of Documentation 2001;57(5):623-651.
7. Desai B. Supporting Discovery in Virtual Libraries. JASIS 1997;48(3):190-204.
8. García Martínez AM. Definición y estilo de los objetos de información digitales y metadatos para la descripción', Boletín de la Asociación Andaluza de Bibliotecarios 2001;(63):23-47. Disponible en: http://www.aab.es/51n63a2.pdf [Consultado: 13 de enero del 2006].
9. Taylor C. An Introduction to Metadata. 1999. Disponible en: http://www.library.uq.edu.au/iad/ctmeta4.html [Consultado: 19 de enero del 2006].
10. San Segundo MR. 1998. Organización del conocimiento en Internet: metadatos bibliotecarios DUBLIN CORE'. Disponible en: http://fesabid98.florida-uni.es/Comunicaciones/r_sansegundo.htm [Consultado: 14 de enero del 2006].
11. Hillmann DI. Tutorial Semántica básica. DC-2005. Madrid: s.e; 2005.
12. Powell A. Tutorial sobre sintaxis básica Codificando DC en HTML, XML y RDF. DC-2005. Madrid: s.e; 2005.
Recibido: 8 de octubre del 2006. Aprobado: 21 de octubre del 2006.
MsC. Isabel Daudinot Founier. Empresa de Tecnologías de la Información y Servicios Telemáticos Avanzados. Ave. 47 e/ 18ª y 20, Miramar, Playa. Ciudad de La Habana. Cuba. Correo electrónico: isabel@citmatel.inf.cu
Ficha de procesamiento
Términos sugeridos para la indización
Según DeCS1
INTERNET; ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN.
INTERNET; INFORMATION STORAGE AND RETRIEVAL.
Según DeCI2
INTERNET; WWW; RECUPERACIÓN DE LA INFORMACIÓN; METADATOS; TECNOLOGÍA DE LA INFORMACIÓN.
INTERNET; WWW; INFORMATION RETRIEVAL; METADATA; INFORMATION TECHNOLOGY.
1BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004.
Disponible en: http://decs.bvs.br/E/homepagee.htm
2Díaz del Campo S. Propuesta de términos para la indización en Ciencias de la Información. Descriptores en Ciencias de la Información (DeCI). Disponible en: http://cis.sld.cu/E/tesauro.pdf
1Máster en Ciencia de la Información y Bibliotecología. Empresa de Tecnologías de la Información y Servicios Telemáticos Avanzados.