Introducción
Para cualquier institución de educación superior, el tratamiento de los datos y la información es sin lugar alguna de extraordinaria importancia; jugando un papel determinante en el desarrollo de los procesos docente-educativo e investigativo de las universidades. Por lo que es necesario realizar de forma previa el procesamiento de los documentos y la información de las colecciones bibliográficas, para satisfacer las demandas informativas en aras de generalizar el conocimiento científico de los usuarios. Realizando la indización como proceso fundamental dentro de la Actividad Científica Informativa.
La operación de indizar consiste, en el análisis e identificación de los conceptos del documento y la selección de aquellas nociones que representen con mayor fidelidad la información que contiene. Para normalizar la denominación de dichos conceptos se procede a su traducción a un lenguaje documental, lo cual facilita la recuperación, independientemente del analista que trate el documento (Cañedo Andalia y Small Chapman, 2011).
En la búsqueda de información, el éxito o el fracaso del resultado obtenido dependerán, en gran medida, del correcto proceso de indización que se haga. En este sentido los documentos que componen cualquier unidad significativa de información almacenada, deben ser analizados de manera tal de que sea posible su recuperación.
Para que la información pueda ser recuperada, según las necesidades informativas de los usuarios de forma efectiva y exhaustiva es necesario el uso de herramientas terminológicas que permiten un mejor control del lenguaje documental siendo de gran importancia la utilidad de los tesauros.
¿Qué son los tesauros?
Son vocabularios controlados, de estructura combinatoria, definidos a priori, es decir, fijados con anterioridad, compuestos por términos que reflejan conceptos que se relacionan entre sí semántica, jerárquica y asociativamente (Soler Monreal 2009).
Estos tienen como finalidad el control de sinónimos, y se utilizan para describir de manera unívoca, traduciendo del lenguaje natural al documental, el contenido de los documentos, para su posterior recuperación en un sistema documental dado, con el fin de satisfacer las necesidades de información (Soler Monreal 2009).
En los últimos años los Repositorios Institucionales (RI) han ganado en importancia en la sociedad académica y científica, pues representan una fuente de información digital especializada, organizada y accesible para los lectores de diversas áreas. Los RI son sistemas informáticos dedicados a gestionar los trabajos científicos y académicos de diversas instituciones de forma libre y gratuita, es decir, siguiendo las premisas del movimiento Open Access (OA).
Actualmente en Cuba, se trabaja por el desarrollo e implementación de los Repositorios Institucionales. En particular, los Centros de Educación Superior (CES) basados en la “Política para el desarrollo del Sistema de Repositorios Digitales en la Red de Bibliotecas Universitarias del Ministerio de Educación Superior” muestran acciones dirigidas hacia estos objetivos.
Así como, todos los CES deben tener un Repositorio Institucional con el objetivo de convertir los conocimientos científicos en instrumentos a disposición del avance y el desarrollo a nivel nacional e internacional, y cobra utilidad establecer modelos de indización como instrumentos léxicos que permitan tanto a usuarios como a profesionales de la información organizar y acceder de manera rápida y precisa al conocimiento científico que en ellos se almacena. Es de esperar, por lo tanto, que se implementen herramientas que permitan la más eficaz y eficiente recuperación de información, en los RI. Estos sistemas deben contemplar el uso de vocabularios controlados para normalizar la información de los recursos, mejorando aspectos como la carga de metadatos, la interoperabilidad entre sistemas y la búsqueda y difusión de contenido. (Bernal, 2016)
El uso de los vocabularios controlados en los RI favorece múltiples procesos ya que define un conjunto limitado de términos para referirse a un único concepto de manera consistente unificando los términos o puntos de acceso de un índice de materias.
Con la apertura del Repositorio Institucional Nínive de la Universidad de Moa Dr. Antonio Núñez Jiménez y el inicio del procesamiento de grandes volúmenes de información digital en el dominio temático de la Ciencia de los Materiales, se generaba un índice de materias muy amplio, e inconsistente lo que dificultaba la uniformidad en los metadatos de materia y el retardo en la búsqueda y recuperación de la información más precisa y efectiva, dado entre las razones más importantes, a la no disponibilidad de un tesauro o vocabulario controlado que se ajustara en lo fundamental a las expresiones de búsqueda y terminología utilizada en la literatura por parte de la comunidad científica del Repositorio Institucional Nínive en dicha área temática.
Sobre la base de estas dificultades, se identificó como solución favorable, la construcción de un tesauro especializado en el dominio temático de la Ciencia de los Materiales, para ser utilizado en el análisis de contenido de los documentos que forman parte de la colección digital de este dominio y así facilitar el proceso de indización, normalización, búsqueda y recuperación de la información.
Desarrollo
Se utilizó el materialismo dialéctico e histórico como método general de investigación para analizar los fenómenos históricos y sociales que dieron lugar al lenguaje documental. Se explicaron los conceptos, métodos y herramientas que posibilitaron el desarrollo del vocabulario a partir del avance tecnológico facilitando el proceso de búsqueda debido al cúmulo de recursos informativos. Se utilizaron métodos teóricos y empíricos.
Para el desarrollo del trabajo se contempló el dominio temático aplicable en la Ciencia de los Materiales, teniendo en cuenta que este es un campo multidisciplinario que maneja diferentes disciplinas, y los aplica en varias áreas de la ciencia y la ingeniería todas ellas de larga tradición como la: Metalurgia, Física y Química, entre otras, donde esta concurrencia ha originado tensiones entre conceptos y terminología.
La investigación es de tipo aplicada, debido a que se dirige hacia la construcción de un producto terminológico que brinda una solución para la indización y recuperación de la información disponible en el Repositorio Institucional.
El estudio se realizó bajo la perspectiva mixta, que permitió cuantificar los datos recopilados, bajo las inferencias cualitativas. La información para la interpretación de los datos se realizó a través de la entrevista realizada para conocer el criterio de investigadores y expertos en el campo de la Ciencia de los Materiales específicamente en los ejes temáticos de la Mecánica, Eléctrica, Química y Metalurgia para validar el núcleo del vocabulario y la observación participante. Permitiendo realizar una investigación descriptiva.
La población objeto de estudio de esta investigación son todos los documentos de la colección de la Facultad Metalurgia y Electromecánica y los usuarios que investigan, estudian, leen o trabajan en temas afines con la Ciencia de los Materiales y que hacen uso del Repositorio.
Etapas seguidas para el diseño y construcción del tesauro.
Primera Fase
Se realizó el estudio teórico y metodológico acerca del tema en cuestión, así como se realizaron amplias búsquedas bibliográficas sobre la construcción de algunos tesauros, estructura, formato y software utilizados. En este caso como guía y ejemplo para esta investigación se utilizaron varios documentos (Anexo 1).
Al finalizar este paso quedó decidido:
Se realizó el procedimiento mixto ya que se emplearon aspectos del método de comité y el método empírico o como también se le conoce de abajo a arriba.
El método de comité fue aplicado a partir de la creación de un grupo de trabajo de especialistas en las distintas materias que alcanzó el tesauro.
El método empírico o de abajo a arriba fue aplicado con el uso de la terminología de base generada en la propia práctica del proceso de indización de los documentos que forman la colección de la Facultad de Metalurgia y Electromecánica y teniendo en cuenta además el comportamiento de los usuarios de esta facultad al formular sus solicitudes de información en el Centro de Información de la institución.
Es un tesauro especializado en el dominio temático de la Ciencia de los Materiales. Dividido a su vez en cuatro microtesauros de las áreas de la mecánica, metalurgia, eléctrica y tecnología ambiental.
Se presenta un tesauro de tipo institucional, ya que se construyó a partir de la indización realizada a la colección documental generada en la Universidad de Moa Dr. Antonio Núñez Jiménez para ser aplicado al Repositorio Institucional Nínive.
Se considera un tesauro de tipo jerárquico, ya que parte de una esquematización que muestra las relaciones jerárquicas entre los términos, desde el término genérico hasta los específicos.
El tesauro tiene presentación alfabética y sistemática.
Para recopilar las unidades léxicas se trabajó con un total de:
921 documentos pertenecientes a la Facultad de Metalurgia-Electromecánica.
Desglosados en: 897 tesis y 24 artículos.
De estos documentos se tomaron las palabras claves tal y como fueron asignadas durante el proceso de indización, las cuales después fueron objeto de intervención semántica y lingüística. Estas palabras claves se gestionaron a partir de un documento en Word para su posterior revisión y análisis por parte de los especialistas (Anexo 2).
Para la construcción del tesauro se utilizó un software libre, en este caso fue el software TemaTres.
Determinar los subcampos de conocimientos que abarcó el tesauro a partir de la temática general.
Para determinar las principales temáticas del tesauro y los términos específicos de cada una de ellas se utilizó la Clasificación Decimal Dewey, en su parte de las ingenierías y temas afines basada en la 18 ed. con adiciones de la 19, del 1980 en su versión impresa y en su versión digital de la edición 20 de 1995. Esta herramienta es la utilizada en Cuba por el Sistema de Bibliotecas Universitarias y otros sistemas de información. Se utilizó el Rubricador del Sistema Nacional de Información Científica y Técnica (repertorio de la Academia de Ciencias de Cuba), el criterio de los especialistas del dominio temático y el criterio de las especialistas del Centro de Información que realizan el proceso de indización.
Los campos léxicos del tesauro quedaron definidos de la siguiente manera:
TG Ingeniería mecánica
Ciencia de los materiales
Máquinas, piezas y herramientas
Mecánica de los gases
Mecánica aplicada
Mecánica automotriz
Mecánica de fluidos
Mecanizado de materiales
Resistencia de materiales
Sistemas de propulsión
Termodinámica
TG Ingeniería metalúrgica y química
Beneficio de las menas
Electroquímica aplicada
Elementos químicos
Industria metalúrgica
Materiales cementicios suplementarios
Metalurgia, física y química
Procesos químicos
Propiedades mecánicas
Química analítica
Química industrial
Reacciones y síntesis químicas
Técnicas de análisis
TG Tecnología ambiental
Aguas residuales
Biodigestores
Biogás
Biomasa
Reciclaje
Ruido
Seguridad industrial
Tecnologías limpias
Tratamiento de aguas residuales
Tratamiento del agua
c). Determinar la cobertura conceptual.
Para la construcción del tesauro se realizaron búsquedas en el Repositorio Institucional Nínive por las diferentes comunidades que representa el tesauro y se fueron extrayendo todas las palabras claves conformadas en el índice de materia. Se tuvo en cuenta no sólo la existencia de las palabras claves utilizadas, sino la posibilidad además de que estas aparecieran como descriptor en algunas de las herramientas léxicas utilizadas, el cual se tomaría directamente de éste, si se considerara conveniente hacerlo.
Para la selección de las palabras claves se decidió tomar como criterios fundamentales:
Escoger solo aquellas palabras que pertenecieran al campo de la Ciencia de los Materiales.
Y las que fueran conceptos específicos aplicados a casos muy particulares de investigación, descartando aquellos términos que pertenecen a la terminología de otras disciplinas.
Es necesario destacar que en esta investigación se incluyeron algunos términos de materia llamados identificadores, nombres propios o descriptores auxiliares, por ser muy utilizados en las búsquedas de información solicitadas por los usuarios de este campo disciplinario en la institución. Se pueden citar en este caso nombres propios de métodos, transportes, equipos y técnicas.
Finalmente se conformó un documento Word en el cual se tabularon todas las palabras clave capturadas, con el fin de ser delegadas a los diferentes especialistas que se encargarían de su análisis y revisión.
Herramientas bibliotecológicas utilizadas para la construcción del tesauro.
Para la construcción del tesauro se utilizaron varios documentos rectores de la bibliotecología (Anexo 3).
Herramientas léxicas utilizadas para validar los términos.
Para la confección del tesauro se tuvo en cuenta obras de referencias especializadas tales como glosarios y diccionarios, entre otros recursos. Estos materiales ayudaron a precisar los términos y a esclarecer los significados de algunos de ellos para la redacción de las notas de alcance (Ver Anexo #4).
Lineamientos y reglas establecidas para presentar los términos.
Forma del término
Número del término
Utilizar el singular para términos que expresen conceptos que no puedan contarse por unidades.
Utilizar el plural para términos que expresan conceptos que puedan contarse por unidades (Anexo 5).
Forma de entrada
Se evitará la utilización de signos de puntuación, y abreviaturas.
En el proceso de indización se trabajará con el resumen de los documentos, en el caso que así lo requiera se utilizará el documento completo.
Se trabajará con un vocabulario específico, siempre y cuando los términos a utilizar se manejen con bastante frecuencia y la práctica lo demuestre imprescindible.
Los descriptores se presentarán utilizando la mayúscula inicial.
Los términos no autorizados se pondrán en letra cursiva.
El tesauro aceptará el uso de calificadores, para aclarar el alcance de los términos, solo se permite el uso de corchetes al final del término como forma aclaratoria.
Se utilizará el guion solo en nombres oficiales, nombres propios o fórmulas químicas que contienen como parte integrante del término el guion.
Segunda Fase
Las palabras claves capturadas se sometieron a un proceso de revisión por parte de un grupo de especialistas (Anexo 6).
A este grupo de trabajo se le solicitó colaboración para revisar la terminología de base utilizada, para precisar los términos, crear las relaciones entre ellos y emitir criterios y sugerencias.
Se utilizó además el criterio de las especialistas que realizan el proceso de la indización, para conocer la utilidad de los términos desde el punto de vista de la indización, la recuperación de la información y los intereses informativos de la comunidad usuaria del tesauro.
A partir de este análisis surgieron nuevos términos y otros se modificaron o eliminaron.
Tercera Fase
Elaboración de artículos léxicos. a.1)
En este paso se crearon todas las relaciones entre los términos: relaciones jerárquicas, de equivalencia, asociativas y se redactaron las notas de alcance convenientes. Para establecer las relaciones entre los términos fue necesario utilizar herramientas léxicas y el criterio de los expertos (Anexo7).
Las referencias señalan las relaciones de una unidad léxica con otras, y son el resultado de las operaciones siguientes:
Para eliminar la homonimia de las unidades léxicas, se asignan a estos calificadores los cuales son parte inseparable de la unidad léxica. Ejemplo:
Árboles [mecánica]
Cuando se hace necesario se redactan notas de alcance, (NA) las cuales no forman parte inseparable de la unidad léxica. Estas se usan para:
precisar el significado del término.
limitar el campo de aplicación.
destacar un significado determinado del término, si el término se emplea en diferentes disciplinas.
incluir fechas de inclusión y exclusión de los términos y registros de los cambios.
Ejemplo: Árboles [mecánica]
NA Elemento para transmisión del movimiento giratorio.
Selección de los descriptores.
Los criterios principales para seleccionar una unidad léxica como descriptor son:
a.3.2) En calidad de no descriptores se utilizan:
cualquier unidad léxica que integre la clase de sinonimia y que no es representativa de la misma.
la unidad léxica cuyo significado se representa en la búsqueda informativa como intersección de significado de otras unidades léxicas que funcionan como descriptores.
la unidad léxica cuyo significado es representado en la búsqueda informativa como la unión de significados de otras unidades léxicas incompatibles en un modelo de búsqueda.
Los artículos léxicos de los no descriptores deben de tener referencia a los descriptores que lo sustituyen. Por ejemplo:
En el tesauro se debe señalar la existencia de la relación jerárquica de los descriptores indicando las relaciones establecidas en la tabla 6.
Ejemplo:
a.3.5) La relación parte-todo se establece entre dos descriptores cuando el descriptor de nivel inferior es componente del objeto designado como descriptor del nivel superior.
a.3.6) Relaciones asociativas: Se permiten incluir en estas relaciones los términos capaces de asociar ideas y relaciones entre ellos.
Cuarta Fase
Automatización en la elaboración del tesauro.
Existen diversas herramientas para la gestión de tesauros, en la mayoría de los casos son fáciles de implementar y de usar, algunas de ellas son comerciales y otras son libres, pero a la hora de seleccionar alguna, es importante evaluar previamente cuál es la herramienta tecnológica que más se adapta a las necesidades, teniendo siempre presente lo que se busca o persigue con su explotación.
Para efectos del presente trabajo se empleó el software TemaTres, el cual es una aplicación Web libre para la gestión de lenguajes documentales.
Se encuentra orientado especialmente al desarrollo de tesauros jerárquicos, además puede utilizarse para desarrollar estructuras de navegación Web, o como complemento articular con un gestor de contenidos, bibliotecas digitales, o en una biblioteca tradicional para gestionar los lenguajes documentales en uso.
Su sitio oficial es http://www.vocabularyserver.com/index.html, desde donde se puede descargar el software.
La utilización de este software permite automatizar algunas etapas en la elaboración del tesauro. Por ejemplo:
b) Presentación del tesauro especializado en Ciencia de los Materiales.
Quinta fase
Una vez concluida la etapa de elaboración del tesauro, se puede difundir el tesauro como un producto terminológico:
Tesauro en línea: accesibles para usuarios en la Web con disponibilidad de consultarlo permite:
Publicar y descargar en varios formatos.
Uso directo en centros de documentación, bases de datos, páginas web y repositorios.
Tesauro en formato físico: los documentos y las impresiones en papel se pueden aprovechar con mayor facilidad, ya que se trata de un formato sobre el que cualquiera puede trabajar directamente sin necesidad de disponer de ningún tipo de medio concreto. Puede ser consultado sin necesidad de un aparato tecnológico para su reproducción. Los documentos e impresiones quedan a salvo de los peligros del mundo digital, una realidad que ha logrado dar un importante impulso al papel en plena era digital.
Tesauro de ciencias de los materiales. 1era versión
El Tesauro de Ciencia de los Materiales compila un total de 1603 términos, donde existen 2044 relaciones entre los términos y 120 términos equivalentes, en la edición de junio 2019. La creación del Tesauro se ha basado en los términos presentes en el Repositorio Institucional Nínive de la Universidad de Moa Dr. Antonio Núñez Jiménez, generados a partir del proceso de indización de la colección documental de la facultad de Metalurgia-Electromecánica.
El tesauro se encuentra en un período de gestación y desarrollo, por lo que su actualización y mantenimiento será responsabilidad de la biblioteca de la Universidad de Moa Dr. Antonio Núñez Jiménez.
Es un vocabulario monolingüe que se aplica a la indización y recuperación de la información almacenada.
Para la inclusión de nuevos términos se ha tomado en cuenta los procedimientos establecidos en la literatura especializada de las Ciencias de la Información y la temática abordada. Para la eliminación de términos se ha tenido en cuenta si la frecuencia de uso de los mismos es nula o poco frecuente. De igual manera se han analizado las relaciones jerárquicas, de equivalencia, asociativas y confección de notas de alcance.
Para la elaboración del tesauro se utilizó como herramienta bibliotecológica el Sistema de Clasificación Decimal Dewey y herramientas léxicas especializadas.
El tesauro está dirigido a estudiantes, profesores e investigadores de la comunidad universitaria de la Universidad de Moa Dr. Antonio Núñez Jiménez. Además de aquellas personas e instituciones interesadas en consultar dicha información. (ver figs. 1 a la 3)
Consideraciones finales
El tesauro es una herramienta necesaria para la normalización de los términos, siendo identificado como un instrumento de control terminológico que contribuye a la recuperación de la información de forma precisa y efectiva.
El tesauro de Ciencia de los Materiales es un lenguaje de indización que permite identificar los temas tratados en los documentos sobre este dominio temático en la Universidad de Moa, a su vez refleja las expresiones utilizadas por los autores en los documentos publicados y las expresiones de los usuarios en sus formulaciones de búsqueda de información.
Los métodos utilizados para la construcción del tesauro permitieron generar un tesauro en su primera versión con un total de 1603 términos normalizados y establecer lineamientos de indización.
El software utilizado para la generación del tesauro, posibilita desarrollar la estructura necesaria entre los términos para su implementación como herramienta de trabajo.
El tesauro propone a la comunidad científica de la Universidad de Moa que hace uso del repositorio, un conjunto estructurado de términos que unifican y enriquecen el núcleo de descriptores a utilizar para el procesamiento y la búsqueda y recuperación de la información.