SciELO - Scientific Electronic Library Online

 
vol.15 número2UDC- COVID 19: herramienta digital para predecir el retiro de la ventilación mecánica invasiva de pacientes con COVID-19Validez de las reglas de un análisis estadístico implicativo según juicio de expertos índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Revista Cubana de Informática Médica

versión On-line ISSN 1684-1859

RCIM vol.15 no.2 Ciudad de la Habana jul.-dic. 2023  Epub 01-Dic-2023

 

Artículo original

Pictobana: Una herramienta para la comunicación con niñosautistas

Pictobana: A tool for Communication with AutisticChildren

0000-0002-6128-8496Laritza González Marrero1  *  , 0000-0002-4231-5831Dargel Veloz Morales1  , 0000-0001-7143-7080Yunia Reyes González1  , 0000-0002-0689-6341Omar Mar Cornelio2 

1 Universidad de las Ciencias Informáticas. Carretera a San Antonio de los Baños km 2 ½ La Lisa, La Habana, Cuba.

2 Centro de Estudio de Matemática Computacional, Universidad de las Ciencias Informáticas, La Habana, Cuba.

RESUMEN

Introducción:

Los avances actuales en el campo de las TICs han permitido un importante impulso en el desarrollo de sistemas que traducen texto plano en español en pictogramas. Sin embargo, las soluciones actuales no pueden ser comprendidas por una persona con dificultades del lenguaje en Cuba, debido a que algunas terminologías no están presentes en el lenguaje cotidiano.

Objetivo:

Desarrollar el modelo Pictobana para el análisis semántico de un Pictotraductor que integre la semántica del lenguaje cubano.

Métodos:

El modelo fue desarrollado aplicando técnicas de procesamiento del lenguaje natural. Se realiza un análisis lingüístico con el objetivo de proporcionar las mejores representaciones posibles de los textos en pictogramas.

Resultados:

El modelo es implementado en una aplicación web que proporciona una herramienta que ayuda a promover las competencias y habilidades de comunicación a personas con dificultades del habla en Cuba y a sus familiares.

Conclusiones:

Las pruebas realizadas mediante experimentos y criterio de expertos, demuestran que el analizador desarrollado, aumenta la ajustabilidad de los pictogramas al contexto y a la semántica, aminorando la incoherencia y la ambigüedad semántica del futuro sistema.

Palabras-clave: pictograma; pictotraductor; autismo; semántica; procesamiento del lenguaje natural

ABSTRACT

Introduction:

Current advances in the field of ICTs have allowed an important boost in the development of systems that allow translating plain text in Spanish into pictograms. However, the current solutions cannot be understood by a person with language difficulties in Cuba because some terminologies are not present in everyday language.

Objective:

To develop the Pictobana model for the semantic analysis of a Pictotranslator that integrates the semantics of the Cuban language.

Methods:

The model was developed by applying natural language processing techniques. A linguistic analysis was carried out with the aim of providing the best possible representations of the texts in pictograms.

Results:

The model is implemented in a web application that provides a tool that helps promote communication skills and abilities for people with speech difficulties and their families in Cuba.

Conclusions:

The tests carried out through experiments and expert criteria show that the developed analyzer increases the adjustability of the pictograms to the context and the semantics, reducing the incoherence and semantic ambiguity of the future system.

Key words: pictograms; pictotranslator; autism; semantics; natural language processing

Introducción

La comunicación aumentativa y alternativa (CAA) es un área de la práctica clínica que complementa o compensa las deficiencias en la producción y/o comprensión del habla y el lenguaje, incluidos los modos de comunicación hablados y escritos. La CAA cae bajo el paraguas más amplio de tecnología de asistencia, tal como el uso de cualquier equipo, herramienta o estrategia para mejorar la vida diaria funcional en personas con discapacidades o limitaciones.1 El objetivo de la CAA es lograr la comunicación más efectiva para el individuo con el fin de maximizar su potencial, independencia e inclusión social, para llevar la mejor calidad de vida posible.

La CAA utiliza una variedad de técnicas y herramientas tecnológicas o no tecnológicas para ayudar al individuo a expresar sus pensamientos, deseos y necesidades, sentimientos e ideas. 1) Una de esas técnicas es el uso de tableros de comunicación con imágenes o pictogramas que representan un objeto, persona, lugar o concepto. Los sistemas informáticos construidos con esta técnica son ampliamente llamados “Pictotraductores”, puesto que su función principal es traducir texto a pictogramas.

La RAE 2 define el pictograma como “signo de la escritura de figuras o símbolos”. Los pictogramas fueron diseñados por Roxana Mayer Johnson en 1981; y se utilizan como sistemas alternativos a la comunicación oral.3 Es la representación del lenguaje mediante objetos reales, fotos, dibujos o pictogramas. En algunos casos se coloca con la palabra correspondiente en la parte superior y en cartulinas de diferentes colores.4 El método de los pictogramas es uno de los programas más efectivos que se usan en la enseñanza estructurada, ofrece a las personas con autismo las guías que necesitan para saber qué es lo que van a hacer, cómo, con quién y cuánto tiempo van a estar en esa actividad.

El análisis semántico es una característica esencial del enfoque de procesamiento del lenguaje natural (PLN). 5 Indica, en el formato apropiado, el contexto de una oración o párrafo. La semántica trata sobre el estudio de la significación del lenguaje. El análisis semántico en estos sistemas significa entregar el pictograma correcto según el significado de cada palabra o expresión, dependiendo del contexto del texto de entrada, lo que lo hace crucial para la obtención de mejores resultados en las traducciones.

En la presente investigación se analizan los pictotraductores en idioma español: Pictotraductor, Ara Traductor y Pictar. Pictotraductor recibe como entrada texto plano en español, y devuelve una traducción en pictogramas que consiste prácticamente en una traducción palabra por palabra.6 Por su parte, AraTraductor es un traductor de texto español a pictogramas que se apoya en técnicas de Procesamiento del Lenguaje Natural (PLN) para mejorar la traducción final obtenida. La traducción de texto a pictogramas consta de cuatro pasos diferentes: análisis sintáctico, preprocesamiento, consulta a la base de datos y procesamiento de n-gramas.7 Por último, Pictar recibe el texto y realiza primeramente un análisis morfológico del mismo para obtener las categorías gramaticales y lemas de las palabras. La importancia de conseguir el lema de las palabras reside en cómo se organiza la base de datos, ya que por lo general cada pictograma está relacionado sólo con el lema de una palabra. Una vez realizado el análisis, para cada palabra se almacena su lema y su categoría gramatical. En lugar de realizar una simple correspondencia palabra-picto, se realiza un tratamiento adicional de posibles n-gramas.6

Los tres sistemas mencionados fueron desarrollados en España, pero a pesar de que compartimos el mismo idioma, su cultura no necesariamente aborda un lenguaje que pueda ser comprendido por una persona con dificultades del lenguaje en Cuba, debido a que algunas terminologías no están presentes en el lenguaje cotidiano de un cubano. (8), (9 En consecuencia, es costoso para el interlocutor de la persona con necesidades especiales de comunicación encontrar la palabra adecuada, por ejemplo: taza-retrete, llave-grifo, por otro lado, si el pictograma muestra la palabra grifo dificulta la enseñanza de la lectura en este tipo de personas.

Otra de las problemáticas que se presentan tocante al tema, es el relativo a las palabras homógrafas que se escriben igual, pero tienen significados diferentes, por ejemplo: la palabra “banco” tiene disímiles acepciones en el diccionario de la lengua española. A continuación, se muestran cinco de ellas:

  • 1. m. Asiento, con respaldo o sin él, en el que pueden sentarse dos o más personas.

  • 2. m. Madero grueso escuadrado que se coloca horizontalmente sobre cuatro pies y sirve de mesa para labores de carpinteros y otros artesanos.

  • 3. m. En los mares, ríos y lagos navegables, bajo que se prolonga en una gran extensión.

  • 4. m. Conjunto de peces que van juntos en gran número.

  • 5. m. Empresa dedicada a realizar operaciones financieras con el dinero procedente de sus accionistas y de los depósitos de sus clientes.

Es por ello, que la palabra “banco” se puede encontrar en varios contextos y, por tanto, al traducir dicha palabra a pictograma, esta debe hacer alusión a imágenes muy diferentes.

Por tanto, el objetivo de la presente investigación es desarrollar un analizador semántico para aminorar la ambigüedad e incoherencia semántica en las traducciones en un pictotraductor cubano.

Método

Crisp-DM (Cross-Industry Standard Process for Data Mining en inglés y Proceso estándar entre industrias para la minería de datos en español) es una metodología que trata de desarrollar los proyectos de minería de datos bajo un proceso estandarizado de definición y validación de tal forma que se desarrollen proyectos minimizando los costos implicados y con un alto impacto en el negocio. (10

Según Contreras Arteaga y Sánchez Cortina CRISP-DM proporciona el documento modelo de referencia que describe las fases, tareas generales y salidas de un proyecto de minería en general. 11 La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases (Fig. 1), que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto:

Fig. 1 - Secuencia del proceso CRISP-DM. 11  

Comprensión del negocio

Esta primera fase es probablemente la más importante y aglutina las tareas de determinación y comprensión de los objetivos, evaluación de la situación: conocimiento previo, volumen de los datos, requisitos del proyecto desde una perspectiva de negocio, conversión de los objetivos en metas de la minería y realización del plan de proyecto.

En consecuencia, con los elementos analizados durante el epígrafe anterior se proponen como tareas del procesamiento del lenguaje natural los siguientes pasos:

  • • Tokenización

  • • Etiquetado gramatical

  • • Lematización

  • • Fragmentación / Reconocimiento de entidades nombradas

  • • Construcción de modelo con la base de datos de ARASAAC.

  • • Selección de pictogramas según el texto de entrada.

Compresión de los datos

Esta segunda fase comprende la recolección inicial de los datos con el objetivo de establecer un primer contacto con el problema, familiarizarse con ellos, identificar su calidad y establecer las relaciones más evidentes que permitan definir las primeras hipótesis. Esta fase junto a las dos siguientes fases son las que demandan el mayor esfuerzo y tiempo en un proyecto de minería de datos.

Los datos fueron recopilados desde la API de ARASAAC. Estos datos son referentes a pictogramas que incluyen variadas informaciones como puede ser, los identificadores, nombres, descripciones, categorías, etiquetas, etc., en total son 19 características por pictograma, es importante señalar que sólo las palabras claves se muestran en español. Estos datos fueron almacenados como un dataframe de pandas en un fichero “csv”, donde las columnas representan las características y las filas los registros/pictogramas (Fig.2).

Fig. 2 - Ejemplo de dataframe de pandas. 

Preparación de los datos

Una vez efectuada la recolección inicial de los datos, se procede a su preparación para adaptarlos a las técnicas de minería de datos que se van a utilizar posteriormente. En la presente investigación se seleccionan solamente dos características para la modelación, de las 19 características por pictogramas de ARASAAC: nombre y descripción; debido a que el resto de las características están en inglés. Una vez seleccionadas dichas características se procede a eliminar todos los registros donde el nombre o la descripción son nulos, debido a que carece de sentido incluir un pictograma sin alguna de estas características. Terminada esta fase crucial se procede a explicar el análisis lingüístico de la propuesta de solución. El análisis lingüístico es crítico para estudiar y entender la estructura, la forma y las características lingüísticas del texto.

Tokenización: La tokenización es el primer paso en la mayoría de los trabajos de procesamiento de texto. (12 La tokenización se utiliza para convertir textos en unidades más pequeñas (tokens). (13 Un token equivale a una palabra, de modo que la oración “Mamá está en la cocina” está compuesta por 5 tokens. Estos tokens son posteriormente pasados para el etiquetado gramatical.

Etiquetado Gramatical: En el PLN, el etiquetado de parte del discurso (Part of Speech - PoS), o también etiquetado gramatical, es una tarea de clasificación de tokens que predice la etiqueta gramatical de cada palabra en contexto. (14 Además, es el proceso en el que a cada palabra de una oración se le asigna una categoría gramatical. (15 En la figura 3, se observa un ejemplo para la oración “Mamá está en la cocina” donde cada palabra recibe su clase gramatical.

Fig. 3 - Ejemplo de etiquetado gramatical. 

El etiquetado gramatical es importante en la solución de esta investigación en dos etapas, para identificar los Chunks/fragmentos que se explican más adelante y al final para determinar cuál de los dos embeddings (nombres o descripciones) se debe usar como mecanismo de búsqueda dependiendo de la categoría gramatical que tenga la palabra. Se usarán los embeddings de los nombres para los artículos definidos, preposiciones, verbos, sustantivos y pronombres y para las demás categorías gramaticales se usarán los embeddings de las descripciones.

Lematización: La lematización 16 es el proceso de encontrar la forma morfológica básica de una palabra. Un lematizador utiliza una base de conocimiento de sinónimos de palabras y terminaciones de palabras para garantizar que solo las palabras que significan cosas similares se consoliden en un solo token; este token es el utilizado para el análisis. Por ejemplo, en inglés “soy,” “eres'', “es”, “era”, “éramos”, se tratarán todos de la misma manera que "ser" por un lematizador, aunque tengan significados diferentes.

Fragmentación: La fragmentación de texto se refiere a la tarea de dividir una cadena de información textual en grupos de unidades relacionadas que no se superponen. Este es un problema fundamental en numerosos campos donde es relevante comprender la relación entre unidades de datos secuenciales. (17 En lugar de simples símbolos que pueden no representar el significado real del texto, es recomendable utilizar frases como "La Habana" como una sola palabra en lugar de las palabras separadas "La" y "Habana".

Modelado

En esta fase de CRISP-DM se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos específico. Debido a que se va a implementar un mecanismo de búsqueda semántica, se debe utilizar una técnica con un enfoque basado en la similitud semántica. Se ha escogido SBERT 18 una adaptación del modelo BERT 19 pre-entrenado en los diferentes algoritmos, modelos y técnicas existentes para la similitud semántica.

Vectorización: Las computadoras no pueden procesar los textos en su formato original. Es sabido que las computadoras funcionan con representaciones numéricas, si se profundiza más funcionan con señales eléctricas. Para procesar textos es necesario convertirlos en números.

La ingeniería de atributos (feature engineering) en el procesamiento del lenguaje natural (PLN) implica la creación de funciones numéricas específicas para representar aspectos destacados del texto, como la proporción de sustantivos a pronombres. Este enfoque a menudo requería un conocimiento de dominio significativo y un esfuerzo para identificar características significativas. Por el contrario, los word embeddings se pueden aprender directamente de un corpus de texto y no requieren ningún etiquetado manual o feature engineering, es decir, se pueden aprender sin supervisión. (20

Word Embeddings consiste en un conjunto de lenguajes de modelado y técnicas de aprendizaje donde las palabras que tienen un mismo significado semántico tienen una representación similar. (21 Finalmente, la arquitectura final del analizador semántico estará compuesta por un análisis lingüístico, un mecanismo de búsqueda semántica, una predicción en el modelo pre entrenado SBERT y una búsqueda en la API de ARASAAC como se puede muestra en la figura 4.

Fig. 4 - Arquitectura del analizador semántico. 

Despliegue o implantación

En esta fase, y una vez que el modelo ha sido construido y validado, se transforma el conocimiento obtenido en acciones dentro del proceso de negocio, esto puede hacerse por ejemplo cuando el analista recomienda acciones basadas en la observación del modelo y sus resultados, o por ejemplo aplicando el modelo a diferentes conjuntos de datos o como parte del proceso (en análisis de riesgo de créditos, detección de fraudes, etc.). Generalmente un proyecto de minería de datos no concluye en la implantación del modelo, ya que se deben documentar y presentar los resultados de manera comprensible para el usuario con el objetivo de lograr un incremento del conocimiento. Por otra parte, en la fase de explotación se debe asegurar el mantenimiento de la aplicación y la posible difusión de los resultados.

RESULTADOS

Para verificar que, con la implementación del analizador semántico, se aumenta la ajustabilidad de los pictogramas al contexto y a la semántica se emplea el método Delphi y el método científico cuantitativo de experimento descrito por Hernández Sampieri. (22

El diseño experimental consiste en manipular intencionalmente una acción para analizar sus posibles resultados. Según Hernández Sampieri un diseño experimental debe cumplir con tres requisitos: la manipulación intencional de una o más variables independientes, medición del efecto que la variable independiente tiene en la variable dependiente y control o la validez interna de la situación experimental. 22

Por otro lado, el método Delphi consiste en la selección de un grupo de expertos a los que se les pregunta su opinión sobre cuestiones referidas a un problema definido, se clasifica como uno de los métodos generales de prospectiva, que busca acercarse al consenso de un grupo de expertos con base en el análisis y la reflexión de dicho problema. (23 Para la aplicación del método se siguieron las siguientes etapas:

Elección de expertos

Según las fuentes referenciadas, un experto es una persona, grupo de personas u organización con conocimientos amplios en un área particular del conocimiento, capaces de valorar, formular conclusiones objetivas y dar recomendaciones acerca del problema en cuestión.

En el caso de esta investigación, los expertos se seleccionaron teniendo en cuenta que cumplieran con los criterios siguientes:

  • Especialista en enseñanza de personas con dificultad del habla.

  • Profesor/a de la lengua española.

  • Familiar de persona con dificultad del habla.

  • Conocimientos de PLN.

Finalmente, se escogieron ocho expertos, considerando la presencia de un especialista en enseñanza de personas con dificultad del habla, dos profesores de la lengua española, cuatro familiares de personas con dificultad del habla y un profesor con conocimientos de PLN.

Preparación del instrumento

Una vez seleccionados los expertos, se elaboró un documento con diez oraciones que fue sometido a la consideración de los expertos con el objetivo de validar los indicadores de la propuesta de solución. Por ser un experimento a base de hipótesis, las oraciones son traducidas por dos de los sistemas homólogos Pictar, Pictotraductor (Aratraductor no se incluyó debido a que no fue posible acceder a dicho sistema) y por la presente propuesta de solución Pictobana. Los expertos tienen la tarea de evaluar las traducciones de los tres sistemas.

La evaluación de una oración es efectuada de la siguiente manera:

Primero, se evalúa cada token traducido en pictograma. Se evalúa cada token de la oración procesada (que pasó por el análisis lingüístico) traducido en pictograma. Si el pictograma se ajusta al contexto de la oración obtiene un valor de 0.5, de lo contrario obtiene un valor de 0. Si el pictograma se ajusta semánticamente al token traducido obtiene un valor de 0.5, de lo contrario obtiene un valor de 0. Para saber si un token fue correctamente traducido se suman los dos valores anteriores, el resultado 0 indica que el token no cumple con ninguno de los indicadores, 0.5 indica que cumple con uno de los indicadores y 1 indica que cumple con los dos indicadores, lo que quiere decir que la traducción está libre de incoherencia y ambigüedad semántica. Este cálculo se hace para cada token traducido.

Segundo, se calcula el porcentaje de acierto de traducción de la oración. El porcentaje de acierto de traducción de una oración, se calcula mediante la fórmula:

Donde:

Pi = Porcentaje de acierto de traducción de la oración i.

Ti = Traducción del token i.

n = Cantidad de tokens de la oración pos procesamiento (análisis lingüístico).

Los pictotraductores analizados y la solución propuesta, devuelven más de una ocurrencia para cada traducción de un token, con el objetivo de seleccionar el pictograma ideal, si este no está en la primera ocurrencia. En la figura 5, se observa una traducción con 2 resultados. Por lo que se ha evaluado el porcentaje de acierto del primer resultado (primera fila) que devuelve el sistema, con el objetivo de analizar la efectividad del sistema al devolver la traducción correcta en el primer resultado, y también se evaluó el porcentaje de acierto dentro de los 5 primeros resultados.

La cantidad de tokens de la oración después del análisis lingüístico puede variar, siendo este valor menor o igual a la cantidad de tokens inicial de la oración. Como se observa en la figura 5, la oración inicial tiene cinco tokens y la traducción de Pictar y Pictobana consta de tres pictogramas representando tres tokens pertenecientes a las cadenas: “cierra el grifo”, “al” y “terminar”. Eso significa que Pictar y Pictobana realizaron la fragmentación. En este caso “n” es igual a tres. Para Pictotraductor la cantidad de tokens es igual a 5, la misma cantidad que la oración inicial (antes del análisis lingüístico).

Fig.5 -Resultado de los pictotraductores ante la oración “Cierra el grifo al terminar”. 

Tercero, se calcula el promedio de acierto del sistema para las diez oraciones. El promedio de acierto del sistema, se calcula mediante la fórmula:

Donde:

PA = Promedio de acierto del sistema.

Pi = Porcentaje de acierto de traducción de la oración i .

n = Cantidad de oraciones.

En la tabla 1 se observan los resultados de la evaluación.

Promedio de las evaluaciones y concordancia de los expertos

Los criterios de evaluación de las oraciones son aprobados por los expertos, por lo que hubo un consenso sobre el método a usar para la validación de las mismas. Por este motivo no hubo necesidad de determinar mediante cálculos el nivel de concordancia de las evaluaciones de los expertos. En la tabla 1 se muestra el resultado final de las evaluaciones.

Reporte de los resultados

La tabla 1 muestra los resultados detallados para cada oración, las figuras 6 y 7 muestran los resultados finales de los sistemas homólogos y de la solución propuesta para los resultados en la primera posición (Fig. 6) y en las cinco primeras posiciones (Fig. 7).

Como se evidencia en los resultados, Pictobana pudo hacer 5 fragmentaciones correctas (es decir que no distorsionan el significado de la oración), terminó con 85,94% de precisión para los resultados en la primera posición y 92,00% teniendo en cuenta las cinco primeras posiciones. Precisión superior a Pictar y Pictotraductor. Este resultado permite aceptar la hipótesis planteada inicialmente.

Fig.6 -Resultados, porcentaje de acierto en la primera posición. 

Fig. 7 - Resultados, porcentaje de acierto en las cinco primeras posiciones. 

A continuación, se presentan las diez oraciones que fueron objeto de análisis por los expertos y los resultados de la evaluación se pueden apreciar en la tabla de la figura 8.

  1. Cierra el grifo al terminar

  2. Lava tus palmas y dedos de las manos

  3. Enciende el televisor

  4. Escribe sin romper las hojas

  5. Yo me siento bien para descansar

  6. El niño corre la cortina

  7. El conejo va a dormir

  8. El fuego devora la madera

  9. La niña tiene ojos café y pelo negro

  10. El papá corta el árbol con su hacha

Fig.8 -Tabla que muestra los resultados de la evaluación de Pictobana en comparación a Pictar y Pictotraductor. 

Resulta relevante señalar que, para dar continuidad con la presente investigación se deben revisar y editar las características de algunos pictogramas de tal manera que se correspondan mejor al contexto cubano, también vale la pena traducir otras características de los pictogramas del dataset de ARASAAC al español y utilizarlas para reforzar la comprensión de los pictogramas. En adición, almacenar las oraciones entradas por el usuario para usarlas como datos de entrenamiento del modelo y brindar la posibilidad al usuario de opinar sobre la traducción obtenida constituyen elementos que pudieran utilizarse para la implementación de un aprendizaje reforzado. (24

Conclusiones

El desarrollo del analizador semántico para un Pictotraductor permite arribar a las siguientes conclusiones: con el estudio de los sistemas homólogos se detectaron las funcionalidades básicas de un pictotraductor y su analizador semántico. Además, el empleo de la metodología CRISP-DM, permitió implementar un sistema que cumpliera con los estándares del desarrollo de proyectos de minería de datos y PLN. Es importante destacar que el análisis exploratorio de los datos recopilados, permitió identificar las características de los pictogramas más propicias para el analizador semántico, así como también percibir algunos inconvenientes propios de las diferencias culturales que disminuyen la eficacia de la solución propuesta. Sin embargo, el sistema desarrollado proporciona a las personas con dificultades del habla en Cuba y a sus familiares una herramienta que ayuda a promover las competencias y habilidades de estas personas. Finalmente, las pruebas realizadas mediante experimentos y criterio de expertos, validaron que el sistema desarrollado, aumenta la ajustabilidad de los pictogramas al contexto y a la semántica, aminorando la incoherencia y la ambigüedad semántica del sistema.

Referencias

1.  Patel RR, Awan SN, Barkmeier-Kraemer J, Courey M, Deliyski D, Eadie T, et al. Recommended protocols for instrumental assessment of voice: American Speech-Language-Hearing Association expert panel to develop a protocol for instrumental assessment of vocal function. American journal of speech-language pathology [Internet]. 2018 [Citado 02/06/2023];27(3):887-905. Disponible en: https://pubs.asha.org/doi/full/10.1044/2018_AJSLP-17-00091.  [ Links ]

2.  RAE. Diccionario de la Lengua Española. 23 ed [Internet]. España: Real Academia Española; 2014 [Citado 02/06/2023]. Disponible en: en: Disponible en: en: https://dle.rae.es/ 2.  [ Links ]

3.  Barranquero A, Baeza CS. Teoría crítica de la comunicación alternativa para el cambio social. El legado de Paulo Freire y Antonio Gramsci en el diálogo Norte-Sur. Razón y palabra [Internet]. 2012 [Citado 02/06/2023];80. Disponible en: https://www.redalyc.org/pdf/1995/199524426004.pdf3.  [ Links ]

4.  Nakamura C, Zeng-Treitler Q. A taxonomy of representation strategies in iconic communication. International journal of human-computer studies [Internet]. 2012 [Citado 02/06/2023];70(8):535-51. Disponible en: https://www.sciencedirect.com/science/article/pii/S10715819120004814.  [ Links ]

5.  Maulud DH, Zeebaree SR, Jacksi K, Sadeeq MAM, Sharif KH. State of art for semantic analysis of natural language processing. Qubahan academic journal [Internet]. 2021 [Citado 02/06/2023];1(2):21-8. Disponible en: https://journal.qubahan.com/index.php/qaj/article/download/44/295.  [ Links ]

6.  Martín Guerrero A. PICTAR: una herramienta de elaboración de contenido para personas con TEA basada en la traducción de texto a pictogramas [Internet]. Madrid: Universidad Complutense Madrid; 2018 [Citado 02/06/2023]. Disponible en: Disponible en: https://docta.ucm.es/entities/publication/6993e6e7-d39b-4a66-adbf-b528018ac0a1 6.  [ Links ]

7.  Bautista S, Hervás R, Hernández-Gil A, Martínez-Díaz C, Pascua S, Gervás P, eds. Aratraductor: text to pictogram translation using natural language processing techniques. Proceedings of the XVIII International Conference on Human Computer Interaction; 2017. Sep 25-27 [Internet]. México: ACM; 2017 [Citado 02/06/2023]. Disponible en: Disponible en: https://www.researchgate.net/publication/320360765_Aratraductor_text_to_pictogram_translation_using_natural_language_processing_techniques 7.  [ Links ]

8.  Cornelio OM, Justiz OC. Diseño curricular del programa académico de la Maestría en Informática Médica Aplicada. Revista Cubana de Informática Médica [Internet]. 2023 [Citado 02/06/2023];15(2):625. Disponible en: https://revinformatica.sld.cu/index.php/rcim/article/view/6258.  [ Links ]

9.  Ramírez-Pérez JF, López-Cossio F, Morejón MM, Orellana-García A. Impacto de la Maestría en Informática Médica Aplicada en la informatización de la salud pública cubana. Revista Información Científica [Internet]. 2021 [Citado 02/06/2023];100(2):1-13. Disponible en: https://www.medigraphic.com/cgi-bin/new/resumen.cgi?IDARTICULO=1086479.  [ Links ]

10.  Rivo E, de la Fuente J, Rivo Á, García-Fontán E, Cañizares M-Á, Gil P. Cross-Industry Standard Process for data mining is applicable to the lung cancer surgery domain, improving decision making as well as knowledge and quality management. Clinical and Translational Oncology [Internet]. 2012 [Citado 02/06/2023];14:73-9. Disponible en: https://link.springer.com/article/10.1007/s12094-012-0764-810.  [ Links ]

11.  Contreras Arteaga AI, Sánchez Cotrina FW. Analítica predictiva para conocer el patrón de consumo de los clientes en la Empresa Cienpharma SAC utilizando IBM SPSS Modeler y la metodología CRISP-DM [Tesis de especialidad Ingeniería Computación y Sistemas]. Perú: Universidad Privada Antenor Orrego; 2020 [Citado 02/06/2023]. Disponible en: Disponible en: https://repositorio.upao.edu.pe/handle/20.500.12759/6629 11.  [ Links ]

12.  Park K, Lee J, Jang S, Jung D. An empirical study of tokenization strategies for various Korean NLP tasks [Internet]. EE UU: arXiv; 2020 [Citado 02/06/2023]. Disponible en: https://doi.org/10.48550/ARXIV.2010.02534 [ Links ]

13.  Khekare G, Verma P, eds. Design of Automatic Key Finder for Search Engine Optimization in Internet of Everything. 2020 IEEE 1st International Conference for Convergence in Engineering (ICCE; 2020. Sep 5-6) [Internet]. India: IEEE; 2020 [Citado 02/06/2023]. Disponible en: Disponible en: https://doi.org/10.1109/ICCE50343.2020.9290669 13.  [ Links ]

14.  Lim K, Park J. Part-of-speech tagging using multiview learning. IEEE Access [Internet]. 2020;8:195184-96 [Citado 02/06/2023]. Disponible en: https://doi.org/10.1109/ACCESS.2020.303397914.  [ Links ]

15.  Deshmukh RD, Kiwelekar A, eds. Deep learning techniques for part of speech tagging by natural language processing. 2020 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA); 2020. 5-7 March [Internet]. India: IEEE, 2020 [Citado 02/06/2023]. Disponible en: Disponible en: https://doi.org/10.1109/ICIMIA48430.2020.9074941 15.  [ Links ]

16.  Khyani D, Siddhartha B, Niveditha N, Divya B. An interpretation of lemmatization and stemming in natural language processing. Journal of University of Shanghai for Science and Technology. 2021;22(10):350-7. [ Links ]

17.  Borrelli D, Gongora Svartzman G, Lipizzi C. Unsupervised acquisition of idiomatic units of symbolic natural language: An n-gram frequency-based approach for the chunking of news articles and tweets. Plos one [Internet]. 2020;15(6):e0234214. Disponible en: https://doi.org/10.1371/journal.pone.024540417.  [ Links ]

18.  Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks [Internet]. EE UU: arXiv; 2019 [Citado 02/06/2023]. Disponible en: Disponible en: https://doi.org/10.48550/arXiv.1908.10084 18.  [ Links ]

19.  Devlin J, Chang M-W, Lee K, Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding [Internet]. EE UU: arXiv ; 2018 [Citado 02/06/2023]. Disponible en: Disponible en: http://arxiv.org/abs/1810.04805 19.  [ Links ]

20.  Khattak FK, Jeblee S, Pou-Prom C, Abdalla M, Meaney C, Rudzicz F. A survey of word embeddings for clinical text. Journal of Biomedical Informatics [Internet]. 2019;100:100057. Disponible en: https://doi.org/10.1016/j.yjbinx.2019.10005720.  [ Links ]

21.  Almeida F, Xexéo G. Word embeddings: A survey [Internet]. EE UU: arXiv; 2019 [Citado 02/06/2023]. Disponible en: Disponible en: https://arxiv.org/pdf/1901.09069 21.  [ Links ]

22.  Hernández R, Fernández C, Baptista P. Metodología de la investigación. En su: Guía para realizar investigaciones sociales. 6 ed. Mexico: Editorial Plaza y Valdés; 2016. Pp. 150-5. [ Links ]

23.  García Valdés M, Suárez Marín M. El método Delphi para la consulta a expertos en la investigación científica. Revista Cubana de Salud Pública [Internet]. 2013 [Citado Jun 2023]; 39(2):253-67. Disponible en: http://scielo.sld.cu/scielo.php?pid=S0864-34662013000200007&script=sci_arttext23.  [ Links ]

24.  Raipovna VS. Specialities of Taking Linguistic And Methodical Traditions Into Account. Wos Web of Scholars Multidimensional Research Journal [Internet]. 2022 [Citado 02/06/2023]; 1(7):74-6. Disponible en: https://www.innosci.org/wos/article/download/517/45324.  [ Links ]

Recibido: 20 de Julio de 2023; Aprobado: 06 de Septiembre de 2023

*Autor para la correspondencia: lgmarrero@uci.cu

Los autores declaran que no tienen conflicto de intereses.

Laritza González Marrero, Dargel Veloz Morales: Aportaciones importantes a la conceptualización de la investigación, la recogida de datos, al análisis e interpretación de datos, la redacción del borrador del artículo o la revisión crítica de su contenido intelectual sustancial y la aprobación final de la versión a publicar.

Yunia Reyes González, Omar Mar Cornelio: Aportaciones importantes a la idea y diseño del estudio, la recogida de datos, al análisis e interpretación de datos, la redacción del borrador del artículo, la revisión crítica de su contenido intelectual sustancial y la aprobación final de la versión a publicar.

Creative Commons License