Introducción
El análisis de datos textuales es un tema importante para la psicología social. Estos datos permiten el estudio del lenguaje con suficiente distancia entre el investigador y lo investigado. Hace unos años atrás la única posible vía para analizar estos datos era un largo y exhaustivo trabajo de clasificación manual para realizar un análisis de contenido (AC),1 seguido del análisis estadístico de las clases o categorías obtenidas. Actualmente, el volumen de datos textuales presentes en diversos contextos ha aumentado drásticamente debido al desarrollo de los medios de comunicación y los diversos formatos de publicación. Sin embargo, la informática permite (semi)automatizar y controlar este proceso mediante software.
Jenny2 agrupa el software para el procesamiento de texto en cuatro grandes grupos: lexicométrico, sociosemántico, redes de asociaciones de palabras y análisis del discurso proposicional y predictivo. El enfoque más usado en el procesamiento de representaciones sociales es el lexicométrico.3,4 Dicho enfoque consiste en comparar perfiles léxicos (distribuciones relativas de ocurrencias léxicas) dentro de un corpus o entre corpora.2
El principio del AC está, sobre todo, basado en la concepción de ciertas categorías globales o clases que tienen su propio significado, y luego en la distribución de varios elementos de los textos considerados en dichas clases con un propósito descriptivo y comparativo. La etapa final del análisis es un cálculo que puede apelar a la estadística descriptiva o a la inferencial. Esto se corresponde con el enfoque sociosemántico descrito por Jenny.2
Según este investigador, los programas de este tipo segmentan el corpus en unidades de significado relevantes, logran una categorización multidimensional de acuerdo con el entramado conceptual específico a cada investigación (i.e. una codificación a posteriori en la que el investigador lee el texto, anota y codifica las unidades de significado en el corpus), y pueden usar métodos estadísticos.2
Para el software basado en el enfoque lexicométrico ocurre a la inversa. Todo comienza con el cómputo que genera clases o grupos de elementos en los textos. La última fase consiste en darle un significado por parte del investigador a las clases obtenidas. Los dos enfoques son radicalmente diferentes: en el primer caso se computa partiendo del significado, en el otro, se encuentra el significado mediante el cómputo.
Los software para Análisis de Datos Cualitativos (SADC) se utilizan en investigaciones en ciencias sociales. Brindan una amplia variedad de herramientas cuya asistencia posibilita optimizar el procesamiento e interpretación de grandes volúmenes de datos, contribuir a la validez de los hallazgos y facilitar el intercambio de opiniones entre varios investigadores que no necesariamente comparten el mismo espacio-tiempo de trabajo.
Más allá de las ventajas operativas y analíticas, la incorporación de los SADC también ha suscitado una serie de objeciones. Algunas voces reconocen que dichos recursos informáticos pueden extremar el fraccionamiento de la información y perder una visión integrada, distanciar al investigador de los datos o incluso retrotraer los avances logrados en el análisis cualitativo a épocas pasadas.
Se pueden utilizar diferentes SADC, entre los más utilizados están los siguientes: ATLAS.ti5 es un SADC propietario alemán que facilita el desarrollo de las tareas propias de cualquier análisis cualitativo de datos en soporte textual y multimedia y es especialmente apropiado para proyectos de investigación que involucran grandes volúmenes de datos. Permite la segmentación del texto en citas; la codificación de los documentos analizados en función de un sistema de categorías; la recuperación selectiva de datos en función de las necesidades del investigador; la elaboración de comentarios y anotaciones; la generación de familias de documentos, códigos y memos; y la representación gráfica de las relaciones teóricas identificadas y construidas durante el análisis.
NVivo6 es un software propietario desarrollado por QSR International que permite organizar, analizar y encontrar perspectivas en datos no estructurados como entrevistas, respuestas de encuestas con preguntas abiertas, artículos, contenido de redes sociales y web, que pueden aparecer digitales tanto en texto, audio, video o imagen. Además, brinda herramientas para la codificación de datos, la descripción de contenido, la preparación de relaciones entre códigos a través de un sistema de nodos y árboles, y la rapidez en la búsqueda y presentación de la información.
MAXQDA es un software propietario que puede organizar, categorizar, buscar y recuperar información de cualquier tipo de archivos multimedia. Entre sus funcionalidades están la categorización de segmentos de datos, el análisis rápido de preguntas de encuestas que pueden ser importadas desde Excel, el análisis estadístico de los datos cualitativos, la creación de comentarios, notas y memos; el resumen de contenido haciendo uso de su modo Paraphrase y la interconexión de datos.
Las facultades de Psicología y Matemática y Computación de la Universidad de La Habana colaboran en el proyecto institucional donde se diseñó, por un equipo de psicólogos, el cuestionario sobre Bienestar Humano Personal, Laboral y Social (BHPLS).7,8 El cuestionario consta de preguntas relativas a la noción de bienestar de los sujetos estudiados. Se entiende el bienestar humano como un constructo multidimensional que consiste en juicios de satisfacción sobre los diferentes dominios o esferas de la vida del sujeto.
Dada la variedad de respuestas y la cantidad de sujetos participantes es necesario reducir la información textual. Esto se logra mediante la creación de un sistema de categorías o clases y la categorización de las respuestas en dichas clases mediante un AC.9 Luego de la categorización, por al menos dos expertos de la misma calificación, se obtiene una categorización única que refleja el consenso estos, según el índice de concordancia Kappa.10 Con dicha categorización se analizan las similitudes de las respuestas por estratos de la muestra, determinados por variables sociodemográficas como el sexo, el grupo de edad y el grupo sociolaboral. Para esto se utiliza el Análisis de Correspondencias (ANACOR).11
El AC se realiza típicamente de forma manual, lo que provoca errores en el proceso y la consecuente demora. Aunque existen software para realizar AC en ciencias sociales, como los SADC mencionados anteriormente, no es factible adaptarlos para su uso en el procesamiento de datos del cuestionario BHPLS, puesto que la mayoría tienen como entrada textos largos, el cuestionario usado tiene estructura propia y los textos son relativamente cortos. Además, la categorización por triangulación (codificada mediante el vector 3D) es necesaria para una visión integradora de las respuestas y constituye un aporte al procesamiento del cuestionario, por lo que no se ajusta al modelo de cómputo propuesto por los programas previamente analizados.
Por ello, esta investigación tiene como objetivo diseñar, implementar y validar un software para semiautomatizar el AC para datos provenientes de la Pregunta 1 del cuestionario mencionado.
Materiales y Métodos
Obtención de los datos
Se aplicó el cuestionario sobre Bienestar Humano Personal, Laboral y Social (BHPLS)7,8 a una muestra no probabilística tomando como población a trabajadores cooperativistas, cuentapropistas y estatales. Otros criterios de inclusión fueron la voluntariedad y la pertenencia al sector económico de la gastronomía. Se escogió este sector debido a la particularidad de presentar tres de las modalidades organizativas presentes en la actualización del modelo de la economía cubana. Se incluyeron entidades de tamaño pequeño y mediano. La muestra quedó conformada por 135 individuos. El registro de los datos se realizó mediante Microsoft Excel 2013.
Dada la naturaleza textual de las respuestas a las preguntas, se realizó un preprocesamiento de los datos para corregir faltas de ortografía y descartar individuos con muchos datos faltantes (no respuestas).
En esta investigación se procesó solo la Pregunta 1 del cuestionario BHPS. Esa pregunta pide a los individuos responder mediante asociaciones libres (frases escritas cortas) tres preguntas referidas a su percepción de bienestar, de quien depende este y qué está haciendo para alcanzarlo. El encuestado puede dar hasta cinco respuestas a cada una de estas preguntas y se considera que cada una está relacionada según su orden.
Categorización semiautomática
Dada la variedad de respuestas de los sujetos es necesario codificarlas para poder realizar el análisis, para ello y, basándose en la frecuencia de n-gramas y las correspondientes nubes de palabras, se construyó un esquema de 18 categorías. Para proceder a asignar respuestas en cada categoría se realizó el siguiente procedimiento.
A cada sujeto se le asigna un número consecutivo o ID para su identificación en la base de datos. Cada sujeto tiene que responder a tres preguntas: ¿Qué características considera usted que definen un estado óptimo de bienestar?, ¿De quién depende el que usted alcance dicha característica? y ¿Qué es lo que usted está haciendo para alcanzar o satisfacer dichas características? con cinco posibilidades de respuesta.
Por cada respuesta se obtiene un vector 3D formado por los textos evocados por el sujeto a cada una de las tres preguntas previas. Cada vector 3D es identificado como <ID del sujeto>-<número de la respuesta> (e.g. el vector 3-4 se refiere a la cuarta respuesta del sujeto 3 a las preguntas descritas).
Los resultados de la categorización hecha por cada psicólogo (de forma manual o con software) se guardan en un archivo Excel cuyas columnas representan a cada categoría del esquema construido, incluyendo una columna para vectores 3D que no se ajustan a este. Luego, los psicólogos participantes en la categorización colocan cada vector 3D en la columna perteneciente a la categoría que estos le asignan.
El proceso de categorización manual realizado por los psicólogos consistía en: crear el archivo donde guardar los ID categorizados, leer de la base de datos de las encuestas las respuestas de un sujeto, identificar los IDs de los vectores asociados a este, categorizarlos uno a uno manualmente, guardar los resultados en el Excel creado, y repetir para todos los sujetos encuestados.
Luego de obtener todas las categorizaciones de los expertos, se procede a verificar si estos concuerdan respecto a la asignación de cada vector 3D a cada categoría. Para ello se computa el índice Kappa.
Índice de concordancia Kappa
El índice Kappa permite medir el acuerdo de un grupo de expertos frente a la categorización de ciertos objetos en un sistema predeterminado de clases o categorías. Existen varios escenarios de uso como el caso de dos categorías y dos jueces, dos categorías y más de dos jueces, y tres o más categorías y más de dos jueces. Precisamente, este fue el caso en la categorización implementada en el software presentado en este artículo.
Kappa de la categoría j e intervalo de confianza
El índice Kappa de la categoría j12 se computa de la siguiente forma:
El intervalo de confianza jackknife para el Kappa de la categoría j con nivel de confianza (1 - α) % 10:
Prueba de significación para el Kappa de la categoría j
El estadístico para contrastar la hipótesis H 0 : k j = 0 frente a H1: Kj ≠ 0 es:
El error estándar de Kappa para el contraste:
donde:
n es el número de sujetos,
m es el número de observadores por sujeto,
k es el número de categorías,
X ij es el número de clasificaciones del sujeto i en la categoría j y i = 1, …, n, J = 1, …, k,
es la proporción global de clasificaciones en la categoría j, y ,
J (k j )es la estimación jackknife de Kappa y S j es el error estándar de J(k j ),
es el percentil de la distribución t de Student con n - 1 grados de libertad que deja a la izquierda una cola de probabilidad , y
1 - α es el nivel de confianza.
Kappa global e intervalo de confianza
El índice Kappa global12 se calcula de la siguiente forma:
Su intervalo de confianza jackknife para el Kappa global con nivel de confianza (1 - α) %(10) se computa según:
Prueba de significación para el Kappa global
El estadístico para contrastar H 0 :k = 0 frente a H 1 :k ≠ 0 es:
El error estándar de Kappa para el contraste se estima mediante la expresión:
donde es el Kappa de la categoría j con j = 1, …, k, y J(k) es la estimación jackknife de Kappa y S es el error estándar de J(k).
Algoritmo para la unificación de categorizaciones
El algoritmo para la obtención de una sola categorización, sobre la misma muestra y el mismo esquema de categorías, que resuma los criterios de diversos expertos con alto índice Kappa, recibe como entrada archivos Excel con las categorizaciones realizadas (Ver formato de la Figura 3) y obtiene una categorización única mediante la heurística majority voting. Esta categorización resume la opinión de todos los expertos que categorizaron y permite ejecutar un ANACOR para establecer relaciones entre las categorías y diversos estratos de la muestra.
En la heurística majority voting se itera por todos los vectores 3D y por cada uno se guardan las categorías que le fueron asignadas en los archivos dados, finalmente, se le elige la categoría con más ocurrencias, en caso de haber más de una categoría con la mayor cantidad de ocurrencias se toma entre ellas la primera que fue encontrada.
Resultados y Discusión
Tomando en cuenta la revisión del estado del arte, se implementó un software en el lenguaje de programación Python 3.613 y sus módulos (e.g. PyQt5;14) openpyxl15), que permitió la categorización semiautomática de los vectores 3D.
A través del software se posibilita la creación del diccionario de categorías, así como su edición y eliminación (Figura 1). El carácter flotante de la ventana del diccionario hace que los psicólogos inmersos en la categorización puedan consultar el diccionario desde la misma aplicación, evitando tenerlo impreso o en formato Microsoft Word, como se hacía en el proceso tradicional.
El software BHPLS data processing-UH®,16,17 implementado y presentado en este artículo, siguió el enfoque lexicométrico, puesto que permite que los psicólogos elaboren sus categorías y les posibilita la asignación de las asociaciones libres de los sujetos a cada categoría.
Entre las funcionalidades de este software está la lectura de las respuestas del cuestionario desde un archivo Excel con una estructura específica. Luego, se muestran los vectores 3D de un sujeto elegido de manera aleatoria y el usuario asigna una categoría del esquema construido a cada vector (Figura 2). En la Figura 3 puede notarse el sombreado de los datos faltantes. Estos datos pueden estar en todo el vector 3D o en alguno de sus componentes y pueden provocar que la información no sea suficiente para categorizarla.
Este proceso se reitera hasta categorizar todos los vectores 3D de los sujetos en la muestra. Una vez terminada la categorización de todos los vectores 3D, el software crea un archivo Excel donde se guardan los resultados del proceso en una ruta especificada por el usuario (Figura 4). Cabe destacar que los vectores en el Excel creado se muestran ordenados por cada categoría. A lo largo de la categorización se muestran el ID del sujeto analizado, los datos faltantes, cuántos sujetos se han analizados y cuántos faltan por analizar.
Validación del software por expertos
Estudiantes de la Facultad de Psicología pusieron a prueba el software categorizando los vectores 3D de 135 sujetos, terminaron la tarea en aproximadamente 1 hora. Los mismos estudiantes habían realizado con anterioridad el proceso manualmente, finalizaron en 3 o 4 días. La semiautomatización de la categorización con el empleo del software reduce significativamente el tiempo del proceso y el usuario no necesita lidiar con las dificultades propias de la lectura de los datos de las encuestas ni de la creación del archivo resultante de la categorización. Estas nuevas facilidades mejoran la experiencia y los resultados del proceso.
Además, la calidad de la categorización aumentó ampliamente al utilizar el software presentado. Se realizaron dos iteraciones de la categorización con estudiantes de psicología obteniendo un índice Kappa negativo en cada ocasión. Al utilizar el software con 675 vectores 3D, 19 categorías y 5 observadores se logró un Kappa global 0.78, error estándar 0.01, IC = [0.75, 0.81] y p = 0.00. (Tabla 1).
En la tabla 2 se muestran las 19 categorías obtenidas, luego de la unificación de categorías, y se desglosa por categoría la cantidad de asociaciones brindadas por los sujetos dentro de cada grupo laboral. Las columnas finales presentan el resultado de aplicar la prueba de independencia X2 (12 y los p valores correspondientes. Esta prueba estadística se hace por cada categoría respecto a los tres grupos laborales considerados.
Se hallaron diferencias significativas entre la noción de bienestar de los tres grupos laborales respecto a las categorías solvencia económica, trabajo, condiciones materiales de vida y tranquilidad, la diferencia en las dos últimas categorías es la más acentuada.
En la Figura 5 se muestra el resultado del ANACOR11 ejecutado en el software Statistica18 en los datos de la Tabla 2. La proyección en dos dimensiones mostró ser suficiente dado que se explicó el 95.94 % de la variabilidad presente en los datos donde X 2 = 42.90,df = 36,p = o.1993.
Los resultados que muestra la Figura 4 ofrecen datos que han sido analizados como parte del estudio y otros cuyo análisis desborda los objetivos de este artículo y que brindan nuevas perspectivas para investigaciones futuras.
Los trabajadores cooperativistas se posicionan muy cerca de las categorías solvencia económica, condiciones materiales de vida y equidad. Entre las categorías más lejanas se hallan tranquilidad y estudios. Los cuentapropistas se colocan junto a las categorías felicidad, paz y creencia espiritual. Entre las categorías más lejanas se observan éxito y amigos. Los trabajadores estatales se ubican cerca de las categorías amigos y seguridad. Entre las categorías más lejanas se observan aspiración y éxito. Las categorías salud, familia y convivencia social muestran su importancia para los tres grupos laborales.
Limitaciones del estudio
El software propuesto está implementado a la medida de la estructura de la Pregunta 1 del cuestionario BHPLS, aunque es flexible de adaptarse a otros cuestionarios con preguntas abiertas. El algoritmo para el cómputo del índice Kappa y el método para unificar las categorizaciones dependen de una estructura común para los archivos Excel donde estas se almacenan.
Conclusiones
A pesar de que existe variedad de SADC, se hizo imprescindible la creación de uno que se ajustara al cuestionario BHPLS y al trabajo realizado por los investigadores de la Facultad de Psicología. A partir de la semiautomatización del proceso aportada por el software presentado y el algoritmo propuesto para la unificación de categorías, los investigadores, con muy buenas impresiones en su uso, han llegado a mejores resultados en el estudio que desarrollan.