Introducción
El análisis estadístico implicativo (AEI) constituye una herramienta de la minería de datos, basada en técnicas estadísticas multivariadas, teoría de la cuasi-implicación, inteligencia artificial y álgebra booleana, para modelar análisis no simétricos entre los sucesos y variables de un conjunto de datos. Como método, permite la extracción y la estructuración del conocimiento en forma de normas generalizadas y, a partir de la contingencia de estas reglas, la explicación de los sucesos y una determinada previsión en distintas ramas del saber.1,2,3,4,5
Se mide por la intensidad de la implicación entre variables, la cual expresa el grado de sorpresa inherente a una regla. Esta medida puede reforzarse por la validez, mediante la entropía de Shannon, y la contra-recíproca. Cuando una norma de asociación se considera válida, el conjunto de los ítems A se aproxima al conjunto de los ítems B y se espera la efectividad de la regla contra-recíproca, es decir, que el conjunto de los ítems no-B se acerque al de los ítems no-A.1,2,3,4,5
El AEI marca pautas inductivas no simétricas y la cuantificación de la probabilidad de que se presente una característica cuando se ha observado otra. Esto resulta muy útil en la previsión de distintas ramas del saber6,7 y se aplica en el campo de la educación, la psicología, la sociología, la informática, la medicina, entre otras ciencias.7 Para su uso entran en juego cocientes estadísticos como intensidades de implicación, cohesión de clases, implicación-inclusión, significación de niveles jerárquicos, contribución de variables suplementarias, uso de variables modales, binarias, de intervalo y difusas.7
La interpretación de los resultados del análisis precisa de un software, nombrado C.H.I.C. (Clasificación jerárquica implicativa y cohesiva), que se desarrolló por el profesor Raphael Couturier y estructura la información para lograr la compatibilidad entre los datos.8,9,10) El CHIC revela de forma gráfica los resultados, evidencia la correspondencia entre variables, e identifica relaciones causales que apoyan la formulación de hipótesis con fines descriptivos y predictivos, útiles en estudios de medicina y neurociencias.11,12,13)
El AEI constituye una herramienta para desarrollar el tratamiento de la información estadística y favorecer la comprensión de las agrupaciones entre variables ventajosas en la práctica médica. Por consiguiente, el objetivo de este artículo fue caracterizar el análisis estadístico implicativo como herramienta del tratamiento de la información estadística en ciencias de la salud.
Métodos
Se revisaron diferentes fuentes bibliográficas sobre las características del método AEI. También se realizó una síntesis de las publicaciones de revistas de impacto que han expuesto resultados interesantes sobre el tema. Se empleó, además, el método de análisis y síntesis de la información revisada para escribir este trabajo.
Variables procesadas con AEI
El AEI establece reglas de asociación a partir de un conjunto de datos, que cruzan sujetos y variables. Este análisis se desarrolla mediante el cálculo de los índices de implicación y cohesión que se definen en términos de una probabilidad; al igual que para el cálculo del índice de similaridad, la diferencia se encuentra en la variable aleatoria de interés.6,7,8 El análisis cohesitivo, determina la tipicalidad y contribución de sujetos y variables, así como los nodos significativos en la formación de las clases. En general, soluciona la siguiente pregunta: “¿en qué medida se puede considerar que de cumplirse la variable A se cumpla la variable B, sin que se deba al azar?”1,6,7,8
El AEI procesa variables binarias, frecuenciales, definidas sobre intervalos y variables intervalo. Las variables modales se asocian a fenómenos y los valores a(x) son números del intervalo [0,1], los cuales describen grados de pertenencia o satisfacción; por ejemplo, “quizás”, “un poco”, “a veces”. Se evalúa de 1 a 5, y los extremos de la escala representan mínimo y máximo, respectivamente.1,2,3) Las variables modales se organizan con las variables frecuenciales.4,5,6 Una variable frecuencial utiliza un valor numérico que representa la periodicidad de un suceso o fenómeno mediante valores entre 0 y 1.
Las variables sobre intervalos y las variables intervalos se utilizan para modelar situaciones complejas. La variable intervalo convierte una variable real en frecuencial. Se dispone de los datos proporcionados por una población de n individuos (una clase de alumnos) según p variables (notas sobre un año en francés, peso o estatura) y sus valores, según cada sujeto, se consideran intervalos de números reales positivos.
Se busca definir una implicación de intervalos relativos de A hacia otros intervalos definidos de B. Esto permitirá medir la asociación implicativa, no simétrica, de intervalo(s) de A con B; por tanto, la asociación recíproca debe retener el vínculo para cada par de subintervalos.7,8,9
En la variable sobre intervalo se busca extraer, de un conjunto de datos biométricos, la regla siguiente: si un individuo pesa entre 65 y 70 kg entonces mide entre 1,70 y 1,76 m. La situación más general se expresa si dos variables reales A y B toman una serie de valores sobre dos intervalos finitos [A1, A2] y [B1, B2]. Sea A (B) el conjunto de los valores de A (B) observados sobre [A1, A2] ([B1, B2]).10
Para resolver esta problemática se necesita un criterio de optimización, el cual se define como la media geométrica de las intensidades de implicación, asociada a cada par de particiones de elementos, unidos o no, concretados inductivamente. Se tienen en cuenta los dos máximos, implicación directa y su recíproco, y se aseguran las dos particiones al declarar que la correlación de la variable sobre intervalo A con la B resulta óptima si [A1, A2] admite la partición correspondiente al primer máximo y la reciprocidad se satisface para la partición de [B1, B2], correspondiente al segundo máximo. Para una variable sobre intervalos, un individuo toma el valor 1 para un único intervalo, pero una variable intervalo requiere valores diferentes sobre varios intervalos.
Las variables suplementarias no calculan directamente las reglas, pero sí las tipicalidades y las contribuciones.1,4,9) Son cualitativas, descriptivas, por ejemplo: género, nivel educativo o categoría económica. Este análisis ayuda a conocer las clases y sujetos responsables de las implicaciones, mientras que la tipicalidad caracteriza la población.
Los cálculos estadísticos realizados con el CHIC producen distintos gráficos, según los índices de proximidad o distancia y la clasificación jerárquica, implicativa, cuasi-implicativa o inclusiva. Además, establecen frecuencias, medias aritméticas, índices de proximidad/distancia, coeficientes de correlación, índices de similaridad, cohesión implicativa, entre otros.5 El AEI estima tres índices básicos: de similaridad, cohesión e implicación, los cuales permiten llegar a conclusiones acerca de la población tratada.
El análisis clasificatorio por similaridad agrupa objetos semejantes. Estos determinan una técnica de análisis exploratorio para revelar las agrupaciones (clústeres) naturales dentro de una colección de datos, a partir de medidas que evalúan diferencias y similitudes. La estrategia más común mide la equivalencia en términos de la distancia. Los objetos cercanos se asemejan más entre sí y se agrupan dentro del mismo clúster.11,12,13,14
El CHIC calcula los índices de similaridad en términos de una probabilidad, de acuerdo con el modelo para la variable aleatoria Card (Xi ∩ Xj) objeto de investigación. La representación gráfica (árbol de similaridad) de la matriz obtenida muestra los nodos jerárquicos correspondientes a una clasificación compatible con los valores y la similaridad para el análisis clasificatorio.
Análisis estadístico implicativo de los datos
Al igual que en el análisis clasificatorio, se considerará un conjunto I formado por n individuos y un conjunto A formado por p características, A = {a1, a 2 ..., a p}, se supone también que: Ai = {x ∈ I: ai (x) = 1}, Card (I) = n, Card (Ai) = nai y Card A= nai-.
El análisis se desarrolla a través del cálculo de los índices de implicación y cohesión. En el análisis cohesitivo se determinan la tipicalidad, y la contribución de sujetos y variables; así como los nodos significativos en la formación de las clases. Los índices de implicación y cohesión se definen en términos de una probabilidad; para el índice de similaridad, la diferencia se halla en la variable aleatoria de interés, Card (Xi ∩ Xj), o la cantidad de sujetos con la característica AI, pero sin la característica AJ. Lo explicado anteriormente para la variable aleatoria Card (Xi ∩ Xj) resulta válido para Card (Xi ∩ Xj).
La reglas11,12 constituyen una regularidad en la forma “si premisa entonces conclusión” y representan patrones generales y simples. Se originan por la inducción de normas, que describen la regularidad de numerosos objetos con pocos contraejemplos. El conjunto de reglas descubiertas, a partir de un conjunto de datos, se utiliza en la interpretación y el procesamiento de la información científica.
La intensidad de la implicación estadística entre variables
En lógica matemática la regla "ai ⇒ aj" se considera verdadera si para todo x, aj(x) es nulo cuando ai(x) lo resulte también; o sea, si el conjunto A de los x por los cuales ai(x) = 1 está contenido en el conjunto B de los x para los cuales aj(x) = 1. La formalización matemática de este particular se expresa a través de la cuasi-implicación ai → aj, cuyo significado encierra que cuando ai se encuentra presente entonces, generalmente, aj se halla también.1,2
La intensidad implicativa persigue expresar la inverosimilitud (“asombro”) del número de contraejemplos que invalidan la regla ai → aj, para lo cual se compara el número de contraejemplos observados con los contraejemplos esperados, bajo la hipótesis de ausencia de relación.1,2 En el AEI el nivel de confianza se establece a partir de la intensidad implicativa.
Las llamadas R-reglas están entre los atributos del conjunto A:
Análisis cohesitivo realizado a los datos
La cohesión surge como una medida de la calidad implicativa para descubrir R-reglas R´ → R´´ con una fuerte relación entre sus componentes. Por ejemplo, la regla (a1 → a2) → (a3 → a4) se forma si las relaciones implicativas a1 → a3, a1 → a4, a2 → a3 y a2 → a4 resultan relevantes. Esto significa que se debe contrastar con el desorden de una experiencia aleatoria, y la entropía tiene que ser conveniente para medirlo.1,2
La entropía constituye la cantidad media de información de una fuente binaria, con probabilidad de éxito, igual a la intensidad implicativa de la regla ai → aj, o al valor medio de la incertidumbre de un observador antes de conocer si ocurre o no el evento ai → aj. La cohesión estructura el conocimiento en forma de reglas y metareglas para superar la articulación de las partes de una tipología clásica y alcanzar un todo significativo de carácter no lineal, asimétrico, jerárquico y dinámico.
La determinación de los índices de intensidad implicativa y cohesitiva entre clases de variables permite construir un árbol jerárquico, en el cual los nodos significativos se corresponden con una clasificación compatible a los valores de implicación y cohesión entre clases de variables.1,2
Tipicalidad y contribución a partir del análisis cohesitivo
Este cálculo indica cuál individuo o variable resulta más típica o contributiva. También establece las categorías que pueden conducir a los mismos valores de tipicalidad y contribución. La noción de tipicalidad se determina por individuos “típicos” del comportamiento de la población; o sea, con una intensidad de implicación similar a la de la regla; mientras que la contribución delimita los sujetos que contribuyen más que el resto a la creación de la regla.1,2
Los conceptos esenciales del análisis clasificatorio y el AEI expresan las posibilidades de procesar la información, principalmente en investigaciones de salud. Este método exige profundizar en sus potencialidades para el tratamiento estadístico de los datos. Se ha omitido el análisis del índice de implicación-inclusión, también llamado índice de implicación, versión entrópica.
Uso del AEI en investigaciones de salud
Las técnicas del AEI buscan construir particiones, dispuestas de forma ascendente en árbol y grafos, mediante criterios de similitud, y jerarquía de la implicación y la cohesión de variables, de gran utilidad en la determinación de relaciones causa-efecto. El uso del AEI en la identificación de los factores pronósticos de los cánceres de pulmón, mama y próstata en Santiago de Cuba complementó la regresión logística, favoreció un mejor juicio de la causalidad y elevó la calidad de la investigación.11,12)
Al estudiar el estado nutricional de los pacientes egresados de la Unidad de cuidados intensivos e intermedios del Hospital Provincial “Saturnino Lora Torres” de Santiago de Cuba, se demostró que el AEI identifica factores pronósticos con buenos resultados en los indicadores de eficacia estimados. Asimismo, contribuyó a una mejor interpretación de la evolución del cáncer renal, junto con la regresión logística binaria. La mayoría de las investigaciones concluyen que este método favorece el análisis de los factores pronósticos.13,14,15,16,17
Un estudio realizado en Ecuador estableció una clasificación casi perfecta de imágenes de resonancia magnética del cerebro, por las equivalencias encontradas entre ellas gracias al AEI. Igualmente, en la región fronteriza Uruguay-Brasil, se adoptó este análisis para evaluar la competencia profesional y lingüística del personal de la salud, y determinó las dificultades y las ventajas de la lengua materna en el trabajo de la asistencia médica.18,19,20
En Nantes, Francia, este método se utilizó para evidenciar las relaciones entre formas particulares de expresión de genes, reveladoras de mecanismos de corregulación genética, y aportó un conocimiento más selecto porque discriminó entre diferentes fenotipos, con una exactitud comparable a las mejores técnicas de clasificación en este ámbito.17,18,19,20
También se empleó en la caracterización de los perfiles del procesamiento visual en niños disléxicos. Estableció una preferencia de componentes de horizontalidad en la detección del movimiento, lo cual indicó dificultades en la integración de los rasgos del desplazamiento en el espacio. Evidenció, además, problemas funcionales de determinado grupo de células de la corteza visual.21,22,23
Conclusiones
El AEI constituye una forma rápida de procesar las relaciones entre un conjunto de variables. Se diferencia de las técnicas tradicionales de asociación porque encuentra sucesos raros, que pasarían desapercibidos a medidas como el soporte y la confianza. Esto permite comprender mejor los resultados, y resulta muy útil en el análisis de fenómenos biomédicos complejos, dinámicos y sensibles a pequeñas variaciones de sus condiciones.
Los resultados del AEI no se afectan por observaciones atípicas, lo cual constituye una ventaja sobre las técnicas estadísticas clásicas empleadas para identificar los procesos de salud-enfermedad. Además, generan reglas asimétricas entre variables, representadas por tablas (clusters no jerárquicos), gráficos (reglas de asociación) y dendrogramas (clusters orientados jerárquicamente) que relacionan un volumen de datos.
Las relaciones de implicación y similaridad manifiestan el fenómeno a través de la estructuración de sus clases y sobre el esbozo del modelo que explicaría los resultados. La identificación de factores pronósticos en algunas patologías y condiciones médicas, a partir de este método, han confirmado su validez y las posibilidades de aplicación en el campo de la salud.