Introducción
Las enfermedades cardiovasculares son las enfermedades crónicas no trasmisibles más comunes, responsables de 17,8 millones de muertes a nivel mundial; estas afectan, de manera creciente, a poblaciones en edad laboral y contribuyen desproporcionadamente a la pérdida de años potenciales de vida saludable y de productividad económica, situación que es reconocida como un problema de salud pública mayúsculo y creciente en el mundo y en Cuba.1,2
En Cuba, en el año 2020, las enfermedades del corazón, ocuparon el primer lugar dentro de las causas de muerte, con una tasa de 267,3 por 100 000 habitantes, se incrementó también la mortalidad para las enfermedades cerebrovasculares.3
Las tablas de riesgo son métodos simplificados, basados en funciones matemáticas que modelan el riesgo de los individuos de distintas cohortes de poblaciones seguidas, generalmente durante 10 años, en las que se establece un algoritmo matemático que permite obtener el porcentaje de sujetos que pueden desarrollar un evento cardiovascular.4
En diferentes países han sido desarrollados varios modelos de riesgo, que usualmente estiman el riesgo para un período de 10 años, usando factores de riesgo convencionales, como Framingham clásica y por categorías, REGICOR para España, SCORE, PROCAM y recientemente las tablas de la OMS para diferentes regiones del mundo, aprobadas para su uso en la población cubana, entre otras.5
La limitación más importante de las funciones de riesgo es su baja sensibilidad, de manera que gran parte de los acontecimientos cardiovasculares se presentan en el grupo de la población con riesgo intermedio, otras limitaciones son: necesitan recalibrarse cuando se usan directamente a poblaciones distintas de donde fueron diseñados, consideran un número limitado de factores de riesgo tradicionales o clásicos, sin incluir factores metabólicos y biomarcadores de inflamación, a pesar de que pueden ser un riesgo independiente de complicaciones vasculares, la definición del nivel de riesgo y los puntos de corte es arbitraria y no tienen en cuenta que el riesgo es un continuo, más que un proceso aditivo.1,4,5,6,7
La obtención de conocimiento en un dominio de aplicación a partir de datos presentes es una práctica muy actual, el aprendizaje automático (Machine Learning, ML) es una subárea de la inteligencia artificial, que tiene como objetivo diseñar algoritmos que realizan el aprendizaje en los datos disponibles, son capaces de procesar grandes cantidades de datos y transformarlos en conocimiento, lo que permite tomar decisiones o acciones inteligentes.8,9
Varios estudios muestran que los modelos de predicción cardiovascular diseñados con algoritmos de machine learning exhiben un desempeño superior cuando son comparados con los modelos tradicionales y pueden predecir el riesgo cardiovascular eficazmente.10,11,12
Hasta el momento, no se dispone de un modelo de predicción del riesgo de enfermedad cardiovascular en la atención primaria de salud a partir de datos de seguimiento de cohortes de poblaciones cubanas.
El objetivo de la investigación fue diseñar un modelo predictivo para estimar el riesgo de enfermedad cardiovascular basado en técnicas de inteligencia artificial.
Métodos
La población de estudio de 35 a 74 años perteneciente al policlínico docente “José Ávila Serrano”, de Velasco, Holguín, en Cuba.
Los datos utilizados en la investigación provienen de la cohorte del estudio PredRCG_aps, que incluyó 857 pacientes del sexo femenino y 776 del masculino, con edades de 35 a 74 años sin antecedentes de enfermedad cardiovascular a la inclusión, seleccionados aleatoriamente, que fueron seguidos durante 10 ± 1,3 años, desde enero 2008 hasta diciembre de 2019; se realizaron evaluaciones clínicas anuales a cada paciente, la variable resultado fue el desarrollo de un evento cardiovascular mortal o no.13
La base de datos incluyó las siguientes variables predictoras: edad, sexo, hábito de fumar, antecedentes personales de diabetes mellitus e hipertensión arterial, índice de masa corporal, circunferencia abdominal, tensión arterial sistólica y diastólica, colesterol total, lipoproteínas de baja densidad colesterol (LDLc), lipoproteínas de alta densidad colesterol (HDLc), triglicéridos, ácido úrico, glicemia en ayunas y proteína c reactiva de alta sensibilidad (pcr-as o pcr-hs, high sensitivity).13
Fue utilizada WEKA, un software de código abierto, acrónimo de Waikato Environment for Knowledge Análisis, versión 3.9.5, que implementa machine learning y que tiene como objetivo brindar algoritmos de minería de datos.14
Cada caso quedó conformado por 16 atributos o rasgos predictores y un rasgo de decisión, Evento, donde se indica si el paciente desarrolló o no el evento cardiovascular, cuyo dominio es {Evento = SI, Evento = NO}, con dos clases de decisión: 1531 pacientes, no desarrollaron el evento cardiovascular y 102 sí.
La etapa Preprocesamiento consistió en la preparación y limpieza, se convierten o discretizan los datos validándolos, para un manejo estandarizado y homogéneo, permitiendo obtener mejores resultados según las características del algoritmo a utilizar, aplicándose filtros supervisados sobre los atributos o las instancias.
Para balancear ambas clases, fue aplicado el algoritmo supervisado dirigido a las instancias, SMOTE (Synthetic Minority Over-sampling TEchnique).15
Se emplearon técnicas de selección de atributos integradas en Weka para obtener un subconjunto más reducido de variables significativas: CfsSubsetEval, con el método de búsqueda Best First, Wrapper SubsetEval con J48 y Correlation Attribute Eval, con el método Ranker.
Se ejecutaron los siguientes algoritmos de clasificación de Weka: el algoritmo de clasificación de reglas JRip, los meta algoritmos de clasificación Attribute Selected Classifier, usando como algoritmos clasificadores el J48 y el algoritmo de clasificación de funciones Multilayer Perceptron, en ambos usando como evaluador el CfsSubsetEval y como método de búsqueda el BestFirst.
Se compararon los modelos obtenidos y se aplicaron las métricas más usadas para clases desbalanceadas, basadas en la matriz de confusión como: la tasa de verdaderos positivos (TPrate, en inglés) y tasa de falsos positivos (FPrate, en inglés), en la clase de interés, que fue la minoritaria, es decir Evento = SI, el área bajo la Curva de Operación del Receptor (ROC) y la curva Precisión_Recall (PRC).
Al disponer de una sola base de datos, se utilizó el conjunto de datos para entrenamiento y para la validación se utilizó la validación cruzada con 10 particiones (10folds cross -validation).
La investigación, desde el punto de vista ético, cumplió con la Declaración de Helsinki,16 se protegieron los derechos y confiabilidad de las personas en el estudio, la investigación fue revisada y aprobada por el Comité de Ética de la Investigación Clínica de la institución.
Resultados
Se emplearon técnicas de visualización de información para mostrar la distribución de los rasgos predictores seleccionados entre las 2 clases de decisión, la figura 1 refleja que la proporción fue superior en los pacientes que desarrollaron el evento cardiovascular, fue más marcada la diferencia en el antecedente de hipertensión arterial, las cifras de tensión arterial sistólicas mayor de 140 mmHg, el índice de masa corporal mayor de 30 Kg/m2 y de proteína c reactiva de alta sensibilidad (pcr-as) mayor de 3 mg/dl, se consideraron en los rasgos los valores considerados en riesgo o elevados, como las clases muestran un alto desbalance, el porcentaje fue superior en la clase minoritaria, Evento SÍ, que es la clase de interés.
Al aplicar los métodos de selección, los atributos de mayor significación fueron: edad, hábito de fumar, antecedentes personales de hipertensión arterial, tensión arterial sistólica, circunferencia abdominal, triglicéridos, colesterol lipoproteína de alta y baja densidad, glicemia en ayunas y proteína c reactiva de alta sensibilidad.
La extracción de reglas con el algoritmo JRip se muestran en la tabla 1, se sustituyó el valor de referencia usado en la práctica médica en cada categoría codificada, la reglas se generaron en la base de datos de entrenamiento, la premisa de la regla (antecedente) es una condición que se debe cumplir para que se tenga la decisión que aparece como consecuente; en la clase minoritaria Evento SI, ya balanceada se obtienen indicadores aceptables, con una tasa de verdaderos positivos de 0,959 y un área bajo la curva ROC de 0,977, al final en paréntesis se muestran los aciertos y errores en cada regla.
La figura 2 muestra una fracción del árbol de decisión obtenido con el algoritmo J 48, se seleccionaron los atributos predictores más significativos, para ir creando nodos de forma descendente y recursiva; los nodos más próximos a la raíz son los mejores predictores y, a partir de ellos, el proceso se repite para generar ramas en el árbol con nuevos nodos a partir de los datos restantes, el antecedente de hipertensión arterial (apphta) fue el rasgo más significativo, seguido por el colesterol hdl y el colesterol ldl, la proteína c reactiva (pcr-as) y las cifras de tensión arterial sistólica (tas), a partir de ellos se derivaron todas las reglas de predicción.
La arquitectura de la red neuronal se muestra en la figura 3, quedó conformada por las neuronas en la capa de entrada, que corresponden a los rasgos predictores, once neuronas en la capa oculta y dos neuronas en la capa de salida que corresponden a la clase decisión SÍ y NO, en las 500 épocas del proceso (epochs), el error fue disminuyendo de 0,0132428 hasta llegar a 0,0063552, con una tasa de aprendizaje (learning rate) de 0,3 y el momentum de 0,2.
Los algoritmos clasificadores (tabla 2) nos muestran que son efectivos para generar el modelo predictivo, al comparar las métricas en el test de entrenamiento y validación cruzada, en la clase minoritaria Evento = SI, el mejor desempeño se evidencia con el algoritmo Multilayer Perceptron.
Discusión
La obtención de conocimiento en un dominio de aplicación a partir de datos presentes se convierte en una práctica muy actual, han sido desarrolladas numerosas técnicas de descubrimiento del conocimiento desde la inteligencia artificial; los términos aprendizaje automático, minería de datos y de textos, nos resultan familiares, el conocimiento generado por ellas puede utilizarse para la construcción de modelos inteligentes y aumentar el conocimiento existente en dominios de aplicación como la predicción del riesgo de enfermedad cardiovascular.16
Con pocos atributos, los más significativos o los que tienen más peso, se obtiene una mejor clasificación y se evita el sobreajuste (overfitting) del modelo diseñado y que este sea más comprensible, ignorándose los atributos no significativos.17
Dentro de los modelos de predicción, los arboles de decisión son los más utilizados por una serie de razones que los hacen especialmente atractivos como: la sencillez del modelo, la amplitud de implementaciones que existen, la rapidez de clasificación de nuevos patrones, la posibilidad de representarlos gráficamente aportando así una explicación de la división efectuada, la fácil interpretación, en caso de no ser excesivamente grandes y la posibilidad de obtener las reglas por las cuales asignamos cada una de las probabilidades.17
Como apreciamos, el mejor desempeño se alcanzó con el modelo predictivo creado por el algoritmo Multilayer Perceptron, en la red neuronal el aprendizaje se produce por medio de la retropropagación, el algoritmo compara el resultado de la capa de salida con el resultado deseado y asume que el error en la unidad de salida se debe a errores en las unidades conectadas con ella, y para corregirse realiza ajustes en los pesos asignados en la red desde la capa de salida hasta la capa de entrada, hacia atrás, de ahí el término de retropropagación.18,19
Una de las limitaciones para la implementación practica de estos sistemas de inteligencia artificial de tanto potencial como los modelos algorítmicos basados en redes neuronales artificiales, es que no hay suficiente comprensión de las reglas que generan, dificultando la interpretación, comportándose como cajas negras (black boxes, en inglés).8,20,21
El aprendizaje automático es parte fundamental en un proceso de análisis predictivo, ya que proporciona las técnicas de análisis de datos mediante las cuales se pueden descubrir relaciones entre variables que en un principio pueden parecer insignificantes, o cuya significación es incierta, pero que tras la aplicación de estas técnicas puede descubrirse la trascendencia de las mismas.22
La minería de datos es una ciencia experimental, existen una gran cantidad de técnicas de preprocesamiento, así como algoritmos de clasificación, pero no hay un método único, universal y mejor para un problema específico, necesitamos encontrar los métodos de aprendizaje que trabajen mejor ante un determinado problema.8,23,24
No encontramos, en la revisión bibliográfica, modelos predictivos sobre riesgo cardiovascular en Cuba basados en la inteligencia artificial, lo que nos limitó hacer comparaciones, el modelo obtenido incorpora predictores noveles como la circunferencia abdominal, los triglicéridos, la glicemia en ayunas y la proteína c reactiva de alta sensibilidad, no contemplados en los modelos tradicionales.
Estos predictores noveles están involucrados en los mecanismos de resistencia a la insulina, inflamación y aterosclerosis, en ocasiones subclínica, muchas veces, el evento cardiovascular es mortal o no, la primera manifestación clínica.
La resistencia a la insulina incluye una variedad de trastornos en el metabolismo de lípidos, como aumento del nivel de triglicéridos plasmáticos y disminución de colesterol de HDL; los trastornos de la glucemia en ayuna, intolerancia a carbohidratos y, por último, la diabetes mellitus tipo 2, asociados a la obesidad, que incluye la abdominal, no siempre considerada por el médico en la atención primaria; la hipertensión arterial, teniendo como base un estado proinflamatorio crónico con niveles elevados de pcr-as relacionados directamente con la magnitud de la resistencia a la insulina.13
La inflamación desempeña un papel determinante en el inicio y progresión del proceso aterotrombótico, así como en sus manifestaciones clínicas, la determinación de los niveles de pcr-as determinados mediante un método inmunoturbidimétrico de alta sensibilidad permite detectar la inflamación de bajo grado característica de la aterosclerosis, su estabilidad por largo tiempo durante el almacenamiento, larga vida media y carencia de variación diurna, son factores que han contribuido a que este sea el biomarcador inflamatorio más extensamente evaluado en la actualidad.7,25
Una limitación del estudio fue que no se cuenta con registros informatizados de datos de los pacientes en la atención primaria de salud y por las condiciones logísticas no se pudo disponer de una muestra más amplia de la población, actualmente se implementa el modelo para su aplicación práctica.
Los resultados pueden ayudar a mejorar la predicción de la enfermedad cardiovascular y muestran las capacidades de las técnicas de inteligencia artificial ante la gran cantidad de datos que no puede ser procesada y analizada con métodos tradicionales y nos lleva a hablar de la inteligencia artificial como una nueva forma de generar conocimiento; la medicina y la salud se han convertido en unas de las más prometedoras áreas para la aplicación de los sistemas de inteligencia artificial.26
En conclusión, fue diseñado un modelo predictivo mediante técnicas de inteligencia artificial, lo que constituye un valioso recurso orientado a la prevención de las enfermedades cardiovasculares en la atención primaria de salud.
Aporte científico
Es una de las primeras investigaciones que obtiene un modelo predictivo de riesgo de enfermedad cardiovascular usando técnicas de inteligencia artificial, basado en una cohorte de una población cubana e incorpora predictores noveles relacionados con la patogenia de la aterosclerosis y dota al médico de familia de una herramienta útil para la prevención de la enfermedad cardiovascular en la atención primaria de salud.