Introducción
La enfermedad vascular cerebral isquémica constituye una causa importante de morbilidad y mortalidad, así como de discapacidad en todo el mundo.
En el espectro clínico de esta enfermedad se incluyen el evento vascular cerebral isquémico (ECVI) y el ataque isquémico transitorio, que clásicamente eran diferenciados con base en la duración del cuadro clínico, no obstante, actualmente se usan los hallazgos radiológicos para clasificarlos. De esta manera, se entiende como evento vascular cerebral isquémico al deterioro neurológico súbito y focal con evidencia de un infarto en los estudios de imagen.1
Con el aumento de la incidencia y los costos sanitarios de su atención, la estratificación temprana del riesgo de accidente cerebrovascular no invasivo es vital. El paradigma actual de evaluación y mitigación del riesgo de accidente cerebrovascular se centra en los factores de riesgo clínico y las comorbilidades asociadas.2
A pesar de existir cuantiosos modelos predictivos de enfermedad vascular cerebral isquémica en la literatura médica son pocos los que se utilizan en la práctica clínica diaria pues, los modelos predictivos son diseñados para la población general y no para grupos específicos de riesgo; además, para su uso dependen en gran medida de una correcta validación y una utilidad práctica incuestionable.
El objetivo de esta investigación fue el desarrollo y validación interna de un modelo de predicción de riesgo para estimar la probabilidad de un evento vascular cerebral isquémico en poblaciones específicas de alto riesgo (hipertensos esenciales).
Métodos
Se realizó un estudio prospectivo de cohorte para desarrollar y validar un modelo de predicción de riesgo para estimar la probabilidad de un evento vascular cerebral isquémico en hipertensos esenciales mediante el uso de algoritmos de regresión lineal múltiple, en el cual se reclutaron todos los pacientes atendidos consecutivamente en la Consulta Externa de Medicina de adultos del Hospital Militar Central Dr. Luis Díaz Soto en el período comprendido entre el 1 de enero y el 30 de diciembre de 2012 (1 año).
El diseño del estudio o la fuente de datos adoptados permitieron medir cada predictor y resultado relevante, minimizando así la cantidad de valores faltantes y pérdidas durante el seguimiento, para controlar el sesgo de cegamiento de la evaluación de los predictores.
El universo de estudio lo constituyó toda la población atendida durante el período de reclutamiento (N = 1200) y la muestra (n = 250), los pacientes de 15 años o más, de ambos sexos con diagnóstico confirmado de hipertensión arterial esencial o primaria con factores de riesgo asociados (cohorte expuesta) y sin factores de riesgo concomitantes (cohorte no expuesta) a partir de su inclusión.
Los criterios de exclusión definidos para el estudio fueron:
Pacientes con ataques isquémicos transitorios.
Pacientes a los que no se les pudo realizar estudios de neuroimagen.
Pacientes con ECV antigua detectada por tomografía axial computarizada (TAC) en forma incidental, sin historia clínica compatible con un evento agudo.
Pacientes con hemorragias intracraneales.
Población menor de 15 años de edad.
Pacientes que no aceptaron participar en el estudio.
En la muestra analizada se valoró todo el conjunto de datos, pues incluyó a los individuos con datos faltantes para evitar el sesgo de selección y sus estimaciones erradas e implicaciones negativas en el rendimiento predictivo del modelo.
Los participantes completaron un cuestionario y de cada paciente se extrajeron las siguientes variables: edad, sexo, color de la piel, antecedentes médicos, factores de riesgo premórbidos e información sobre los estilos de vida.
En la operacionalización de variables se utilizaron las definiciones de ECVI de la Organización Mundial de la Salud (OMS).3
La variable de interés fue la aparición o muerte relacionada con ECVI (n = 104 casos) durante el período de seguimiento (2012-2022). Para identificar estos resultados, se siguió a los participantes de la cohorte a lo largo del tiempo se utilizaron varios métodos como: entrevistas telefónicas anuales, exámenes trienales, vigilancia en hospitales, revisión de certificados de defunción, informes de necropsias y entrevistas con informantes.
Aspectos éticos
Se realizó previa explicación a cada paciente, se le solicitó su consentimiento informado escrito para participar voluntariamente en el estudio. El equipo de investigadores aseguró una estricta confidencialidad de la información personal de los pacientes participantes hasta el final del estudio.
También se tomaron en cuenta los principios éticos que declara la Declaración de Helsinki4
Análisis estadístico
Inicialmente se realizó un análisis descriptivo de las variables cuantitativas de base, se calcularon las medidas de tendencia central y las proporciones con un intervalo de confianza del 95 %.
En el análisis multivariado se estableció la relación de los factores de riesgo con el evento vascular cerebral isquémico mediante la prueba de correlación lineal de Pearson. Se diseñó un modelo explicativo de regresión lineal múltiple que incluyó las principales variables asociadas con el desenlace de acuerdo con las recomendaciones de la guía TRIPOD.5
Se realizó una validación interna del modelo (estimar qué tan bien un modelo puede predecir observaciones futuras) mediante validación cruzada (Cross validation) en R con la técnica de enfoque de conjunto de validación. Por último, se calculó la calidad del modelo, se utilizó la métrica error cuadrático medio (RMSE).
La matriz de datos fue construida en el paquete estadístico Statistical Package Social Science (SPSS) versión 25.0 y se estableció una significancia estadística para valores de p< 0,05.
Resultados
De los 250 casos de estudio, la edad media fue 60,5 años (+/- 16,8 DE; IC), la moda 78 años y el rango de edad 16-100 años. Del total, 12 pacientes (4,8 %; IC 95 %) fueron del sexo femenino y 238 (95,2 %; IC 95 %) masculinos. La mitad de los pacientes con enfermedad cerebrovascular isquémica (50,5 %) se encontró en el grupo de 50 a 65 años.
En la aplicación de la técnica de regresión lineal múltiple se siguió cinco pasos: selección de la variable dependiente; selección de las variables explicativas; verificación de los supuestos necesarios para poder aplicar adecuadamente la técnica y su importancia explicativa; interpretación del modelo resultante, donde se identificaron las variables predictoras propuestas, y el establecimiento de la bondad de ajuste del modelo y su capacidad predictiva:
Paso 1. Selección de la variable dependiente
El primer paso fue la selección de la variable dependiente (evento vascular cerebral isquémico), cuyos valores se pretenden explicar mediante el resto de las variables.
Paso 2. Seleccionar las variables predictoras o explicativas
La selección de las variables independientes fue orientada por su pertinencia según la fundamentación teórica del estudio, así como por la significación empírica que se obtenga con el modelo. Para hacer esta selección se utilizó el método backward stepwise, donde todas las variables predictivas son ingresadas al modelo, luego el predictor más débil es removido y se recalcula la regresión. Si el modelo se debilita significativamente, la variable es reingresada, en caso contrario es eliminada.
Las variables seleccionadas (dependientes e independientes) fueron continuas.
Para evitar inestabilidad del modelo, es decir cambios importantes en los resultados ante variaciones menores en las variables predictoras, la muestra seleccionada se realizó sobre la base de 10 casos mínimo con el resultado que se analiza por cada variable para evitar la sobresaturación del modelo, quedando conformada por 250 pacientes en total, de ellos 104 pacientes con diagnósticos de evento vascular cerebral isquémico.
Paso 3. Verificación de los supuestos necesarios para poder aplicar adecuadamente la técnica
Para aplicar la regresión lineal múltiple que propusimos, los datos debían cumplir con los supuestos necesarios para que se obtenga un resultado válido como: linealidad, independencia, homocedasticidad, normalidad y no colinealidad. Estos supuestos se estudiaron con las puntuaciones residuales, se analizaron la diferencia entre las puntuaciones observadas y las predichas por el modelo de regresión.
Supuesto 1. Linealidad.
En el diagrama de dispersión matricial se observó relación neta entre las variables representadas. El supuesto de la linealidad se verifica al demostrar que la relación entre las variables seleccionadas es lineal.
No se observan en el diagrama de dispersión valores atípicos (outlier) influyentes en el conjunto de datos, que puedan tener un efecto negativo en el análisis de regresión (por ejemplo, reducir la bondad de ajuste y la precisión predictiva del modelo).
Supuesto 2. Independencia de las observaciones.
Se verifica mediante el estadígrafo de Durbin-Watson que los datos procesados en el análisis son independientes, es decir, que han sido obtenidos a través de un muestreo aleatorio.
El coeficiente de Durbin-Watson tiene un valor aceptable, suficientemente cercano a 2, se asume que no existe correlación entre residuos consecutivos (los residuos son independientes), por lo que damos por satisfecho el supuesto de independencia de las observaciones.
Supuesto 3. Homocedasticidad.
Mediante el diagrama de dispersión (ZPRED = pronósticos tipificados y ZRESID = residuos tipificados) se verificó el supuesto de la homocedasticidad que implica que los errores tengan varianza constante. En el gráfico no se visualizan pautas de asociación lo que supone que la variación de los residuos es uniforme.
Mediante el gráfico que representan los valores predichos por el modelo en el eje de las X y los residuos en el eje de las Y, se pudo contrastar la independencia, la homocedasticidad y la linealidad de los residuos. Los residuos están aleatoriamente distribuidos a lo largo del gráfico, sin formar ningún tipo de patrón.
La hipótesis de homocedasticidad establece que la variabilidad de los residuos es independiente de las variables explicativas. En general, la variabilidad de los residuos estará en función de las variables explicativas, pero como las variables explicativas están fuertemente correlacionadas con la variable dependiente, bastará con examinar el gráfico de valores pronosticados versus residuos al cuadrado.
No hay patrones heterocedasticidad ya que no se constató ninguna forma de abanico o embudo en el gráfico.
Supuesto 4. Distribución normal de los residuos.
El histograma de residuos y el gráfico de probabilidad normal intuyen la normalidad de los residuos, pues representa las proporciones acumuladas de la variable esperada respecto a las proporciones acumuladas de la variable observada. La gráfica P-P muestra que los residuos, aunque están ligeramente sesgados, y se distribuyen aproximadamente como una distribución normal.
Para una aproximación más analítica se realizó la prueba de Kolmogorov- Smirnov para una muestra, donde la significación asintótica bilateral es 0,733 > 0,05, se asume que las variables siguen la ley normal; por tanto, confirma que el modelo de análisis de regresión lineal es confiable.
Se verifica, en consecuencia, razonablemente bien el supuesto de distribución normal de los residuos.
Supuesto 5. No colinealidad.
Para detectar multicolinealidad entre las variables independientes como aparece en la tabla 3, se determinó la tolerancia y el factor de inflación de la varianza (FIV). La tolerancia se basó en la correlación múltiple de una determinada variable independiente con las restantes. Es un indicador de la variabilidad de cada variable independiente que no está explicada por las otras variables independientes en el modelo.
Se verificó el supuesto de no colinealidad entre las variables, como puede apreciarse en la columna de tolerancia, que fue alta > 0,10 en todos los casos como lo demuestra la tabla 4. En la columna FIV los valores son < 10 en todos los casos.
El cumplimiento de los supuestos sugiere que el modelo está bien especificado.
Paso 4. Interpretación del modelo.
El análisis de correlaciones se realizó mediante el coeficiente de correlación lineal de Pearson; r, donde se calcula el grado de asociación lineal entre pares de variables.
Se aprecia que los coeficientes son cercanos a 1, indicando mejor asociación lineal entre el par de variables (correlación buena en orden decreciente para la hipertensión arterial severa, la diabetes mellitus, la dislipidemia, el tabaquismo activo, la correlación regular para la hipertensión moderada y ligera, la correlación mala para la edad, el sexo y el color de la piel).
El signo positivo del coeficiente indica que la asociación es directa (cuando una variable crece la otra también). Del mismo modo, p -valor del contraste es menor que 0,05, por lo que podemos concluir que la correlación es altamente significativa. No se reportan interacciones clínicamente significativas entre los predictores del modelo (tabla 1).
Tabla 1 Matriz de correlaciones lineales entre la variable dependiente y las independientes
|
||||
---|---|---|---|---|
Hipertensión ligera | ,388** | ,082 | 8,481 | ,000 |
Hipertensión moderada | ,518** | ,117 | 12,096 | ,000 |
Hipertensión severa | ,876** | -.200 | - 20,577 | ,000 |
Tabaquismo activo | ,721** | ,168 | 17,269 | ,000 |
Diabetes |
,772** | ,181 | 18,615 | ,000 |
Dislipidemia | ,726** | ,171 | 17,635 | ,000 |
**La correlación es significativa en el nivel 0,01 (bilateral).
Para generar el modelo de regresión lineal múltiple se definió la magnitud de la relación de la o las variables predictoras sobre la variable resultante o predicha mediante el cálculo del coeficiente de determinación (R2).
El valor del R2 es de 0,829; se traduce que el modelo permite explicar el 82,9 % de la variable dependiente. El valor del R2 -ajustado es de 0,819, valor que expresa que hay buen ajuste entre los datos reales y los datos modelados de predicción.
El coeficiente de determinación alcanzado se expresa como una medida de la proporción de la variabilidad explicada por el modelo ajustado.
El modelo es bastante bueno, tenemos un coeficiente de determinación R cuadrado muy próximo a 1 y la dispersión es 2,01 que es bastante baja; además, los residuos no están autocorrelacionados como indica el estadístico de Durbin-Watson ya que en los valores próximos a 2 son los más óptimos.
En la tabla del análisis de la varianza del modelo (ANOVA), se rechaza el contraste de regresión ya que la diferencia entre el modelo reducido (solo con el término independiente) y el modelo con las 3 variables regresoras es significativa. Se verificó que (de forma conjunta) las variables explicativas aportan información en la explicación de la variable de respuesta. El nivel de significación p < 0,05 rechaza la hipótesis nula (las variables explicativas influyen de forma conjunta y lineal sobre Y) (tabla 2).
Tabla 2 Tabla de salida de ANOVA para regresión
1 | Regresión | 18,975 | 6 | 3,163 | 78,464 | ,000(b) |
Residual | 3,910 | 97 | ,040 | ( | ( | |
Total | 22,885 | 103 | - | ( | ( |
a. Variables dependiente: ATI.; b. Predictores:(constante), HTA severa, Dislipidemia, Diabetes Mellitus.
La tabla 3 indica las variables que se incluyen en el modelo, así como aquellas que son significativas (la significatividad es necesaria para que la variable sea considerada como predictora).
Tabla 3 Modelo de regresión lineal múltiple
|
||||||||
---|---|---|---|---|---|---|---|---|
|
||||||||
1 | (Constante) | ,086 | 0,34 | 2,531 | ,003 | |||
HTA severa | ,560 | ,075 | ,535 | 7,517 | ,000 | ,347 | 2,880 | |
Diabetes |
,559 | ,072 | ,570 | 7,780 | ,000 | 3,28 | 3,05 | |
Dislipidemia | ,423 | ,122 | ,434 | 3,478 | ,001 | ,113 | 8,850 | |
Tabaquismo activo | ,432 | ,131 | ,437 | 3,481 | ,001 | 114 | 8,856 |
a. Variables dependiente: ATI.
El modelo de regresión lineal múltiple puede ser descrito a partir de la siguiente ecuación:
Donde Y es una variable dependiente, X1 es la primera variable independiente y b1 el primer coeficiente de regresión asociado con ella y así sucesivamente.
Después de todos los cálculos y ajustes realizados hasta aquí, tenemos el modelo como mejor ecuación para predecir el puntaje de ECVI:
Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste realizado. Un estadístico que facilita esta medida es el Coeficiente de Determinación R2, que se define como la medida de la eficacia del ajuste de la ecuación de regresión de la muestra a los valores observados de la variable respuesta (tabla 4).
Tabla 4 Resumen del modelo
Modelo | R | R cuadrado | R cuadrado corregida | Error típico de la estimación |
---|---|---|---|---|
1 | ,645 | ,410 | ,409 | 3,35751 |
El modelo definido sobre la predicción del ictus cerebral isquémico explica el 41 % de la varianza de la variable dependiente de forma significativa como puede observarse en la significación de la ANOVA (p= 0,00).
En la validación interna del modelo se empleó la técnica de validación cruzada (en lugar de técnica de remuestreo de datos o bootstrapping), donde se divide la muestra del estudio original en dos conjuntos: uno se utiliza para entrenar el modelo (es decir, estimar los parámetros del modelo) y el otro conjunto se utiliza para probar el modelo. Al comparar los diferentes modelos, el modelo propuesto es el preferido a usar porque tiene el error de predicción más bajo basado en los valores de RMSE.
Discusión
Actualmente, la gran mayoría de los modelos de predicción de riesgo se construyen utilizando técnicas de minería de datos y de aprendizaje automático.
Las técnicas de aprendizaje automático aún en investigación activa y validación externa prospectiva en la práctica clínica habitual (algoritmo refuerzo de gradiente extremo XGBoost, árbol de decisión, bosque aleatorio, descenso de gradiente estocástico, potenciador de gradiente, naive Bayes, máquina de vectores de soporte y redes neuronales como perceptrón multicapa), podrían conducir a predicciones más confiables y personalizadas que las asociaciones estadísticas estándar basadas en regresión.6,7,8,9,10 No obstante, un valor incremental del rendimiento de las técnicas de aprendizaje automático de última generación (en relación con la precisión, la discriminación, la calibración, el análisis de la curva de decisión, la utilidad clínica) sobre los modelos de regresiones lineales convencionales siguen siendo controvertidos.
Por otra parte, estos algoritmos adolecen de presentar insuficiencias para su aplicabilidad como son: problemas en términos de calibración, requieren enormes tiempos de cálculo, muestran riesgo de sobreajuste en conjuntos de datos relativamente pequeños y falta de interpretabilidad entre otros.
Si bien los modelos basados en regresión lineal no manejan de manera ideal los desafíos analíticos múltiples, se mantienen como un método de inferencia estadística tradicional que ofrece un alto poder predictivo para identificar enfermedades y seleccionar opciones de tratamiento sin una comprensión profunda de los mecanismos subyacentes.11
Las técnicas de análisis de regresión lineal múltiple constituyen herramientas estadísticas robustas para la predicción del riesgo de enfermedad en un entorno de datos limitados y de baja dimensión. Estos métodos nos ayudan a tomar decisiones en presencia de incertidumbre, emitir juicios diagnósticos o pronósticos e incluso hacer recomendaciones terapéuticas en los que se asumen cierto grado de error.
Las variables predictoras seleccionadas por el modelo en la investigación realizada son consistente con la reportada en la puntuación del estimador de riesgo para predecir la recurrencia de accidente cerebrovascular de Essen Stroke Risk Score (ESRS).12 El modelo utilizado con un enfoque paramétrico del análisis de tiempo hasta el evento en Elhefnawy y otros13,14 y Ifeanyichukwu y otros15 incluyeron como variables independientes con alto poder predictivo de evento a la hipertensión arterial, la diabetes mellitus y la dislipidemia.
Lo que parece incuestionable es que los modelos pronósticos obtenidos con estas técnicas estadísticas subvalorados, permitirán la estimación de riesgos más precisos y personalizados, que podrán facilitar la toma de decisiones de los médicos en el entorno de la atención primaria en el momento adecuado para individualizar aún más los enfoques preventivos.
Se recomienda la validación externa, la recalibración y la actualización del modelo para poder generalizar los resultados en cuanto al conjunto de la población.
Como aporte científico se tiene que el modelo pretende realizar un cribado precoz del ictus isquémico para proporcionar información sobre la importancia de un seguimiento estrecho de esta incapacitante enfermedad y de los factores de riesgo relacionados, por tanto, es necesario establecer parámetros neuroepidemiológicos con la certeza de tener un diseño de estrategia de intervención eficaz para la atención primaria de salud.
El autor de la investigación plantea como limitante en el estudio que no fue representativa la población estudiada, ya que no involucró grandes muestras de referencias ni grupos étnicos característicos en el país. El algoritmo propuesto predice el riesgo mediante asociaciones estadísticas basadas en la regresión lineal múltiple, estas son útiles y fáciles de instrumentar en la práctica clínica ya que tienen una precisión predictiva moderada en comparación con los modelos estadísticos de análisis multivariados, estos algoritmos son capaces de modelar relaciones complejas, dinámicas y ocultas entre las múltiples variables como es el aprendizaje automático profundo, basados en redes neuronales y un modelado computacional multiescala, entre otros.
Se concluye que el modelo demostró buena bondad de ajuste y validez interna; además, de ser un buen predictor de enfermedad vascular cerebral isquémica en el paciente hipertenso.