Introducción
El SARS-CoV-2 es un virus altamente infeccioso, causante de la COVID-19. En Cuba, hasta el 25 de mayo de 2020 se habían confirmado1963 casos, con un saldo de 82 fallecidos.1
La distribución de la COVID-19 ha sido geográficamente desproporcionada. Ciertos factores climáticos y características de la población se cree que influyen en la transmisión, pero los estudios que examinan estos factores son limitados. Se invoca que la propagación epidémica es más rápida en entornos fríos, secos y de mayor altitud, así como entornos más urbanos.2
En Cuba, la cantidad de casos no ha tenido una distribución homogénea en las diferentes regiones del país, lo cual conduce a formular la siguiente interrogante ¿Qué aspectos estarán influyendo en la distribución no homogénea de la cantidad de casos con COVID-19 en el país?
Dado que el punto de partida de la epidemia en Cuba fueron viajeros procedentes de Italia y la hipótesis que se plantea en la literatura acerca de la influencia de la densidad poblacional sobre esta, conllevó a estudiar la posible relación de estos aspectos, y otros asociados a ellos, en la propagación del virus en Cuba.
Aunque los estudios ecológicos no pueden por sí mismos confirmar la causalidad de los efectos observados, han impulsado una gran cantidad de otros estudios epidemiológicos y de experimentos en condiciones controladas, que cada día dan más pistas sobre los mecanismos que conducen a un aumento en el riesgo de desarrollarse determinado evento.3
El objetivo de este trabajo fue determinar la influencia de la entrada de viajeros y la densidad poblacional sobre la distribución no homogénea de la cantidad de casos con COVID-19 por provincias en Cuba.
Métodos
Este estudio se desarrolla con vistas a lograr una aproximación a la respuesta de la interrogante formulada, para lo cual se emplearon la regresión lineal múltiple (RLM) y el análisis de clúster (AC). La RLM es una técnica estadística que permite establecer la relación que se produce entre una variable dependiente continua Y (respuesta) y un conjunto de variables independientes o covariables 4,5
El AC es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí y los de los objetos de clúster diferentes sean distintos.6
Se desarrolló un estudio ecológico, exploratorio, de grupos múltiples, comparando varias regiones en un mismo momento, siendo las unidades de análisis 16 poblaciones geográficamente bien delimitadas, que se corresponden con las 15 provincias en que se divide la República de Cuba, según la actual división político-administrativa, más el municipio especial de Isla de la Juventud. El período considerado para el estudio se extendió desde el 11 de marzo del presente año, en que se confirmó el primer caso en el país, hasta el 20 de mayo en que se realizó un primer corte exploratorio.
Se estudiaron cinco covariables de los niveles agregado y global. Del nivel agregado: número de viajeros que arribaron a cada provincia en marzo de 2020 (CantViajero), número de viajeros confirmados con COVID-19 (CasosViajCovid) y promedio de contactos que generó cada caso confirmado (PromContactos). Del nivel global: densidad poblacional (DensidadPob) y cantidad de eventos de transmisión hasta la fecha de cierre del estudio (EventosTrasm).
Como variable dependiente o de respuesta se consideró, del nivel agregado, el número acumulado de casos confirmados con COVID-19 (CasosCovid) por provincia hasta el 20 de mayo del presente año.
El número de viajeros se midió solo en el mes de marzo, en relación con la aparición del primer caso, el período de transmisibilidad de la enfermedad y la fecha en que se estableció la medida de restricción de la entrada de vuelos aéreos al país.
Para poder realizar una mejor interpretación de los resultados con respecto a la variable cantidad de viajeros, se consideró como unidad 100 viajeros y con respecto a la densidad poblacional se consideró como unidad 100 habitantes por Km2.
Los datos demográficos se obtuvieron a partir del anuario estadístico de salud, Cuba 2019,7 los referentes a los viajeros del sistema integral de la dirección de inmigración y extranjería de Santiago de Cuba y los asociados a la enfermedad del tablero de las estadísticas de la COVID-19 en Cuba.1
Primeramente, se verificó la normalidad de las seis variables para determinar qué coeficiente utilizar en el análisis de correlación. Al no seguir las variables una distribución normal, se trabajó con el coeficiente de correlación de Spearman. Se aplicó la regresión lineal múltiple (RLM), empleando el método backward step wise selection (selección paso a paso hacia atrás), para seleccionar las covariables que mejor explican la variabilidad en la cantidad de casos con COVID-19 por provincias. Se generaron nuevos modelos que incorporaron las covariables significativas, sus interacciones y sus potencias hasta el orden dos, lo cual permitió identificar el mejor modelo de regresión. Por último, se aplicó el análisis de clúster para obtener grupos de provincias similares en cuanto a las covariables que resultaron significativas al aplicar la RLM.
Todo el procesamiento estadístico se realizó con el Minitab, versión 18.0.
Se mantuvo una conducta bioética acorde a lo dispuestos en la declaración de Helsinki de la Asociación Médica Mundial. Debido a que no se emplearon datos personales no se aplicó el consentimiento informado.
Resultados
Durante el mes de marzo del presente año entraron a Cuba un total de 313 949 viajeros procedentes de más de 177 países, de ellos 153 se confirmaron como casos de COVID-19. A partir de estas entradas, la epidemia se propagó por todo el país, generándose, hasta el 20 de mayo, un total de 1 916 casos positivos, con un promedio de 17 contactos por caso y 42 eventos de trasmisión.
Se obtuvo la matriz de correlación de Spearman y se realizó la prueba de significación para verificar, con un nivel de confiabilidad de 95 %, si el valor de la correlación obtenido es significativamente diferente de cero (tabla 1).
La cantidad de casos con COVID-19 se correlacionó de forma significativa y directa con la cantidad de viajeros con COVID-19 que entraron al país, con la cantidad de eventos de trasmisión y con la cantidad de viajeros en general que entraron al país, es decir, si las tres últimas covariables aumentan su valor también lo hará la cantidad de casos confirmados con COVID-19 y viceversa.
La cantidad de casos con COVID-19 no se correlacionó, significativamente, con el promedio de contactos de los casos positivos, ni con la densidad poblacional de las provincias.
Las correlaciones entre las covariables resultaron significativas y directas solo entre los eventos de trasmisión y las cantidades de viajeros en general y con COVID-19, que entraron al país en el mes de marzo, y entre la cantidad de viajeros que entraron al país y la cantidad de ellos con COVID-19.
Al aplicar el método de selección paso a paso hacia atrás, se obtuvo que el mejor modelo de regresión fue:
Con este resultado se procedió a estudiar un conjunto de modelos, en los cuales intervenían todas o algunas de las covariables del modelo.1 En estos nuevos modelos se consideraron las interacciones entre las covariables y sus potencias, hasta el orden 2. De todos esos modelos, a continuación, se presentan los 3 mejores:
Bondad de ajuste de los modelos
Para analizar la bondad de ajuste de los modelos se emplearon un conjunto de indicadores: la desviación estándar de la distancia entre los valores de los datos y los ajustados (S), los porcentajes de variación en la variable respuesta que es explicada por el modelo () y ajustado para el número de covariables relativo al número de observaciones (), el pronosticado (), el cual permite determinar qué tan bien el modelo predice la respuesta para nuevas observaciones y un índice CpMallow para ayudar a elegir entre múltiples modelos de regresión anidados (tabla 2).
El , y toman valores entre 0 y 100 %, mientras más grande sea su valor, el modelo se ajustará mejor a los datos. En el caso de los indicadores S y CpMallow, mientras más bajo sean sus valores, el modelo se ajustará mejor a los datos.
Los cuatro modelos explicaron más de 93 % de la variabilidad contenida en la variable dependiente, con una capacidad de predicción superior al 80 % en 3 de ellos. Como el objetivo del estudio no fue encontrar un modelo para realizar predicciones, este último indicador, aunque se analizó, no fue considerado para seleccionar el mejor modelo.
Análisis de varianza
La tabla del análisis de varianza (ANOVA) informa acerca de la existencia o no de relación significativa entre las variables. El estadístico F del ANOVA contrasta la hipótesis nula de que el valor poblacional de R2 es igual a cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de covariables. En la tabla 3 se presenta un resumen del ANOVA para cada modelo, los resultados completos se pueden consultar en las tablas A1 - A4 del anexo.
El valor p asociado al estadístico F, en los cuatro modelos, mostró que existe relación lineal significativa a un nivel de confiabilidad superior al 99 %. Se pudo afirmar, con este nivel de confiabilidad, que las regiones definidas por las ecuaciones (1)-(4) brindan un buen ajuste de los datos.
Ecuación de regresión
La tabla 4 muestra las estimaciones de los coeficientes de los modelos (Coef), el error estándar de estas estimaciones (EE coef), así como el valor de estadígrafo t de student (t) que permite docimar las hipótesis acerca de la significación o no de los coeficientes del modelo, junto con su valor de p.
Además, se muestra el valor del factor de inflación de la varianza (FIV), el cual permite detectar la existencia o no de multicolinealidad entre las covariables. Si FIV 10 se concluye que las covariables están correlacionadas y por lo tanto existe multicolinealidad y los resultados de las estimaciones y pruebas de hipótesis no serían válidos. En caso contrario, si FIV < 10 se puede aceptar que las covariables son independientes, no existe multicolinealidad y se pueden aceptar los resultados obtenidos.
Para los datos procesados, se concluyó que existe suficiente evidencia para afirmar, con un nivel de confiabilidad superior al 99 % (p < 0,01), que en todos los modelos sus coeficientes son diferentes de cero y, por lo tanto, las covariables asociadas a estos coeficientes ejercen una influencia significativa sobre la variable respuesta. Los valores del FIV son todos menores que 10, lo cual permitió confirmar la ausencia de multicolinealidad entre las covariables de cada modelo y con ello la validez de las estimaciones y pruebas de hipótesis realizadas.
Análisis de los residuos
El cumplimiento de los supuestos de independencia y normalidad de los residuos se verificó por medio de las pruebas de Durbin-Watson y Anderson-Darling, respectivamente.
En la tabla A5 del anexo, se muestran los valores del estadígrafo de Durbin-Watson y los valores p asociados a la prueba de Anderson-Darling.
De la tabla de los valores críticos de la prueba de Durbin-Watson8 se obtuvieron los valores d1=0,738 y d2=1,253 para el caso de los modelos con dos covariables, y d1=0,633 y d2=1,447 para el modelo con 3 covariables.
En los tres primeros modelos, el valor del estadígrafo de Durbin-Watson cayó en la zona de ausencia de autocorrelación (p=0) por lo que se pudo afirmar con 99 % de confiabilidad, que en estos, los errores son independientes. En el caso particular del modelo (4) no se pudo afirmar que existe o no una autocorrelación, por caer el valor del estadígrafo en la zona de incertidumbre.
La prueba de normalidad de los residuos comprobó, con un nivel de significación de 1 % (p < 0,01), que todos los residuales siguen una distribución Normal.
Del análisis de los residuos se concluyó que los modelos del 1 al 3 cumplen con los supuestos de normalidad e independencia.
Atendiendo al análisis integral realizado, el mejor modelo de regresión para explicar la cantidad de casos con COVID-19 en las provincias, según las covariables analizadas fue el 1:
El modelo evidenció, con 99 % de confiabilidad, que la cantidad de casos con COVID-19 en el país se incrementó en 0,24 por cada 100 viajeros que arribaron a Cuba en el mes de marzo, en 3,42 por cada viajero que arribó al país con la enfermedad y en 15,24 por cada 100 habitantes por Km2.
Análisis de clúster
Este permitió visualizar la formación de cuatro grupos de provincias (fig.). El primer grupo concentra las provincias de Pinar del Río, Santiago de Cuba, Sancti Espíritus y Camagüey, el segundo a las provincias de Artemisa, Mayabeque, Cienfuegos, Las Tunas, Guantánamo, Granma y el municipio especial Isla de la Juventud. En un tercer grupo se sitúan las provincias de Matanzas, Villa Clara, Ciego de Ávila y Holguín. El cuarto grupo solo está conformado por La Habana.
Se aplicó un ANOVA teniendo en cuenta las tres covariables del modelo de RLM para verificar la hipótesis de que los cuatro grupos son significativamente diferentes. Los resultados se muestran en la tabla A6 del anexo, los cuales corroboraron la hipótesis formulada con un nivel de confiabilidad de 95 %.
Discusión
El promedio de contactos no resultó significativo, al parecer por lo similar que fueron las acciones de salud llevadas a cabo en todo el territorio nacional, que condujeron a detectar un número promedio de contactos similar en todas las provincias.
La correlación significativa entre la cantidad de eventos de transmisión y el número de casos es lógica, ya que al existir eventos de transmisión en una comunidad aumenta el número de casos. Por ello, entre las principales estrategias de control deben estar las dirigidas a la prevención de la COVID-19 en lugares donde se concentran grupos vulnerables como hogares maternos o de ancianos, prisiones, entre otros lugares, donde existen conglomerados de personas, como los centros de trabajo, en los cuales hay un mayor nivel de exposición. Otras medidas útiles en la prevención de la COVID-19 son la protección mediante el uso del nasobuco y la higiene con el lavado frecuente de las manos.
La eficacia de este control depende de los patrones presintomáticos y asintomáticos de la enfermedad. Con 100 % de los casos sintomáticos y un número básico de reproducción (R0) de 1.5 podría ser controlada la trasmisión aislando 50 % de los contactos. Con un R0 de 3.5, se requiere 90 %; sin embargo, con la transmisión presintomática y potencialmente asintomática, esta efectividad se reduce aún más. En Cuba, la localización oportuna de los contactos con su correspondiente aislamiento ha sido fundamental para reducir la expansión de la epidemia. El control de los eventos de trasmisión, se presupone, depende de la densidad de la población y las medidas de control, como el distanciamiento social y la cuarentena.9) Sin embargo, esta variable no fue significativa al incluirla en el modelo de regresión, lo cual puede ser explicado por las rápidas acciones desarrolladas en Cuba, cada vez que ha aparecido un evento de transmisión, lo cual ha permitido contener el brote. Un resultado inverso ocurrió entre la densidad poblacional y el número de casos, las cuales no exhibieron una correlación significativa en el análisis bivariado, pero en el multivariado la densidad resultó ser significativa.
Dado que el virus de la COVID-19 se propaga cuando las personas se encuentran muy próximas, la densidad poblacional parece ser uno de los aspectos implicados en la propagación. Estudios como el de Freeman y otros10 realizados en la ciudad de Nueva York, evalúan la influencia de la densidad poblacional en ciertas patologías. Estos autores encontraron una correlación muy baja al estudiar la densidad de manera independiente, y aún más baja cuando se tienen en cuenta otras variables de carácter socioeconómico, como el origen étnico y los ingresos económicos.
La hipótesis de que las regiones con alta densidad poblacional son más vulnerables a las epidemias, debido a la mayor posibilidad de contactos interpersonales, llevó al Grupo del Banco Mundial a averiguar si la densidad de población era un factor clave en la propagación del nuevo coronavirus, por lo que recogieron datos de 284 ciudades chinas, encontrando que las ciudades más densamente pobladas como Shanghai, Beijing, Shenzhen, Tianjin y Zhuhai, tuvieron muchos menos casos confirmados por cada 10 000 personas. Coincidentemente, estas ciudades son también las de mayor producto interno bruto, lo cual las hace más capaces de movilizar recursos para enfrentar la enfermedad y pudiera explicar, en parte, sus bajas tasas de infección. Por el contrario, las ciudades con las tasas más altas de infección fueron aquellas con densidades relativamente bajas, aunque otros factores como la cercanía a la provincia de Hubei o la gran cantidad de personas que se trasladan a Wuhan por laborar allí podrían explicar estas altas tasas, ya que se observó que la tasa de infección disminuyó a medida que aumentó la distancia desde las ciudades hasta Wuhan.11
Otro factor que se consideró en este estudio del Banco Mundial fue que, dado un cierto umbral de densidad de población, las ciudades brindan instalaciones y servicios de mayor calidad a sus residentes siendo más fácil para estos permanecer en casa y evitar el contacto innecesario con los demás. Así las consideraciones de este estudio están a favor del efecto beneficioso que ejerce la densidad poblacional en la lucha contra el coronavirus al plantear que la urbanización acerca a las personas tanto espacial como económicamente y que la conjunción de mayor densidad, menor distancia y mejor integración del mercado permiten un desarrollo económico que garantiza instituciones mejor diseñadas, infraestructuras de alta calidad e intervenciones eficaces para llevar a cabo el distanciamiento social que hace a las ciudades más fuertes contra las enfermedades infecciosas.11
Por su parte el estudio de Verbrugge y otros12 consideró la relación de la densidad poblacional con actitudes sociales negativas y comportamientos indeseables. Ellos realizaron una encuesta en Baltimore para probar las hipótesis sobre los efectos positivos y negativos de la densidad poblacional y determinaron que el gran tamaño de la población y la sensación de que una zona está superpoblada producen ciertas frustraciones.
El criterio de los autores de la presente investigación es que la densidad poblacional puede influir de manera positiva o negativa, en dependencia del desarrollo socioeconómico alcanzado por las ciudades.
Con respecto a la movilidad espacial se plantea que el aumento de viajeros internacionales ha incidido en una mayor propagación de enfermedades infecciosas, nuevas y reemergentes.13 Esto ha hecho más evidente la necesidad de prevenir y diagnosticar, oportunamente, enfermedades que no son endémicas, para lo cual es fundamental conocer los riesgos en cada destino y las poblaciones más vulnerables.14
Generalmente, las ciudades de mayor densidad se corresponden con un mayor desarrollo, entre ellos el de la esfera turística. En Cuba, a estas zonas de atracción entró una mayor cantidad de personas procedentes de países con altas tasas de la enfermedad, lo cual incrementó la probabilidad de que estos estuviesen infectados y propagasen el virus.
El monitoreo de los viajeros para la detección y la cuarentena de enfermos puede ser una herramienta eficaz para prevenir y retrasar la importación de algunas enfermedades. Para un control efectivo de los viajeros se precisa, además, información que ayude a los funcionarios de salud a localizar, rápidamente, a todos los viajeros en riesgo, con la realización de pruebas oportunas para detectar casos e investigar sus contactos.15) En Cuba, todas estas medidas se implementaron tempranamente por las autoridades competentes.
El estudio de Chinazzi16 midió el impacto de la limitación de la movilidad espacial en China, donde se estimó que la cuarentena de Wuhan retrasó la progresión de la epidemia de 3 a 5 días en China continental, pero tuvo un efecto más marcado a escala internacional, donde las importaciones de casos se redujeron en casi 80 % hasta mediados de febrero.
Jin y otros17 atribuyeron la mayor cantidad de casos en ciertas provincias chinas a una mayor proporción de viajes a estas provincias desde Wuhan, donde se inició el primer brote de COVID-19.
Otro estudio que empleó un análisis estadístico similar al de este trabajo, examinó los datos de los casos y fallecidos de COVID-19 reportados hasta el 2 de mayo de 2020 en 205 países y territorios, encontrando asociación muy significativa con el mayor porcentaje de población urbana y el aumento de viajeros procedentes del exterior, además estudiaron aspectos climáticos y geográficos, encontrando asociación con la baja temperatura, la menor humedad y la mayor altitud.2
Estos factores, no tenidos en cuenta en el presente estudio, pudieron también haber influido en la diseminación desigual de la enfermedad, pues las regiones más afectadas se localizan en la zona que se corresponde con la costa norte del país.
No obstante, Pedrosa18 que también estudió las variables climáticas observó que estas solo eran significativas en los estudios bivariados, pero al incluirlas en modelos multivariados solo la densidad de población y la variable de la línea de tiempo mostraron significación estadística.
Se concluye que la cantidad de casos con COVID-19 por provincia se relaciona con la cantidad de viajeros que entraron al país, con y sin el virus y la densidad poblacional. Se forman cuatro grupos de provincias por su similitud en los aspectos identificados en la regresión.