Guía práctica para seleccionar una prueba estadística a aplicar en una investigación biomédica

Boza Torres, Pedro Emilio; Liriano Leyva, Oslaidis; Pérez Sánchez, Yaderine; Fonseca González, Ramón Luis; Boza Torres, Pedro Emilio; Liriano Leyva, Oslaidis; Pérez Sánchez, Yaderine; Fonseca González, Ramón Luis

Mi SciELO

Servicios personalizados

Servicios Personalizados

Revista

Articulo

Enviar articulo por email

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Multimed

versión On-line ISSN 1028-4818

Multimed vol.26 no.6 Granma nov.-dic. 2022 Epub 26-Nov-2022

Revisión bibliográfica

Guía práctica para seleccionar una prueba estadística a aplicar en una investigación biomédica

Practical guide to select a statistical test to apply in biomedical research

Guia prático para selecionar um teste estatístico a ser aplicado na pesquisa biomédica

Pedro Emilio Boza Torres^I^*
http://orcid.org/0000-0001-9797-9814

Oslaidis Liriano Leyva^I
http://orcid.org/0000-0002-3725-806X

Yaderine Pérez Sánchez^I
http://orcid.org/0000-0002-9926-8933

Ramón Luis Fonseca González^I
http://orcid.org/0000-0002-4094-0000

^{^I} Universidad de Ciencias Médicas de Granma. Facultad de Ciencias Médicas Bayamo. Granma, Cuba.

RESUMEN

Introducción:

el análisis estadístico se divide en dos componentes: el análisis descriptivo y el análisis inferencial, las pruebas estadísticas, se fraccionan en paramétricas y no paramétricas. Sin embargo, la elección de una prueba estadística apropiada, representa un reto.

Objetivo:

proponer una herramienta, que sirva para seleccionar una prueba estadística a aquellos no expertos en bioestadística, para las investigaciones biomédicas.

Métodos:

se realizó un estudio tipo revisión bibliográfica narrativa. Se partió de una revisión de la literatura sobre las principales pruebas estadísticas que se utilizan en la actualidad, disponibles en la literatura de las bases de datosbibliográficas como Pubmed/Medline, SciELO, SCOPUS, Springer, Web of Science, EBSCOhost entre otras. Dicha herramienta fue validada por criterio de expertos.

Resultados:

se diseñó un esquema, el que puede utilizarse de dos maneras: la primera consiste seguir el esquema hasta descubrir cuál es la técnica estadística apropiada para sus datos y la segunda: siguiendo el esquema hacia atrás, determinar si la prueba fue una elección lógica para los datos analizados. Para usarla, debe identificar variables dependientes e independientes, después llegará a una medida de síntesis o a una estimación puntual útil para sus datos, que irá seguida de una clasificación general de las pruebas estadísticas.

Conclusiones:

la guía propuesta es un intento de aportar una guía útil para seleccionar una técnica estadística para el análisis de datos en las investigaciones biomédicas.

Palabras Claves: Análisis de datos; Bioestadística; Prueba estadística; Gestión de la información

ABSTRACT

Introduction:

statistical analysis is divided into two components: descriptive analysis and inferential analysis, statistical tests, are divided into parametric and nonparametric. Choosing an appropriate statistical test, however, is challenging.

Objective:

to propose a tool, which serves to select a statistical test to those not experts in biostatistics, for biomedical research.

Methods:

a narrative literature review study was conducted. It was based on a review of the literature on the main statistical tests currently used, available in the literature of bibliographic databases such as Pubmed/Medline, SciELO, SCOPUS, Springer, Web of Science, EBSCOhost among others. This tool was validated by expert criteria.

Results:

a scheme was designed, which can be used in two ways: the first is to follow the scheme until discovering which is the appropriate statistical technique for your data and the second: following the scheme backwards, determine if the test was a logical choice for the analyzed data. To use it, you must identify dependent and independent variables, then you will arrive at a synthesis measure or a useful point estimate for your data, which will be followed by a general classification of statistical tests.

Conclusions:

the proposed guideline is an attempt to provide a useful guide to select a statistical technique for data analysis in biomedical research.

Keywords: Data analysis; Biostatistics; Statistical test; Information management

RESUMO

Introdução:

a análise estatística é dividida em dois componentes: análise descritiva e análise inferencial, testes estatísticos, são divididos em paramétricos e não paramétricos. Escolher um teste estatístico apropriado, no entanto, é um desafio.

Objetivo:

propor uma ferramenta, que sirva para selecionar um teste estatístico para aqueles que nãosão especialistas em bioestatística, para pesquisa biomédica.

Métodos:

realizou-se um estudo de revisão narrativa da literatura. Baseou-se em uma revisão da literatura sobre os principais testes estatísticos atualmente utilizados, disponíveis na literatura de bases de dados bibliográficas como Pubmed/Medline, SciELO, SCOPUS, Springer, Web of Science, EBSCOhost entre outras. Esse instrumento foi validado por critérios de especialistas.

Resultados:

foi elaborado um esquema, que pode ser utilizado de duas formas: a primeira é seguir o esquema até descobrir qual é a técnica estatística apropriada para seus dados e a segunda: seguindo o esquema de trás para frente, determinar se o teste foi uma escolha lógica para os dados analisados. Para usá-lo, você deve identificar variáveis dependentes e independentes, então você chegará a uma medida de síntese ou uma estimativa pontual útil para seus dados, que será seguida por uma classificação geral de testes estatísticos.

Conclusões:

a diretriz proposta é uma tentativa de fornecer um guia útil para selecionar uma técnica estatística para análise de dados em pesquisa biomédica.

Palavras-Chave: Análise dos dados; Bioestatística; Teste estatístico; Gestão da informação

Introducción

El nivel de aplicación de la Bioestadística, como herramienta útil y rigurosa en el campo de la investigación, ha sido espectacular.¹^,²⁾ Ventura-León, colaboradores,³⁾ informan que un análisis del estado de la producción científica en ciencias de la salud, reveló que Latinoamérica había generado el 3.4% de la producción científica mundial, donde la herramienta estadística seleccionada para el análisis de la información garantiza la validez y su calidad, ²^-⁴⁾ aunque abordan contenidos aislados acerca de esta ciencia, sí profundizan en la necesidad de su utilidad para potenciar las investigaciones desde la interpretación y solución de problemas profesionales para arribar a conclusiones válidas y tomar decisiones razonables.²^,⁵^,⁶

El análisis estadístico se divide en dos componentes: ⁷ el análisis descriptivo y el análisis inferencial, las pruebas estadísticas, se fraccionan en paramétricas y no paramétricas. Sin embargo, la elección de una prueba estadística apropiada, representa un reto. ⁷^,⁸

Elegir una prueba estadística se basa tres aspectos: el primero es el diseño de investigación. ⁸^,⁹⁾ El segundo aspecto es la cantidad y grado de independencia de los grupos de comparación, el alcance y tipo de investigación, de la aleatorización, el cálculo del tamaño de la muestra, el número de mediciones de las variables de resultado, que implica analizar de disímiles formas los cambios de una variable a lo largo de un periodo. El tercer aspecto es el tipo y escala de medición de las variables.¹^,⁸^,⁹

En entrevistas realizadas a 30 profesionales, el 80% reconoció que no conocían sobre guías que les permitiera escoger el análisis para el tipo de datos (variables) y el diseño de su investigación (análisis univariado, bivariado o multivariable), en más del 95% de sus proyectos de investigación este aspecto era deficiente.

El uso incorrecto de las herramientas estadísticas y metodológicas produce investigaciones con discutible validez, con múltiples errores,¹⁰ desestimar este principio puede acarrear graves consecuencias a la calidad de la investigación.¹^,¹⁰^,¹¹

El objetivo de este trabajo consiste en proponer una “guía” a aquellos no expertos en bioestadística que les permita escoger un análisis estadístico sin la necesidad de poseer profundos conocimientos teóricos sobre la materia.

Métodos

Se realizó un estudio tipo revisión bibliográfica narrativa.¹²Para analizar el estado actual de la temática se valoran los artículos publicados en revistas indexadas en las bases de datos: Pubmed/Medline, SciELO, SCOPUS, Springer, Web of Science, EBSCOhost entre otras, entre enero y abril de 2022. En la estrategia de búsqueda se emplearon como descriptores: modelo matemático, análisis de datos, técnicas estadísticas, prueba estadística, gráficos estadísticos y diagrama causal.

Se consultaron 57 bibliografías donde másdel91% pertenece a los últimos cinco años y de ellas más del 75% a los últimos tres años. La selección de la literatura se basó en su carácter científico y actualizado e identificando en ellas regularidades y diferencias que permitieron elaborar los esquemas propuestos (Anexo 1 y Figura 1, Anexo 2 y Figura 2, Anexo 3 y Figura 3, Anexo 4 y Figura 4).

Para determinar la validez, pertinencia y factibilidad del instrumento se utilizó el criterio de expertos, mediante el Método Delphi.¹³^-¹⁵⁾ el grupo de expertos quedó conformado por un total de 15, seleccionados por su alto valor del coeficiente de competencia, comprendido en el rango de 0.8 < K< 1. Se apreció que ocho (8) de los expertos son Doctores en Ciencia, profesores o investigadores titulares y auxiliares, para un 53,33%; cinco (5) son Máster en Ciencia, para un 33,33% y los expertos tienen una media de 27,68 años de experiencia, en la investigación y la enseñanza de la Bioestadística; otro indicador fue el número de publicaciones, de participación en eventos y proyectos de investigación gerenciados, donde la media de los expertos es de 26,97;21.89 y 16,75 respectivamente, lo que garantiza su competitividad.

Se presentó la guía diseñada al grupo de expertos y se les entregó una planilla que relaciona cada una de las pruebas estadísticas, las que debían ser evaluados a través de una escala Likert de cinco puntos: 1. Totalmente en desacuerdo, 2. En desacuerdo, 3. Ni de acuerdo ni en desacuerdo, 4. De acuerdo y 5. Totalmente de acuerdo. Además, la concordancia entre los peritos se determinó mediante el coeficiente W de Kendall.¹⁶^-¹⁷

La mayoría de los expertos se mostraron totalmente de acuerdo, al considerar que la propuesta garantiza la coherencia y las expectativas, teóricas y prácticas; así como la concepción estructural y metodológica para seleccionar una prueba, favorece el aprendizaje de la Bioestadísticay es aceptable su generalización en el proceso docente e investigativo, porque contribuye a enriquecer la cultura estadística en este contexto, corroborando su pertinencia.

También, se obtuvo un W de Kendall de 0,758, en el rango de 0,610,80, por lo que los evaluadores tuvieron un nivel de concordancia bueno.¹⁶

Además, se realizó una prueba piloto, la guía se aplicó a 92 tesis de especialidad, maestrías y una serie de investigaciones; se obtuvo que al 10,5% de los trabajos no se les realizó análisis estadísticos y en el 17,46% de los casos eran incorrectos o limitados para la complejidad del tema tratado.

A continuación, se indica cómo pueden utilizarse los esquemas (Anexo 1 y Figura 1, Anexo 2 y Figura 2, Anexo 3 y Figura 3, Anexo 4 y Figura 4).

Lo primero consiste en seguir el esquema hasta descubrir cuáles son las técnicas estadísticas apropiadas para una investigación. Luego debe identificar una, dos o más de dos variables dependientes (es decir no métricas: nominal, ordinal y métrica: de razón (son aquellas que poseen un cero real y, de intervalos (poseen un punto cero arbitrario) y una, dos o más variables independientes.

Una vez que haya tomado estas decisiones, el esquema lo conducirá siguiendo el dibujo a una medida de síntesis o a una estimación puntual útil para sus datos que muchas veces va seguida de una clasificación general de las pruebas estadísticas.

En ocasiones, el interés es comprobar si la prueba seleccionada por otros es apropiada, en ese caso el esquema debe seguirse hacia atrás, y determinar si la prueba es una elección lógica para los datos analizados.

Cuando utilice los esquemas (Anexo 1 y Figura 1, Anexo 2 y Figura 2, Anexo 3 y Figura 3) observe que:
Las medidas subrayadas con una sola línea son estimaciones muestrales puntuales (media, mediana, entre otras).
Las técnicas subrayadas con una línea doble se utilizan para realizar pruebas de significación estadística o para construir intervalos de confianza.
El tipo de las pruebas se indica con líneas horizontales por encima y por debajo.
La letra “o” indica que cualquiera de las pruebas es aceptable para responder a la misma pregunta; sin embargo, la prueba situada en primer lugar tiene más potencia estadística o se usa con mayor frecuencia, o ambas cosas a la vez.

Cuando consideremos la aplicación de técnicas estadísticas multivariables (Anexo 3 y Figura 3 Anexo 4 Figura 4), la primera cuestión que debemos preguntar es:

¿Pueden dividirse las variables mediante clasificación de dependiente e Independiente, basándose esta clasificación en alguna teoría?

La respuesta a esta pregunta nos indica si debemos realizar un análisis de:

Dependencia: Es aquel donde una o un conjunto de variables es identificada como la variable dependiente y que será explicada por otras variables, conocidas como variables independientes.
Interdependencia: Es aquel donde ninguna variable o grupo de variables es definida como dependiente o independiente, más bien, el procedimiento implica el análisis de todas las variables del conjunto simultáneamente.

Si puede hacerse ¿Cuántas de estas variables son tratadas como dependiente en un análisis simple?

¿Cómo son las variables medidas?

Métricas: - Intervalos - Continuas y de razón
No métricas: - Nominales - Ordinales.

Desarrollo

En una investigación aparecen errores:¹⁸^,¹⁹⁾ por falta de conocimiento, de planeamiento, de ejecución y estadísticos, que disminuyen la confiabilidad de los resultados, cancelan tareas, se produce pérdida de tiempo, de recursos humanos, de materiales y lo peor; la no solución de un problema de la ciencia. ¹^,¹⁸^,²⁰

Mientras que se comunican disimiles errores dentro de los que se destacan:¹^,²¹

Errores al definir la pregunta de investigación, problema del tema de investigación.
Definición de los objetivos, del problema, tipo de variable, la escala de medición, el indicador, del diseño de investigación, forma en que se procesan y analizan los datos.
No se prueban las hipótesis de base (normalidad, homogeneidad de varianza e independencia de errores) en el procesamiento estadístico de datos.
Inadecuada selección y aplicación de pruebas estadísticas, violación de los supuestos al aplicar las técnicas de inferencia estadística, aplicación inapropiada de los diseños muestrales, escasa contextualización e interpretación de los resultados de las técnicas estadísticas utilizadas y dificultades con el uso de los softwares estadísticos. ²²

Estas insuficiencias se corresponden con conceptos de cultura estadística, razonamiento estadístico y pensamiento estadístico. ⁽²³^,²⁴⁾ Esto incluye reconocer y comprender el proceso investigativo completo (desde la pregunta de investigación, como seleccionar la técnica para analizar los datos, probar las suposiciones, con la suficiente honradez científica). ⁽¹

Por otro lado, ²⁵⁾ al revisar una serie de investigaciones se obtuvo que al 14,5% de los trabajos no se les realizó análisis estadísticos. En el 16,4% de las publicaciones se hicieron análisis multivariados incluyendo los análisis de regresión y en el 1,8% se aplicó el análisis de superficie de respuesta, útil para el desarrollo y optimización de procesos.²⁶

Otros revelan premisas para realizar los análisis estadísticos de una investigación, ¹^,²¹⁾ la pregunta de investigación determinará el tipo de datos que se recolectaran y los análisis estadísticos a realizar, y definir las variables dependientes e independientes, define el uso de dos tipos de análisis estadísticos: la estadística descriptiva y la inferencial.²⁶^-²⁹

Estadística descriptiva: describe las características básicas de los datos bajo estudio, proporciona resúmenes simples sobre la muestra y las mediciones realizadas e incluye:

Los estadísticos de tendencia central: describen la localización en la distribución, incluyen la media, mediana y moda.

Entre dichas medidas, la media requiere variables cuantitativas (de intervalo o razón y suele calcularse con datos ordinales). La mediana es un estadístico que requiere variables ordinales, es preferible a la media cuando la distribución es asimétrica. La moda sirve para todo tipo de variables, pero es más apropiada para caracterizar datos categóricos.

Los estadísticos de dispersión, miden la cantidad de variación en los datos, incluyen: desviación típica, varianza, rango, mínimo, máximo y error típico de la media, los dos primeros y el último poseen significado con variables cuantitativas (de intervalo o razón, en ocasiones en datos ordinales). El rango es apropiado para todo tipo de variables, menos para las nominales, donde no tiene sentido hablar de dispersión.¹^,²⁹^-³¹

La asimetría y curtosis son estadísticos que describen la forma y la simetría de la distribución, solo tiene sentido calcularlos con variables cuantitativas. ¹^,²⁹^-³¹

Los estadísticos que miden la posición son los percentiles, cuantiles: cuartiles, deciles, percentiles, entre otros y carecen de significado calcularlos para variables nominales.¹⁹^-²¹

Las llamadas puntuaciones típicas o puntuaciones z (z scores), expresan el número de desviaciones típicas que cada valor se aleja de su media.¹^,²⁹^-³²

Estadística inferencial: describe y hace inferencias sobre la población utilizando una muestra aleatoria de datos extraída de la misma, tiene dos aspectos: (a) se utiliza para estimar los intervalos de confianza y (b) las pruebas de hipótesis para determinar el grado de diferencia o relación que existen entre grupos de variables, donde, se busca determinar si esta diferencia o relación se debe al azar.¹^,²⁹^-³³

A su vez, las pruebas de hipótesis se clasifican en: a) las pruebas paramétricas: en las que se realizan presuposiciones sobre la distribución de las variables en las poblaciones que están comparándose; b) las pruebas no paramétricas, menos potentes que las paramétricas; donde la variable respuesta no posee una distribución normal o aquellas en las que no es posible determinar si se cumplen las asunciones. ¹^,³²^,³³

Las ventajas de las pruebas no paramétricas son:
Sencillas, mediante fórmulas simples.
Fáciles de aplicar, con operaciones de jerarquización, conteo, suma y resta.
Pequeñas, son fáciles de usar.
Se aplican a los grupos mayores de poblaciones.
Son menos susceptibles a la contravención de los supuestos.
Se usan con datos ordinales o nominales.
Cuando la muestra es menor de 10 son sencillas, rápidas y menos eficaces.
Son igual de efectivas una prueba no paramétrica si se cumplen los supuestos de normalidad, independencia de los términos del error, homogeneidad de varianza y aditividad de los efectos de los tratamientos.¹^,²⁹^,³²^,³³

Siguiendo la secuencia de los Anexo 1 y Figura 1, Anexo 2 y Figura 2, Anexo 3 y Figura 3 Anexo 4 y Figura 4, tomando en cuenta la escala de medición de las variables, si se comprueba que los datos no siguen una distribución normal, (ya sean nominales u ordinales) y las cuantitativas discontinuas se elegirá una de las pruebas no paramétricas y para determinarlo existen los test de Shapiro-Wilks (muestras pequeñas < 30), - Kolmogorov-Smirnoff o sesgo de - 0.5 a + 0.5 y curtosis de 2 a 4.¹^,²⁸^-³³

Las pruebas de significancia estadística son métodos estadísticos que permiten contrastar las hipótesis para valorar los efectos del azar. ¹^,²⁶^-²⁸⁾ El procedimiento estadístico aplicable al problema de la significancia estadística de una prueba, va a depender de: ²⁹^,³³

El diseño estadístico seleccionado para la investigación.
La distribución de casos en uno, dos o más grupos.
El tipo de medida o variable a analizar.
La manera en que se distribuyan las variables, la homogeneidad de las varianzas en los grupos, el impacto de los residuos y el tamaño de la muestra.
El poder de la prueba, es decir, la capacidad para aceptar o rechazar la hipótesis nula.

Los autores, ¹^,²⁹^,³¹^-³³⁾ comentan algunas pruebas para la comparación de grupos más utilizadas y puede comprobar su uso en el Anexo 1 y Figura 1, Anexo 2 y Figura 2, Anexo 3 y Figura 3, Anexo 4 y Figura 4. Si el investigador quiere comparar dos grupos con variables cuantitativas continuas y con distribución normal, se puede elegir una prueba t (hay diferentes, la más conocida es la denominada t de Student).

Tomando en cuenta lo descrito, esta prueba puede utilizarse en dos escenarios diferentes:
Muestras relacionadas (un solo grupo antes y después).
Muestras independientes (comparación de dos grupos). Ahora bien, si lo que se desea es comparar tres o más grupos (comparación de tres o más promedios) se debe seleccionar una prueba denominada análisis de varianza o ANOVA (del inglés “Analysis of Variance”). ¹^,²⁹^,³¹^,³²

De esta última prueba se distinguen dos variantes: ANOVA de una vía, cuando se comparan los promedios de tres o más grupos independientes, y ANOVA de dos vías, cuando se comparan los promedios de muestras relacionadas medidas tres o más veces.¹^,²⁹^,³²^-³⁴

Cuando la variable dependiente no sigue una distribución normal, hay pruebas estadísticas con las que se comparan las medias. Para la comparación de dos grupos independientes se emplea la U de Mann-Withney.²⁶^-²⁸^,³¹^,³³⁾ En el caso de tres o más grupos independientes se utiliza la prueba de Kruskal-Wallis (la cual es equivalente a ANOVA de una vía),la prueba de Wilcoxon se utiliza para comparar un grupo antes y después (muestras relacionadas) y la prueba Friedman se usa cuando se comparan tres o más muestras relacionadas (equivalente a ANOVA de dos vías).¹^,²⁹^,³²^,³³^,³⁵

Como se señala en el Anexo 2 y Figura 2, Anexo 3 y Figura 3, existen pruebas para la comparación de grupos cuando la escala de medición de las variables es cualitativa. En caso de comparar tres o más grupos independientes, se utiliza Ji-cuadrada (X²); en caso de muestras relacionadas, la Q de Cochran. Si emplea las pruebas de comparación de proporciones, cuando el número de datos sea menor a 30 se aplicarán la corrección de Yates, la prueba exacta de Fisher se utilizará en lugar de χ2 cuando se comparan dos grupos independientes si en algunas de las casillas de la tabla de contingencia se encuentra algún valor menor de 5.²⁹^,³¹^-³³^,³⁵

Resumiendo, la aplicación de los test paramétricos presenta requisitos que deben cumplir los datos: independencia, normalidad, homogeneidad de varianzas (homocedasticidad), -Outliers, - No linealidad, - Colinealidad, - Datos perdidos (“Missing” data).¹^,²⁸^,³⁰^-³⁵

En el caso del ANOVA, además debe cumplirse que las medias de las poblaciones normales y homocedásticas deben ser combinaciones lineales de los efectos debidos a columnas o líneas, es decir los efectos deben ser aditivos.²⁶^-²⁹⁾ No obstante, los test paramétricos suelen ser “robustos” frente a las violaciones de estos requisitos.³²^,³³

La independencia se consigue con un diseño experimental (o de muestreo) adecuado. Si los datos no son independientes hay que utilizar técnicas para analizarlos (modelos mixtos). La normalidad y la homocedasticidad (en el caso de variables continuas) se pueden conseguir a través de transformaciones (por ejemplo aplicando logaritmos). Los errores deben distribuirse aleatoriamente entre las observaciones. Ello implica que la selección de un individuo en la población de estudio no puede influir sobre las probabilidades de inclusión de cualquier otro. El test estadístico para comprobar la independencia de errores es la I de Moran y el test de Durbin-Watson.

Las observaciones deben ser normales, para comprobar se usan los testya señalados y diagnósticos gráficos como: - Boxplots, - Quantile-Quantile (Q-Q) plots.

La homocedasticidad. Para comprobarla utilizar: Test de Bartlett, Test de Levene, Test de Welch (Heterogeneidad de las varianzas) y Diagnósticos gráficos: - Residual pattern.

Las variables implicadas deben haber sido medidas en por lo menos una escala de intervalos de manera que sea posible usar las operaciones aritméticas.

Las alternativas para la falta de normalidad y homocedasticidad, además de las pruebas no paramétricas antes señaladas son: la transformación logarítmica [log (Y) o log (Y +1)], la raíz cuadrada [√Y o √Y+0.5] y el arcseno [arcsen (Y/100)] si la variable dependiente es de datos continuos, de conteos y de proporciones respectivamente; uso de otras distribuciones para datos continuos como: Normal, Lognormal, Gamma y para datos discretos: Poisson, Binomial negativa, Binomial.

Outliers. Valores inusualmente grandes o pequeños respecto al conjunto de los datos observados, se recomienda: identificarlos mediante los test: Dixon’s Q test, Cook’s D statistic y gráficos: boxplot, scatterplot. ¿Qué hacer con ellos?: si estás seguro: ignóralo (queda un diseño desbalanceado); si dudas: comprueba el efecto sobre los resultados.

No linealidad: linealizar mediante la transformación de las variables con la: - Función exponencial: Y = a*exp (b*X) ó Y = log (a*exp (b*X)) = log (a) + b*X. - Función potencial: Y = a*X ^b ó log (Y) = log (a*X ^b) = log (a) + log (X ^b) y usar modelos como Michaelis-Menteny GAM (Modelos Aditivos Generalizados) que capturen la no-linealidad.

Colinealidad de predictores. Para su detección se comprueba el valor de “tolerancia” (o su inversa, “variance inflation factor” o VIF).Soluciones: retener sólo uno de entre un grupo de predictores correlacionados, hacer un ACP (Análisis de Componentes Principales) y trabajar con las variables compuestas.

Cuando se desea analizar (Anexo 2 y Figura 2) la relación de dos variables, se brindan indicaciones para el análisis, ¹^,²⁶^-³⁰⁾ por ejemplo, cuando ambas variables (factores) son:

Cuantitativas continuas con distribución normal, se utilizará el coeficiente de correlación de Pearson (r de Pearson), si una de las dos variables no es normal, se utiliza el coeficiente de correlación de Spearman (rho de Spearman).
Nominal. Para los datos nominales, puede seleccionar el Coeficiente de contingencia, Phi (coeficiente) y V de Cramer, Lambda (lambdas simétricas y asimétricas y tau de Kruskal y Goodman) y el Coeficiente de incertidumbre.

Coeficiente de contingencia. El valor varía entre 0 y 1. El valor 0 indica que no hay asociación entre las variables.

Phi y V de Cramer. Ambas y la anterior son una medida de asociación basada en X², en el caso de Phi, varía de 0a +1, donde “cero” implica ausencia de correlación entre variables y +1 significa que están correlacionadas perfectamente. V de Cramer es un ajuste de Phien tablas mayores de 2x2, varía de 0a +1 con variables nominales “0” es nula correlación y +1 es correlación perfecta.

Lambda. Medida de asociación que refleja la reducción proporcional en el error cuando se utilizan los valores de la variable independiente para pronosticar los valores de la variable dependiente. Un valor igual a 1 significa que la variable independiente pronostica perfectamente la variable dependiente y si es igual a “0” significa lo opuesto.

Coeficiente de incertidumbre. Medida de asociación que refleja la reducción proporcional en el error cuando se utilizan los valores de una variable para pronosticar los valores de la otra variable. Por ejemplo, un valor de 0,83 indica que conocer una variable reduce en un 83% el error al pronosticar los valores de la otra variable.

Ordinal. Seleccione Gamma (orden cero para tablas de doble clasificación y condicional para tablas cuyo factor de clasificación va de 3 a 10), Tau-b de Kendall y Tau-c de Kendall. Gamma. Medida de asociación simétrica entre dos variables ordinales cuyo valor está entre -1 y 1. Los valores próximos a 1, indican una fuerte relación entre las dos variables. d de Somers. Medida de asociación entre dos variables ordinales que toma un valor entre -1 y 1. Los valores próximos a 1, en valor absoluto, indican una fuerte relación entre las dos variables. La d de Somers es una extensión asimétrica de gamma.
Tau-b de Kendall. Medida no paramétrica de la correlación para variables ordinales o de rangos que tiene en consideración los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza de la relación. Los valores mayores indican que la relación es más estrecha. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener, como el siguiente, a partir de tablas cuadradas.
Tau-c de Kendall. Medida no paramétrica de asociación que ignora los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza de la relación. Los valores posibles van de -1 a 1, pero un valor de -1 o +1.

El coeficiente Eta cuantifica el grado de asociación entre una variable cuantitativa otra nominal, y el cuadrado se puede interpretar como la proporción de varianza de la variable cuantitativa que es explicada por la nominal. Un coeficiente, con valor 0 y 1 indican que no hay y que existe asociación entre las variables respectivamente.

Kappa. La kappa de Cohen y la w de Kendall miden el acuerdo entre las evaluaciones de dos o más jueces cuando se están valorando el mismo objeto o evalúa el acuerdo existente entre las clasificaciones de jueces diferentes sobre la misma muestra de sujetos. Un valor igual a 1 indica un acuerdo perfecto y un valor igual a cero indica que no hay acuerdo.

Riesgo. Las más empleadas son tres: 1- Riesgo relativo (RR) aplicable a los estudios longitudinales (de seguimiento) ya sean experimentales (ensayos clínicos aleatorios) u observacionales (de cohorte), en los estudios de casos y controles se utiliza el OR que es una estimación indirecta del riesgo relativo y en los estudios de corte transversal se utilizan la razón de prevalencias para enfermedades agudas y la razón de momios de prevalencia para enfermedades crónicas. 2- Riesgo atribuible o diferencia de riesgos: permite diferenciar el efecto absoluto de la exposición y expresa la proporción de individuos expuestos que, por efecto de la exposición, desarrollarán la consecuencia.3- Fracción etiológica o porcentaje de riesgo atribuible: permite estimar la proporción del riesgo o el efecto observado en los sujetos expuestos, que es atribuible a la exposición.

McNemar. Prueba no paramétrica para dos variables dicotómicas relacionadas en los diseños del tipo "antes-después". Para las tablas cuadradas de mayor orden se informa de la prueba de simetría de McNemar-Bowker.

Estadísticos de Cochran y de Mantel-Haenszel. Esta prueba se emplea en tablas 2 x 2 de diseños de cohortes o de caso-control cuando interviene una tercera variable, contrastan la hipótesis de independencia condicional, es decir la hipótesis entre la variable dependiente problemas vasculares y la variable factor tabaquismo, controlando la tercera variable como dieta: alta o baja en grasas.

El procedimiento Distancias,³¹^-³⁴ calcula estadísticos que miden las similitudes o diferencias (distancias), entre pares de variables o entre pares de casos, que después, se utilizan con otros procedimientos, como análisis factorial, análisis de conglomerados o escalamiento multidimensional y ayudar en el análisis de datos complejos.³⁰^,³¹^,³⁵^-³⁹

Mientras, que la Regresión lineal simple (RLS) permite examinar la relación lineal entre dos variables continuas, normales, independientes y con igual varianza: una respuesta (Y) y un predictor (X). Además, se aclara que aquí se hace referencia al "coeficiente de correlación lineal de Pearson" r, este coeficiente nos da una medida de la fuerza y sentido de la relación lineal entre dos variables, su valor oscila entre -1 y +1, siendo cero cuando las variables no están relacionadas linealmente. También la RLS se utiliza para determinar la cantidad de varianza explicada por la variable dependiente, por ejemplo, si el coeficiente de correlación R es igual a 0.8, la ecuación explica el 0.64 de la varianza (R ² = 64 %). ³⁵^-³⁸

El coeficiente de determinación R² es una medida de bondad del ajuste y mide cuan bueno es un modelo cualquiera (no necesariamente lineal y no necesariamente con una sola variable independiente o dependiente), representa la proporción de varianza de la variable respuesta explicada por el modelo, su valor oscila entre 0 y 1 aunque se suele expresar en porciento, cuanto más alto su valor, mejor el modelo. Existe también el R² ajustado que corrige el hecho de que cuanto más variables explicativas, significativas o no, tenga el modelo, más alta va a ser la medida del R². Es por eso que esta es la medida que se prefiere para comparar los modelos.

Sólo en el modelo lineal simple el coeficiente de determinación R² coincide con el cuadrado de la correlación lineal de Pearson r² (R²= r²), y aun así, no representan lo mismo.

La Regresión lineal múltiple (RLM), determina el efecto de más de una variable independiente en una dependiente, y cuando no se cuenta con los controles de los diseños experimentales, se utiliza la RLM para controlar esas diferencias no deseadas.

En la Regresión logística (RL) y de Cox describen la relación entre un grupo de variables independientes y una dependiente de tipo categórico, aquí la variable objeto de estudio puede ser tiempo de supervivencia (y por extensión, tiempo hasta que ocurre un suceso) o categórica dependiente del tiempo y pueden estar o no censurados los datos. Los tipos RL son la: regresión logística binaria; regresión logística ordinal; y regresión logística nominal o multinomial. ³⁰^,³³^,³⁷

Cuando los datos están estructurados de manera jerárquica,²⁷^-²⁹^,³³ el análisis para ese tipo de datos son los modelos lineales multinivel (MLM), también llamados modelos jerárquicos lineales o modelos lineales mixtos. ⁽³⁰^,³¹^,³⁷^-⁴¹

Los MLMx, ¹^,¹²^-¹⁴ (Modelo Lineal Mixto) tienen otras ventajas como: no es necesario tener en cuenta las asunciones de homogeneidad de las pendientes de regresión, los datos no deben ser independientes y para ellos los datos perdidos no son un problema, a diferencia de los distintos tipos de regresiones, test ANOVA, ANCOVA, entre otras. ³⁰^,³¹^,³³^,³⁷^,⁴⁰

Los modelos multinivel, se clasifican en modelos lineales y no lineales, en el primer grupo sitúa modelos con una variable dependiente continua como: los modelos de medias repetidas (que permiten ver las medias de los diferentes niveles), de diseños cruzados (dónde un individuo pertenece a grupos diferentes) y de meta-análisis. ³⁰^,³³^,³⁸^-⁴¹

En el segundo aúna modelos que contemplan una variable dependiente discreta, se menciona el Modelo Logístico y Regresión Logística Multinivel, ³²^,³⁸^-⁴¹⁾ dónde la variable dependiente se expresa en dos valores de forma dicotómica, el Modelo Multinomial dónde la variable es categórica con más de dos valores, el Modelo Poisson que cuenta las veces o situaciones que se da un suceso y los Modelos de Supervivencia que miden un período de tiempo hasta suceder un episodio predefinido como enfermar o fallecer. ³⁷^-³⁹

El análisis de sendero (Anexo 4 y Figura 4), es un caso especial de modelización de ecuaciones estructurales (SEM), se utiliza para describir las dependencias directas entre un conjunto de variables. Esto incluye modelos equivalentes a cualquier forma de análisis de regresión múltiple, análisis factorial, análisis de correlación canónica, análisis discriminante, así como familias más generales de modelos en el análisis multivariante de varianza y análisis de covarianza, ANOVA, MANCOVA, entre otros.³²^,³⁸^-⁴¹

Los modelos de Regresión de mínimos cuadrados parciales (PLS), combinan el ACP y la regresión múltiple, donde las variables dependientes e independientes pueden ser de escala, nominales u ordinales. La PLS es una técnica de predicción alternativa a la regresión de mínimos cuadrados ordinarios (OLS), a la correlación canónica o al SEM, útil si el número de predictores es superior al número de casos. ³⁰^,³²

Los métodos multivariados de análisis (MMA) se utilizan con fines de predicción, descripción o de estimación del efecto de las variables independientes controlando las variables confusoras y entre los métodos predictivos conocidos se encuentran la regresión logística y la de Cox. Las técnicas que identifican variables dependientes como independientes (métodos de dependencia) son: el análisis discriminante, el análisis conjunto, los modelos de segmentación jerárquica). ³²^,³⁸^-⁴⁴

Entre las técnicas descriptivas (métodos de interdependencia) que no distinguen las variables independientes de las dependientes, tenemos: el análisis factorial, el ACP, el análisis de conglomerados, el análisis de correspondencia, los árboles de clasificación y el escalamiento multidimensional. Además, existen métodos de respuesta múltiple, donde se explica más de una variable, como es el caso del análisis canónico.

Las técnicas de análisis que se aplican a la investigación aplicada son: el análisis de la variancia (AVAR), el análisis de la covariancia (ACOVAR), el análisis de la regresión múltiple (ARM), el análisis de series temporales (modelos ARIMA), el análisis multivariado de la variancia (AMVAR), el análisis de correlaciones cruzadas en panel (ACCP), el análisis de la regresión (AR) y los modelos lineales de ecuaciones estructurales (LISREL). ³²^,³³^,³⁷^-⁴⁴

Las investigaciones que realizan mediciones repetidas en el tiempo en las mismas unidades experimentales, estas se hallan correlacionadas, y se incumplen los supuestos de independencia, normalidad, homocedasticidad y linealidad. ²⁸^-³²⁾ se utilizan los Modelos Lineales Mixtos (MLMx) y los Modelos Lineales Generalizados Mixtos (MLGMx), por sus ventajas con respecto a los tradicionales. ³⁰^,³¹^,³³^,³⁷^-³⁹⁾ Se obtiene una mayor eficiencia mediante el uso de ecuaciones de estimación generalizada (EEG).³⁰

Los tipos de modelos disponibles se agrupan por el tipo de la variable respuesta o variable dependiente, la cual puede distribuirse según una distribución normal (Modelo Lineal General) o de otro tipo (Modelos Lineales Generalizados). ³⁰

La opción Modelos avanzados del IBM SPSS Statistics proporciona procedimientos que ofrecen opciones de modelado más avanzadas. ⁽³⁰^,³⁸

MLG Multivariado amplía el modelo lineal general que proporciona MLG Univariado al permitir varias variables dependientes. Una extensión adicional, GLM Medidas repetidas, permite las medidas repetidas de varias variables dependientes.

Análisis de componentes de la varianza descompone la variabilidad de una variable dependiente en componentes fijos y aleatorios. Este procedimiento es de interés para el análisis de modelos mixtos, como los diseños split-plot, los diseños de medidas repetidas univariados y los diseños de bloques aleatorios.

Los MLMx amplían el modelo lineal general de manera que los datos puedan presentar variabilidad correlacionada y no constante. El procedimiento Modelos lineales mixtos ajusta otros modelos lineales mixtos, incluyendo los modelos multinivel, los modelos lineales jerárquicos y los modelos con coeficientes aleatorios.

Los modelos lineales generalizados (GZLM) relajan el supuesto de normalidad y requieren que la variable dependiente esté relacionada linealmente con los predictores mediante una transformación o función de enlace. El GZLM cubre modelos, como la regresión lineal para las respuestas distribuidas normalmente, modelos logísticos para datos binarios, modelos loglineales para datos de recuento, modelos log-log complementario para datos de supervivencia censurados por intervalos, además de otros modelos especificados a través de la propia formulación general del modelo.

Las EEG amplían los GZLM para permitir medidas repetidas y otras observaciones correlacionadas, como datos conglomerados. La respuesta puede ser de escala, de recuentos, ordinal, binaria o eventos en ensayos.

El análisis loglineal general ajusta modelos a datos de recuento de clasificación cruzada y la selección del modelo del análisis loglineal ayuda a elegir entre modelos.

El análisis loglineal logit permite ajustar modelos loglineales para analizar la relación existente entre una variable dependiente categórica y uno o más predictores categóricos.

Puede realizar un análisis de supervivencia a través de tablas de mortalidad; análisis de supervivencia de Kaplan-Meier y regresión de Cox para modelar el tiempo de espera hasta un determinado evento, basado en los valores de las variables especificadas.

El procedimiento de escalamiento óptimo de datos categóricos, ³¹^,⁴⁰^-⁴⁴⁾ permiten analizar datos categóricos que son difíciles o imposibles de analizar por los procedimientos estadísticos estándar, datos caracterizados por tener: - Observaciones insuficientes, - Demasiadas variables y - Demasiados valores por cada variable.

Las técnicas que se incluyen en cuatro de estos procedimientos son: Análisis de correspondencias (AC), Análisis de correspondencias múltiple (ACM), Análisis de componentes principales categórico (ACPC) y Análisis de correlación canónica no lineal (ACCNL) corresponden al área del análisis conocido como reducción de dimensiones.

A continuación, se indican normas para cada uno de los procedimientos: ³¹^,³²^,³⁸^,⁴⁰^-⁴⁴

Utilice la regresión categórica para pronosticar los valores de una variable dependiente categórica a partir de una combinación de variables independientes categóricas.
Utilice el ACPC para tener en cuenta los patrones de variación de un único conjunto de variables con varios tipos de niveles de escalamiento óptimos.
Utilice el (ACCNL) para evaluar el grado de correlación entre dos o más conjuntos de variables de varios tipos de niveles de escalamiento óptimo.
Utilice el análisis de correspondencias para analizar tablas de contingencia de doble clasificación o datos que se puedan expresar como una tabla de doble clasificación, como la preferencia por una u otra marca o datos de opción sociométricos.
Utilice el ACM para analizar una matriz de datos multivariantes categóricos cuando no se está dispuesto a suponer que todas las variables se analizan a nivel nominal.
Utilice el escalamiento multidimensional y el desplegamiento multidimensional para analizar datos de proximidad para buscar una representación de un solo y dos conjuntos de los objetos en un espacio de pocas dimensiones.

El análisis conjunto es una técnica estadística utilizada para analizar la relación lineal o no lineal entre una variable dependiente (o endógena) generalmente ordinal (aunque puede ser métrica) y varias variables independientes (o exógenas) no métricas.⁴⁵

El Análisis de conglomerados de K medias permite procesar un número ilimitado de casos, pero sólo permite utilizar un método de aglomeración y requiere que se proponga previamente el número de conglomerados que se desea obtener.

Por otro lado, el Análisis de conglomerados jerárquico permite aglomerar tanto casos como variables y elegir entre una gran variedad de métodos de aglomeración y medidas de distancia, siendo su principal diferencia respecto al primero, el hecho de que procede de forma “jerárquica”.⁴⁵

Los árboles de decisión pertenecen a la minería de datos (Data Mining, DM), se aplican en psicología y medicina, prepara, sondea y explora los datos para sacar la información oculta en ellos, se aborda problemas de predicción, clasificación y segmentación.³²

Dentro de los modelos de segmentación se incluyen entre los modelos a priori, el análisis loglineal, la regresión logística o el análisis discriminante, y entre los modelos post hoc, se encuentran el análisis factorial (Q análisis), el análisis clúster, las redes neuronales artificiales, la inducción de reglas o las técnicas de clasificación arborescentes, también denominadas de segmentación jerárquica, como los métodos CHAID, CHAID Exhaustivo, CART, QUEST. ⁴⁶^-⁴⁷

El último año, para prever la evolución de la COVID-19 se utilizan: modelo de media móvil, integrado regresivo automático (ARIMA), y métodos de suavizado exponencial lineal de Brown / Holt. ⁴⁸^-⁵⁰

El análisis estadístico implicativo, conocido por las siglas ASI de Analyse Statistique Implicative, es una herramienta de la minería de datos, que ha probado su valía en el estudio de la causalidad en ciencias médicas. ⁵¹^-⁵⁴

En una investigación, la elección de un método de análisis adecuado evita llegar a conclusiones erróneas, implica basarse en criterios que dependerán de los objetivos e hipótesis, de la pregunta de investigación, del tipo de estudio: descriptivos o analíticos, el tamaño de la muestra, el método de muestreo, la escala de medida de las variables y del carácter apareado o independiente de los grupos de comparación. ⁵⁵

Los sesgos pueden ocurrir por un sinfín de causales, se acepta que los más relevantes son aquellos debidos al que mide, lo que se mide y con que se mide. Otra consideración a tener en cuenta es que un error ocurre en cualquier etapa de una investigación, desde la planificación a la presentación y la publicación de los resultados.⁵⁶

Lo anterior ayuda a comprender lo complejo que resulta la aplicación de la estadística en la investigación biomédica, ⁵⁷⁾ y del impacto de los errores en la calidad del estudio. ⁽⁵⁵⁾ No estar consciente de esta realidad acarrea graves consecuencias a la investigación.

La sociedad del conocimiento demanda nuevos procesos de formación, esta herramienta favorece la formación integral, y supone una visión multidimensional del individuo, desarrollando su inteligencia emocional, intelectual, social, ética y material. ⁵⁵

Todo lo anterior nos motivó a recopilar una serie de herramientas estadísticas y ponerlas al servicio de docentes, estudiantes e investigadores, los tutores de tesis, en forma de guión general como un recurso para su desarrollo profesional sin incurrir en explicaciones teóricas sobre cada instrumento.

Conclusiones

La Estadística proporciona las técnicas adecuadas para la recolección, organización y análisis de los datos. Este estudio es un intento de aportar una guía útil para seleccionar una técnica estadística a partir de las contribuciones procedentes de la revisión bibliográfica y reflexiones nacidas de la experiencia profesional del equipo de investigadores e incorporando las aportaciones del grupo de expertos.

Referencias Bibliográficas

1. Corral Dávalos L. Estadística y técnicas experimentales para la investigación biológica [Internet]. Cuenca: Universidad Politécnica Salesiana; 2019. [citado 16/06/2021]. Disponible en: https://dspace.ups.edu.ec/bitstream/123456789/21027/1/Estadi%CC%81sticas%20y%20te%CC%81cnicas%20experimentales%20para%20la%20investigacio%CC%81n%20biolo%CC%81gica%20T.pdf. [ Links ]

2. Cardoso Rojas LE, Castro Pérez G, Fernández Peña CL. La Estadística en función de la investigación educativa. Reto para los profesionales de la educación. Mendive. 2022; 20(1): 270-84. [ Links ]

3. Mamani Benito O, Ventura León J, Carranza Esteban RF, Tito Betancur M, Mejía CR. Satisfacción de los egresados sobre la asesoría de tesis recibida en una Facultad de Salud, Perú. Propósitos y Representaciones. 2021; 9(3): e1428 - e37. [ Links ]

4. Toma RB. Problemas de validez y fiabilidad en los cuestionarios ROSE: revisión sistemática de la producción española. Revista Eureka sobre Enseñanza y Divulgación de las Ciencias. 2021; 18 (3): 3102-15. [ Links ]

5. Lugo Armenta JG, PinoFan LR. Niveles de Razonamiento Inferencial para el Estadístico t-Student. Bolema Río Caro. 2021; 35(71):1776-802. [ Links ]

6. Vega Falcón V, Castro Sánchez F, Sánchez Martínez B. Diferencias en el global COVID-19 Tourism índex entre los cinco continentes. Rev Dilemas Contemp. Educ. Política Valores. 2021; 8(3): 00048. [ Links ]

7. Corral Y, Corral I, Franco A. La Investigación: tipos, normas, acopio de datos e informe final para estudios cuantitativos, cualitativos y biomédicos. Caracas: Fondo Editorial OPSU; 2019. [ Links ]

8. Obregon Sevillano L. ¿Cuáles son los criterios de selección de una prueba estadística? Club ensayos [Internet]. 2021 [citado 04/03/2022]. Disponible en: https://webcache.googleusercontent.com/search?q=cache:CVqavtNvxY0J:https://www.clubensayos.com/Ciencia/Cu%25C3%25A1lessonloscriteriosdeselecci%25C3%25B3ndeuna/5264830.html+&cd=14&hl=es&ct=clnk&gl=cu. [ Links ]

9. Ponce Renova HF, Cervantes Arreola DI, Anguiano Escobar B. Análisis de calidad de artículos educativos con diseños experimentales. RIDE. Rev. Iberoam. Investig. Desarro. Educ. 2021; 12 (23): e03. [ Links ]

10. Caraballo Ríos JN, Quintana Díaz JC. Lecturas sobre métodos estadísticos en la investigación [Tesis]. Puerto Rico: Pontificia Universidad Católica de Puerto Rico; 2021.[citado 7/10/2021]. Disponible en: https://www.pucpr.edu/wp-content/uploads/2021/09/Lecturas-sobre-metodos-estadisticos-en-la-investigacion.pdf. [ Links ]

11. Sagaró del Campo N, Zamora Matamoros L. Métodos actuales para asegurar la validez de los estudios de causalidad en Medicina. Gaceta Médica Espirituana. [Internet]. 2019 [citado 7/03/2022]; 21(2). Disponible en: https://revgmespirituana.sld.cu/index.php/gme/article/view/1972. [ Links ]

12. Enver Vega F. La revisión bibliográfica. Concepto, características y tipos [Internet]. 2019 [citado 7/03/2022]; [aprox. 10 pantallas]. Disponible en: https://investsocperu.medium.com/la-revisi%C3%B3n-bibliogr%C3%A1fica-1188b99df9b7. [ Links ]

13. Sánchez-Taraza L, Ferrández-Berrueco R. Aplicación del método Delphi en el diseño de un marco para el aprendizaje por competencias. Revista de Investigación Educativa (RIE). 2022; 40(1): 219-35. [ Links ]

14. López Gómez E. El método Delphi en la investigación actual en educación: una revisión teórica y metodológica. Educación XX1. 2018; 21(1):17-40. [ Links ]

15. Martínez Acosta MT, Sánchez Luján BI, Camacho Ríos A. Método Delphi: validar un instrumento para la medición de características de un libro de texto de probabilidad y estadística. Revista de Educación Técnica. 2019; 3 (72): 8-18. [ Links ]

16. Bernal García MI, Salamanca Jiménez DR. Validez de contenido por juicio de expertos de un instrumento para medir percepciones físico-emocionales en la práctica de disección anatómica. Educ Med. 2020; 21(6):349 -56. [ Links ]

17. George Reyes CE, Trujillo Liñán L. Aplicación del método Delphi modificado para la validación de un cuestionario de incorporación de las TIC en la práctica docente. Revista Iberoamericana de Evaluación Educativa. 2018; 11(1):113-35. [ Links ]

18. Badii MH, Guillen A, García Martínez M, Abreu JL. Sesgo, error y aleatoriedad en la investigación. Daena: International J Good Conscience. 2021; 16(1):1-17. [ Links ]

19. Pineda BE, Lizcano AR, Parra JA. Planteamiento del problema de investigación en educación: algunas orientaciones para profesores que investigan en el aula. Plumilla Educativa. 2021; 28(2): 57-79. [ Links ]

20. Mamani Ortiz Y. Texto de apoyo didáctico. Introducción a la metodología de la investigación [Internet]. Cochabamba: IIBISMED; 2019.[citado 07/10/2021]. Disponible en: file:///C:/Users/Lucy/Downloads/INTRODUCCINALAMETODOLOGADELAINVESTIGACIN2021.pdf. [ Links ]

21. Armijo I, Aspillaga C, Claudio Bustos AC, Cristian Cortés PF, Melipillan R, Sánchez A, Vivanco A. Manual de Metodología de la Investigación [Internet]. Santiago de Chile: Universidad del Desarrollo; 2021. [citado 7/01/2022]. Disponible en: https://psicologia.udd.cl/files/2021/04/Metodologi%CC%81a-PsicologiaUDD-21.pdf. [ Links ]

22. Medrano LA, Pérez E. Manual de psicometría y evaluación psicológica. 2da ed. ampliada. [Internet]. Córdoba: Brujas; 2019. [citado 7/01/2022]. Disponible en: https://www.researchgate.net/profile/LeonardoMedrano/publication/351094332_Manual_de_Psicometria_y_Evaluacion_Psicologica/links/6085d5cf8ea909241e261bed/ManualdePsicometria-y-Evaluacion-Psicologica.pdf. [ Links ]

23. Jorrin Carbó EM, Quintana Rodríguez D, Kessel Rodríguez JG. Estudio preliminar de la orientación del contenido estadístico durante el proceso de formación del profesional de Cultura Física. Rev Podium. 2021; 16(2): 576-92. [ Links ]

24. Vásquez C. Proyectos estocásticos orientados a la acción: una puerta al desarrollo sostenible desde temprana edad. Revista Venezolana de Investigación en Educación Matemática (REVIEM). 2021; 1(2):1-29. [ Links ]

25. Fernando Chipia J. Errores más comunes en metodología de la investigación y el análisis de datos [Internet]. Mérida: LXXIII Aniversario del Colegio de Médicos del estado Mérida; 2017.[citado 17/07/2020;. Disponible en: https://es.slideshare.net/JoanFernando Chipia/errores-ms-comunes-enmetodologa-de-la-investigacinyanlisis-de-datos. [ Links ]

26. Herbas Torrico BC, Rocha Gonzales EA. Metodología científica para la realización de investigaciones de mercado e investigaciones sociales cuantitativas. Revista Perspectivas. 2018;(42):123-60. [ Links ]

27. Martínez Bencardino C. Estadística básica aplicada. 5ta. ed. [Internet]. Bogotá: Ecoe Ediciones; 2019.[citado 7/10/2020]. Disponible en: https://www.academia.edu/48816563/ESTAD%C3%8DSTICA_B%C3%81SICA_APLICADA_Ciro_Mart%C3%ADnez_Bencardino. [ Links ]

28. Ponce Renova HF. Estadística para comparaciones básicas de grupos: con uso de SPSS y calculadoras en línea [Internet]. Ciudad Juárez: Universidad Autónoma de Ciudad Juárez; 2021. [ citado 22/12/2022]. Disponible en: file:///C:/Users/Lucy/Downloads/document(1).pdf. [ Links ]

29. Triola MF. Estadística. 12a ed. México: Pearson Educación de México S.A; 2018. [ Links ]

30. IBM SPSS Statistics. Software de computación. 16. ed. Chicago: [s/n]; 2019. [ Links ]

31. Field A. Discovering Statistics Using IBM SPSS Statistics. 5th ed. [Internet]. Germany: SAGE Publications, Inc. University of Sussex; 2018. [citado 7/03/2022]. Disponible en: file:///C:/Users/Informatica/Downloads/ discoveringstatisticsusingibmspssstatistics_compress.pdf. [ Links ]

32. Galindo Domínguez H. Estadística para no estadísticos. Una guía básica sobre la metodología cuantitativa de trabajos académicos [Internet]. Alcoy-Alicante: Área de innovación y desarrollo, S.L.; 2020. [citado 07/03/2022].Disponible en: https://www.3ciencias.com/wp-content/uploads/2020/03/Estad%C3%ADstica-para-no-estad%C3%ADsticos-Una-gu%C3%ADa-b%C3%A1sica-sobre-la-metodolog%C3%ADa-cuantitativa-de-trabajos-acad%C3%A9micos-2.pdf. [ Links ]

33. Hoffman JI. Basic biostatistics for medical and biomedical practitioners. 2th ed. España: Elsevier; 2019. [ Links ]

34. Montanero Fernández J, Minuesa Abril C. Estadística básica para Ciencias de la Salud [Internet]. Cáceres: Universidad de Extremadura Cáceres; 2018. [citado 7/4/2020]. Disponible en: http://matematicas.unex.es/~jmf/Archivos/Manual%20de%20Bioestad%C3%ADstica.pdf. [ Links ]

35. Lorenzo J. Introducción a la Estadística No Paramétrica para estudiantes de educación. [Internet]. Córdoba: Universidad Nacional de Córdoba; 2020. [ Citado 07/03/2022]. Disponible en: https://ansenuza.ffyh.unc.edu.ar/bitstream/handle/11086.1/1416/Introducci%c3%b3n%20a%20la%20Estad%c3%adstica%20No%20Param%c3%a9trica%20para%20estudiantes%20de%20educaci%c3%b3n.pdf?sequence=1&isAllowed=y. [ Links ]

36. Ñaupas Paitán H, Valdivia Dueñas MR, Palacios Vilela JJ, Romero Delgado HE. Metodología de la investigación cuantitativa-cualitativa y redacción de la tesis. 5ta. ed. [Internet]. Bogotá: Ediciones de la U; 2018 [citado 07/03/2022].Disponible en: https://d1wqtxts1xzle7.cloudfront.net/73469093/METODOLOGIADELAINVESTIGACION5TAEDICIONlibre.pdf?. [ Links ]

37. Bowers D. Medical Statistics from Scratch an Introduction for Health Professionals. 4th ed. Hoboken NJ: Wiley; 2020. [ Links ]

38. Darren G, Mallery P. IBM SPSS Statistics 26 Step by Step. A Simple Guide and Reference. 16. Ed. [Internet]. New York: Routledge-Taylor & Francis; 2020. [citado 7/03/2022]. Disponible en: https://s3-eu-west-1.amazonaws.com/s3-euw1-ap-pe-ws4-cws-documents.ri-prod/9780367174354/SPSS_Statistics_26_Step_by_Step_Answers_to_Selected_Exercises.pdf. [ Links ]

39. Stockemer D. Quantitative Methods for the Social Sciences. A Practical Introduction with Examples in SPSS and Stata. [Internet]. New York: Springer; 2019. [citado 7/03/2022]. Disponible en: https://doi.org/10.1007/978-3-319-99118-4. [ Links ]

40. Capa Benítez LB, García Saltos MB, Crespo Hurtado E, Palmero Urquiza DE, López Hernández R, Crespo Borges T, et al. Análisis Exploratorio de datos con SPSS. [Internet]. Ecuador: Universidad Metropolitana de Ecuador; 2017. [citado 07/03/2022]. Disponible en: https://allspace.ucf.edu.cu/index.php/s/ SSXAdok23kpgnpE/download. [ Links ]

41. Dinov ID. Data science and predictive analytics. Biomedical and health applications using R [Internet]. Michigan: University Ann Arbor; 2018. [citado 7/03/2022]. Disponible en: file:///C:/Users/Lucy/Downloads/Data_Science_and_Predictive_Analytics_Bi.pdf. [ Links ]

42. Denis DJ. SPSS Data Analysis for Univariate, Bivariate, and Multivariate Statistics. EUA: John Wiley & Sons, Inc.; 2019. [ Links ]

43. Palacio FX, Apodaca MJ, Crisci JV. Análisis multivariado para datos biológicos: teoría y su aplicación utilizando el lenguaje R. [Internet]. Buenos Aires: Fundación de Historia Natural Félix de Azara; 2020. [citado 7/03/2022]. Disponible en: https://fundacionazara.org.ar/img/libros/analisis-multivariado-para-datos-biologicos/analisis-multivariado-para-datos-biologicos.pdf. [ Links ]

44. Díaz Chávez LA, Rosado Vega JR. Tratamiento Estadístico de Datos con Aplicaciones en R. [Internet]. Venezuela: Universidad de La Guajira; 2019. [citado 7/03/2022]. Disponible en: https://repositoryinst.uniguajira.edu.co/bitstream/handle/uniguajira/309/52.%20Tratamiento%20estadistico%20de%20datos%20con%20aplicaciones%20en%20R%20-web-.pdf?sequence=1&isAllowed=y. [ Links ]

45. Ramírez Anormaliza R, Guevara Viejo F, D'Armas Regnault M, Pena Holguin R, Farias Lema R, Bravo-Duarte F, et al. Análisis Multivariante: Teoría y práctica de las principales técnicas. [Internet]. Ecuador: UNEM; 2017. [citado 7/03/2022]. Disponible en: file:///C:/Users/Lucy/Downloads/Analisis_Multivariante_Teoria_y_practica.pdf. [ Links ]

46. Maya Lopera E. Los árboles de decisión como herramienta para el análisis de riesgos de los Proyectos EAFIT. [Tesis]. Medellín: Universidad EAFIT; 2018. [citado 6/11/2019]. Disponible en: https://docplayer.es/110499309-Los-arboles-de-decision-como-herramienta-para-el-analisis-de-riesgos-de-los-proyectos-elena-maya-lopera.html. [ Links ]

47. Jaffe DH, Kwan J, Li VW, Li S, De Congelio M, Pomerantz D, et al. Chi-Square Automatic Interaction Detection (CHAID) Analysis: Understanding and Informing Treatment Choice of Second-Line Metastatic Urothelial. Cancer Therapy. Value in health. 2018; 21:s1-s268. [ Links ]

48. Díaz Pinzóna JE. Precisión del pronóstico de la propagación del COVID-19 en Colombia. REPERT MED CIR. 2020; 29(s1):27-33. [ Links ]

49. Harun Yonar AY, Agah Tekindal M, Melike Tekindal M. Modeling and Forecasting for the number of cases of the COVID-19 pandemic with the Curve Estimation Models, the Box-Jenkins and Exponential Smoothing Methods. EJMO. 2020; 4(2):160-5. [ Links ]

50. Peng L, Yang W, Zhang D, Zhuge C, Hong L. Epidemic analysis of COVID-19 in China by dynamical modeling. MedR. [Internet]. 2020 [citado 13/10/2022]; XIV. Disponible en: https://arxiv.org/pdf/2002.06563.pdf. [ Links ]

51. Sagaró del Campo NM, Zamora Matamoros L. Evolución histórica de las técnicas estadísticas y las metodologías para el estudio de la causalidad en ciencias médicas. MEDISAN. 2019; 23(3): 534-56. [ Links ]

52. Pazmiño Majie RA. Aporte del Análisis Estadístico Implicativo a Learning Analytics. [Tesis]. Salamanca: Universidad de Salamanca; 2021. [citado 14/06/2022]. Disponible en: https://repositorio.grial.eu/bitstream/grial/2487/4/TesisRPM_VF.pdf. [ Links ]

53. Sagaró del Campo NM, Zamora Matamoros L. Análisis estadístico implicativo versus regresión logística binaria para el estudio de la causalidad en salud. Multimed. 2019; 23(6): 1416-40. [ Links ]

54. Sagaró del Campo NM, Zamora Matamoros L. Métodos gráficos en la investigación biomédica de causalidad. Rev. Electron. Zoilo. [Internet]. 2019. [citado 16/7/2020]; 44(4): [aprox. 10 p.]. Disponible en: https://revzoilomarinello.sld.cu/index.php/zmv/article/view/1846/pdf_609. [ Links ]

55. Chocó A. Elementos para evitar errores en el diseño de investigaciones en ciencias de la salud. Revista Científica. 2016; 26(1):78-93. [ Links ]

56. Manterola C, Otzen T. Los sesgos en investigación clínica. Int. J. Morphol. 2015; 33(3): 1156-64. [ Links ]

57. Alves de Oliveira A, Furquim de Almeida M, Pereira da Silva Z, Lisiane de Assunção P, Rigo Silva MA, Geremias dos Santos H, Pereira Alencar G. Fatores asociados ao nascimento prétermo: da regressão logística à modelagem come quações estruturais. Cad. Saúde Pública. 2019; 35(1): e00211917. [ Links ]

Anexos

Anexo 1.

Fig. 1. Esquema para seleccionar una técnica estadística univariante para variables dependientes métrica y no métrica.

Anexo 2.

Fig. 2. Esquema para seleccionar una técnica estadística bivariante para variables dependientes métrica y no métrica.

Anexo 3.

Fig. 3. Esquema para seleccionar una técnica estadística multivariable para variables dependientes métrica y no métrica.

Anexo 4.

Fig. 4. Esquema para seleccionar una técnica estadística multivariable para variables dependientes métrica y no métrica.

Recibido: 21 de Diciembre de 2020; Aprobado: 02 de Diciembre de 2022

^*Autor para la correspondencia. Email: roly6105@infomed.sld.cu

Los autores no declaran conflictos de intereses.

Pedro Emilio Boza Torres: participó en la conceptualización, curación de datos, análisis formal, investigación, metodología, administración del proyecto de investigación, recursos informáticos aplicados en la investigación, software, supervisión, validación, visualización, edición, redacción y revisión crítica del manuscrito.

Yaderine Pérez Sánchez: colaboró en la conceptualización, curación de datos, análisis formal, investigación, metodología, supervisión, validación, visualización y redacción.

Oslaidis Liriano Leyva: participó en la conceptualización, curación de datos, análisis formal, investigación, metodología, supervisión, validación y revisión crítica del manuscrito.

Ramón Luis Fonseca González: participó en la conceptualización, curación de datos, análisis formal, investigación, metodología, validación y revisión crítica del manuscrito.

Yo, Pedro Emilio Boza Torres, en nombre de todos los coautores declaro la veracidad del contenido del artículo.

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons