Significación estadística y otras medidas complementarias para la interpretación de los resultados de investigación

Torres Martínez, Mildrey; Herrera Villafranca, Magaly; García Ávila, Yaneilys; Torres Martínez, Mildrey; Herrera Villafranca, Magaly; García Ávila, Yaneilys

Mi SciELO

Servicios personalizados

Servicios Personalizados

Articulo

Enviar articulo por email

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Cuban Journal of Agricultural Science

versión On-line ISSN 2079-3480

Cuban J. Agric. Sci. vol.57 Mayabeque 2023 Epub 01-Dic-2023

Biomatemáticas

Significación estadística y otras medidas complementarias para la interpretación de los resultados de investigación

0000-0001-7942-0195Mildrey Torres Martínez^*², 0000-0002-2641-1815Magaly Herrera Villafranca², 0000-0003-0126-6233Yaneilys García Ávila²

²Instituto de Ciencia Animal, Apartado Postal 24, San José de las Lajas, Mayabeque, Cuba.

RESUMEN

El contraste de hipótesis constituye el método que más se emplea en la investigación científica para estimar la significación estadística de cualquier hallazgo. Sin embargo, en la actualidad su utilización es cuestionable porque le falta integrar otros criterios estadísticos que posibiliten la credibilidad y reproducibilidad de los estudios. A partir de esta condición, este trabajo reseña cómo ha sido la utilización de la prueba de significación de la hipótesis nula y las recomendaciones que se le han hecho en cuanto a la aplicación de otros criterios estadísticos complementarios para la interpretación de los resultados. Se describe aquí la polémica fundamental de utilizar solamente el valor de probabilidad para rechazar o aceptar una hipótesis. La interpretación de un valor no signi ficativo, como una prueba de ausencia de efecto o de un valor significativo como existencia del mismo, es un error frecuente en investigaciones científicas, según refiere la literatura revisada. Se sugiere realizar una valoración rigurosa de los datos obtenidos en una investigación e incluir en los informes de trabajo otras pruebas estadísticas, como la potencia de la dócima y el tamaño del efecto de la intervención, para ofrecer una interpretación más completa e incrementar la calidad de los resultados. Específicamente, se recomienda a los editores de revistas científicas que se considere el informe de dichos estadísticos en los trabajos que así lo requieran, como parte de los criterios a tener en cuenta para su evaluación.

Palabras-clave: prueba de significación de la hipótesis nula; valor de probabilidad; potencia estadística; tamaño del efecto

En el contexto de la actividad investigativa, la prueba de significación de la hipótesis nula (PSHN) es el método inferencial inductivo más utilizado por excelencia en los informes (^{Antúnez et al. 2021}). Sin embargo, las críticas al uso de esta prueba son tan numerosas que sería difícil abordarlas de manera exhaustiva en un solo trabajo. Se han documentado desde las que se centran en su incorrecta utilización en los informes de investigación hasta las que cuestionan su utilidad científica y proponen su abandono (^{Díaz-Batanero et al. 2019}).

Durante años, la polémica sobre la PSHN ha sido tan intensa, que algunas asociaciones científicas y profesionales, como la American Psychological Association, la American Education Research Association y la American Statistical Association, recomiendan realizar cambios en las políticas editoriales de las revistas científicas con respecto a la utilización de la prueba y al uso favorable de otros criterios que permitan discutir más los resultados encontrados (^{Frías et al. 2002}).

Los cambios propuestos no suponen alternativas al modelo de inferencia estadística clásica, sino una forma de compensar alguna de las limitaciones de la PSHN. Estas recomendaciones hacen referencia fundamentalmente a dos aspectos: la necesidad de tener en cuenta la potencia de la dócima en los estudios y de incluir estimaciones del tamaño del efecto (TE) (^{Hickey et al. 2018}).

Por lo anterior, el siguiente trabajo pretende reseñar cómo ha sido la utilización de la PSHN y las recomendaciones para la aplicación de otras medidas estadísticas complementarias en la interpretación de los resultados.

Toda investigación científica tiene como objetivo buscar la explicación de los fenómenos, elaborar teorías sobre sus comportamientos y con ello, poder derivar estimaciones sobre la realidad. Sin embargo, para comprobar teorías o estimar efectos de un tratamiento, los investigadores tienen que realizar un proceso de comprobación de hipótesis, en el que se traduce la hipótesis científica a la estadística (^{Kuffner y Walker 2019}). Según ^{Frías et al. (2002)}, la técnica estadística del contraste de hipótesis y el diseño de la investigación se han necesitado mutuamente durante décadas.

La prueba de significación estadística de la hipótesis nula: el valor p. La propuesta metodológica de la PSHN se desarrolló entre 1915 y 1933, como un resultado del análisis de dos escuelas de pensamiento: la de Ronald Fisher (1890-1962) y la representada por Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980). La principal diferencia entre estas dos teorías no radica en los cálculos, sino en las concepciones y en el razonamiento subyacente (^{Bono y Arnau 1995}).

^{Fisher (1925)} definió únicamente una hipótesis nula (H₀) y a partir de ella, sobre la base de la distribución muestral del estadístico de prueba, estimó la probabilidad de una muestra de datos para decidir su rechazo o no. De forma general, la regla de decisión se basó en un valor de probabilidad (p) a partir del cual se aceptaba o no H₀, si el valor p calculado era menor que 0.05. Se debe señalar que, aunque ^{Fisher (1935}, ¹⁹⁵⁰, ¹⁹⁵⁵⁾ daba prioridad a un nivel de significación de 0.05, nunca prescribió que dicho nivel se debiera mantener fijo, sino que dependía de las características de la investigación.

^{Neyman y Pearson (1928)} propusieron la adición de una hipótesis alternativa (H₁) en contraposición con H₀, lo que condujo a la definición de dos regiones: rechazo y aceptación. A partir de estos aportes, el proceso de decisión puede conducir a dos potenciales errores, el de tipo I, definido como la probabilidad (α) de rechazar H₀ cuando es cierta y el error de tipo II, entendido como la probabilidad (β) de aceptar H₀ siendo falsa, lo que significa que no existen efectos de tratamiento cuando en realidad sí los hay. El control de este último error permite aumentar la probabilidad de encontrar los verdaderos positivos y rechazar correctamente H_0, con un grado de certeza denominado: potencia (1- β) (^{Cochran y Cox 1999}).

Con el transcurso de los años, el valor p de Fisher se convirtió en una forma de estimar adecuadamente el resultado del grupo intervención, al asumir que la H₀ es correcta. El período entre 1940-1960 se conoció como la revolución de la inferencia y los manuales de estadística de la época presentaron el modelo híbrido de la PSHN entre los enfoques de Fisher y Neyman-Pearson. Esta etapa se caracterizó por el incremento exponencial de la aplicación del procedimiento PSHN por parte de los investigadores, en el que la inferencia de la muestra a la población se consideró el punto crucial de los estudios (^{Bono y Arnau 1995}).

El contraste de hipótesis adquirió gran importancia en la década de los 70 y 80. Numerosas revistas tomaron como criterio la obtención de resultados estadísticamente significativos para aceptar artículos (sesgo de publicación) (^{Cohen 1994}). La Journal of Experimental Psychology, por ejemplo, contemplaba entre sus normas editoriales aceptar sólo aquellos manuscritos con resultados significativos al nivel de 0.05. Los estadísticamente significativos al 0.01 merecían un lugar priorizado en la revista. Sin embargo, algunos de estos resultados presentaban poco interés práctico y en la mayoría de los trabajos no se contemplaba el nivel de riesgo que el investigador estaba dispuesto a aceptar al interpretar los resultados de una prueba estadística (^{Cohen 1992}). Además, investigaciones de las ciencias sociales y sicológicas, no sólo necesitaban conocer si el efecto del tratamiento fue significativo o no, sino que deseaban obtener en magnitud el verdadero valor de dicho efecto (^{Rothman 1978}).

A partir de lo anterior, para la década de los 90 se dieron elementos estadísticos importantes para una interpretación más completa de los resultados. Autores como ^{Schmidt (1996)} exhortaron centrarse en la estimación del TE para la discusión final de los hallazgos. ^{Wilkinson et al. (1999)} recomendaron informar este estadístico junto con el valor de probabilidad. También, en la cuarta edición del manual de publicación de la ^{American Psychological Association (1994)}, se realizan ciertas recomendaciones sobre el estilo de los informes de investigación y se enfatiza en que los investigadores deben proporcionar los valores de probabilidad aportados por las pruebas de significación estadística junto al los valores del tamaño del efecto (TE) y la potencia estadística como medida de confiabilidad del resultado. En este sentido, se establece una conexión entre lo significativo, importante y válido.

A pesar de estas recomendaciones, todavía son muchas las investigaciones que se publican que aún no las tienen en cuenta. Sin embargo, para inicios del nuevo siglo se muestra una tendencia a favor de no informar solamente el contraste de hipótesis, como único elemento para encontrar o no diferencias significativas, sino que se debe acompañar de otras medidas complementarias que permitan una discusión científica certera y práctica (^{Marín y Paredes 2020}).

^{Serdar et al. (2021)} plantean que la polémica de utilizar la PSHN como instrumento válido para el progreso científico aún se mantiene, lo cual se evidencia en las reuniones y congresos de la American Psychological Association, donde se dedican sesiones de trabajo a este debate. En este sentido, son numerosos los trabajos en los que los investigadores profundizan acerca de las bondades y las deficiencias de la PSHN (tabla 1). En algunos se defiende la utilidad práctica de la prueba y en otros se cuestiona (^{Díaz-Batanero et al. 2019}).

Table 1 Different views about the practical application of the null hypothesis significance testing

Adopted view	Researchers
In favor	Levin (1993) Fritz (1995 y 1996) Greenwald et al. (1996) Abelson (1997) Cortina y Dunlap (1997) Hagen (1997)
Detractors	Bakan (1966) Craig et al. (1976) Carver (1978 y 1993) Chow (1988) Thompson (1988, 1989, 1996, 1997 and 1999) Cohen (1990, 1994 y 1997) Falk and Greenbaum (1995) Schimdt (1996) Manzano (1997) Nickerson (2000) Valera et al. (2000) Borges et al. (2001) De la Fuente and Díaz-Batanero (2004) Morrison and Henkel (2006) Verdam et al. (2014) Harlow et al. (2016) Faulkenberry (2022)

Source: Own elaboration

La tabla 1 muestra un análisis cronológico del comportamiento histórico relacionado con el contraste y comprobación de hipótesis estadísticas. Estos estudios evidencian la confusión, crítica y polémica entre los investigadores, que en un inicio consideraron que era suficiente el informe del valor p para rechazar o aceptar una hipótesis (^{Ioannidis 2018}). ^{Ochoa et al. (2020)} plantean que en la literatura científica se observa con frecuencia el error de interpretar un valor de p no signi ficativo como una prueba de ausencia de efecto o aso ciación. También es común interpretar un valor signifi cativo como una evidencia de la existencia de un efecto o relación. En este sentido, la ausencia de significación estadística (p>0.05) no permite probar la H₀ ni la presencia de significación (p<0.05) la de H₁. Cualquier decisión so bre superioridad o inferioridad está sujeta a incerti dumbre, que no se resuelve en función de que la p sea superior o inferior a 0.05.

^{Wasserstein y Lazar (2016)} señalan que debido a los errores de interpretación en los resultados del contrate de hipótesis y a las numerosas críticas sobre la significación estadística, la American Statistical Association expuso sus puntos de vista al respecto:

El valor de p no mide la probabilidad de que la hipótesis estudiada sea cierta ni la probabilidad de que los resultados se deban sólo al azar.
Conclusiones científicas y decisiones empresariales o políticas no se deben basar solamente en si el valor de p sobrepasa un valor umbral.
Un valor de p o significación estadística no mide la importancia de un resultado.
El valor de p no provee una buena medida de evidencia para un modelo o hipótesis.
Una inferencia apropiada requiere un informe completo, donde se analicen otros estadísticos necesarios junto a la significación estadística.

Potencia estadística. ^{Bono y Arnau (1995)}, al revisar el desarrollo del concepto de potencia de una dócima, señalan que en la teoría desarrollada por ^{Neyman y Pearson en 1928}, la potencia de una dócima estadística es la probabilidad de encontrar resultados significativos. Su estimación, según indican estos autores, queda determinada por tres componentes básicos: tamaño de muestra, nivel de significación (α) y TE a detectar.

Existen dos formas de estimar la potencia: a priori (prefijada) y a posteriori. La primera le indica al investigador sobre el tamaño necesario de muestra para una potencia adecuada. Con este fin, se han construido tablas de potencia. La potencia a posteriori es importante en la interpretación de los resultados de estudios terminados (^{Guerra et al. 2019}).

^{Scheffé (1959)} aborda la potencia de la dócima F de Fisher en modelos de análisis de varianza (ANAVA) con efectos fijos. Hace referencia a las tablas de potencia, calculadas para los valores de α = 0.01 y 0.05, y reproduce gráficos de potencia para la dócima F de Fisher.

^{Menchaca (1974}, ¹⁹⁷⁵⁾, ^{Venereo (1976)}, ^{Caballero (1979)} y ^{Menchaca y Torres (1985)} aportaron tablas de tamaños de muestra y número de réplicas en modelos de análisis de varianza, asociados a los diseños completamente aleatorizados, bloques al azar, cuadrado latino y de cambio. En ellos incluyen la máxima diferencia estandarizada entre dos medias (Δ), la cantidad de tratamientos (t), el nivel de significación y la potencia de la dócima. Estas tablas representan valiosas herramientas de trabajo para investigadores de diferentes ramas. En la actualidad, con el avance de la informática, existen paquetes estadísticos que incluyen el cálculo de la potencia, como el InfoStat, G Power y el SPSS, entre otros (^{Guerra et al. 2019}).

A pesar de los aportes de diferentes especialistas en el tema, aún los artículos carecen del informe de la potencia estadística como el indicador de veracidad de la investigación, lo que se ha convertido en una de las críticas que más se destaca a través de los años (^{Cohen 1992}, ^{Clark-Carter 1997}, ^{Frías et al. 2000} y ^{Bakker y Wicherts 2011}).

Los trabajos de ^{Cohen (1988}, ¹⁹⁹²⁾ plantean por convención una potencia mínima de 0.80, debido a que habitualmente es más grave señalar que existe un efecto cuando no lo hay, que señalar que no existe efecto cuando sí lo hay. Autores como ^{Funder y Ozen (2019)} informan que, cuando el valor de potencia es menor que 0.80, no se puede concluir que el estudio sea totalmente inútil, sino que se deben hacer conclusiones válidas a partir del tamaño de muestra.

Se debe señalar la importancia que reviste la potencia estadística cuando se diseña un estudio, de manera que el tamaño de muestra que se utilice garantice una elevada probabilidad de detectar diferencias si realmente existen. Llevar a cabo estudios de baja potencia estadística no es éticamente aceptable, pues puede conducir a resultados de dudosa validez científica.

Tamaño del efecto (TE). ^{Cohen (1988)} definió al TE como el grado en que un fenómeno está presente en la población o el grado en que la hipótesis nula es falsa. Esta medida estadística evalúa de forma coherente la magnitud de un aspecto de interés en un estudio cuantitativo y, por ende, facilita la valoración de su importancia práctica (^{Botella y Zamora 2017}). En síntesis, no es suficiente con sólo identificar la ocurrencia o no de cierto efecto, también se requiere determinar su magnitud o tamaño para conocer su relevancia o significación práctica (^{Ponce et al. 2021}).

De manera general, los índices del TE se pueden clasificar en tres grandes categorías generales: índices de la familia de medias, índices de la familia de la relación o asociación e índices de riesgo (relativo o absoluto) (^{Ventura 2018}). Según señala ^{Rivera (2017)}, en la literatura científica se encuentran disponibles diferentes formulaciones para el cálculo del TE, según el fenómeno en estudio. La interpretación final de los resultados suele estar basada en una escala de valores, según la prueba estadística que se realice en la investigación (tabla 2) (^{Serdar et al. 2021})

Table 2 Value scale according to the statistical test performed in the research to interpret the calculated ES value

Test	Relevant effect size	Effect Size (ES)
Test	Relevant effect size	Small	Medium	Large
t-test for means	Cohen’s d	0.2	0.5	0.8
Chi-Square	Cohen’s ω	0.1	0.3	0.5
r x c frequency tables	Cramer’s V or Phi	0.1	0.3	0.5
Correlation studies	R	0.2	0.5	0.8
2 x 2 table case control	Odd Ratio (OR)	1.5	2	3
2 x 2 table cohort studies	Risk Ratio (RR)	2	3	4
One-way an(c)ova (regression)	Cohen’s f	0.1	0.25	0.4
ANOVA (for large sample) ANOVA (for small size)	ɳ² Ω²	0.01	0.06	0.14
Friedman test	Average spearman Rho	0.1	0.3	0.5
Multiple regression	ɳ²	0.02	0.13	0.26
Coefficient of determination	R²	0.04	0.25	0.64

Effect size (ES), according to the acronym in English

Source: ^{Serdar et al. (2021)}

El estadístico TE proporciona información sobre qué tan bien la variable o variables independientes explican la variable dependiente. Valores bajos del TE significan que las variables independientes no predicen de manera adecuada porque sólo están relacionadas ligeramente con la variable dependiente. Altos valores de TE representan que las variables independientes son muy buenas predictoras de la variable dependiente. Por tanto, el TE es un indicador estadístico importante para evaluar la eficacia de cualquier tratamiento o intervención sobre una respuesta determinada (^{Ventura 2018}). Además, ^{Bologna (2014)} plantea que las medidas del TE, al ser estandarizadas superan el inconveniente de las pruebas de hipótesis en cuanto a su dependencia con el tamaño de muestra y sirven para realizar comparaciones entre investigaciones sobre un mismo tema al llevar los resultados a una métrica en común.

El manual de publicación de la ^{American Psychological Association (2001)} concluye que es necesario informar el TE junto con el valor de p para responder tres preguntas básicas de la investigación: a) ¿existe un efecto real o los resultados deberían atribuirse al azar?, b) si el efecto es real, ¿qué tan grande es?, y c) ¿es el efecto lo suficientemente grande para considerarse importante o útil?

Por todo lo anterior, se considera al TE como un análisis complementario de las PSHN que ayuda a corregir las limitaciones expuestas por dicha prueba. Sin embargo, a pesar de su utilidad práctica no es frecuente su uso en los reportes de investigación.

Utilización de las medidas complementarias en la literatura. Desde la década de los 90, los especialistas en estadística han sido conscientes de que la PSHN es, en muchos aspectos, insuficiente para interpretar los resultados de las investigaciones. Sin embargo, aún no se logra en la totalidad el empleo de otras medidas complementarias en el reporte de los resultados (^{Ochoa et al. 2019}).

La sexta edición del manual de publicación de la ^{American Psychological Association (2010)} señaló la necesidad de tomar en cuenta seriamente la potencia estadística suministrando información que evidencie que el estudio tiene la suficiente potencia para hallar efectos de interés sustantivo. Sin embargo, el continuado desinterés por la potencia de las pruebas estadísticas sólo cambiará cuando los editores de las principales revistas exijan este análisis en su política editorial (^{Frías et al. 2002}).

En estudios realizados por diferentes autores desde el año 2010, sí se observa incremento en el uso del TE, principalmente en revistas de sicología, pues ya demandan la utilización de este estadístico por norma. Autores como ^{Odgaard y Fowler (2010)} revisaron los estudios de intervención publicados en 2003, 2004, 2007 y 2008 en el Journal of Consulting and Clinical Psychology, y encontraron que en general 75 % de los estudios informaron de algún índice del TE.

^{Sun et al. (2010)} analizaron los artículos publicados entre 2005 y 2007 en cinco revistas (Journal of Educational Psychology, Journal of Experimental Psychology: Applied, Journal of Experimental: Psychology Human Perception and Performance, Journal of Experimental Psychology: Learning, Memory & Cognition, y School Psychology Quarterly) y encontraron que sólo 40 % de los mismos informaron algún índice del TE.

^{McMillan y Foley (2011)} consultaron 417 artículos, publicados entre 2008 y 2010 en cuatro revistas especializadas de educación y psicología (Journal of Educational Psychology, Journal of Experimental Education, Journal of Educational Research, y Contemporary Educational Psychology) y encontraron que 74 % de los estudios informaron alguna medida del TE. Estos autores concluyeron que, si bien se había incrementado el uso de los índices TE en los informes de investigación, los debates sobre su significación siguen siendo deficientes por falta de argumentación o desconocimiento de lo que representa este valor en el estudio.

^{Sesé y Palmer (2012)} analizaron el uso de estadísticos en los artículos publicados en el 2010 en ocho revistas (Journal of Behavioural Medicine, Behaviour, Research and Therapy, Depression and Anxiety, Behavior Therapy, Journal of Anxiety Disorders, International Journal of Clinical and Health Psychology, British Journal of Clinical Psychology, y British Journal of Health Psychology). Estos autores encontraron que los índices del SE TE informaron en 61.04 % de los artículos.

^{Caperos y Pardo (2013)} examinaron los artículos publicados en cuatro revistas españolas de múltiples disciplinas (Anales de Psicología, Psicológica, Psicothema, y Spanish Journal of Psychology), indexadas en la base de datos Journal Citation Reports (JCR). Sus resultados indican que sólo 24.3 % de las PSHN ejecutadas se acompañaron de un estadístico del TE y de la potencia estadística.

^{Rendón et al. (2021)} concluyen que uno de los siete fallos más comunes en los artículos es omitir el reporte de la potencia estadística y el TE. En la actualidad existen algunas revistas académicas de corriente principal que no admiten la publicación de artículos de investigación cuantitativa donde no se reporten estos estadísticos. A partir del año 2020, revistas como Memory and Cognition, Educational and Psychological Measurement, Measurement and Evaluation in Counseling and Development, Journal of Experimental Education y Journal of Applied Psychology, decidieron reglamentar el uso de medidas complementarias a la PSHN en los análisis estadísticos para la correcta interpretación e importancia práctica de los resultados (^{Serdar et al. 2021}).

Conclusiones

Se concluye que la PSHN no es suficiente para realizar una valoración rigurosa de los datos obtenidos en una investigación. Se considera necesario incluir en los informes de trabajo otras pruebas estadísticas, como la potencia de la dócima y el tamaño del efecto, para ofrecer una interpretación más completa de los resultados. A pesar de que muchos autores se han referido al tema, aún existe la necesidad de calcular estas medidas para evaluar la calidad de las investigaciones científicas. Se recomienda a los editores de revistas científicas que se incluyan estos estadísticos entre las normas editoriales.

References

Abelson, R.P. 1997. "On the surprising longevity of flogged horses: Why there is a case for the significance test". Psychological Science, 8(1): 12-15, ISSN: 1467-9280. https://doi.org/10.1111/j.1467-9280.1997.tb00536.x. [ Links ]

American Psychological Association. 1994. Manual of the American Psychological Association, 4^th ed., Washington D.C, United States: American Psychological Association, 368p. ISBN: 9781557982414, Available: <https://apastyle.apa.org>, [Consulted: April 10, 2022]. [ Links ]

American Psychological Association. 2001. Manual of the American Psychological Association, 5^th ed., Washington D.C, United States: American Psychological Association, 439p. ISBN: 9781557987901, Available: <https://apastyle.apa.org>, [Consulted: June 14, 2022]. [ Links ]

American Psychological Association. 2010. Manual of the American Psychological Association, 6^th ed., Washington D.C, United States: American Psychological Association, 272p. ISBN: 9781433805615, Available: <https://apastyle.apa.org>, [Consulted: June 16, 2022]. [ Links ]

Antúnez, P., Rubio, E.A. & Kleinn, C. 2021. "Hypothesis testing in forestry, agriculture and ecology: Use and overuse of the 0.05 and 0.01". Ecosistemas y Recursos Agropecuarios, 8(1): 1-5, ISSN: 2007-901X. https://doi.org/10.19136/era.a8n1.2616. [ Links ]

Bakan, D. 1966. "The effect of significance testing in psychological research". Psychological Bulletin, 66(6): 423-437, ISSN: 1939-1455. https://doi.org/10.1037/h0020412. [ Links ]

Bakker, M. & Wicherts, J.M. 2011. "The (mis) reporting of statistical results in psychology journals". Behavior Research Methods, 43(3): 666-678, ISSN: 1554-3528. https://doi.org/10.3758/s13428-011-0089-5. [ Links ]

Bologna, E. 2014. "Estimación por intervalo del tamaño del efecto expresado como proporción de varianza explicada". Evaluar, 14(1): 43-46, ISSN: 1667-4545. https://doi.org/10.35670/1667-4545.v14.n1.11521. [ Links ]

Bono, R. & Arnau Gras, J. 1995. "Consideraciones generales en torno a los estudios de potencia". Anales de Psicología, 11(2): 193-202, ISSN: 1695-2294. [ Links ]

Borges, A., San Luis, C., Sánchez, J.A. & Cañadas, I. 2001. "El juicio contra la hipótesis nula: muchos testigos y una sentencia virtuosa". Psicothema, 13(1): 174-178, ISSN: 0214-9915. https://doi.org/10.7334/psicothema2001.14462.025. [ Links ]

Botella, J. & Zamora, A. 2017. "El meta-análisis: una metodología para la investigación en educación". Educación XXI, 20(2): 17-38, ISSN: 1139-613X. https://doi.org/10.5944/educXXI.18241. [ Links ]

Caballero, A. 1979. "Tamaños de muestras en diseños completamente aleatorizados y bloques al azar donde la unidad experimental esté formada por grupos de animales". Cuban Journal of Agricultural Science, 13 (3): 225-235, ISSN: 2079-3480. [ Links ]

Caperos, J.M. & Pardo, A. 2013. "Consistency errors in p-values reported in Spanish psychology journals". Psicothema, 25(3): 408-414, ISSN: 0214-9915. https://doi.org/10.7334/psicothema2012.207. [ Links ]

Carver, R.P. 1978. "The case against statistical significance testing". Harvard Educational Review, 48(3): 378-399, ISSN: 0017-8055. https://doi.org/10.17763/haer.48.3t49026164281841. [ Links ]

Carver, R.P. 1993. "The case against statistical significance testing revisited". Journal of Experimental Education, 61(4): 287-292, ISSN: 0022-0973. https://doi.org/10.1080/00220973.1993.10806591. [ Links ]

Chow, S.L. 1988. "Significance test or effect size? " Psychological Bulletin, 103(1): 105-110, ISSN: 1939-1455. https://doi.org/10.1037/0033-2909.103.1.105. [ Links ]

Clark-Carter, D. 1997. "The account taken of statistical power in research published in the British Journal of Psychology". British Journal of Psychology, 88(1): 71-83, ISSN: 2044-8295. https://doi.org/10.1111/j.2044-8295.1997.tb02621.x. [ Links ]

Cochran W. y Cox, G. 1999. Diseños experimentales. 2^nd ed., México: Editorial Trillas, S.A. 75p., ISBN: 968-24-3669-9. Available: <https://www.urbe.edu/UDWLibrary/InfoBook.do?id=5068>, [Consulted: August 3, 2022]. [ Links ]

Cohen, J. 1988. Statistical power analysis for the behavioral sciences. 2^nd ed., New York, United States: Routledge, 590p., ISBN: 9780805802832, Available: <https://www.routledge.com/books/Statistical-power-analysis-for-the-behavioral-sciences>, [Consulted: August 8, 2022]. [ Links ]

Cohen, J. 1990. "Things I have learned (so far) ". American Psychologist, 45(12): 1304-1312, ISSN: 1935-990X. https://doi.org/10.1037/0003-066X.45.12.1304. [ Links ]

Cohen, J. 1992. "A power primer". Psychological Bulletin, 112(1): 155-159, ISSN: 1939-1455. https://doi.org/10.1037/0033-2909.112.1.155. [ Links ]

Cohen, J. 1994. "The earth is round (p < 0.05) ". American Psychologist, 49(12): 997-1003, ISSN: 1935-990X. https://doi.org/10.1037/0003-0.66X.49.12.997. [ Links ]

Cohen, J. 1997. Much ado about nothing. Conference presented at the annual meeting of the American Psychological Association, Chicago, United States. [ Links ]

Cortina, J.M., & Dunlap, W.P. 1997. "Logic and purpose of significance testing". Psychological Methods, 2(2): 161-172, ISSN: 1939-1463. https://doi.org/10.1037/1082-989X.2.2.161. [ Links ]

Craig, J.R., Eison, C.L. & Metze, L.P. 1976. "Significance tests and their interpretation: An example utilizing published research and omega-squared". Bulletin of the Psychonomic Society, 7(3): 280-282, ISSN: 0090-5054. https://doi.org/10.375/bf03337189. [ Links ]

De la Fuente, E.I. & Díaz-Batanero, C. 2004. "Controversias en el uso de la inferencia en la investigación experimental". Metodología de las Ciencias del Comportamiento, 5(1): 161-167, ISSN: 1575-9105. [ Links ]

Díaz-Batanero, C., Lozano-Rojas, O.M. & Fernández-Calderón, F. 2019. La controversia sobre el contraste de hipótesis: Situación actual en psicología y recomendaciones didácticas. En: Contreras, J.M., Gea, M.M., López M.M. & Molina E. (eds.), Actas del Tercer Congreso Internacional Virtual de Educación Estadística España, Available: <www.ugr.es/local/fqm126/civeest.html>, [Consulted: July 12, 2022] [ Links ]

Falk, R., & Greenbaum, C. W. 1995. "Significance tests die hard: the amazing persistence of a probabilistic misconception". Theory and Psychology, 5(1): 75-98, ISSN: 1461-7447. https://doi.org/10.1177/0959354395051004. [ Links ]

Faulkenberry, T.J. 2022. Psychological statistics, the basics. 1^st ed., New York, United States: Routledge, 122p., ISBN: 97811032020952, Available: <https://www.routledge.com/books/Psychological-statistics,-the-basics>, [Consulted: October 18, 2022]. [ Links ]

Fisher, R.A. 1925. Statistical methods for research workers. 1^st ed., Escocia: Genesis Publishing, 269p., ISBN: 4444000761336. Available: <https://www.iberlibro.com/buscar-libro/titulo/statistical-methods-research-workers/autor/sir-ronald >, [Consulted: May 18, 2022]. [ Links ]

Fisher, R.A. 1935. The design of experiments. 1^st ed., London: Oliver and Boyd, 256p., ISBN: 0028446909. Available: <https://www.iberlibro.com/buscar-libro/titulo/statistical-methods-research-workers/autor/sir-ronald >, [Consulted: June 5, 2022]. [ Links ]

Fisher, R.A. 1950. Contributions to mathematical statistics. New York, United States: John Wiley & Son, 600p., ISBN: 9780678008898. Available: Rothamsted Research, https://repository.rothamsted.ac.uk, [Consulted: September 10, 2022]. [ Links ]

Fisher, R.A. 1955. "Statistical methods and scientific induction". Journal of the Royal Statistical Society, Series B, 17(1): 245-251, ISSN: 1369-7412. [ Links ]

Frías Navarro, M.D., Pascual Llobel, J. & García Pérez, J.F. 2000. "Tamaño del efecto del tratamiento y significación estadística". Psicothema, 12(Suplemento): 236-240, ISSN: 0214 - 9915. [ Links ]

Frías, M.D., Pascual, J. & García, J.F. 2002. "La hipótesis nula y la significación práctica". Metodología de las Ciencias del Comportamiento, 4(1): 181-185, ISSN: 1575-9105. [ Links ]

Fritz, R.W. 1995. "Accepting the null hypothesis". Memory & Cognition, 23(1): 132-138, ISSN: 0090-502X. https://doi.org/10.3758/BF03210562. [ Links ]

Fritz, R.W. 1996. "The appropriate use of null hypothesis testing". Psychological Methods, 1(4): 379-390, ISSN: 1939-1463. https://doi.org/10.1037/1082-989X.1.379. [ Links ]

Funder, D.C. & Ozer, D.J. 2019. "Evaluating effect size in psychological research: Sense and nonsense". Advances in Methods and Practices in Psychological Science, 2(2): 156-168, ISSN: 251-2467. https://doi.org/10.1177/2515245919847202. [ Links ]

Greenwald, A.G., Gonzalez, R., Harris, R.J. & Guthrie, D. 1996. "Effect size and p-values: What should be reported and what should be replicated? " Psychophysiology, 33(2): 175-183, ISSN: 1469-8986. https://doi.org/10.1111/j.1469-8986.1996.tb02121.x. [ Links ]

Guerra, W.C., Herrera, M., Fernández, L. & Rodríguez, N. 2019. "Modelo de regresión categórica para el análisis e interpretación de la potencia estadística". Cuban Journal of Agricultural Science, 53(1): 13-20, ISSN: 2079-3480. [ Links ]

Hagen, R.L. 1997. "In praise of the null hypothesis statistical test". American Psychologist, 52(1): 15-24, ISSN: 1935-990X. https://doi.org/10.1037/0003-066X.52.1.1. [ Links ]

Harlow, L.L., Mulaik, S.A. & Steiger, J.H. 2016. What if there were no significance tests? 2^nd ed.New York, United States: Routledge, 444p., ISBN: 9781317242857, Available: https://www.routledge.com/books/What-if-there-were-no-significance-tests?, [Consulted: August 8, 2022]. [ Links ]

Hickey, G.L., Grant, S.W., Dunning, J. & Siepe, M. 2018. "Statistical primer: Sample size and power calculations-why, when and how? " European Journal of Cardio-Thoracic Surgery, 54(1): 4-9, ISSN: 1873-734X. https://doi.org/10.1093/ejcts/ezy169. [ Links ]

Ioannidis, J.P.A. 2018. "The Proposal to Lower P Value Thresholds to .005". Journal of the American Medical Association, 319(14): 1429-1430, ISSN: 0098-7484. https://doi.org/10.1001/jama.2018.1536. [ Links ]

Kuffner, T.A. & Walker, S.G. 2019. "Why are p-Values Controversial? " The American Statistician, 73(1): 1-3, ISSN: 1537-2731. https://doi.org/10.1080/00031305.2016.1277161. [ Links ]

Levin, J.R. 1993. "Statistical significance testing from three perspectives". Journal of Experimental Education, 61(4): 378-382, ISSN: 1940-0683. https://doi.org/10.1080/00220973.1993.10806597. [ Links ]

Manzano, V. 1997. "Usos y abusos del error de Tipo I". Psicológica: Revista de metodología y psicología experimental, 18(2): 153-169, ISSN: 1576-8597. [ Links ]

Marín, L. & Paredes, D. 2020. Valor p, correcta e incorrecta interpretación. Revista Clínica de la Escuela de Medicina de la Universidad de Costa Rica, 10(1): 45-52, ISSN: 2215-2741. [ Links ]

McMillan, J,H. & Foley, J. 2011. "Reporting and discussing effect size: Still the road less treveled". Practical Assessment Research Evaluation, 16(14): 1-12, ISSN:1531-7714. https://doi.org/10.7275/b6pz-ws55. [ Links ]

Menchaca, M.A. 1974. "Tablas útiles para determinar tamaños de muestras en diseño de Clasificación Simple y de Bloques al Azar". Cuban Journal of Agricultural Science, 8 (1): 111-116, ISSN: 2079-3480 [ Links ]

Menchaca, M.A. 1975. "Determinación de tamaños de muestra en diseños Cuadrados Latinos". Cuban Journal of Agricultural Science, 9 (1): 1-3, ISSN: 2079-3480. [ Links ]

Menchaca, M.A. & Torres V. 1985. Tablas de uso frecuente en la Bioestadística. Instituto de Ciencia Animal. Cuba. [ Links ]

Morrison, D.E. & Henkel, R.E. 2006. The significance test controversy: a reader. 1^st ed., Chicago, United States: Aldine, 352p., ISBN: 9780202300689, Available: https://www.abebooks.com/The-significance-test-controversy:-a-reader, [Consulted: August 6, 2022]. [ Links ]

Neyman, J. & Pearson, E.S. 1928. "On the use and interpretation of certain test criteria for purposes of statistical inference". Biometrika, 20A: 175-240, ISSN: 0006-3444. https://doi.org/10.1093/biomet/20A.3-4.263. [ Links ]

Nickerson, R.S. 2000. "Null hypothesis significance testing: a review of an old and continuing controversy". Psychological methods, 5(2): 241-301. ISSN: 1939-1463. https://doi.org/10.1037/1082-989x.5.2.241. [ Links ]

Ochoa, C., Molina, M. & Ortega, E. 2019. "Inferencia estadística: probabilidad, variables aleato rias y distribuciones de probabilidad". Evidencias en Pediatría, 15(2): 27-32, ISSN: 1885-7388. [ Links ]

Ochoa, C., Molina, M. & Ortega, E. 2020. "Inferencia estadística: contraste de hipótesis". Evidencias en Pediatría, 16(1): 11-18, ISSN: 1885-7388. [ Links ]

Odgaard, E.C. & Fowler, R L. 2010. "Confidence intervals for effect sizes: compliance and clinical significance in the Journal of Consulting and Clinical Psychology". Journal of Consulting and Clinical Psychology, 78(3): 287-297, ISSN: 0022-006X. https://doi.org/10.1037/a0019294. [ Links ]

Ponce, H.F., Cervantes, D.I. &Anguiano, B. 2021. "Análisis de calidad de artículos educativos con diseños experimentales". Revista Iberoamericana para la Investigación y el Desarrollo Educativo. 12(23): 49-79, ISSN: 2007-7467. https://doi.org/10.23913/ride.v12i23.981. [ Links ]

Rendón, M.E, Zarco, I.S. & Villasís, M.A. 2021. "Métodos estadísticos para el análisis del tamaño del efecto". Revista Alergia de México, 68(2): 128-136, ISSN: 2448-9190. https://doi.org/10.29262/ram.v658i2.949. [ Links ]

Rivera, F. 2017. Convivencia del nivel de significación y tamaño del efecto y otros retos de la práctica basada en la evidencia. Boletín Psicoevidencias, No. 48. Junta de Andalucía y Consejería de Salud, Andalucía, España, ISSN: 2254-4046. [ Links ]

Rothman, J. 1978. A show of confidence. New England Journal of Medicine, 299(24): 1362-1363, ISSN: 0028-4793. http://dx.doi.org/10.1056/NEJM197812142992410. [ Links ]

Scheffé, H. 1959. The Analysis of Varianza. New York, United States: John Wiley & Sons, Inc, 477p., ISBN: 0-471-75834-5, Available: https://www.abebooks.com/The-significance-test-controversy:-a-reader, [Consulted: January 6, 2023]. [ Links ]

Schmidt, F.L. 1996. "Statistical significance testing and cumulative knowledge in psychology: implications for training of researchers". Psychological Methods, 1(2): 115-129. ISSN: 1082-989X. https://doi.org/10.1037/1082-989X.1.2.115. [ Links ]

Serdar, C.C., Cihan, M., Yücel, D. & Serdar, M.A. 2021. "Sample size, power and effect size revisited: simplified and practical approaches in pre-clinical, clinical and laboratory studies". Biochemia Medica Journal, 31(1): 1-27, ISSN: 1330-0962. https://doi.org/10.11613/BM.2021.010502. [ Links ]

Sesé, A. & Palmer, A. 2012. "El uso de la estadística en psicología clínica y de la salud a revisión". Clínica y Salud, 23(1): 97-108, ISSN: 2174-0550. [ Links ]

Sun, S., Pan, W. & Wang, L.L. 2010. "A comprehensive review of effect size reporting and interpreting practices in academic journals in education and psychology". Journal of Educational Psychology, 102(4): 989-1004, ISSN: 1939-2176. https://doi.org/10.1037/a0019507. [ Links ]

Thompson, B. 1988. "A note about significance testing". Measurement and Evaluation in Counseling and Development, 20(4): 146-148, ISSN: 1947-6302. https://doi.org/10.1080/07481756.1988.12022864. [ Links ]

Thompson, B. 1989. "Asking «what if» questions about significance tests". Measurement and Evaluation in Counseling and Development, 22(2): 66-68, ISSN: 1947-6302. https://doi.org/10.1080/07481756.1989.12022912. [ Links ]

Thompson, B. 1996. "AERA editorial policies regarding statistical significance testing: Three suggested reforms". Educational Researcher, 25(2): 26-30, ISSN: 0013-189X. https://doi.org/10.2307/1176337. [ Links ]

Thompson, B. 1997. If statistical significance tests are broken/misused, what practices should supplement or replace them? Conference presented at the annual meeting of the American Psychological Association, Chicago, United States. [ Links ]

Thompson, B. 1999. "If statistical significance tests are broken/misused, what practices should supplement or replace them? " Theory and Psychology, 9(2): 165-181, ISSN: 1461-7447. https://doi.org/10.1177/095935439992. [ Links ]

Valera, S., Sánchez, J. & Marín, F. 2000. "Contraste de hipótesis e investigación psicológica española: Análisis y propuestas". Psicothema, 12(2): 549-582, ISSN: 0214-9915. [ Links ]

Venereo, A. 1976. "Número de réplicas en diseños cuadrados latinos balanceados para la estimación de efectos residuales". Cuban Journal of Agricultural Science, 10(3): 237-246, ISSN: 2079-3480. [ Links ]

Ventura, J. 2018. "Otras formas de entender la d de Cohen". Revista Evaluar. 18(3):73-78, ISSN: 1667-4545. https://doi.org/10.35670/1667-4545.v18.n3.22305. [ Links ]

Verdam, M.G., Oort, F.J. & Sprangers, M.A. 2014. "Significance, truth and proof of p values: reminders about common misconceptions regarding null hypothesis significance testing". Quality of Life Research, 23(1): 5-7, ISSN: 1573-2649. https://doi.org/10.1007/s11136-013-0437-2. [ Links ]

Wasserstein, R.L. & Lazar, N.A. 2016. "The ASA's Statement on p-Values: Context, Process, and Purpose". The American Statistician, 70(2): 129-133, ISSN: 1537-2731. https://doi.org/10.1080/00031305.2016.1154108. [ Links ]

Wilkinson, L., & TFSI - Task Force on Statistical Inference. 1999. "Statistical methods in psychology journals: Guidelines and explanations". American Psychologist, 54(8): 594-604, ISSN: 0003-066X. https://doi.org/10.1037/0003-066X.54.8.59. [ Links ]

Recibido: 10 de Junio de 2023; Aprobado: 15 de Septiembre de 2023

^*Email: femtorresm@ica.edu.cu