SciELO - Scientific Electronic Library Online

 
vol.32 número3Comportamiento de la variabilidad longitudinal del número de esporas de Glomus hoi-like inoculado en Brachiaria decumbens en dos periodos diferentesLAS ACUAPORINAS, SU RELACIÓN CON LOS HONGOS MICORRÍZICOS ARBUSCULARES Y EL TRANSPORTE DE AGUA EN LAS PLANTAS índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Cultivos Tropicales

versión impresa ISSN 0258-5936

cultrop vol.32 no.3 La Habana jul.-set. 2011

 

Cuando falla el supuesto de homocedasticidad en variables con distribución binomial


When the assumption of homocedasticidad in variables with binomial distribution fails

 

Edison Ramiro Vásquez1 y Alberto Caballero Núñez2


1 Universidad Nacional de Loja, Ecuador
2 Instituto Nacional de Ciencias Agrícolas, Cuba


RESUMEN

Se utilizó el proceso de Simulación de Monte Carlo para generar poblaciones de variables aleatorias con distribución Binomial con varianzas homogéneas y heterogéneas; para 5, 10 y 30 observaciones por unidad experimental (n) y probabilidad de éxito del evento de 0,10, 0,20, …,0,90(p). Seconformaron experimentos en Diseño Bloques al Azar con 3, 5 y 9 tratamientos (t); 4 y 8 réplicas(r); para cada combinación t-r-n, se generaron 100 experimentos. A modo de disponer de un referente de discusión, se incluyó la variante de otros 100 experimentos de variables con distribución Normal,con similares medias y varianzas de los experimentos de datos con distribución Binomial. Se comprobó que el comportamiento de los indicadores: porcentaje de experimentos en que se produce un rechazo de la hipótesis H0; la potencia en el ANOVA; diferencia mínima detectada en el experimento, así como el número de diferencias entre medias de tratamientos, es similar dentro de cada alternativa de análisis a través de las tres variantes; evidenciando una marcada influencia el número de observaciones por unidad experimental y el número de réplicas en estos indicadores.

Palabras claves: homogeneidad de varianza, homocedasticidad, variables binomiales, supuestos del ANOVA.


ABSTRACT

The process of Monte Carlo simulation was used to generate populations of random variables with Binomial distribution with homogeneous or heterogeneous variance; for 5, 10 and 30 observations by experimental unit (n) and likelihood of success of the event of 0.10, 0.20,..., 0, 90 (p). It consisted of experiments in randomized block design with 3, 5 and 9 treatments (t); 4 and 8 replicas (r); for each combination t-r-n, generated 100 experiments. By way of a reference point of discussion to have, included the variant of other 100 experiments of variables with Normal distribution, with similar mean and variance of the experiments of data with Binomial distribution. It was found that the behavior of the indicators: percentage of experiments in which there is a rejection of the hypothesis H0; the power in the ANOVA; minimum difference detected in the experiment, as well as the number of differences between treatments is similar within each alternative analysis through three variants; showing a marked influence the number of observations per experimental unit and the number of replicas in these indicators.

Key words:
homogeneity of variance, homocedasticidad, variables binomials, assumptions of ANOVA.


INTRODUCCIÓN

El trabajo del estadístico,de manera conjunta con el investigador, consiste en conseguir un modelo que refleje en lo posible la situación que tienen planteada y a partir de aquí, aplicar los procedimientos de análisis que más se adecue. Sin duda, uno de los modelos más difundidos lo constituye el Análisis de Varianza, el cual utilizado de manera eficiente, se convierte en una poderosa herramienta de análisis.

No obstante, esta técnica exige del cumplimiento de ciertos requerimientos de los términos de error aleatorio del modelo lineal como errores independientes, normalmente distribuidos y con varianzas homogéneas para todas las observaciones, condiciones que muchas veces no se cumplen [1].

En la práctica investigativa, se presentan innumerables situaciones de variables que pueden de alguna manera no satisfacer los requerimientos que esta técnica de análisis exige; tal es el caso,de variables de conteos, que por su naturaleza discreta pueden alejarse de la normalidad. En tal sentido señalan[2],que dada la “robustez” de la prueba F en este procedimiento de análisis, su incumplimiento no tiene graves consecuencias en el análisis; de igual modo,[3]señalan que resulta prácticamente irrelevante en lo referente a la probabilidad de cometer un error tipo I; pues, no se aparta del valor adeterminado por el experimentador. Sin embargo,[4]advierte, que dicha “robustez” de la prueba puede perderse cuando este incumplimiento es severo, ya que se incrementa la probabilidad de exceder el valor nominal de la prueba.

Dada su naturaleza y frecuente existencia en muchas ramas de la ciencia, son de importancia aquellas variables de conteos que provienen de variables dicotómicas o distribución binomial, en las que se establece una estrecha relación de dependencia entre varianza y media de tratamientos; aspecto que puede estar presente en otro tipo de variables[5]. Por tanto, es de suponer que de presentarse diferencias entre las medias en cada variante que se están ensayando, sean posiblesdiferencias entre sus respectivas varianzas y con ello el no cumplimiento de este supuesto.

Son muchos los aspectos que puede recibir el impacto desfavorable o no cuando se incumplen estos supuestos, entre los que pueden enumerarse: el porcentaje en que se rechaza H0; la diferencia mínima que sepuede detectar entre medias de tratamientos; la potencia observada del ANOVA; número de rechazo de igualdad de medias de tratamientos; entre otros. De aquí que identificar, tener en cuenta y conocer su grado de afectación, revista gran importancia.

En este contexto, en el presente artículo se pretende valorar el impacto que puede tener la presencia de heterogeneidad de varianza en variable con distribución Binomial.


MATERIALES Y MÉTODOS


Para cumplir con el objetivo propuesto se utilizó el proceso de Simulación de Monte Carlo para generar poblaciones de variables aleatorias con distribución Binomial con varianzas homogéneas y heterogéneas, según prueba de Levene a p<0,05[6], [7] y [10]; para 5, 10 y 30 observaciones por unidad experimental (n) y probabilidad de éxito del evento de 0,10, 0,20, …,0,90 (p). Se conformaron experimentos en Diseño Bloques al Azar con 3, 5 y 9 tratamientos (t); 4 y 8 réplicas(r). La combinación de medias de los tratamientos se definió de modo tal, que las diferencias entre estas medias fueran detectables por la prueba Mínima Diferencia Significativa (DMS)a un nivel de significación del 0,05. (Tabla I); para cada combinación t-r-n, se generaron 100 experimentos. A modo de disponer de un referente de discusión, se incluyó la variante de otros 100 experimentos de variables con Distribución Normal, con similares medias y varianzas de los experimentos de datos con distribución Binomial.

Se utilizó la prueba de Comparación de proporciones con el fin de contrastar la diferencia entre el porcentaje de experimentos con distribución Normal de referencia ycon distribución Binomial (varianza homogénea y heterogénea).

 

RESULTADOS Y DISCUSIÓN

Porcentaje en que se rechaza H0. En la Tabla II se presenta el porcentaje de experimentos en el que se produce un rechazo de la hipótesis H0, se observa que la capacidad del ANOVA para producir el rechazo de la igualdad de medias de tratamientos, son iguales entre las variantes de variables binomiales aunque estas cumplan o no el supuesto de homogeneidad de varianza,ellose debe a la robustez de la prueba F ante la violación de este supuesto, aspecto que ha sido señalado por [3]y[2]

De igual modo en estos experimentos con variables binomiales, comparados con los de variables con distribución normal que cumplencon todos los supuestos, ofrecen resultados similares; lo cual está asociado, al hecho que este tipo de variables son fácilmente aproximables a una distribución normal bajo determinada condiciones, como señalan [8].

El porcentaje deexperimentos en los que se rechaza la igualdad entre medias de tratamientos aumentó de manera significativa de 4 á 8 el número de réplicas, lo cual evidencia lo señalado por [9], acerca del marcado efecto que tiene el número de réplicas en el diseño de un experimento,en cuanto a la precisión en las estimaciones de las medias de tratamientos,incidiendo en la reducción delosintervalos de confianza de los parámetros y mayor facilidadpara detectar una diferenciasignificativa.

El aumento del número de observaciones por unidad experimental mostró un efecto marcado en el porcentaje de rechazo de H0 en el ANOVA, lográndose el 100% de los rechazos de igualdad de medias de tratamientos a partir de 10 repeticiones y de 8 réplicas en el diseño, esto está asociado con varios factores, entre otros:a una mejor aproximación de la binomial a la normal por el aumento del número de unidades experimentales y al aumento en la precisión de las estimaciones por un aumento del número de réplicas en el diseño.

Potencia observada

De manera general, las variables binomiales aunque incumplan o no el supuesto de homogeneidad de varianza,su potencia es similar a la observada en la variable normal que cumple todos los supuestos del AVOVA, estoevidencia que el incumplimiento de estos supuestos no tiene efectosdesfavorables en el error Tipo II, es decir, aceptar como igualdiferencia entre medias de tratamientos que debiera ser declarada significativamente diferente (Tabla III).

Dentro de cada alternativa y a través de las tres variantes de análisis se evidencia lo señalado por [9]y toda la literatura especializada respecto al marcado efecto que ejerceel número de réplicas sobre la potencia de la prueba estadística. De este modo con número de réplicas igual a 8 se alcanzan potencias superiores a 85%, para cualquier número de unidades experimentales (n) (Tabla III).


Diferencia mínima a detectar entre medias de tratamientos

Teniendo en cuenta que la media en variables binomiales es función directa del número de unidades experimentales (n), cualquier análisis comparativo entre ellas puede conducir a conclusiones erradas, debido a que son generadas con diferentes medias (Tabla I); de aquí que para efectuar comparaciones justas entre alternativas y variantes de trabajo se emplee el indicador porciento de diferencia mínima a detectar expresada como porcentaje de la media general del experimento.

Resulta significativo el aumento de la capacidad de la prueba DMSpara detectar diferencias más pequeñas cuando se incrementa del número de réplicas (r) por tratamiento y el número de observaciones en las unidades experimentales (n); ello está asociado al efecto marcado que estos factores ejercen en la precisión en las estimaciones,dado por una reducción del intervalo de confianza del parámetro señalado por [8], lo cual puede advertirsea través del valor en el Tabla IV.

No se observa diferencias notables en este indicador, entre las variables con distribuciones normal y binomial cuando el supuesto de homogeneidad de varianza es satisfecho, sin embargo en la variable con distribución binomial donde se incumple este supuesto, la capacidad de esta prueba para detectar diferencia significativa entre medias de tratamientos se ve afectada considerablemente sobre todo si el número de observaciones por unidad experimental y el número de réplicas por tratamiento son pequeños (n=5 y r=4).



Número de diferencias entre medias de tratamientos detectadas en cada experimento.

Dado que el número de comparaciones posibles entre medias de tratamientos varía con el número de tratamiento, cualquier análisis entre experimentos con diferentes números de tratamiento carecería de sentido, debido a que en la medida que el número de comparaciones aumenta, la posibilidad de detectar diferencias verdaderas entre medias disminuye (Tabla V).

Para cada número de tratamiento el número de comparación en la que se rechaza la diferencia entre medias de tratamientos tanto para la variable normal como las variables binomiales que cumplan o no con la igualdad de varianza, el número de diferencias detectadas es similar.

Sin embargo es notorio el aumento de este indicador con el aumento del número de observaciones por unidad experimental (n) y el número de réplicas (r), lo cual está asociado a una mayor precisión en la estimación de este parámetro, que hace más fácilmente detectable una diferencia entre medias como se señala en la discusión correspondiente a la Tabla II.


REFERENCIAS

1 INFOSTAT, 2002.Infostat versión 1.1 Manual del usuario. Grupo Infostat, FCA. Universidad Nacional de Córdoba. Primera Edición. Ed. Brujas. Pp: 61-90.

2 Steel R. y J. Torrie. 1988. Bioestadística. Principios y Procedimientos. 2ª ed. McGraw-Hill Interamericana. México.

3 Sokal R. and J., Rohlf, 1995.Biometry.The Principles and Practice of Statistics in Biological Research.3ª ed. W. H. Freeman and Company. New York.

4 Wetherill G. B., 1981. Intermediate Statistical Methods.Chapman and Hall. London.

5 Little T. y F. Jackson, 1991. Métodos Estadísticos para la Investigación en la Agricultura. 2ª ed. Editorial Trillas. México.

6 Levene, H. (1960). In Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling, I. Olkin et al. eds., Stanford University Press, pp. 278-292.

7 Brown, M. & Forsythe, 1974.Robust Test for the Equality of Variances, Journalof the American Statistical Association 69(346), 364–367.

8 Martín, A. yÁlvarez, Roxana, 2006. Aproximación de la Distribución Binomial a la Normal, la calculadora y las TIC. SIGMA

9 Cochran, W, y G. Cox, 1997 Diseños Experimentales. 3ª ed. EditorialTrillas. México

10 O’Neil, E. And Mathews, L., 2002.Levene tests of homogeneity of variance for general block and treatment designs. Biometrics. (58): 216-224.

 

Recibido 18/03/2011, aceptado 08/06/2011.