SciELO - Scientific Electronic Library Online

 
vol.23 número1Evaluación numérico-experimental de los esfuerzos principales en la corteza del fruto de la guayaba (psidium guajava L) variedad enana rojaConveniencia del modelo del balance energético foliar como contenido para el diseño de problemas de física de respuesta abierta para estudiantes de carreras de perfil agropecuario índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Revista Ciencias Técnicas Agropecuarias

versión On-line ISSN 2071-0054

Rev Cie Téc Agr vol.23 no.1 San José de las Lajas ene.-mar. 2014

 

ARTÍCULO ORIGINAL

 

Contribución de la Estadística al análisis de variables categóricas: Aplicación del Análisis de Regresión Categórica en las Ciencias Agropecuarias

 

Statistical contribution to the analysis of categorical variables: Application of Categorical Regression Analysis in the Agricultural Sciences

 

 

Dr.C. Caridad Walkiria Guerra BustilloI, Dr.C. Magaly Herrera VillafrancaII, Dr.C. Yasser Vázquez AlfonsoIII, Dr.C. Atenaida Beatriz Quintero BuenoIV

I Centro Universitario Municipal de Güines, Mayabeque, Cuba.
II Instituto de Ciencia Animal, San José de las Lajas, Mayabeque, Cuba.
III Universidad Agraria de La Habana, San José de las Lajas, Mayabeque, Cuba.
IV Universidad de La Guajira, Departamento de La Guajira, Colombia.

 

 


RESUMEN

Se considera que de los Métodos Estadísticos que más han aportado al análisis de variables categóricas o cualitativas, los de la Estadística no paramétrica han sido esenciales, desde enfoques univariado, bivariado y multivariado, siendo una alternativa válida de análisis de la información, que puede resultar en muchas ocasiones más conveniente que la transformación de los datos, para que se cumplan los supuestos de los Métodos Estadísticos paramétricos. Como otra alternativa de análisis se propuso desde 1972 el Modelo Lineal Generalizado, en que la variable respuesta puede presentar distribuciones Binomial, Multinomial, Hipergeométrica y Poisson, entre otras. Por ser los Modelos de Regresión de amplia aplicación, en sus diferentes modalidades, se seleccionó el Análisis de Regresión Categórica, para presentar un detallado análisis de los aspectos teórico-prácticos de los resultados de nueve variables, relacionadas con indicadores económicos y productivos del ganado caprino y ovino.

Palabras clave: métodos estadísticos para variables categóricas, análisis de regresión categórica (CATREG), ganado caprino y ovino.


ABSTRACT

It is considered that the Statistical Methods that contributed to the analysis of categorical or qualitative variables, those of nonparametric statistics, have been essential from univariative, bivariate and multivariate approaches, being a valid information alternative analysis, which can be often more convenient that the transformation of data to fulfill the assumptions of parametric Statistical Methods. As another alternative analysis, the Generalized Linear Model was proposed since 1972. In it, the response variable can present Binomial, Multinomial, Hypergeometric and Poisson distributions among others. Since Regression Models have wide applications in its various forms, Categorical Regression Analysis was selected to present a detailed analysis of the theoretical and practical aspects of the results of nine variables related to economic and productive indicators of goats and sheep.

Key words: statistical methods for categorical variables, categorical regression analysis (CATREG), goats and sheep.


 

 

INTRODUCCIÓN

En la actualidad se considera que la presencia de variables categóricas o cualitativas en la investigación científica, no es exclusivo del área de las Ciencias de la Conducta, Sociales, Humanísticas y Pedagógicas, sino que pueden estar presentes en diversas ramas de la Ciencia, en particular las Biológicas y Agropecuarias. Esto puede estar dado por la presencia de técnicas no experimentales en la recogida de información, como: encuestas, entrevistas, debates, criterios de expertos, etc., combinadas o no con técnicas experimentales que pueden aportar igualmente variables de este tipo, de acuerdo con los objetivos de la investigación que se desarrolla.

El interés por cuantificar lo cualitativo data de principios del siglo XX, hasta llegar a sistemas tan depurados como el propuesto por la Escuela holandesa de Escalamiento de datos, con los trabajos de Gifi (1981; 1990) y Correa (2008).

Se considera que de los Métodos Estadísticos que más han aportado al análisis de las variables cualitativas, los de la Estadística no paramétrica han sido esenciales, desde enfoques univariado, bivariado y multivariado, siendo una alternativa válida de análisis de la información, que puede resultar en muchas ocasiones más conveniente que la transformación de los datos, para que se cumplan los supuestos de los Métodos Estadísticos paramétricos.

Se puede asegurar que en la actualidad la Modelación Estadística cuenta con los respaldos teóricos, metodológicos y computacionales que le dan una gran viabilidad como un área de desarrollo de la Matemática Aplicada y la posibilidad de considerar Modelos paramétricos y no paramétricos (Ojeda, 2004).

En el ámbito de la Estadística Multivariada, se aprecian avances en la aplicación de las técnicas de Escalamiento Multidimensional, Escalamiento Óptimo y los Mapas Auto Organizados, entre otras, reportándose diversos trabajos como los de Linares (2001), Miret (2002; 2005), Tapia (2007) y Herrera (2009), entre otros.

El objetivo de este trabajo fue sintetizar diferentes procedimientos que ha aportado la Estadística para el procesamiento, análisis e interpretación de variables categóricas o cualitativas, presentando una aplicación del Análisis de Regresión Categórica.

 

MÉTODOS

En la Tabla 1 se resumen los principales Métodos Estadísticos relacionados con el análisis de variables categóricas o cualitativas, según el número de variables involucradas. De los procedimientos clásicos reportados en esta tabla, los de más amplia aplicación, son los correspondientes a la Estadística no paramétrica. Relacionados con las Ciencias Agropecuarias se reportan los trabajos de De Calzadilla (1999) y Cabrera (2002), en que además se valora el uso de las transformaciones Box-Cox.

Cristo (2002), analiza el comportamiento de las dócimas no paramétricas respecto a las paramétricas en distribuciones no normales.

Más reciente, Quintero (2010), realiza un análisis multivariado aplicado al sistema de producción-comercialización del ganado caprino y ovino, utilizando Escalamiento Multidimensional, Mapas Auto Organizados y Escalamiento Óptimo, en las modalidades de Análisis de Componentes Principales Categórico (CATPCA) y Análisis de Correspondencias Múltiples (ACM), ya que de los cuatro escenarios investigados, dos incluían solo variables cualitativas y los dos restantes variables mixtas, con un predominio de las variables cualitativas.

Linares (2001), indica que aunque las primeras ideas del Escalamiento Multidimensional surgen en la primera mitad del pasado siglo, su historia comienza con un trabajo de Torgenson en 1952), que fueron perfeccionadas por Kruskal en la década del 60, citado por Quintero (2010).

Por otra parte Miret (2002 y 2005), señala que el Escalamiento Multidimensional consiste esencialmente en representar disimilaridades entre objetos o individuos, como distancias entre puntos en un espacio de dimensión reducida, mientras que los Mapas Auto Organizados de Kohonen, se caracterizan por su capacidad para clasificar un conjunto complejo de patrones de manera no supervisada, extrayendo criterios de clasificación no obvios ni expresados de manera explícita.

El software estadístico SPSS (Statistical Package for the Social Sciences), se considera muy importante en el procesamiento de los métodos antes indicados, en particular en su versión 18.0 del 2009, al incluir los procedimientos:

• Análisis de Componentes Principales Categóricos (CATPCA), versión 1.1.

• Análisis de Correspondencias Múltiples (ACM), versión 1.0.

• Análisis de Regresión Categórica (CATREG), versión 2.1.

Los cuales fueron implementados por la Facultad de Ciencias Sociales y de la Conducta, de la Universidad Leiden de Holanda, por el Data Theory Scaling System Group (DTSS).

Herrera et al. (2009), para visualizar información bibliométrica relacionada con Métodos Estadísticos no paramétricos aplicados en investigaciones agrarias, empleó la técnica de Escalamiento Multidimencional (PROXSCAL) y los Mapas Auto Organizados (SOM del inglés), mediante el uso de los software SPSS versión 18.0 (2009) y el Viscovery SOMine, 5.0.2 (2008).

Por otra parte, Miret (2002) y Tapia (2007), resumen que el Escalamiento Multidimensional, se conoce como Escalamiento Óptimo, cuando las transformaciones son escogidas de tal manera que estas minimizan la función de pérdida.

Una referencia especial merece el caso en que la variable respuesta es discreta o categórica. Nelder y Wedderburn (1972), presentan una extensión de la teoría del Modelo Lineal General, mediante el Modelo Lineal Generalizado, el cual unifica tanto los modelos con variables respuesta numérica como categórica, lo cual lleva a considerar otras distribuciones tales como la Binomial, Binomial Negativa, Multinomial, Poisson, Hipergeométrica, etc, además de la Normal. García (2002), realiza aplicaciones del Modelo Lineal Generalizado a la experimentación agronómica y Herrera et al. (2010), lo aplica a estudios de lactancia en la especie bubalina.

Elementos sobre el Análisis de Regresión Categórica (CATREG) y ejemplo de aplicación

Por ser los Modelos de Regresión, en sus diferentes modalidades, uno de los Métodos Estadísticos de más amplia aplicación en diversas áreas de investigación científica, se presentará una aplicación del Análisis de Regresión Categórica, que además se considera de novedad en el ámbito agrario, en las condiciones de Cuba.

Las primeras referencias sobre el Análisis de Regresión Categórica, son las aportadas por Young et al. (1976).

La Regresión Categórica (CATREG), cuantifica datos categóricos por asignación de valores numéricos a las categorías, resultando una ecuación de regresión lineal óptima para las variables transformadas, es conocida como CATREG (Regresión Categórica con Escalamiento Óptimo, mediante el uso del Método de los Mínimos Cuadrados Alternados), no siendo necesarias suposiciones sobre la distribución de las variables (SPSS versión 18.0, 2009).

Navarro et al. (2008), indican que la CATREG, trabaja bajo el enfoque de la Regresión con transformaciones, aplicando la metodología de Escalamiento Óptimo desarrollada por el sistema Gifi en 1990, para transformar la respuesta y los predictores, dando lugar a un modelo flexible.

El ejemplo de aplicación del CATREG que se presenta, se corresponde con parte de la investigación desarrollada en el marco del convenio de colaboración UNAH–UNIGUAJIRA (Universidad Agraria de La Habana, Cuba y la Universidad de La Guajira, Colombia), en el período de 2003 al 2010.

 

RESULTADOS Y DISCUSIÓN

La información analizada se corresponde con indicadores económicos y productivos de una muestra seleccionada al azar de 88 productores de ganado caprino y ovino (indígenas Wayuú), del municipio Riohacha, cabecera del departamento de La Guajira, Colombia. En la Tabla 2 se recogen las variables, que fueron seleccionadas mediante una encuesta dirigida a estos productores.

Del procesamiento de la información aportada por las variables con el software SPSS versión 18.0, complementado con el Statgraphics Plus 5.1 (2001), se incluyeron los siguientes aspectos:

• Resultados de la Tabla de ANOVA.

• Significación de los coeficientes de regresión parcial.

• Correlaciones, Importancia y Tolerancia de las variables independientes.

• Coeficientes de determinación.

• Cumplimiento de los supuestos teóricos del modelo (No Multicolinealidad de las variables independientes y en los errores: Normalidad, Incorrelación y Homocedasticidad)

El ajuste del modelo resultó significativo (F = 2,157; p = 0,045), con un coeficiente de determinación (R2), que indica que el 57,4% de la variabilidad del indicador que determinan la compra-venta, está explicada por las variables incluidas en el modelo, lo cual se considera aceptable dadas las condiciones naturales en que se realizó esta investigación, estando la posibilidad de mejorar este indicador con la inclusión de otras variables de interés y/o explorando otros modelos.

La Tabla 3 muestra los coeficientes de regresión parcial estandarizados, indicando que excepto la variable “Número de animales muertos por enfermedades”, el resto presentan aportes estadísticamente significativos a la variable dependiente o respuesta, de forma positiva o negativa.

Complementa el análisis de la Regresión Categórica, otros indicadores que aportan más elementos al análisis, los cuales aparecen en la Tabla 4, estos son:

• Correlaciones: Orden cero (entre la variable respuesta y cada variable predictora), Parcial (entre la variable respuesta y cada variable predictora, considerando constante el resto) y de Parte (entre la variable respuesta y cada variable predictora, ponderada por el coeficiente de regresión parcial correspondiente).

• Importancia: medida de la importancia relativa de las variables predictoras, dada por Pratt (1987).

• Tolerancia: representa la proporción de la variación de cada variable predictora que no es explicada por las otras variables, representa una protección ante la Multicolinealidad. Si es cero indica que la variable en cuestión es una combinación lineal perfecta de las otras variables predictoras y si es uno indica total independencia (Hair et al., 1999).

Se observa en la tabla anterior que la variable X4: “Promedio de vida del ganado en meses para el sacrificio”, es la que presenta las más altas correlaciones en cada tipo, siendo estas aceptables, además esta es la variable que se destaca por su importancia relativa.

En cuanto a la Tolerancia, antes de transformadas las variables, tres de estas (X5; X6 y X8), presentan bajas proporciones de la variabilidad de cada una, no explicada por las otras variables predictoras, sin embargo, después de transformadas las variables, estas proporciones son de aceptables a muy buenas, que resulta un elemento favorable en la aplicación del CATREG en este caso, ya que estas variables resultaron con aportes estadísticamente significativos.

Por otra parte, como plantea Hair et al. (1999), la Tolerancia se usa como un indicador de protección ante la Multicolinealidad, lo cual se corrobora con los resultados expuestos en la Tabla 5, en que se indica el Factor de Inflación de Varianza(VIF en inglés), estando este indicador muy por debajo de 10. Del Valle (2000), indica que valores del VIF mayores de 10, representan un potencial deterioro del modelo por efecto de la Multicolinealidad, con los elementos dados, se pone en evidencia la no presencia de Multicolinealidad del modelo ajustado.

Considerando lo planteado por Navarro et al. (2008), para obtener el VIF y para validar los supuestos teóricos asociados con los errores del modelo, se ajustó un Modelo de Regresión Lineal Múltiple, considerando las variables transformadas por el procedimiento del Escalamiento Óptimo, al no tener implementado el algoritmo del CATREG estos aspectos.

En la Tabla 6, se presenta el análisis de la Normalidad, mediante las dócimas de Kolmogorov- Smirnov y Shapiro-Wilk y la Incorrelación, por la dócima de Durbin-Watson, en que se puede plantear el cumplimiento de ambos supuestos al presentar estas dócimas valores de p muy superiores a 0,05.

El análisis de la homocedasticidad u homogeneidad de las varianzas. Se analiza mediante el grafico de los residuos (Figura), en que se puede observar que existe un comportamiento no homogéneo de los residuos observados, lo cual tiene cierta incidencia en los resultados del modelo ajustado.

 

CONCLUSIONES

El análisis realizado permite concluir que:

• La Estadística continúa aportando a los especialistas de las diversas ramas de la ciencia, un amplio campo teórico-práctico y algorítmico para el procesamiento, análisis e interpretación de los resultados de investigaciones que incluyen variables categóricas o cualitativas.

• Por el enfoque multidisciplinario de muchas investigaciones, es poco probable que este tipo de variables no esté presente en una amplia gama de acciones de la actividad investigativa.

• Existen condiciones para el procesamiento estadístico automatizado de la información, lo cual se manifiesta en la aplicación del CATREG, que resulta una alternativa de análisis para establecer relación entre variables, que incluya las de tipo categóricas o cualitativa.

• En el caso que se analiza, en que la variable respuesta es nominal y las predictoras son mixtas, fallan los métodos clásicos asociados a los Modelos de Regresión Lineal Múltiple.

• Las fortalezas y debilidades aportadas por el análisis de estos resultados del CATREG, son elementos de valor teórico-práctico, que aportan criterios de utilidad para experiencia futuras, en este ámbito u otros, de la investigación científica.

 

 

REFERENCIAS BIBLIOGRÁFICAS

1. CABRERA, A.: Criterios Estadísticos en la descripción del patrón espacial y diseño de muestreos para el Thrips palmi Karny en papa, 99pp., Tesis en opción al grado científico de Doctor en Ciencias Agrícolas, Centro Nacional de Salud Agropecuaria (CENSA), La Habana, Cuba. 2002.

2. CORREA, G.: Contribuciones al Análisis Multivariante no lineal, 223pp., Tesis en opción al grado científico de Doctor en Ciencias Matemáticas, Universidad de Salamanca. Departamento de Estadística, España. 2008.

3. CRISTO, M.: Comportamiento de las dócimas no paramétricas respecto a las paramétricas en distribuciones no normales, Tesis en opción al título de Máster en Matemática, Universidad Central de Las Villas (UCLV), Villa Clara, Cuba, 2002.

4. DE CALZADILLA, J.: Procedimientos de la Estadística no paramétrica. Aplicaciones en las Ciencias Agropecuarias. Tesis en opción al título de Máster en Matemática Aplicada a las Ciencias Agropecuaria, Universidad Agraria de La Habana (UNAH), San José de las Lajas, Cuba, 1999.

5. DEL VALLE, J.: La Multicolinealidad en Modelos de Regresión Lineal Múltiple. Propuesta de solución. Tesis en opción al título de Máster en Matemática Aplicada a las Ciencias Agropecuaria, Universidad Agraria de La Habana (UNAH), San José de las Lajas, Cuba, 2000.

6. GARCIA, C.: Modelos Lineares Generalizados em Experimentação Agronômica, 121 pp., ESALQ/USP–Piracicaba, Sao Paulo., Brasil, Maio 2002.

7. HAIR, J. F.; E. ANDERSON; L. TATHAM; C. LACK: Analisis Multivariate, Practice, 799 pp., Hall Iberia, Madrid, España, 1999.

8. HERRERA, M.; Y. CARABALLO; C.W. GUERRA; V. TORRES: "Procedimientos de Escalamiento Multidimensional y Mapas Auto Organizados para visualizar información bibliométrica relacionada con Métodos Estadísticos no paramétricos". En: Memorias del VII Encuentro de Editores de Revistas Científicas, Instituto de Ciencia Animal, San José de las Lajas, Mayabeque, Cuba. 2009.

9. HERRERA, M.; L. FRAGA; C.W. GUERRA; A. NODA: "El Modelo Lineal Generalizado (MLG) como alternativa de variables continuas. Una aplicación en la especie bufalina". En: Memorias del III Congreso de Producción Animal Tropical, Instituto de Ciencia Animal, San José de las Lajas, Mayabeque, Cuba, 2010.

10. LINARES, G.: “Escalamiento Multidimensional: Conceptos y enfoques”, Revista Investigación Operacional, 22(2): 173-183, 2001.

11. MIRET, E.; G. LINARES; V. MEDEROS: “Estudio comparativo de procedimientos de Escalamiento Multidimensional a través de experimentos de simulación”, Revista Investigación Operacional, 23(1): 73-82, 2002.

12. MIRET, E.: Un enfoque unificado para técnicas de representación euclidiana, 148 pp., Tesis en opción al grado científico de Doctor en Ciencias Matemáticas, Universidad de la Habana (UH), La Habana, Cuba, 2005.

13. NAVARRO, J. M.; M. CASAS; E. GONZÁLEZ; S. CUADRADO: “Estudio del riesgo cardiovascular en el municipio de Santa Clara utilizando el método de Regresión Categórica”, Revista Investigación Operacional, 29(3): 224-230, 2008.

14. NELDER, J. A. & M. WEDDERBURN: “Generalized linear models”, Journal of the Royal Statistical Society, 135(3): 370-384, 1972.

15. OJEDA, M. M.: "La Modelación Estadística, DAC Básicas", En: Foro de Matemáticas del Sureste, pp. 69-76, Universidad Juárez Autónoma de Tabasco, México, 2004.

16. QUINTERO, A.: Análisis multivariado aplicado al sistema de producción- comercialización del ganado caprino y ovino en el municipio de Riohacha departamento de La Guajira, Colombia, 100pp., Tesis en opción al grado científico de Doctor en Ciencias Veterinarias, Universidad Agraria de La Habana (UNAH), San José de las Lajas, Mayabeque, Cuba, 2010.

17. PRATT, J. W.: "Dividing the indivisible: Using simple symmetry to partition variance explained". En: Proceedings of the Second International Conference in Statistics, T. Pukkila, and S. Puntanen, eds. University of Tampere, Tampere, Finland, 1987.

18. TAPIA, J. E.: El Escalamiento Óptimo con base en el Análisis de Componentes Principales, no lineales para la construcción de índice de condiciones de vida y socio-económicos. Aplicación en el ámbito nacional, 124 pp., Proyecto previo a la obtención del Título de Ingeniero Matemático, Escuela Politécnica Nacional, Facultad de Ciencias, Quito, Ecuador, 2007.

19. YOUNG, F. W.; J. DE LEEUW; Y. TANAKE: “Regression with qualitative and quantitative variables: An Alternating Least Squares Method with Optimal Scaling features”, Psychometrika, 41(4): 505-529, 1976.

 

 

Recibido: 13 de julio de 2012.
Aprobado: 5 de septiembre de 2013.

 

 

Caridad Walkiria Guerra Bustillo. Centro Universitario Municipal de Güines, Mayabeque, Cuba. Correo electrónico: luzmi@infomed.sld.cu

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons