My SciELO
Services on Demand
Article
Indicators
- Cited by SciELO
Related links
- Similars in SciELO
Share
Revista Ciencias Técnicas Agropecuarias
On-line version ISSN 2071-0054
Rev Cie Téc Agr vol.31 no.1 San José de las Lajas Jan.-Apr. 2022 Epub Nov 12, 2021
PUNTOS DE VISTA
Análisis de componentes principales, una herramienta eficaz en las Ciencias Técnicas Agropecuarias
IUniversidad Agraria de La Habana (UNAH), San José de las Lajas, Mayabeque, Cuba.
IIInstituto Nacional de Ciências Agrícola (INCA), San José de las Lajas, Mayabeque, Cuba.
En la actualidad existe una amplia gama de técnicas multivariadas, que se utilizan en las diferentes áreas de investigación. El presente trabajo se centra en el Método de Componentes Principales y tiene como objetivo establecer sobre bases matemático-estadísticas un conjunto de criterios metodológicos para el procesamiento e interpretación de resultado con el empleo de dicha técnica. Se desarrolla un ejemplo asociado a estudios pos cosecha de la Piña (variedad Cayena Lisa). Se proponen una secuencia de pasos que incluye: análisis previo de correlación entre variables, determinación de números de componentes a seleccionar (compromiso entre los diferentes criterios), peso de variables en cada componente, interpretación biológica y gráficos que validan los resultados obtenidos en sentido de las componentes e individuos. El estudio contó con las variables: pérdida de peso en g (PP), firmeza, índice de color (IC), contenido de solidos solubles (SSC) y PH. Las variables se agruparon en dos componentes que explican el 88,36 % de la variación de los datos. Se observó una relación positiva entre PP, SSC y PH y la relación negativa de la firmeza con estas variables, se muestra que la mayor PP y PH se alcanza a partir del sexto día, y la mayor firmeza en los dos primeros días, aspectos a tener en cuenta en la toma de decisiones oportunas para el almacenaje, trasporte y comercialización. Se concluye que el empleo de técnicas multivariadas y en particular el análisis de componentes principales constituye una vía eficiente y no destructiva en el monitoreo de la calidad de frutos en almacenamiento.
Palabras-clave: componentes principales; ingeniería agrícola; métodos multivariados
INTRODUCCIÓN
Históricamente en el sector agrario ha estado presente la necesidad, del empleo de diferentes Metodologías Estadísticos-Matemáticas que den respuesta a problemas actuales en Investigaciones Científicas. Recientemente Fernández et al. (2018; 2019), establecieron sobre bases matemático-estadísticas criterios y valoraciones en el análisis y aplicación de modelos que describen Procesos Agrarios (basado fundamentalmente en la estadística univariada y bivariada).
De igual forma, la literatura notifica sobre el empleo de métodos multivariados, que se emplean para estudiar fenómenos que incluyen la medición de varias variables y que se aplican en dependencia de las características de la investigación. Entre las técnicas estadísticas multivariadas más utilizadas esta: Regresión Múltiple; Análisis de Componentes Principales (ACP); Análisis de Factorial (AF); Análisis Discriminante (AD); la Taxonomía Numérica (CLUSTER); Escalamiento Multidimensional, entre otros, los que han sido abordados por Lozares & López (1991); Robaina et al. (2001); Hair & Anderson (2004); Bouza & Sistachs (2006); González et al. (2008); Miranda (2011); Coronados et al. (2017); Quindemil & Rumbaut (2019); Gozá et al. (2020); Varela (2021) entre otros autores.
El objetivo del presente trabajo es establecer sobre bases matemático-estadísticas un conjunto de criterios metodológicos para el procesamiento e interpretación de resultados con el empleo del método de Componentes Principales, se centra su análisis en estudios postcosecha de la Piña (variedad Cayena Lisa)
DESARROLLO DEL TEMA
Fundamentos Teóricos
Se han dado diversos criterios sobre la definición de técnicas estadísticas multivariadas, una definición general fue planteada por Hair & Anderson (2004), quienes fundamentan que “El análisis multivariado, se refiere a todos los métodos estadísticos que analizan simultáneamente medidas múltiples de cada individuo u objeto sometido a investigación y enfatizan que cualquier análisis simultáneo de más de dos variables puede ser considerado aproximadamente como un análisis multivariante.
Estos métodos agrupan un conjunto de técnicas estadísticas que se encargan del análisis de datos correspondientes a mediciones de p variables observadas en n individuos; permitiendo el estudio de las interrelaciones. La literatura recoge diversos métodos multivariados, y los clasifican fundamentalmente atendiendo a los fines que se persiguen en la investigación, en tal sentido Varela (2021), a partir de un análisis realizado, los agrupa en descriptivo o decisional y alega que una de las técnicas del Análisis Multivariado más difundida en la actualidad es el Análisis de Componentes Principales (ACP) donde las variables son cuantitativas, ya que se trabaja con el coeficiente de correlación de Pearson, diseñado para medir asociación lineal entre variables de este tipo, aunque existe la opción del Análisis de Componentes Principales para variables categóricas, el cual será abordado en un próximo trabajo.
Miranda (2011), refiere que el objetivo del (ACP) es reducir el número de variables que intervienen en un análisis de un determinado proceso en estudio. Y expresa que el método consiste en obtener nuevas variables (denominadas componentes Yp) que están incorrelacionadas entre si y que guardan un orden lógico, donde la primera componente es la de mayor influencia en el fenómeno de estudio y así sucesivamente, es decir:
tal que:
¿Cómo describir la información contenida en un conjunto de datos mediante un conjunto menor de nuevas variables o componentes? ¿Cuándo es efectivo aplicar el Método de Componentes Principales?
El Análisis de Componentes Principales resulta más efectivo en la medida en que inicialmente exista una estructura de correlación marcada entre las variables; en tal sentido Miranda (2011) corrobora que, cuando no existe asociación entre las variables, carece de sentido realizar estos tipos de análisis.
Este procedimiento se emplea sobre todo en análisis exploratorio de datos y con fines descriptivos, el mismo logra simplificar los estudios que se harán a partir de un número menor de variables que la original, así como dilucidar la relación y peso entre las variables observadas, y paralelamente permite observar la formación de grupos de individuos atendiendo al comportamiento de estos a partir de representaciones gráficas.
Para la aplicación de este método se parte de la matriz de datos de n individuos con p variables en el que (n ≥ p), donde se aplica una secuencia de pasos que se corresponden con los siguientes aspectos:
Construcción de las componentes (es de destacar que cuando las variables cuantitativas aparecen en la misma escala de medida se utiliza la matriz de varianza y covarianza, en el caso que estén en diferente escala se emplea la matriz de correlación (estandarización).
Selección del número de componentes a tener en cuenta (criterios de porcentaje: Incluir el criterio suficiente de componentes principales que den un porciento de la varianza aceptable (regularmente por encima del 70%), o criterio de autovalor con valores que sean mayores o iguales a 1, entre otros criterios, las experiencias prácticas indican trabajar en el sentido de un compromiso entre diferentes criterios).
Análisis de las variables. Relación o peso de variables en cada componente.
Sentido biológico de las componentes a partir de su relación con las variables iniciales.
Análisis gráfico (individuos), formación de posibles grupos.
En la actualidad se cuenta con valiosos resultados relativos al empleo de estas técnicas, como muestras los trabajos de Mesa et al. (2018), en estudios de fermentación de anticuerpo monoclonal, de igual forma se emplearon en investigaciones asociadas a procesos de purificación de biofármaco realizado por Gozá et al. (2020), se reporta además su empleo en problemas asociados a la causalidad en las Ciencias Biomédicas, que incluyó la determinación de factores de riesgo y pronósticos Sagaró & Zamora (2020), así como también en estudios de sistemas mecánicos dinámicos funcional de motores de combustión interna según Aliaga et al. (2021) entre otras aplicaciones.
Ejemplo de aplicación de ACP en estudios pos cosecha de la Piña (variedad Cayena Lisa)
La piña es uno de los cultivos comerciales de frutas más importantes del mundo, es conocida como la reina de las frutas por su excelente sabor y su implicación en la alimentación y la salud según Hernández et al. (2021), de ahí que en la actualidad se intensifican las investigaciones asociadas a su caracterización, composición nutricional, estudios crecimiento, calidad, postcosecha, entre otros aspectos como muestran los trabajos de Rangel et al. (2018) y Lorente et al. (2021), entre otros.
Luchsinger (2017) considera que uno de los impactos de los estudios pos cosecha radica en mantener la calidad de los productos hasta su consumo, de ahí la importancia de indagar en los diferentes indicadores. El estudio se llevó a cabo en áreas de la empresa de cultivos varios ubicados dentro de la Llanura Habana-Matanzas, con un rango de la temperatura media anual entre los 25 y los 32 ºC y elevada humedad ambiental. La Pérdida de Peso (PP) se realizó a través del pesaje de los frutos con la utilización de la balanza electrónica, durante los días (1, 2, 3, 5, 6, 8 y 10) de cosechado, y se midieron indicadores como: PP, firmeza, índice de color (IC), contenido de sólidos solubles (SSC) y PH. Se desea analizar en comportamiento de estas variables (5 variables) en los diferentes días (6 individuos).
Los datos fueron procesados mediante el software estadístico (Statgraphics Centurion, 2012). Un análisis previo mostró que existe una estructura de correlación marcada entre este grupo de variables, que muestra una relación positiva y directa entre (PP - PH con r = 0.84) y (de PH -SSC con r = 0.62), de igual forma se observó una relación negativa e inversa entre (PP-firmeza con r = -0.80) y (IC-firmeza con r = - 0.65), lo que sugiere un estudio con el empleo de análisis de componentes principales.
Construcción y selección del número de componentes
Se observa en la Tabla 1 la selección de dos componentes (autovalores por encima de uno). Nótese que con las dos primeras componentes se explica el 88.36% de la variabilidad total. Esto indica que, de 5 variables iniciales, se puede extraer dos componentes para explicar la asociación entre las variables y observaciones
Componente | Auto valor | Porcentaje de la varianza | Porcentaje acumulado |
---|---|---|---|
1 | 55.43 | ||
2 | 32.93 | ||
3 | 0.51 | 10.38 | 98.74 |
4 | 0.05 | 1.02 | 99.76 |
5 | 0.01 | 0.23 | 100 |
Relación o peso de variables en cada componente
El peso de las variables en la componente 1 está caracterizada fundamentalmente por las variables pérdida de peso, PH y firmeza (Tabla 2) mientras que la componente 2 se caracteriza los contenidos de solidos solubles y el índice de color.
Componente 1 | Componente 2 | |
---|---|---|
Pérdida de peso | -0.048 | |
Firmeza | 0.386 | |
(IC) | 0.120 | |
(SSC) | 0.329 | |
PH | 0.287 |
En el caso de la Componente 1, con valores positivos en pérdida de peso y PH, se puede afirmar que a medida que aumenta el valor de la componente 1, se incrementa la pérdida de peso y el PH y disminuye la firmeza de los frutos. Por otra parte, en el caso de la segunda componente a medida que su valor se incrementa, indica que los valores de los contenidos de los sólidos solubles aumentan y disminuye el índice de color.
Atendiendo a la representación gráfica (Figura 1), se puede plantear que existen fundamentalmente en post cosecha, tres grupos. El primer grupo caracterizado por la mayor pérdida de peso y pH, que sucede a partir del sexto día. Desde el punto de vista físico las pérdidas de peso, asociadas con los contenidos de agua de la fruta, indirectamente disminuyen la concentración de iones hidrogeno haciendo esto, que el pH se eleve, producto a la senescencia o putrefacción que este está alcanzando, lo cual no facilita su consumo como fruto fresco, de ahí la importancia y la toma de decisiones oportuna para la comercialización e industrialización.
Formación de posibles grupos. Sentido biológico de las componentes a partir de su relación con las variables iniciales
Día | Componente 1 | Componente 2 |
---|---|---|
1 | -2.422 | 1.681 |
2 | -0.524 | 0.738 |
3 | -0.840 | -0.802 |
5 | -0.817 | -1.593 |
6 | 0.463 | -1.478 |
8 | 1.67 | 0.528 |
10 | 2.47 | 0.926 |
En contraposición con él, está el tercer grupo, formado por el primer día, donde se alcanza la mayor firmeza, menor pérdida de peso y de pH. Esta respuesta está dada a causa de la naturaleza del producto, pues una vez que comience el intercambio del etileno con el medio circundante, provoca el aumento de la respiración y acelera el proceso de maduración, fenómeno recurrente en investigaciones precedentes con este u otros productos agrícolas (Thompson, 1998). Igualmente se refleja una respuesta paulatina en la concentración de contenidos de solidos solubles que suelen incidir en su aceptación ante consumidores y comercializadores. Así como el índice de color el cual permite discernir a simple vista su estado de madurez, independientemente que su menor valor a alcanzar, está comprendido en el primer día pos cosecha tal y como lo refleja la componente 2.
El resultado obtenido de calidad de la piña representada por estos agrupamientos constituye una valiosa herramienta que nos exonera de llevar a cabo un control exhaustivo de estas propiedades durante su comercialización, transporte o almacenaje e incluso suplir la falta de instrumentación para su determinación. Ello en buena medida la convierte en una herramienta no destructiva para monitorear la calidad del fruto en almacenamiento. También se satisface uno de los principales propósitos y curiosidades de esta investigación. Esto potenciaría en este rango de tiempo la toma de decisiones oportunas en relación a su almacenaje, transporte y comercialización. Ello reafirma el criterio que la calidad se procura desde el campo y se modula pos cosecha.
Por último, el grafico de Biplot (Figura 2), permitió el análisis conjunto de variables e individuos. Se puede apreciar la relación positiva entre SSC, PH y pérdida de peso y la relación negativa de la firmeza con las variables anteriores; correspondiendo a los días 8 y 10 los valores más altos de SSC, Ph y pérdida de peso y los valores más bajos de firmeza en contraposición con el día 1. De igual forma se observa (mediante perpendiculares al eje de firmeza) que es en los dos primeros días es donde se alcanza la mayor firmeza.
CONCLUSIONES
Se concluye que el uso de técnicas multivariadas, sobre bases metodológicas y énfasis en la interpretación de los resultados, eleva la calidad de las investigaciones científicas en procesos agrarios y afines.
El uso de análisis de componentes principales resulta una herramienta alternativa de análisis en estudios de postcosecha y constituye una vía eficiente y no destructiva en el monitoreo de la calidad de frutos en almacenamiento.
REFERENCES
ALIAGA, N.R.; DE LA TORRE, S.F.; RODRÍGUEZ, S.A.A.; GUILLÉN, G.J.: “Análisis de componentes principales en los motores de combustión interna Hyundai 1.7 MW”, Revista Ingeniería Energética, 42(1), 2021, ISSN: 1815-5901. [ Links ]
BOUZA, C.N.; SISTACHS, V.: Estadística, teoría básica y ejercicios, Ed. Editorial Félix Varela, La Habana, Cuba, 2006, ISBN: 959-258-373-0. [ Links ]
CORONADOS, Y.; VILTRES, V.; SISTACH, V.: “Aplicación de técnicas estadísticas multivariantes en el análisis de datos”, Revista Cubana de Medicina Física y Rehabilitación, 9(2): 1-12, INFOMED., 2017. [ Links ]
FERNÁNDEZ, C.L.; GUERRA, B.C.W.; DE CALZADILLA, P.J.; CHANG, L.N.U.: “Desarrollo de la modelación estadístico-matemática en las ciencias agrarias. Retos y perspectivas”, Investigación Operacional, 38(5): 462-467, 2018, ISSN: 2224-5405. [ Links ]
FERNÁNDEZ, C.L.; RANGEL, M. de O.L.; GUERRA, B.C.W.; DEL POZO, F.J.: “Modelación Estadístico-Matemática en Procesos Agrarios. Una aplicación en la Ingeniería Agrícola”, Revista Ciencias Técnicas Agropecuarias, 28(2): 72-79, 2019, ISSN: 1010-2760, e-ISSN: 2071-0054. [ Links ]
GONZÁLEZ, Á.L.; SOLANO, H.L.; TILANO, J.: “Análisis multivariado aplicando componentes principales al caso de los desplazados”, Ingeniería y desarrollo, (23): 119-142, 2008, ISSN: 0122-3461. [ Links ]
GOZÁ, L.O.; FERNÁNDEZ, A.M.; RODRÍGUEZ, G.R.H.; OJITO, M.E.: “Aplicación del Análisis de Componentes Principales en el proceso de purificación de un biofármaco”, Vaccimonitor, 29(1): 5-13, 2020, ISSN: 1025-028X. [ Links ]
HAIR, J.F.; ANDERSON, R.E.: Multivariate data analysis, Ed. Pearson Prentice Hall, 5a ed., Madrid, España, 2004, ISBN: 84-8322-035-0. [ Links ]
HERNÁNDEZ, R.G.; ORTEGA, I.E.; ORTEGA, I.I.H.: “Composición nutricional y compuestos fitoquímicos de la piña (Ananas comosus) y su potencial emergente para el desarrollo de alimentos funcionale”, Boletín de Ciencias Agropecuarias del ICAP, 9(14): 24-28, 2021, ISSN: 2448-5357. [ Links ]
LORENTE, G.Y.; RODRÍGUEZ, H.D.; CAMACHO, R.L.; CARVAJAL, O.C.C.; DE ÁVILA, G.R.; GONZÁLEZ, O.J.; RODRÍGUEZ, S.R.: “Efecto de la aplicación de Biobras-16 sobre el crecimiento y calidad de frutos de piña ‘MD-2”, Revista de Cultivos Tropicales, 42(2), 2021, ISSN: 0258-5936. [ Links ]
LOZARES, C.C.; LÓPEZ, R.P.: “El análisis multivariado: definición, criterios y clasificación”, 1991. [ Links ]
LUCHSINGER, L.: Impacto de la postcosecha en la calidad de frutos de exportación, [en línea], Perú, Redagrícola, 2017, Disponible en: https://www.redagricola.com/pe/impacto-de-la-postcosecha-en-la-calidad-de-frutas-de-exportacion, [Consulta: 9 de julio de 2021]. [ Links ]
MESA, R.L.; GOZÁ, L.O.; URANGA, M.M.; TOLEDO, R.A.; GÁLVEZ, T.Y.: “Aplicación del Análisis de Componentes Principales en el proceso de fermentación de un anticuerpo monoclonal”, Vaccimonitor, 27(1): 8-15, 2018, ISSN: 1025-028X, e-ISSN: 1025-0298. [ Links ]
MIRANDA, I.: Estadística Aplicada a la Sanidad Vegetal, Inst. Centro Nacional de Sanidad Agropecuaria (CENSA), folleto, San José de las Lajas, mayabeque, Cuba, 173 p., 2011. [ Links ]
QUINDEMIL, T.E.M.; RUMBAUT, L.F.: “Análisis de componentes principales para obtener indicadores reducidos de medición en la búsqueda de información”, Revista Cubana de Información en Ciencias de la Salud, 30(3), 2019, ISSN: 2307-2113. [ Links ]
RANGEL, M. de O.L.; MONZÓN, M.L.L.; GARCIA, C.J.; GARCIA, P.A.: “Técnicas matemáticas para inferir cambios poscosecha en las propiedades de productos agrícolas”, Revista Ciencias Técnicas Agropecuarias, 27(4): 42-54, 2018, ISSN: 1010-2760, e-ISSN: 2071-0054. [ Links ]
ROBAINA, C.G.R.; MEDINA, P.; MANUEL, J.; MORALES, R.J.M.; ROBAINA, C.R.E.: “Análisis multivariado de factores de riesgo de prematuridad en Matanzas”, Revista Cubana de obstetricia y ginecología, 27(1): 62-69, 2001, ISSN: 0138-600X. [ Links ]
SAGARÓ, D.C.N.M.; ZAMORA, M.L.: “Técnicas estadísticas multivariadas para el estudio de la causalidad en Medicina”, Revista Ciencias Médicas, 24(2), 2020, ISSN: 1561-3194. [ Links ]
STATGRAPHICS CENTURION: Statgraphics Centurion, X.: “Version 16.1. 17”, Statpoint Technologies, Inc., 2012. [ Links ]
THOMPSON, K.A.: Tecnología post-cosecha de frutas y hortalizas, Ed. Kinesis Ltda., Colombia, 268 p., 1998. [ Links ]
VARELA, M.: Análisis multivariado, [en línea], Ediciones INCA, 2021, Disponible en: http://ediciones.inca.edu.cu/files/folletos/analisismultivariado .pdf, [Consulta: 30 de abril de 2021]. [ Links ]
Recibido: 20 de Mayo de 2021; Aprobado: 12 de Noviembre de 2021