Introducción
El sector agrícola, tiene la necesidad de mejorar los procesos de producción para ser más eficientes con el uso de los recursos que nos provee el ecosistema como son los nutrientes del suelo (Riba et al., 2018); y con esto disminuir costos. Pero lograr esta eficiencia, se requiere de un sistema que permitan integrar nuevas tecnologías, para generar nuevas variables que permitan la construcción de modelos predictores para la toma de decisiones (Moreno-Carriles, 2018).
Por otra parte, la gestión de un sistema agrícola involucra actividades relacionados a planificar, organizar, controlar y dirigir los recursos como los nutrientes del suelo (Fernández, Fernández, Rivera & Calero, 2016; Fajardo, Aguilar, Flores, Parra & Acurio, 2017). En este aspecto, el requerimiento nutricional es diferente en cada especie vegetal, un desbalance de los nutrientes por causas naturales o por un mal manejo agrícola, tiene efecto negativos en la producción final y por ende afecta en el rendimiento financiero de la empresa (Espinoza-Freire y Tinoco-Cuenca, 2015; Rodriguez & Fusco, 2017).
El banano (Musa acuminata) es el principal producto agropecuario de exportación para el Ecuador, el cual se ha ido perfeccionándose en el ámbito de los controles fitosanitarios y de la fertilización, con el objetivo de aumentar los rendimientos de la fruta (Marín-Usuga, Casamitjana, Loaiza-Usuga, & Loaiza-Usuga, 2016). En este marco, el desarrollar un modelo para la toma de decisiones concerniente al ciclo nutricional es de vital importancia (Valverde, García, Moreno, & Socorro, 2019).
El aprendizaje automático, nace de la inteligencia artificial como apoyo al entrenamiento de modelos que respondan a la predicción de los datos en diferentes ámbitos de la ciencia (Baviera, 2017). Su estructura requiere el análisis de diferentes algoritmos que permitan evaluar a un conjunto de datos a fin de establecer si el problema es de clasificación o de regresión (Navarrete-López, Calderón, Díaz Arévalo, Herrera & Izquierdo, 2017). Para la resolución de problemas de predicción se pretende a través de diversos algoritmos, entrenarlos con la finalidad de lograr que el modelo sea capaz de predecir el nuevo conjunto (Ramírez, Laguna & Anda, 2015).
La aplicación de aprendizaje automático emplea métodos supervisados y no supervisados, como apoyo a los procedimientos de análisis de los datos. La fase de predicción de los datos es el resultado del entrenamiento del modelo y el análisis de los hiperparametros que permiten dar mayor rigurosidad a los datos (Goya, Barquero & Figuera, 2017). Su aporte genera elementos suficientes para dar solución estadística a los problemas que requieran la utilización de estas técnicas.
En tal virtud se plantea como problema de investigación lo siguiente, ¿Qué algoritmo de aprendizaje automático permite predecir el comportamiento de los nutrientes del suelo en la producción de banano? En este marco el objetivo de la investigación fue de predecir el comportamiento de los nutrientes que afectan la fertilidad del suelo en la producción de banano mediante el uso de algoritmos de Aprendizaje Automático.
Materiales y métodos
Área de estudio
El estudio se realizó en una finca bananera de aproximadamente 20 hectáreas, ubicada en el municipio de Machala (coordenadas en UTM: 3215037; 79904698), a una altura de 6 msnm. La precipitación promedio fue de 505 mm y la temperatura media 26.5 °C. El suelo en la zona es de tipo franco a franco arenoso y pertenecen al orden Alfisol. La variedad de banano es Cavendish y los ciclos fitosanitarios y de manejo fertilidad son normales.
Dentro de la finca al azar fueron delimitadas cuatro parcelas de 1 ha, donde se recolectaron las muestras de suelo, las cuales fueron clasificadas en zona 1, zona 2, zona 3 y zona 4. En las cuales se logró extraer varias submuestras de 0 a 30 cm de profundidad de todo el terreno, mezclar y homogenizar para obtener una muestra compuesta, que fue llevada al laboratorio de suelos del INIAP, en Ecuador, donde se realizaron las siguientes determinaciones (Tabla 1).
Propiedades | Métodos |
---|---|
N (%) | Kjeldahl |
P (mg/kg) | Olsen modificado |
K (cmol(+)/g) | Espectrometría de absorción atómica |
Ca (cmol(+)/g) | Espectrometría de absorción atómica |
Mg (cmol(+)/g) | Espectrometría de absorción atómica |
Fe (mg/kg) | Espectrometría de absorción atómica |
Mn (mg/kg) | Espectrometría de absorción atómica |
Cu (mg/kg) | Espectrometría de absorción atómica |
Zn (mg/kg) | Espectrometría de absorción atómica |
Los resultados del análisis de suelos, las variables fueron ingresadas al software estadístico Weka versión 3.8 (Universidad de Waikato, 2019), el cual, a través de sus algoritmos, Redes Bayesianas, Arboles de decisión, Regresión logística, Vecino más cercano, Arboles aleatorios y Máquina de vectores de soporte, permitieron entrenar el modelo y establecer el algoritmo que logre clasificar a las parcelas en función de la disponibilidad de nutrientes.
Proceso estadístico
Los datos recolectados fueron tabulados en Excel y analizados su medias y desviación estándar. En la investigación se buscó que el algoritmo clasifique los elementos nutricionales, de acuerdo a los niveles descritos por Stoorvogel & Segura (2018). En tal virtud, se aplicó métodos supervisados para clasificar los datos, utilizando las siguientes técnicas, Redes Bayesianas, Arboles de decisión, Regresión logística, Vecino más cercano, Arboles aleatorios y Máquina de vectores de soporte.
El objetivo de la utilización del aprendizaje automático es de que el modelo logre predecir el comportamiento de los componentes nutricionales, para lo cual se lo clasificó en A suelo óptimo, B suelo aceptable y C suelo no aceptable. Una vez clasificado el tipo de suelo, se busca entrenar al modelo, para que sea capaz de reconocer en base a los nutrientes el tipo de suelo clasificado, procesando la data en el software seleccionado.
Resultados y discusión
La Tabla 2, muestra el análisis descriptivo de los nutrientes. En general todos nutrientes se ubicaron en el rango óptimos sugeríos, indicando la mayor variabilidad el calcio (4.4 cmol(+)/g ±1.3) y el magnesio (2.3 cmol(+)/g ±0.8); bases intercambiable sensible, cuando los niveles de potasio (0.35 cmol(+)/g ±0.03) son altos. Chávez-Velazco & Araya-Vargas (2009) y Barrezueta-Unda, Paz-Gonzale & Chabla-Carrillo (2017), determinaron en suelos de bananeras y cacaoteras respetivamente de la provincia de El Oro rangos similares a los descriptos en la investigacion.
Nutriente | Estadístico obtenido | Rango sugerido |
---|---|---|
Nitrógeno | 0.4 (± 0.1) | > 0.31 |
Fósforo | 15.6 (± 2.3) | 11.0-20.0 |
Potasio | 0.35 (± 0.03) | 0.20-0.50 |
Calcio | 4.4 (± 1.3) | 3.00-6.00 |
Magnesio | 2.3 (± 0.8) | 1.00-3.00 |
Hierro | 55 (± 4) | 21-80 |
Manganeso | 60 (± 4.8) | 10-100 |
Cobre | 15 (± 4) | 3-20 |
Zinc | 28 (± 5) | 6-36 |
Valor entre paréntesis significa desviación estándar
Los algoritmos utilizados en el estudio se enlistan en la Tabla 3, los cuales se analizaron en función del estadístico Kappa y el error absoluto de la media. Los algoritmos Redes Bayesianas y Algoritmo de aprendizaje de perceptrón presentaron un estadístico Kappa de 0.84 y 0.96, respetivamente con error de la media entre 0.605 y 0.014. Los algoritmos Arboles de decisión, Regresión Logística y Bosques aleatorios, presentaron un Kappa 1 con error de la media 0; siendo arboles de decisiones y bosques aleatorios los que obtuvieron mayor significancia 0.00 y 0.01 respectivamente, motivo por el cual fue seleccionado para el entrenamiento.
N° | Algoritmos | Estadístico Kappa | Error de la media | |
---|---|---|---|---|
1 | Redes Bayesianas | 0.84 | 0.605 | 0.04 |
2 | Regresión Logística | 1 | 0 | 0.01 |
3 | Aprendizaje de perceptrón | 0.96 | 0.014 | 0.03 |
4 | Árbol de decisión | 1 | 0 | 0.00 |
5 | Bosques aleatorios | 1 | 0 | 0.01 |
6 | Vecino más cercano | 1 | 0.007 | 0.02 |
7 | Máquina de vectores de soporte | 1 | 0.056 | 0.02 |
Luego de haber seleccionado y entrenado el modelo a utilizar, los datos del día siete fueron clasificados correctamente presentando las siguientes observaciones. (Tabla 4).
Zona | % de Clasificación | OBSERVACIONES |
---|---|---|
Zona 1 | 100% | Clasificó en zonas A y B |
Zona 2 | 100% | Clasificó en zonas A y B |
Zona 3 | 100% | Clasificó en zonas A y B |
Zona 4 | 100% | Clasificó en zonas A,B y C |
En la Tabla 5, con los datos obtenidos de la zona 4, la cual presentó una clasificación que genera una disposición diferentes de los elementos nutricionales, se presenta la clasificación realizada con el algoritmo Árbol de decisión y Bosques Aleatorios, estableciendo el 8% de los datos se clasificados en suelo A, el 67% en suelo B y el 25% en suelo C, mientras que con Bosques aleatorios se obtuvo una clasificación del 10% en suelo A, el 69% en suelo B y el 21% en suelo C, lo que estableció a través de los dos algoritmos que se debe focalizar sobre esta zona actividades que permitan analizar los motivos que ocasionan esta clasificación considerando que los niveles identificados en zona de estudio están aceptables.
Algoritmo | % de Clasificación | A | B | C |
---|---|---|---|---|
Arboles de decisión | 100% | 8% | 67% | 25% |
Bosques aleatorios | 100% | 8.33% | 66.6% | 25.07% |
Para la presente investigación se determinó trabajar con el modelo de clasificación obtenido a través de los Arboles de decisión, sin embargo, para contrastar el estudio se entrenó a los datos con el algoritmo de los Bosques Aleatorios el cual presentó una clasificación similar, lo que establece que en la zona 4 existen alteraciones nutricionales que afecta al lote de estudio.
Los Bosques aleatorios como técnica de clasificación en métodos supervisados ha permitido realizar caracterizar las coberturas del suelo en la demarcación hidrográfica mediante minería de datos (Martín, Cánovas, Alonso, Gomariz, & Moreno, 2012). La técnica ha facilitado la clasificación en diferentes estudios relacionados a suelo. De la misma manera la técnica de árboles de decisión ha permitido clasificar adecuadamente la cartografía de suelo, siendo muy utilizado en este tipo de estudios (Blanco, López, Colditz, Hardtke, Mari & Fischer, 2012).
En este contexto se ha podido realizar estudios en la cual para el cultivo de soja se evaluaros tres algoritmos de clasificación, identificando al de árboles de decisión y máxima verosimilitud como los más idóneos para realizar el mapeo de los datos durante la producción (Nolasco, Bocco, y Scavuzzo, 2015). Además se han usado algoritmos de clasificación, a través de árboles de decisión para identificar enfermedades como la Sigatoka negra, para identificar el patógeno en su diversos estadios (Freitez, Ablan, & Gómez, 2009). De la misma forma a través de series temporales se ha logrado generar modelos de predicción en el sector agropecuario resolviendo la problemática de encontrar mejores predicciones para las series de lluvias que se realizan en el sector(Rodríguez, 2016).
Conclusiones
El algoritmo que clasificó más adecuado, según el estudio, fue el de Arboles de Decisión, el cual fue seleccionado a través de parámetros estadísticos, permitiendo establecer como a través de aprendizaje automático se generan nuevos procedimientos para la toma de decisiones en la producción de banano. El cual suministra información que facilita la predicción del comportamiento de los nutrientes del suelo, focalizando la zona que presentó variaciones en los nutrientes, lo cual suministra información importante para elevar la eficiencia y eficacia de la producción de banano.