Aprendiendo con meta-clasificadores a partir de flujos de datos no estacionarios

Verdecia-Cabrera, Alberto; Frías-Blanco, Isvani; Quintero-Domínguez, Luis; Sarabia, Yanet Rodríguez; Verdecia-Cabrera, Alberto; Frías-Blanco, Isvani; Quintero-Domínguez, Luis; Sarabia, Yanet Rodríguez

Meu SciELO

Serviços customizados

Serviços Personalizados

Artigo

Enviar este artigo por email

Indicadores

Citado por SciELO

Links relacionados

Similares em SciELO

Mais
Mais

Permalink

Revista Cubana de Ciencias Informáticas

versão On-line ISSN 2227-1899

Rev cuba cienc informat vol.14 no.4 La Habana oct.-dez. 2020 Epub 01-Dez-2020

Artículo original

Aprendiendo con meta-clasificadores a partir de flujos de datos no estacionarios

Learning with meta-classifiers from non-stationary data streams

0000-0003-2190-7747Alberto Verdecia-Cabrera¹³^*, 0000-0002-6133-6080Isvani Frías-Blanco², 0000-0002-3527-0516Luis Quintero-Domínguez³⁴, 0000-0002-4998-5862Yanet Rodríguez Sarabia³

^¹ Universidad de Granma, Cuba. averdeciac@udg.co.cu

^² Universidad de Sao Paulo, Brasil. justisvani@gmail.com

^³ Universidad Central “Marta Abreu” de Las Villas, Cuba. yrsarabia@uclv.edu.cu

^⁴ Universidad de Sancti Spíritus “José Martí Pérez”, Cuba. lqdominguez@uniss.edu.cu

RESUMEN

Muchas fuentes generan grandes cantidades de datos constantemente en el tiempo, los cuales son conocidos como flujos de datos. Debido a que estos son adquiridos a lo largo del tiempo y a la dinámica de muchas situaciones reales, la distribución de probabilidades (concepto objetivo) que rige los datos puede cambiar en el tiempo, un problema comúnmente denominado cambio de concepto. Este artículo presenta un nuevo algoritmo basado en ensambles de clasificadores para el aprendizaje a partir de flujos de datos con posibles cambios de concepto. El algoritmo propuesto usa meta-clasificadores para combinar las predicciones de los clasificadores bases del ensamble, y mantiene un conjunto de clasificadores adaptativos para manipular posibles cambios de concepto. El método propuesto cumple con los requerimientos comunes para el aprendizaje en línea a partir de flujos de datos: es capaz de procesar los datos de entrada con complejidad temporal y espacial constante, y además solo procesa cada ejemplo de entrenamiento una vez. En este trabajo se compara empíricamente el nuevo algoritmo con los métodos de ensamble existentes más conocidos para el aprendizaje en línea. Los experimentos realizados muestran que el algoritmo propuesto frecuentemente alcanza mayores niveles de precisión en los conjuntos de datos seleccionados

Palabras-clave: Flujos de datos; Ensambles de clasificadores; Cambio de concepto

ABSTRACT

Many sources generate large amounts of data constantly over time, which are known as data streams. Because of these are acquired over time and the dynamics of many real situations, the distribution of probabilities (target concept) that governs the data can change over time, a problem commonly called concept drift. This article presents a new algorithm based on classifiers ensembles for learning from data streams with possible concept drifts. The proposed algorithm uses meta-classifiers to combine the predictions of the base classifiers of the ensemble, and maintains a set of adaptive classifiers to manipulate possible concept drifts. The proposed method meets the common requirements for online learning from data streams: it is capable of processing input data with constant temporal and spatial complexity, and also only processes each training example once. In this work, we compared the new algorithm empirically with the most known existing ensemble methods for online learning. The experiments carried out show that the proposed algorithm frequently reaches higher levels of accuracy in the selected data sets.

Key words: Data stream; Classifier ensemble; Concept drift

Introducción

En la actualidad el volumen de los datos generados por sensores, Internet, dispositivos de localización, telefonía y muchos otros, está en constante aumento. El tamaño de estos datos es potencialmente infinito, debido a su constante generación y así, es necesario procesarlos con recursos limitados de cómputo. Para este procesamiento es factible el uso de técnicas de minería de flujos de datos. En las tareas de clasificación, un flujo de datos es comúnmente definido como una secuencia muy grande (potencialmente infinita) de pares que se van adquiriendo a lo largo del tiempo. Estos pares, llamados instancias o ejemplos, están compuestos por un conjunto de atributos y una etiqueta de clase. Debido a la dimensión temporal de los datos (estos son adquiridos en el tiempo) y la dinámica de muchas situaciones reales, la distribución de probabilidad que regula a los datos (también llamada concepto) puede cambiar con el tiempo, un problema conocido comúnmente como cambio de concepto. Consecuentemente, los algoritmos de aprendizaje para la minería de flujos de datos deben ser actualizados con respecto a los conceptos más recientes (^{Gama et al. 2014}).

Los métodos de ensambles de clasificadores (o combinación de clasificadores) han recibido en los últimos tiempos gran atención para el modelado y la clasificación de flujos de datos no estacionarios (^{Blanco et al. 2010}; ^{Verdecia-Cabrera et al. 2019}). El objetivo de estos métodos es que tengan mejor rendimiento que los clasificadores individuales (también llamados clasificadores base ^{(Kuncheva 2004}; ^{Verdecia-Cabrera et al. 2018}). Para manipular cambios de concepto, utilizan medidas de rendimiento para monitorizar la consistencia del ensamble en relación con los nuevos datos. Variaciones significativas en los valores de rendimiento se interpretan como un cambio de concepto y los métodos de ensamble eliminan, reactivan o añaden nuevos clasificadores base dinámicamente en respuesta a estas variaciones.

En el aprendizaje en línea, los métodos para combinar las predicciones de los clasificadores base se han centrado en el voto ponderado, que consiste en asignarle a cada clasificador base del ensamble un peso proporcional a su precisión estimada (^{Littlestone y Warmuth 1994}). Así, en las tareas de predicción, el ensamble realiza el voto final ponderando los votos de los clasificadores bases en correspondencia con los pesos estimados. Sin embargo, la relación subyacente entre las predicciones de los clasificadores bases y de las etiquetas de clases puede ser más compleja que una combinación lineal de las predicciones. Por ejemplo, el uso de un meta-clasificador es una opción factible; en este caso, las predicciones de los clasificadores base sirven como entrada para un meta-clasificador y la salida del meta-clasificador es la clase final predicha por el ensamble.

Este artículo presenta un nuevo método de ensamble que aplica el esquema de FASE (Fast Adaptive Stacking of Ensembles) (Frías-Blanco et al. 2016; ^{Verdecia-Cabrera, Blanco y Carvalho 2018}) al algoritmo Boosting (Oza y Russell 2001). FASE utiliza HDDM (Hoeffding Drift Detection Method) (Frias-Blanco et al. 2015) como detector de cambios de concepto y estimador de error. Cuando se detecta un cambio, se elimina el peor clasificador del ensamble y se agrega uno nuevo. FASE está compuesto por clasificadores adaptativos en los dos niveles (ambos clasificadores el base y el meta son adaptativos). Cada clasificador adaptativo usa HDDM, que monitoriza su tasa de error con el objetivo de emitir tres señales diferentes de cambio durante el proceso de aprendizaje. HDDM emite la señal en-control cuando el concepto actual permanece estable, alerta cuando es probable que se aproxime un cambio, y fuera-de-control cuando se detecta el cambio. En FASE, cada clasificador adaptativo usa un solo clasificador en los conceptos estables. Cuando el nivel de alerta es alcanzado, el clasificador adaptativo entrena un clasificador alternativo que reemplaza al principal si después del nivel de alerta ocurre un cambio. Los clasificadores adaptativos pueden de esta forma tener a lo sumo dos clasificadores (el clasificador principal y el alternativo), las predicciones de estos clasificadores son combinadas mediante el voto ponderado. Por lo tanto, FASE-Boost puede ser visto como un ensamble de clasificadores de 3 niveles, donde cada nivel es capaz de manipular cambios de concepto de forma explícita.

METODOLOGÍA COMPUTACIONAL

Apilado de Ensamble de Clasificadores

El nuevo algoritmo, llamado FASE-Boost es un ensamble de clasificadores que utiliza un meta-clasificador para combinar las predicciones de los clasificadores bases del ensamble. FASE-Boost Solo recibe como parámetros el nivel de confianza del detector de cambios y el número de clasificadores base. Por tanto, para ajustar estos parámetros no se necesita conocer previamente los tipos de cambios o conceptos objetivo. La sección “Clasificadores adaptativos” presenta el diseño de los clasificadores adaptativos. La sección “Combinación de la predicción de los clasificadores adaptativos” describe el proceso del meta-aprendizaje, es decir como se construyen las instancias para entrenar el clasificador del nivel meta.

Clasificadores adaptativos

Los modelos de aprendizaje comúnmente aumentan su tasa de error de clasificación cuando ocurre un cambio de concepto, ya que en estos casos el modelo de aprendizaje inducido no está acorde a los datos más recientes. En FASE-Boost, los clasificadores adaptativos estiman las tasas de error con un enfoque predictivo secuencial (test-then-train) ^{(Gama, Sebastião y Rodrigues 2013}). Así, a la llegada de cada ejemplo de entrenamiento, el modelo de aprendizaje hace una predicción basada en sus valores de atributo, entonces este ejemplo se pone a disposición el algoritmo para continuar con su aprendizaje. Como algunos de los enfoques anteriores, FASE-Boost utiliza la función de pérdida 0-1 entre la etiqueta de clase predicha y el valor real de la misma para la estimación del error.

Fig. 1 Mecanismo de aprendizaje usado en los clasificadores adaptativos.

La Figura 1 muestra el esquema general seguido en los clasificadores adaptativos. Este mecanismo se basa en la propuesta de (^{Gama et al. 2004}) y otros enfoques relacionados (^{Baena et al. 2006}; ^{Frias-Blanco et al. 2015}). A diferencia de estos enfoques, FASE-Boost utiliza un voto ponderado para combinar las predicciones del modelo principal y los modelos alternativos. Los pesos son inversamente proporcionales a las tasas de error, las cuales son estimadas por los detectores de cambio correspondientes.

Combinación de la predicción de los clasificadores adaptativos

El meta-clasificador de FASE-Boost recibe meta-instancias como entrada, donde cada atributo es nominal. FASE (Frías-Blanco et al. 2016) utiliza el enfoque test-then-train (^{Gama, Sebastião y Rodrigues 2013}) para generar meta-instancias (ver la Figura 2). Por lo tanto, para cada instancia original de entrenamiento , FASE genera una meta-instancia de entrenamiento , donde son los valores de los atributos y c su etiqueta de clase correspondiente. Cada valor de atributo de la meta-instancia M corresponde con la predicción del clasificador base i para la instancia I. Para esta meta-instancia M, el valor es la clase predicha por el clasificador i. La etiqueta de clase de la meta-instancia M es la misma que la de la instancia de entrenamiento original.

El conjunto de clasificadores base puede cambiar con el tiempo, ya que los clasificadores adaptativos pueden alternar clasificadores en respuesta a un cambio de concepto. El detector de cambio que controla la tasa de error del conjunto también puede eliminar los clasificadores adaptativos como clasificadores base. Por lo tanto, el meta-clasificador puede ser afectado por cambios en el concepto objetivo que relaciona las predicciones de los clasificadores base con la etiqueta de clase verdadera de un ejemplo dado. FASE-Boost utiliza un algoritmo de aprendizaje adaptativo como meta-clasificador con el fin de manejar este tipo de cambio de concepto.

Fig. 2 Esquema de FASE.

Estudio Experimental

Un aspecto importante dentro del aprendizaje automático es la evaluación de los métodos y algoritmos con el objetivo de validar su rendimiento. Al mismo tiempo, este proceso es útil para evaluar la aplicabilidad de los métodos, para detectar puntos que pueden ser mejorados o incluso compararlos con alternativas diferentes. Por estas razones es necesario adaptar los métodos de evaluación cuando se aprende con cambio de concepto. Para analizar el rendimiento de los algoritmos que realizan tareas de clasificación en presencia de cambios de concepto se utilizó la precisión.

Configuración de los algoritmos adaptativos

En este trabajo se compara FASE-Boost con FASE (FASE-Bag) (^{Frías-Blanco et al. 2016}). Además, se utilizaron otros algoritmos implementados en MOA, como OzaBagAdwin y OzaBoostAdwin (^{Bifet et al. 2009}), OzaBag (versión en línea del algoritmo Bagging) (^{Oza y Russell 2001}), OzaBoost (versión en línea del algoritmo Boosting) (^{Oza y Russell 2001}), LeveragingBag (^{Bifet 2010}).

Los algoritmos fueron utilizados con la configuración por defecto en MOA. Como clasificador base se utilizó Naïve Bayes. Para los algoritmos que usan HDDM, el nivel de significación para el cambio fue de 0.001 y para la alerta de 0.005. Se utilizaron 10 clasificadores base en todos los métodos.

Conjuntos de datos

Para realizar el estudio experimental se seleccionaron conjuntos de datos artificiales y reales. Los conjuntos de datos artificiales seleccionados se encuentran disponibles en MOA. En la Tabla 1 se muestran las características principales de los conjuntos artificiales seleccionados. Además, en la Tabla 2 se muestran las características principales de los conjuntos de datos reales seleccionados.

Tabla 1 Principales características de los conjuntos de datos artificiales seleccionados.

Tabla 2 Principales características de los conjuntos de datos reales seleccionados.

RESULTADOS Y DISCUSIÓN

Experimentos con datos artificiales

La Tabla 3 muestra el rendimiento de los algoritmos frente a cambios de conceptos abruptos. Con cada generador se simularon 10 cambios de concepto cada 25.000 instancias. El rendimiento de los algoritmos se resume en términos de la media y la desviación estándar (s) para la precisión. Los mejores valores de precisión se muestran en negritas. Como se puede observar los algoritmos FASE-Boost y FASE-Bag obtienen los mejores resultados.

Tabla 3 Rendimiento de los algoritmos frente a cambios abruptos. Los cambios ocurren cada 25.000 instancias. Se generaron 10 cambios.

Experimentos con datos reales

En la Tabla 4 se muestran los resultados obtenidos por los algoritmos usando como clasificadore base Naïve Bayes. Nuevamente se puede comprobar que el algoritmo propuesto es competitivo en cuanto a precisión. Adicionalmente, para comprobar diferencias significativas entre los algoritmos se realizaron pruebas estadísticas siguiendo la metodología propuesta por (^{Demšar 2006}) y ^{(García y Herrera 2008}) para comparar varios clasificadores sobre varios conjuntos de datos. En la Figura 3 se puede apreciar que FASE-Boost es significativamente mejor que OzaBagAdwin, OzaBag, LeveragingBag, OzaBoostAdwin y OzaBoost.

Tabla 4 Rendimiento de los algoritmos basados en Bagging sobre las bases reales y como clasificador base Naïve Bayes.

Fig.3 Comparación entre los algoritmos utilizando el test de Friedman y el procedimiento de Bergmann Hommel's para el análisis post hoc. Los algoritmos que están conectados no son estadísticamente diferentes (con p = 0,01).

Conclusiones

En este artículo se ha presentado un nuevo algoritmo llamado FASE-Boost. FASE agrega mejoras a los algoritmos basados en Bagging y Boosting, como es el uso de clasificadores adaptativos como clasificadores base y el uso de estos como meta-clasificadores. FASE-Boost procesa los datos de entrada con complejidad temporal y espacial constante, y solo procesan cada ejemplo de entrenamiento una vez. Recibe como parámetros el nivel de significación del mecanismo de detección de cambios y el número de clasificadores base. Además, se realizó un estudio experimental que evidenció que el nuevo algoritmo se adapta eficientemente a cambios de concepto abruptos y es competitivo en cuánto a precisión con el resto de los algoritmos. También se comprobó estadísticamente que FASE-Boost obtuvo mejor rendimiento que los algoritmos propuestos en la literatura frente a conjuntos de datos reales.

Referencias

Baena, m., campo, j. Del, Fidalgo, r., Bifet, a., Gavaldà, r. y Morales, r., 2006. Early Drift Detection Method. 4th International Workshop on Knowledge Discovery from Data Streams. S.l.: s.n., [ Links ]

Bifet, A., 2010. Adaptive Stream Mining: Pattern Learning and Mining from Evolving Data Streams. S.l.: IOS Press. [ Links ]

Bifet, A., Holmes, G., Pfahringer, B., Kirkby, R. y Gavalda, R., 2009. New ensemble methods for evolving data streams. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining [en línea]. S.l.: ACM, pp. 139-148. [Consulta: 24 abril 2015]. Disponible en: Disponible en: http://dl.acm.org/citation.cfm?id=1557041 . [ Links ]

Blanco, I.I.F., Diaz, A.A.O., Ramos Jimenez, G., Bueno, R.M. y Mota, y.c., 2010. Clasificadores y multiclasificadores con cambio de concepto basados en arboles de decision. Inteligencia artificial, revista iberoamericana de inteligencia artificial, vol. 14, no. 45, pp. 32-43. [ Links ]

Demšar, J., 2006. Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Machine Learning Research, vol. 7, pp. 1-30. [ Links ]

Frias-Blanco, I., Campo-Avila, J. del, Ramos-Jimenez, G., Morales-Bueno, R., Ortiz-Diaz, A. y Caballero-Mota, Y., 2015. Online and Non-Parametric Drift Detection Methods Based on Hoeffding Bounds. IEEE Transactions on Knowledge and Data Engineering, vol. 27, no. 3, pp. 810-823. ISSN 1041-4347. DOI 10.1109/TKDE.2014.2345382. [ Links ]

Frías-Blanco, i., Verdecia-Cabrera, a., Ortiz-Díaz, a. Y Carvalho, A., 2016. Fast adaptive stacking of ensembles. Proceedings of the 31st Annual ACM Symposium on Applied Computing [en línea]. S.l.: ACM, pp. 929-934. [Consulta: 15 junio 2016]. Disponible en: Disponible en: http://dl.acm.org/citation.cfm?id=2851655 . [ Links ]

Gama, J., Medas, P., Castillo, G. y Rodrigues, P., 2004. Learning with drift detection. In SBIA Brazilian Symposium on Artificial Intelligence. S.l.: Springer Verlag, pp. 286-295. [ Links ]

Gama, J., Sebastião, R. y Rodrigues, P., 2013. On evaluating stream learning algorithms. Machine Learning, vol. 90, no. 3, pp. 317-346. ISSN 0885-6125. DOI 10.1007/s10994-012-5320-9. [ Links ]

Gama, J., Zliobaite, I., Bifet, A., Pechenizkiy, M. y Bouchachia, A., 2014. A Survey on Concept Drift Adaptation. ACM Comput. Surv., vol. 46, no. 4, pp. 44:1-44:37. ISSN 0360-0300. DOI 10.1145/2523813. [ Links ]

García, S. Y Herrera, F., 2008. An Extension on «Statistical Comparisons of Classifiers over Multiple Data Sets» for all Pairwise Comparisons. Journal of Machine Learning Research, vol. 9, no. Dec, pp. 2677-2694. ISSN 1533-7928. [ Links ]

Kuncheva, L.I., 2004. Combining pattern classifiers: methods and algorithms. Hoboken, NJ: J. Wiley. ISBN 978-0-471-21078-8. TK7882.P3 K83 2004 [ Links ]

Littlestone, N. y Warmuth, M.K., 1994. The weighted majority algorithm. Information and computation, vol. 108, no. 2, pp. 212-261. [ Links ]

Oza, N.C. y Russell, S., 2001. Online Bagging and Boosting. En: T. JAAKKOLA y T. RICHARDSON (eds.), Eighth International Workshop on Artificial Intelligence and Statistics. Key West, Florida. USA: Morgan Kaufmann, pp. 105-112. DOI 10.1109/ICSMC.2005.1571498. [ Links ]

Verdecia-Cabrera, A., Blanco, I.F. y Carvalho, A.C.P.L.F., 2018. An online adaptive classifier ensemble for mining non-stationary data streams. Intelligent Data Analysis, vol. 22, no. 4, pp. 787-806. ISSN 1088-467X. DOI 10.3233/IDA-173522. [ Links ]

Verdecia-Cabrera, A., Blanco, I.F., DÍAS, A.O., Sarabia, Y.R. y Diez, H.R.G., 2019. Classifier ensemble algorithm for learning from non-stationary data stream. Revista Cubana de Ciencias Informáticas, vol. 13, no. 1, pp. 31-44. ISSN 1994-1536. [ Links ]

Verdecia-Cabrera, A., Frías-Blanco, I., Quintero-Domínguez, L.A. y Rodríguez Sarabia, Y., 2018. Aprendiendo con ensambles a partir de flujos de datos no estacionarios. Inteligencia Artificial, vol. 21, no. 62, pp. 145-158. ISSN 1988-3064. DOI 10.4114/intartif.vol21iss62pp145-158. [ Links ]

Recibido: 01 de Septiembre de 2020; Aprobado: 20 de Noviembre de 2020

^*Autor para la correspondencia. (averdeciac@udg.co.cu)

Los autores autorizan la distribución y uso de su artículo, y declaran que no tienen ningún conflicto de interés.

Alberto Verdecia-Cabrera: Conceptualización, Curación de datos, Análisis formal, Investigación, Metodología, Recursos, Software, Validación, Visualización, Redacción - borrador original

Isvani Frías-Blanco: Conceptualización, Análisis formal, Investigación, Metodología, Supervisión, Validación, Redacción - revisión y edición

Luis Quintero-Domínguez: Curación de datos, Software, Validación, Visualización

Yanet Rodríguez Sarabia: Conceptualización, Supervisión, Redacción - revisión y edición