SciELO - Scientific Electronic Library Online

 
vol.11 número2Análisis en condiciones semicontroladas de la biología del gusano defoliador (dione juno juno) de la maracuyá (passiflora edulis), en el litoral del EcuadorIncidencia socioeconómica de la emigración del Cantón Quevedo índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Revista Universidad y Sociedad

versión On-line ISSN 2218-3620

Universidad y Sociedad vol.11 no.2 Cienfuegos abr.-jun. 2019  Epub 02-Jun-2019

 

Articulo Original

Descubrimiento de reglas de clasificación para estudiantes que se inscriben del bachillerato a carreras universitarias

Discovery of rules of classification for students who register from bacheloship to university careers

Jorge Guanín1  * 

Raúl Díaz1 

Byron Oviedo1 

1 Universidad Técnica Estatal de Quevedo. Ecuador. E-mail: rdiaz@uteq.edu.ec; boviedo@uteq.edu.ec

RESUMEN

El uso de datos que extraen técnicas que usan supervisado proporciona el conocimiento para arreglar las opciones que ellos hacen sus directores (gerentes) académicos. Este papel (periódico) habla de los resultados de los algoritmos de software de QUILLA, los algoritmos son usados 14 extraído incluyendo las reglas que predicen a aspirantes de instituto en el éxito o el fracaso del curso de nivelación.

Palabras clave: Minería de datos; técnicas supervisadas; algoritmos; conocimiento; técnicas de muestreo; reglas

ABSTRACT

The application of data mining techniques using supervised techniques provide knowledge to arrange the choices that make the academic managers. This paper discusses the results of the KEEL software algorithms, that are used 14 extracted, including rules that predict high school applicants in the success or failure of the levelling course.

Keywords: Data mining; supervised techniques; algorithms; knowledge; sampling techniques; rules

Introducción

La minería de datos educativos EDM (siglas en inglés) (Holte, 1993) se concentra en métodos computacionales para el uso de los datos con el fin de abordar importantes cuestiones educativas, uno de los objetivos de la EDM consiste en la mejora de los sistemas de educación personalizada. La minería de datos educativos puede mejorar la eficacia, la personalización y/o la adaptabilidad de estos entornos de aprendizaje. A su vez, los datos de alumnos procedentes de sistemas personalizados son semánticamente más relevantes, que los datos de la web tradicional basada en sistemas educativos, lo que puede llevarnos a un análisis más profundo. En la actualidad se pueden destacar varios trabajos realizados en el ámbito de la minería de datos educativos. Sin embargo, nos enfocaremos a los más recientes de esta nueva área utilizando técnicas de aprendizaje automático supervisadas.

En Ecuador actualmente el ingreso a las universidades se lo está efectuando a través de un examen de selectividad que lo establece la Secretaria Nacional de Ciencia y Tecnología (SENESCYT) y es coordinado por el Sistema Nacional de Nivelación y Admisión (SNNA), entes que programan calendarios académicos, centros de recepción de exámenes, etc. Para tal efecto los exámenes son elaborados por la empresa Educational Testing Service (Quinlan, 2006) entidad de reconocimiento mundial por más de 60 años en la elaboración de todo tipo de evaluaciones.

La preparación académica de los estudiantes del bachillerato para optar por un cupo a la enseñanza de tercer nivel hasta ahora son exigentes debido a las disposiciones del Gobierno de turno cuyo objetivo es el garantizar la igualdad de oportunidades, la meritocracia, transparencia y acceso a la Educación Superior (Vilardi, 2011) los datos que se toman para esta investigación provienen de los resultados de los exámenes aplicados a los aspirantes de las carreras que oferta la universidad.

La naturaleza de los datos se fundamenta en el entorno de estudio que ha mantenido el bachiller desde la secundaria hasta optar por una carrera universitaria, en este sentido las cualidades académicas y demás información es limitada.

La carencia de conocimiento relevante para encaminar las buenas prácticas académicas en los estudiantes del bachillerato dificulta el acceso a las carreras que oferta la Universidad.

Uno de los problemas que afrontan los bachilleres es la indecisión respecto a las carreras que debe seguir en su vida universitaria, sin embargo, la mayoría optan por carreras que son guiadas por grupos de estudios que forman ellos mismos en su etapa colegial, ofertas de amigos, marketing de las carreras promocionando una buena profesión, etc. Llama la atención que teniendo información de los estudiantes no se han realizado estudios para el apoyo de la Gestión Académica a efectos de brindar la ayuda necesaria y oportuna a los bachilleres aspirantes para que tengan mayor superación en sus estudios con el fin de acceder a las carreras universitarias.

Materiales y métodos

El Sistema Administrador de Base de Datos (DBMS-siglas en inglés) que dispone la Universidad donde se alojan los datos es la plataforma Microsoft SQL Server 2008, en consecuencia se los extrae a través de un procedimiento almacenado con las características de datos descritos en la sección de anexos A1 se detallan los atributos.

Proceso de descubrimiento del conocimiento

La metodología CRISP-DM (Cross Industry Standard Process for Data Mining) (Figura 1) estructura el ciclo de vida de un proyecto en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo de la investigación (Chellatamilan, Ravichandran, Suresh & Kulanthaivel, 2011).

Fig. 1 Fases del KDD según el modelo iterativo CRISP-DM. 

Descripción de los datos

La información que servirá para el objeto de estudio de este trabajo corresponde a los bachilleres que se inscribieron en el periodo 2011.

En la actualidad existen diferentes programas que se utilizan para la minería de datos WEKA es un programa con una colección de algoritmos de aprendizaje automático para la extracción de conocimiento, es un software de código abierto publicado bajo la licencia GNU (General Public License)

También se puede citar a otro sistema que hace tareas similares a WEKA pero que es mucho más potente y dispone de varios algoritmos que el programa anteriormente mencionado no posee.

KEEL es una herramienta de software para evaluar los algoritmos evolutivos para problemas de minería de datos incluidos de regresión, la clasificación de la agrupación, la explotación sistemática y así sucesivamente. Contiene una gran colección de algoritmos de extracción clásica del conocimiento, las técnicas de pre-procesamiento, Inteligencia Computacional algoritmos de aprendizaje, incluyendo la evolución, incluyendo algoritmos de regla de aprendizaje basadas en enfoques diferentes (Pittsburgh, Michigan e IRL), e híbridos como los modelos de sistemas difusos genéticos, la evolución de redes neuronales, etc. Nos permite realizar un análisis completo de cualquier modelo de aprendizaje en comparación con los existentes, incluyendo un módulo de prueba estadística para la comparación (Kotsiantis, 2007). Sin embargo, otros programas tratan la extracción de conocimientos con la aplicación de algoritmos similares (tabla 1) a los anteriormente descritos pero estos no son distribuciones libres, se cita a los otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. Conference’10, Month 1-2, 2010, City, State, Country. Copyright 2010 ACM 1-58113-000-0/00/0010 15.00.

http://www.cs.waikato.ac.nz/ml/weka/

http://www.keel.es/siguientes: SPSS, Clementine, Oracle Data Mining, Knowledge STUDIO, RapidMiner.

Técnicas clasificación supervisadas

Tabla 1 Algoritmos para el experimento. 

Ítem Algoritmo Enfoque Referencia
1 OneR Crisp Rule Learning. [8]
2 C45Rules Crisp Rule Learning. [9]
3 PART Crisp Rule Learning. [10]
4 Ripper Crisp Rule Learning. [11]
5 Slipper Crisp Rule Learning. [12]
6 CN2 Crisp Rule Learning. [13]
7 CART Decision Trees [14]
8 ID3 Decision Trees [15]
9 DT_GA Decision Trees [16]
10 TARGET Decision Trees [17]
11 REPSO Evolutionary crisp rule learning [18]
12 SIA Evolutionary crisp rule learning [19]
13 DMEL Evolutionary crisp rule learning [20]
14 COGIN Evolutionary crisp rule learning [21]

La aplicación de las técnicas de minería de datos en la investigación está relacionada al aprendizaje supervisado utilizando para esto 14 algoritmos de clasificación de tres grupos diferentes “Crisp Rule Learning”, ”Decision Trees” y “Evolutionary crisp rule learning”. (Zang, 2005)

El conjunto de datos que se adquiere para la ejecución de los algoritmos cuenta con 1126 instancias y 15 atributos entre numéricos y categóricos incluida la clase, dada la realidad de los datos con los que se trabajará la clase cuenta ejemplos distintos, es decir tenemos un problema con ejemplos no balanceados (Imbalanced), para recopilar resultados lo suficientemente confiables nos valemos de la técnica de sobre-muestreo (oversampling) y sub-muestreo (undersampling).

Según Yu-Chung, el problema de la clasificación cuando una clase tiene una probabilidad mucho más baja en el conjunto de entrenamiento se llama el problema conjunto de datos desequilibrado. Un método popular para resolver el problema del conjunto de datos desequilibrado es volver a muestrear el conjunto de entrenamiento. Sin embargo, pocos estudios en el pasado han considerado el remuestreo (resampling) de algoritmos en los conjuntos de datos con alta dimensionalidad (Witten & Eibe, 2000).

En este último, se comparan los resultados de nuestros ensayos y descubrir que, mientras que la mejor técnica a utilizar es a menudo dependiente conjunto de datos, no todas tienden a desempeñarse consistentemente cuando se combina con ciertos algoritmos.

Conjunto de datos para el entrenamiento de algoritmos

Los datos que son extraídos a través del script cuentan con 15 atributos y 1126 instancias, la clase posee 1053 elementos que son seleccionados como APROBADO y 73 que REPRUEBAN (Suspenden o pierden el curso). Previo al entrenamiento y testeo de los algoritmos se realizó una selección de atributos para optar por los más relevantes con el fin de obtener un mejor conjunto de reglas que muestren nitidez y sean legibles, para tal efecto, la ejecución de los algoritmos con lo anteriormente descrito logrará que tengan un mejor desempeño al entrenar y probar el modelo de reglas adquirido y al mismo tiempo que logrará una mayor precisión de sus resultados.

En la Figura 2 se muestra el conjunto de datos en su forma original (Desbalanceado) por lo que presentado este escenario se aplican las técnicas de balanceo “OverSamplig” y “UnderSampling“ (Tabla 2 y 3), la aplicación de esta técnica de balanceo (Figura 3) es para evitar que los algoritmos generen las reglas de forma sesgada.

Fig. 2 Total de bachilleres que aprueban y reprueban. 

Fig. 3 Conjunto de datos balanceados. 

Tabla 2  - Resultados del Sub-muestreo (Undersampling). 

ítem Algoritmo #Reg % Ac. Trn % Ac. Tst
1 OneR 9 65.24 ± 0.0082 60.28 ± 0.0851
2 C45Rules 9 60.88 ± 0.0341 59.71 ± 0.0830
3 PART 4 58.90 ± 0.0371 53.47 ± 0.0525
4 Ripper 24 71.16 ± 0.0405 56.09 ± 0.1414
5 Slipper 37 76.94 ± 0.0216 52.14 ± 0.0871
6 CN2 25 79.21 ± 0.0431 52.61 ± 0.0928
7 CART 90 72.44 ± 0.0242 61.66 ± 0.0939
8 ID3 50 100.00 ± 0.00 73.90 ± 0.1160
9 DT_GA 18 66.74 ± 0.0242 63.85 ± 0.1061
10 TARGET 2 61.94 ± 0.0079 60.33 ± 0.0689
11 REPSO 3 56.61 ± 0.0257 48.71 ± 0.0617
12 SIA 60 77.55 ± 0.0229 50.09 ± 0.0972
13 DMEL 27 71.45 ± 0.0382 62.95 ± 0.1392
14 COGIN 48 76.70 ± 0.0339 52.09 ± 0.1594

Tabla 3  Resultados del Sobre-muestreo (Oversampling). 

ítem Algoritmo #Reg % Ac. Trn % Ac. Tst
1 OneR 5 58.34 ± 0.0036 57.12 ± 0.0253
2 C45Rules 115 62.60 ± 0.0113 62.06 ± 0.0373
3 PART 4 56.50 ± 0.027 55.93 ± 0.0226
4 Ripper 80 75.77 ± 0.0614 72.64 ± 0.0781
5 Slipper 75 84.18 ± 0.0094 81.72 ± 0.0313
6 CN2 33 65.28 ± 0.0097 63.86 ± 0.0299
7 CART 90 58.31 ± 0.0000 58.76 ± 0.0000
8 ID3 165 100 ± 0.00 98.66 ± 0.0096
9 DT_GA 375 85.88 ± 0.0052 83.19 ± 0.0195
10 TARGET 8 61.94 ± 0.0079 60.33 ± 0.0689
11 REPSO 3 50.78 ± 0.0092 49.90 ± 0.0088
12 SIA 149 53.77 ± 0.0120 52.04 ± 0.0117
13 DMEL 46 56.13 ± 0.0070 55.65 ± 0.0175
14 COGIN 3 50.78 ± 0.0092 49.90 ± 0.0088

Aplicó la prueba de Friedman11 para determinar si existe solapamiento entre ellos. (Tabla 4)

Tabla 4 Estadísticos de contraste. 

Estadísticos valor
N 28
Chi-cuadrado 70.500
Gl 3
Sig. asintót. 0.000
a. Prueba de Friedman

Habiéndose determinado en el método estadístico antes mencionado que no existían diferencias significativas entre los algoritmos que se propusieron ya que su valor es 0.000. A continuación, se utiliza la prueba de Tstudent (Cohen, 1999) para que determine estadísticamente cuál de las técnicas de muestreo utilizada en el conjunto de datos tiene mejores resultados. En la tabla que a continuación se muestra se detalla el informe del paquete estadístico.

Tabla 5 Estadísticos de grupos entre las técnicas de muestreo. 

Técnica Muestreo N Media a Desv. Std. Error típ. de la media
reglas Under Sampling 14 29.00 25.637 6,852
Over Sumpling 14 82.21 100.805 26.941
Desv. Std Under Sampling 14 0.098 0.031 0.008
Over Sumpling 14 0.026 0.022 0.006
precisión Under Sampling 14 57.70 6.842 1.828
Over Sumpling 14 64.41 14.473 3.868

Al hacer énfasis a la Tabla 5 como resultado de la prueba Tstudent notamos que entre las dos técnicas de muestro y los índices que tomados en consideración para el análisis nos revela que la técnica de “Undersampling” tiene resultados inferiores frente a los obtenidos por la otra técnica, para tal efecto el entrenamiento de los algoritmos de clasificación elegidos en este trabajo demuestra tener mejores incidencias aplicando la técnica de muestreo “Oversampling”. Por otra parte, es importante destacar que la generación del número de reglas de clasificación o modelo, está relacionado con el tamaño del conjunto de datos utilizado.

Para el análisis de resultados se cuenta con la ayuda del software SPSS.10 La información de las dos tablas anteriores Tabla 2yTabla 3, muestran la precisión y desviación estándar tanto del

grupo de entrenamiento (% Ac.Trn ) y las de prueba (% Ac. Tst). al resultado de los algoritmos propuestos en este trabajo.

Conclusiones

Los resultados obtenidos en el entrenamiento de los algoritmos pueden tener un mejor ajuste y alcanzar resultados más apropiados utilizando atributos con mayor relevancia, debido a que la Universidad no cuenta con información suficiente de los bachilleres postulantes en cuanto a su desarrollo académico, entorno social, situación económica y otra información que contribuyan para obtener un mejor modelo. Sin embargo, uno de los componentes más importantes es la extracción del conocimiento que servirá para la gestión universitaria para concertar sus decisiones. En síntesis, las técnicas aplicadas y algoritmos que se han entrenado para este caso en particular del que se obtiene conocimiento (reglas) con el propósito de ayudar a la Universidad en la aplicación de estrategias focalizadas a grupos de intereses. A futuro y con el objeto de mejorar los resultados se recolectará información concreta para usar técnicas de análisis inteligente personalizadas.

Referencias bibliográficas

Chellatamilan, T., Ravichandran, M., Suresh, R. M., & Kulanthaivel, G. (2011). Effect of Mining educational data to improve Adaptatino of learning in e-learning. Second International Conference on Sustentainable Energy and Intelligent System, India. [ Links ]

Cohen, W. W. (1999). A Simple, Fast, and Effective Rule Learner. Sixteenth National Conference on Artificial Intelligence. Orlando. [ Links ]

Holte, R. C. (1993). Very simple classification rules perform well on most commonly used datasets. Machine Learning Journal, 11, 63-91. Recuperado de https://www.mlpack.org/papers/ds.pdf Links ]

Kotsiantis, S. B. (2007). Supervised Machine Learning: A review of classification Techniques. Emerging Artificial Intelligence Applications in computer Engineering, 31(3), 249-268. Ecuperado de https://datajobs.com/data-science-repo/Supervised-Learning-[SB-Kotsiantis].pdfLinks ]

Quinlan, J. R. (2006). MDL and categorical Theories (Continued). Recuperado de https://pdfs.semanticscholar.org/cb94/e3d981a5e1901793c6bfedd93ce9cc07885d.pdfLinks ]

Vilardi, C., et al. (2011). A data mining approach to guide students through the enrollment process based on academic performance. Berlin: Springer. [ Links ]

Witten, I. H., & Eibe, F. (2000). Data Mining: Practical Machine Learning tolls and techniques with java implementations. San Francisco: Morgan Kaufmann. [ Links ]

Zang, H., Jiang, L., & Su, J. (2005). Haidden naive Bayes. American Association for artificial Inteligent - AAAI, 919-924. Recuperado de https://www.aaai.org/Papers/AAAI/2005/AAAI05-145.pdfLinks ]

Recibido: 05 de Octubre de 2018; Aprobado: 21 de Diciembre de 2018

*Autor para correspondencia. E-mail: jorgeguanin@uteq.edu.ec

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons