Revista Cubana de Ciencias Informáticas

Data mining to aquifer vulnerability assessment

RESUMEN Los mapas de vulnerabilidad a la contaminación de los acuíferos forman parte de un sistema de alerta temprana para prevenir el deterioro de la calidad de las aguas subterráneas. Los métodos de superposición de índices ponderados son comúnmente empleados para realizar la cartografía de la vulnerabilidad de los acuíferos, pero presentan un conjunto de desventajas que indican la necesidad de aplicar métodos alternativos que introduzcan el menor número de consideraciones a priori en el procesamiento de los parámetros a utilizar y permitan una interpretación más precisa de los resultados finales. El objetivo de esta investigación fue evaluar la vulnerabilidad a la contaminación de las aguas subterráneas de la cuenca kárstica Almendares-Vento en la provincia La Habana, Cuba, al emplear la técnica de minería de datos análisis de agrupamiento, y comparar los resultados con los obtenidos al aplicar el método RISK, que es un método de superposición de índices ponderados para el estudio de acuíferos kársticos. Las variables seleccionadas para aplicar esta técnica de clasificación no supervisada fueron: litología del acuífero, pendiente topográfica del terreno, índice de atenuación del suelo a los contaminantes, densidad de fallas por km2 y presencia de zonas de infiltración directa. El análisis de agrupamiento logró una mejor discriminación espacial y definición de zonas con diferentes grados de vulnerabilidad, demostrando su mayor poder resolutivo.

ABSTRACT The maps of vulnerability to contamination of the aquifers are part of an early warning system to avoid the deterioration groundwater quality. Weighted index overlay methods are commonly used to map aquifer vulnerability. These methods have disadvantages that indicate the need to apply alternative methods that introduce the least number of a priori considerations in the parameters processing and allow a more precise interpretation of the final results. The objective of this research was to evaluate the vulnerability to contamination of groundwater in the Almendares-Vento karstic basin, Havana, Cuba, by using the data mining technique, and to compare the results obtained by applying the RISK methods, which is a weighted index overlay method to study karstic aquifers. The variables selected to apply this unsupervised classification technique was: aquifer lithology, topographic slope of the terrain, soil attenuation index to pollutants, fault density per km2 and presence of direct infiltration zones. The cluster analysis achieved greater spatial discrimination and definition of areas with different degrees of vulnerability, demonstrating its high resolution power.

Comparison and selection of artificial intelligence techniques for forecasting bovine milk productions

RESUMEN Los pronósticos constituyen una herramienta efectiva para la toma de decisiones, principalmente en el sector de la industria láctea porque contribuyen a mejorar la gestión del rebaño lechero, ahorrar energía en las granjas y optimizar las inversiones de capital a largo plazo. La aplicación de técnicas de inteligencia artificial para pronosticar las producciones de leche es un tema de interés para la comunidad científica. Sin embargo, definir una técnica o modelo para pronosticar estas producciones con un rendimiento eficiente en diferentes ambientes es una actividad desafiante y compleja, porque ninguno es preciso en todos los escenarios. En esta investigación se compararon las técnicas de inteligencia artificial utilizadas en la literatura para pronosticar las producciones de leche bovina y se seleccionó mediante la aplicación del Proceso de Análisis Jerárquico la técnica con mejor ajuste a estos pronósticos. Se utilizaron como métodos científicos el analítico sintético, la encuesta y el método experimental. Los resultados obtenidos permitieron identificar a las técnicas de inteligencia artificial basadas en Redes Neuronales Artificiales como las de mejor ajuste al pronóstico de las producciones de leche bovina, superior a los Árboles de Decisión y a las Máquinas de Soporte Vectorial. Se determinó que los criterios de selección más relevantes en el ámbito de las producciones lecheras son la capacidad de estas técnicas para manejar datos que presentan incertidumbre y su habilidad para obtener resultados precisos de manera óptima. El análisis realizado apoya la toma de decisiones en organizaciones productoras de leche.

ABSTRACT Forecasting is an effective decision-making tool, especially in the dairy industry, because it helps to improve dairy herd management, save farm energy and optimize long-term capital investments. The application of artificial intelligence techniques to forecasting milk productions is a topic of interest for the scientific community. However, defining a technique or model to forecast these productions with an absolute performance at a global level is a challenging and complex activity, because none is accurate in all scenarios. In this research, artificial intelligence techniques used in the literature to forecast bovine milk productions were compared and the technique with the best adjustment to these forecasts was selected through the application of the Analytic Hierarchy Process. The synthetic analysis, the survey and experimental method were used as scientific methods. The results obtained allowed identifying artificial intelligence techniques based on Artificial Neural Networks as the best fit for forecasting bovine milk production, superior to Decision Trees and Support Vector Machines. It was determined that the most relevant selection criteria in the dairy production sector are the capacity of these techniques to handle data that present uncertainty and their ability to obtain precise results in an optimal way. The analysis carried out supports decision making in milk producing organizations.

Multiobjective approach for the fuzzy variable cost and size bin packing problem

RESUMEN En la investigación se aborda una variante difusa del Problema de Empaquetamiento con Costo y Tamaño Variables donde se permite una sobrecarga de los contenedores. El nivel de sobrecarga está definido por valores de alfa-corte o pertenencia de los cuales se generan instancias que conforman el problema difuso. El muestreo empírico de los alfa-corte tiene el problema de que cada instancia con un grado de pertenencia determinado, debe resolverse y además se pueden perder soluciones interesantes en cuanto a compromiso costo-capacidad. En el presente trabajo se introduce una propuesta donde se trata el problema de la obtención de la solución difusa como un problema multiobjetivo donde se busca minimizar el costo mientras se maximiza el valor de pertenencia de la solución. Para esto se utilizaron las metaheurísticas multiobjetivo Búsqueda Local, Recocido Simulado Ulungu, Algoritmo Genético y su variante NSGA-II. Fueron implementados varios operadores basados en la heurística First Fit Decreasing. Los resultados experimentales mostraron que el NSGA-II resulta ser el más eficaz a la misma vez que el más lento, pero sin llegar a ser inviable su utilización en instancias grandes. También se comprobó en un grupo de instancias difusas, de las cuales se conoce la solución exacta para 11 valores de pertenencia, que este método permite obtener soluciones que mejoran valores de pertenencia con el mismo costo.

ABSTRACT The research addresses a fuzzy variant of the Variable Cost and Size Bin Packing Problem where an overload of the bins is allowed. The level of overload is defined by alpha-cuts or membership values which generates crisp instances that conform the fuzzy problem. The empirical sampling of the alpha-cuts has the problem that every single crisp instance must be solved as well as it can be missed interesting solutions that improve the trade-off between cost and capacity. In the present work a proposal is introduced where the problem of obtaining the fuzzy solution is treated as a multiobjective problem aiming to minimize the cost while maximizing the membership value of the solution. For this, the multiobjective metaheuristics Local Search, Ulungu Simulated Annealing, Genetic Algorithm and its variant NSGA-II were used. Several operators based on the First Fit Decreasing heuristic were implemented. The experimental results showed that the NSGA-II turns out to be the most efficient and at the same time the slowest, but without becoming unfeasible its use in large instances. It was also verified in a group of fuzzy instances, of which the exact solution is known for 11 membership values, that this method allows obtaining solutions that improve membership values with the same cost.

Goodness of fit test for distance distribution in categorical data sequences

RESUMEN El análisis de aleatoriedad en secuencias de datos categóricos es relevante para el estudio de procesos de Markov, fiabilidad de sistemas, big data, generación de números pseudoaletorios y encriptación de datos. Existen diferentes enfoques para el análisis de aleatoriedad implementados en paquetes como la batería de pruebas “Diehard”, el Test U01 y NIST Statistical Test Suite. El presente estudio analiza el comportamiento de secuencias categóricas interpretadas como series cronológicas de tiempo discreto demostrándose que la distribución esperada de las distancias entre eventos de cada categoría corresponde a la distribución geométrica. La distribución de distancias observadas fue comparada con la teórica mediante prueba de bondad de ajuste basada en el estadístico chi-cuadrado. El algoritmo de la prueba fue implementado como módulo javascript para paquetes estadísticos en plataforma web comprobando su sensibilidad a diversas causas de comportamiento no aleatorio: el carácter periódico de los eventos, agrupamiento en bloques, autocorrelación y los procesos de Markov. La convergencia y robustez de la prueba fueron estudiadas mediante simulación en ordenador detectándose pequeñas desviaciones en la proporción de casos significativos esperados que indican la existencia de sesgos inherentes al criterio de agrupamiento utilizado en la prueba chi-cuadrado.

ABSTRACT Randomness analysis in categorical sequences is relevant for the study of Markov processes, system realibity, big data, data encryption and evaluation of pseudo-random number generators. Various approaches exist in order to appraise the randomness phenomena, they lead to a variety of tests such as the “Diehard” test battery, the test U01 and the NIST Statistical Test Suite. The behavior of categorical sequences was studied and understood as a discrete time chronological series. It was proved that the geometric distribution is the expected distribution (theoretical distribution) for distances between successes random sequences. The observed distance distribution was compared to the theoretical distribution by goodness of fit test based on chi-square statistic. The test algorithm was implemented as javascript module for web statistical packages checking its sensibility to various no random behavior including the periodical character of successes, blocking, autocorrelation and Markov processes existence. Test convergence and robustness were studied by means of simulation in computer, discovering little deviations in proportion of the significant cases that indicate the existence of inherent biased in chi-square test.

Remote laboratory system for automatic engineering career control practices

RESUMEN La formación de especialistas en automática en cuba se realiza mediante la carrera de Ingeniería en Automática que tiene dentro de sus disciplinas fundamentales, la disciplina Sistemas de Control. Para el desarrollo de prácticas de laboratorios, los estudiantes trabajan en dispositivos físicos o remotos, en modalidades presenciales o a distancia, en esta última mediante Sistemas de Laboratorios Remoto. La presente investigación propone un Sistema de Laboratorios Remoto para la práctica de control de la carrera de Ingeniería en Automática. Se diseña una maqueta de un proceso térmico a escala para las experimentaciones. Como principal resultado se obtuvieron la disponibilidad de prácticas para la identificación de sistema, diseño de controladores y ejecución de controladores en procesos reales. Además, la solución implementada permite que los estudios puedan estudiar el comportamiento de la variable temperatura, respuesta del controlador en el proceso diseñado, lo tiempos de establecimiento entre otras variables.

ABSTRACT The training of automatic specialists in Cuba is carried out through the Automation Engineering career that has within its fundamental disciplines, the Control Systems discipline. For the development of laboratory practices, students work on physical or remote devices, in face to face or remote modalities, in the latter through Remote Laboratory Systems. This research proposes a Remote Laboratory System for the control practice of the Automation Engineering career. A scale model of a thermal process is designed for experimentation. The main result was the availability of practices for the identification of the system, design of controllers and execution of controllers in real processes. In addition, the implemented solution allows the studies to study the behavior of the temperature variable, the response of the controller in the designed process, the establishment times, among other variables.

Algorithms for the processing of images with arts of hardening in computerized tomography

RESUMEN El desarrollo de aplicaciones que responden a los análisis de imágenes por medio de computo en el sector de la salud es de vital importancia en la actualidad, solo que cada vez son desarrolladas por disímiles personas para objetivos diferente. El presente trabajo tiene como propósito describir y comparar varios algoritmos para el procesamiento de imágenes aplicables al proceso de mejora de la calidad de imágenes con artefactos de endurecimiento de haz en tomografías computarizadas. Para ello, se estudiaron los algoritmos de procesamiento de imágenes, el método directo de Fourier, el algoritmo de retroproyección filtrada y su definición formal. Se tuvo en cuenta que el proceso de tratamiento de las imágenes transita por varios aspectos, como es la adquisición, el preprocesamiento, la segmentación y la reconstrucción. Para el pre-procesamiento se aplican diferentes filtros para la mejora de imágenes y sus contornos mal definidos, así como los algoritmos de segmentación que permiten dividir la imagen en regiones separadas agrupando todos los pixeles con las mismas características y en la reconstrucción atendiendo a la base matemática que utilizan a la hora de hacer la inversión desde las proyecciones hasta el conjunto de datos original los métodos analíticos e iterativos. Todo esto permitió una optimización del tiempo en la selección de los mismos para el desarrollo de aplicaciones, además mostró una solución completa para el tratamiento de las imágenes con esa especificación. Se comparó y se observó el rendimiento de cada uno de los algoritmos con el uso de la herramienta informática Matlab.

ABSTRACT The development of applications that respond to image analysis by means of computers in the health sector is of vital importance today, only that each time they are developed by dissimilar people for different purposes. The purpose of this work is to describe and compare various algorithms for image processing applicable to the process of improving the quality of images with hardening artifacts from computed tomography scans. To do this, the image processing algorithms, the direct Fourier method, the filtered rear projection algorithm and their formal definition were studied. It was taken into account that the image treatment process goes through several aspects, such as acquisition, preprocessing, segmentation and reconstruction. For the pre-processing, different filters are applied to improve images and their poorly defined contours, as well as segmentation algorithms that allow dividing the image into separate regions grouping all the pixels with the same characteristics and in the reconstruction attending to the base mathematics that analytical and iterative methods use when making the investment from the projections to the original data set. All this allowed an optimization of the time in the selection of the same for the development of applications, in addition it showed a complete solution for the treatment of the images with that specification. The performance of each of the algorithms was compared and observed using the Matlab computer tool.

Design pattern recommendation module for the EGPat

RESUMEN El avance de las nuevas tecnologías de la información en el contexto educativo es cada vez mayor. Con ello aumenta el uso de materiales digitales en el proceso docente para potenciar el aprendizaje. Dentro de este grupo de materiales sobresalen los recursos educativos. Estos son medios de apoyo flexibles utilizados constantemente por los educadores para complementar los contenidos impartidos. En el diseño de un recurso educativo es común que se cometan errores que pueden dar paso a la existencia de problemas de diseño. Para prevenir o tratar estos problemas existen los patrones de diseño de recursos educativos. Los patrones a pesar de su utilidad, muchas veces no son utilizados porque se desconoce de su existencia o acceder a ellos se torna complejo. El Grupo de Tecnologías de Apoyo a la Educación de la Universidad de las Ciencias Informáticas desarrolla un Entorno para la Gestión de Patrones de Diseño que busca facilitar el acceso a los patrones, así como su diseño, revisión y producción. Con el entorno se busca además recomendar los patrones más adecuados para solucionar problemas específicos. El presente trabajo describe el módulo desarrollado para realizar recomendaciones en dicho entorno capaz de nutrirse de otros módulos, así como de fuentes disponibles en internet, combinando para ello diferentes técnicas de recuperación de información y minería de texto. Para validar los resultados de la investigación fueron aplicadas pruebas de validación offline para sistemas recomendadores, así como la técnica de Iadov para medir la satisfacción de usuarios final.

ABSTRACT The advancement of new information technologies in education is increasing. This increases the use of digital materials in the teaching process to enhance learning. Within this group of materials, educational resources stand out. These are flexible means of support constantly used by educators to complement the content taught. In the design of an educational resource it is common that errors are made that can lead to the existence of design problems. To prevent or treat these problems there are educational resource design patterns. Patterns, despite their usefulness, are often not used because their existence is unknown or accessing them becomes complex. The Educational Support Technologies Group of the University of Computer Sciences develops an Environment for the Management of Design Patterns that seeks to facilitate access to patterns, as well as their design, revision and production. The environment also seeks to recommend the most appropriate patterns to solve specific problems. This present describes the module developed to make work recommendations in said environment capable of drawing on other modules, as well as sources available on the internet, combining different information retrieval and text mining techniques. To validate the research results, offline validation tests were applied for recommender systems, as well as the Iadov technique to measure end-user satisfaction.

Adaptive learning based on Virtual Reality Simulators

RESUMEN Entre los sistemas de entrenamiento basados en Realidad Virtual de reciente cobertura en la literatura científica se encuentran los que incorporan aprendizaje adaptativo. El objetivo de este artículo es ofrecer una panorámica sobre propuestas relevantes en términos de aprendizaje adaptativo en sistemas de Realidad Virtual. Se abordan los principales aspectos de adaptación y los componentes más comunes en los enfoques y estrategias de aprendizaje adaptativo basados en Realidad Virtual.

ABSTRACT Among the Virtual Reality-based training systems recently covered in the scientific literature are those that incorporate adaptive learning. This paper aims to offer an overview of relevant proposals in terms of adaptive learning in Virtual Reality systems. Are approached the main aspects of adaptation and the common components in the approaches and strategies of adaptive learning based on Virtual Reality of work selection are summarized.

Didactics procedures to apply sets of outcomes in the development of the skill to solve combinatorial problems

RESUMEN La teoría combinatoria es esencial para la informática. En aras de atenuar las dificultades que presentan los estudiantes cuando resuelven problemas de conteo, en la matemática discreta de las ciencias informáticas, se presenta un grupo de procedimientos didácticos dirigidos a adiestrar a los aprendices en la identificación de los modelos de ejercicios combinatorios, y la formulación de los conjuntos de resultados en forma de conjuntos y tuplas, cuyo cardinal es la respuesta de los problemas combinatorios. El tratamiento del contenido se complementa con la aplicación de métodos para fomentar el protagonismo estudiantil, el empleo de las tecnologías de la información y las comunicaciones en manos de los estudiantes, como instrumento para reflejar los resultados del trabajo independiente, y la aplicación de una evaluación formativa. Se presenta el reporte de una experiencia de aplicación de la propuesta didáctica en la carrera Ingeniería en Ciencias Informáticas.

ABSTRACT Combinatory theory is essential to computer science. In order to alleviate the difficulties that students present when they solve combinatorial problems, in the discrete mathematical of computer science, a group of didactic procedures is presented aimed at training learners in the identification of combinatorial exercise models and the formulation of sets of results in the form of sets and tuples, whose cardinal is the answer of the combinatorial problems. The treatment of the content is complemented with the application of methods to promote the student leadership, with the encouragement of the use of information and communication technologies in the hands of students how instrument to reflect the results of independent work, and the application of an evaluation formative. The report of an experience of application of the didactic proposal in the career of Engineering in Computer Sciences is presented.

Artificial Neural Networks in effort estimation

RESUMEN La planificación es una parte crítica del trabajo en la gestión de proyectos, que requiere estimaciones del esfuerzo para un proyecto determinado. Dada la importancia que reviste el cumplimiento de los plazos de entrega manteniendo niveles de calidad, la necesidad de monitorear y controlar la evolución de los proyectos y la incertidumbre que genera la estimación, ha surgido la necesidad de crear métodos para resolver estas cuestiones, lo cual ha despertado el interés de las empresas dedicadas a la producción de software. Los investigadores han desarrollado algoritmos de aprendizaje automático, que permiten una predicción más certera del esfuerzo para ajustar la planificación. Recientemente se han definido técnicas en la industria del software, en las que se conjugan la inteligencia artificial y los modelos algorítmicos para la estimación del esfuerzo. Este artículo expone el estado del arte en el empleo de las redes neuronales artificiales con este fin. Se realizó una recopilación de artículos científicos donde se relacionan las redes neuronales con algoritmos híbridos basados en el comportamiento de animales e insectos para el aprendizaje de la red, lo que demuestra la tendencia de su utilización para optimizar la estimación del esfuerzo durante la planificación temprana en proyectos de desarrollo de software.

ABSTRACT Planning is a critical part of project management work, that requires estimates of effort for a given project. Given the importance of meeting delivery deadlines while maintaining quality levels, the imperative to monitor and control the evolution of projects and the uncertainty generated by estimation, the need to create methods to solve these issues has arisen, which has aroused the interest of companies dedicated to software production. Researchers have developed machine learning algorithms, which allow a more accurate prediction of the effort to adjust the planning. Recently, techniques have been defined in the software industry, where artificial intelligence and algorithmic models are combined for effort estimation. This article presents the state of the art in the use of artificial neural networks for this purpose. A compilation of academic papers where neural networks are combined with hybrid algorithms based on the behavior of animals and insects for network learning was carried out, demonstrating the trend of its utilization to optimize effort estimation during early planning in software development projects.