Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

Nuñez-Arcia, Yaisel; Díaz-de-la-Paz, Lisandra; García-Mendoza, Juan Luis

Mi SciELO

Servicios personalizados

Servicios Personalizados

Articulo

Enviar articulo por email

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Permalink

Revista Cubana de Ciencias Informáticas

versión On-line ISSN 2227-1899

Resumen

NUNEZ-ARCIA, Yaisel; DIAZ-DE-LA-PAZ, Lisandra y GARCIA-MENDOZA, Juan Luis. Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Rev cuba cienc informat [online]. 2016, vol.10, n.3, pp. 105-118. ISSN 2227-1899.

RESUMEN Los problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.

Palabras clave : calidad de datos; limpieza de datos; big data; algoritmo K-means; MapReduce.

· resumen en Inglés · texto en Español · Español (

pdf )