Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

Nuñez-Arcia, Yaisel; Díaz-de-la-Paz, Lisandra; García-Mendoza, Juan Luis

Meu SciELO

Serviços customizados

Serviços Personalizados

Artigo

Enviar este artigo por email

Indicadores

Citado por SciELO

Links relacionados

Similares em SciELO

Permalink

Revista Cubana de Ciencias Informáticas

versão On-line ISSN 2227-1899

Resumo

NUNEZ-ARCIA, Yaisel; DIAZ-DE-LA-PAZ, Lisandra e GARCIA-MENDOZA, Juan Luis. Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Rev cuba cienc informat [online]. 2016, vol.10, n.3, pp. 105-118. ISSN 2227-1899.

RESUMEN Los problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.

Palavras-chave : calidad de datos; limpieza de datos; big data; algoritmo K-means; MapReduce.

· resumo em Inglês · texto em Espanhol · Espanhol (

pdf )