SciELO - Scientific Electronic Library Online

 
vol.10 número3MPREDSTOCK: Modelo multivariado de predicción del stock de piezas de repuesto para equipos médicosEvaluación del algoritmo KNN-SP para problemas de predicción con salidas compuestas índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

  • Não possue artigos citadosCitado por SciELO

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Revista Cubana de Ciencias Informáticas

versão On-line ISSN 2227-1899

Resumo

NUNEZ-ARCIA, Yaisel; DIAZ-DE-LA-PAZ, Lisandra  e  GARCIA-MENDOZA, Juan Luis. Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Rev cuba cienc informat [online]. 2016, vol.10, n.3, pp.105-118. ISSN 2227-1899.

RESUMEN Los problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.

Palavras-chave : calidad de datos; limpieza de datos; big data; algoritmo K-means; MapReduce.

        · resumo em Inglês     · texto em Espanhol     · Espanhol ( pdf )

 

Creative Commons License Todo o conteúdo deste periódico, exceto onde está identificado, está licenciado sob uma Licença Creative Commons