Introducción
Desde el momento en que los humanos han requerido almacenar datos que lleven a la información oportuna y fiable, también se ha buscado la manera más eficiente de manipular dichos datos. Con el tiempo la creciente cantidad de información que se intenta manejar supera por mucho la infraestructura existente, por lo que surge la necesidad de buscar soluciones que permitan almacenar cada vez más información incluso de la que se podría imaginar (Manjarrez, y otros, 2019),
La información es un conjunto de datos que contiene un significado, y que una vez organizados aportan un conocimiento y la posibilidad de establecer una idea, objetivo o acción en torno a algo. La información se emplea para reducir la incertidumbre o acrecentar el contenido que se tiene en una determinada área, considerada por muchos como una herramienta para alcanzar el conocimiento. La misma se obtiene mediante la recopilación de datos (Morales, 2019).
Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios, los datos representan la información que el programador manipula en la construcción de una solución o en el desarrollo de un algoritmo. Pueden ser almacenados persistentemente en diferentes fuentes de datos como por ejemplo base de datos, ficheros Excel, ficheros estructurados, archivos de diferentes formatos etc (Ontiveros, y otros, 2018)
El almacenamiento de datos en algún momento se enfrenta a la necesidad inerte de realizar la migración. La migración de datos consiste en la trasferencia de datos de un sistema a otro y suele tener lugar en momentos de transición provocados por la llegada de una nueva aplicación, un cambio de modo o medio de almacenamiento o de las necesidades que impone el mantenimiento de la base de datos (Aguirre, 2018).
La migración de base de datos (BD) no es simplemente copiar las tablas o datos de un sistema a otro, es un proceso complejo que cuenta con sus determinadas fases y sobre todo que requiere de tiempo. Este tiempo se define dependiendo del tamaño de la base de datos. Normalmente esta tarea tiene dos modos de realizarse, las cuales son: programar de cero un software que realizase la migración, esta opción es muy costosa en términos de tiempo de desarrollo, la otra opción es usar una de las herramientas de Extraction, Transformation and Load (ETL), de las cuáles hay varias en el mundo y que agilizan notablemente esta tarea.
La División Territorial de Ciego de Ávila de XETID se encuentra involucrada en el desarrollo de proyectos para la informatización de la Ficha Única del Ciudadano (FUC), según observación efectuada en la Delegación Territorial del MININT en Ciego de Ávila, se pudo constatar que existen insuficiencias, las que se muestran a continuación:
Insuficiencias en el almacenamiento de la información, pues la forma de almacenar los datos en la base de datos es empleando el sistema de gestión de BD ORACLE, teniendo este carácter privativo.
Insuficiencias en la accesibilidad de la información, pues este proceso lo puedan realizar muy pocas personas y todas con jurisdicción dentro del MININT y con determinados niveles de acceso.
Los datos que contienen la FUC debe tener un carácter público, motivo por el cual hace que haya que migrar estas bases de datos a otro sistema gestor de bases de datos que permita que sea gestionado por cualquier persona o entidad natural del país, por ser los datos oficiales de las personas. Por esta razón se necesita hacer una migración empleando el sistema de gestión POSTGRE SQL que es el usado por FUC.
Para efectuar la migración de datos que dan soporte al servicio de la FUC, se analizan detalles desde la preparación del ambiente hasta la ejecución y monitoreo. Para la realización de este trabajo se ha elegido la herramienta ETL Spoon - Pentaho Data Integration, tomando como fuente, ficheros Excel descargados de la Oficina Nacional de Estadísticas e Información (ONEI) e información utilizada en bases de datos del Sistema Único de Identificación Nacional (SUIN), cuyo destino será una base de datos de PostgreSQL, donde se almacenarán los datos de la FUC del país.
Tomando como punto de partida la problemática antes descrita y las insuficiencias constatadas se plantea el siguiente problema científico: Insuficiencias en la gestión y manejo de los datos que se encuentran almacenados en la BD ORACLE por ser un sistema de gestión propietario. Para dar solución a este problema se tomó como objeto de estudio el proceso de migración de datos. Siendo el objetivo de la investigación: desarrollar un software para realizar el proceso de migración de los datos desde la BD MININT hacia POSTGRE SQL, y el campo de acción las herramientas informáticas utilizadas para el desarrollo de la migración de base de datos de personas naturales.
Metodología Computacional
Habitualmente, un proyecto de migración de datos se lleva a cabo para reemplazar o actualizar servidores o equipos de almacenamiento, o para reubicar un centro de datos. Para profundizar acerca de este tema primeramente conoceremos conceptos fundamentales con respecto a esta materia.
Datos: representan un fragmento de una cantidad, medida, descripción o palabra, los cuales son agrupados o clasificados de una determinada manera para generar de información (Ontiveros, y otros, 2018).
Base de datos: Una base de datos es una colección de información organizada y presentada para servir a un propósito específico. (Gil, 2018)
Migración de datos: Según (Leguizamon, 2018), se define a la migración de datos como el proceso para extraer información útil y comprensible en diferentes formatos, que se realiza por motivos como: un cambio de sistema, actualizaciones, problemas de rendimiento, entre otras causas.
La migración de datos es la transferencia de datos entre diferentes tipos de formatos de archivo, bases de datos y sistemas de almacenamiento. Sin embargo, la transferencia o extracción no es el único aspecto de la metodología de migración de datos, si los datos son de diferentes fuentes y tipos, el proceso de migración incluye mapeos y transformaciones entre los datos de origen y los de destino (Tehreem, 2019).
Existen Varios tipos de migraciones de datos, (Tehreem, 2019) Identifica cuatro tipos de migración de datos:
Migración de base de datos: cuando los datos se migran de una base de datos a otra.
Migración de aplicaciones: ocurre cuando la organización cambia la plataforma sistema actual por software de otro proveedor.
Migración de almacenamiento: se mueve datos de un sistema de almacenamiento a otro, como de un disco duro o la nube.
Migración a la nube: es una tendencia de la industria de la gestión de datos debido a los recursos de almacenamiento utilizados y la rentabilidad.
A partir de la definición de los tipos de migración, el autor de la investigación identifica que en la investigación se aplica la Migración de base de datos.
Etapas de Migración de datos
Relevamiento de Información: Esta etapa contempla la definición de los datos que requiere el nuevo sistema y la identificación de la fuente de origen.
Transformación/Mapeo de datos: Esta etapa, contempla la definición de los diccionarios con las reglas de transformación y el mapeo de campos entre las fuentes de origen y destino.
Depuración de Datos: Esta etapa contempla la depuración de los datos en las fuentes de origen.
Construcción ETC: En esta etapa, se realiza la construcción de los extractores, transformadores y cargadores de datos.
Extracción de datos
La extracción es el proceso de análisis y recopilación de los datos desde la base de datos fuente que se quieren migrar hacia la base de datos destino.
Transformación de datos
Los tipos de datos, esquemas y modelos conceptuales de la base de datos fuente son transformados, convertidos y limpiados de tal forma que serán transferidos hacia la base de datos destino de acuerdo a los requerimientos de una organización.
Carga o integración de datos
Este proceso permite cargar e integrar los datos debidamente transformados y limpiados de la base de datos origen en la base de datos destino de acuerdo a los requerimientos establecidos en la organización.
Pruebas: En esta etapa, se realizan las pruebas funcionales de la migración de datos, determinando que la información sea traspasada con éxito al nuevo sistema.
Simulación de Cargas: En esta etapa, se pretende identificar los inconvenientes que se podrían tener en las cargas reales, a través de la simulación del proceso real.
Cargas Reales: En esta etapa, se realiza la migración real de los datos desde el antiguo sistema al nuevo sistema.
Revisión de Resultados: En esta etapa, se realiza la revisión final de la información cargada al nuevo sistema.
Estrategias básicas de migración
(Motiwalla, y otros, 2019). Describen las estrategias básicas de migración de aplicaciones de la siguiente manera:
Piloto (Pilot)
La estrategia piloto se utiliza para garantizar que el sistema final es apropiado, el equipo implementa una versión pequeña a modo de prueba en ciertas áreas de la empresa. Así, el impacto puede ser gestionado y observado sin correr riesgos mayores.
En paralelo (Parallel)
Es la estrategia que tiene el mayor costo inicial porque el nuevo sistema se implementa y usa en paralelo con los sistemas de legado de la organización. Cuando el riesgo de fracaso del proyecto es inminente o motivo de preocupación, es recomendable aplicar esta estrategia.
Big Bang
La estrategia Big Bang tiene la menor cantidad de costos iniciales, pero es la de mayor riesgo. La organización implementa la aplicación nueva de manera inmediata y directa dejando de usar el sistema de legado. Cabe destacar que la capacitación de los usuarios finales sobre cómo utilizar el nuevo sistema es otra actividad importante en este tipo de estrategia.
Ninguna de las estrategias anteriores se adecua a nuestro software porque cada una de ellas tiene un gran costo en cuanto a tiempo, además usan en paralelo el sistema antiguo con el actual. La estrategia de migración de datos elegida a implementar en este proyecto es “Por fases (Phased)”. Con esta estrategia la organización realiza la migración de manera gradual desde los sistemas de legado existentes hacia la aplicación destino. Este enfoque puede implicar una cantidad de tiempo considerable, pero es menos disruptiva para la empresa.
Tecnologías y Metodologías utilizadas
Para la realización de este software se utilizaron varias herramientas y tecnologías, a continuación, se expondrán las utilizadas en este proyecto.
Enterprise Architect es una plataforma de modelado, diseño y administración, colaborativa, basada en UML 2.5 y estándares relacionados. Ágil, intuitiva y extensible, con poderosas características para dominios específicos totalmente integrados a una fracción del costo de muchos competidores. Una solución para toda empresa que permite visualizar, analizar, modelar, probar y mantener un amplio rango de sistemas, software procesos y arquitecturas (Saboya, y otros, 2018).
PostgreSQL servidor de base de datos relacional, libre. Sistema orientado al uso de objetos. Sin embargo, debido a que ha sido pensado para gran cantidad de datos, se muestra lento ante una base pequeña. (Unade, 2020). Se destaca en ejecutar consultas complejas, consultas sobre vistas, subconsultas y joins de gran tamaño. Permite la definición de tipos de datos personalizados e incluye un modelo de seguridad completo.
ORACLE Database, es un sistema de gestión de base de datos de tipo objeto-relacional (ORDBMS, por el acrónimo en inglés de Object-Relational Data Base Management System), desarrollado por ORACLE Corporation. Se considera a ORACLE Database como uno de los sistemas de bases de datos más completos, destacando: soporte de transacciones, estabilidad, escalabilidad, y soporte multiplataforma (Martínez, y otros, 2019).
En el mundo propietario existen varias herramientas de Business Intelligence (inteligencia de negocio) tales como Power BI, SAP BI, SAS BI pero al ser privativas se hace difícil el acceso a ellas.
En el mundo del software libre las soluciones BI completas son muchas, pero Pentaho y SPagoBI son las tecnologías que tiene como fortalezas su herramienta de ETL.Penthao Data Integration (anteriormente conocido como kettle) y Talend (de SpagoBI) cuentan con software robusto y muy completo que soportan gran variedad de conexiones con diferentes fuentes de datos.
Luego de una comparación realizada entre ambas herramientas se decide usar Pentaho Data Integration, ya que obtiene la ponderación más alta, siendo la mejor alternativa existente en el mercado. Se decide utilizar Pentaho ya que como plataforma tiene una mayor robustez y versatilidad que incluye todos los componentes requeridos (Rodriguez, 2018).
Resultados y discusión
Para el desarrollo del software de migración de datos se capturaron las siguientes funcionalidades
Un requisito, o también denominado requerimiento, es definido por el glosario de la IEEE como una condición o capacidad que debe satisfacer o poseer un sistema o un componente de un sistema para satisfacer un contrato, un estándar, una especificación u otro documento formalmente impuesto. (Molina, y otros, 2019), además podemos coincidir con los criterios de (Sommerville, 2011) cuando distingue dos niveles de requisitos: Requisitos de usuario y Requisitos del sistema/software, estos últimos son clasificados en dos grandes tipos, como Requisitos Funcionales (RF) y Requisitos No Funcionales (RNF). Los requisitos funcionales pueden ser: cálculos, detalles técnicos, manipulación de datos y otras funcionales específicas que se supone, un sistema debe cumplir (Reyes, 2020).
Requisitos funcionales
RF1- Migrar las Condiciones Migratorias de las Personas naturales.
1.1- Extraer las condiciones migratorias de las personas naturales.
1.2- Cargar las condiciones migratorias de las personas naturales.
RF 2- Migrar los Países.
.2.1- Extraer los países.
2.2- Cargar los países.
RF 3- Migrar la Distribución Político-Administrativa (DPA)
3.1.-Extraer las DPA.
3.2- Cargar las DPA.
RF4- Registrar una nueva Traza.
RF5- Migrar las Provincias.
5.1- Extraer las provincias.
5.2-Delimitar las provincias por años, para distinguir su pertenencia a una DPA.
5.3- Estandarizar los nombres de las provincias.
5.4- Asignar el código SUIN a las provincias.
5.5- Cargar las provincias.
RF6- Migrar los Municipios.
6.1- Extraer los municipios.
6.2- Delimitar los municipios por años, para distinguir su pertenencia a una DPA.
6.3- Estandarizar los nombres de los municipios.
6.4- Asignar el código SUIN a los municipios.
6.5- Cargar los municipios.
RF7-Migrar los Registros Civiles.
7.1- Extraer los registros civiles.
7.2- Asignar provincia al registro civil.
7.3- Reemplazar por el valor cero las provincias no encontradas para el registro civil.
7.4- Cargar los registros civiles.
RF8-Extraer Personas Naturales.
8.1- Transformar formato de datos.
8.2- Asignar provincia de nacimiento de la persona natural.
.8.3- Asignar municipio de nacimiento de la persona natural.
8.4- Asignar provincia de residencia de la persona natural.
8.5- Asignar municipio de residencia de la persona natural.
8.6- Asignar registro civil de nacimiento de la persona natural.
8.7- Asignar registro civil de defunción de la persona natural.
8.8- Estandarizar los datos de las personas naturales.
8.9- Firmar los datos de las personas naturales.
8.10- Cargar las personas naturales.
RF9- Registrar traza de datos con problemas.
9.1- Validar datos de las personas naturales.
9.2- Confeccionar trama de datos erróneos.
9.3- Generar Excel con listado de personas no insertadas por conflicto.
9.4- Registrar traza de datos con problemas.
RF10- Registrar traza de datos sin problemas.
10.1- Validar datos de las personas naturales.
10.2- Confeccionar trama de datos sin problemas.
10.3- Registrar traza de datos sin problemas.
RF11- Actualizar datos de trazas.
Requisitos No Funcionales
Los requisitos no funcionales tienen que ver con características que de una u otra forma puedan limitar el sistema, por ejemplo, el rendimiento (en tiempo y espacio), interfaces de usuario, fiabilidad (robustez del sistema, disponibilidad de equipo), mantenimiento, seguridad, portabilidad, estándares, etc. Son restricciones de los servicios o funciones ofrecidos por el sistema (Fernández, 2006). Los requisitos no funcionales, definen las propiedades ambientales y las restricciones de implementación relacionadas con el desempeño del software. (Buitrón, y otros, 2018)
Para el desarrollo del software de migración de datos se capturaron los siguientes requisitos no funcionales.
Requisitos no funcionales de la migración de datos de FUC
RNF1- Toma de acuerdos de los caracteres que serían considerados inválidos en los datos de la persona.
RNF2- Clasificación de los datos relevantes de las personas, para FUC.
RNF3- Disposición de una máquina virtual (MV), con SO Windows 10, con características, de al menos: 16 Gb de RAM, 2 CPU para el procesamiento y 550 Gb de Almacenamiento. Instalar, en dicha MV, ORACLE Estándar Edition 11g Release 2.
RNF4- Disposición de una MV, con Linux Debian 10, en el ambiente de producción (ETECSA), donde esté instalado Docker 19.x.x y sobre este, un contenedor de PostgreSQL 12.2, el cual es el SGBD de FUC.
RNF5- Instalación, dentro de la MV de Windows, Pentaho Data Integration 8.3, el cual será usado para la migración y configurarlo adecuadamente para que soporte la migración, así como los drivers de conexión hacia ORACLE y Postgres.
RNF6- Una vez terminado el proceso de migración, la MV debe ser destruida.
RNF7- Para la migración será usado un usuario que tendrá todos los privilegios en la BD de FUC, excepto el de "Eliminar". Eliminarlo al finalizar.
RNF8- El backup de la BD, de los datos de personas a migrar, serán provistos y debidamente certificados por el MININT, copiados manualmente, desde un dispositivo de almacenamiento externo, hacia la MV de Windows.
RNF9- El acceso a todas la MV solo será usando la VPN de XETID.
RNF10- Se debe crear una firma de los datos de personas, para evitar o detectar transformaciones en sus datos.
RNF11- Se requiere que la MV de Windows esté en la misma subred que donde está la MV donde radica el contenedor del Postgres Máster, para ganar en rapidez.
RNF12- La migración no debe durar más de 3 días.
Durante el proceso de migración de datos se realiza un monitoreo para observar por dónde van las tareas y que ha ocurrido, esto se puede realizar de dos formas:
La primera es observar, en el mismo diseño del Job, que los pasos que se completan satisfactoriamente son marcados con y los que fallan con , además se puede observar lo ocurrido en los logs de la parte inferior izquierda del área de trabajo.
La otra manera, es que dentro de la carpeta que se encuentran el Job y las transformaciones, serán generados ficheros log que registró todo lo ocurrido, es decir que, cada transformación, genera un fichero .log que describe todo lo ocurrido durante la ejecución de dicha transformación, haya sido exitosos el paso o no.(Anexo 3)
Para esto es importante saber leer los logs y una de las cosas más importantes a tener en cuenta es que cuando aparece en algún paso: Finished processing (I=0, O=0, R=0, W=0, U=0, E=0), el significado de cada letra es: I=Entradas, O=Salidas, R=Lecturas, W=Escrituras, U=Actualizaciones y E=Errores ocurridos.
Evento | Tamaño de la BD | Cantidad de Registros | Tiempo de ejecución en subred local | Tiempo de ejecución por red no local |
Carga del Backup de |
23,2 mb | 100 000 | 6 seg | - |
Migración de FUC | 118 mb | 100 000 | 2,5 min | 1,15 horas |
Predicción de Carga del Backup de |
6 gb | 25 000 000 | 30 min | - |
Predicción de Migración de FUC | 30 gb | 25 000 000 | 11 horas | 12 días |
Después de ser ejecutadas algunas pruebas de migración se pudo observar que:
La migración de datos se realizó en el tiempo estimado.
La migración se efectuó correctamente.
Todos los datos de FUC quedaron guardados en la base de datos Postgre SQL.
Conclusiones
La investigación desarrollada permitió la implementación de un Software para la Migración de Datos de la FUC de Cuba y se comprobó su correcto funcionamiento a través del monitoreo. Con este software se resolvió la problemática porque favoreció a la reducción de costos al optar por un manejador de base de datos libre.