INTRODUCCIÓN
En la última década, ha surgido el enfoque de Datos Empresariales Enlazados (LED, por sus siglas en inglés) (Hu & Svensson, 2010), (Gürdür, khoury, & Nyberg 2018) para la integración de datos en las empresas (Gürdür et al., 2018), (Stuart Cárdenas, Prieto del Río, Delgado Fernández, & Delgado Fernández, 2018). LED integra los datos con independencia de su procedencia, considerando su significado y contenido (Novak & Tjoa, 2019), dando lugar a un espacio de información global y unificado (Gürdür et al., 2018).
LED proporciona en las empresas, beneficios relacionados con los datos y la información (Stuart Cárdenas, Delgado Fernández, Delgado Fernández, Prieto del Río, & Quial Sotolongo, 2020), siendo algunos de los más importantes, la mejora de la interoperabilidad de los datos (Silveira Gomes, Visintin, & A, 2017a); el aumento del valor de cada información por estar enlazada a datos complementarios (Antidot, 2012) y la mejora de la toma de decisiones en las empresas, por disponer de información de forma más rápida y con más fundamentación (Stuart Cárdenas et al., 2020). Sin embargo la aplicación de LED en el contexto empresarial, todavía es insuficiente (Moura, Priscila, Neiva, Macedo, & A., 2014), (Abramowicz, Auer, & Heath, 2016), (Galkin, 2018).
Varios artículos han abordado con distintos objetivos, una revisión bibliográfica sobre LED (Afonso Pinto & Silva Parreiras, 2014), (Moura et al., 2014), (Silveira Gomes, Visintin, Freiberger Pereira, A, & Macedo, 2017), (Silveira Gomes, Visintin, et al., 2017a), (Silveira Gomes, Visintin, & A, 2017b). En Afonso Pinto & Silva Parreiras (2014) se abordan las principales aplicaciones de LED en los entornos corporativos, identificándose el patrón de marco tecnológico que se utiliza para adoptar las tecnologías bases de LED. Moura et al (2014) realiza un estudio bibliométrico de las publicaciones sobre LED, proporcionando el volumen de publicaciones por año, principales fuentes de publicación, autores, instituciones, países y las principales referencias bibliográficas. El análisis de contenido de las publicaciones se enfoca solamente en proporcionar una definición de LED. Silveira Gomes, Visintin, Freiberger Pereira, et al. (2017) realiza una revisión para identificar cuál de los términos: Linked Enterpise Data o Enterprise Linked Data es más adecuado de utilizar. Ninguna de las publicaciones anteriores tiene una perspectiva organizacional, solo en (Silveira Gomes, Visintin, et al., 2017a)y (Silveira Gomes, Visintin, et al., 2017b) se realiza un análisis en relación con los factores que viabilizan y limitan la aplicación de LED en las empresas, pero sin profundizar en cómo tener en cuenta estos factores para la adopción de LED.
Tomando en consideración el poco abordaje organizacional en las revisiones bibliográficas anteriores, así como la declarada insuficiente aplicación de LED en el contexto empresarial, se traza como objetivo del artículo: realizar una revisión sistemática de literatura para analizar exhaustivamente los aspectos organizacionales tenidos en cuenta al aplicar el enfoque LED. Para el cumplimiento del objetivo, se aplica un proceso de búsqueda de tres fases: planeación, ejecución y resultados, en la revisión sistemática de 75 artículos relacionados con el enfoque LED.
MÉTODOS
Se realizó una revisión sistemática de literatura para analizar los aspectos organizacionales tenidos en cuenta al aplicar el enfoque LED, aplicándose un proceso basado en las directrices propuestas en (Kitchenham, 2004), (), que fueron confirmadas en estudios más recientes (Carrizo & Moller, 2018), y consta de tres fases: Planificación, Ejecución y Resultados. Como se aprecia en la figura 1, la fase de Planificación estuvo integrada por las actividades de Definición de las Preguntas de Investigación; Definición de la Estrategia de Búsqueda y Definición de los criterios de Inclusión/Exclusión. La fase de Ejecución fue integrada por las actividades de Selección de los trabajos; Extracción de Datos y Análisis de Datos. Así como, la fase de Resultados fue integrada por las actividades de Evaluación de los datos y Análisis de Resultados.
Planificación
La planificación tuvo como objetivo precisar las preguntas de investigación a las que dio respuesta el resultado del estudio, así como precisó los elementos metodológicos que garantizaron una búsqueda efectiva de información.
Definición de las preguntas de investigación
Las preguntas de investigación del estudio, se derivaron de análisis previos que determinaron que a pesar de las ventajas que ofreció el enfoque LED para las empresas, todavía resultó insuficiente su aplicación en este sector empresarial (Hladky & Maltseva, 2013), (Moura et al., 2014), (Abramowicz et al., 2016), (Silveira Gomes, Visintin, et al., 2017a), (Rao & Nayak, 2017), (Stuart Cárdenas et al., 2020). A partir de esta consideración, se pretendió realizar una revisión sistemática para analizar exhaustivamente cómo se han considerado aspectos propios del contexto empresarial al aplicar el enfoque LED, definiéndose las siguientes preguntas de investigación:
¿Cómo se ha adoptado el enfoque LED en las empresas?
¿Cómo se alinea el enfoque LED a los objetivos de la empresa?
Definición de la estrategia de búsqueda
En el estudio se enfatizó en realizar una búsqueda automatizada de términos, a través de los motores de búsqueda proporcionados por librerías digitales. La búsqueda se enmarcó en el período del 2010 al 2019.
Específicamente se utilizaron dos bases de datos:
Instituto de Ingenieros Eléctricos y Electrónicos (IEEE), biblioteca digital, líder de publicaciones científicas en los campos de ingeniería eléctrica, electrónica y ciencias de la computación (Wilde, 2016). La IEEE Xplore digital library fue un poderoso recurso para el descubrimiento y el acceso al contenido científico y técnico publicado por el IEEE y sus socios editoriales. Proporcionó acceso web a más de cuatro millones de documentos de texto completo de algunas de las publicaciones más citadas del mundo en ingeniería eléctrica, informática y electrónica. Más de dos millones de documentos estuvieron en formato HTML dinámico y sólido. Aproximadamente 20 000 nuevos documentos se agregaron a IEEE Xplore cada mes (IEEE, 2020).
Google académico, reconocido como una base de datos académica (Codina, 2020), fue un buscador de Google enfocado y especializado en la búsqueda de contenido y bibliografía científico-académica.
Considerándose, los términos que se utilizarong para referir al enfoque LED (Silveira Gomes, Visintin, Freiberger Pereira, et al., 2017), así como, que algunas publicaciones utilizaron el término del cual este se deriva: Linked Data, de conjunto con su funcionalidad de integración de información (Frischmuth et al., 2012), para referirse al enfoque, se utilizaron dos cadenas de búsqueda en las librerías digitales de publicaciones, según se aprecia en la tabla 1.
Cadena de Búsqueda 1 | |
Cadena de Búsqueda 2 |
Definición de los criterios de Inclusión/Exclusión
En esta etapa se definieron los criterios para filtrar los estudios. Se decidió incluir todos los estudios devueltos por bases de datos de las bibliotecas digitales, excepto aquellas clasificadas en los criterios de exclusión presentados en la tabla 2.
Criterio de exclusión 1 | El estudio está escrito en un idioma diferente de inglés, español o portugués. |
Criterio de exclusión 2 | El estudio está repetido. |
Criterio de exclusión 3 | El estudio está fuera de contexto. |
Criterio de exclusión 4 | El estudio no es propiamente un artículo científico. |
Criterio de exclusión 5 | No se tiene acceso al estudio. |
Ejecución
La ejecución realizó las actividades que extrajo y sintetizó los datos de los artículos. De la búsqueda automática resultaron 733 estudios potencialmente relevantes para la investigación.
Selección de los Trabajos
A partir de los estudios encontrados, los criterios de exclusión fueron aplicados para refinar los resultados, de acuerdo con la estrategia de extracción de datos definida. Luego de aplicar los criterios de Inclusión/Exclusión definidos anteriormente, basados en el texto completo, se incluyeron 75 estudios primarios para esta revisión, según se muestra en la figura 2.
La producción científica recuperada fue recopilada en una base de datos add hoc creada con el gestor bibliográfico Endote X9. Para la visualización de tablas y gráficos se utilizó Microsoft Excel 2017. Bibexcel 2017 fue utilizado para la creación de las matrices de datos, Ucinet (6.629) para el procesamiento de dichas matrices y VosViewer 1.16.14 para la visualización de las redes de colaboración y el mapa temático obtenido de la co-ocurrencia de palabras clave.
Análisis de las fuentes bibliográficas seleccionadas
Este proceso constó de dos ámbitos de análisis:
Análisis bibliométrico
Se reflejó para la identificación de las regularidades cuantitativas presentes en el flujo de información documental y en los procesos de producción y comunicación científica que en estos operan (Gorbea Portal, 2016). Para ello se utilizaron indicadores bibliométricos que permitieron el análisis de rasgos diversos de la actividad científica, vinculados tanto a la producción como al consumo de información (Ardanuy, 2012). Se utilizaron un conjunto de indicadores destinados a capturar a nivel aproximativo la arista cuantitativa (indicadores de resultados), de co ocurrencia (palabras clave) y de colaboración científica (países y autores). Se detallan en la tabla 3.
Denominación | Definición |
---|---|
Distribución por años | Cifra de trabajos publicados por cada uno de los años comprendidos en el estudio |
Producción por países | Cantidad de firmas correspondientes a cada país en la muestra analizada |
Producción por autores | Cantidad de trabajos firmados por los autores que componen la muestra |
Productividad por palabras clave | Frecuencia de aparición de cada palabra clave en la muestra analizada |
Colaboración entre países | Cantidad de trabajos firmados por dos o más países |
Colaboración entre autores | Cantidad de trabajos firmados por dos o más autores |
Co-ocurrencia de palabras clave | Frecuencia de aparición conjunta de las palabras clave asignadas por los autores firmantes |
Análisis comparativo de las fuentes
Atendiendo a los aspectos claves que caracterizaron los ámbitos de estudio. La figura 3 muestra los aspectos claves que se compararon para cada ámbito de las dos preguntas de investigación formuladas.
RESULTADOS
Análisis bibliométrico
Publicaciones por año
En la figura 4 se refleja el período enmarcado para el análisis: 2010-2019. El año de comienzo, determinado por ser el año de la definición formal del término en (Hu & Svensson, 2010), (Allemang, 2010), y el año final determinado, por establecer en julio del 2019 la fecha límite para la recopilación de los datos del estudio. Se consideró además un nivel de actualidad adecuado en los trabajos que se analizan, dado que el 49,3 % son del 2015 en adelante. Muestra además, la distribución de los estudios analizados según su año de publicación.
Principales autores y países
Los estudios analizados fueron escritos por 204 autores de 31 países. Como se aprecia en la figura 5 los países con una mayor representación de autores en el estudio son: Alemania, EE.UU., Brasil, Austria, Italia, Grecia, España, China, Irlanda y Reino Unido.
En la figura 6 se observa las principales redes de colaboración internacional. Se puede interpretar que Alemania funcionó como el principal núcleo de desarrollo para la temática, a la vez que ha permitido la expansión de la misma, a partir de redes de colaboración internacional que se han establecido. En el área de las Américas, son Brasil y EE. UU. los principales exponentes del tema, pero su ausencia en fuertes redes de colaboración, denota una aplicación todavía al interior de sus regiones. Se reflejan además,
Los once autores con mayor cantidad de artículos se presentan en la tabla 4:
País | Autor | % Documentos |
---|---|---|
Alemania | Soren Auer | 8 % |
Rusia | Mikhail Galkin | 5 % |
Brasil | Fernando A. Ostuni | 5 % |
Alemania | Philipp Frischmuth | 4 % |
Alemania | Markus Graube | 4 % |
Irlanda | Sabrina Kirrane | 4 % |
Brasil | Lidiane Visintin | 4 % |
Alemania | Sebastian Tramp | 4 % |
Brasil | Murilo Silveira Gomes | 4 % |
Alemania | Leon Urbas | 4% |
Alemania | Simon Scerri | 4% |
% de documentos de estos autores | 51% |
La figura 7 muestra los autores con relaciones más relevantes en el desarrollo de la temática de estudio, a la vez que muestra la existencia de subgrupos de investigación en la misma. Se destacaron tres núcleos fundamentales de desarrollo: núcleo alrededor del autor alemán Soren Auren; núcleo alrededor de los autores alemanes Kevin Feeney y Jim Davies; y núcleo alrededor de la griega Eleni Fotopoulou.
El primer núcleo referido se muestra en la figura 8, compuesto por 13 investigadores, en un 77 % alemanes, lo cuales ha desarrollado fuertemente estudios alrededor de temáticas relacionadas fundamentalmente con las bases técnicas del enfoque LED, como son semantic web y linked data; así como la temática de enterprise knowledge graphs, en los últimos años. Cinco de los integrantes de este núcleo, han sido revelados en este trabajo, dentro de los autores con mayor cantidad de artículos.
El segundo y tercer núcleo de relaciones estrechas, fueron el resultado de proyectos específicos de investigación sobre el uso de LED: el proyecto de investigación ALIGNED*, compuesto por investigadores alemanes y el proyecto de investigación LinDA†, compuesto por investigadores de Grecia, Reino Unido e Italia.
El análisis de autores y países está revelando el liderazgo de Alemania en el desarrollo de la temática LED.
Principales temáticas
Las palabras claves más significativas, según lo reconocido por los autores, y con frecuencia de aparición de tres o más veces, se refleja en la tabla 5.
Palabra clave | Frecuencia |
---|---|
linked data | 24 |
semantic web | 11 |
linked enterprise data | 8 |
data web | 5 |
enterprise data | 5 |
knowledge management | 5 |
rdf | 5 |
ontology | 5 |
sparql | 4 |
competitive intelligence | 3 |
data governance | 3 |
data integration | 3 |
enterprise knowledge graphs | 3 |
knowledge graph | 3 |
skos | 3 |
A partir de considerar clústeres temáticos, a los efectos del propósito de este artículo, las palabras claves, se agruparon de la forma siguiente:
Gestión de datos (enterprise data, data integration, data governance) - 15 %.
Web Semántica (semantic web, ontology, data web, rdf, sparql, skos) - 45.%.
Datos enlazados (linked data, linked enterprise data) - 41.%.
Grafos de conocimiento (knowledge graph)- 4.%.
Análisis Organizacional (knowledge management, competitive intelligence), -11.%.
De este agrupamiento se observa que la mayor parte de los artículos, analizados, un 45 %, privilegiaron las bases conceptuales de la Web semántica desde una perspectiva técnica, mientras los aspectos de gestión de datos estuvieron menos representados, con apenas un 15 %. Considerándose el énfasis de este estudio en los datos enlazados, fue apropiado una proporción del 41 % de productividad de este clúster temático, aunque por esa misma razón se extraña una proporción bastante más pequeña en el universo, representando a los datos empresariales enlazados. Es notorio la baja proporción en temáticas de análisis organizacional, solo un 11 % para gestión del conocimiento e inteligencia competitiva.
Lo relacionado con la co-ocurrencia de palabras claves con frecuencia de aparición conjunta de dos o más, se muestra en la figura 10.
El mapa de co-ocurrencia, por su parte, nos está revelando linked data como una temática fuertemente consolidada, lo cual es apropiado, considerándose que es la base técnica para LED.
El análisis de las temáticas, bajo la mirada del objetivo de este trabajo, no visualizó como tendencia palabras claves de los contextos organizacionales.
DISCUSIÓN
Análisis comparativo
A partir del estudio detallado de las referencias se aprecia que la adopción del enfoque LED, ha tenido un desarrollo fundamentalmente teórico, constatado en que el 69 % de los trabajos hacen aportes de esta naturaleza, y el 17 % realizan análisis teóricos, incluyendo algún ejemplo. Solo el 13 % de los estudios analizados, incluye casos prácticos para la implementación/validación de su propuesta. El principal ámbito de aplicación ha sido empresarial, con el 93 %.
En relación con la complejidad de los datos que se enlazan, los estudios analizados evidencian una alta tendencia a integración al interior de la empresa, solo en el 32 % incluye enlaces con conjuntos de datos externos. En lo que se refiere a la estructura, la mayoría integra datos estructurados en bases de datos relacionales, pero se observa la tendencia a la integración con datos semiestructurados y no estructurados.
Con relación a la inclusión de aspectos organizacionales se puede referir, que el 67 % de los estudios abordan el enfoque LED desde una mirada solo técnica, y de esos, el 77 % con una mirada técnica teórica. Existe un 33 % de los estudios que incluyen aspectos organizacionales en sus análisis, estos son: (Harris, 2010), (Hu & Svensson, 2010), (Hyland, 2010), (Meder, Plumbaum, De Luca, & Albayrak, 2011), (Vafopoulos, 2011), (Westerski & Iglesias, 2011), (Matteo Gaeta & Pierluigi Ritrovato, 2012), (Rocha Coelho, 2012), (Dal Pizzol, 2014), (Hasapis et al., 2014), (Gocebe, Dikenelli, & Umut Kose, 2015), (Kapourani et al., 2015), (Voskuil, 2015), (Weichselbraun, Streiff, & Scharl, 2015), (Dal Pizzol, Leomar Todesco, & P. R. Todesco 2016), (DeStefano, Tao, & Gai, 2016), (Fernández et al., 2016), (Langer & Gaedke, 2016), (Silveira Gomes, Visintin, et al., 2017a), (Silveira Gomes, Visintin, et al., 2017b), (Gürdür et al., 2018), (Stuart Cárdenas et al., 2018), (Novak & Tjoa, 2019), (R, H. G, & Mishra, 2019), (Schroder, 2019).
Las ideas que se abordan en estos análisis con inclusión de aspectos organizacionales en el enfoque LED están dirigidas a:
La importancia de comenzar a partir de necesidades de la organización (Hu & Svensson, 2010), (Vafopoulos, 2011), (Dal Pizzol, 2014), (Gocebe et al., 2015), (Kapourani et al., 2015), (Weichselbraun et al., 2015), (Stuart Cárdenas et al., 2018) que justifiquen la aplicación de los datos enlazados en la empresa, de forma tal que su aplicación incida directamente en la mejora del rendimiento de la organización. En algunos estudios se enfoca desde la perspectiva de definir preguntas organizacionales iniciales (Vafopoulos, 2011); otros en la definición de preguntas de competencias para las ontologías (Gocebe et al., 2015); otros desde la definición de un objetivo general (Kapourani et al., 2015) del proyecto que guía la aplicación de LED y otros desde la definición de un caso de uso de negocio (Weichselbraun et al., 2015).
La necesidad de disponer de datos adecuados según sea la necesidad informacional (Hu & Svensson, 2010), (Hasapis et al., 2014), (Weichselbraun et al., 2015), (Dal Pizzol et al., 2016), (Stuart Cárdenas et al., 2018).
La necesidad de un enfoque a procesos, que asegure la alineación de LED a los objetivos empresariales (R et al., 2019), y determinar los datos a enlazar siguiendo tales procesos (Harris, 2010), (Hu & Svensson, 2010), (Westerski & Iglesias, 2011), (Rocha Coelho, 2012), (DeStefano et al., 2016).
La importancia de que exista una estrategia o roadmap que guie la aplicación de LED en el contexto empresarial (Hyland, 2010), (Fernández et al., 2016). Un proyecto de esta naturaleza no debe ser espontáneo, aunque puede comenzar en cualquier nivel de la organización (Hyland, 2010) y se puede ir desarrollando de forma incremental.
La utilidad de involucrar a los trabajadores de la empresa, en el proceso de generación de las estructuras semánticas (Meder et al., 2011), (Novak & Tjoa, 2019) que permiten la integración de los datos, considerando que los trabajadores son los productores de los datos.
La importancia de garantizar la calidad de los datos que se enlazan (Langer & Gaedke, 2016), (Gürdür et al., 2018).
La conveniencia de enlazar los datos internos a fuentes de datos externas (Hu & Svensson, 2010), para aumentar el valor de la información que se genera.
Las dificultades más notarias en estos análisis están dirigidas a:
La deficiente vinculación con los procesos de la empresa. De hecho, solo un 24 % de los estudios analizados sigue un enfoque a proceso.
La carencia de guías metodológicas profundas que conduzcan la aplicación de LED. Por ejemplo, no se ha encontrado ningún mecanismo formal aplicado para el logro de articular los datos a los procesos. De hecho, una dificultad explícitamente planteada es que las organizaciones no son conscientes de sus datos (DeStefano et al., 2016).
Una apropiada alineación LED al negocio es la principal dificultad que se destaca con este trabajo. Solo en un 12 % de los estudios analizados, se ha abordado de forma consciente la alineación de LED con los objetivos y estrategias de la empresa donde se aplica.
Resulta interesante destacar en el análisis, la tendencia de un uso incremental de los términos Knowledge graph, y Enterprise Knowledge Graphs, (Blumauer, 2014), (Galkin, Auer, & Scerri, 2016), (Galkin, Auer, Kim, & Scerri, 2016), (Galkin, Auer, Vidal, & Scerri, 2017), (Aasman, 2017), (Galkin, 2018), (Song et al., 2019), (Schroder, 2019). Los Grafos de Conocimiento absorben la filosofía de los Datos Enlazados, pero agregan nuevos enfoques, particularmente apropiados desde la perspectiva organizacional. Esta afirmación se corrobora con el análisis de las más recientes contribuciones de los autores más citados, provenientes de Alemania y Rusia, quienes lideran estudios de Grafos de Conocimiento (empresarial) en varias aristas emergentes.
CONCLUSIONES
La revisión sistemática de la literatura sobre Datos Empresariales Enlazados realizada revela una marcada orientación de la comunidad científica hacia los aspectos técnicos subyacentes en la tecnología LED y la Web Semántica, mientras son menos frecuentes los abordajes desde una perspectiva organizacional, y se refleja mucho menos la alineación LED a las metas de la empresa.
Los hallazgos principales de este artículo están apuntando a la necesidad de profundizar en estrategias, modelos de gestión, metodologías y otras buenas prácticas que aseguren una alineación efectiva entre LED (y su sucesor Enterprise Knowledge Graphs) y las metas empresariales; y que guíen los procesos desde marcos de gobernanza que favorezcan el mejoramiento continuo de la tecnología en función de la creación de valor derivado de un uso más efectivo de los datos de la empresa.