INTRODUCCIÓN
La ingeniería del software constituye una de las industrias emergentes que mayor crecimiento e impacto ha experimentado en años recientes. El desarrollo de los proyectos de esta industria respecto a la calidad y las buenas practicas está marcado por la existencia de numerosos estándares y libros desarrollados por diversos autores, entre los que se destacan, entre otros, el PMBOK (PMI, 2017), la ISO 21500 (Stellingwerf & Zandhuis, 2013) y CMMI (SEI, 2015). Pero a pesar de la gran cantidad de guías persisten dificultades como se refleja en los Reportes CHAOS del Standish Group (Johnson, Gesmer, Poort, & Mulder, 2016).
En los reportes realizados entre el 2011 y el 2015 se señala que: aproximadamente el 19% de los proyectos fracasan, que alrededor del 52% de los proyectos son renegociados por variaciones en su alcance, costo o calidad y que solo el 29% de los proyectos fueron exitosos (Hastie & Wojewoda, 2015). En este escenario aprender de la experiencia de proyectos anteriores, ayudaría a disminuir el elevado número de proyectos cancelados o renegociados. En particular la minería de datos es una de las técnicas que los autores de este trabajo recomiendan en este sentido, algunas de estas mismas técnicas aparecen como recomendación a partir de la versión 6 del PMBOK (PMI, 2017).
En el contexto de esta investigación entendemos a la minería de datos como un campo interdisciplinario donde convergen técnicas estadísticas, matemáticas, inteligencia artificial, el reconocimiento de patrones y bases de datos para el descubrimiento de conocimiento no trivial que reside de manera implícita en los datos (Gorunescu, 2011). Pero para garantizar el desarrollo de investigaciones empleando estas técnicas es preciso contar con suficientes datos que en este campo en particular generalmente provienen de sistemas de información que no están públicos dificultando el acceso a la información.
Existen diferentes repositorios de bases de datos internacionales para el desarrollo de investigaciones (Kolisch & Sprecher, 1996). Uno de los repositorios más reconocidos es el UCI Repository (Catherine Blake, 1998)(C Blake & Merz, 2015) para aprendizaje automático que incluye numerosas bases de datos de disímiles campos de aplicación. El PSPLIB (Kolisch & Sprecher, 1996) por su parte es especializado en bases de datos para la asignación de recursos, útil en la prueba de técnicas de optimización. En (Pérez Pupo, 2011) (Santiesteban et al., 2016) se hace un análisis de repositorios de datos y se identifica que no cubren las necesidades de investigaciones en la temática de gestión de proyectos.
En este trabajo se propone un repositorio para el desarrollo de investigaciones en gestión de proyectos que incluye 18 bases de datos asociadas a proyectos de software. En la sección materiales y métodos se propone un conjunto de procesos asociados a la construcción y gestión del repositorio. En esta sección también se explica la estructura del repositorio y las bases de datos que lo conforman. En la sección resultados y discusión se presentan un conjunto de investigaciones que han empleado el repositorio en la validación de los resultados.
MATERIALES Y MÉTODOS
En esta sección se presenta una propuesta de modelo para la construcción y gestión de repositorios de datos para el desarrollo de investigaciones. En la Figura 1 se describen los procesos que intervienen en la construcción del repositorio y que fueron desarrollados inicialmente en la tesis de maestría de Iliana Pérez (Pérez Pupo, 2011).
La construcción del repositorio para investigaciones en gestión de proyectos tiene sus inicios en el 2008 con el desarrollo de la plataforma del sistema de información GESPRO (Piñero et al., 2010) (Piñero et al., 2015). Se decide desarrollar el sistema de información en gestión de proyectos para: apoyar la innovación, la toma de decisiones y el desarrollo de investigaciones que permiten elevar los resultados en la ejecución de proyectos. Se inicia desde ese momento, la recopilación de datos que podrían ser empleados posteriormente para el desarrollo de investigaciones. Los procesos que intervienen en la gestión del repositorio, como muestra la Figura 1 son:
Selección de los datos: tiene como objetivo seleccionar las fuentes de datos y caracterizar los datos dependiendo del contexto. Se proponen indicadores para la calidad del dato y se planifica el proceso de construcción del repositorio. Como salida, este proceso genera un conjunto de datos seleccionados para formar el repositorio.
Construcción de base de datos. En este proceso se definen las áreas temáticas o áreas de conocimiento de gestión de proyectos que va a representar cada base de datos, e incluye los siguientes subprocesos:
Preprocesamiento de los datos: se aplican técnicas de limpieza (Escobar Pompa, 2015) como integración, transformación, reducción, anonimización, pseudonimización, imputación, verificación de datos y selección de atributos.
Construcción de base de datos: se seleccionan los atributos que conformarán la base de datos para investigaciones (Ril Valentín, 2012) (Medina Rodríguez, 2012). En este proceso se debe tener en cuenta que el diseño de la base de datos debe facilitar la recuperación rápida de los registros.
Actualización de la base de datos: se perfecciona la base de datos incorporando nuevos registros, modificando y/o eliminando otros. Como salida se obtiene una base de datos con mejores condiciones para la investigación.
Publicación de bases de datos en el repositorio: es el proceso mediante el cual se revisa y se aprueba la publicación de las bases de datos en el repositorio cumpliendo con la estructura establecida (en la siguiente sección) para facilitar las consultas y explotación de las mismas. Como salida, se obtiene el repositorio conformado por cada una de las bases de datos que representarán las áreas de conocimiento de gestión de proyectos.
Desarrollo de investigaciones: es donde el o los investigadores utilizan los datos descargados del repositorio para realizar y validar su investigación. Como salida, en este proceso se generan nuevos datos, que es el resultado de la aplicación de los algoritmos o métodos de la investigación al juego de datos inicial. Las bases de datos empleadas en la investigación deben ser debidamente referenciadas. La salida a este proceso son los resultados de la investigación.
Interpretación y evaluación: en este paso se analizan los resultados del uso de las bases de datos. Se suben al repositorio los resultados de las investigaciones, los cuales podrán ser utilizados en comparaciones de técnicas y algoritmos en otras investigaciones. En este proceso la salida es el conocimiento generado en las investigaciones realizadas sobre los datos del repositorio para la gestión de proyectos.
Para la gestión y publicación del repositorio, son importantes los siguientes roles:
Gestor del repositorio: personal encargado de mantener el orden y limpieza de los datos en el repositorio.
Investigador: es todo aquel que utilizará los datos para el desarrollo y validación de su investigación.
Estructura del repositorio
En el repositorio, cada base de datos está representada por un fichero .name y .data, similar a la estructura del UCI Repository (Blake 1998) (Blake y Merz 2015):
El fichero .name representa la estructura de la base de datos y debe contener la siguiente información:
Título: nombre de la base de datos, debe ser representativo al área de conocimiento de la gestión de proyectos correspondiente a los datos que la contiene.
Fuente: entidad o institución que provee los datos. Acá se deberá ofrecer la mayor cantidad posible de datos de contacto e identificación; ejemplo, dirección, teléfonos, correos, etc.
Citado: la forma en que debe ser citada la base de datos, no deberá faltar el nombre ni la fecha en que se proveyeron los datos.
Historial de uso: se listan todas las investigaciones realizadas con esa base de datos, referenciando cada una de las publicaciones.
Información relevante: es donde se describen los atributos que conforman la base de datos.
Cantidad de registros de la base de datos.
Cantidad de atributos.
Valores de atributos ausentes: se indica el término o valor que se utilizará en los casos de valores ausentes.
Información sobre datos anómalos: en los atributos que sea necesario, se especifica el valor a partir del cual se considera que es un dato anómalo o fuera de rango.
El fichero .data es un fichero texto en formato ´csv´ que contiene los datos de cada uno de los registros y los atributos en el mismo orden que se explicaron en el fichero .name.
La versión actual del repositorio está compuesta por las siguientes bases de datos:
Asociadas a la temática de evaluación de proyectos y programa:
Base de datos de gestión de proyectos: contiene información general de proyectos que puede ser usada para la estimación de tiempo y costo de proyectos.
Base de datos de evaluación de proyectos: contiene información de los indicadores en los diferentes cortes evaluativos de los proyectos con datos mezclados.
Base de datos de evaluación de proyectos hard: contiene información de los indicadores en los diferentes cortes evaluativos de los proyectos con datos duros. Está basada en indicadores con valores nominales que evalúan a los proyectos.
Base de datos de evaluación borrosa de proyectos: contiene información de los indicadores en los diferentes cortes evaluativos de los proyectos con datos borrosos.
Base de datos de gestión de indicadores: contiene información de indicadores generales de proyectos.
Base de datos de gestión de indicadores del cliente: contiene información de indicadores generales de programas de proyectos asociados a clientes. Relaciona indicadores orientados al cliente.
Base de datos de gestión de indicadores de la organización: contiene información de indicadores generales de control de organizaciones orientadas a proyectos. Relaciona indicadores orientados a la organización.
Base de datos de gestión de indicadores de programas: contiene información de indicadores generales de programas de proyectos asociados a temáticas. Relaciona indicadores orientados a programas.
Asociadas a la temática de asignación a los proyectos de recursos humanos y no humanos:
Base de datos de gestión de tareas: contiene información general sobre las tareas y su ejecución.
Base de datos de asignación de recursos a tareas: contiene información general sobre la asignación de recursos a las tareas.
Base de datos de gestión de recursos humanos y materiales: contiene información general sobre la asignación de los recursos humanos y no humanos.
Asociadas a la temática de gestión de alcance:
Base de datos de gestión de requerimientos: contiene información general sobre la gestión de requerimientos.
Base de datos de gestión de cambios: contiene información general sobre la gestión de cambios.
Asociadas a la temática de gestión de riesgos:
Base de datos de gestión de riesgos: contiene información general sobre la gestión de riesgos.
Base de datos de gestión de desviaciones: contiene información general sobre la gestión de desviaciones.
Asociadas a la temática de gestión de recursos humanos:
Base de datos de gestión de competencias de usuarios: relaciona los usuarios y las competencias que estos presentan. Está basada en 4 indicadores que arrojan una evaluación del usuario, la cual se almacena con términos lingüísticos (Torres López, 2015).
Base de datos de gestión de los indicadores de los recursos humanos del proyecto: contiene información general sobre la gestión de los indicadores de los recursos humanos del proyecto. Relaciona indicadores que arrojan una evaluación cualitativa y cuantitativa del recurso humano por proyectos (Torres López 2011).
Base de datos de gestión de los indicadores de los recursos humanos de la organización: contiene información general sobre la gestión de los indicadores de los recursos humanos de la organización. Relaciona indicadores que arrojan una evaluación cualitativa y cuantitativa de los recursos humanos que almacena.
A continuación, se exponen las características generales de las bases de datos que conforman el repositorio. Ver Tabla 1
En la Tabla 2 se muestra un breve análisis en el que se manifiesta la relación de las bases de datos del repositorio con 9 áreas de conocimiento de la gestión de proyecto propuestas por el PMBOK y la ISO 21500.
RESULTADOS Y DISCUSIÓN
En esta sección se presentan las experiencias en el uso del repositorio. Se organiza esta sección considerando los siguientes conjuntos de indicadores:
Indicadores asociados al nivel de explotación del repositorio en investigaciones de doctorado y maestría.
Indicadores asociados a la calidad percibida de usuarios finales del repositorio.
El repositorio ha permitido el aumento de las investigaciones asociadas a la gestión de proyectos ver Figura 2. Se relacionan a continuación investigaciones realizadas que emplearon el repositorio en la validación de resultados.
Investigaciones de doctorado terminadas que han utilizado el repositorio en la validación:
Modelo de control de proyectos basado en análisis geo-referencial para la ayuda a la toma de decisiones (Jiménez Moya, 2017).
Modelo para el aseguramiento de ingresos en organizaciones orientadas a proyectos basado en minería de datos anómalos (Castro Aguilar, 2017b)
Modelo para el análisis de factibilidad de proyectos de software en entornos de incertidumbre (Peña Abreu, 2017).
Modelo para el control de la ejecución de proyectos basado en soft computing (Lugo García, 2015).
Modelo de evaluación de competencias a partir de evidencias durante la gestión de proyectos (Torres López, 2015).
Modelo ontológico de recuperación de información para la toma de decisiones en gestión de proyectos (Fernández Hernández, 2016).
Investigaciones de maestría que han utilizado información del repositorio:
Modelo para el control de la ejecución de proyectos basado en indicadores y lógica borrosa (Lugo García, 2012).
Modelo para análisis de factibilidad en la evaluación de proyectos de software (Peña Abreu, 2012).
Modelo para la evaluación de la composición de equipos de proyectos informáticos (Rodríguez Stiven, 2012).
Modelo para la evaluación de competencias como problemas multietiquetas a partir de sistemas basados en casos (Perdomo Alonso, 2013).
Algoritmo de sumarización lingüística como apoyo a la toma de decisiones en gestión de proyecto (Piñera Trinchet, 2013).
Descubrimiento de conocimiento a partir de la relación rasgos de la personalidad-rendimiento laboral en proyectos informáticos (Pacheco Rodríguez, 2014).
Sistema basado en técnicas de soft computing para la evaluación de la ejecución de proyectos (Bermudez Peña, 2015).
Procedimiento para la aplicación de test de personalidad como apoyo a la gestión de recursos humanos en proyectos informáticos (López 2018).
Respecto a la cantidad de artículos científicos que emplean el repositorio, se generaron un total de 22 publicaciones como se muestra a continuación:
A New Neutrosofic Cognitive Map with Neutrosophic Sets on Connections, Application in Project Management (Hasan Al-Subhi, Pérez Pupo, García Vacacela, Piñero Pérez, & Yelandy Leyva, 2018).
Extensions to Linguistic Summaries Indicators based on Neutrosophic Theory, Applications in Project Management Decisions (Pérez Pupo, Piñero Pérez, García Vacacela, Santos Acosta, & Yelandy Leyva, 2018)
Descubrimiento de resúmenes lingüísticos para ayuda a la toma decisiones en gestión de proyectos (Pupo, Acosta, Vacacela, Pérez, & Ramírez, 2018).
Construcción de resúmenes lingüísticos a partir de rasgos de la personalidad y el desempeño en el desarrollo de software (Pupo, Gómez, Varona, Pérez, & Vacacela, 2018).
Sistema clasificador borroso basado en algoritmos genéticos para evaluar el estado de ejecución de proyectos. (Rodríguez Rodríguez, Peña Abreu, Castro Aguilar, Pérez, & Yobanis, 2017)
Project Control and Computational Intelligence: Trends and Challenges. (García, Peña, Pérez, & Pérez, 2017)
PRODANALYSIS, un Sistema para el Aseguramiento de Ingresos Basado en Minería de Outliers (Aguilar et al. 2016).
Plataforma para aseguramiento de ingresos, aplicación en gestión de proyectos y telcos (Castro Aguilar, Pérez Pupo, Piñero Pérez, & García Vacacela, 2016).
Rough Sets for Human Resource Competence Evaluation and Experiences (López, Aguilar, Pupo, Pérez, & Diéguez, 2016).
Experiencias usando algoritmos genéticos en la planificación de proyectos (García Vacacela, Pérez Pupo, Villavicencio, Piñero, & Beovides, 2016).
Ecosistema de Software GESPRO-16.05 para la Gestión de Proyectos (Sosa González, Pérez Pupo, García, Peñaherrera, & Piñero Pérez, 2016).
Elección entre una metodología ágil y tradicional basado en técnicas de soft computing (Boaventura José, Peña Herrera, Verdecia Vicet, & Fustiel Alvarez, 2016).
SIGESPRO: Sistemas de Información Geográfica para controlar proyectos (Moya, Ernesto, León Companioni, Piñero Pérez, & Romillo Tarke, 2016).
An algorithm evaluation for discovering classification rules with gene expression programming (Guerrero-Enamorado, Morell, Noaman, & Ventura, 2016).
Experiencias en la integración de procesos en las organizaciones orientadas a proyectos de software. (Villavicencio Bermúdez, Peña Abreu, Burneo Valareso, & Pérez Pupo, 2016)
Red neuronal multicapa para la evaluación de competencias laborales. (López, Cuza, Pérez, & Diéguez, 2016)
Rough Sets for Human Resource Competence Evaluation and Experiences. (López, Aguilar, et al., 2016)
Aplicación de la minería de datos anómalos en organizaciones orientadas a proyectos. (Castro Aguilar, Pérez Pupo, Piñero Pérez, Martínez, & Crúz Castillo, 2016).
Método para el aseguramiento de ingresos en entornos de desarrollo de software. (Castro Aguilar, Pérez Pupo, Piñero Pérez, & García Vacacela, 2016)
Creation and evaluation of software teams a social approach. (Torres, Piñero, Piñero, & Capretz, 2015)
Técnicas formales y de inteligencia artificial para la gestión de recursos humanos en proyectos informáticos. (Torres-López et al., 2014)
Gestión de recursos humanos para centros de desarrollo de sistemas de información. (López, García, Pérez, & Fuentes, 2014).
A continuación, se muestra el estudio realizado sobre calidad percibida de los investigadores que han utilizado datos del repositorio. Los investigadores involucrados suman 57 personas entre estudiantes de maestría, estudiantes de doctorado e investigadores. Se diseñan una encuesta asociada al uso del repositorio que evalúa las siguientes variables: pertinencia del repositorio y la usabilidad. Las preguntas son formuladas de forma tal que las respuestas corresponden a alguno de los siguientes términos lingüísticos LBTL = {ninguno, muy bajo, bajo, medio, alto, muy alto, perfecto}. Las respuestas de los investigadores a cada pregunta son agregadas y computadas empleando la técnica de computación con palabras 2-tuplas (Herrera & Martínez, 2000).
Los resultados obtenidos se muestran a continuación. Ver Tabla 3
En general se manifiesta un alto nivel de satisfacción en el uso del repositorio. Respecto a la variable pertinencia el criterio con menor puntuación fue el nivel de exclusividad del repositorio elemento que se debe a la existencia del repositorio PSPLIB para el desarrollo de investigaciones asociadas a la resolución de problemas de optimización. Pero realmente no se ha encontrado por parte de los autores de este trabajo otros repositorios públicos para el desarrollo de investigaciones en gestión de proyectos de software. Respecto a la variable usabilidad los criterios con más baja evaluación fueron: el nivel de accesibilidad del repositorio, la calidad de los datos respecto a la cantidad de valores ausentes y la satisfacción respecto a la ayuda en el uso del repositorio. Son elementos que se deben continuar trabajando por parte de los autores para garantizar mayores niveles de uso del mismo.
CONCLUSIONES
La construcción del repositorio de investigaciones en gestión de proyectos posibilita el desarrollo de disímiles investigaciones en esta área temática. En particular el repositorio presentado en esta investigación contiene 18 bases de datos asociadas a proyectos de software y cubren la mayoría de las áreas de conocimiento de gestión de proyectos con las plantean el PMBOK y la ISO 21500. En general se han desarrollado más de 20 publicaciones que usan los datos del repositorio, así como tesis de doctorado y maestría. Los investigadores beneficiados con el uso del repositorio manifiestan un alto grado de satisfacción con el mismo, considerando tanto la pertinencia como la usabilidad. Los elementos que los autores consideran que se deben continuar trabajando para lograr mejores resultados son: el nivel de accesibilidad del repositorio, la calidad de los datos respecto a la cantidad de valores ausentes y la satisfacción respecto a la ayuda en el uso del repositorio.