SciELO - Scientific Electronic Library Online

 
vol.29 número2Papel crucial de la mitocondria en la muerte celular programada índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Revista Cubana de Investigaciones Biomédicas

versión On-line ISSN 1561-3011

Rev Cubana Invest Bioméd v.29 n.2 Ciudad de la Habana abr.-jun. 2010

 

TÉCNICAS

 

R: una herramienta poco difundida y muy útil para la investigación clínica

R: a not much spread and very useful tool for clinical research

 

 

MayelÍn Mirabal SosaI, Maytee Robaina GarcíaII, Rolando Uranga PiñaIII

ILicenciada en Matemáticas. Asistente. Centro de Investigación y Producción de Vacunas. Instituto "Finlay". Ciudad de La Habana, Cuba.
IIEspecialista de I Grado en Bioestadística. Centro Nacional Coordinador de Ensayos Clínicos. Ciudad de La Habana, Cuba.
IIILicenciado en Matemáticas. Máster en Estadística. Centro Nacional Coordinador de Ensayos Clínicos. Ciudad de La Habana, Cuba.






RESUMEN

Con el fin de estimular el uso de R en la investigación clínica y a partir de la experiencia con este software para el procesamiento y análisis de datos, se muestran algunas de sus características y las principales ventajas que ofrece su utilización en el campo de los ensayos clínicos. R es un software libre, flexible y dinámico, con una amplia variedad de técnicas estadísticas que se incorporan rápidamente y hacen posible su aplicación. Permite cómodamente presentar la información correspondiente a los usuarios, a la vez que hace posible registrar el proceso estadístico de forma que la documentación quede disponible a posibles auditorias que avalen los resultados obtenidos del estudio.

Palabras clave: R, software estadístico, software libre, ensayos clínicos.


ABSTRACT

To encourage the use of R in the clinical research and from the experience with this software for data processing and analysis, some of its features and the major advantages offering its use in the clinical trials are showed. R is free, flexible and dynamic software with a wide variety of statistical techniques of fast incorporation and that make possible its application. It allow in a conveniently way to present the corresponding information to users since make easy to register the statistical process making that documentation be available to potential audits supporting the results obtained from study.

Key words: R, Statistical software, free software, clinical trials.






Es conocida la existencia de una amplia variedad de paquetes estadísticos que se utilizan para el análisis de datos en la investigación clínica. Dentro de los más referenciados se destacan: STATISTICA, S-plus, SAS, SPSS, R y otros.

De los software mencionados, excepto R, todos son comerciales; o sea, hay que comprar una licencia y además pagar para su actualización. En Cuba, R es poco conocido y, por tanto, muy poco explotado a pesar de que tiene características que, en nuestra opinión y experiencia, pudieran beneficiar a los usuarios de este tipo de herramienta.

Dentro de las investigaciones clínicas, los ensayos clínicos son los estudios que se encuentran sujetos a las más estrictas regulaciones. Si bien el uso de programas estadísticos para el análisis y presentación de los datos recolectados en el curso de esta actividad puede ser diverso, es preferible utilizar herramientas que, además de ser amplias y confiables en la variedad de técnicas estadísticas a utilizar, permitan documentar la manipulación y el procesamiento que se realiza a los datos originales. Lo anterior posibilitará que los resultados que se generen estén disponibles a posibles auditorias.1,2

En el año 2005, en el marco de la Convención Internacional Informática 2005, se dio a conocer un programa que establece la realización progresiva de cambios en los sistemas de los órganos y organismos del Estado y el Gobierno cubanos hacia la plataforma de software libre.3 Teniendo en cuenta la migración de las aplicaciones hacia software libre que viene realizándose en Cuba y otras características que se expondrán en el presente trabajo, el uso de R para las investigaciones en diversas áreas de investigación clínica, y en particular para los ensayos clínicos, puede ser una opción muy tentadora.

El presente trabajo tiene como objetivo fundamental estimular el uso de R, basado en una breve descripción de las principales ventajas que posee este sistema, así como en las posibilidades que proporciona para el diseño y el análisis de ensayos clínicos. Con este fin se realizó una revisión bibliográfica acerca de las posibilidades que ofrece R para ejecutar análisis estadísticos. Se consultaron textos relevantes en el marco de las regulaciones aplicables a los ensayos clínicos. Se exponen las características fundamentales del trabajo con este software a través de ejemplos tomados de la experiencia en el uso de R en el campo de los ensayos clínicos en vacunas en el Instituto "Finlay".


¿QUÉ ES R?

R4 es un entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas como modernas, que está enmarcado dentro de la plataforma GNU y se distribuye con licencia GNU GPL (del inglés General Public License).5 Están disponibles versiones de R para Windows de Microsoft, Unix, Linux y MacOS.6


¿CÓMO SURGE R?

En la década de los años 80 fue desarrollado un lenguaje específico para realizar cómputos estadísticos denominado S. Posteriormente se desarrollaron una serie de dialectos a partir de S. Dos de los más conocidos son R y Splus, este último una implementación comercial de S. Por el contrario, R es un lenguaje de código abierto como su original S; de ahí que en la literatura algunas veces aparezca con la denominación GNU S.7

Muchos usuarios piensan en R como un sistema estadístico. R es más que eso: es un entorno donde una gran variedad de técnicas estadísticas son cada día implementadas.6 R puede incorporar librerías (rutinas) que contienen, desde técnicas no tan actuales, hasta lo más reciente de las investigaciones en el área de la estadística.

R es hoy día probablemente el entorno más usado por las universidades para investigaciones en estadística, lo cual ha garantizado su robustez. La comunidad de R en el mundo es muy amplia y la integran estadísticos de gran renombre (ej. J. Chambers, L. Terney, B. Ripley, D. Bates, etc.). Desde 1997 existe un grupo de personas denominadas The R Core-Development Team, que se ocupan del mantenimiento del sistema.8 El sitio oficial de este proyecto es: http://www.r-project.org.

 

VENTAJAS DEL USO DE R EN LA INVESTIGACIÓN CLÍNICA

R es uno de los entornos que más se está desarrollando hoy día. Tiene alrededor de 13 librerías estadísticas definidas en su paquete base y ofrece un buen número de paquetes de rutinas especializadas, muy actuales dentro de los paquetes recomendados. Muchas otras se pueden descargar e instalar de la página de paquetes de los colaboradores. Con el uso de R se tiene acceso fácil a una amplia variedad de técnicas estadísticas y gráficas.

Uno de los atractivos de R es que incluye un lenguaje de programación bien desarrollado, simple y efectivo, que admite condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. Este lenguaje es orientado a objetos, muy parecido en su sintaxis a C/C++. Las facilidades de programación incluidas en R son muy amplias, lo que hace más eficiente la implementación de nuevos procedimientos, así como el uso reiterado de funciones existentes.

A modo de ejemplo, suponga que ind es un vector de indicadores de clase y se quiere hacer gráficos de una variable (y) sobre otra (x), separados para cada clase. Una posibilidad para realizar lo anterior será:

xc <- split(x, ind) # produce lista de vectores dividiendo a x y y

yc <- split(y, ind) # de acuerdo con las clases especificadas por ind

for (i in 1:length(yc)) {

plot(xc[[i]], yc[[i]]);

abline(lsfit(xc[[i]], yc[[i]]))

}

En R es permitido editar todas las funciones y ver su implementación, la que se puede modificar de acuerdo con las necesidades del usuario. Por ejemplo, R provee una función denominada fivenum, la cual calcula cinco valores que describen concisamente un conjunto de datos: son el mínimo, los percentiles 25, 50 y 75 y el valor máximo. Si escribimos en la consola del sistema edit(fivenum), obtendremos en el editor de textos que se tenga predefinido lo siguiente:

function (x, na.rm = TRUE) {

xna <- is.na(x)

if (na.rm)

x <- x[!xna]

else if (any(xna))

return(rep.int(NA, 5))

x <- sort(x)

n <- length(x)

if (n == 0)

rep.int(NA, 5)

else {

n4 <- floor((n + 3)/2)/2

d <- c(1, n4, (n + 1)/2, n + 1 - n4, n)

0.5 * (x[floor(d)] + x[ceiling(d)])

}}

Esto puede ser modificado o reutilizado en una nueva función que se desee implementar y que además, por ejemplo, dé como resultado la media y la moda del conjunto de datos.

Igualmente se pueden implementar rutinas que posteriormente se cargan al sistema como nuevos paquetes y que pueden ser enviadas a los colaboradores para su revisión y posterior publicación en la página de estos.

Otra característica importante y atractiva de R está dada por el hecho de que la salida que proporciona cualquier función se puede manipular convenientemente, pues R guarda estos resultados como objetos. Lo anterior significa que usted puede decidir, de toda la información que genera la ejecución de una función, qué es lo que realmente desea mostrar; si es que quiere mostrar algo o puede tomar una parte de esta salida para ser incorporada a la entrada de otra función. Sin embargo, en SAS, SPSS u otro, se obtendrá de modo inmediato una salida copiosa para cualquier análisis. Esta característica de R facilita la elaboración de los informes finales a los investigadores encargados, pues la salida del procesamiento estadístico puede ser presentada de una forma muy accesible y atractiva para los investigadores biomédicos.

Como un ejemplo, supongamos que se quiere comparar la edad (en días) de dos grupos (vacunados y placebos) en un ensayo clínico y solo se desea mostrar el p-valor asociado a la prueba más adecuada. Con la siguiente función se obtendría lo deseado:

ShapT1<-shapiro.test(Edad[Grupo==Vacuva]) # verifica normalidad

ShapT2<-shapiro.test(Edad[Grupo==Placebo])

HomgVar<-levene.test(Edad,Grupo) # verifica homogeneidad de varianza

if((ShapT1[[2]]>0.05)&(ShapT1[[2]]>0.05)&(HomgVar[[3]][1]>0.15))

result <-t.test(Edad ~ Grupo, paired=F, var.equal=T) [[3]]

else result <-wilcox.test(Edad ~ Grupo, paired=F) [[3]]

print(result)

Note que en el ejemplo anterior solo se visualiza lo que se encuentra guardado en result, que será el p-valor resultante de la aplicación de la prueba t de student si se cumplen los supuestos que posibilitan su uso o de la prueba no paramétrica en otro caso.

Con frecuencia, la manipulación de los datos es igual o más laboriosa que el análisis estadístico subsiguiente. El uso adecuado de las facilidades de importación, transformación y presentación de datos que ofrece R puede redundar en drásticas reducciones de trabajo, además de favorecer la legibilidad y presentación de la información. El resultado son salidas autoexplicativas en que los errores son menos probables y de detección mucho más sencilla. Es importante destacar que lo anterior facilita el proceso de documentación de la información, y además contribuye a la rapidez del proceso de procesamiento.

Dentro de las librerías que pueden ser incorporados a R hay varias que permiten conectarlo a gestores de bases de datos, en la misma o en otra máquina. Algunos son: RPgSQL (para PostgreSQL), ROracle (para Oracle), RMySQL (para MySQL) y RODBC (para cualquier origen de datos ODBC).9 A modo de ejemplo, con el paquete RODBC el origen de datos puede ser un fichero local de Microsoft Access, lo que proporciona un modo fácil de importar Access a R.

Supongamos se dispone de una base de datos llamada Eventos y en ella una tabla (EEsperados) que describe los eventos adversos esperados al administrar determinada vacuna. Supongamos que esta base de datos se encuentra ubicada en la raíz del disco C: de una máquina Windows. Para importar el contenido de la tabla EEsperados a R, bastará teclear:

library(RODBC)

Eventos <- odbcConnectAccess("C:\\Eventos")

Esperados <- sqlQuery(Eventos,"select * from EEsperados")

Note que como lenguaje de interrogación se emplea SQL. La facilidad de realizar una consulta a una base de datos externa, permite tratar ficheros muy grandes de los que sólo se importan las observaciones/variables que interesan. SQL es además una herramienta excelente para seleccionar casos que verifiquen condiciones complejas de expresar en R. Esta herramienta también permite adecuar los datos a la forma de entrada que exija cualquiera de los métodos estadísticos que se desea aplicar.

Está claro que R es un entorno poco amigable si no se cuenta con ciertos conocimientos básicos de programación, pero con algo de dedicación. Sobre todo al comienzo de su uso se obtendrán en poco tiempo resultados sorprendentes.

Uno de los fundamentales atractivos de R es la amplia variedad de técnicas gráficas que tiene implementado y que facilitan el análisis y presentación de los datos. Estos gráficos pueden ser mostrados en la pantalla o guardados en el disco duro con una diversidad de formatos. Para presentar la información a los investigadores que además pudieran directamente utilizarlos en sus presentaciones, las facilidades de este recurso ofrece ventajas con respecto a los gráficos de otros softwares.

La literatura sobre R es muy amplia y es gratis, e incluso muchos manuales se encuentran en idioma español. En el sitio oficial de R se puede acceder a un centenar de manuales, que abarca desde los primero pasos con el sistema hasta lo más complejo y actual.

Si bien el ambiente R fue pensado para la estadística, es posible hacer procesamiento de señales. En esta área el lenguaje R compite con MatLab, entre otros. Además, en R se han obtenido extensiones específicas a áreas nuevas, tales como la bioinformática, la geoestadística y los modelos gráficos, entre otros.

Se concluye que para el curso de las investigaciones biomédicas cubanas R es una opción que brinda muchas posibilidades, especialmente para las personas apasionadas de la estadística, que además gustan del software libre. La experiencia con este software en ese contexto ha sido satisfactoria y ha estado basada fundamentalmente en:

1. La robustez del lenguaje
2. La constante actualización y la amplia literatura disponible
3. Amplias facilidades de manipulación de bases de datos
4. La obtención de informes con un formato predeterminado y con la información que se desea
5. Las facilidades gráficas
6. Facilidades para la documentación de todo el proceso de manipulación de los datos y procesamiento estadístico




REFERENCIAS BIBLIOGRÁFICAS

1. International Conference on Harmonisation. E6(R1): Good Clinical Practice: Consolidated Guideline.Tripartite harmonised ICH guideline. 1996. Disponible en: http://www.ich.org/cache/compo/276-254-1.html (acceso en febrero 2008).

2. Robaina M, Uranga R. Software estadístico en los Ensayos Clínicos. Revista Cubana de Informática Médica. 2007; No. 3. Disponible en: http://www.cecam.sld.cu/pages/rcim/revista_14/articulos_htm/ensayosclinicos.htm (acceso en febrero 2008).

3. Bencomo E. Reseña de la Legislación Informática en Cuba. Revista de Derecho Informático. 2007; 102. Disponible en http://www.alfa-redi.org/rdi-articulo.shtml?x=8408 (acceso en Enero de 2008).

4. R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Disponible en http://www.R-project.org

5. The R Foundation for Statistical Computing. R: Regulatory compliance and validation issues. A guidance document for the use of R in regulated clinical trial environments. Disponible en http://www.r-project.org/Certificaction (acceso en Enero 2008)

6. Venables WN, Smith DM y el R Development Core Team. An Introduction to R. Version 1.7.0, 2003.

7. Azola C. An Introduction to S and the Hmisc and Design libraries. Disponible en http://hesweb1.med.virginia.edu/biostat/s/splus.html (acceso en Noviembre 2007)

8. Díaz-Uriarte R. Introducción al uso y programación del sistema estadístico R. Disponible en http://bioinfo.cnio.es/~rdiaz (acceso en Enero de 2008)

9. Tusell F. Lectura, manipulación y análisis de datos en R. Disponible en www.et.bs.ehu.es/~etptupaf/pub/papiros/s-demo3.pdf (acceso en Enero de 2008)



 

Recibido: 12 de marzo de 2010
Aprobado:
30 de abril de 2010

 

 

Lic. MayelÍn Mirabal Sosa. Centro de Investigación y Producción de Vacunas. Instituto "Finlay". Ciudad de La Habana, Cuba. Email: mmirabal@finlay.edu.cu

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons