0864-2141

S0864-21411996000100001

Cuba

00 12 1996

10 1 1 2

Las curvas ROC y las medidas de detectabilidad para la validación de predictores del rendimiento docente Lic. Jorge Bacallao Gallestey¹

Licenciado en Matemática. Instituto Superior de Ciencias Básicas y Preclínicas "Victoria de Girón".

RESUMEN

Se introducen las conocidas curvas ROC (relative operating characteristic) y sus medidas de detectatibilidad asociadas, para la validación de varios predictores del rendimiento académico. Se hace énfasis en las ventajas de este instrumento sobre otras medidas clásicas conocidas como la sensibilidad y la especificidad, para comparar la efectividad de diferentes variables con fines pronósticos. Se exponen algunos resultados relacionados con el fundamento, la interpretación y las expresiones para el cálculo de las diferentes medidas de detectabilidad y se ilustra la aplicación de estas medidas para mostrar las ventajas del índice académico sobre las pruebas de ortografía en el pronóstico del aprovechamiento docente en la enseñanza médica superior.

Palabras clave: LOGRO, CURVA ROC.

INTRODUCCION

El análisis de las curvas ROC surgió como instrumento en el dominio tecnológico de la detección de señales y pronto encontró sus primeras aplicaciones médicas en el campo de la Psicología, particularmente en estudios de percepción, donde ha sido ampliamente utilizado.¹ Otras aplicaciones médicas incluyen la comparación de técnicas de imagenología^2,3 y de procedimientos diagnósticos,⁴ y más recientemente, la selección de factores de riesgo.⁵

Difícilmente pueda concebirse en medicina y epidemiología un problema tan común como la segregación entre sujetos sanos y enfermos sobre la base de un atributo continuo X. Este problema implica, usualmente, escoger un punto de corte c_o que minimice alguna función de la frecuencia relativa de falsos positivos y falsos negativos. La elección del punto de corte y la correspondiente regla de decisión

si X > c_o entonces SANO

si X £ c_o entonces ENFERMO...

da lugar a una tabla 2 x 2 como la que ilustra la tabla 1.

TABLA 1. Tabla de clasificación para el punto de corte c_o

	]]> Grupo real
Clasificación	Sanos (s)	Enfermos (e)
Sano (S)	p (S/s)	p (S/e)
Enfermos (E)	p (E/s)	p (E/e)
	1	1

p (E/e):probabilidad de clasificar como enfermo a un sujeto que realmente lo está (probabilidad de verdadero positivo).
p (E/s):probabilidad de clasificar como enfermo a un sujeto sano (probabilidad de falso positivo). ]]> p (S/s):probabilidad de clasificar como sano a un sujeto realmente sano (probabilidad de verdadero negativo).
p (S/e):probabilidad de clasificar como sano a un sujeto enfermo (probabilidad de falso negativo).

La curva ROC es el gráfico, en un sistema de ejes cartesianos, de los valores de p (E/s) en el eje de las abscisas, contra p (E/e) en el de las ordenadas, para varios puntos de corte.

Pese a que la predicción del aprovechamiento académico se aviene perfectamente con este esquema, las curvas ROC no se han empleado para validar predictores del rendimento. En varios trabajos previos^6-8 Bacallao et al. han estudiado la relevancia de algunos predictores del rendimiento, pero utilizando enfoques diferentes. En un caso⁶ mediante la aplicación de un análisis de la varianza multidimensional con los tests de significación clásicos de los modelos lineales para los parámetros del modelo; en otro,⁷ calculando las medidas usuales de sensibilidad y especificidad y las estimaciones puntuales del riesgo relativo; y en otro,⁸ calculando intervalos de confianza observados y esperados de éxito según categorías de la probabilidad estimada.

El presente trabajo se propone exponer y discutir, a grandes rasgos, las propiedades y el significado de las curvas ROC y de varios de sus parámetros asociados y argumentar las ventajas que se derivan de su aplicación.

METODOS

NOTACION

En lo sucesivo E y F designan los pronósticos de éxito y fracaso, respectivamente, para un estudiante cualquiera, mientras que e y f representan el resultado de éxito o fracaso que alcanzó finalmente dicho estudiante. La definición operacional de lo que constituye éxito y fracaso en un resultado académico se da en trabajos previos.^6,7

p (E/e): probabilidad de verdadero negativo (de pronosticar éxito a un estudiante que finalmente tiene éxito).
p (E/f): probabilidad de falso negativo (de pronosticar éxito a un estudiante que a la postre fracasa).
p (F/f): probabilidad de verdadero positivo (de pronosticar fracaso a un estudiante que al final fracasa).
p (F/e ): probabilidad de falso positivo (de pronosticar fracaso a un estudiante que finalmente tiene éxito). ]]> LA CURVA ROC

La curva ROC para un predictor cualquiera del rendimiento es el gráfico de los valores de p (F/f) contra (F/_) para varios puntos de corte c_o, c₁,...,c_k del predictor en cuestión. El cociente entre estas 2 probabilidades en un punto cualquiera sobre la curva, es el llamado cociente de las verosimilitudes. Cada punto sobre la curva reconstruye completamente una tabla de contingencia 2 x 2 como la que representa la tabla 1, ya que las otras 2 probabilidades que completan la tabla, son el complemento con respecto a la unidad de las que muestra la curva. En efecto:

p (E/e ) = 1 - p (F/f)

p (E/e ) = 1 - p (F/e )

Un predictor es mejor cuanto más se separe de la recta p(F/f) = p(F/e), es decir, cuanto mayor sea el área comprendida entre su curva ROC y aquella recta que representa el resultado de una clasificación aleatoria.

Es importante subrayar que la curva ROC resume toda la información contenida en las tablas 2 x 2 que originan todos los puntos de corte, y que, por esta razón, es mucho más informativa que las medidas usuales de efectividad como la sensibilidad, la especificidad o el riesgo relativo, que se refieren sólo a un punto de corte, supuestamente óptimo.

La tabla muestra los valores de p (F/f) y p(F/e) correspondientes a varios puntos de corte, para los predictores índice académico (IA) y prueba de ortografía (ORTO) obtenidos a partir de la matrícula y los resultados de un curso académico en el ICBP "Victoria de Girón". En los gráficos 1 y 2 aparecen las curvas ROC correspondientes a estos 2 predictores. En ellas se aprecia claramente la superioridad del índice académico.

TABLA 2. Probabilidad de falsos positivos y verdaderos positivos para varios puntos de corte de los predictores IA y ORTO

Puntos	IA		]]> ORTO
de corte	p(F/e)	p(F/f)	p(F/e)	p(F/f)
1	,04	,10	,05	,09
2	,13	]]> ,27	,41	,52
3	,20	,36	,49	,59
4	,42	,69	,59	]]> ,70
5	,70	,91	,67	,77
6	,87	,98	,76	,83
7	,96	]]> ,99	,88	,94

LAS MEDIDAS DE DETECTABILIDAD

Se han propuesto diversas medidas, llamadas "de detectabilidad" para caracterizar completamente a una curva ROC, sin referirse a ningún punto de corte en particular.

Entre ellas se encuentran:

a) d = | Z (F/f) - Z(F/e) | en donde:

Z(F/f) =f ^-1 {p(F/f)}

Z(F/_) =f ^-1 {p(F/e)}

y f^-1 es la transformación normal inversa.

Es posible demostrar (anexo) que si el predictor X se distribuye normalmente y con la misma varianza en "e" y en "f", los puntos ]]> {Z_i(F/f); Z_i(F/e)}_o#i#k

describen una línea recta con pendiente 1 y ...

d = me - m_f en donde:                   s

m_f: media del predictor en los estudiantes que fracasaron.

me: media del predictor en los estudiantes con éxito.

s: desvío estándar común a ambos grupos.

Cuando las varianzas son iguales, ocurre, como ya se ha expresado, que:

Z_i(F/f) = a + Z_i(F/e) (puesto que la pendiente es 1) de suerte que...

d es constante e igual al intercepto de la recta, por lo que puede calcularse para un punto de corte c_i arbitrario.

Si las varianzas son desiguales, la pendiente b ¹ 1 y d no es constante a lo largo de la curva, por lo que se necesitan otras medidas de detectabilidad, entre las cuales se cuentan:

b) D(dm,s), que proporciona 2 parámetros de la curva ROC que se definen del modo siguiente:

s es la pendiente de la curva (se demuestra que s = se/s_f en donde se y s_f son las desviaciones estándar del predictor en los estudiantes con éxito y con fracaso, respectivamente). ]]> me - m_f dm = se

(Puede demostrarse igualmente que dm = d en el punto de corte para el cual Z(F/f) = 0).

dm y s pueden obtenerse tanto gráfica como analíticamente.

c) d_e, que se define como el valor de d en el punto, en escala inversa normal, para el cual p(F/f) + p(F/e)= 1

Puede demostrarse que:

      me - m_f  d_e= 2---------        y por       se + s_f

tanto

   me - m_f  d_e=-------  si se = s_f = s              s

d) A_z, que se define como el área bajo la curva ROC. Es fácil ver que A_z varía entre 0,5 en el caso de detectabilidad nula (el área debajo de la recta p(F/f) = p(F/e), y 1 en el caso de detectabilidad absoluta, es decir p(F/f) = 1 y p(F/e) = 0 cualquiera sea el punto de corte.

Para distribuciones normales, A_z es el área bajo la curva normal estándar hasta el punto Z_A que puede obtenerse analíticamente, y también a partir de la curva ROC, expresada en la escala normal inversa.⁹ ]]> Puede demostrarse (anexo) que

      me - m_f  Z_A = -----------      \/s²e + s²_f

Gráficamente, Z_A puede obtenerse como la distancia perpendicular a la curva ROC, expresada en unidades de desviación normal, desde el origen de coordenadas.

Algunos autores proponen calcular d_A = \/ 2 Z_A cuyo rango de variación lo hace comparable con d y d_e.

UN ALGORITMO PARA LA VALIDACION DE LOS PREDICTORES

Se describe a continuación una sucesión de pasos, que definen un algoritmo para la construcción y ulterior análisis de las curvas ROC, en su aplicación para la validación de predictores del rendimiento:

1. Para distintos puntos de corte c_o, c₁,...,c_k se calculan

{p_i (F/e), p_i (F/f)}_o£i£k

2. A partir de estos puntos se construye así la curva ROC.

3. Se lleva a cabo la transformación a unidades de desviación normal estándar:

p_i (F/e) Þ Z_i (F/e) ]]> p_i (F/f) Þ Z_i (F/f) 4. Se obtiene la recta mínimo-cuadrática Z_i (F/f) = a + b Z_i (F/e) que corresponde al modelo de regresión lineal simple

Z_i (F/f) = a + b Z_i (F/e) + e_i y se verifica su buen ajuste por los métodos convencionales. Se resuelve además el problema de prueba de hipótesis.

H_o: b = 1 vs. H_A: b …¹ 1

5. Si no puede rechazarse la hipótesis H_o, se obtiene directamente d (obsérvese que en ese caso d = a).

6. Si se rechaza H_o, entonces debe calcularse alguna de las medidas de detectabilidad expuestas anteriormente. (Swets et al.¹⁰ consideran a A_z la mejor de estas medidas).

En la tabla 3 se exponen los resultados del ajuste de la recta mínimo-cuadrática descrito en el paso 4 de este algoritmo, y en la tabla 4, los valores de las distintas medidas de detectabilidad para ambos predictores sobre la base de los resultados obtenidos durante el curso 88-89. TABLA 3. Parámetros de la recta Z(F/f) = a+b Z(F/_e ) para los predictores IA y ORTO

Predictor	F (del buen ajuste)	t (para H_o:b = 1)
IA	446,350	2,13
	]]> (p=,000)	(p£0,5)
ORTO	2860,320	1,52
	(p=,000)	(ns)

TABLA 4. Medidas de detectabilidad para las curvas ROC de los predictores IA y ORTO

Medidas de detectabilidad	IA	ORTO
d -	]]> -	0,28
D (d_m ,s)	(0,61;1,02)	(0,28;0,91)
d_e	0,62	0,26
A_z	0,67	0,58
Z_A	0,44	0,19
d_A	]]> 0,62	0,26

DISCUSION

Este trabajo introduce el uso de las curvas ROC a una nueva área de aplicación: la predicción del rendimiento docente. La mayor utilidad que puede tener este instrumento se relaciona con la posibilidad de comparar varios predictores a todo lo largo de su recorrido, y no sólo en torno a un punto de corte que supuestamente da lugar a la condición de máxima u óptima discriminación del predictor.

La arbitrariedad en la elección a posteriori de un punto de corte que minimice alguna función de la clasificación errónea (por falsa positividad y falsa negatividad) ha sido señalada y ampliamente discutida en un trabajo anterior.¹¹

Cuando se utilizan las curvas ROC no hay necesidad de circunscribirse a la elección de un punto de corte arbitrario. En el pronóstico del rendimiento, este hecho es de gran importancia: cuando se desea comparar varios predictores del rendimiento según su comportamiento en un curso académico cualquiera, la comparación se lleva a cabo de ordinario sobre la base de la especificidad, la sensibilidad, los valores predictivos y el riesgo relativo, que se asocian a puntos de corte encontrados en un curso anterior. Este procedimiento, que por supuesto, no es privativo de la predicción del rendimiento, sino que es práctica común en la validación y comparación de un conjunto de criterios diagnósticos o pronósticos, puede dar una imagen distorsionada de la relevancia relativa de los predictores, porque el punto de corte óptimo puede variar en el tiempo.

La reducción de la curva ROC a un único parámetro que describa su comportamiento, no está exenta del riesgo anterior. Esta es la razón de mayor fuerza para proponer como medida de detectabilidad a A_z que mide el área completa bajo la curva, mejor que dm o d_e, que seleccionan sólo un punto de la curva.

Como se observa en la tabla 3, el modelo lineal representa adecuadamente la relación entre Z(F/f) y Z(F/_e ) para ambos predictores, pero sólo para ORTO la pendiente es igual a 1. De aquí se deduce que para comparar a ambos predictores no puede utilizarse a d como medida de detectabilidad, ya que ésta sólo tiene sentido para uno de ellos.

Cualquiera de las medidas de detectabilidad apropiadas, aplicadas a la evaluación comparativa de IA y ORTO muestra la superioridad del primero como predictor del rendimiento y confirma lo que se observa claramente en las figuras 1 y 2: la curva ROC de IA limita un área mayor con respecto al eje de las abscisas que la que corresponde a ORTO.

SUMMARY

The well-know ROC curves (relative operating characteristic) and their associated detectability measures, are introdced for the validation of several predictors of the academic achievement. Emphasis is made on the advantages of this instrument over other know classic measures, as sensitivity and specificity, to compare the effectiveness of several variables with prognostic purposes. Several results related with the foundation, interpretation and expressions for calculating the different detectability measures, are exposed, and the application of these measures is illustrated, to show the advantages of the academic index over the orthography tests in the prognostic of the educational achievement in the superior medical education.

Key words: ACHIEVEMENT; ROC CURVES.

REFERENCIAS BIBLIOGRAFICAS

Swets JA. The relative operating characteristics in psychology. Science 1973;182:990-1000.
Lusted LB. Signal detectability and medical decision-making. Science 1971;171:1217-9.
Swets JA. ROC analysis applied to the evaluation of medical imaging techniques. Invest Radiol 1979;14:109-21.
McNeil BJ, Adelstein SJ. Determining the value of diagnostic and screening tests. J Nucl Med 1976;17:439-48.
Erdreich LS, Lee ET. Use of relative operating characteristic analysis in Epidemiology. Am J Epidemiol 1981;114:649-62.
Bacallao J, Aneiros R, Rodríguez E, Romillo MD. Pronóstico y evolución del rendimiento académico en un ensayo pedagógico controlado. Educ Med Sup 1992;2:91-9.
Bacallao J, Valenti J, Rodríguez E, Romillo MD. Un enfoque bayesiano no paramétrico del pronóstico del rendimiento académico. Educ Med Sup 1991;1:29-37.
Bacallao J, Antón M, Rodríguez E. La validación del pronóstico del rendimiento en un centro de enseñanza médica superior. Educ Med Sup 1991;2:75-82.
Simpson AJ, Fitter MJ. What is the best index of detectability? Psychol Bull 1973;80:481-8.
Swets JA, et al. Assessment of diagnostic technologies. Science 1979;205:753-9.
Bacallao J. Un procedimiento estadístico para la validación de los modelos de predicción. Rev Cubana Cienc Matemat 1987;5:113-9.
Fuller G. Analytic geometry. Boston: Addison-Wesley, 1956.

Recibido: 1 de diciembre de 1995. Aprobado: 22 de diciembre de 1995.
Lic. Jorge Bacallao Gallestey. Instituto Superior de Ciencias Básicas y Preclínicas "Victoria de Girón". Ciudad de La Habana, Cuba. ]]>

1973 182

990-1000

1971 171

1217-9

1979 14

109-21

1976 17

439-48

1981 114

649-62

1992 2

91-9

1991 1

29-37

1991 2

75-82

1973 80

481-8

1979 205

753-9

1987 5

113-9

1956