Al rescate de las pruebas de nivel de entrada como predictores del rendimiento en la enseñanza médica superior

Bacallao Gallestey, Jorge

Mi SciELO

Servicios personalizados

Servicios Personalizados

Articulo

Enviar articulo por email

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Educación Médica Superior

versión impresa ISSN 0864-2141

Educ Med Super v.10 n.1 Ciudad de la Habana ene.-dic. 1996

Instituto Superior de Ciencias Básicas y Preclínicas, "Victoria de Girón" Ciudad de La Habana

Al rescate de las pruebas de nivel de entrada como predictores del rendimiento en la enseñanza médica superior

Lic. Jorge Bacallao Gallestey¹

Licenciado en Matemática. Instituto Superior de Ciencias Básicas y Preclínicas "Victoria de Girón".

RESUMEN

Se reúnen una serie de evidencias dispersas en artículos anteriores y se aportan otras nuevas, basadas en la aplicación de las curvas ROC (relative operating characteristic) para mostrar la conveniencia de utilizar las llamadas "pruebas de nivel de entrada" como predictores del aprovechamiento docente. Las curvas ROC demuestran que estas pruebas pueden ser mejores predictores que algunos de los bien conocidos, como el índice académico o las pruebas de ortografía. Debido a que exploran áreas del conocimiento muy específicas y directamente asociadas con las disciplinas del plan de estudio, estas pruebas podrían servir como complemento valioso de los exámenes de ingreso, y como un elemento adicional para identificar estudiantes de bueno y de mal pronóstico en cada asignatura.

Palabras clave: CURVA ROC; EDUCACION MEDICA; LOGRO; PRUEBA DE ADMISION ACADEMICA; CRITERIOS DE ADMISION ESCOLAR.

INTRODUCCION

Las pruebas diagnósticas o pruebas de nivel de entrada se aplicaban en el ICBP "Victoria de Girón" hace varios años. Sucesivos análisis descriptivos de su comportamiento, por asignatura y global, mostraron y confirmaron su fuerte asociación con el rendimiento del estudiante y condujeron a su perfeccionamiento porgresivo en cuanto a coherencia interna y a índices de discriminación.

La primera validación de las pruebas de nivel de entrada o pruebas diagnósticas (PNE o PD) como parte de una batería de predictores del rendimiento, se llevó a cabo mediante la aplicación de técnicas estadísticas multidimensionales en el marco de un ensayo pedagógico controlado.¹ Aunque en algunas asignaturas (Histología I y BCM) las pruebas diagnósticas no arrojaron una capacidad discriminatoria significativa entre el alto y el bajo rendimiento, en otras (Anatomía I y Embriología I) fueron altamente significativas, y en cuanto a capacidad predictiva global, sólo fueron precedidas por el índice académico. Aquel trabajo exponía las bondades de las PNE, aunque recomendaba que se trabajase en mejorar las de las 2 asignaturas mencionadas.

Una nueva validación de las PNE, entre otros predictores del rendimiento, mediante los índices clásicos asociados a las matrices de clasificación en cuadros de doble entrada,² mostraba de nuevo su relevancia pronóstica. En términos generales, las PNE exhibían valores de sensibilidad ligeramente por debajo del resto de los predictores, valores de especificidad por encima del resto -como era lógico anticipar- y los más altos valores del estimador puntual del riesgo relativo.

Pese a todas estas evidencias favorables, cuando en el curso 89-90 se introducen los exámenes de ingreso en la enseñanza médica superior, se decidió suprimir las PNE (junto a las "pruebas de razonamiento abstracto", que también, aunque en menor medida, habían resultado útiles) y sólo considerar como predictores a los propios exámenes de ingreso, junto al índice académico (IA) y las pruebas de ortografía (ORTO).

El presente artículo reúne una serie de evidencias distribuidas fragmentariamente en trabajos anteriores,^1,2 y utiliza además el recurso instrumental de las curvas ROC -ya referido en una publicación paralela en su aplicación al pronóstico del rendimiento-, con el propósito de llamar la atención acerca de la gran utilidad que pueden tener las PNE, y promover el interés por su aplicación como complemento de los exámenes de ingreso en la educación médica superior.

MATERIAL Y METODO

Los resultados que se exponen en este trabajo se obtuvieron a partir de todos los estudiantes que ingresaron en el ICBP "Victoria de Girón" en el curso académico 88-89, y para los cuales estuviese disponible la información acerca de sus resultados académicos en las asignaturas Anatomía I, Histología I, Embriología I y Biología Celular y Molecular, las PNE, el índice académico, la prueba de ortografía y la prueba de razonamiento abstracto. Estas 4 últimas variables son los 4 predictores del aprovechamiento docente que se seleccionaron en un estudio previo.¹ La matrícula total fue de 811 estudiantes, de los cuales 622 cumplieron con el requisito impuesto. El promedio de estas 4 asignaturas básicas se calculó y se tomó como indicador global del rendimiento. Los predictores fueron dicotomizados sobre la base de la elección (realizada a partir de una muestra de entrenamiento en el curso 87-88) de puntos de corte, siguiendo el procedimiento de minimizar una función de pérdida.^2-4

ANALISIS DE LOS DATOS

Se calcularon las frecuencias relativas de falsos positivos y verdaderos positivos y se construyeron las curvas ROC para los 4 predictores. La curva ROC es el gráfico en un sistema biaxial de p (F/e ) (que designa la probabilidad de pronosticar fracaso a un estudiante que luego tiene éxito) contra p (F/f) (que designa la probabilidad de un pronóstico acertado de fracaso).

Se calcularon además las medidas de detectabilidad más conocidas y la sensibilidad, especificidad y riesgo relativo para los puntos de corte óptimos en el sentido en que define Bacallao et al. (1991).²

El significado, la interpretación y las fórmulas de cálculo para estas medidas de detectabilidad se exponen ampliamente en otra publicación y se resumen brevemente a continuación:

1. d = | Z (F/f) - Z (F/e ) | en donde

Z (F/f) y Z (F/e ) son las transformaciones a unidades de desviación normal de p (F/f) y p (F/e ), respectivamente.

Esta medida se usa sólo cuando el predictor en cuestión se distribuye normalmente y con varianzas iguales en ambos grupos de estudiantes.

2. d_m = d (en el punto de corte para el cual p (F/f) = 0,5 ó Z (F/f) = 0.

Se ha demostrado que

     m_e- m_f  d_m = ------       s_e

... en donde

m_e: media del predictor en los estudiantes con éxito.

m_f: media del predictor en los estudiantes con fracaso.

s_e: desviación típica del predictor en los estudiantes con éxito.

3. d_e = d (en el punto de corte para el cual

p(F/f) + p(F/e ) = 1 o

Z(F/f) = -Z(F/e )

Se ha demostrado que

        m_e- m_f  d_e = 2 -----------         s _e+ s _f

4. A_z que es el área bajo la curva ROC, y que puede calcularse como

     Z_A  A_z = I q (t) dt      -00

en donde...

q (t) es la función de densidad de la distribución normal estándar y

        m_e- m_f  Z_A = -----------      \/ s²_e+ s²_f

RESULTADOS

La tabla 1 reproduce los valores de la prueba F y su significación asociada para la predicción del éxito docente en cada asignatura y global para la prueba de nivel de entrada. Obsérvese que esta prueba demostró ser un predictor relevante del rendimiento global y del rendimiento particular en 2 de las asignaturas. No fue relevante ni en Histología I ni en BCM.

TABLA 1. Valores de la prueba de razón de las varianzas (F) y significación asociada para las PNE, por asignatura y global

Asignatura	Valor de F	p asociada
Anatomía I	5,23*	0,024
Histología I	0,32*	NS
Embriología I	13,88*	£ 0,001
BCM	0,73*	NS
Rendimiento global	3,92**	£0,001

* Se refiere al valor de F correspondiente al predictor PNE en funciones discriminantes lineales entre el éxito y el fracaso, que incluyen además los predictores IA, ORTO y PRA.

** Se refiere al valor de F correspondiente al predictor PNE en una regresión múltiple para la predicción del rendimiento global.

La tabla 2 reproduce los valores de sensibilidad y especificidad y la estimación puntual del riesgo relativo para los 4 predictores en relación con el índice general de rendimiento, y muestra que la PNE tiene los valores más altos de especificidad y riesgo relativo, y que va sólo muy ligeramente rezagada en sensibilidad con respecto al resto de los predictores.

TABLA 2. Valores globales de sensibilidad (%), especificidad (%) y riesgo relativo puntual para todos los predictores del rendimiento

Predictor	Sensibilidad	Especificidad	Riesgo relativopuntual
PNE	88	44	3,61
IA	91	31	2,73
ORTO	79	39	2,97
PRA	90	20	1,65

Leyenda: PNE: prueba de nivel de entrada; IA: índice académico; ORTO: prueba de ortografía; PRA: prueba de razonamiento abstracto.

Los resultados de estas 2 tablas anteriores corresponden al estudio sobre la muestra de entrenamiento del curso 87-88 y fueron tomados de las referencias ya citadas.^1,2

La tabla 3 contiene el cociente de las verosimilitudes para varios puntos de corte de los 4 predictores del rendimiento escogidos a partir de los valores de probabilidad de falsos positivos y verdaderos positivos correspondientes a los puntos de corte elegidos.

TABLA 3. Valores del cociente de las verosimilitudes de los 4 predictores para varios puntos de corte

Punto de corte	IA	ORTO	PNE	PRA
1	2,30	1,63	5,75	1,38
2	2,09	1,26	2,87	1,27
3	1,78	1,21	2,33	1,16
4	1,65	1,18	1,97	1,13
5	1,29	1,15	1,69	1,10
6	1,13	1,09	1,43	1,09
7	1,03	1,07	1,08	1,04

Leyenda: PNE: prueba de nivel de entrada; IA: índice académico; ORTO: prueba de ortografía; PRA: prueba de razonamiento abstracto.

La tabla 4 contiene las medidas de detectabilidad que resumen la información de las curvas ROC.

TABLA 4. Medidas de detectabilidad para los 4 predictores

Medidas de detectabilidad	IA	ORTO	PNE	PRA
d	- -	0,28	- -	- -
D(d_m ,s)	(,61;1,02)	(,28;,91)	(,92;1,34)	(,33;1,09)
d_e	0,62	0,26	1,05	0,35
A_z	0,67	0,58	0,77	0,59
Z_A	0,44	0,19	0,74	0,24
d_A	0,62	0,26	1,04	0,44

Por último, la tabla 5 contiene los valores de sensibilidad y especificidad y la estimación por intervalos de confianza al 95 % del riesgo relativo que correspondería a cada predictor para puntos de corte elegidos a posteriori. Debe observarse especialmente, en la fila correspondiente al valor predictivo positivo (VPP), que las PNE superan ampliamente al resto de los predictores. Más del 50 % de los estudiantes con un pronóstico desfavorable de acuerdo con el dictamen de las PNE, fracasan finalmente. Para los demás predictores, esta cifra no alcanza el 40 %. Otro tanto ocurre con el riesgo relativo: para el 95 % de confiabilidad, los estudiantes por debajo del punto de corte óptimo en las PNE tienen un riesgo de fracaso entre 3,63 y 8,58 veces mayor que los que se encuentran por encima de dicho punto de corte. TABLA 5. Medidas de efectividad para los 4 predictores en el punto de corte óptimo

Medida de efectividad	IA	ORTO	PNE	PRA
Sensibilidad	68,8	51,5	59,3	32,0
Especificidad	58,3	59,1	79,2	76,7
V.P.P.	36,8	30,8	50,3	32,8
V.P.N.	84,1	77,5	84,7	76,2
Riesgo relativo	1,99-	0,78-	3,63-	1,00-
(intervalo al 95 %)	4,71	3,67	8,58	2,41

DISCUSION

Los resultados resumidos de estudios precedentes que aquí se reproducen calificaban a las PNE o PD como buenos predictores. Globalmente se comportaban a la par que el índice académico, con una significación asociada inferior a una milésima, y con altos valores de sensibilidad y riesgo relativo.

No resultaban un buen predictor ni en Histología I ni en BCM. Por este motivo, en Histología I se efectuaron cambios en los contenidos de esta materia, incluidos en las PNE del curso 88-89. El caso de BCM no debe extrañar, porque en esta asignatura ninguno de los predictores resultó relevante. En todas las referencias citadas,^1,2 la situación excepcional de esta asignatura ha sido considerada y explicada detalladamente, al punto que los conceptos de éxito y fracaso académico tienen allí una definición diferente.

Las curvas ROC a través de sus medidas de detectabilidad asociadas, son bien elocuentes en favor de las PNE, incluso sobre el IA. Por ejemplo, A_z, que se ha invocado como el mejor de los índices de detectabilidad,³ es mucho más alto para las PNE que para el resto de los predictores. Debe aclararse que cada una de estas medidas no constituye una pieza adicional de evidencia, sino que todas ellas representan formas alternativas de resumir la información contenida en la curva ROC, y A_z es la más aceptada por basarse en suposiciones menos restrictivas.

Las razones de verosimilitud para distintos puntos de corte que aparecen en la tabla 3 también muestran la superioridad de las PNE sobre el resto de los predictores. Estas razones de verosimilitud representan el cociente entre la probabilidad de verdaderos y de falsos positivos.

Si de todos los puntos de corte utilizados para la construcción de las curvas ROC se eligiese el punto de corte óptimo, en el sentido de minimizar la pérdida por clasificación errónea,^2,4 la sensibilidad, la especificidad, los valores predictivos positivo y negativo y el riesgo relativo, son los que figuran en la tabla 5.

La validación de los modelos de predicción o de predictores simples sobre la base de puntos de corte óptimos elegidos a posteriori, es criticable metodológicamente,⁴ pero sólo cuando la validación descansa únicamente sobre el comportamiento del predictor para estos puntos de corte. Precisamente la utilidad de las curvas ROC radica en que toman en cuenta la capacidad predictiva de la variable a todo lo largo de su recorrido. Este trabajo muestra la superioridad de las PNE en todo su recorrido y también, por supuesto, en el punto de corte óptimo, que se incluye aquí como información complementaria.

La especificidad del conocimiento o las capacidades que exploran estas PNE son de gran utilidad con fines predictivos y no son sustituibles por los exámens de ingreso. Puesto que recién en el curso 89-90 se han incorporado estos exámenes como requisito de ingreso a la enseñanza médica superior, no hay ninguna experiencia ni estadísticas acumuladas acerca de su capacidad pronóstica. Si se demostrase que los componentes de estos exámenes de ingreso son relevantes con fines pronósticos, una estrategia viable podría ser utilizar las PNE selectivamente con aquellos estudiantes que, al aplicar el resto de los predictores, resulten clasificados como estudiantes en riesgo de fracaso académico.

Los resultados anteriores muestran que no debe prescindirse de las PNE como valioso elemento complementario en la predicción del aprovechamiento docente.

SUMMARY

A series of scattered evidences in previous articles, is collected, and some new evidences are furnished, based in the application of ROC curves (relative operating characteristic), to show the convenience of using the so called "college admission tests" as educational achievement predictors. ROC curves demonstrate that these tests may be better predictors that some, very well known, as the academic index or the orthography tests. Due to the fact that they explore very specific areas of knowledge, directly associated with the disciplines of the curriculum, these tests could be used as valuable complements of the admission tests, and as an additional element to identify the students with a good or a poor prognostic in each subject.

Key words: ROC CURVES; EDUCATION, MEDICAL; ACHIEVEMENT; COLLEGE ADMISSION TESTS; SCHOOL ADMISSION CRITERIA.

REFERENCIAS BIBLIOGRAFICAS

Bacallao J, Aneiros R, Rodríguez E, Romillo MD. Pronóstico y evaluación del rendimiento académico en un ensayo pedagógico controlado. Educ Med Sup 1992;2:92-9.
Bacallao J, Valenti J, Rodríguez E, Romillo MD. El pronóstico del rendimiento académico mediante un enfoque bayesiano no paramétrico. Educ Med Sup 1991;1:29-37.
Simpson AJ, Fitter MJ. What is the best index of detectability? Psychol Bull 1973;80:481-8.
Bacallao J. Un procedimiento estadístico para la validación de los modelos de predicción. Rev Cubana Cienc Matemat 1987;5:113-9.

Recibido: 2 de diciembre de 1995. Aprobado: 22 de diciembre de 1995.
Lic. Jorge Bacallao Gallestey. Instituto Superior de Ciencias Médicas de La Habana "Victoria de Girón". Ciudad de La Habana, Cuba.

Mi SciELO

Servicios Personalizados

Articulo

Indicadores

Links relacionados

Compartir

Educación Médica Superior

versión impresa ISSN 0864-2141

Educ Med Super v.10 n.1 Ciudad de la Habana ene.-dic. 1996

Al rescate de las pruebas de nivel de entrada como predictores del rendimiento en la enseñanza médica superior

RESUMEN

INTRODUCCION

MATERIAL Y METODO

ANALISIS DE LOS DATOS

RESULTADOS

DISCUSION

SUMMARY

REFERENCIAS BIBLIOGRAFICAS