Introducción
Determinar la calidad de un instrumento de medición implica plantearse preguntas, tanto de la exactitud con que este mide el fenómeno en estudio, la estabilidad de la medición y el resultado como de su pertinencia para los sujetos o la realidad en la que se aplican las mediciones. Este conjunto de interrogantes alude directamente a los conceptos de “confiabilidad” y “validez de un instrumento”. Por otro lado, la estimación de la calidad de un cuestionario o escala es requisito esencial no solo en su proceso de construcción, sino en la utilización de aquellos instrumentos obtenidos en la literatura médica internacional.1
Una meta del proceso de enseñanza aprendizaje consiste en que los alumnos logren desarrollar las competencias de cada una de las asignaturas cursadas. Para conseguir lo anterior, se debe supervisar que los instrumentos de medición utilizados para la evaluación sumativa tengan la validez adecuada; además, verificar algunos indicadores acerca de las respuestas realizadas a ese instrumento. Desde esta perspectiva existen algunos indicadores que describen cómo ha funcionado una pregunta en una situación dada en exámenes objetivos empleados en la evaluación del aprendizaje; por eso decimos que estos índices describen lo que ha sucedido.2
La función principal de un instrumento de medición en el ámbito educativo, cuando se crea como medida para inferir las capacidades de las personas, es ofrecer información para la correcta toma de decisiones.3
La medición resulta, simplemente, el proceso de asignar valores a ciertos eventos de la realidad.4 Esta constituye la etapa más importante de la práctica docente, ya que forma parte del proceso de evaluación, la cual es fundamental para la toma de decisiones acerca del aprendizaje de los alumnos.
Hay que precisar que la confiabilidad (o consistencia) de un test radica en su propiedad de mostrar resultados similares en repetidas mediciones, o en la precisión con que este realiza la medición en una población determinada y en las condiciones normales de aplicación.5,6
Sin embargo, la consistencia del instrumento de medición puede afectarse por otros factores inherentes al propio instrumento. Para evaluar la calidad de un examen, generalmente se utilizan el índice de dificultad y la discriminación obtenida de los reactivos, ya que estos se relacionan con la estructura de la pregunta y con los procesos cognitivos que se demandan del alumno.7
El índice de dificultad mide el nivel de calibración de la prueba y responde a la pregunta ¿cuántos de los evaluados respondieron correctamente a la prueba? Por su parte, el índice de discriminación contesta ¿cuáles son las preguntas que han permitido diferenciar a los examinados con altos puntajes de los de bajos puntajes?, y permite caracterizar la calidad de la prueba como elemento de discriminación del desempeño de los estudiantes.8,9,10 Es decir, en cuanto al índice de discriminación, un buen ítem debe discriminar entre los que obtuvieron buenas calificaciones en la prueba y los de bajas calificaciones. Generalmente, se calcula como la diferencia entre dos proporciones: proporción de aciertos en el grupo superior (AS/N) menos proporción de aciertos en el grupo inferior (AI/N). Es suficiente con utilizar el 27 % de las personas con las puntuaciones más altas en el test y el 27 % de las más bajas. Mientras mayor resulte el índice de discriminación, el reactivo diferenciará mejor a las personas con altas y bajas calificaciones. De acuerdo con el manual del EXHCOBA (examen de habilidades y conocimientos básicos), el nivel medio de dificultad del examen debe oscilar entre 0,5 y 0,6, al distribuirse los valores de p de la manera siguiente: 5 % de reactivos fáciles, 20 % medianamente fáciles, 50 % con una dificultad media, 20 % medianamente difíciles y 5 % difíciles.3
El objetivo de este estudio es evaluar el índice de dificultad y discriminación de los ítems de los instrumentos de medición de algunas asignaturas del eje curricular de fundamentos de la medicina de una escuela de medicina particular.
Métodos
A través de un estudio observacional, comparativo y transversal, se llevó a cabo el análisis de los ítems del examen ordinario del ciclo académico 2017-02 de las asignaturas de Morfología, Bioquímica y Biología Molecular, y Microbiología y Virología Médica, los cuales fueron contestados por 112 alumnos de Morfología, 101 de Bioquímica y Biología Molecular, y 89 de Microbiología y Virología Médica; estas disciplinas se cursan en los primeros tres semestres de la licenciatura de medicina de una escuela particular. En todos los casos se utilizaron instrumentos de medición elaborados ex profeso para tal finalidad (exámenes departamentales) por los profesores de dichas asignaturas, los cuales quedaron integrados por 100 reactivos para Morfología, 80 para Bioquímica y Biología Molecular, y 75 para Microbiología y Virología Médica. El instrumento se aplicó simultáneamente a los participantes de las tres materias.
Para calcular el índice de dificultad por ítem, se dividió el número de alumnos que contestó correctamente entre el total de alumnos implicados. Generalmente, a esta proporción se le denota con una p; se utilizó la siguiente fórmula , donde p = índice de dificultad, A = número de aciertos y N = total de alumnos que contestaron los ítems.
En la distribución de la clasificación de dificultad esperada en los ítems se consideraron la publicada por Backhoff, Larrazolo y Rosas,3 y los intervalos del índice de dificultad, de acuerdo con Ortiz y otros11 (Tabla 1).
Clasificación del ítem | Valor del índice de dificultad del ítem | Distribución porcentual |
---|---|---|
Fácil | 0,91-1 | 5 |
Relativamente fácil | 0,81-0,90 | 20 |
Dificultad adecuada (Media) | 0,51-0,80 | 50 |
Relativamente difícil | 0,40-0,50 | 20 |
Difícil | 0-0,39 | 5 |
El índice de discriminación consistió en la diferencia entre dos proporciones: proporción de aciertos en el grupo superior (AS/N) menos proporción de aciertos en el grupo inferior (AI/N). Este expresó, por lo tanto, hasta qué punto la pregunta discrimina y contribuye a situar a un sujeto en el grupo superior o inferior. A mayor diferencia en número de acertantes entre los grupos superior e inferior, el ítem es más discriminante, y mejor sitúa a un sujeto entre los primeros o los últimos.2
La discriminación de los ítems se calculó a través del índice de discriminación (D), de acuerdo con la siguiente fórmula: D =GA−GB/N, donde D = índice de discriminación del reactivo i, GAaciertos = número de aciertos en el reactivo i del 27 % de personas con las puntuaciones más altas en el test, GBaciertos = número de aciertos en el reactivo i del 27 % de personas con las puntuaciones más bajas en el test, y N = número de personas en uno de los grupos.
En la tabla 2 se consignan los valores y la interpretación del índice de discriminación.12
Índice de discriminación (D) | Calidad | Recomendación |
---|---|---|
< 0,01 | Pésimo | Descartar definitivamente |
0 a 0,19 | Pobre | Descartar o revisar a profundidad |
0,20 a 0,29 | Regular | Necesidad de revisar |
0,30 a 0,39 | Buena | Posibilidad de mejorar |
0,40 a 1 | Excelente | Conservar |
Para analizar los resultados se utilizó tanto la estadística descriptiva como el promedio, y la desviación estándar y los porcentajes. Además, se calcularon los índices de dificultad y discriminación de los ítems y de todo el examen. Para la comparación de los índices calculados en los tres exámenes se utilizó ANOVA, al considerar estadísticamente significativo un resultado igual o menor a 0,05.
Toda la información recabada con motivo de este protocolo se manejó con estricto apego al anonimato y la confidencialidad.
Resultados
En la tabla 3 se describen los estadígrafos básicos de los índices de dificultad y discriminación de los exámenes analizados, donde se observa que, en general, el examen de Morfología resultó con mayor grado de dificultad, ya que su promedio del índice de dificultad fue de 0,44.
Los ítems resultaron más difíciles en el examen de Morfología (Tabla 4), ya que un 19 % de estos correspondió a la clasificación de relativamente difíciles y el 50 % a difíciles, lo que hizo un total de 69 % entre ambos. Bioquímica y Biología Molecular apareció después de Morfología, la asignatura con mayor proporción de ítems en la clasificación de relativamente difíciles y difíciles, con un porcentaje global de 37,5 %, cuando se esperaba un 25 %.
Por otro lado, la calidad de los ítems, desde el punto de vista de la discriminación, resultó mayor en la asignatura Microbiología y Virología Médica, como se puede observar en la tabla 5, donde el índice de discriminación llegó hasta el 48 % en el nivel de buena y excelente discriminación, y el mayor porcentaje de ítems con pobre discriminación correspondió a Morfología.
Discusión
La evaluación del aprendizaje constituye el elemento fundamental del proceso educativo, ya que redirecciona las acciones a seguir, tanto por parte del alumno como del profesor. Por ello es indispensable que los instrumentos de medición utilizados para tal propósito reúnan los criterios mínimos de calidad, a efecto de que la evaluación realizada realmente refleje el aprendizaje desarrollado por cada uno de los alumnos. Por otra parte, resulta necesario que los instrumentos de medición utilizados en la evaluación del aprendizaje en programas de licenciatura sean válidos y confiables, así como estandarizados, para que el resultado realmente refleje el estado actual del aprendizaje en las asignaturas evaluadas y, de esta manera, se puedan implementar las acciones de mejora en el proceso educativo.
De acuerdo con el objetivo del presente estudio, el índice de dificultad más bajo correspondió a Morfología, lo cual difiere con lo reportado en la misma asignatura por Argudín, Díaz y Leyva,13) quienes establecieron un índice de dificultad de 0,78. En este mismo estudio, la asignatura de Bioquímica obtuvo el valor más alto del índice de dificultad (0,97); y en el presente artículo, el valor fue de 0,57, el cual es muy similar al conseguido por Menéndez, Somontes y Capote,14) los cuales obtuvieron un índice de dificultad en el examen de Bioquímica de 0,51. Esto se debió a que, en el estudio de comparación, el examen se confeccionó con incisos muy fáciles y con poca profundidad, que no exigieron el razonamiento del estudiante para ser respondidos, situación que contrasta con el instrumento utilizado en este estudio, donde predominaron los ítems de aplicación y análisis, y el alumno tuvo que realizar un proceso de razonamiento para emitir su respuesta.
Por otro lado, en Morfología, el mayor porcentaje de la distribución porcentual de los ítems, según el grado de dificultad, correspondió a los niveles de relativamente difícil y difícil, con un 69 %; en Bioquímica este porcentaje fue de 37 % y en Microbiología tan solo del 33 %, lo que se distribuyó entre el 50-55 % de los ítems de estas dos asignaturas en el nivel de dificultad media. En Morfología solo el 27 % correspondió a este grado de dificultad, lo que evidenció un mayor rigor en su examen.
Saldaña, Delgadillo y Méndez15 evaluaron el índice de dificultad y la discriminación de un examen parcial de Bioquímica, y encontraron que el 4 % de los reactivos fueron difíciles, el 17 % medianamente difíciles, el 43 % de dificultad media, el 16 % medianamente fáciles y el 20 % fáciles, lo cual difiere con nuestros hallazgos, donde el 14 % resultaron difíciles, el 24 % relativamente difíciles, el 55 % de dificultad media, el 5 % relativamente fáciles y solamente el 2,5 % correspondió a fáciles. Lo anterior manifiesta un grado de dificultad alto, comparado con la distribución porcentual esperada, de acuerdo con el índice de dificultad, ya que el 38 % de los ítems correspondían a la clasificación de relativamente difícil y difícil, en relación con el porcentaje esperado, que entre estos dos niveles debería de ser del 25 %.
En relación con el índice de discriminación del total de los exámenes, el que corresponde a la asignatura de Morfología resultó con el más bajo poder discriminante y el de Bioquímica con el valor más alto (0,37), lo que distribuyó el porcentaje de ítems según el poder de discriminación en excelente (3,7 %) y buena (33,8 %); esto difiere de los resultados aportados por Saldaña, Delgadillo y Méndez,15) donde el 73 % de los ítems se clasificaron en el nivel excelente y el 11 % tuvo buena discriminación.
Aunque la variabilidad de los resultados de estos índices es predecible, también existen coincidencias como, por ejemplo, el hecho de que los hallazgos de Pérez, Acuña y Arratia16 reportan un índice de dificultad promedio de 0,44 en un examen de Citohistología de la carrera de medicina, lo cual coincide con el valor promedio del índice de dificultad del examen final de Morfología obtenido en este estudio.
Finalmente, se puede decir que existe variabilidad en el grado de dificultad y el poder de discriminación de los ítems de los exámenes analizados.