INTRODUCCIÓN
La evaluación constituye el mecanismo regulador del proceso enseñanza-aprendizaje; posibilita su retroalimentación, dirección y perfeccionamiento. Como uno de los aspectos más polémicos y de mayor interés en la práctica pedagógica, permite en la educación médica superior cubana, el control y la valoración de los conocimientos, habilidades, hábitos y modos de actuación que los estudiantes adquieren sobre los objetivos de cada disciplina, asignatura y del plan de estudio. Según Blanco Pereira y otros,1 para que la evaluación sea eficaz debe de estar vinculada con la competencia de los profesores, los métodos y medios empleados, así como de la calidad del currículo.
Al concluir la confección de cualquier instrumento evaluativo escrito, sea frecuente, parcial o final, se presenta el problema de determinar en qué medida la información obtenida a través de su aplicación, refleja el nivel de competencia del examinado. Desde esta perspectiva, estimar la calidad del instrumento es requisito esencial, no solo en su proceso de construcción, sino también en la obtención de información para la toma de decisiones correctas.2
Múltiples investigadores, como Villamarín Guevara,3) Díaz Rojas y otros,4 coinciden al afirmar que, dentro de los indicadores de calidad de los exámenes escritos que con mayor frecuencia se estudian, están la validez, confiabilidad, discriminación y dificultad. Aseguran que el análisis en el colectivo de profesores, durante el proceso de planeación y de elaboración de las preguntas e ítems, la forma de definir la clave de calificación, de determinar el éxito y el fracaso; así como, la experiencia del claustro docente en la temática evaluación, es fundamental para el logro de un instrumento válido y confiable.
La carrera de Estomatología en Cuba, incluye en su currículo base del plan de estudio E, la disciplina Bases Biológicas de la Estomatología (BBE); es integradora y sigue la tendencia actual de las ciencias biomédicas en la unificación interdisciplinaria. Su sustento se materializa en la identificación de los núcleos básicos de los contenidos, esencialidades, relación con los problemas de salud bucal que los futuros egresados deben ser capaces de enfrentar y resolver; así como las tareas que en interacción con la familia, la comunidad y el medio ambiente, deben desarrollar para darles solución y definen la futura competencia.5
Sangre y Sistema Nervioso es una de las asignaturas de mayor complejidad dentro de las BBE. Se imparte en el primer año (segundo período) del currículo base, e incluye el estudio de los sistemas hemolinfopoyético y nervioso, temas de vital importancia para el futuro estomatólogo general. Su evaluación parcial abarca los contenidos del tema hemolinfopoyético y los resultados docentes, de modo habitual no siempre han sido los esperados por el claustro de profesores de las ciencias básicas biomédicas. La carencia de una estimación científica sobre la calidad del examen parcial de la asignatura Sangre y Sistema Nervioso, constituye el problema científico de la presente investigación.
El objetivo es evaluar la calidad de este instrumento evaluativo, durante el curso académico 2022.
MÉTODOS
Se realizó un estudio observacional analítico y transversal, en la facultad de Estomatología, Universidad de Ciencias Médicas de Santiago de Cuba, entre los meses de septiembre a octubre de 2022.
El universo de estudio estuvo constituido por 27 exámenes, correspondientes a la prueba parcial de la asignatura Sangre y Sistema Nervioso, disciplina Bases Biológicas de la Estomatología, del plan de estudio E, carrera Estomatología, aplicada los estudiantes del primer año del curso académico 2022 (las calificaciones se incluyen como archivo complementario al artículo).
El instrumento evaluativo abarcó el tema sistema hemolinfopoyético, al cual según plan de estudio le corresponde un fondo de tiempo de 16 horas. Quedó estructurado en 5 preguntas con un total de 40 ítems. Según el formato se clasificó como un examen mixto, con predominio de ítems test objetivo. Las temáticas evaluadas incluyeron: generalidades de sangre, serie roja, defensa del organismo, hemostasia y coagulación sanguínea, tejido hemolinfopoyético.
Para la clasificación de los ítems según dificultad esperada, se asumió la escala considerada por Díaz Rojas y otros4 en: 5 % para ítems fáciles, 20 % para ítems medianamente fáciles, 50 % para ítems de dificultad media, 20 % para ítems medianamente difíciles y 5 % para los ítems difíciles.
En una hoja de cálculo de Microsoft Excel, se tabularon las calificaciones de cada pregunta y la general del examen objeto de estudio, se incluyó además el resultado de cada ítem del instrumento, categorizado en aprobado (1) y desaprobado (0), lo que garantizó su posterior procesamiento estadístico.
Para dar salida al objetivo propuesto, se definieron y operacionalizaron las siguientes variables:
Índice de dificultad del ítem (Di): número de estudiantes examinados que respondió correctamente el ítem, dividido entre el total de examinados.
Índice de dificultad de la pregunta (Dp): suma del total de estudiantes que respondieron correctamente cada uno de los ítems que corresponden a la pregunta, dividido entre el número de ítems de esta. Luego se calculó la media de respuestas correctas para la pregunta y se dividió por el total de alumnos examinados.
Índice de dificultad del examen (De): suma del total de estudiantes que respondieron correctamente cada ítem del examen, dividido entre el número de ítems y a continuación entre el número de examinados. El índice de dificultad para ítems, preguntas y examen se clasificó en las categorías:7,8
Difícil: (< 0,32)
Medianamente difícil: (0,32 - 0,52)
Dificultad media: (0,53 - 0,73)
Medianamente fácil: (0,74 - 0,86)
Fácil: (> 0,86)
Índice de discriminación (Id): se seleccionó el grupo de mejores calificaciones (en sentido descendente, a partir de la más alta) y el grupo de notas más bajas (en sentido ascendente, a partir de la más baja). Para el cálculo del Id se empleó la siguiente fórmula:
Id: |
índice de discriminación del reactivo. |
GA: |
número de aciertos en el reactivo i del 33 % de personas con las puntuaciones más altas en el test. |
GB: |
número de aciertos en el reactivo i del 33 % de personas con las puntuaciones más bajas en el test. |
N: |
número de personas en el grupo más numeroso (GA o GB). (4 |
Para la evaluación de la calidad de los ítems y preguntas en términos de índice de discriminación, se empleó la siguiente escala, utilizada por Martínez Pérez y otros:7
Excelente: mayor o igual de 0,40 (conservar)
Buena: entre 0,30 - 0,39 (posibilidades de mejorar)
Regular: entre 0,20 - 0,29 (necesidad de revisar)
Pobre: entre 0,00 - 0,19 (descartar o revisar a profundidad)
Pésimo: < 0,00 (descartar definitivamente)
Relación discriminativa (Rd): para determinar si un reactivo o pregunta es aceptable o no a partir de su índice de discriminación. Está dado por el cociente entre el índice de discriminación del ítem -Id (i)- y su norma discriminativa (ND).4
El valor de la norma discriminativa se obtuvo a partir de la siguiente fórmula:
Si Rd mayor que 1: se considera el ítem aceptable
Si Rd (0,60-0,99): se recomienda analizar el ítem
Si Rd menor de 0,6: se recomienda rechazar el ítem
Coeficiente de discriminación del punto biserial puntual (rpbis): para calcular la efectividad discriminativa de un reactivo o pregunta. Se utilizó para conocer si los estudiantes de calificaciones más altas son los que obtuvieron las respuestas correctas, qué tanto poder predictivo tuvo el reactivo, y cómo puede contribuir a las predicciones.4 Para el cálculo se utilizó la siguiente fórmula:
Ẋ1 |
= media de las puntuaciones totales de aquellos que respondieron correctamente el ítem. |
Ẋ0 |
= media de las puntuaciones totales de aquellos que respondieron incorrectamente el ítem. |
Sx |
= desviación estándar de las puntuaciones totales. |
n1 |
= número de estudiantes que respondieron correctamente el ítem. |
n0 |
= número de estudiantes que respondieron incorrectamente el ítem. |
n |
= n1 + n0 |
La distribución de los resultados del rpbis que se tuvo en cuenta fue la siguiente:
< 0 - discriminan negativamente
0 - 0,14 - discriminan pobremente
0,15 - 0,25 - discriminan regular
0,26 - 0,35 - buen poder discriminativo
> 0,35 - excelente poder de discriminación
Consistencia interna de reactivos (Cir):3 se determinó a través del cálculo del coeficiente de Küder-Richardson (KR20) mediante la siguiente fórmula:
KR20 |
= coeficiente de confiabilidad |
k |
= número total de ítems en el instrumento |
Vt |
= varianza total |
∑ p*q |
= sumatoria de la varianza de los ítems |
p |
= TRC/N: total de respuestas correctas (TRC) entre el número de sujetos participantes (N) |
q |
=1-p |
Consistencia interna del examen (Cie):4) se determinó a través del cálculo del coeficiente de confiabilidad alfa de Cronbach, mediante el paquete estadístico SPSS v.22.
La consistencia interna de reactivos y del examen en general se evaluó de la siguiente forma:
≤ 0,53 - confiabilidad nula
0,54 - 0,59 - confiabilidad baja
0,60 - 0,65 - confiable
0,66 - 0,71 - muy confiable
0,72 - 0,99 - excelente confiabilidad
1,00 - confiabilidad perfecta
La existencia o no de correspondencia entre la cantidad de horas por temáticas y el número de ítems explorados en la prueba parcial, se determinó a través del coeficiente de correlación por rangos de Spearman.6
El nivel de significación empleado para todas las pruebas estadísticas fue de α= 0,05.
Conforme a los aspectos bioéticos y legales, se solicitó a las autoridades académicas correspondientes de la facultad de Estomatología, Universidad de Ciencias Médicas de Santiago de Cuba, la autorización para el desarrollo de la investigación. Se mantuvo durante todo el estudio, la confidencialidad e integridad de los datos obtenidos de los exámenes.
RESULTADOS
La tabla 1 muestra el fondo de tiempo de los contenidos y su presencia en el examen parcial. Como se aprecia, existió un balance equilibrado de horas según temáticas abordadas. La relación entre fondo de tiempo e ítems del instrumento fue positiva y considerable, con un coeficiente de correlación de Spearman de 0,82.
La correspondencia entre la cantidad de incisos según su índice de dificultad esperada con los reales del examen se muestra en la tabla 2.
Incisos según índice de dificultad | Incisos esperados | % de incisos esperados | Incisos reales | % de incisos reales |
---|---|---|---|---|
Fáciles | 2 | 5 | 6 | 15 |
Medianamente fáciles | 8 | 20 | 9 | 22,5 |
De dificultad media | 20 | 50 | 16 | 40 |
Medianamente difíciles | 8 | 20 | 9 | 22,5 |
Difíciles | 2 | 5 | - | - |
Totales | 40 | 100 | 40 | 100 |
Rho de Spearman: 0,97 (p= 0,005, p< 0,05).
En el examen existió un incremento en un 10 % de los incisos fáciles con respecto a lo esperado. El resto de los reactivos estuvo bastante cercano a lo deseado. El coeficiente de correlación de Spearman, evidenció una correlación positiva con significación estadística entre los incisos esperados y los reales obtenidos.
El índice de dificultad por preguntas, su tipología y por temáticas, se resume en la tabla 3. Predominaron en un 60 % del instrumento evaluativo las preguntas con índice de dificultad media. Las temáticas serie roja y defensa del organismo, cuyas preguntas son de tipología problémica, fueron las de mayor complejidad para los estudiantes, al mostrar menor índice de dificultad. El examen en sentido general se catalogó de dificultad media.
Preguntas | Temáticas | Tipo de pregunta | Índice de dificultad |
---|---|---|---|
1 | Generalidades de sangre | Selección múltiple complemento simple | 0,77 |
2 | Serie roja | Problémica de respuestas cortas | 0,56 |
3 | Defensa del organismo | Problémica de respuestas cortas | 0,53 |
4 | Hemostasia y coagulación sanguínea | Selección múltiple complemento agrupado | 0,61 |
5 | Tejido Hemolinfopoyético | Test de verdadero o falso | 0,78 |
Examen | 0,66 |
Los resultados en relación a la discriminación de los ítems de las preguntas, se agrupan en la tabla 4.
Preguntas | Temáticas | < - 0,01 | 0,00 a 0,19 | 0,20 a 0,29 | 0,30 a 0,39 | > 0,39 | Total |
---|---|---|---|---|---|---|---|
1 | Generalidades de sangre | 1 | 2 | 2 | 2 | - | 7 |
2 | Serie roja | - | - | - | - | 8 | 8 |
3 | Defensa del organismo | - | - | - | - | 5 | 5 |
4 | Hemostasia y coagulación sanguínea | - | - | 1 | 1 | 8 | 10 |
5 | Tejido hemolinfopoyético | 1 | 1 | 3 | 2 | 3 | 10 |
Total | 2 | 3 | 6 | 5 | 24 | 40 |
Más de la mitad de los reactivos del examen (24) discriminan de forma adecuada, para un 60 % del total. Las preguntas 1 y 5 que corresponden a las temáticas de generalidades de sangre y tejido hemolinfopoyético, incluyeron entre ambas, 2 ítems de escasa discriminación (5 %); 3 que lo hacen de modo pobre (7,5 %) y 5 que discriminan regular (12,5 %).
La tabla 5 proporciona una visión general sobre el índice de dificultad, de discriminación y la relación discriminativa de las preguntas.
Preguntas | Tipo de pregunta | Índice de dificultad | Índice de discriminación | Relación discriminativa |
1 | Selección múltiple complemento simple | 0,77 | 0,10 | 1,17 |
2 | Problémica de respuestas cortas | 0,56 | 0,72 | 4,63 |
3 | Problémica de respuestas cortas | 0,53 | 0,71 | 3,93 |
4 | Selección múltiple complemento agrupado | 0,61 | 0,53 | 3,19 |
5 | Test de verdadero o falso | 0,78 | 0,32 | 1,53 |
La pregunta de selección múltiple complemento simple exhibió un pobre índice de discriminación. En las restantes se aprecia buena correspondencia entre las 3 variables y el tipo de pregunta. La relación discriminativa habla a favor de las preguntas 2 y 3.
El rpbis calculado mostró un valor de 0,19 para la temática de generalidades de sangre (pregunta 1), lo que confirma también que discrimina regular y necesita revisión profunda. El resto de las temáticas poseen un excelente poder de discriminación (rpbis> 0,35).
La consistencia interna de los reactivos (Cir) y del examen en general (Cie) mostró una excelente confiabilidad (KR20 = 0,91, α de Cronbach = 0,78).
DISCUSIÓN
A pesar de que existió una correspondencia adecuada entre el fondo de tiempo asignado en la planificación docente a cada temática abordada, con la cantidad de incisos explorados en el examen, autores como Martínez Pérez y otros,7 manifiestan que cuando esta correspondencia falla, se resta validez al instrumento, pues el contenido debe ser una muestra representativa del constructo o dominio definido en el programa de la asignatura. Añaden, además, que la selección de temas a evaluar en el examen, se centra en la relevancia y la representatividad del contenido objeto de la evaluación, por tanto, ha de reflejar fielmente los núcleos básicos y sus esencialidades.
En relación con la correspondencia entre la cantidad de incisos, según su índice de dificultad esperada, con los del examen; los resultados coinciden con los reportados por Moreno Montañez y otros,9 quienes en el análisis de calidad de un examen final escrito de Medicina Comunitaria, con 41 ítems, obtuvieron un predominio de incisos con nivel de dificultad media y ausencia de ítems difíciles. Hallazgos diferentes son reportados por Gómez López y otros,2 en los que se evalúa el índice de dificultad y la discriminación de un examen parcial de Bioquímica; se encontró que 4 % de los reactivos fueron difíciles, 17 % medianamente difíciles, 43 % de dificultad media y 20 % fáciles.
Las temáticas relacionadas con serie roja y defensa del organismo, muestran los más bajos índices de dificultad (0,56 y 0,53 respectivamente). A juicio de los autores, resultaron las de mayor complejidad, por ser de tipo problémica, y exigir un nivel de asimilación aplicativo por parte de los estudiantes. En este sentido Minte Münzenmayer y otros,10 expresan que los procedimientos evaluativos aplicados en las universidades promueven de manera general, niveles de razonamiento y dimensiones del proceso cognitivo básicos. En otras palabras, los alumnos no son evaluados para lograr aprendizajes, son evaluados bajo parámetros tradicionales, centrados en la repetición, en la memoria, no en el desarrollo de competencias intelectuales de orden superior.
Rodríguez Graña y otros,11) Camacho Saavedra y otros12) y González Machado y otros,13 exponen que el nivel medio de dificultad de un examen escrito debe oscilar entre 0,5 y 0,6, lo que concuerda con los resultados de la presente investigación.
El Id y el rpbis permitieron identificar que solo la pregunta 1, de tipología selección múltiple complemento simple, que abarcó los contenidos relacionados con la temática generalidades de sangre, discriminó pobremente entre los estudiantes con altas y bajas calificaciones, al obtener un índice de dificultad catalogado como medianamente fácil (0,77). Este resultado sugiere, como proponen Villamarín Guevara14 y Menacho Chiok y otros,15) que debe ser revisada a profundidad por el claustro de profesores de la asignatura o descartarla de forma definitiva para futuros exámenes parciales. Se sugiere, además, que la pregunta 5, aunque posee buena calidad, tiene posibilidades de mejorarse.
Los valores del coeficiente α de Cronbach y el KR20 demuestran que el instrumento tiene una excelente confiabilidad o consistencia interna, lo que concuerda con los estándares propuestos por el Colegio de Médicos de Canadá, el cual considera excelente entre 0,72 y 0,99; y los establecidos por la Comisión Nacional de Evaluación de la Competencia y el Desempeño del Ministerio de Salud Pública, con valores superiores a 0,60.16
Se concluye que la calidad del examen parcial aplicado en la asignatura Sangre y Sistema Nervioso de la disciplina Bases Biológicas de la Estomatología, carrera de Estomatología, en la Universidad de Ciencias Médicas de Santiago de Cuba, en el curso académico 2022 es adecuada, al presentar un índice de dificultad media, buena discriminación de sus preguntas y una excelente consistencia interna.