Introducción
La universidad médica cubana tiene el deber y la misión de formar profesionales que respondan a las demandas de la sociedad, que sean capaces de resolver sus problemas y la transformen a través de un diseño curricular pertinente, contextualizado y de excelencia.1
Dentro de los grandes desafíos que la formación universitaria en el sector salud enfrenta hoy, está el implementar y validar instrumentos de evaluación que permitan de manera efectiva, monitorear los aprendizajes y generar estrategias de evaluación ajustadas a las necesidades de los estudiantes. En este sentido, para Leyva, et al.2, la evaluación del aprendizaje constituye uno de los conceptos de la didáctica más controvertidos, debatidos y que más variaciones conceptuales ha experimentado, pero nunca dejará de ser un elemento de importancia en la enseñanza y garantía del aprendizaje universitarios, al estimular los esfuerzos de los educandos y certificar lo que han aprendido.
En la carrera Estomatología, el propósito fundamental del actual plan de estudio es egresar un estomatólogo general responsable y competente, cuyo encargo social responda a la solución de problemas y situaciones propias de su perfil profesional, a través del análisis e interpretación de la realidad como instrumento para la comprensión de la dinámica del proceso salud-enfermedad.3 Para este logro, la evaluación integral y formativa conforma un marco de referencia reflexivo en la emisión de juicios valorativos y toma de decisiones inherentes a toda labor de mejora de la enseñanza.4
El curso propio Bases morfofuncionales de las principales diátesis hemorrágicas en Estomatología pertenece a la malla curricular del plan de estudio E, Dirección Nacional Carrera Estomatología, Facultad de Estomatología, Universidad de Ciencias Médicas de Santiago de Cuba. Se imparte desde el curso 2022 en el primer período del segundo año académico, como complemento de la asignatura Sangre y Sistema Nervioso (primer año, segundo período), perteneciente a la disciplina Bases Biológicas de la Estomatología del currículo base. Tiene como objetivo formativo interpretar a través de situaciones clínicas simuladas, las bases morfofuncionales de las principales tendencias hemorrágicas en el ámbito estomatológico, con enfoque básico-clínico y basado en la evidencia científica.
Para tal propósito, el claustro de profesores que conforman la disciplina Bases Biológicas de la Estomatología pretende sistematizar e integrar los contenidos teóricos esenciales en relación a la hemostasia, la coagulación sanguínea y la fisiopatología de las principales enfermedades que las afectan, dado que los accidentes hemorrágicos en la práctica clínica estomatológica son frecuentes, comprometen la vida del paciente cuando entrañan grandes pérdidas de volumen sanguíneo y pueden ser prevenibles si se realiza una correcta anamnesis con sólidos conocimientos morfofuncionales del por qué se producen a partir de la relación estructura-función.5
En el diseño de su sistema de evaluación que concluye por recorrido, el curso incluye una prueba parcial escrita donde se presenta el problema de determinar en qué medida la información obtenida a través de su aplicación, refleja el nivel de competencia adquirido por el examinado. Desde esta perspectiva, estimar la calidad de la misma es requisito esencial no solo en su proceso de construcción, sino también en la obtención de información para la toma correcta de decisiones.6
Expertos como Villamarín7 y Díaz8) coinciden al afirmar que dentro de los indicadores de calidad de los exámenes escritos que con mayor frecuencia se estudian se encuentran: la validez, confiabilidad, discriminación y dificultad. Aseguran que el análisis que se realiza en el colectivo de profesores durante el proceso de planeación y de elaboración de las preguntas e ítems, la forma de definir la clave de calificación y de determinar el éxito y el fracaso, así como la experiencia del claustro docente en la temática evaluación son fundamentales para el logro de un instrumento válido y confiable.
La carencia de una estimación científica sobre la calidad de la prueba parcial del curso propio Bases morfofuncionales de las principales diátesis hemorrágicas en Estomatología constituye el problema científico de la presente investigación, la cual tiene como objetivo evaluar la calidad de dicho instrumento evaluativo durante el curso académico 2022.
Método
Se realizó un estudio observacional, analítico y transversal en la Facultad de Estomatología, Universidad de Ciencias Médicas de Santiago de Cuba, entre los meses de diciembre de 2022 a enero de 2023.
El universo de estudio estuvo conformado por 30 exámenes correspondientes a la prueba parcial del curso propio Bases morfofuncionales de las principales diátesis hemorrágicas en Estomatología, disciplina Bases Biológicas de la Estomatología, del plan de estudio E, carrera Estomatología, aplicada a los estudiantes del segundo año durante el primer período del curso académico 2022 (las calificaciones de los exámenes se incluyeron como archivo complementario al artículo).
El instrumento evaluativo abarcó las temáticas hemostasia natural, trombocitopenias y trombastenias, principales enfermedades hepáticas y metabolismo de la vitamina K, así como las hemofilias, las que representan 28 horas de las 40 horas totales del curso propio.
El examen quedó estructurado en 3 preguntas (22 ítems). Según el formato, se clasificó como un examen mixto, con predominio de ítems test objetivo. Para la clasificación de los ítems según dificultad esperada se asumió la escala considerada por Díaz8 en: 5 % para ítems fáciles, 20 % para ítems medianamente fáciles, 50 % para ítems de dificultad media, 20 % para ítems medianamente difíciles y 5 % para los ítems difíciles.
En una hoja de cálculo de Microsoft Excel se tabularon las calificaciones de cada pregunta y la general del examen objeto de estudio, se incluyó además el resultado de cada ítem del instrumento, categorizado en aprobado (1) y desaprobado (0), lo que garantizó su posterior procesamiento estadístico.
Para dar salida al objetivo propuesto se definieron y operacionalizaron las siguientes variables:
a) Índice de dificultad del ítem (Di): número de estudiantes examinados que respondió correctamente el ítem, dividido entre el total de examinados.
b) Índice de dificultad de la pregunta (Dp): suma del total de estudiantes que respondieron correctamente cada uno de los ítems que corresponden a la pregunta, dividido entre el número de ítems de esta. Luego se calculó la media de respuestas correctas para la pregunta y se dividió por el total de alumnos examinados.
c) Índice de dificultad del examen (De): suma del total de estudiantes que respondieron correctamente cada ítem del examen, dividido entre el número de ítems y, a continuación, entre el número de examinados.
El índice de dificultad para ítems, preguntas y examen se clasificó en las categorías:9,10
Difícil: < 0,32
Medianamente difícil: 0,32 - 0,52
Dificultad media: 0,53 - 0,73
Medianamente fácil: (0,74 - 0,86
Fácil: > 0,86
d) Índice de discriminación (Id): se seleccionó el grupo de mejores calificaciones (en sentido descendente, a partir de la más alta) y el grupo de notas más bajas (en sentido ascendente, a partir de la más baja). Para el cálculo del Id se empleó la siguiente fórmula:
Id: índice de discriminación del reactivo.
GA: número de aciertos en el reactivo i del 27 % de personas con las puntuaciones más altas en el test.
GB: número de aciertos en el reactivo i del 27 % de personas con las puntuaciones más bajas en el test.
N: número de personas en el grupo más numeroso (GA o GB).8
En la evaluación de la calidad de los ítems y preguntas en términos de índice de discriminación, se empleó la siguiente escala, utilizada por Martínez Pérez, et al.:9
Excelente: mayor o igual de 0,40 (conservar).
Buena: entre 0,30 - 0,39 (posibilidades de mejorar).
Regular: entre 0,20 - 0,29 (necesidad de revisar).
Pobre: entre 0,00 - 0,19 (descartar o revisar a profundidad).
Pésimo: < 0,00 (descartar definitivamente).
e) Relación discriminativa (Rd): para determinar si un reactivo o pregunta es aceptable o no a partir de su índice de discriminación. Está dado por el cociente entre el índice de discriminación del ítem -Id (i)- y su norma discriminativa (ND).8
El valor de la norma discriminativa se obtuvo a partir de la siguiente fórmula:
Si Rd mayor que 1: se considera el ítem aceptable.
Si Rd (0,60-0,99): se recomienda analizar el ítem.
Si Rd menor de 0,6: se recomienda rechazar el ítem.
f) Coeficiente de discriminación del punto biserial puntual (rpbis): para calcular la efectividad discriminativa de un reactivo o pregunta. Se utilizó para conocer si los estudiantes con las calificaciones más altas son los que obtuvieron las respuestas correctas, qué tanto poder predictivo tuvo el reactivo y cómo puede contribuir a las predicciones.4 Para el cálculo se utilizó la siguiente fórmula:
Ẋ1: media de las puntuaciones totales de aquellos que respondieron correctamente el ítem.
Ẋ0: media de las puntuaciones totales de aquellos que respondieron incorrectamente el ítem.
Sx: desviación estándar de las puntuaciones totales.
n1: número de estudiantes que respondieron correctamente el ítem.
n0: número de estudiantes que respondieron incorrectamente el ítem.
n = n1 + n0
La distribución de los resultados del rpbis que se tuvo en cuenta fue la siguiente:
< 0 - discriminan negativamente.
0 - 0,14 - discriminan pobremente.
0,15 - 0,25 - discriminan regular.
0,26 - 0,35 - buen poder discriminativo.
> 0,35 - excelente poder de discriminación.
g) Consistencia interna de reactivos (Cir):3 se determinó a través del cálculo del coeficiente de Küder-Richardson (KR20) mediante la siguiente fórmula:
KR20: coeficiente de confiabilidad.
k: número total de ítems en el instrumento.
Vt: varianza total.
∑p*q: sumatoria de la varianza de los ítems.
p: TRC/N: total de respuestas correctas (TRC) entre el número de sujetos participantes (N).
q: 1-p.
h) Consistencia interna del examen (Cie):8) se determinó a través del cálculo del coeficiente de confiabilidad alfa de Cronbach, mediante el paquete estadístico SPSS v.22.
La consistencia interna de reactivos y del examen en general se evaluó de la siguiente forma:
≤ 0,53 - confiabilidad nula.
0,54 - 0,59 - confiabilidad baja.
0,60 - 0,65 - confiable.
0,66 - 0,71 - muy confiable.
0,72 - 0,99 - excelente confiabilidad.
1,00 - confiabilidad perfecta.
La existencia o no de correspondencia entre la cantidad de horas por temáticas y el número de ítems explorados en la prueba parcial se determinó a través del coeficiente de correlación de Spearman.7) El nivel de significación empleado para todas las pruebas estadísticas fue de α= 0,05.
Conforme a los aspectos bioéticos y legales, se solicitó a las autoridades académicas correspondientes de la Facultad de Estomatología de la Universidad de Ciencias Médicas de Santiago de Cuba la autorización para el desarrollo de la investigación. Se mantuvo durante todo el estudio la confidencialidad e integridad de los datos obtenidos de los exámenes.
Resultados
El fondo de tiempo de los contenidos y su presencia en el examen parcial se ilustra en la tabla 1. Como se aprecia, existió un balance equilibrado de horas según temáticas abordadas. La relación entre el fondo de tiempo e ítems del instrumento fue positiva y considerable, con un coeficiente de correlación de Spearman de 0,89.
La correspondencia entre la cantidad de incisos según su índice de dificultad esperada con los reales del examen se exhibe en la tabla 2.
Obsérvese como en la prueba parcial existió un incremento en un 22,8 % de los incisos fáciles y una disminución del 22,7 % de los reactivos de dificultad media respecto a lo esperado. El resto de los incisos estuvo bastante cercano a lo deseado. El coeficiente de correlación de Spearman evidenció una correlación positiva débil y no significativa desde el punto de vista estadístico entre los incisos esperados y los reales obtenidos.
El índice de dificultad por preguntas, su tipología y por temáticas se resume en la tabla 3. Predominaron en un 67 % del examen las preguntas con índice de dificultad media. La pregunta de mayor complejidad para los estudiantes fue la de completar espacios en blanco a partir de una situación clínica simulada, al mostrar el menor índice de dificultad. El examen en sentido general se catalogó de dificultad media.
Los resultados en relación a la discriminación de los ítems de las preguntas, se agrupan en la tabla 4.
Más de la mitad de los reactivos del examen (14) discriminaron de forma adecuada para un 63,6 % del total. En la pregunta 3 que correspondió a las temáticas de enfermedades hepáticas, metabolismo de la vitamina K y hemofilias, 1 ítem tuvo una discriminación pésima (4,5 %), 4 lo hacen de modo pobre (18 %) y 2 discriminan regular (9 %).
La tabla 5 proporciona una visión general sobre el índice de dificultad, de discriminación y la relación discriminativa de las preguntas.
Las preguntas 2 y 3, a pesar de mostrar índices de discriminación que clasificaron como regular, obtuvieron buena relación discriminativa. En la restante, se apreció buena correspondencia entre las tres variables y el tipo de pregunta.
El rpbis calculado mostró un valor de 0,13 para la temática de trombocitopenias y trombastenias (pregunta 2), lo que confirma que discrimina de modo pobre y necesita revisión profunda. El resto de las temáticas poseen un excelente poder de discriminación (rpbis > 0,35).
La consistencia interna de las tres preguntas (Cir) fue excelente (KR20 = 0,85; 0,93 y 0,91); sin embargo, el examen de modo integral se catalogó de confiabilidad baja (alfa de Cronbach = 0,58).
Discusión
La adecuada correspondencia entre el fondo de tiempo asignado en la planificación docente a cada temática abordada en el curso propio, con la cantidad de incisos explorados en la prueba parcial, coinciden con los resultados obtenidos por Martínez, et al.9, donde después de aplicados dos temarios de exámenes finales de la asignatura Metabolismo y Nutrición a 45 y 47 estudiantes del primer año de la carrera de Medicina en la provincia Mayabeque, curso 2018-2019, obtuvieron un coeficiente de correlación de Spearman positivo considerable de 0,88 y 0,89, respectivamente. Hallazgos diferentes, sin embargo, son reportados por autores como Ayala, et al.11, quienes al comparar exámenes de la asignatura Ortodoncia entre los cursos 2015 y 2017, observaron una escasa correlación entre los ítems con respecto al tiempo dedicado a cada temática dentro del programa de dicha asignatura.
A juicio de los autores de la investigación, cuando la correspondencia fondo de tiempo - cantidad de incisos explorados en un examen parcial o final falla se resta validez al instrumento, pues la selección de temas a evaluar se debe centrar en la relevancia y la representatividad del contenido objeto de la evaluación, por ende, ha de reflejar fielmente los núcleos básicos y sus esencialidades.
En relación con la correspondencia entre la cantidad de incisos según su índice de dificultad esperada con los del examen, los resultados obtenidos discrepan con los reportados por Moreno, et al.12, quienes en el análisis de calidad de un examen final escrito de Medicina Comunitaria con 41 ítems en la Facultad de Medicina de Cabinda, Angola (2019), obtuvieron un predominio de incisos con nivel de dificultad media. Los autores del presente estudio concuerdan y asumen lo expresado por Hurtado, et al.13, al expresar que un examen con predominio de reactivos de dificultad media resulta superior en confiabilidad de resultados a aquel que tenga mucha dificultad o que resulte muy fácil, pues da una mayor información sobre los estudiantes con dominio del contenido evaluado.
La temática relacionada con trombocitopenias y trombastenias exhibió el más bajo índice de dificultad (0,53). A criterio de los autores, resultó la de mayor complejidad por ser de completar espacios en blanco a partir de una situación clínica simulada y exigir un nivel de asimilación aplicativo por parte de los educandos. Múltiples investigadores como Minte, et al.14 alegan que los procedimientos evaluativos aplicados en las universidades promueven de manera general niveles de razonamiento y dimensiones del proceso cognitivo básicos. En otras palabras, los alumnos no son evaluados para lograr aprendizajes, son evaluados bajo parámetros tradicionales centrados en la repetición, en la memoria, no en el desarrollo de competencias intelectuales de orden superior.
Rodríguez15 y Díaz8 exponen que el nivel medio de dificultad de un examen escrito debe oscilar entre 0,5 y 0,6, lo que se corresponde con los resultados obtenidos en la presente investigación.
El Id y el rpbis permitieron identificar que la pregunta 2 de tipología ensayo de respuestas cortas, además de ser la de más bajo índice de dificultad, discriminó pobremente entre los estudiantes con altas y bajas calificaciones, al obtener un Id de 0,28 y un rpbis de 0,13. Este resultado sugiere, como propone Villamarín7, que debe ser revisada a profundidad por el claustro de profesores de la disciplina o descartarla de forma definitiva para futuras pruebas parciales.
Los valores del KR20 y alfa de Cronbach demuestran que a pesar de que se logró buena consistencia interna en las preguntas, el examen de manera integral poseía baja confiabilidad. Este hecho podría a estar asociado a un menor número de preguntas en el examen (3) y a un menor número de ítems en la composición de las mismas; aspecto que se tendrá en cuenta para futuros instrumentos evaluativos escritos, para de esta forma, coincidir con los estándares propuestos por el Colegio de Médicos de Canadá, donde se consideran excelentes entre 0,72 y 0,99, y los establecidos por la Comisión Nacional de Evaluación de la Competencia y el Desempeño del Ministerio de Salud Pública, con valores superiores a 0,60.6
Conclusiones
La calidad del examen parcial aplicado en el curso propio Bases morfofuncionales de las principales diátesis hemorrágicas en Estomatología, de la disciplina Bases Biológicas de la Estomatología, carrera de Estomatología, Universidad de Ciencias Médicas de Santiago de Cuba, curso 2022, es poco adecuada al presentar un índice de dificultad media, discriminación regular de sus preguntas y una baja consistencia interna.