Introducción
La investigación científica, es por excelencia, la actividad que a través del método científico permite generar conocimiento válido y fiable,1 de tal manera que se pueda dar tratamiento a diversos problemas prácticos de la sociedad.2 Este hecho quedó demostrado durante la Pandemia de la COVID-19, porque en los tres primeros meses la ciencia moderna reaccionó rápidamente ante las amenazas emergentes para la salud pública, generando información esencial para comprender el factor etiológico del SARS-CoV-2, su propagación, medidas preventivas y estrategias de mitigación.3
En el contexto de la ciencia, los resultados de investigación se presentan formalmente a través de publicaciones periódicas.4 Estas son producto de un cuidadoso proceso de planificación, ejecución y evaluación; en esta última, cobra relevancia el manuscrito científico,5 término que hace referencia a la primera versión de un trabajo escrito, es decir, el reporte de investigación que un autor(es) prepara para su evaluación antes de obtener aprobación para su difusión en una revista científica u otro canal de divulgación.6
En el Perú, desde hace varios años se viene documentando una problemática en relación con la calidad de los manuscritos científicos, y es que en este país los productos de investigación generados en la etapa universitaria no logran ser difundidos a través de revistas científicas por su bajo potencial publicable o deficiencias metodológicas considerables,7,8,9 hecho corroborado a través de algunas investigaciones donde se muestra que en mayor proporción tienen un nivel regular y poco aceptable.10
Es en este escenario que cobra importancia la utilización de rúbricas para mejorar la evaluación de los manuscritos científicos. En este caso, una rúbrica hace referencia a una matriz de valoración que incluye en un eje los criterios de desempeño y, en el otro, aspectos para evaluar;11 por ello, se consideran guías precisas para valorar los aprendizajes y productos generados por los universitarios.12 Al respecto, en la Educación Superior una de las principales dificultades asociadas a los procesos de evaluación ha sido el desconocimiento de los criterios por los cuales se deben evaluar las competencias adquiridas;11 así, las rúbricas se muestran como instrumentos de evaluación auténticos del desempeño de los estudiantes.13 No obstante, a pesar de que existe un grupo de investigadores que asevera que no son necesarias, las rúbricas demuestran tener más beneficios que inconvenientes, especialmente cuando se usan de manera formativa.14
Respecto al tema, la literatura científica da cuenta acerca del uso de rúbricas de evaluación, orientando a reconocer que su aplicación ha tenido un impacto positivo en la educación superior.15) Esto claramente obedece a la necesidad de precisar las expectativas y criterios requeridos para que la calificación de asignaturas sea más consistente y objetiva.16 Por ello, algunos investigadores refieren que esto las convierte en un motor para promover el aprendizaje.17 Ahora, en el contexto de la investigación científica, el uso de rúbricas para evaluar productos científicos también ha sido respaldado ampliamente, habiendo evidencia para asumir que pueden utilizarse como un marco para desarrollar propuestas de investigación, calificar proyectos que buscan subvención e incluso para enseñar a estudiantes cómo criticar informes de investigación escritos.18
En el afán de documentar estudios previos, sobresalen algunos como el de Bruna, et al.,19 quienes vieron la necesidad de crear y validar una rúbrica analítica para evaluar informes de laboratorio en formato publicación científica correspondiente a un curso de bioquímica. Así también, García Ros, et al.,12 elaboraron una rúbrica para evaluar la indagación científica, análisis y elaboración de informes científicos según normativa de la American Psychology Association (APA). En la misma línea, Fey, et al.,20 desarrollaron una rúbrica para calificar la calidad de los estudios de investigación basados en simulación en enfermería, y lograron demostrar fiabilidad entre evaluadores y evidencias de validez de contenido.
En relación con lo anterior, uno de los estudios que más resalta es el realizado por Greenberg,21 quien probó una rúbrica para calificar informes de investigación empírica, reportando que los estudiantes que utilizaron la rúbrica mientras preparaban sus informes evidenciaron mayor calidad en sus trabajos que aquellos que no lo hicieron. Esto claramente demuestra la importancia del papel que pueden desempeñar las rúbricas en el proceso de evaluación formativa, hecho que también cobró relevancia en el reporte realizado por Sasipraba, et al.,22 quienes propusieron como herramienta de evaluación una rúbrica para evaluar proyectos finales de ingeniería, encontrando que esta técnica de evaluación aumentó significativamente el índice de calidad de los proyectos presentados.
En suma, las rúbricas tienen el potencial para hacer que las evaluaciones pasen de ser meras descripciones de un evaluado a determinar la calidad y el éxito de este.23 Ante ello, teniendo como necesidad latente generar cambios en el paradigma de la evaluación de la actividad científica en la Educación Superior en el contexto iberoamericano;24 y más aún en el Perú, país donde urge impulsar la producción científica de calidad desde el pregrado,25 la presente investigación tiene el objetivo de diseñar y validar una rúbrica para evaluar manuscritos científicos.
Material y Métodos
El estudio sigue un diseño instrumental porque consistió en desarrollar un instrumento de medida y brindar evidencias de validez a este.26
Inicialmente, se procedió a elaborar la rúbrica considerando la estructura del Journal Article Reporting Standards (JARS), conjunto de pautas diseñadas para mejorar el rigor de los manuscritos científicos.27 De ese modo, se consideró un conjunto de aspectos para evaluar ítems integrados en dimensiones.
Una vez determinado los aspectos para evaluar se elaboró una rúbrica analítica, pues se tiene evidencia que reducen la subjetividad en la evaluación y motivan la reflexión del evaluador y evaluado.28 La rúbrica quedó conformada por 21 ítems integrada en seis dimensiones y cuatro niveles de desempeño (Excelente, Bien, Regular, Por mejorar) con sus respectivos criterios de desempeño o indicadores.
Una vez diseñado, el instrumento fue sometido al escrutinio de nueve jueces expertos (Tabla 1). El criterio para elegir a los expertos fue encontrarse inscritos en el Registro Nacional Científico, Tecnológico y de Innovación Tecnológica (RENACYT) y contar con publicaciones científicas.
Tabla 1 Datos relevantes de los expertos

Nota: Solo se contó con participación de una mujer evaluadora.
Los nueve expertos evaluaron la calidad del contenido de los aspectos para apreciar con base en un formato establecido,29 que examinaba: (a) la relevancia; que es el grado en que el ítem es esencial y debe ser incluido; (b) representatividad, el grado en que el ítem representa el criterio que está midiendo; (c) la claridad, el grado en que el ítem es entendible, claro y comprensible; (d) Suficiencia, si el puntaje asignado era suficiente. Los tres primeros criterios (a, b, c) fueron puntuados del 0 a 3 y el último criterio (d) del 0 a 1.
Las calificaciones de los jueces fueron resumidas mediante el coeficiente V de Aiken, que indica la proporción en que el puntaje promedio de los jueces se ubica en la escala de respuesta utilizada (0-3 o 0-1), estableciéndose un valor mayor o igual a 0,7030 como indicador de validez. Adicionalmente, se calculó el Alfa de Krippendorff (α), que es un coeficiente de fiabilidad diseñado para medir el grado de acuerdo entre los evaluadores.31 Se tomó como punto de corte valores ≥ 0,70; aunque es probable que este valor no sea adecuado para todos los estudios. Los análisis de los datos fueron realizados con el programa R en su ambiente RStudio.
Una vez finalizado el instrumento se aplicó una prueba piloto. En tal sentido, tres manuscritos de diferente calidad (deficiente, regular y bueno) fueron seleccionados por un investigador (criterio externo). Luego, siete docentes de investigación utilizaron la rúbrica y calificaron los tres manuscritos, esperando que las puntuaciones fueran menores, mientras la calidad del manuscrito decrecía.
El presente trabajo forma parte de un proyecto institucional que tuvo en consideración las normas éticas de la Declaración de Helsinki. Por ende, se evaluó el riesgo, costo, beneficio, se cuidó la privacidad y confidencialidad y la aceptación en el estudio estuvo precedido por el llenado de un consentimiento informado.
Resultados
Evidencia basada en el contenido
Se cálculo la V de Aiken para cada uno de los criterios establecidos (Relevancia, Representatividad, Claridad, Suficiencia). Todos los criterios de desempeño la V se encuentra por encima del punto de corte establecido (Vaiken ≥ 0,70).
Fiabilidad
En relación al resultado del Alfa de Krippendorff (α) se observa que en casi todos los casos es superior a 0,70; con excepción del aspecto Contextualización (α =0,61). Estos resultados relacionados con la Vaiken y α de Krippendorff se encuentran en un repositorio de acceso libre.32
Relaciones prueba-criterio
En la Figurase presentan las puntuaciones otorgadas por los evaluadores a tres manuscritos de diferente calidad. Se observa que la calificación de cada uno de los jueces disminuye conforme también disminuye la calidad del manuscrito.

Fig Gráfico comparativo de las puntuaciones totales de los jueces a los tres manuscritos seleccionados
En la Tabla 2 se presentan los cambios sugeridos por los jueces expertos. Estos fueron implementados en la versión final de la rúbrica analítica.33) Tal como se observa, las recomendaciones se ubicaron en su mayoría en la dimensiones: Introducción (Planteamiento del problema, Antecedentes de investigación) y método (Participantes, Técnicas, materiales o instrumentos). Los principales cambios consisten en la incorporación de elementos o términos que clarificaban el indicador.
Discusión
El propósito de esta investigación fue desarrollar y validar una rúbrica analítica para evaluar manuscritos científicos. Esta investigación nace como una necesidad de mejorar la evaluación de los documentos científicos, porque expertos en la materia han señalado que las rúbricas analíticas son instrumentos que ayudan a reducir la subjetividad y fomentar la reflexión tanto del evaluador y evaluado.34 De hecho, en el marco de los estudios formativos de las Ciencias Médicas puede resultar útil contar con un instrumento de evaluación como las rúbricas.6,14
Dentro de los principales hallazgos del estudio la rúbrica analítica demuestra consistencia teórica porque se parte de la estructura de los JARS27 asumiendo el formato IMRyD y sus elementos como aspectos para evaluar. De hecho, una rúbrica analítica permite una mayor comprensión de la estructura de un manuscrito científico y contribuye a la mejora de su calidad.22,35 Esto se traduce en la mejora del sistema investigativo; en específico, en los procesos de planificación y evaluación de la ciencia;5 porque, el hecho de que un profesional conozca los criterios con que se le evalúa, ayuda a la adquisición de las competencias que se piden desarrollar.11
Un aspecto resaltante de la investigación es el procedimiento metodológico. Donde nueve expertos valoraron los criterios de desempeño y aspectos para evaluar de la rúbrica considerando cuatro criterios (Pertinencia, Representatividad, Claridad y Suficiencia). La valoración tuvo un momento cualitativo, donde a partir de los comentarios se incorporaron y reestructuraron los criterios de desempeño, para evitar ambigüedades.28 Además, el índice de concordancia (Alfa de Krippendorff) reveló una buena consistencia interna, con excepción del aspecto Contextualización. Esto podría demostrar que este aspecto podría no ser incluido en determinadas ocasiones.
Otra distinción de la presente investigación es la aplicación piloto con seis docentes de investigación; quienes utilizaron la rúbrica para calificar tres manuscritos de tres niveles de calidad (Bueno, Regular, Deficiente). Este procedimiento es denominado relaciones prueba-criterio y responde a la pregunta ¿Con qué exactitud los puntajes del instrumento se relacionan con un criterio externo a la prueba?.36 Esto quedó ampliamente demostrado en el estudio porque las puntuaciones otorgadas por los jueces fueron mermando conforme la calidad del manuscrito disminuía. De hecho, estos hallazgos resultan beneficiosos porque indican que el instrumento tiene la capacidad de discriminar entre malos y buenos trabajos científicos. Situación que cobra especial relevancia en un campo como las ciencias de la salud donde la calidad de los trabajos de investigación obtienen el calificativo de regular 10 y aun son pocas las investigaciones que abordan está temática.12,19,37
A pesar de los resultados interesantes, el estudio presenta limitaciones. Primero, si bien los jueces otorgaron recomendaciones de mejora, estos cambios fueron efectuados, pero no fueron devueltos a los jueces para una segunda revisión; esto ocurrió específicamente por un asunto de accesibilidad y disposición de los jueces; así como, una demanda de mayores tiempos en el proyecto de investigación. Se recomienda a futuro implementar dos o tres rondas de retroalimentación una vez aceptadas las recomendaciones de los jueces. Segundo, la designación de los siete profesores de investigación solo tuvo el criterio, de encontrarse dictando un curso de investigación. Se recomienda en el futuro establecer mayores criterios como años de experiencia, experticia en evaluación de proyectos, entre otros. Sin embargo, esto resultó complejo por la disposición y medidas sanitarias impuestas por la COVID-19 del gobierno peruano. Tercero, no fue factible la exploración de la estabilidad temporal del instrumento con algún método test-retest, debido a la dificultad que entraña tener un grupo de expertos cautivos en dos momentos de tiempo.
Conclusiones
El estudio permite concluir que la rúbrica es un instrumento válido y fiable con el cual se puede extraer conclusiones acerca de la calidad de los manuscritos científicos. El proceso metodológico de contar con la revisión de nueve jueces expertos y utilizar un criterio externo garantiza la capacidad de predecir y discriminar del instrumento, que sumado a las sugerencias cualitativas convierte a la rúbrica analítica en una interesante herramienta para valorar los trabajos de investigación. No obstante, se anima a continuar investigando las propiedades métricas, entendiendo que un instrumento como la rúbrica se encuentra en un proceso de mejora constante.