Introducción
El diagnóstico de la apendicitis aguda en niños aún presenta desafíos. A pesar del refinamiento de las herramientas diagnósticas disponibles, se siguen realizando apendicectomías negativas, y cierta cantidad de casos tienen un diagnóstico tardío que resulta en más complicaciones y costos.
Varias escalas de predicción clínica se han utilizado para optimizar este diagnóstico en la población pediátrica. Algunas se desarrollaron para pacientes tanto adultos como pediátricos, como la escala de Alvarado (EA),1) y otras se crearon específicamente para niños, como la escala de apendicitis pediátrica (EAP).2 Una revisión sistemática de las escalas diagnósticas para niños con posible apendicitis concluyó que estas dos fueron las mejor validadas.3 Ambas tienen un puntaje total posible de 10 puntos. De acuerdo a sus autores, la EA predice apendicitis con ≥ 7 puntos, mientras que la EAP lo hace con ≥ 6 puntos.1,2 Los componentes y sus valores se presentan en la tabla 1.
Varios estudios brindan comparaciones entre estas escalas. En algunos, la EAP resulta la más efectiva,3,4,5 mientras que para otros, la EA tiene mejor desempeño,6,7,8) sin embargo, el consenso general es que ninguna por sí sola proporciona un diagnóstico positivo o negativo de apendicitis suficientemente certero.4,9,10,11 Su utilidad sí está probada, no obstante, para estratificar pacientes con dolor abdominal según su riesgo de apendicitis, por ejemplo, para enviar a casa a aquellos con riesgo bajo, observar o indicar estudios de imágenes para los de riesgo intermedio, y para consultar con el cirujano en casos con riesgo elevado, con la ventaja potencial de disminuir la exposición a radiaciones y los costos.9,11,12,13,14,15,16,17,18,19,20
Estas escalas, debido a su utilidad, se han integrado a algoritmos de decisión y a vías u organigramas clínico-radiológicos para niños con dolor abdominal en los servicios de urgencia pediátrica. La EAP15,16,17,18,19,20,21,22,23,24,25 se ha empleado más que la EA12,13,24,25,26 en este sentido, sin embargo, una encuesta reveló que la EA era más utilizada que la EAP para estratificar según riesgo a las pacientes pediátricas femeninas.27 Las estrategias de conducta para la apendicitis pediátrica en general, probablemente incluirán una estratificación de riesgo ajustada a la edad y al sexo.19)
La interpretación de la EA ha probado ser diferente en hombres, mujeres, niños y adolescentes,28,29,30) mientras que la EAP se ha descrito como más efectiva en adolescentes que en niños de edad escolar31) y más específica en niñas que en niños.23,32 Ninguna de las escalas se recomienda para niños menores de 5 años.33,34) Un estudio comparó la EA y la EAP en general y de acuerdo al sexo, pero no tomó en cuenta la edad.4 Parece relevante, por tanto, comparar el desempeño diagnóstico de estas escalas en niños de edad escolar y adolescentes, en general y según edad y sexo, lo cual constituye el objetivo de esta investigación.
Métodos
Se realizó un estudio observacional prospectivo en el Hospital Pediátrico Docente Centro Habana, entre enero de 2016 y enero de 2017. La población estudiada fueron los pacientes entre 5 y 18 años de edad, ingresados en el Servicio de Cirugía Pediátrica del citado hospital con diagnóstico presuntivo de apendicitis aguda o dolor abdominal. Se excluyeron los pacientes con dolor abdominal por más de 72 horas, los previamente apendicectomizados, y los diagnosticados con plastrón apendicular.
La EA y la EAP se calcularon al momento del ingreso. Los pacientes se dividieron, de forma independiente para cada escala, en dos grupos: apendicitis y no apendicitis, considerando el diagnóstico histopatológico como elemento discriminante. Estos dos grupos se subdividieron de la siguiente manera:
Apendicitis:
EA≥7/EAP≥6, que fueron operados, con diagnóstico histopatológico de apendicitis aguda (verdaderos positivos).
EA≤6/EAP≤5, que fueron operados, con diagnóstico histopatológico de apendicitis aguda, o que no fueron operados pero reingresaron durante las siguientes dos semanas con diagnóstico de apendicitis aguda o plastrón apendicular (falsos negativos).
No apendicitis:
EA≤6/EAP≤5, que no fueron operados, y no reingresaron durante las siguientes dos semanas con diagnóstico de apendicitis aguda o plastrón apendicular, o que fueron operados, con diagnóstico histopatológico distinto de apendicitis aguda (verdaderos negativos).
EA≥7/EAP ≥6, que no fueron operados y no reingresaron durante las siguientes dos semanas con diagnóstico de apendicitis aguda o plastrón apendicular, o que fueron operados, con diagnóstico histopatológico distinto de apendicitis aguda (falsos positivos).
Se calcularon los siguientes parámetros: (VP: verdaderos positivos; FN: falsos negativos; VN: verdaderos negativos; FP: falsos positivos):
Sensibilidad: probabilidad de que la escala arroje un resultado positivo en los enfermos con apendicitis aguda:
VP/(VP+FN)
Especificidad: probabilidad de que la escala arroje un resultado negativo en los casos sin apendicitis aguda:
VN/(VN+FP)
Valor predictivo positivo: probabilidad de presentar apendicitis aguda si la escala ha predicho un diagnóstico positivo:
VP/(VP+FP)
Valor predictivo negativo: probabilidad de no presentar apendicitis aguda si la escala ha predicho un resultado negativo:
VN/(VN+FN)
Razón de verosimilitud positiva: cuánto mejora la escala la probabilidad de hacer un diagnóstico correcto positivo:
Sensibilidad/(1− especificidad)
Se interpreta su resultado como utilidad: >10 alta; 5-10 moderada; 2-4,9 baja; 1-1,9 muy baja.
Razón de verosimilitud negativa cuánto mejora la escala la probabilidad de hacer un diagnóstico correcto negativo:
(1 − sensibilidad)/especificidad
Se interpreta su resultado como utilidad: <0,1 alta; 0,1-0,2 moderada; 0,21-0,5 baja; 0,51-1,0 muy baja.
Desempeño discriminativo general de la escala: determinado por el área bajo la curva de características operativas del receptor (COR). Un área de 0,50 representa la distribución aleatoria y un valor de 1,0 la predicción perfecta.
La información concerniente a los datos clínicos y de laboratorio al ingreso se obtuvo directamente de los pacientes en el cuerpo de guardia (por parte de varios observadores; la coincidencia de los datos clínicos y de laboratorio con lo registrado en la historia clínica fue controlada sistemáticamente por el primer autor). La información registrada durante la estadía hospitalaria del paciente, así como el diagnóstico histológico, se obtuvo de las historias clínicas y los registros de anatomía patológica. Esta información se recogió en una base de datos del programa SPSS 25.0 (IBM Co. EE. UU.), que también se utilizó para el análisis estadístico, junto con el programa MedCalc19.1.3 (MedCalc Software, Bélgica).
Las variables utilizadas fueron: edad, escala de Alvarado, escala de apendicitis pediátrica, sexo, grupo de edad, migración del dolor, anorexia, náusea/vómitos, dolor a la palpación en fosa ilíaca derecha, dolor a la descompresión, dolor en fosa ilíaca derecha al golpe de tos/salto/percusión, temperatura elevada, leucocitosis, neutrófilos.
Se utilizó la prueba de ji-cuadrada (χ²) para la comparación de variables cualitativas, y se evaluaron las diferencias entre las variables cuantitativas mediante la prueba no paramétrica U de Mann-Whitney. La medida de acuerdo entre las escalas se midió con el estadístico Kappa. Las diferencias entre las áreas bajo la curva de COR se determinaron mediante comparación pareada (método DeLong). Se calcularon intervalos de confianza de 95 %, y las diferencias entre los grupos se consideraron significativas con un valor de p<0,05.
Se observaron los principios éticos para la investigación médica de la Declaración de Helsinki.35 El protocolo de investigación fue aprobado por el Comité de Ética de la institución. Los datos de los pacientes se recogieron anónimamente. Los casos se ingresaron, diagnosticaron y trataron de acuerdo con el juicio clínico de los especialistas y residentes del servicio de cirugía pediátrica, independientemente de los datos de la investigación y los puntajes de las escalas calculadas.
Resultados
Se calcularon la EA y la EAP para 452 pacientes con diagnóstico al ingreso de dolor abdominal o apendicitis aguda, de los cuales 348 (77 %) tuvieron diagnóstico histopatológico confirmado de apendicitis. Las variables demográficas y de los elementos de las escalas, en general y de acuerdo al diagnóstico de apendicitis, se resumen en la tabla 2.
DT: desviación típica; EA: escala de Alvarado; EAP: escala de apendicitis pediátrica; FID: Fosa ilíaca derecha; escolares: 5-11 años; adolescentes: 12-18 años; p: significación estadística al comparar los grupos Apendicitis y No apendicitis; *U de Mann-Whitney; ** χ².
La edad media fue de 12,41 años (rango 5-18) y 61,1% de los pacientes fueron adolescentes (12-18 años). La edad no fue significativamente diferente entre los grupos apendicitis y no apendicitis. La distribución por sexos fue equitativa en general, pero 75 % de los pacientes en el grupo no apendicitis fueron femeninas (p<0,001). La EA media para los casos con apendicitis fue de 6,91 puntos, y 4,18 puntos para los casos negativos (p<0,001). La EAP media para los casos con apendicitis fue de 7,26, y de 4,34 puntos para los casos sin apendicitis (p<0,001). El componente clínico o de laboratorio más frecuentemente encontrado fue el dolor a la palpación en fosa ilíaca derecha (92,5 %), y el menos observado fue la temperatura elevada (40,7 %).
La sensibilidad, especificidad, valor predictivo positivo (VP+), valor predictivo negativo (VP-), la razón de verosimilitud positiva (RV+), y la razón de verosimilitud negativa (RV-) fueron diferentes para cada escala en la mayoría de los criterios de corte (Tabla 3).
Sens: sensibilidad; Esp: especificidad; IC: intervalo de confianza; RV+: razón de verosimilitud positiva; RV-: razón de verosimilitud negativa; VP+: valor predictivo positivo; VP-: valor predictivo negativo; EA: escala de Alvarado; EAP: escala de apendicitis pediátrica.
Utilizando>6 puntos como el criterio de corte para la EA, se obtuvieron los parámetros sensibilidad 62,36 %, especificidad 90,38 %, VP+ 95,6 %, VP- 41,8 %, RV+ 6,49, y RV- 0,42. En cuanto a la EAP, teniendo en cuenta> 5 puntos como criterio de corte, los resultados fueron sensibilidad 87,64 %, especificidad 69,23 %, VP+ 90,5 %, VP- 62,6 %, RV+ 2,85 y RV- 0,18. En la mayoría de los puntos de corte, la EA tuvo mayor especificidad, mientras que la EAP exhibió mayor sensibilidad.
Se construyeron las curvas COR para cada escala utilizando los valores de sensibilidad y especificidad (Fig.).
La tabla 4 muestra el análisis del área bajo la curva (ABC) para cada escala y su comparación.
ABC: área bajo la curva; IC: intervalo de confianza; EA: escala de Alvarado; EAP escala de apendicitis pediátrica; *comparación pareada (método DeLong).
El desempeño discriminativo general de ambas escalas, interpretado del área bajo la curva COR, fue de 0,851 para la EA y de 0,858 para la EAP. La diferencia entre ambas no fue significativa (p= 0,5691), sin embargo, en el análisis de las coincidencias de ambas herramientas para cada criterio de corte, solo se encontró un acuerdo moderado (kappa= 0,458). El criterio de corte asociado resultó> 6 puntos para la EA y >5 puntos para la EAP. Al dicotomizar estas variables partiendo del criterio de corte asociado para cada una, la medida de acuerdo mejoró ligeramente a kappa=0,503 (p< 0,001), pero esto representa aún un acuerdo moderado.
La tabla 5 muestra el área bajo la curva COR para cada escala en las diferentes combinaciones de grupos de edad y sexo, así como la comparación entre ellos.
ABC: área bajo la curva; IC: intervalo de confianza; EA: escala de Alvarado; EAP escala de apendicitis pediátrica; *comparación pareada (método DeLong).
La mayor ABC se observa para ambas escalas en el grupo de escolares masculinos (EA 0,918; EAP 0,923, p= 0,8877 en la comparación pareada). En este grupo en particular, el acuerdo entre las escalas fue el mayor (kappa= 0,569). El ABC para ambas escalas fue en general más alta en escolares que en adolescentes (excepto para la EAP en el sexo femenino). La EA en las adolescentes femeninas exhibió el ABC más bajo (0,802). Las diferencias entre el ABC de ambas escalas para cada combinación de grupo de edad y sexo no fueron significativas y la mayor fue la encontrada en las adolescentes femeninas, a favor de la EAP (p= 0,0615). También en este grupo específico, la medida de acuerdo entre las escalas fue la más pobre (kappa= 0,340).
Discusión
El porcentaje de pacientes con apendicitis confirmada fue de 77,0 %, similar a 74,4 % reportado por Alvarado,1) quien también estudió solo pacientes hospitalizados, y superior al 63,0 % publicado por Samuel en el estudio que generó la EAP,2 quien también estudió casos con dolor abdominal sugestivo de apendicitis, operados o no, pero inferior al 85,2 % publicado por autores que solo incluyeron pacientes sometidos a apendicectomía,10 y por encima de otros (54 %4 y 36 %,8) cuya población son pacientes con dolor abdominal tratados en el servicio de urgencias, pero no necesariamente hospitalizados.
Se ha demostrado que estas escalas diagnósticas son poco efectivas en niños menores de 5 años,33,34) y la atención pediátrica en Cuba incluye pacientes de hasta 18 años, por lo que el rango de edad utilizado fue 5-18 años. La edad media y el grupo de edad predominante que se observan en la tabla 2 se corresponden con la edad pico de incidencia de apendicitis en la población pediátrica.11) Hubo una frecuencia alta del sexo femenino en el grupo de no apendicitis. Esto es una cuestión polémica. Algunos autores, aunque con predominio masculino en ambos grupos, informan una cantidad significativa de niñas en el grupo negativo para apendicitis.5) En contraste, otros, no encuentran diferencias importantes en cuanto a la distribución por sexo2 o encuentran que las apendicectomías negativas son más frecuentes en niñas mayores de 10 años.36
Las diferencias entre los puntajes medios para casos con y sin apendicitis fue significativa, y en el caso de la EA, su autor originalmente obtuvo puntajes medios más elevados (7,71 vs. 5,24).1) Otros han informado una EA media más alta con una diferencia aritmética inferior entre los puntajes medios de los casos con y sin apendicitis.4,10,25) En cuanto a la EAP, sus puntajes medios fueron ligeramente más altos en comparación con los de la EA. La diferencia aritmética entre los puntajes para los casos con y sin apendicitis fue mayor que la publicada en la literatura.4,10,17,20,37
Todas las fuentes coinciden en informar el dolor a la palpación en la fosa ilíaca derecha como el componente más frecuentemente encontrado para ambas escalas. Algunas también registran la fiebre como el menos común5 y otros plantean la migración del dolor como la menos frecuente.4
Como muestra la tabla 3, en la mayoría de los criterios de corte la EA fue más específica, y la EAP más sensible. Algunos autores encuentran resulados similares,4 mientras otros no detectan diferencias significativas ni en sensibilidad ni especificidad entre las escalas.10) La EA y la EAP predicen la apendicitis con puntajes mayor de 6 y de 5, respectivamente.1,2) Considerando estos criterios de corte, la EA habría producido 37,64 % de apendicitis no diagnosticadas (sensibilidad 62,36 %), y 9,62 % de apendicectomías negativas (especificidad 90,38 %). Para la EAP, las apendicitis no diagnosticadas habrían sido 12,36 % (sensibilidad 87,64 %) y las apendicectomías negativas 30,77 % (especificidad 69,23 %) Ambas herramientas predictivas tuvieron razones de verosimilitud bajas a moderadas en estos puntos de corte. Estos hallazgos apoyan el consenso de que debido a la insuficiente sensibilidad y especificidad en cualquier criterio de corte, ninguna escala constituye un método diagnóstico efectivo de forma aislada.4,9,19,11
Se ha demostrado que tanto la EA como la EAP son útiles para estratificar a los pacientes como riesgo bajo, intermedio o alto de apendicitis.9,11,12,13,14,15,16,17,18,18,19,20
Los valores de la tabla 3 muestran que una EA con puntaje menor que 4 puntos, donde la probabilidad de no diagnosticar la apendicitis es de 0,86 % (sensibilidad 99,14 %), y la probabilidad de hacer un diagnóstico negativo correcto es elevada (RV- 0,02), sería seguro descartar la apendicitis. La EAP, siendo más sensible, permitiría descartar la apendicitis con un criterio menor de 5 puntos, donde la apendicitis no diagnosticada sería de 3,45 % (sensibilidad 96,55 %) y la RV- es alta (0,07).
En cuanto a confirmar la apendicitis, o sea el posible límite entre los grupos de riesgo intermedio y alto, los valores de la tabla 3 muestran que una EA mayor de 7 puntos sería un buen criterio, en el cual las apendicectomías negativas serían 3,85 % (especificidad 96,15 %) y la probabilidad de hacer un diagnóstico positivo correcto es alta (RV+ 10,3). Como una escala menos específica, la EAP sería útil para confirmar la apendicitis con puntaje mayor de puntos, donde las apendicectomías negativas serían 3,85 % (especificidad 96,15 %), aunque la RV+ es solo moderada (5,60); no obstante, la EAP mayor de 7 puntos podría ser también una opción (especificidad 92,31 %, RV+ 6,05).
En una revisión sistemática,7 sus autores afirman que la razón de verosimilitud para la EA en niños fue de 0,02 (mayor de 4 puntos), 0,27 (4 a 6 puntos), y 4,2 (mayor o igual a 7 puntos). Para la EAP, las razones de verosimilitud fueron 0,13 (menor de 4 puntos), 0,70 (4 a 7 puntos), y 8,1 (mayor o igual a 8 puntos). Concluyen que en niños, una EA menor de 4 descarta la apendicitis, pero la EAP no identificó grupos de riesgo bajo o alto clínicamente significativos.7 Algunos autores consideran igualmente una EA menor de 4 para descartar la apendicitis,12,25,26 mientras que otros como el propio Alvarado recomiendan descartarla con puntajes menor de 5.1,13,29
En cuanto a la EAP, algunos coinciden con los presentes resultados en descartar la apendicitis con puntaje menor de 5,14,17 pero otros emplean el criterio de menor de 4 puntos18,20 o incluso de 3 puntos.23) Con respecto al rango de alto riesgo de apendicitis, la literatura tiene ejemplos de EA de 7-10 puntos,12y de 9-10 puntos;26) EAP de 8-10 puntos,14,17,18 y de 7-10 puntos.23)
En opinión de los autores, identificar un buen límite de descarte tiene más relevancia, ya que esto determina cuáles pacientes pueden enviarse a casa con seguridad. Establecer un límite de riesgo intermedio a alto también es importante, pero su variabilidad tiene consecuencias en cuanto a un mayor o menor tiempo de observación, la realización de estudios de imágenes o la consulta con el cirujano; mientras tanto ese paciente se encuentra en el hospital hasta que su caso esté bien definido.
El área bajo la curva representa el poder discriminativo de las herramientas diagnósticas, y como se observa en la figura 1 y en la tabla 4, el ABC para la EA y para la EAP fueron muy similares entre sí. En diferentes investigaciones se ha identificado valores parecidos de ABC (EA 0,847 vs. EAP 0,868),5 o (EA 0,87 vs. EAP 0,82).8 En diferentes momentos evolutivos el ABC para la EA es siempre superior al ABC para la EAP (0,87-0,90 vs. 0,82-0,87);6 otros estudios, muestran valores de ABC más bajos, aunque similares entre sí (EA 0,771 vs. EAP 0,777),4 o valores inferiores de ABC para la EAP,24,37) o valores de ABC de 0,895 para la EAP.14
El hecho de que el desempeño discriminativo general de ambas escalas haya resultado similar entre sí, no significa que se comporten igualmente si se considera cada criterio de corte, como se deduce de los resultados de la tabla 3. De forma consistente con esto, la medida de acuerdo entre las escalas (kappa) fue solo moderada. El análisis del ABC arrojó un criterio asociado mayor de 6 puntos para la EA y de 5 puntos para la EAP, como se aprecia en la tabla 4, los mismos que fueron originalmente propuestos para cada una.1,2) La mayoría de los autores coinciden en encontrar un criterio mayor de 6 para la EA,6,10) y de>5 para la EAP,14 pero otros han identificado un criterio de corte mayor de 6 para la EAP.10,37) De cualquier manera, como se ha dicho ya, el diagnóstico mediante un criterio de corte único no constituye un modo de empleo válido para estas escalas.
En la tabla 5, el desempeño discriminativo general de la EA y la EAP no fue el mismo para cada combinación de grupo de edad y sexo, con mayores ABC para el sexo masculino y la edad escolar. La mayor diferencia en la comparación pareada así como la medida de acuerdo más pobre entre las ABC, se encontró en las adolescentes femeninas, aunque fue marginalmente no significativa, debido a un desempeño relativamente más pobre de la EA en este grupo específico de pacientes.
Se ha encontrado que ambas escalas son mejores para los varones que para las hembras, basados en los valores de sensibilidad, especificidad, VP+ y VP- obtenidos con el criterio de corte originalmente descrito para cada una.4 Para algunos autores, la EAP tuvo una mayor especificidad y VP- en niñas, que en niños. Las hembras también son objeto de más apendicectomías negativas, a pesar de habérseles hecho más estudios imagenológicos preoperatorios.32 En estudios de EAP sin compararla con otra escala y con un criterio de corte mayor de 8 (en lugar de 7), diferentes autores demuestran una mejor especificidad entre las adolescentes femeninas en comparación con el resto de los pacientes.23 Con un enfoque similar, otros, describen su precisión diagnóstica como más alta en el grupo de 13-18 años en comparación con los de 12 años o menos.31
Este estudio tiene algunas limitaciones. Aunque los autores supervisaron la recolección de la información primaria y su coincidencia con los registros clínicos, no se evaluó estadísticamente la posible variabilidad interobservador. Además, pudieran existir algunos falsos negativos debido al tiempo prolongado entre la recolección de los datos para calcular la escala y el diagnóstico definitivo de apendicitis en determinados casos. Por último, una gran proporción de pacientes tuvieron apendicitis, esto puede haber afectado la interpretación de las escalas en su rango bajo. Sin embargo, ambas se estudiaron en los mismos pacientes y bajo las mismas condiciones, por lo que es válida la interpretación de la comparación en su desempeño.
En conclusión, la EA fue relativamente más específica y la EAP fue relativamente más sensible, por lo que se deben utilizar diferentes criterios de corte para cada una al estratificar pacientes pediátricos según su probabilidad de apendicitis. Ambas escalas tuvieron un desempeño discriminativo general similar, y se comportaron muy bien para los niños de edad escolar y sexo masculino. La mayor diferencia en desempeño se encontró en las adolescentes femeninas, favoreciendo la EAP.