INTRODUCCIÓN
El virus del Papiloma humano está asociado con el 95 % de los casos de cánceres de cuello de útero. Las instituciones de salud pública de todo el mundo invierten esfuerzos técnicos, humanos y económicos para disminuir los impactos del Cáncer de Cuello de Útero (CCU) en sus comunidades (Torede et al., 2021) y (Cuesta, U. 2018). Sin embargo, en gran parte de los países en desarrollo estos esfuerzos aún son insuficientes, debido a que este cáncer presenta los índices más altos de muertes. Desde los últimos veinte años Brasil realiza investigaciones en esta área motivado por su alta densidad poblacional, que hace de Brasil uno de los países más vulnerables a muertes por este tipo de cáncer en Sur América.
Trabajos realizados por (De Oliveira et al., 2021). (Franco et al., 2019) y (Oliveira et al., 2017); evidencian los problemas más frecuentes en el seguimiento del CCU como: la desarticulación de los programas de rastreo del CCU entre sí y con la sociedad; acceso precario con largas filas para marcar consultas ginecológicas, desigualdad en la distribución de equipos para análisis de exámenes realizado por las regiones del país, así como insuficiencia de sillas ginecológicas; largos tiempos de espera por consultas y diagnósticos; falta de humanización y de atención adecuados en las unidades de salud; carencia y mala distribución de profesionales en citopatología por el territorio nacional; resultados divergentes en los diagnóstico (falsos positivos o falsos negativos) y largas distancias de los puestos de salud de algunas regiones geográficamente alejadas son los problemas más frecuentes. A pesar de las investigaciones de América Latina en buscar mecanismo de contención del cáncer en general, sus aportes están lejos de los avances realizados en otros países que ya lograron contener algunos tipos de cáncer, como es el caso de Suecia, Australia y Estados Unidos. Entre los mecanismos usados para contener el CCU y otros tipos de cánceres en países desarrollados, están las técnicas de sistemas expertos para el rastreo computacional de esta enfermedad, ofreciendo resultados de acierto entre el 87% y 100% (Sainz, 2020). La técnica de rastreo computacional es uno de los métodos más investigados para auxiliar a los patologistas en resultados más precisos, disminuyendo los falsos positivos y falsos negativos. Para disminuir los casos de falsos positivos y falsos negativos se usaron técnicas computacionales, una de esas técnicas es la clasificación de descriptores para determinar anomalías en los exámenes analizados (Aguilera, 2021). La clasificación es el proceso que categoriza automáticamente características de imágenes de células cervicales o cualquier tipo de imagen u objeto, atribuyendo a cada característica un rotulo que contiene informaciones del objeto o imagen analizada. En ocasiones la clasificación puede ser el propio objeto final del análisis. Diversas herramientas para la clasificación de células cervicales han sido exploradas (Rodríguez, S. 2016). El algoritmo KNN, las Redes Neurales asistidas (Neural network-assisted-NNA) y las redes de Bayes son programas informáticos de clasificación empleados en el proceso de identificación y delineamiento de clases de núcleos celulares. El clasificador probabilístico ingenio de Bayes, es el sistema clasificador más utilizado y el que más frecuentemente se encuentra en la literatura (Daisy et al., 2021), (Pereira-Toledo et al., 2017,) y (Saxena et al., 2021). Este clasificador informático expresa la probabilidad de que un descriptor, representado por el vector d cualquiera, pertenezca a una clase 𝑐 𝑖 dada. La Ecuación 1 define el clasificador ingenuo de Bayes.
Donde el espacio de eventos es el de los descriptores, 𝑃( 𝑑 𝑗 ) es la probabilidad de escoger aleatoriamente un descriptor que esté representado por el vector 𝑑 𝑗 𝑃( 𝑐 𝑖 ) y es la probabilidad de que al tomar un descriptor cualquiera este pertenezca a la clase 𝑐 𝑖 . Estimar la probabilidad anterior no es fácil por lo complejo de ?? 𝑗 ; por lo que normalmente se asume que las variables que componen el descriptor vector son independientes; por lo que se puede representar la probabilidad de la ecuación anterior como:
Donde cada 𝑤 𝑘 es independiente de cualquier otra 𝑤 𝑗 para 𝑖≠0 cuando están condicionadas a 𝑐. Dada esta suposición, es lo que se conoce como Ingenuo de Bayes (Naive Bayes) y por su simplicidad y rendimiento, es ampliamente utilizado en la categorización de descriptores. A continuación, mencionaremos algunas de las investigaciones que han segmentado y evaluado el desempeño de los algoritmos de clasificación en imágenes digitales de células cervicales. Estudios realizados por (Ortíz et al., 2021), lograron generar mecanismos semiautomatizados para la segmentación y detección de patrones en las imágenes, ofreciendo avances en los estudios de la morfología de los núcleos alterados. Investigaciones más recientes realizadas por (Moreno et al., 2021), usaron procesamiento de Imagen asistido por computador, para segmentar los núcleos y citoplasmas. Usaron técnicas informáticas de Machine Machine Learning y microscopia virtual para clasificar células anormales y normales en imágenes de alta calidad adquiridas por la citología líquida (Liquid Based Citology (LCB). Estas investigaciones analizan en gran medida los aspectos morfológicos de células visualmente alteradas, detectando células ya comprometidas.
El objetivo de este artículo es realizar una revisión de los descriptores más determinantes en el estado de arte de las características usadas en la detección de cambios asociados a la malignidad en imágenes de células del cuello de útero del examen del Papiloma convencional, visionando su uso en el rastreo oportuno del Cáncer de Cuello de Útero. Serán abordadas diferentes secciones explicando que son los cambios asociados a la malignidad y sus aportes en la detección temprana de algunos tipos de cáncer en la historia, así como su análisis visual y análisis digital de los descriptores. Finalmente será calculada la precisión de los descriptores identificados en la literatura usando un clasificador ingenuo de Bayes.
Materiales y métodos
Se realizó una revisión sistemática de documentos de sociedades científicas interdisciplinares dedicadas al estudio del MAC y el cáncer, así como de revisiones sistemáticas sobre procesamiento de Imagen asistido por computador en las bases de datos informatizada de la literatura Web of Science y Medline. Fue usada una estrategia de búsqueda de intersección entre los tópicos ya mencionados a nivel mundial, generando resultados de amplio espectro en inglés con más de 900 resultados. Fue refinada la información usando el software VantagePoint, para sintetizar las 50 investigaciones más relevantes históricamente en donde se seleccionaron los 400 descriptores significativos en el área de segmentación de imágenes para MACs. Para determinar la precisión de los descriptores seleccionados, se realizó la extracción de las características a un conjunto de imágenes de 962 imágenes de células del cuello de útero disponibles para el estudio MAC en donde se extrajeron 400 descriptores (Franco et al., 2018). Las características fueron exportadas y organizadas en un archivo .css para ser evaluadas en el software Weka 3.8.3 ejecutado en Ubunto 18.04.1 LTS, en donde se calcularon indicadores como: las instancias de clasificación, el error absoluto medio, la precisión, el recall y la matriz de confusión.
Cambios Asociados a la Malignidad - Malignancy Associated Changes (MAC)
Los cambios asociados a la malignidad son alteraciones ligeras en la morfología y la textura de cromatina (forma en la que se presenta el ADN) de los núcleos en las células pronosticando posibles lesiones malignas. El fenómeno fue descrito por primera vez en 1959 (Nieburgs, 1959). A diferencia de los estudios de rastreo computacional que detecta células ya visualmente alteradas, los estudios MAC permitían una detección temprana, antes de la alteración morfológica de la célula, demostrando ser una técnica con potencial para ser implementada en programas de detección del cáncer.
Análisis Visual y detección del MAC
(Nieburgs, 1967) observó que muchas condiciones, físicas incluido el embarazo y las enfermedades puede causar alteraciones en la morfología nuclear de las células. Mencionó que algunos de estos cambios perecen ser específicos de los individuos que padecían tumores malignos. Estos cambios se acuñaron y apareció el término “Malignancy Associated Changes” y lo aplicaron a los cambios visualmente observables en las células benignas adyacentes o distantes de una lesión cancerosa. Estas primeras pruebas eran invasivas adquiriendo tejidos para un análisis completo. El estudio de (Nieburgs, 1967) despertó la posibilidad de diagnosticar el cáncer sin tener que realizar pruebas invasivas, porque no necesitaba de biopsias para extraer tejidos. Este factor generó un aspecto atractivo, tanto para médicos, pacientes e investigadores. Estudios realizados encontraron MACs en pacientes con cáncer mostrando cambios de las células en (84,6 %) de los pacientes (Andreichuk et al., 2021).
MAC’s - Análisis de imágenes digitales
Con la aparición de las técnicas de análisis digital de imágenes, las investigaciones de la detección del MAC dieron un giro. Los estudios anteriores ya mencionados habían utilizado características visualmente detectables, principalmente los descritos definidos por (Nieburgs, 1967), no eran fácilmente detectables por las técnicas visuales convencionales de análisis de imágenes. El Procesamiento Digital de Imágenes (PDI) ofreció una manera de medir características susceptibles del MAC a partir de imágenes digitales. Con estas técnicas computacionales era posible medir las bandas de cromatina por medio de técnicas de medición de niveles de grises en la imagen. Esto fue posible por medio del uso de la Ecuación 3.

Donde 𝐷𝑂 es la densidad óptica, 𝑖 y 𝑗 son los índices de fila y columna de un píxel en una imagen, el fondo es el valor de gris medio del fondo de la imagen, y 𝑃 𝑖𝑗 es el valor de gris del píxel.
La Ecuación 3, permite identificar la Densidad Óptica Integrada (DOI) de una célula mostrando si una mancha produce un valor gris que es una función del contenido de ADN en el núcleo (Burger et al., 1981) Este tipo de métodos abrió nuevos caminos en el análisis MAC y permitió generar una lista completa de casi 400 características basadas en imágenes digitales de células, aportadas desde los años 70 para las investigaciones de MAC (Klawe et al., 1974). El PDI permitió realizar una investigación de cambios subvisuales en las células intermedias, tarea que las técnicas visuales convencionales no conseguía, con la finalidad de buscar cánceres tempranos. Para lograr este objetivo el PDI ayudó a solucionar las necesidades del MAC. La primera necesidad está asociada a reconocer la morfología nuclear de las células; la segunda necesidad estaba asociada a reconocer las alteraciones en la textura nuclear. Cada una de estas necesidades generaron soluciones particulares como se observa en la Tabla 1.
Segmentación de la cromatina
La cromatina nuclear se visualiza mediante microscopía óptica como un mosaico de regiones intercambiables de alta Densidad Óptica (DO). Las regiones de alta densidad están bien definidas como partículas de cromatina; Estas partículas permiten la descripción de cromatina y el reconocimiento de sus cambios durante la neoplasia. (Doudkine et al., 1995) establece que: en la citopatología la cromatina se denomina típicamente coagulada o finely-clumped. Es decir, tiene un aspecto de sal y pimienta suave, que parece como si tuviera una distribución de tipo carrito-rueda o reloj. Son pocos los investigadores que han intentado segmentar la cromatina. Las investigaciones sobre la segmentación de la cromatina se pueden separar en dos grupos. El primero de ellos son los que separan únicamente los núcleos y el segundo grupo son los que separan los núcleos y el citoplasma. En la Tabla 2 se evidencian los experimentos relacionados a la segmentación de la cromatina y sus descripciones aplicada en células del cuello del útero.
Analizando la Tabla 2 se puede definir los algoritmos de segmentación de la cromatina más usados en los últimos años son: Global Thresholding, Top-hat Transform, Grey-Scale Thinning, Local Adaptive Thresholding y Region Growing Merging. Siendo Global Thresholding y Región Growin Merging los algoritmos más utilizados en los primeros años de la segmentación de la cromatina.
Identificación de descriptores
Como resultado de las investigaciones de (Hallinan, 1999), un total de 400 descriptores se propusieron para el estudio de MAC, los cuales se dividen en características de textura, características asociadas a concurrencia de nivel gris (GLCM), características de la morfología de la imagen y características de la densidad óptica. En la Figura 1 se presenta la distribución de uso de las características en la literatura.

Fig. 1 Distribución de los descriptores MAC en la literatura Fuentes: Adaptado de (Hallinan, 1999), Web of science y Medline.
El 35% de los descriptores están asociados a la morfología de la imagen. Este porcentaje se explica porque el cálculo de las características morfológicas computacionalmente es menor y su identificación es más simple de calcular. También se evidencia como las características de Densidad Óptica son menos estudiadas, este hecho se puede entender por los desafíos que representa el análisis de características de este tipo a nivel computacional por la necesidad de interpretar grandes cantidades de informaciones. A continuación, en la Tabla 3 serán presentadas características estudiadas asociadas al MAC.
En la Tabla 3 se observan diferentes tipos de características que se asocian con MAC. Se logra intuir que el cálculo de la media y desviación estándar en diferentes descriptores es persistente en varios tipos de características como es el caso del área, circularidad, densidad óptica máxima, mínima y sus variaciones. Este patrón se repite a lo largo de varias otras características explicando la grande cantidad de características usadas en la detección MAC (Bejnordi et al., 2013).
Resultados
Extracción de descriptores MAC
Se realizó la extracción de 400 características a un conjunto de imágenes de 962 imágenes de núcleos de células del cuello de útero disponibles para el estudio MAC, tales como: área del núcleo, cantidad de píxeles en la región del núcleo, brillo del núcleo y la intensidad promedio de los píxeles (Franco et al., 2018), (Zhang, 2016). Fueron extraídos usando el software CellProfiler Stable (3.0.0) cell image análisis (Stirling et al., 2021),. Fue usada la Ecuación 3, con el fin de separar la contribución de cada color de tinte en la imagen donde cada tinte tiene una OD de la cromatina en cada uno de los canales RGB. La Figura 2 presenta el resultado de la separación de los dos de los canales presentes en las imágenes de los núcleos, Hematoxilina de Harris y el colorante Orange G6.

Fig. 2 Imagen original; b) Imagen del núcleo en su representación de coloración Hematoxilina; c) discontinuidad del gradiente; d) tresholding; e) segmentación; f) identificación de la cromatina.
Esta separación por contribución de color se observa en la Figura 2b y permite la detección sutil de las manchas de la cromatina como se observa en la Figura 2f, esto posibilita el estudio de Cambios Asociados a la Malignidad en imágenes de células cervicales de la citología convencional. En la Figura 2c, se identificó la discontinuidad del gradiente en los núcleos y en la Figura 2e se observa en color verde las intensidades semejantes a a la cromatina. Las 400 características fueron extraídas de cada núcleo y exportadas y organizadas en un archivo .css para ser evaluadas en el software Weka 3.8.3, en donde se calcularon: las instancias de clasificación, el error absoluto medio, la precisión, el recall y la matriz de confusión (Gautam et al., 2021).
Los 400 descriptores fueron sometidos a una clasificación bayesiana ingenua, donde se usó el algoritmo del estimador para encontrar las tablas de probabilidad condicional de la Red Bayes de la Ecuación 2. Se usaron 300 instancias para procesar la predicción por lotes, realizando una validación cross-validation con 10 - folds. La estructura de la red fue restringida por un orden en los descriptores y adicionalmente fue calculada la matriz de confusión. Los resultados de la clasificación de conjuntos de 400 descriptores, se pueden observar en la Tabla 4.
En la Tabla 4 fueron calculados un total de 400 descriptores con 962 instancias, la clasificación correcta fue de 86,94% con un cálculo correcto de 297 instancias. La estructura de la red fue restringida por un orden en los descriptores y adicionalmente fue calculada la matriz de confusión. Los resultados de la matriz de confusión, se pueden observar en la Tabla 5.
La precisión de la clasificación es de 0.869, una precisión alta, considerando la cantidad de descriptores usados e instancias limitadas. La matriz de confusión determino, que 12 de los datos no fueron clasificados correctamente de los casos positivos para malignidad en el modelo de descriptores MAC. En el caso de la identificación de los valores negativos para malignidad, la tasa de error fue de 29 datos en el modelo MAC. La precisión del experimento no presentó altos números de falsos positivos en los resultados ofrecidos, sin embargo, no es suficiente considerando que se está clasificando datos para diagnósticos de presencias de anomalías asociadas a la malignidad, lo que genera la necesidad de optimizar los resultados obtenidos lo máximo posible.
Conclusiones
Fue realizada la revisión de los descriptores más determinantes en la detección de cambios asociados a la malignidad en imágenes de células del cuello de útero del examen del Papiloma convencional. Se abordaron los conceptos del análisis visual y análisis digital de los descriptores. Fueron extraídas informaciones morfológicas, de textura, de iluminación y densidad óptica de las imágenes de un banco de datos de imágenes especializado para el estudio de MAC.
Se observó diferentes variaciones en los datos extraídos, en los núcleos de las láminas que presentaron algún tipo de alteración, específicamente en las características de área y perímetro de los núcleos. Este comportamiento es esperado ya que el agrandamiento nuclear es una condición conocida en células alteradas. Fue realizada la separación de canal de color en los valores de Hematoxilina que registraron la presencia sutil de la cromatina. Se identifico que las características morfológicas fueron ampliamente usadas en los primeros años de investigaciones por su fácil implementación y poco costo computacional, con los avances computacionales fueron adaptados nuevos descriptores más complejos como lo descriptores de textura de cromatina que son discriminadores más utilices.
Finalmente, este artículo identifico algunas de las características MAC’s más usadas en el procesamiento de imagen asistido por computador y se observó que el conjunto de 400 descriptores presento una precisión del 86.94% Se evidenció el potencial de las tecnologías de rastreo computacional que pueden auxiliar en la identificación de anomalías en células del cuello de útero de manera temprana y mejorar las capacidades en rastrear el CCU en Brasil y en los países de América Latina apuntando a ayudar en la disminución de casos de CCU. Se recomiendo continuar experimentando con nuevos grupos de descriptores y otros programas informáticos de clasificadores, buscando una precisión cercana al 100% para diagnóstico de presencias de MAC.