1 - Introducción
La identificación temprana de trastornos auditivos y visuales en recién nacidos resulta un factor decisivo para la atención efectiva de dichos trastornos y la disminución de sus efectos negativos en el neurodesarrollo del infante. Actualmente, el Departamento de Electrónica del Centro de Neurociencias de Cuba (CNEURO) se encuentra en proceso de desarrollo e implementación del sistema de pesquisa universal INFANTIX, con la intención de incluir en un único sistema un cúmulo imprescindible de exámenes para la identificación temprana de trastornos auditivos y visuales de amplia aplicación en hospitales pediátricos y maternos. Entre el grupo de exámenes de pesquisa que dispondrá el sistema INFANTIX se encuentra uno de corte electroaudiométrico con alto valor clínico, que permite identificar a qué frecuencia específica existen pérdidas auditivas e incluso si su origen está asociado a trastornos conductivos (temporales) o neurosensoriales (permanentes). Se trata de los Potenciales Evocados Auditivos de Estado Estable (PEAEE), cuya implementación implica un conocimiento tecnológico (know-how) ya dominado por el grupo de desarrollo de CNEURO que lo ha introducido al mercado internacional a través de productos como AUDIX (NEURONIC S.A) y BabyScreen (NEURONIC S.A).
Los PEAEE son oscilaciones en la actividad eléctrica cerebral ante la presencia de un estímulo acústico, cuyas componentes de frecuencia discreta permanecen constantes en amplitud y fase durante largos períodos de tiempo. Aunque se han usado gran diversidad de estímulos, los PEAEE son típicamente generados por la presentación continua de sonidos (tonos o ruido) modulados en amplitud [1, 2]. En la práctica clínica, la exploración auditiva mediante la técnica PEAEE se realiza a partir de la presentación de tonos modulados en amplitud. Los tonos modulados en amplitud son estímulos frecuencia específicos, cuya energía se encuentra concentrada en una región circunscrita del espectro. Estos estímulos se construyen a través de la modulación en amplitud de dos componentes: una frecuencia portadora (fp), cuyo valor corresponde con una de las frecuencias de la audiometría convencional (típicamente se utilizan las componentes de 0.5 kHz, 1 kHz, 2kHz y 4 kHz) y una frecuencia moduladora (fm) que establecerá el ritmo de la repuesta (frecuencia de repetición).
La frecuencia de repetición utilizada para generar estas respuestas auditivas determina el valor audiométrico de las mismas, y, por ende, su campo de aplicación. Los tres rangos fundamentales para la frecuencia de repetición (frecuencia moduladora en el estímulo) son: de 4 a 8 Hz, alrededor de los 40 Hz, y entre 70 Hz y 110 Hz. Las respuestas auditivas de estado estable generadas con frecuencia de repetición dentro de este último rango no se vean afectadas por el sueño o la sedación, pudiendo ser utilizadas para la exploración auditiva en lactantes y niños pequeños.
La Figura 1 ilustra un tono modulado en amplitud, con frecuencia portadora 2000 Hz y frecuencia de modulación 93 Hz, combinación que corresponde con el estímulo implementado en el sistema INFANTIX para la realización de la prueba PEAEE. Este estímulo presenta una profundidad de modulación de 0.89, valor de referencia en la literatura para esta aplicación. Esta figura incluye además el espectro de frecuencias del estímulo, corroborándose la presencia de la componente portadora y las componentes laterales en fp ± fm.
La cóclea ha sido modelada, a partir de los datos reportados de experimentación in-situ, como un banco de filtros Pasabanda, cada uno en cascada con rectificadores de compresión. Esto implica que al presentarse un estímulo como el ilustrado en la Figura 1, la región en la membrana basilar de la cóclea sensible a los sonidos en la banda de los 2 000 Hz comienza a responder, estimulando a las fibras nerviosas del nervio auditivo. Las fibras nerviosas comienzan a transmitir a lo largo de la vía una serie de impulsos nerviosos cuyo patrón manifiesta una envolvente con frecuencia igual a la frecuencia de modulación del estímulo (ver Figura 2). Esta respuesta electrofisiológica constituye el PEAEE, cuyo espectro manifiesta una componente o ‘pico’ espectral a la frecuencia de modulación del estímulo presentado. De esta forma, la frecuencia portadora del estímulo, en este caso 2000 Hz, se utilizó para lograr la frecuencia especificidad del estímulo, provocando una estimulación selectiva de la cóclea. Si el registro de la respuesta electrofisiológica del sujeto estimulado evidencia una componente espectral estable a la frecuencia de modulación de dicho estímulo, entonces es posible asegurar que el sujeto es capaz de escuchar sonidos en la banda de los 2000 Hz.
En la práctica, el PEAEE se registra sobre el cuero cabelludo a través de electrodos de electroencefalografía ubicados en determinadas configuraciones. La señal bioeléctrica registrada, al igual que toda señal bioeléctrica, incluye la respuesta electrofisiológica de interés y componentes de ruido adicionales, en este caso mayormente asociadas a la actividad eléctrica remanente de otras partes del cerebro, músculos de la cara, piel y cuero cabelludo [1, 2, 3]. De ahí la necesidad de aumentar el índice de relación señal-ruido del registro adquirido durante un examen PEAEE para facilitar la extracción y detección de la respuesta de interés. Promediar los segmentos de registro de EEG en el dominio del tiempo ha sido la clásica estrategia para elevar el índice de relación señal-ruido del PEAEE en un factor igual a la raíz cuadrada del número de segmentos promediados.
La Figura 3 ilustra los términos segmento y sub-segmento para una mejor comprensión del proceso de promediación. Entiéndase como segmento de registro a un conjunto de N1 muestras de la señal registradas de manera continua. Estos segmentos (sweep) se dividen a su vez en sub-unidades de N2 muestras denominadas sub-segmentos (epoch), por lo que N1 = N2 ( N. El tamaño de los segmentos y sub-segmentos influye en la capacidad de las alternativas de promediación para la extracción de la respuesta auditiva de estado estable, de ahí que resulte necesario modelar estrategias que abarquen diferentes valores posibles para estos parámetros.
Vale destacar que el PEAEE es una señal electrofisiológica del orden de los 0,08 µV, altamente susceptible al ruido y los artefactos. El ruido debe mantenerse por debajo de los 0.01 µV luego de realizar varias promediaciones, considerándose como adecuado un índice de relación señal ruido mayor igual a 15 dB. Para que el efecto de la promediación secuencial sea efectivo es necesario que el ruido se mantenga en niveles estables en el tiempo. Por ello, en caso de que el ruido residual varíe considerablemente de un segmento a otro, debe valorarse la inclusión de una etapa de pre-procesamiento para eliminar señales transitorias de amplitud superior a los 20 µV que puedan introducirse en el registro debido a movimientos involuntarios del sujeto (artefactos).
Como se ha mencionado previamente, las respuestas PEAEE generadas a partir de la presentación de tonos modulados en amplitud pueden ser identificadas en el espectro de la señal registrada y promediada a partir de la presencia de un “pico” o componente espectral a la frecuencia de modulación del estímulo. Esta representación en el dominio de la frecuencia es comúnmente apoyada en la Transformada Rápida de Fourier. Así mismo, la identificación automática de la componente espectral es comúnmente conducida a través de la aplicación de análisis estadísticos que permiten identificar diferencias significativas entre dicha componente asociada a la respuesta PEAEE y las componentes espectrales vecinas, siendo estas últimas un estimado del nivel de ruido. Para esta comparación se han utilizado diferentes estadígrafos matemáticos en dependencia del tipo de información a comparar (amplitud, fase o ambos) en las muestras espectrales de respuesta y ruido [4, 5, 6, 7, 8]. La diferencia estadísticamente significativa se interpreta entonces como presencia de PEAEE y, por tanto, que el sujeto tiene una capacidad normal para escuchar sonidos de frecuencia e intensidad iguales a la intensidad y frecuencia portadora del estímulo.
La conceptualización y desarrollo de un sistema de pesquisa como INFANTIX impone satisfacer demandas de precisión y rapidez, traducidas en alcanzar una correcta clasificación del registro en un tiempo no mayor de tres minutos. Esto impone la revisión y corrección de las principales limitaciones que han manifestado las alternativas de desarrollo propio para la implementación de la técnica de PEAEE por parte de CNEURO; disponibles en productos como AUDIX y BabyScreen. La mayoría de estas limitaciones surgieron de la necesidad de simplificar las demandas computacionales y lograr un diseño realizable para la tecnología disponible en el momento de concepción. Reajustes matemáticos y simplificaciones en la construcción de los estadígrafos requeridos para la automatización del examen constituyeron factores negativos que disminuyeron la precisión con la cual se detecta la presencia de respuesta electrofisiológica. Otro factor negativo fue la determinación empírica del número óptimo de muestras a promediar y con las cuales estimar el espectro de la respuesta, así como la cantidad de muestras de respuesta y ruido a considerar en la construcción de los estadígrafos.
Estudios previos al presente trabajo han propuestos soluciones desde diversos enfoques. Por una parte, algunas soluciones se han enfocado en disminuir el tiempo de detección a partir de elevar los índices de relación señal-ruido; o bien durante la etapa de extracción de la respuesta [9, 10, 11] o a través de la presentación de estímulos capaces de generar respuestas de mayor amplitud [12, 13, 14, 15, 16]. Por otra parte, soluciones más enfocadas en alcanzar una alta sensibilidad y precisión en la detección han abogado por la imposición de supuestos matemáticos a la hora de implementar los estadígrafos [4, 7] o por la aplicación de técnicas de filtrado digital adaptativo para la estimación de señales sinusoidales contenidas en ruido aleatorio [17]. Nótese que esta última propuesta puede resultar contraproducente ante condiciones de registro inestables, donde los altos niveles de ruido por interferencia o artefactos pueden influir negativamente en el reajuste de los coeficientes del filtro, conduciendo a una demora en la detección de la respuesta.
Otras de las alternativas propuestas con el objetivo de lograr una detección efectiva de la respuesta auditiva de estado estable es la combinación de múltiples canales de registro a través de filtros espaciales [18, 19, 20]. Para ello, m-canales (m = hasta 64 canales de registro) son combinados en un único canal donde los clásicos métodos de detección basados en estadígrafos matemáticos son aplicados sobre este llamado canal “virtual”. Particularmente, [19] en 2015 presenta una solución consecuente con esta línea, desarrollando un filtro cuyos coeficientes son estimados mediante una etapa de entrenamiento inicial. Para dicho entrenamiento se realiza una sesión de registro con un estímulo de gran amplitud a cada sujeto. Si bien esta solución expone una disminución en los tiempos de detección de la respuesta de hasta un 5 % (con respecto a la literatura) con una alta sensibilidad incluso en escenarios de bajos índices de relación señal-ruido, la misma resulta no factible en la práctica pues la baja generalización intersujetos imposibilita implementarla sobre un producto clínico. Así mismo, toda solución de más de 4 canales limitaría su aplicación para la exploración objetiva de la audición en neonatos e infantes.
Por otra parte, vale destacar que el mayor número de estudios conducidos en la temática abogan por la estimación estadística como el camino adecuado para la detección objetiva de la respuesta auditiva de estado estable, siempre y cuando se resuelva el alto índice de falsos positivos que genera la aplicación repetitiva de la prueba estadística sobre cada promediación del segmento de registro. Con esta intención, [21] propone en 2006 incluir como parte de las muestras de información a más de un armónico de la componente de modulación, y de esta forma aumentar la potencia con la cual se construye el estadígrafo. Posteriormente, [22] aboga por calcular los límites de decisión críticos a partir de la combinación de los p-valores obtenidos al aplicar el estadígrafo a grupos de segmentos de registro adquiridos secuencialmente; y más recientemente en 2020, [23] presenta como otra posible solución la combinación de estadígrafos extensamente validados para para esta aplicación (Magnitude-Squared Coherence y Component Synchrony Measure) con simulaciones Monte-Carlo en aras de obtener un criterio de parada que limite el tiempo de examen, garantizando una precisión estable entre repeticiones.
En consecuencia con esta línea de trabajo y como un antecedente de la presente investigación, el estudio [24] permitió identificar que la combinación entre un estadígrafo multivariado T2 de Hotelling con cualesquiera de las alternativas para la extracción de la respuesta auditiva referenciada a este tipo de aplicación (díganse promediación clásica/normal, pesada y ordenada respectivamente) permite clasificar correctamente una muestra de sujetos sanos utilizando como mínimo 6 promediaciones de la señal registrada. Sin embargo, este estudio no abarcó la selección adecuada de otros parámetros como el número óptimo de muestras a promediar, el número óptimo de muestras de respuesta y ruido a considerar en la construcción de los estadígrafos, ni los supuestos respecto a la matriz de covarianza del estadígrafo T2 de Hotelling. Así mismo, al incluirse únicamente registros de sujetos sanos, los resultados del desempeño de estas alternativas no se pueden extender a una muestra mixta de sujetos.
Resulta factible entonces proponer para el sistema INFANTIX una nueva metodología para la implementación de la técnica PEAEE acorde a los avances alcanzados en la temática y a las capacidades de cómputo de esta nueva plataforma. En particular, el sistema INFANTIX es un sistema modular cuyo módulo de control es gestionado por un microcontrolador STM32F429 de STMicrolectronics, operando con un reloj de 8 MHz. El núcleo de este microcontrolador es un ARM Cortex-M4 con Unidad de Punto Flotante, DSP y soporte para Sistema Operativo; características que facilitan la implementación de algoritmos complejos para el análisis/procesamiento de señales y la ejecución de tareas con restricciones de tiempo para la ejecución en tiempo real.
El presente trabajo tiene por tanto tres objetivos fundamentales, i) modelar n-estrategias con potencialidades para la detección rápida y precisa de la respuesta de estado estable a partir de la combinación del estadígrafo T2 de Hotelling con las técnicas de promediación clásica y pesada para diferentes valores de parámetros como: la longitud del segmento y subsegmento de registro, el número de muestras de ruido para la construcción del estadígrafo, el número de armónicos del pico espectral considerados como parte de las muestras de respuesta y los supuestos de independencia y circularidad en la matriz de covarianzas; ii) evaluar su desempeño sobre una muestra de 20 registros de sujetos sanos y patológicos; y por último iii) seleccionar la estrategia de mejor desempeño e implementarla sobre el microcontrolador STM32F4 que gestiona el módulo de control del sistema INFANTIX para valorar en la práctica su desempeño en tiempo real.
2.- Materiales y métodos
2.1- Diseño de las posibles estrategias para la detección de la respuesta peaee.
La Figura 4 muestra, mediante un diagrama en bloques, la estructura de las posibles alternativas concebidas como etapas consecutivas de procesamiento.
De acuerdo con el diagrama, la etapa 1 constituye la etapa de filtrado y acondicionamiento de la respuesta electrofisiológica registrada. En principio, las muestras de señal adquiridas por el módulo de registro del sistema INFANTIX son transmitidas en forma de buffers de 512 muestras hacia el módulo de control, a partir del protocolo serie RS-485 tal como expone [25]. Una vez allí deben ser filtradas y seleccionadas a partir de un protocolo para el rechazo de artefactos. Como parte de la conceptualización de esta etapa, se modeló un filtro Pasabanda sujeto a las consideraciones de diseños definidas en la Tabla 1. La banda de frecuencias que contiene la información a procesar abarca aproximadamente desde los 85 Hz hasta los 290 Hz, banda que incluye a los picos de la respuesta PEAEE, correspondientes a la frecuencia de 93.75 Hz y dos de sus armónicos, en 187.5 Hz y 281.25 Hz.
Como el sistema INFANTIX muestrea la respuesta electrofisiológica a una frecuencia de 15 625 Hz, fue necesario diezmar el número de muestras con el objetivo de disminuir la frecuencia de muestreo y lograr que el filtro incluyera el menor número de etapas u orden posible. En este caso, el factor de diezmado es 13, reduciéndose así la frecuencia de muestreo a 1201.92 Hz. El error permisible en la banda de paso se fijó a ± 0.0435 dB, valor que corresponde con un 0.05 % de error de amplitud. De forma similar, se estableció que la mínima atenuación necesaria para que la información suprimida corresponda con un 0.05 % de la señal de información fue de - 46.02 dB ~ -50 dB.
PARÁMETROS | VALORES |
---|---|
Tipo de filtro | Pasabanda |
Frecuencia de muestreo en sistema INFANTIX | 15 625 Hz |
Factor de diezmado | 13 |
Período de muestreo | 0.832 ms |
Bandas de información | 93.75 Hz, 187.5 Hz, 281.25 Hz, |
Banda de paso (BP) | 85 Hz - 290 Hz |
Error permisible en la BP | ± 0.0435 dB |
Atenuación mínima | 50 dB |
Frecuencias de atenuación | 25 Hz, 580 Hz |
De acuerdo con estas consideraciones de diseño, se construyeron dos alternativas de filtro. El primero basado en un modelo de Respuesta Finita al Impulso (FIR) con ventana Kaiser (que ofrece flexibilidad para establecer la atenuación entre el lóbulo principal y secundarios), y el segundo basado en un modelo de Respuesta Infinita al Impulso (IIR) con aproximación Butterworth (para conservar en mayor medida la respuesta de amplitud en la banda de información). La primera alternativa implicó un diseño de orden 62, mientras que la segunda, pese a que introduce un desfasaje no lineal en la banda de interés, implicó únicamente un orden 12, convirtiéndose en la de menor consumo de recursos de cómputo y memoria y, por ende, en la más adecuada a incluir en un sistema stand-alone con capacidad de memoria limitada como INFANTIX. Las respuestas de amplitud y fase del filtro IIR Pasabanda modelado para la etapa 1 se reflejan en la Figura 5.
El protocolo de rechazo de artefactos para la etapa 1 se basó en la eliminación de aquellos buffers donde el valor de amplitud media sobrepasaba los umbrales de ± 20 µV.
En las etapas 2 y 4 del diagrama mostrado en la Figura 4, se evidencia la necesidad de definir los posibles valores para determinados parámetros como son: el tamaño del segmento y sub-segmento, el número de muestras en la vecindad del pico de respuesta, el número de armónicos de la respuesta y la estructura de la matriz de covarianzas del estadígrafo T2 de Hotelling.
De las tres alternativas de promediación incluidas en la etapa 2 del diagrama, solo se incluyeron en la presente modelación la promediación clásica y la promediación pesada. La implementación de la tercera alternativa, la promediación ordenada, requiere de una gran capacidad de memoria de almacenamiento para conservar un alto número de muestras, conformar los segmentos y reordenarlos ascendentemente de acuerdo a sus rms antes de ser promediados [10]. Como se ha expresado anteriormente, en el sistema INFANTIX coexisten más de una técnica de pesquisa, siendo necesario almacenar un gran número de muestras en secciones de memoria reservadas para cada una de las técnicas. Igualmente, gran parte de la capacidad de memoria del STM32F429 es ocupada para el manejo de pantalla, comunicación entre módulos y manejo de periféricos. Esto implicó que los autores de la presente investigación debieran ajustarse a la disponibilidad de recursos existentes en el sistema INFANTIX al inicio de la misma, pues el sistema había finalizado sus etapas de diseño y desarrollo. Es por ello que se decide excluir la promediación ordenada, pues de antemano era posible definir que la misma no iba poder ser implementada en el sistema INFANTIX.
Para la modelación de la promediación clásica se consideró la promediación muestra a muestra de los segmentos en tiempo real, es decir, se asumió que cada vez que se completa un segmento este iba a ser promediado con el segmento resultante de promediaciones previas. En el caso de la promediación ponderada, se consideró a la estrategia propuesta por [9], donde los pesos de cada sub-segmento corresponden al inverso de la varianza entre todas las muestras del mismo.
Para la estimación espectral de la respuesta se consideró la Transformada Rápida de Fourier, alternativa con amplia aplicación en sistemas digitales y cuyas principales limitantes, la fuga espectral y el efecto roll-off noise, no influyen negativamente pues las componentes de información espectral pueden ubicarse para la resolución ΔFs = Fs/N2 (independientemente de si N2 es 1024 o 2048) y la variabilidad de las componentes espectrales de ruido contribuyen a elevar la varianza de la muestra espectral con la cual se construirá el estadígrafo. Como herramienta para la detección automática la respuesta PEAEE se seleccionó el estadígrafo multivariado T2 de Hotelling, que compara el vector de media de los coeficientes de Fourier en la componente espectral de respuesta (y sus armónicos), con el vector de media de los coeficientes de Fourier de todas las componentes espectrales de ruido en la vecindad de la componente espectral de respuesta (y sus armónicos). Dado que cada coeficiente de Fourier se conforma por parte real e imaginaria, resulta necesario utilizar estadística multivariada ya que cada muestra espectral es bidimensional x = [Re; Im]. El estadígrafo T2 de Hotelling se define matemáticamente como:
Para df (grados de libertad) =2, N1+N2(p(1 grados de libertad, siendo N1 y N2 la cantidad de muestras de la componente espectral de interés y de las componentes de ruido respectivamente,
La Tabla 2 resume los valores posibles para los parámetros ajustables tanto en la alternativa de promediación como en la construcción del estadígrafo T2 de Hotelling, cuyas combinaciones posibilitan la modelación de diferentes estrategias para la detección automática del PEAEE. Las columnas 1 y 2 hacen referencia al número de muestras que pueden conformar cada segmento y sub-segmento de registro. La columna 3 identifica el número de muestras espectrales de ruido que se pueden considerar para la construcción del estadígrafo, donde el término “vecindad” se refiere a que las muestras espectrales de ruido a considerar se ubican a ambos lados de la componente espectral de respuestas. Por ejemplo, si V = 32, esto implica que en la construcción del estadígrafo se considerarán 64 muestras espectrales de ruido (32 a cada lado de la componente de PEAEE) en el caso de que solo se tome en consideración el primer armónico de respuesta; sino además se incluirán las muestras espectrales en la vecindad del segundo y tercer armónico.
La columna 4 refleja cuales armónicos del PEAEE se incluirán en la construcción del estadígrafo y la última columna define las posibles estructuras que puede presentar su matriz de covarianzas.
Entiéndase que el término “covarianzas nulas” implica que las componentes espectrales de respuesta y ruido son dependientes y el término “varianzas circulares” implica que además de la dependencia entre covarianzas existe igualdad entre las varianzas de las componentes espectrales de respuesta y ruido.
No. MUESTRAS DEL SEGMENTO (N1) | No. MUESTRAS DEL SUBSEGMENTO (N2) | No. MUESTRAS EN LA VECINDAD (V) | ARMÓNICOS DEL PICO ESPECTRAL DE RESPUESTA INCLUIDOS | ESTRUCTURA DE MATRIZ DE COVARIANZAS (MC) |
---|---|---|---|---|
8192 | 2048 | Todas las muestras | Fundamental | Covarianzas independientes (CI) |
4096 | 1024 | 32 | Fundamental, Segundo y Tercero | Covarianzas nulas (CN) |
64 | Varianzas circulares (VC) |
Importante destacar que en sistemas como AUDIX la estimación espectral de la respuesta se realiza considerando el segmento completo de 8192, obteniéndose únicamente una muestra de respuesta para construir el estadígrafo T2 de Hotelling. Esto constituye una limitación matemática que pudiera influir negativamente en la precisión con la cual se detecta el PEAEE, pues la muestra de respuesta queda fijada a una única observación, provocando que la media de la misma sea la propia observación y que la varianza sea nula. En la investigación que aquí se presenta se utilizó un procedimiento diferente, obteniéndose un espectro de respuesta PEAEE para cada sub-segmento (ver Figura 6). Por ejemplo, si N1 = 8192, N2 = 2048 y V = 32, entonces se obtiene la FFT de 4 sub-segmentos, pudiendo extraerse 4 muestras espectrales de la respuesta PEAEE y 4·32·2 muestras espectrales de ruido siempre que se considere solo el armónico fundamental. La Figura 7 ilustra cómo quedaría la estimación espectral para la modelación donde N1 = 8192, N2 = 1024, V = 32 y solo se considera el armónico fundamental.
Se modelaron entonces 84 posibles estrategias en MATLAB 2015a (64- bits), a partir de la combinación de los parámetros definidos en la Tabla 2 con las alternativas de promediación clásica y pesada (42 modelaciones para promediación clásica y 42 modelaciones de promediación pesada). Como muestra para la evaluación del desempeño de cada estrategia modelada se utilizaron 10 registros reales con presencia de respuesta (normales) y 10 registros reales con ausencia de respuesta (patológicos). Las características para el registro de esta muestra se detallan en el apartado 2.2.
El diagrama de flujo en la Figura 7 describe la implementación del fichero de código principal para la modelación de las estrategias. En este fichero se inicializan los parámetros de ajuste reflejados en la Tabla 2, así como los valores iniciales y constantes requeridos para la modelación de las estrategias.
En la secuencia del flujo primero se cargan los registros de sujetos sanos, obteniéndose un matriz de NxSxF, donde N constituye el número de muestras de cada segmento, S el número de segmentos en que se divide el registro y F el número de ficheros de registros de sujetos sanos (en este caso 10 registros). Este paso se realiza con la función open INFANTIXASSRFiles(*). La misma incluye la implementación de la etapa 1 del diagrama en la Figura 4. Como protocolo para el rechazo de artefactos se eliminan los buffers de registros con niveles rms fuera del rango de ± 20uV. El filtro Butterworth descrito en el epígrafe 2.4 es implementado en la función ASSRFilter75_240IIRbutt(*). Los registros son filtrados a través de la misma, llamada en el cuerpo de la función openINFANTIXASSRFiles(*). Nótese que la notación * en la lista de parámetros de cada función se utiliza como alternativa para denotar que existen parámetros en la función pero que no se están especificando en el cuerpo del artículo por simplificación. Las Figuras 7 y 9 sí incluye la lista de parámetros por función.
Posteriormente se obtiene la promediación acumulativa de cada segmento a través de la función getAveMatrix(*). Al finalizar este paso la matriz de registros asociada a sujetos sanos tiene una estructura NxS-1xF, siendo S-1 el número de promediaciones acumuladas que se realizan para S segmentos. En todas las modelaciones se consideraron registros de 40 segmentos, por lo que se obtienen 39 promediaciones donde la primera es el resultado de promediar el primer y segundo segmento, la segunda el resultado de promediar el primer, segundo y tercer segmento y así sucesivamente.
Finalmente, se aplica la función ASSRDetection(*) para estimar la presencia de respuesta a partir del estadígrafo T2 de Hotelling, implementado a través de la función T2Hotelling_General(*). Antes de construir el estadígrafo, la función ASSRDetection(*) estima el espectro de los sub-segmentos de cada registro y extrae los vectores asociados a las muestras de respuesta y ruido respectivamente, considerando los armónicos de respuesta en el caso de que se especifique en sus parámetros de entrada. La estimación espectral se realiza a través de la función FFT disponible en la librería de MATLAB 2015a, implementada como algoritmo de Cooley-Tukey de diezmado en la frecuencia.
Al finalizar esta etapa de procesamiento, la matriz de sujetos sanos adquiere dimensiones de S-1x3xF, la cual incluye los parámetros de salida de la estimación estadística H0, T2 y p-value. El parámetro H0 implica el cumplimiento o no de la hipótesis nula del estadígrafo, siendo H0 = 1 si existe presencia de respuesta a la frecuencia de estimulación (hay diferencias significativas entre la media de las componentes espectrales de repuesta y ruido) y H0 = 0 en caso contrario, es decir, en ausencia de respuesta. Nótese que el hecho de asignar H0 = 1 no implica que se cumple la hipótesis nula, por el contrario, se rechaza, pero se asignó el valor ‘1’ para facilitar la compresión de que existe presencia de respuesta. El parámetro de T2 constituye el valor exacto del estadígrafo y p-value es el nivel de significación para dicho valor de T2. La estructura de la matriz a la salida de esta etapa de procesamiento es justamente S-1x3xF, porque estos tres valores H0, T2 y p-value se obtienen para cada una de las 39 promediaciones.
Como se evidencia en el diagrama de flujo, el procesamiento antes descrito se repite para los registros asociados a la ausencia de respuesta a la frecuencia de estimulación (patológicos). Ambas matrices de datos son salvadas como ficheros de variable *.mat (“sanos.mat” y “patolg.mat”).
Una vez construidas las modelaciones, se realiza un análisis comparativo de su desempeño apoyado en el análisis de las curvas ROC (ROC: del acrónimo Receiver Operating Curves). Para ello se calculan las curvas ROC de cada una de las modelaciones durante la clasificación de una muestra de registros reales a lo largo de 39 promediaciones (utilizando los datos almacenados en los ficheros *.mat).
De esta forma, a cada modelación le corresponde una familia de 39 curvas ROC que proyectan su desempeño temporal en la clasificación de la muestra. Aunque el área bajo la curva ROC constituye una medida general de la idoneidad de la estrategia para la correcta clasificación de los registros, en la práctica resulta necesario seleccionar un valor de corte único, el cual se establece de forma fija en el producto final como valor umbral para la diferenciación entre presencia o no de respuesta auditiva. Se definen entonces dos valores posibles de corte óptimo, cuya utilidad para la detección puede medirse por los valores de sensibilidad y especificad que le corresponden en la curva ROC. Estos valores de corte se nombraron corte clínico y corte óptimo.
Corte clínico: valor del par [x;y] para las curvas ROC donde se alcanza un 0.97 % de sensibilidad.
Corte óptimo: valor del par [x;y] para las curvas ROC donde se alcanza la menor distancia geométrica con respecto al punto de mayor sensibilidad y especificidad de conjunto para una gráfica de esta naturaleza, dígase el punto [0;1].
Para mayor esclarecimiento de estas definiciones, la Figura 8 ilustra las ubicaciones espaciales de estos valores de corte en el espacio ROC.
En cada una de las curvas y para cada uno de estos cortes se calcularon los valores de sensibilidad y especificidad, así como la exactitud (Accuracy) y la razón de falsas detecciones (false detection rate). Esta última medida es particularmente importante puesto que en un sistema de detección de déficits auditivos es preferible cometer el error de no detectar respuestas existentes (o sea, concluir que un sujeto tiene déficit cuando en realidad no lo tiene) que cometer el error de decir que existe respuesta cuando no es el caso, pues se pierde la posibilidad de actuar sobre la condición patológica desde etapas tempranas. La Figura 9 ilustra el diagrama de flujo del fichero de código dedicado al análisis de curvas ROC. Tal y como se evidencia en dicha figura, este flujo de procesamiento se aplica a cada par de matrices (SS-1x3xF y P S-1x3xF) asociadas a cada modelación, siendo posible realizar el análisis de forma seriada o en grupos. Las matrices de datos obtenidas luego de ejecutar la función getROCCurves(*) tiene dimensiones 21x2·ExS-1. Para este caso, el número de filas corresponde con los 21 puntos [X;Y] de la curva ROC construida para una muestra de 20 sujetos, de ahí que el número de columnas sea un múltiplo de 2 del número de estrategias (E) modeladas que se incluyen de conjunto en el análisis, todo esto a lo largo de las 39 promediaciones obtenidas de cada registro (S-1, recordar que S = número de segmentos).
Los ficheros en MATLAB desarrollados para la modelación de las estrategias y para el análisis de curvas ROC son altamente parametrizables, lo cual facilita su reutilización en posteriores investigaciones. Así mismo, sus potencialidades pueden ser extendidas para el desarrollo de toolboxes de MATLAB que apoyen en labores de investigación y docencia a doctores, investigadores y profesionales dedicados al campo de los potenciales evocados auditivos de estado estable.
2.2- Generación de los registros electrofisiológicos de sujetos sanos y patológicos.
Los registros electrofisiológicos asociados a la respuesta auditiva de estado estable fueron obtenidos con el sistema INFANTIX. De esta forma, la muestra de registros se adquirió con las prestaciones de hardware propias del equipo sobre el cual se desean hacer mejoras de procesamiento. Este estudio fue aprobado por el Comité de Ética y Uso de Modelos Animales del Centro de Neurociencias de Cuba.
Se seleccionaron 5 sujetos normo-oyentes, con un valor medio de edad de 24.1 ± 3.7 años. El registro de los potenciales evocados auditivos de estado estable se condujo dentro de una cámara anecoica y sonoamortiguada de dimensiones 3x2x3 m3 con niveles de ruido ambiental por debajo de los 53 dB SPL. Los sujetos permanecieron en estado de reposo/sueño durante el examen ya que este estado no afecta la generación electrofisiológica del potencial y garantiza mejores niveles de relación señal-ruido al registro. La conducción de la técnica de Potenciales Evocados Auditivos de Estado Estable para la conformación de la muestra de registro se realizó bajo la supervisión de especialistas y/o técnicos en Neurofisiología Clínica.
Se utilizó como estímulo auditivo un tono modulado en amplitud con frecuencia portadora de 2000 Hz y modulado a la frecuencia de 93.75 Hz. Dicho estimulo fue presentado a una intensidad de 65 dB SPL, el cual fue calibrado previamente con una estación de calibración constituida por el sonómetro Brüel&Kjaer Investigator 2250, una oreja artificial (tipo 4152) y un micrófono (tipo 4144).
Para el registro se utilizaron tres electrodos de oro sobre el cuero cabelludo en las posiciones Cz (activo) y los Mastoides derecho e izquierdo (referencia/tierra respecto al oído estimulado). Los electrodos y el audífono de inserción por donde se presentó el estímulo auditivo se conectaron por los correspondientes terminales de entrada/salida del módulo del registro del sistema INFANTIX.
La simulación de los sujetos patológicos se condujo mediante la estimulación auditiva de los sujetos sanos con estímulos auditivos de 0 dB SPL, de modo que solo queda registrada actividad electroencefalográfica aleatoria no relacionadas con respuestas auditivas. Se registraron ambos oídos en cada sujeto de manera independiente. Al finalizar, se dispuso de una muestra de 20 registros, 10 asociados a respuestas electrofisiológicas de sujetos sanos y 10 asociadas a respuestas electrofisiológicas de sujetos patológicos (5 de cada oído).
2.3- Herramientas de desarrollo
El diseño de los filtros digitales se apoyó en las prestaciones de la herramienta fdatool disponible en el asistente matemático MATLAB R2015a para SO Windows de 64-bits. Las modelaciones y el comportamiento ante la muestra de registros electrofisiológicos de las 84 posibles estrategias se realizaron también sobre dicha versión de MATLAB.
La estrategia de mejor desempeño y consumo de recursos de memoria fue implementada sobre el microcontrolador STM32F429 que gestiona el módulo de control del sistema INFANTIX a través de la herramienta de desarrollo MDK-ARM Professional Keil µVision v5.23. Todas las funciones que conforman la estrategia de detección a implementar fueron re-programadas en lenguaje C++.
3.- Resultados
Los gráficos de la Figura 10 muestran el número necesario de promediaciones en cada estrategia para separar correctamente la muestra de registros en sujetos sanos o patológicos, logrando los valores perfectos de sensibilidad (100%), especificidad (100%), exactitud (100%) y FDR (0%). Nótense que la detección a un menor número de promediaciones se traduce en un menor tiempo de duración de la prueba de PEAEE. Dado que se definieron dos criterios de corte, el desempeño de las estrategias para cada uno de ellos no coincide en todos los casos. Para facilitar la presentación de los resultados, en los gráficos de la Figura 10 se reflejó únicamente el menor número de promediaciones requeridas para la perfecta clasificación de la muestra de entre dos valores obtenidos, uno para el corte clínico y otro para el corte óptimo. Los identificadores T2 y T2A representan las estrategias que se realizaron considerando el armónico fundamental del pico espectral de respuesta (T2) o considerando además los segundos y terceros armónicos (T2A). El símbolo (--) en cada uno de los gráficos representa que, indistintamente del valor asignado a un parámetro determinado para la modelación de las estrategias, los resultados de desempeño no variaron. Por ejemplo, el caso de T2A 4096/1024/-- significa que las estrategias modeladas considerando la promediación normal, segmentos de 4096 muestras, subsegmentos de 1024 muestras y el armónico fundamental de la respuesta espectral, fueron capaces de clasificar correctamente la muestra en 9 promediaciones, independientemente de si se utilizaron 32 ó 64 muestras de ruido en la vecindad del pico espectral de respuesta.
Nótese que para el caso de las modelaciones que incluyeron promediación ponderada existió una mayor variabilidad en su desempeño, siendo estas más sensibles a la combinación establecida de los diferentes parámetros. Por otra parte, y pese a los resultados arrojados por [24] respecto a la influencia del cálculo estricto de la matriz de covarianzas en el estadígrafo T2 de Hotelling para la rápida y correcta clasificación de sujetos sanos, no se evidenciaron en el presente estudio (muestra mixta de sujetos) una superioridad entre modelaciones que diferían únicamente de la alternativa considerada para la construcción de la matriz de covarianzas, puesto que para todos los casos fueron capaces de clasificar correctamente la muestra en el mismo número de promediaciones.
En cada gráfico de la Figura 10 se incluyó la demora (en número de promediaciones) de la estrategia disponible actualmente en el sistema INFANTIX para clasificar correctamente la muestra de registros reales; la cual requirió 28 promediaciones para lograr una correcta clasificación de la misma. Por el contrario, las modelaciones T2A 8192/--/64 y T2A 8192/1024/32, basadas en la promediación normal, demoraron solo 9 promediaciones en clasificar la muestra correctamente para ambos cortes. Así mismo, las modelaciones T2A 8192/1024/--, basadas en la promediación ponderada, resultaron ser las segundas más eficientes, demorando 11 promediaciones para la correcta clasificación de la muestra para el corte óptimo. La tabla 3 resume los valores T2 de estas estrategias de mejor desempeño para cada uno de los criterios de corte.
MC | T2 Corte Clínico | No. promediaciones | T2 Corte Óptimo | No. promediaciones | ||
---|---|---|---|---|---|---|
T2A 8192/2048/64 | NORMAL | CI | 2.7278 | 9 | 2.7278 | 9 |
CN | 2.5623 | 9 | 2.5623 | 9 | ||
VC | 1.284 | 9 | 1.284 | 9 | ||
T2A 8192/1024/32 | CI | 2.7379 | 9 | 2.7379 | 9 | |
CN | 2.714 | 9 | 2.714 | 9 | ||
VC | 1.3569 | 9 | 1.3569 | 9 | ||
T2A 8192/1024/64 | CI | 3.7098 | 9 | 3.7098 | 9 | |
CN | 3.6638 | 9 | 3.6638 | 9 | ||
VC | 1.8305 | 9 | 1.8305 | 9 | ||
T2A 8192/1024/32 | PESADA | CI | 5.4756 | 37 | 2.5240 | 11 |
CN | 54525 | 37 | 2.5218 | 11 | ||
VC | 2.6934 | 37 | 1.2330 | 11 | ||
T2A 8192/1024/64 | CI | 7.1346 | 37 | 3.6343 | 11 | |
CN | 7.0878 | 37 | 3.6633 | 11 | ||
VC | 3.5013 | 37 | 1.7792 | 11 |
Finalmente, se seleccionó la estrategia T2A 8192/1024/32 como alternativa final para la implementación sobre el microcontrolador STM32F429, pues del grupo de estrategias que requieren tan solo 9 promediaciones para una correcta clasificación es T2A 8192/1024/32 la de menor consumo de memoria, dado que considera una menor vecindad de muestras de ruido (V= 32; muestras de ruido = 32·2·3·8). Aun así, durante la etapa de implementación de dicha estrategia sobre el STM32F429 del módulo de control del sistema INFANTIX fue necesario realizar una reducción del número de muestras de ruido debido a que el tamaño de la memoria reservada disponible no resultaba suficiente. De esta forma, se continuó considerando como muestras espectrales de respuestas a las componentes fundamentales del PEAEE y sus armónicos en cada uno de los 8 espectros obtenidos por segmento para esta variante, y como muestras espectrales de ruido a las componentes en la vecindad del armónico fundamental en cada uno de dichos espectros. La implementación de esta estrategia como parte del firmware del módulo de control del sistema INFANTIX como valor de corte dentro de la función TestAssrClass::T2General(*) a T2 = 1.3569 de acuerdo con los resultados presentados en la Tabla 3.
El comportamiento del sistema INFANTIX con el nuevo firmware fue evaluado en condiciones reales de operación a partir de la realización de 20 corridas de una prueba de potenciales evocados auditivos de estado estable bajo condiciones iguales a las descritas en el apartado 2.2. Cinco corridas se realizaron estimulando el oído derecho y otras cinco en oído izquierdo, con un tono modulado en amplitud de 2000 Hz en la frecuencia portadora y 65 dB SPL de intensidad, siendo la nueva estrategia disponible en el INFANTIX capaz de detectar la presencia de respuesta auditiva en todos los casos para una media de 9.6 y 10.1 promediaciones respectivamente. Así mismo, se replicó este ensayo estimulando a una intensidad de 0 dB SPL y la estrategia declaró ausencia de respuesta. Aunque estos resultados fueron favorables, es necesaria una validación más estricta a partir de un ensayo clínico bajo condiciones de manejo y operación hospitalarios.
4.- Conclusiones
En este trabajo se examinó la posibilidad de encontrar cortes óptimos en una gran variedad de estrategias de detección automática de PEAEE basados en el estadígrafo T2 de Hotelling. Se construyeron en total 84 estrategias, todas concebidas a partir de un diagrama de referencia que definió las etapas, alternativas de procesamiento y parámetros cuyas combinaciones dieron origen a cada estrategia. Para evaluar el desempeño de cada estrategia en la correcta clasificación de una muestra de 20 registros reales de PEAEE (10 sanos y 10 patológicos) se construyeron 84 familias de curvas ROC (una por cada estrategia), cada una compuesta por 39 curvas que reflejaban el desempeño de la correspondiente estrategia luego de cada promediación. Este análisis del desempeño temporal, permitió identificar, bajo dos criterios de corte diferentes, los valores [X; Y] en cada curva que permiten una clasificación correcta de la muestra, con 100 % de sensibilidad y especificidad respectivamente. Los cortes óptimos encontrados mostraron que puede disminuirse la cantidad de promediaciones necesarias para la detección perfecta en más del 60% (desde 27 promediaciones con el corte teórico a 9 con el óptimo), en dependencia de la combinación de valores que se ajusten los parámetros definidos en la Tabla 3. Las estrategias T2A 8192/2048/64, T2A 8192/1024/64 y T2A 8192/1024/32, todas basadas en la promediación normal, resultaron las de mejor desempeño, clasificando la muestra con 100 % sensibilidad y especificidad en tan solo 9 promediaciones para ambos criterios de corte. Sin embargo, el segundo grupo de estrategias de mejor desempeño, T2A 8192/1024/32 y T2A 8192/1024/64, clasificaron correctamente la muestra en 11 promediaciones únicamente el valor de corte asociado al criterio de corte óptimo. Adicionalmente, no se evidenció una superioridad del desempeño entre modelaciones que diferían únicamente de la alternativa considerada para la construcción de la matriz de covarianzas, es decir, estadígrafos T2 simplificados también pueden utilizarse cuando se utilicen cortes óptimos empíricos.
La estrategia T2A 8192/1024/32 fue implementada como funciones en lenguaje C++ añadidas al firmware previamente desarrollado para el módulo de control del sistema INFANTIX. Su implementación difirió de la conceptualización modelada debido a las limitaciones de memoria reservada para la incorporación de esta estrategia al firmware ya concebido por los desarrolladores de INFANTIX. Estas diferencias se restringieron a la construcción del estadígrafo, donde solo se consideraron como muestras de ruido las componentes espectrales en la vecindad del primer armónico para cada espectro estimado mediante la FFT. Las pruebas de verificación del desempeño en la práctica clínica de la estrategia T2A 8192/1024/32 mostraron resultados favorables, con una clasificación perfecta de registros independientes de 10 oídos sanos y 10 con ausencia de respuesta. Estudios futuros con bases de datos de mayor cantidad de registros se realizarán para explorar la robustez de los cortes óptimos encontrados. Se recomienda extender la validación de esta nueva estrategia a partir de un riguroso ensayo clínico bajo condiciones de manejo y operación hospitalarios.