<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1815-5928</journal-id>
<journal-title><![CDATA[Ingeniería Electrónica, Automática y Comunicaciones]]></journal-title>
<abbrev-journal-title><![CDATA[EAC]]></abbrev-journal-title>
<issn>1815-5928</issn>
<publisher>
<publisher-name><![CDATA[Universidad Tecnológica de La Habana José Antonio Echeverría, Cujae]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1815-59282015000300006</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aplicación de medidas de calidad en sistemas de reconocimiento de locutores]]></article-title>
<article-title xml:lang="en"><![CDATA[Speech quality measures in speaker recognition systems]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Bello Punto]]></surname>
<given-names><![CDATA[Claudia]]></given-names>
</name>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ribas González]]></surname>
<given-names><![CDATA[Dayana]]></given-names>
</name>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Suárez Fernández]]></surname>
<given-names><![CDATA[Eniel]]></given-names>
</name>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Calvo de Lara]]></surname>
<given-names><![CDATA[José R.]]></given-names>
</name>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV)  ]]></institution>
<addr-line><![CDATA[Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Central Martha Abreu de las Villas (UCLV)  ]]></institution>
<addr-line><![CDATA[Santa Clara ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2015</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2015</year>
</pub-date>
<volume>36</volume>
<numero>3</numero>
<fpage>56</fpage>
<lpage>68</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1815-59282015000300006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1815-59282015000300006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1815-59282015000300006&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En este trabajo se realiza un estudio acerca de la relación que existe entre medidas de calidad de la señal de voz y el comportamiento de un sistema de reconocimiento de locutores. Para ello se estudian las medidas de mayor utilidad en estos sistemas seleccionando cuatro de acuerdo con los parámetros que estas analizan en la señal y su importancia en el proceso de reconocimiento de locutores. Adicionalmente se analizan las diferentes variantes que existen para vincular la calidad a los sistemas de reconocimiento por lo que se llevan a cabo un conjunto de experimentos. Estos fueron realizados en una base masculina en varias condiciones de ruido aditivo para evaluar la relación entre el resultado del reconocimiento, la calidad de las muestras y el ruido presente en ellas a partir de la SNR. Fueron obtenidas conclusiones interesantes a partir de 1500 muestras y 20 escenarios de ruido diferentes.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In this work, a study about the relationship between speech quality measuresand speaker recognition performance is presented. To accomplish this, the most significant quality measures for speaker recognition systems were analyzed and four of them (KLPC, KCEP, HD, P563) were selected according to the parameters considered to determine the quality and its relevance in the speaker recognition process. The alternatives for linking quality with speaker recognition performance are described and a set of experiments are conducted. Such experiments were performed in male database on several additive noise conditions to assess the relationship among the recognition result, the quality of the samples and noise present therein from the SNR. Interesting conclusions were obtained for 20 different noise scenarios.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[medidas de calidad de la voz]]></kwd>
<kwd lng="es"><![CDATA[reconocimiento de locutores]]></kwd>
<kwd lng="es"><![CDATA[ruido aditivo]]></kwd>
<kwd lng="es"><![CDATA[kurtosis]]></kwd>
<kwd lng="en"><![CDATA[Speech quality measures]]></kwd>
<kwd lng="en"><![CDATA[speaker recognition]]></kwd>
<kwd lng="en"><![CDATA[additive noise]]></kwd>
<kwd lng="en"><![CDATA[kurtosis]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <div align="right">        <p><font face="Verdana" size="2"> <b>ART&Iacute;CULO ORIGINAL</b></font></p>       <p>&nbsp; </p> </div>     <p>&nbsp;     <P><font size="4" face="Verdana"><B>Aplicaci&oacute;n de medidas de calidad en    sistemas de reconocimiento de locutores </B></font>     <P>&nbsp;<B>      <P><font size="3" face="Verdana">Speech quality measures in speaker recognition    systems. </font>     <P>&nbsp;     <P>&nbsp;      <P><font size="2" face="Verdana">Ing. Claudia Bello Punto, <SUP>I</SUP> MSc. Dayana    Ribas Gonz&aacute;lez, <SUP>I</SUP> Est. Eniel Su&aacute;rez Fern&aacute;ndez,    <SUP>II</SUP> Dr. C. Jos&eacute; R. Calvo de Lara <SUP>I</SUP></font></B>      ]]></body>
<body><![CDATA[<P>      <P><font size="2" face="Verdana"><SUP>I </SUP>Centro de Aplicaciones de Tecnolog&iacute;as    de Avanzada (CENATAV), Habana, Cuba. </font>     <br><font size="2" face="Verdana"><SUP>II</SUP><I> </I>Universidad Central Martha    Abreu de las Villas (UCLV), Santa Clara, Cuba. </font>     <P>&nbsp;     <P>&nbsp;  <hr size="1" noshade>     <P><font size="2" face="Verdana"><B>RESUMEN</B></font>      <P><font size="2" face="Verdana">En este trabajo se realiza un estudio acerca    de la relaci&oacute;n que existe entre medidas de calidad de la se&ntilde;al    de voz y el comportamiento de un sistema de reconocimiento de locutores. Para    ello se estudian las medidas de mayor utilidad en estos sistemas seleccionando    cuatro de acuerdo con los par&aacute;metros que estas analizan en la se&ntilde;al    y su importancia en el proceso de reconocimiento de locutores. Adicionalmente    se analizan las diferentes variantes que existen para vincular la calidad a    los sistemas de reconocimiento por lo que se llevan a cabo un conjunto de experimentos.    Estos fueron realizados en una base masculina en varias condiciones de ruido    aditivo para evaluar la relaci&oacute;n entre el resultado del reconocimiento,    la calidad de las muestras y el ruido presente en ellas a partir de la SNR.    Fueron obtenidas conclusiones interesantes a partir de 1500 muestras y 20 escenarios    de ruido diferentes. </font>     <P>      <P><font size="2" face="Verdana"><B>Palabras claves: </B>medidas de calidad de    la voz, reconocimiento de locutores, ruido aditivo, kurtosis </font>  <hr size="1" noshade>     <P><B><font size="2" face="Verdana">ABSTRACT</font></B>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">In this work, a study about the relationship    between speech quality measuresand speaker recognition performance is presented.    To accomplish this, the most significant quality measures for speaker recognition    systems were analyzed and four of them (KLPC, KCEP, HD, P563) were selected    according to the parameters considered to determine the quality and its relevance    in the speaker recognition process. The alternatives for linking quality with    speaker recognition performance are described and a set of experiments are conducted.    Such experiments were performed in male database on several additive noise conditions    to assess the relationship among the recognition result, the quality of the    samples and noise present therein from the SNR. Interesting conclusions were    obtained for 20 different noise scenarios. </font>      <P>      <P><font size="2" face="Verdana"><B>Keywords: </B>Speech quality measures, speaker    recognition, additive noise, kurtosis.</font>  <hr size="1" noshade>     <P>&nbsp;     <P>&nbsp;     <P><B><font size="3" face="Verdana">INTRODUCCI&Oacute;N</font> </B>     <P>&nbsp;     <P><font size="2" face="Verdana">El estudio de la calidad en la voz se remonta    a la d&eacute;cada del 60 del siglo XX donde aparece la recomendaci&oacute;n    de la IEEE que define un primer m&eacute;todo para determinar la calidad de    una muestra <SUP>1</SUP>. Esta recomendaci&oacute;n est&aacute; referida a medir    la calidad de manera subjetiva. Inicialmente el objetivo era medir el rendimiento    del servicio de redes telef&oacute;nicas. Los primeros m&eacute;todos establecidos    para realizar dicha medici&oacute;n se basaban en determinar la calidad de la    voz a partir de la opini&oacute;n de un conjunto de individuos. </font>     <P><font size="2" face="Verdana">Los resultados de estos m&eacute;todos fueron    eficaces por lo que se instauraron diversas recomendaciones <SUP>1 2</SUP> <SUP>3    </SUP>que definen la forma de aplicarlos de manera correcta. </font>     <P><font size="2" face="Verdana">El uso tan difundido de los m&eacute;todos de    procesamiento de la voz en aplicaciones de multimedia y telecomunicaciones eleva    la necesidad de evaluar la calidad de las muestras de voz que se procesan. Por    esta raz&oacute;n es necesario contar con una evaluaci&oacute;n precisa y fiable    de la calidad de la misma, que no solo satisfaga los requerimientos del usuario    <SUP>4 </SUP>sino que permita establecer un establecer un grado de confianza    en los resultados obtenidos por el sistema. </font>      ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">El despliegue tecnol&oacute;gico alcanzado en    las aplicaciones relacionadas con la voz ha sido muy amplio, tal es el caso    de la telefon&iacute;a celular, la transmisi&oacute;n de voz a trav&eacute;s    de redes IP y el reconocimiento del habla, del lenguaje y de locutores. En estos    y en otros campos es preciso monitorear en tiempo real o determinar la calidad    de la voz con una mayor exactitud, por lo que utilizar un grupo de expertos    para determinar la calidad de la muestra no es factible <SUP>5</SUP>. </font>     <P><font size="2" face="Verdana">Las condiciones inapropiadas en que se pueden    adquirir las muestras de voz, traducidas en ruido que se mezcla con la se&ntilde;al    original de diferentes maneras <SUP>6</SUP>, pueden cambiar el comportamiento    de estas en cualquier dominio de representaci&oacute;n. La inteligibilidad es    el factor principal si se trata de implantes cocleares o identificaci&oacute;n    de palabras claves donde se conoce que el ruido reduce la calidad de la muestra.    En el caso espec&iacute;fico de los sistemas de reconocimiento autom&aacute;tico    de locutores (SARL), la integridad de las caracter&iacute;sticas discriminativas    del locutor es de mayor importancia, rasgos que tambi&eacute;n sufren modificaciones    en presencia de ruido. Varios trabajos han resultado en m&eacute;todos autom&aacute;ticos    para medir la calidad, siendo totalmente independientes de la opini&oacute;n    de un individuo. A pesar de no haber sido concebidos para este tipo de sistemas    se han utilizado, con resultados alentadores, en distintas etapas de un SARL    para obtener resultados m&aacute;s exactos. </font>     <P><font size="2" face="Verdana">Este trabajo realiza la selecci&oacute;n de cuatro    m&eacute;todos, a partir de los principales que se han encontrado en la literatura,    con el fin de determinar la calidad de las muestras de voz y su relaci&oacute;n    con el comportamiento del sistema en varios escenarios ruidosos. Asimismo se    describen las diferentes variantes que existen para vincular la calidad con    un SARL y obtener un resultado m&aacute;s eficaz. Adem&aacute;s de los conceptos    generales sobre la calidad, se ofrece en el siguiente ep&iacute;grafe una descripci&oacute;n    de las principales medidas de calidad existentes, a partir de las cuales se    realiz&oacute; la selecci&oacute;n. Luego se acotan los diferentes usos que    puede tener la calidad en un SARL. Seguidamente se describen un conjunto de    experimentos que permiten establecer la relaci&oacute;n que existe entre la    calidad de las muestras, el comportamiento del sistema y el ruido usando la    Relaci&oacute;n Se&ntilde;al Ruido <I>(Signal to Noise Ratio (SNR)). </I>Para    finalizar se arriba a conclusiones a partir de los resultados obtenidos. </font>     <P>      <P><font size="2" face="Verdana"><B>Medidas de calidad</B> </font>     <P><font size="2" face="Verdana">Existen dos maneras de medir la calidad: de manera    subjetiva donde un grupo de expertos escucha la muestra calific&aacute;ndola    dentro de una escala predefinida, y de manera objetiva donde se obtiene un valor    equivalente a la calidad de la muestra de manera autom&aacute;tica. Las pruebas    subjetivas son quiz&aacute;s los m&eacute;todos m&aacute;s confiables para determinar    la calidad, sin embargo requieren gran cantidad de tiempo y de recursos, por    lo que no son apropiadas para aplicar en sistemas en los que se quiera, por    ejemplo, determinar diariamente la calidad de servicio <I>(Quality of Service    (QoS))</I> en una red IPa trav&eacute;s de la cual se transmite voz (VoIP),    o en un sistema de control de acceso a trav&eacute;s de la voz donde es necesario    evaluar la calidad de manera instant&aacute;nea. Las medidas de calidad objetivas    son capaces de realizar esta tarea de forma automatizada y a muy bajo costo.    Por esta raz&oacute;n una gran parte de las investigaciones en este tema se    han centrado en dise&ntilde;ar medidas objetivas para medir la calidad de las    muestras de voz. </font>     <P><font size="2" face="Verdana">Evidentemente para que una medida de calidad    objetiva sea v&aacute;lida es necesario que est&eacute; correlacionada de alguna    forma con las medidas subjetivas, por esta raz&oacute;n varios m&eacute;todos    <SUP>7 8 </SUP>se han encaminado a desarrollar medidas objetivas que modelen    varios aspectos del sistema auditivo del hombre, que es el ejecutor de la medida    subjetiva. </font>     <P><font size="2" face="Verdana">Las medidas objetivas se clasifican en intrusivas    o no intrusivas en dependencia de requerir o no una muestra de voz original    <SUP>9</SUP>. Las primeras proponen la aplicaci&oacute;n de m&eacute;todos de    comparaci&oacute;n entre la se&ntilde;al original y la degradada, y determinan    la calidad cuantificando la diferencia entre ambas muestras. En este grupo se    encuentran medidas basadas en la SNR <SUP>4 10</SUP><I>, </I>otras utilizan    los coeficientes de predicci&oacute;n lineal <I>(Linear Prediction Coefficients    (LPC))</I> <SUP>11 12</SUP> como base para medir la calidad, existen tambi&eacute;n    un conjunto de medidas intrusivas que parten del modelo de percepci&oacute;n    <SUP>7 8</SUP> y otras que combinan varias de las anteriores para evaluar una    mayor cantidad de par&aacute;metros en la se&ntilde;al.</font>      <P><font size="2" face="Verdana">Sin embargo las medidas intrusivas tienen entre    sus limitantes la necesidad de requerir la se&ntilde;al original. Esto es un    gran inconveniente debido a que en algunas aplicaciones esta no est&aacute;    disponible. Si nos remitimos al ejemplo de VoIP donde se necesita monitorear    continuamente el comportamiento de la red en un punto espec&iacute;fico (en    t&eacute;rminos de la calidad de la voz) solamente se tiene acceso a la se&ntilde;al    de salida. En este caso solamente una medida de calidad no intrusiva es adecuada    para dicha tarea. </font>     <P><font size="2" face="Verdana">En SARL el comportamiento es bastante similar,    sobre todo si se remite a aplicaciones forenses donde frecuentemente llegan    grabaciones &uacute;nicas de un individuo sin identificar. </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Sucede tambi&eacute;n en otras aplicaciones como    la autenticaci&oacute;n del usuario o el manejo personalizado de datos a trav&eacute;s    de la voz, donde la se&ntilde;al que se tiene para realizar el reconocimiento    es generalmente la que sale del procesamiento y por lo general no est&aacute;    limpia. </font>     <P><font size="2" face="Verdana">Por estas razones el enfoque para analizar una    se&ntilde;al procesada sin que se cuente con su equivalente original es bien    diferente por lo que se ha dise&ntilde;ado medidas objetivas no intrusivas.    Algunas de ellas modelan el tracto vocal para calcular la distorsi&oacute;n,    otras eval&uacute;an el comportamiento estad&iacute;stico de la se&ntilde;al    o de par&aacute;metros extra&iacute;dos de ella para emitir un criterio de calidad.    Un conjunto de medidas intenta estimar la calidad subjetiva de la muestra y    otro grupo determina la SNR. Seguidamente se describen un conjunto de medidas    objetivas no intrusivas. </font>     <P>      <P><font size="2" face="Verdana"><B>Recomendaci&oacute;n UIT-T P.563</B> </font>     <P><font size="2" face="Verdana">En esta recomendaci&oacute;n se describe un m&eacute;todo    objetivo no intrusivo para determinar la calidad subjetiva de la voz en aplicaciones    de telefon&iacute;a de 3.1kHz (banda estrecha). Se define como el criterio de    calidad que brindar&iacute;a un experto que est&aacute; escuchando una llamada    real con un tel&eacute;fono convencional conectado en paralelo a la l&iacute;nea.    El aporte que tiene esta recomendaci&oacute;n es que es la primera que realiza    mediciones no intrusivas que tiene en cuenta toda una gama de distorsiones que    se producen en una red telef&oacute;nica convencional, y permite predecir la    calidad vocal sobre una escala de Puntuaci&oacute;n Media de Opini&oacute;n    <I>(Mean Opinion Score (MOS))</I> de acuerdo con la Recomendaci&oacute;n UIT-T    P.800<SUP> 3</SUP>. </font>     <P>      <P><font size="2" face="Verdana">Entre las condiciones para las que fue validada    esta medida, devolviendo resultados aceptables, se encuentran el ruido ambiental    en el lado de emisi&oacute;n, errores en el canal de transmisi&oacute;n, perdida    de paquetes, transcodificaciones, deformaciones a corto y largo plazo de la    se&ntilde;al, sistemas de transmisi&oacute;n con compensadores de eco y sistemas    de reducci&oacute;n del ruido en condiciones de un solo hablante, entre otras.    Sin embargo devuelve resultados inexactos cuando se trata del efecto del retardo    en conversaciones, m&uacute;sica o tonos de la red como se&ntilde;al de entrada.    Este algoritmo no ha sido dise&ntilde;ado para aplicarlo al reconocimiento de    locutores, sin embargo por los par&aacute;metros que mide en su evaluaci&oacute;n    de la calidad se ha demostrado su utilidad ya que abarca un gran n&uacute;mero    de condiciones que pueden estar presentes en este tipo de sistemas y que son    propias de una se&ntilde;al procesada por &eacute;l. </font>     <P>      <P><font size="2" face="Verdana">La se&ntilde;al se procesa de varias maneras,    a modo de capas, que detectan un grupo de par&aacute;metros caracter&iacute;sticos    de la se&ntilde;al. Sobre la base de un conjunto restringido de par&aacute;metros    clave se asigna una clase de distorsi&oacute;n principal a la se&ntilde;al.    Luego los par&aacute;metros clave y las clases se emplean para ajustar el modelo    de calidad vocal que proporciona una ponderaci&oacute;n perceptual, con la presencia    de varias distorsiones sobre la se&ntilde;al y donde una clase predomina sobre    el resto. La <a href="#fig1">figura 1</a> resume el proceso por el    que transita la se&ntilde;al hasta obtener un valor final de calidad en la escala    MOS. </font>     <P align="center"><img src="/img/revistas/eac/v36n3/f0106315.jpg"><a name="fig1"/>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La parametrizaci&oacute;n de la se&ntilde;al    se divide en tres bloques funcionales principales que se corresponden con las    tres clases de distorsi&oacute;n: el primero incluye el an&aacute;lisis del    tracto vocal y desnaturalizaci&oacute;n de la voz donde se analiza el g&eacute;nero    y robotizaci&oacute;n que pueda existir, el segundo profundiza en el an&aacute;lisis    de ruido adicional intenso donde se determina la SNR est&aacute;tica reducida    y la SNR por segmentos reducida, mientras que el tercero incluye las interrupciones,    silenciamientos y el recorte temporal.</font>      <P>      <P><font size="2" face="Verdana"><B>An&aacute;lisis del tracto vocal y desnaturalizaci&oacute;n    de la voz</B> </font>     <P><font size="2" face="Verdana">Este bloque trata de detectar el car&aacute;cter    desnaturalizado de la voz, a partir de un modelo del tracto vocal, extrayendo    partes de la se&ntilde;al que podr&iacute;an interpretarse como voz y separarlas    de las partes no vocales. Adem&aacute;s ofrece informaci&oacute;n sobre la humanizaci&oacute;n    de la voz a trav&eacute;s de un an&aacute;lisis estad&iacute;stico de manera    diferenciada para voces masculinas y femeninas. Detecta adem&aacute;s la presencia    de tonos tales como los de marcaci&oacute;n telef&oacute;nica <I>(Dual-Tone    Multi-Frequency signaling (DTMF))</I> o se&ntilde;ales similares marcadamente    peri&oacute;dicas no vocales. Se analizan las tramas de voz repetidas ocasionadas    por la p&eacute;rdida de paquetes en sistemas de transmisi&oacute;n en modo    paquete. </font>     <P>      <P><font size="2" face="Verdana"><B>An&aacute;lisis del ruido adicional intenso</B>    </font>     <P><font size="2" face="Verdana">El an&aacute;lisis del ruido calcula distintas    caracter&iacute;sticas del mismo. Este bloque se encarga de detectar si el ruido    es la principal causa de degradaci&oacute;n, si esto ocurre se analiza entonces    el tipo de ruido que afecta la se&ntilde;al. &Eacute;ste puede ser est&aacute;tico    y estar presente en toda la se&ntilde;al (al menos durante la actividad vocal)    de forma que la potencia de ruido no est&aacute; correlacionada con la se&ntilde;al    vocal, o bien, puede ocurrir que la potencia de ruido presente una cierta dependencia    con respecto a la envolvente de la potencia de se&ntilde;al. Si se trata del    primer caso entonces se realiza un an&aacute;lisis m&aacute;s espec&iacute;fico    sobre los fonemas y frases de la se&ntilde;al. </font>     <P>      <P><font size="2" face="Verdana"><B>Interrupciones, silenciamientos y recorte    temporal</B> </font>     <P><font size="2" face="Verdana">Dichas distorsiones s&oacute;lo pueden ser parcialmente    descritas por el resultado del an&aacute;lisis del tracto vocal. Por tanto,    se realiza nuevamente un an&aacute;lisis del tracto para detectar y valorar    los recortes temporales y los silencios antinaturales. La interrupci&oacute;n    de la se&ntilde;al puede ocurrir de dos formas diferentes, como un recorte temporal    de la voz o como una interrupci&oacute;n de la misma. Ambos producen una p&eacute;rdida    de informaci&oacute;n de la se&ntilde;al. El recorte temporal puede ocurrir    cuando se utiliza la detecci&oacute;n de actividad vocal o se interrumpe la    se&ntilde;al. </font>     ]]></body>
<body><![CDATA[<P>      <P><font size="2" face="Verdana"><B>Distancia entre arm&oacute;nicos (HD) </B>    </font>     <P><font size="2" face="Verdana">HD calcula la raz&oacute;n de energ&iacute;a    en las &aacute;reas m&aacute;s significativas para un SARL: arm&oacute;nicos    de la frecuencia fundamental y los valles entre ellos (Ec. 1). Este valor aumenta    con la diferencia entre picos y valles, definiendo cuan limpia esta la se&ntilde;al.    En las regiones espectrales afectadas por ruido, la energ&iacute;a aumenta rellenando    los valles, lo que causa un decrecimiento de HD. </font>     <P><font size="2" face="Verdana">Para determinar la distorsi&oacute;n de la estructura    arm&oacute;nica de la voz, esta medida define una funci&oacute;n relacionando    la potencia en los arm&oacute;nicos con la potencia en los valles. </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0106315.gif">     <P><font size="2" face="Verdana">Donde P<SUB>k</SUB> es la potencia en el arm&oacute;nico    k, P<SUB>(k,k+1)</SUB> es la potencia entre arm&oacute;nicos k y k+1. NH se    refiere a la cantidad de arm&oacute;nicos y N<SUB>frame</SUB> es el n&uacute;mero    de tramas de voz en la se&ntilde;al <SUP>14</SUP>. Es preciso destacar como    esta medida de calidad solo se calcula en las tramas de voz y no en las de silencio    pues son las que poseen la frecuencia fundamental y por tanto sus arm&oacute;nicos.    Por esto es necesario determinar primero las zonas de voz en la se&ntilde;al.    La raz&oacute;n de potencia definida en la Ec.1 aumenta con la SNR, por tal    motivo se espera que al aumentar el ruido en la se&ntilde;al disminuya el valor    de esta medida. </font>     <P><font size="2" face="Verdana"><B>Kurtosis de Cepstral (KCEP)</B> </font>     <P><font size="2" face="Verdana">La kurtosis o momento estad&iacute;stico de cuarto    orden es una medida de forma de la distribuci&oacute;n de probabilidad de los    valores reales de una variable aleatoria. </font>     <P><font size="2" face="Verdana">Con el incremento de la kurtosis el pico de la    distribuci&oacute;n crece, por tanto las muestras estar&aacute;n m&aacute;s    concentradas alrededor de la media. En este caso la kurtosis se aplica a la    distribuci&oacute;n de los Coeficientes Cepstrales en escala Mel <I>(Mel Frequency    Cepstral Coefficients (MFCC))</I>. Esta medida de calidad utiliza la forma de    la distribuci&oacute;n de los MFCC como un indicador de degradaci&oacute;n.    En cada trama se obtienen <em>P</em> coeficientes, para luego determinar la    kurtosis de la siguiente manera:</font>      <P align="left"><img src="/img/revistas/eac/v36n3/e0206315.gif">     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Donde P se refiere a la cantidad de coeficientes,    C<SUB>p</SUB> a los coeficientes MFCC y &oacute; es la desviaci&oacute;n est&aacute;ndar    de la trama que se analiza. Para determinar kcep se eliminan todas las tramas    de silencio usando un detector de actividad vocal. Posteriormente se promedian    los valores de kurtosis de las tramas de voz para obtener el valor final de    la medida de calidad. </font>     <P>      <P><font size="2" face="Verdana">El ruido aditivo causa un incremento de la energ&iacute;a    en las componentes de la se&ntilde;al relativas al ruido, reflej&aacute;ndose    en la densidad espectral de potencia <I>(Power Spectral Density (PSD)) </I>y    tambi&eacute;n en los MFCC. La <a href="/img/revistas/eac/v36n3/f0206315.jpg">figura 2</a> muestra la PSD de una trama de voz corrupta con    ruido de exteriores para SNR=5 y 20 (este fen&oacute;meno se ilustra con una    sola trama pero es similar en el resto de la se&ntilde;al). Para 20 dB, la PSD,    tiene altos valores en las bajas frecuencias y decrece en las altas. Para 5    dB el incremento que se produce en la potencia de los segmentos de ruido implica    mayores valores en PSD trayendo consigo cambios en la forma del espectro que    se refleja en la distribuci&oacute;n de los MFCC. Estos coeficientes se calculan    utilizando la Inversa de la Transformada de Coseno Discreta <I>(Inverse Discrete    Cosine Transform (IDCT))</I>, los cuales expresan la forma de la se&ntilde;al    en funciones coseno <SUP>15</SUP>. Los coeficientes reflejan la similitud de    la se&ntilde;al con las funciones base. De esa manera, C<SUB>1</SUB> representa    la disminuci&oacute;n de la pendiente de la se&ntilde;al, C<SUB>2</SUB> ser&aacute;    m&aacute;s negativo indicando la tendencia a un ciclo de coseno y C<SUB>3</SUB>    aumentar&aacute; representando el comportamiento de un ciclo de coseno desplazado    90 grados. En consecuencia la distribuci&oacute;n de los MFCC es m&aacute;s    dispersa, por lo que disminuir&aacute; kcep en se&ntilde;ales ruidosas (como    indican los valores en la <a href="/img/revistas/eac/v36n3/f0206315.jpg">figura 2</a>). </font>     <P>     <P><font size="2" face="Verdana"><B>Kurtosis sobre los LPC</B> </font>     <P><font size="2" face="Verdana">La kurtosis sobre los LPC es similar a la medida    descrita en el apartado anterior, solo que esta utiliza la forma de la distribuci&oacute;n    de los rasgos LPC como indicador de degradaci&oacute;n de la muestra de voz.    Se mantiene por tanto la misma ecuaci&oacute;n, solo se sustituye C<SUB>p</SUB>    por a<SUB>p</SUB>, siendo este t&eacute;rmino el coeficiente LP que se analiza.    El an&aacute;lisis LP consiste en estimar el modelo del tracto vocal partiendo    de muestras previas. Cuando la muestra es parte de un segmento que sigue determinado    patr&oacute;n, tal es el caso de un segmento peri&oacute;dico, solo se necesita    un peque&ntilde;a referencia para predecir el comportamiento de la muestra.    Este es el caso de una trama de voz, cuando el predictor est&aacute; situado    en zonas sonoras que son cuasi peri&oacute;dicas, la predicci&oacute;n se realizar&aacute;    pr&aacute;cticamente en las zonas cercanas, especialmente en las muestras previas.    Por tanto, el primer coeficiente (a<SUB>2</SUB>) tendr&aacute; valores cercanos    a -1 mientras que el resto tendr&aacute;n poca influencia en la predicci&oacute;n,    con valores muy cercanos a 0. En consecuencia se obtendr&aacute; una distribuci&oacute;n    con valores altamente concentrados alrededor de la media y por tanto altos valores    de kurtosis. Si la se&ntilde;al es ruidosa, perder&aacute; periodicidad y las    muestras por tanto no ser&aacute;n tan predecibles. </font>     <P><font size="2" face="Verdana">Por este motivo todos los a<SUB>p</SUB> participan    en la predicci&oacute;n, tomar&aacute;n valores diferentes y alejados de cero    lo que produce un esparcimiento en la distribuci&oacute;n de los LPC y menores    valores de kurtosis. </font>     <P><font size="2" face="Verdana"><B>Criterio UBML</B> </font>     <P><font size="2" face="Verdana">Es una medida basada en modelos estad&iacute;sticos    que aprovecha los modelos de habla poco degradada para determinar la calidad.    Esta aproxima la similitud entre una locuci&oacute;n y el modelo universal utilizado    para generar el modelo estad&iacute;stico de un locutor. Se obtendr&aacute;    de manera inmediata si se utiliza un sistema basado en Modelos de Mezclas de    Gaussianas <I>(Gaussian Mixture Model (GMM)</I>, ya que para determinar la puntuaci&oacute;n    de la similitud es necesario calcular la verosimilitud entre el Modelo Universal    de <I>background (Universal background Model (UBM))</I> y la locuci&oacute;n    de prueba (3). </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0306315.gif">     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Donde &lambda;<SUB>t</SUB> representa el modelo    GMM del locutor y <em>O</em> los rasgos extra&iacute;dos de la locuci&oacute;n.    Esta medida de calidad se basa en la idea de que si un UBM est&aacute; entrenado    bajo determinadas condiciones, una locuci&oacute;n con caracter&iacute;sticas    diferentes tendr&aacute; un peor comportamiento porque el UBM no le es representativo    y por tanto se le debe asociar una calidad baja, as&iacute; esta medida es una    idea de lo diferentes que son las muestras que se utilizan en un sistema de    reconocimiento con respecto a las utilizadas para entrenar el mismo <SUP>5</SUP>.    La medida se determina de la siguiente manera: </font>      <P align="left"><img src="/img/revistas/eac/v36n3/e0406315.gif">     <P><font size="2" face="Verdana">Donde p(. ,&lambda;<SUB>UBM</SUB> ) es la funci&oacute;n    densidad de probabilidad para cualquier modelo &lambda;. </font>     <P>      <P><font size="2" face="Verdana"><B>SNR</B> </font>     <P><font size="2" face="Verdana">La SNR cuantifica en qu&eacute; medida una se&ntilde;al    x(t) ha sido afectada por un ruido n(t). En este caso la se&ntilde;al es la    voz y el ruido corresponde a una perturbaci&oacute;n ac&uacute;stica-aditiva,    seg&uacute;n el siguiente modelo: </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0506315.gif">     <P><font size="2" face="Verdana">Luego la SNR es la raz&oacute;n de potencias    entre la voz y el ruido de fondo, definida como sigue: </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0606315.gif">     <P align="left"><img src="/img/revistas/eac/v36n3/e0706315.gif">     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Donde Px es la potencia de voz o ruido, x(t)    son las muestras de voz en el tiempo y T se refiere a la cantidad de muestras    de voz. En la ecuaci&oacute;n (6), se observa que la SNR es inversamente proporcional    a la potencia relativa al ruido <I>Pruido</I>, por lo tanto a mayor de SNR menor    ser&aacute; la variabilidad de la se&ntilde;al y mayor la calidad de la misma.    Al ser esta variante de SNR no intrusiva solo se cuenta con y(t) por lo que    es preciso estimar n(t) para luego determinar la SNR. Por este motivo la eficacia    del c&aacute;lculo estar&aacute; en dependencia de cuan preciso sea el m&eacute;todo    de estimaci&oacute;n utilizado. Su selecci&oacute;n debe estar en correspondencia    con el tipo de ruido que afecte la se&ntilde;al. </font>     <P>      <P><font size="2" face="Verdana"><B>Uso de medidas de calidad en SARL</B> </font>     <P><font size="2" face="Verdana">Ninguna de las medidas descritas anteriormente,    a excepci&oacute;n de UBML, fueron dise&ntilde;adas para usarse en SARL. Sin    embargo, varios autores han vinculado la calidad al resultado de estos sistemas    desde diferentes enfoques. En Kelly <I>et al</I> <SUP>16 </SUP>se relacionan    el envejecimiento, la calidad y el resultado de la verificaci&oacute;n con el    objetivo de observar la influencia que tienen ambos factores en la tarea de    reconocimiento de locutores. Es posible utilizar tambi&eacute;n la calidad de    la se&ntilde;al en varias etapas del sistema, por ejemplo, en las etapas de    extracci&oacute;n de rasgos, entrenamiento de los modelos, determinaci&oacute;n    de la puntuaci&oacute;n y fusi&oacute;n de estas. En Garc&iacute;a-Romero <SUP>17</SUP>    han mostrado resultados alentadores cuando se incorpora la calidad en el proceso    de reconocimiento sobre todo en las dos &uacute;ltimas etapas. A continuaci&oacute;n    se muestra las aplicaciones m&aacute;s relevantes que ha tenido la calidad en    SARL. </font>     <P>      <P><font size="2" face="Verdana"><B>Medidas de calidad aplicadas durante el c&aacute;lculo,    la fusi&oacute;n y la calibraci&oacute;n de <I>scores</I></B> </font>     <P><font size="2" face="Verdana">En este ep&iacute;grafe se presentan varios m&eacute;todos    para vincular la calidad de una muestra al c&aacute;lculo y la fusi&oacute;n    de scores utilizando diferentes niveles de informaci&oacute;n en la se&ntilde;al    de voz debido a la clara relaci&oacute;n que existen entre la puntuaci&oacute;n    resultante y dicha informaci&oacute;n dado que porta informaci&oacute;n discriminativa    del locutor (IDL). La idea parte de que los seres humanos mezclan varios niveles    de informaci&oacute;n para reconocer la identidad de un locutor.</font>     <P><font size="2" face="Verdana">Usualmente para el c&aacute;lculo de la puntuaci&oacute;n    se utiliza un sistema GMM-UBM, utilizando una etapa de pre-procesamiento en    las que se eliminan los efectos del canal y se reduce el ruido presente en la    muestra. Adem&aacute;s se eliminan los silencios y los sonidos que no se consideran    voz, preservando solo la informaci&oacute;n que satisfaga determinado criterio,    eliminando el resto.</font>     <P><font size="2" face="Verdana">Si se combina esta etapa con un mecanismo cl&aacute;sico    para determinar la puntuaci&oacute;n, se le confiere a toda la informaci&oacute;n    que se preserva, luego de la etapa de pre procesamiento, la misma importancia.    Sin embargo se omite que al utilizarla para determinar el por ciento de verificaci&oacute;n    no se tiene en cuenta que la informaci&oacute;n referente al locutor y la que    puede degradar la muestra no est&aacute;n distribuidas de manera uniforme en    la se&ntilde;al. Si la puntuaci&oacute;n se calcula incluyendo la calidad esta    act&uacute;a como un factor de peso en dicha etapa.</font>     <P><font size="2" face="Verdana">Este concepto se puede aplicar a cualquier t&eacute;cnica    usada en sistemas de reconocimiento, pero en este caso se particulariza en GMM    para nivel espectral ya que es el m&aacute;s utilizado en la literatura. El    procedimiento se modifica quedando de la siguiente manera: </font>     ]]></body>
<body><![CDATA[<P>      <P><font size="2" face="Verdana">Dado una secuencia de vectores de rasgos O={o<SUB>1</SUB>,o<SUB>2</SUB>,o<SUB>3</SUB>,&#133;o<SUB>    T</SUB>}, donde T corresponde a la cantidad de trama de la se&ntilde;al a la    que se aplica la medida de calidad &xi;. La probabilidad del modelo &lambda;    incorporando el valor de calidad como un factor de peso se determina de la siguiente    manera: </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0806315.gif">     <P><font size="2" face="Verdana">Luego el logaritmo de la probabilidad se determina    como: </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e0906315.gif">     <P><font size="2" face="Verdana">Para incluir varios niveles de informaci&oacute;n,    es necesario acudir a la fusi&oacute;n y se utiliza una M&aacute;quina de Soporte    Vectorial adaptada para poder incluir la informaci&oacute;n relativa a la calidad    en el proceso de verificaci&oacute;n. El m&eacute;todo se basa en la combinaci&oacute;n    de informaci&oacute;n de bajo nivel (por ejemplo, informaci&oacute;n espectral)    con otros tipos de informaci&oacute;n de alto nivel (informaci&oacute;n fon&eacute;tica    y lexical). Esta idea parte de que los sistemas de verificaci&oacute;n que utilizan    informaci&oacute;n de bajo nivel tienen mejores resultados que los que utilizan    informaci&oacute;n de alto nivel. Adem&aacute;s se basa en que las afectaciones    que se producen en el primer caso son m&aacute;s f&aacute;ciles de detectar    que en el segundo, por lo que el dise&ntilde;o de las medidas de calidad ser&aacute;    m&aacute;s sencillo para los sistemas que utilizan bajos niveles de informaci&oacute;n.    A partir de ello se propone un sistema que utiliza la calidad como el factor    de decisi&oacute;n para definir si usar un SARL solamente basado en informaci&oacute;n    espectral o si combina con un sistema que utiliza informaci&oacute;n de alto    nivel para determinar la puntuaci&oacute;n final </font>     <P><font size="2" face="Verdana">A partir de esta idea se propone un modelo llamado    Fusi&oacute;n de <I>Scores</I> Basado en la Calidad donde la informaci&oacute;n    de calidad se incorpora como un factor de decisi&oacute;n para utilizar el sistema    solo con el mejor comportamiento, es decir basado en informaci&oacute;n de bajo    nivel, o combinando ambos sistemas. Esta modificaci&oacute;n implica que la    puntuaci&oacute;n resultante ser&aacute; al menos tan exacta como la del sistema    de mejor desempe&ntilde;o, o mejor. </font>     <P><font size="2" face="Verdana">La calidad tambi&eacute;n puede ser &uacute;til    para calibrar el SARL. En <SUP>18 </SUP>se utiliza la duraci&oacute;n de las    se&ntilde;ales como una medida de calidad para calibrar el sistema debido a    que la variabilidad de esta conduce a la disminuci&oacute;n de su rendimiento.    El sistema de verificaci&oacute;n utilizado se basa en <I>i-vector</I>, pues    se ha demostrado que este es menos sensible a las muestras de poca duraci&oacute;n    comparada con sistemas basados en SVM y An&aacute;lisis de Factores. En este    caso se utiliza la duraci&oacute;n de los segmentos de entrenamiento y prueba    como medida de calidad para calibrar el sistema (11). Esta t&eacute;cnica de    calibraci&oacute;n se conoce con el nombre de (<I>Quality Measure Function (QMF)</I>).    </font>     <P><font size="2" face="Verdana">La duraci&oacute;n es solo un ejemplo de medida    de calidad, esta manera de realizar la calibraci&oacute;n de un sistema puede    basarse en cualquier otra medida.</font>     <P><font size="2" face="Verdana">La calidad de la voz permite predecir tanto el    rendimiento de un sistema de verificaci&oacute;n de locutor como una posible    desalineaci&oacute;n de los <I>scores</I> del mismo debido a cambios en dicha    calidad.</font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Los <I>scores</I> de los clientes e impostores    pueden desajustarse y la calidad es una variante para realizar un ajuste de    esta diferencia. Puede recurrirse a graficas de dispersi&oacute;n, curvas DET    para determinar estas variaciones. Otra manera de hacer este an&aacute;lisis    es evaluar el aporte que tiene la calidad en el resultado, para ello se define    en Castro <SUP>5</SUP> una medida del impacto que tiene la calidad en el score    (10). </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e1006315.gif">     <P><font size="2" face="Verdana">donde EER<SUB>max</SUB> se refiere al mayor valor    de <I>score</I> obtenido para una medida de calidad determinada mientras que    EER<SUB>min</SUB> corresponde con el m&iacute;nimo. Es necesario destacar que    este valor solo da una idea de utilidad de manera parcial por lo que se sugiere    analizar adem&aacute;s las curvas de EER vs valor de la medida de calidad. Aqu&iacute;    adem&aacute;s se incluye en el an&aacute;lisis la calidad de la muestra utilizada    para el entrenamiento del sistema definiendo la calidad de la comparaci&oacute;n    como: </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e1106315.gif">     <P><font size="2" face="Verdana">donde Q<SUB>train</SUB> y Q<SUB>test</SUB> corresponden    a la calidad de las muestras para entrenamiento y prueba. </font>     <P>      <P><font size="2" face="Verdana"><B>Medidas de calidad para verificar la confiabilidad    en la decisi&oacute;n de un sistema de reconocimiento de locutor. </B> </font>     <P>      <P><font size="2" face="Verdana">Esta variante de aplicaci&oacute;n tiene como    objetivo determinar cuan confiable es la decisi&oacute;n tomada por un SARL    una vez ejecutada la tarea. Las herramientas utilizadas con mayor frecuencia    son las redes bayesianas y las redes neuronales. </font>     <P><font size="2" face="Verdana">El uso de las redes bayesianas esta aplicaci&oacute;n    fue propuesto por primera vez en <SUP>19 20 21 </SUP>debido a que estos modelos    gr&aacute;ficos permiten determinar la probabilidad de la confiabilidad de la    decisi&oacute;n. </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La idea inicial en estos trabajos es elevar el    rendimiento del sistema solicitando al usuario una nueva muestra si la que se    analiza no tiene suficiente calidad. No se desecha ninguna de las muestras tomadas,    cada score obtenido con ellas se pesa con el valor de la confiabilidad que devuelve    la red y as&iacute; obtener el resultado final S<SUB>c</SUB>. </font>     <P align="left"><img src="/img/revistas/eac/v36n3/e1206315.gif">     <P><font size="2" face="Verdana">Donde Sc<SUB>n</SUB> es el score obtenido para    la muestra <I>n</I>y Conf(Sc<SUB>n</SUB>) es la confianza devuelta por la red    bayesiana. </font>     <P><font size="2" face="Verdana">Originalmente no se contemplaba en la arquitectura    de la red una relaci&oacute;n entre la calidad y la clase a la que pertenec&iacute;a    la comparaci&oacute;n (cliente o impostor), cuando ya en <SUP>6</SUP> se hab&iacute;a    probado que la calidad afectaba de manera diferenciada a ambas clases. Es por    esto que en <SUP>22</SUP> se incluye esta relaci&oacute;n y a pesar de que la    confiabilidad se utiliza para eliminar comparaciones no confiables los resultados    superan la primera propuesta comprobando que la distribuci&oacute;n de los <I>scores    </I>se afecta de manera diferenciada para clientes e impostores. Luego en <SUP>23</SUP>    se propone una modificaci&oacute;n a la arquitectura de <SUP>22</SUP> esta vez    eliminado la confiabilidad de los nodos de la red y obteniendo una puntuaci&oacute;n    limpia que corresponde con el valor que se hubiera obtenido si la muestra tuviera    buena calidad. Con este score limpio se define luego una regla para determinar    la confiabilidad de la decisi&oacute;n y descartar las comparaciones no confiables.    Los resultados obtenidos superan las propuestas antes descritas. En <SUP>22    23</SUP> se incluye en el an&aacute;lisis la calidad referente a las muestras    usadas en la fase de entrenamiento y de prueba. </font>     <P><font size="2" face="Verdana">Las redes neuronales han sido mucho menos usadas    con este fin, solamente en <SUP>24 </SUP>se trabaja en este tema, sin embargo    estos m&eacute;todos tienen como gran desventaja la gran cantidad de comparaciones    que son necesarias para poder realizar el entrenamiento de la red y por tanto    el alto costo computacional que esto conlleva.</font>     <P>&nbsp;     <P><font size="3" face="Verdana"><B>EXPERIMENTOS</B> </font>     <P>&nbsp;      <P><font size="2" face="Verdana">Dado que el objetivo de ese trabajo es evaluar    la relaci&oacute;n que existe entre la calidad, el resultado del sistema y la    cantidad de ruido presente en las muestras se elige la primera variante descrita    en el apartado anterior haciendo un an&aacute;lisis de correlaci&oacute;n como    se describe m&aacute;s adelante. </font>     <P><font size="2" face="Verdana"><B>Selecci&oacute;n de las medidas de calidad</B>    </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">De los grupos que forman el conjunto de medidas    de calidad objetivas no intrusivas se seleccionaron cuatro medidas con el fin    de evaluar su relaci&oacute;n con el ruido y con la puntuaci&oacute;n de un    SARL. La P.563 se selecciona debido a que eval&uacute;a una gran cantidad de    propiedades de la se&ntilde;al para arribar a un resultado final (MOS). HD fue    seleccionada del grupo de m&eacute;todos que estiman el ruido presente en la    se&ntilde;al. Esta medida determina la SNR a partir de la frecuencia fundamental,    que porta informaci&oacute;n discriminativa del locutor, de ah&iacute; la importancia    de su selecci&oacute;n. Finalmente, del grupo de medidas estad&iacute;sticas    la KCEP y la KLPC fueron elegidas pues se basan en par&aacute;metros que usualmente    se utilizan para realizar el reconocimiento. </font>     <P>      <P><font size="2" face="Verdana"><B>Corpus</B> </font>     <P><font size="2" face="Verdana">Para llevar a cabo los experimentos se utilizaron    50 locutores de la base NIST 2001 en idioma espa&ntilde;ol. Se tomaron 50 muestras    de una sesi&oacute;n microf&oacute;nica para el entrenamiento y 50 de otra sesi&oacute;n    microf&oacute;nica para la prueba. Para crear las muestras ruidosas, se mezclaron    de manera electr&oacute;nica las muestras correspondientes a esta fase con:    ruido blanco estacionario, ruido de exteriores pseudo-estacionario, ruido de    voces no estacionario, el cual est&aacute; altamente correlacionado con la voz    debido a que se compone de voces de diferentes locutores y ruido de m&uacute;sica    no estacionario y altamente arm&oacute;nico, en 5 niveles de SNR <SUP>25</SUP>.    Los detalles del SARL utilizado se pueden localizar en <SUP>26</SUP>.</font>     <P>&nbsp;     <P><font size="3" face="Verdana"><B>RESULTADOS Y DISCUSI&Oacute;N</B></font>     <P>&nbsp;<font face="Verdana"><B>     <P><font size="2">Calidad vs. SNR</font></B></font>      <P><font size="2" face="Verdana">Esta relaci&oacute;n se eval&uacute;a con el    objetivo de analizar cuan exactas son las medidas de calidad seleccionadas reflejando    la cantidad de ruido presente en la se&ntilde;al. Mayores valores de SNR implican    menos ruido en las muestras y por lo tanto mayor calidad. La <a href="/img/revistas/eac/v36n3/f0306315.jpg">figura    3</a> muestra una media de los valores de calidad en los diferentes entornos    ruidosos. </font>      <P><font size="2" face="Verdana">HD se encuentra representada por la curvas de    color verde. Como es posible observar estas crecen cuando se trata de ruido    blanco y de exteriores, mostrando como la medida refleja la cantidad de ruido    en la se&ntilde;al. Este comportamiento se debe a que son ruidos con caracter&iacute;sticas    muy estacionarias por lo que afectan la se&ntilde;al de manera uniforme y la    medida los detecta correctamente. Principalmente en presencia de ruido blanco,    totalmente estacionario, la energ&iacute;a se modifica de manera constante en    todas las regiones, por lo que la raz&oacute;n entre arm&oacute;nicos y valles    va a disminuir mostrando as&iacute; como disminuye la calidad con la presencia    de ruido. </font>     ]]></body>
<body><![CDATA[<P>      <P><font size="2" face="Verdana">Sin embargo aparece un cambio de pendiente alrededor    de los 15 dB en los casos de ruido de voces y m&uacute;sica, debido a que las    componentes espectrales de estos tipos de ruidos no son uniformes, es decir,    no se presentan durante toda la se&ntilde;al de manera constante. </font>     <P><font size="2" face="Verdana">En estos escenarios, algunos arm&oacute;nicos    y valles se encuentran m&aacute;s corruptos por ruidos que otros por lo que    se produce distorsi&oacute;n en el resultado de la medida. </font>     <P>      <P><font size="2" face="Verdana">La P.563, descrita por las curvas amarillas,    aumenta con la SNR si se trata de entornos en los que aparece el ruido blanco,    en caso contrario las curvas cambian bruscamente en los 15 y los 20 dB. Este    comportamiento se debe a que esta medida cuenta con un bloque de detecci&oacute;n    de ruido, que devuelve valores incorrectos en muestras con altos valores de    SNR, como usualmente ocurre con los m&eacute;todos de detecci&oacute;n de ruido    ante se&ntilde;ales limpias, lo que trae consigo una estimaci&oacute;n incorrecta    de la calidad en estos casos.</font>     <P><font size="2" face="Verdana">Las l&iacute;neas azules muestran el comportamiento    de la KLPC y se observa que estas aumentan con la SNR en todos los escenarios,    demostrando que es una medida muy consecuente con los niveles de ruido que se    encuentran en las se&ntilde;ales, mostrando el mejor resultado en relaci&oacute;n    con el resto de las medidas seleccionadas. Es necesario destacar que para todos    los tipos de ruido en SNR=20 dB las curvas alcanzan diferentes valores de kurtosis,    lo cual es relativo a las caracter&iacute;sticas propias del ruido y a la manera    en que este afecta la se&ntilde;al. </font>     <P>      <P><font size="2" face="Verdana">La KCEP, descrita por las l&iacute;neas rojas,    refleja correctamente el ruido en todos los escenarios excepto para ruido blanco,    en el que tiene un comportamiento totalmente inverso. Esto se debe a que este    tipo de ruido presenta energ&iacute;a en todas las componentes de frecuencia    y al mezclarse con la se&ntilde;al produce un suavizado del espectro, es decir    los valles entre los arm&oacute;nicos se rellenan. A consecuencia de esto se    produce un incremento considerable en los filtros de alta frecuencia que se    refleja en la PSD debido al ancho de banda logar&iacute;tmico de este banco.    Por tal motivo se reduce el coeficiente C<SUB>1</SUB>, a causa de la inversi&oacute;n    que sufre la pendiente de la PSD en escala Mel. En el histograma de la <a href="/img/revistas/eac/v36n3/f0406315.jpg">figura    4</a> se distingue una concentraci&oacute;n alta alrededor de 0, enfatizada    por la gran diferencia que impone C<SUB>1</SUB> en relaci&oacute;n con el resto    de los coeficientes, por lo que la KCEP aumentara en estas circunstancias. </font>      <P>     <P><font size="2" face="Verdana"><B>Calidad vs. Puntuaci&oacute;n del sistema    (<I>Score)</I></B> </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Este experimento se realiz&oacute; con el objetivo    de evaluar qu&eacute; relaci&oacute;n existe entre la calidad y el resultado    de un SARL, utilizando el <I>score. </I>Para cada ruido y nivel de SNR se realiz&oacute;    un an&aacute;lisis de correlaci&oacute;n entre ambos par&aacute;metros obteniendo    el coeficiente de correlaci&oacute;n lineal <I>R</I> entre ellos. Las columnas    3 y 6 de la <a href="#tab1">tabla 1</a> muestran un promedio sobre los resultados para    cada nivel de SNR. </font>     <P>      <P><font size="2" face="Verdana">Se supone que al mejorar la calidad de las muestras    la puntuaci&oacute;n que devuelva el sistema al realizar la verificaci&oacute;n    deba incrementarse y por tanto se obtengan valores positivos de <I>R</I>. Sin    embargo, solo se obtienen valores muy cercanos a 0 e incluso negativos en la    mayor&iacute;a de las condiciones, lo que indica baja correlaci&oacute;n entre    la calidad y el <I>score. </I>De ac&aacute; se puede inferir que el ruido no    es el &uacute;nico factor que afecta la eficacia de los SARL. La diferencia    de sesi&oacute;n es tambi&eacute;n un factor de peso en este resultado <SUP>27</SUP>,    incluyendo adem&aacute;s la diferencia entre los dispositivos de adquisici&oacute;n    de las muestras, los efectos causados por el canal, el estado de &aacute;nimo    del locutor, la fon&eacute;tica, etc. <SUP>28</SUP>. Adem&aacute;s la informaci&oacute;n    discriminativa del locutor (IDL) tambi&eacute;n tiene un papel fundamental en    la decisi&oacute;n. </font>     <P>      <P><font size="2" face="Verdana">A partir de estas observaciones, los valores    de <I>R</I> se calcularon nuevamente, esta vez eliminando la diferencia de sesi&oacute;n.    </font>     <P><font size="2" face="Verdana">Para ello se aisl&oacute; el ruido aditivo utilizando    las mismas muestras para entrenar y luego realizar la prueba, adem&aacute;s,    los scores fueron normalizados con respecto a las muestras limpias. Las columnas    4 y 7 de la <a href="#tab1">tabla 1</a> muestran un promedio sobre    la SNR para estos nuevos resultados. </font>     <P>      <P><font size="2" face="Verdana">Ahora <I>R</I> es mayor, indicando un incremento    en la relaci&oacute;n lineal que existe entre la calidad y el <I>score </I>en    la mayor&iacute;a de los casos analizados. Es de notar tambi&eacute;n como se    incrementa el n&uacute;mero de valores positivos, indicando que los valores    tan bajos obtenidos en el primer experimento son relativos al <I>score</I> como    medida del SARL pues adem&aacute;s del ruido aditivo, este se afecta por otros    elementos relativos a las caracter&iacute;sticas de la comparaci&oacute;n y    de las muestras. Por lo tanto estas dos medidas no pueden relacionarse de manera    directa. Sin embargo, los resultados muestran que la KCEP y la P.563 son las    medidas que guardan mayor relaci&oacute;n con el score dado que tienen los valores    m&aacute;s elevados de <I>R</I>. Las nubes que se observan en la <a href="#fig5">figura 5</a> corresponden a KCEP en caso de ruido de exteriores    y en ella es evidente que cuando no existe diferencia de sesi&oacute;n existe    menos dispersi&oacute;n y se aprecia una tendencia a crecer con la SNR. Mientras    que sucede lo contrario cuando no coinciden las sesiones. </font>      <P align="center"><img src="/img/revistas/eac/v36n3/t0106315.jpg"><a name="tab1"/>     <P align="center"><img src="/img/revistas/eac/v36n3/f0506315.jpg"><a name="fig5"/>      ]]></body>
<body><![CDATA[<P align="center">&nbsp;     <P><font size="3" face="Verdana"><B>CONCLUSIONES</B> </font>     <P>&nbsp;      <P><font size="2" face="Verdana">Este trabajo presenta un estudio sobre la relaci&oacute;n    entre la calidad de las muestras de voz y los resultados obtenidos de un SARL    en ambientes ruidosos y para ello se utilizaron los valores de calidad y <I>score</I>    de las muestras en diversas condiciones de ruido. Partiendo del comportamiento    de todas las medidas analizadas los resultados muestran que: HD y P.563 reflejan    el ruido en condiciones altamente dif&iacute;ciles (SNR&lt;= 10 dB). No suceder&aacute;    as&iacute; para SNR&gt;=15 dB principalmente para ruido de voces y m&uacute;sica,    mientras que las medidas estad&iacute;sticas tienen buen comportamiento en todos    los escenarios, excepto KCEP en presencia de ruido blanco, en cuyo caso el comportamiento    es inverso. </font>     <P><font size="2" face="Verdana">Sin embargo este tipo de ruido no se encuentra    com&uacute;nmente en aplicaciones reales, por lo que se recomienda elegir las    medidas basadas en la kurtosis para detectar los niveles de ruido, especialmente    KLPC, mientras que HD y P.563 para aplicaciones situadas en ambientes altamente    ruidosos. </font>     <P>      <P><font size="2" face="Verdana">Por otro lado los resultados de correlaci&oacute;n    obtenidos se consideran moderados o bajos, mostrando que la relaci&oacute;n    entre la calidad y el score no es exactamente lineal. Estos experimentos permiten    concluir que el resultado de los SARL est&aacute; muy relacionado con la sesi&oacute;n    y con la IDL adem&aacute;s del ruido. </font>     <P>      <P><font size="2" face="Verdana">En esta evaluaci&oacute;n se elimin&oacute; la    diferencia de sesi&oacute;n, por lo que el siguiente paso estar&aacute; encaminado    a aislar los efectos que tiene la IDL en el resultado del SARL. Sin embargo    en este momento pueden usarse estas medidas para tener una noci&oacute;n de    los resultados del sistema. En el futuro se pretende llevar a cabo una extensi&oacute;n    de este an&aacute;lisis a una base de datos mayor as&iacute; como a SARL m&aacute;s    actuales.</font>     <P>&nbsp;     ]]></body>
<body><![CDATA[<P><font size="3" face="Verdana"><B>REFERENCIAS</B></font>     <P>&nbsp;     <!-- ref --><P><font size="2" face="Verdana">1. IEEE Recommended Pratice for Speech Quality    Measurements. <I>IEEE Transactions on Audio and Electroacoustics</I>, 17(3):    p. 225-246, 1969.     </font>     <!-- ref --><P><font size="2" face="Verdana">2. ITU-T Rec. P.830. Calidad de la Transmision    telefonica. Prueba subjetiva de opinion, en Sector de normalizacion de las telecomunicaciones,1998.        </font>     <!-- ref --><P><font size="2" face="Verdana">3. ITU-T Rec. P.800, Methods for subjectivs determination    of transmission quality, en Serie P: Calidad de transmision telef&oacute;nica,    instalaciones telef&oacute;nicas y redes locales, 1996.     </font>     <!-- ref --><P><font size="2" face="Verdana">4. Benesty, J., M.M. Sondhi, and Y. Huang, <I>Springer    Handbook of Speech Processing</I>, Springer-Verlag New York, Inc, 2007.     </font>      ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">5. Castro, A.H., Fiabilidad en sistemas forenses    de reconocimiento autom&aacute;tico de locutor explotando la calidad de la se&ntilde;al    de voz, en Dpto. de Ingenier&iacute;a Inform&aacute;tica, Universidad Aut&oacute;noma    de Madrid, 2010.     </font>     <!-- ref --><P><font size="2" face="Verdana">6. Richiardi, J. and A. Drygajlo. Evaluation    of speech quality measures for the purpose of speaker verification. en <I>Proc.    Odyssey: The Speaker and Language Recognition Worksho</I>p, 2008.     </font>     <!-- ref --><P><font size="2" face="Verdana">7. Wang, S., A. Sekey, and A. Gersho, An objective    measure for predicting subjective quality of speech coders. <I>IEEE Journal    on Selected Areas in Communications</I>, 10(5): p. 819-829, 1992.     </font>     <!-- ref --><P><font size="2" face="Verdana">8. ITU-T Rec. P.862, Evaluaci&oacute;n de la    calidad vocal por percepci&oacute;n: Un m&eacute;todo objetivo para la evaluaci&oacute;n    de la calidad vocal de extremo a extremo de redes telef&oacute;nicas de banda    estrecha y c&oacute;decs vocales, en Serie P: Calidad de transmision telef&oacute;nica,    instalaciones telef&oacute;nicas y redes locales, 2001.     </font>     <!-- ref --><P><font size="2" face="Verdana">9. Kondo, K., Subjective Quality Measurement    of Speech: Its Evaluation, Estimation and Applications. Springer, 2012.     </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">10. Loizou, P.C., Speech Quality Asssessment,    en Multimedia Analysis, Processing and Communications, Springer, 2011.     </font>     <!-- ref --><P><font size="2" face="Verdana">11. Kitawaki, N., H. Nagabuchi, and K. Itoh,    Objective quality evaluation for low-bit-rate speech coding systems. <I>IEEE    Journal on Selected Areas in Communications</I>, 6(2): p. 242-248, 1988.     </font>     <!-- ref --><P><font size="2" face="Verdana">12. Itakura, F. and T. Umezaki. Distance measure    for speech recognition based on the smoothed group delay spectrum, en <I>Acoustics,    Speech, and Signal Processing, IEEE International Conference</I> on ICASSP 1987.        </font>     <!-- ref --><P><font size="2" face="Verdana">13. ITU-T Rec. P.563, M&eacute;todo basado en    un solo extremo para la evaluaci&oacute;n objetiva de la calidad vocal en aplicaciones    de telefon&iacute;a de banda estrecha, en Serie P: Calidad de transmision telef&oacute;nica,    instalaciones telef&oacute;nicas y redes locales. Aparatos para mediciones objetivas.    2004.     </font>     <!-- ref --><P><font size="2" face="Verdana">14. Vaseghi, S.V., <I>Advanced Digital Signal    Processing and Noise Reduction</I>. 4th ed.: John Wiley&amp;Sons,2008.     </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">15. Britanak, V., P.C. Yip, and K.R. Rao, <I>Discrete    cosine and sine transforms: general properties, fast algorithms and integer    approximations</I>. Academic Press, 2010.     </font>     <!-- ref --><P><font size="2" face="Verdana">16. Kelly, F., A. Drygajlo, and N. Harte, Compensating    for Ageing and Quality variation in Speaker Verification, en <I>Interspeech,</I>    2012.     </font>     <!-- ref --><P><font size="2" face="Verdana">17. Garcia-Romero, D., et al., Using quality    measures for multilevel speaker recognition. <I>Computer Speech &amp; Language</I>,    20(23): p. 192-209, 2006.     </font>     <!-- ref --><P><font size="2" face="Verdana">18. Mandasari, M., et al., Quality Measure Functions    for Calibration of Speaker Recognition System in Various Duration Conditions.    <I>IEEE Transactions on Audio, Speech, and Language Processing</I>, PP(99):    p. 1-1, 2013.     </font>     <!-- ref --><P><font size="2" face="Verdana">19. Richiardi, J., P. Prodanov, and A. Drygajlo.    Speaker Verification with Confidence and Reliability Measures. en <I>Acoustics,    Speech and Signal Processing</I>, ICASSP 2006.     </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">20. Richiardi, J., P. Prodanov, and A. Drygajlo,    A probabilistic measure of modality reliability in speaker verification. <I>Proceedings    of IEEE International Conference on Acoustics, Speech, and Signal Processing</I>,    Philadelphia, Pa, USA. 1: p. 709 - 712, March 2005.     </font>     <!-- ref --><P><font size="2" face="Verdana">21. Richiardi, J., A. Drygajlo, and P. Prodanov,    Confidence and reliability measures in speaker verification. <I>Journal of the    Franklin Institute</I>, 343(6): p. 574-595, 2006.     </font>     <!-- ref --><P><font size="2" face="Verdana">22. Villalba, J., et al., <I>Reliability Estimation    of the Speaker Verification Decisions Using Bayesian Networks to Combine Information    from Multiple Speech Quality Measures, en Advances in Speech and Language Technologies    for Iberian Languages</I>, Springer Berlin Heidelberg. p. 1-10, 2012.     </font>     <!-- ref --><P><font size="2" face="Verdana">23. L&oacute;pez, J.V., et al., A new Bayesian    network to assess the reliability of speaker verification decisions, en <I>Interspeech</I>.    p. 3132-3136, 2013.     </font>      <!-- ref --><P><font size="2" face="Verdana">24. Campbell, W.M., et al. Estimating and Evaluating    Confidence for Forensic Speaker Recognition, en Acoustics, Speech, and Signal    Processing, ICASSP 2005.     </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">25. Varga, A. and H.J.M. Steeneken, Assessment    for automatic speech recognition: II. NOISEX-92: A database and an experiment    to study the effect of additive noise on speech recognition systems,<I> Speech    Communication</I>, 12(3): p. 247-251, 1993.    </font>      <!-- ref --><P><font size="2" face="Verdana">26. Ribas Gonz&aacute;lez, D. and J.R. Calvo    de Lara, Feature classification criterion for missing features mask estimation    in robust speaker recognition,<I> Signal, Image and Video Processing,</I> 8(2):    p. 365-375, 2014.     </font>      <!-- ref --><P><font size="2" face="Verdana">27. Ming, J., et al., Robust Speaker Recognition    in Noisy Conditions. <I>IEEE Transactions on Audio, Speech &amp; Language Processing</I>,    15(5): p. 1711-1723, 2007.     </font>     <!-- ref --><P><font size="2" face="Verdana">28. Bimbot, F., et al., A Tutorial on Text-Independent    Speaker Verification. EURASIP <I>Journal on Advances in Signa</I>l <I>Processing</I>,    2004(4): p. 101-962, 2004.     </font>      <P>&nbsp;     <P>&nbsp;     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Recibido:13 de enero de 2015    <br>   Aprobado: 5 de junio de 2015</font>      <P>&nbsp;     <P>&nbsp;     <P><font size="2" face="Verdana"><I>Claudia Bello Punto</I>,    Centro de Aplicaciones de Tecnolog&iacute;as de Avanzada (CENATAV), Habana,    Cuba. E-mails: <a href="mailto:cbello@cenatav.co.cu">cbello@cenatav.co.cu</a>,    <a href="mailto:dribas@cenatav.co.cu">dribas@cenatav.co.cu</a>, <a href="mailto:jcalvo@cenatav.co.cu">jcalvo@cenatav.co.cu</a>.</font>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<collab>IEEE</collab>
<article-title xml:lang="en"><![CDATA[Recommended Pratice for Speech Quality Measurements]]></article-title>
<source><![CDATA[IEEE Transactions on Audio and Electroacoustics]]></source>
<year>1969</year>
<volume>17</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>225-246</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="">
<collab>ITU-T</collab>
<article-title xml:lang="es"><![CDATA[P.830: Calidad de la Transmision telefonica. Prueba subjetiva de opinion]]></article-title>
<source><![CDATA[Sector de normalizacion de las telecomunicaciones]]></source>
<year>1998</year>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<collab>ITU-T</collab>
<article-title xml:lang="en"><![CDATA[P.800: Methods for subjectivs determination of transmission quality]]></article-title>
<source><![CDATA[Serie P: Calidad de transmision telefónica, instalaciones telefónicas y redes locales]]></source>
<year>1996</year>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Benesty]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Sondhi]]></surname>
<given-names><![CDATA[M.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Huang]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
</person-group>
<source><![CDATA[Springer Handbook of Speech Processing]]></source>
<year>2007</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Castro]]></surname>
<given-names><![CDATA[A.H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz]]></article-title>
<source><![CDATA[Dpto. de Ingeniería Informática]]></source>
<year>2010</year>
<publisher-name><![CDATA[Universidad Autónoma de Madrid]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Richiardi]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Drygajlo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Evaluation of speech quality measures for the purpose of speaker verification]]></article-title>
<source><![CDATA[Proc. Odyssey: The Speaker and Language Recognition Workshop]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Sekey]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Gersho]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An objective measure for predicting subjective quality of speech coders]]></article-title>
<source><![CDATA[IEEE Journal on Selected Areas in Communications]]></source>
<year>1992</year>
<volume>10</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>819-829</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<source><![CDATA[]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kondo]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<source><![CDATA[Subjective Quality Measurement of Speech: Its Evaluation, Estimation and Applications]]></source>
<year>2012</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Loizou]]></surname>
<given-names><![CDATA[P.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Speech Quality Asssessment]]></article-title>
<source><![CDATA[Multimedia Analysis, Processing and Communications]]></source>
<year>2011</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kitawaki]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[Nagabuchi]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Itoh]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Objective quality evaluation for low-bit-rate speech coding systems]]></article-title>
<source><![CDATA[IEEE Journal on Selected Areas in Communications]]></source>
<year>1988</year>
<volume>6</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>242-248</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Itakura]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Umezaki]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Distance measure for speech recognition based on the smoothed group delay spectrum]]></article-title>
<source><![CDATA[Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP]]></source>
<year>1987</year>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<collab>ITU-T</collab>
<article-title xml:lang="es"><![CDATA[P.563: Método basado en un solo extremo para la evaluación objetiva de la calidad vocal en aplicaciones de telefonía de banda estrecha]]></article-title>
<source><![CDATA[Serie P: Calidad de transmision telefónica, instalaciones telefónicas y redes locales]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vaseghi]]></surname>
<given-names><![CDATA[S.V.]]></given-names>
</name>
</person-group>
<source><![CDATA[Advanced Digital Signal Processing and Noise Reduction]]></source>
<year>2008</year>
<edition>4</edition>
<publisher-name><![CDATA[John Wiley & Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Britanak]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
<name>
<surname><![CDATA[Yip]]></surname>
<given-names><![CDATA[P.C.]]></given-names>
</name>
<name>
<surname><![CDATA[Rao]]></surname>
<given-names><![CDATA[K.R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Discrete cosine and sine transforms: general properties, fast algorithms and integer approximations]]></source>
<year>2010</year>
<publisher-name><![CDATA[Academic Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kelly]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Drygajlo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Harte]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Compensating for Ageing and Quality variation in Speaker Verification]]></article-title>
<source><![CDATA[Interspeech]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Garcia-Romero]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Using quality measures for multilevel speaker recognition]]></article-title>
<source><![CDATA[Computer Speech & Language]]></source>
<year></year>
<volume>20</volume>
<numero>23</numero>
<issue>23</issue>
<page-range>192-209</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mandasari]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Quality Measure Functions for Calibration of Speaker Recognition System in Various Duration Conditions]]></article-title>
<source><![CDATA[IEEE Transactions on Audio, Speech, and Language Processing]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Richiardi]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Prodanov]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Drygajlo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Speaker Verification with Confidence and Reliability Measures]]></article-title>
<source><![CDATA[Acoustics, Speech and Signal Processing, ICASSP]]></source>
<year>2006</year>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Richiardi]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Prodanov]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Drygajlo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A probabilistic measure of modality reliability in speaker verification]]></article-title>
<source><![CDATA[Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing]]></source>
<year>Marc</year>
<month>h </month>
<day>20</day>
<page-range>709 - 712</page-range><publisher-loc><![CDATA[Philadelphia ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Richiardi]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Drygajlo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Prodanov]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Confidence and reliability measures in speaker verification]]></article-title>
<source><![CDATA[Journal of the Franklin Institute]]></source>
<year>2006</year>
<volume>343</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>574-595</page-range></nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Villalba]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reliability Estimation of the Speaker Verification Decisions Using Bayesian Networks to Combine Information from Multiple Speech Quality Measures]]></article-title>
<source><![CDATA[Advances in Speech and Language Technologies for Iberian Languages]]></source>
<year>2012</year>
<page-range>1-10</page-range><publisher-loc><![CDATA[BerlinHeidelberg ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[López]]></surname>
<given-names><![CDATA[J.V.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A new Bayesian network to assess the reliability of speaker verification decisions]]></article-title>
<source><![CDATA[Interspeech]]></source>
<year>2013</year>
<page-range>3132-3136</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Campbell]]></surname>
<given-names><![CDATA[W.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Estimating and Evaluating Confidence for Forensic Speaker Recognition]]></article-title>
<source><![CDATA[Acoustics, Speech, and Signal Processing, ICASSP]]></source>
<year>2005</year>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Varga]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Steeneken]]></surname>
<given-names><![CDATA[H.J.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems]]></article-title>
<source><![CDATA[Speech Communication]]></source>
<year>1993</year>
<volume>12</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>247-251</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ribas González]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Calvo de Lara]]></surname>
<given-names><![CDATA[J.R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Feature classification criterion for missing features mask estimation in robust speaker recognition]]></article-title>
<source><![CDATA[Signal, Image and Video Processing]]></source>
<year>2014</year>
<volume>8</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>365-375</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ming]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust Speaker Recognition in Noisy Conditions]]></article-title>
<source><![CDATA[IEEE Transactions on Audio, Speech & Language Processing]]></source>
<year>2007</year>
<volume>15</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>1711-1723</page-range></nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bimbot]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Tutorial on Text-Independent Speaker Verification]]></article-title>
<source><![CDATA[Journal on Advances in Signal Processing]]></source>
<year>2004</year>
<numero>4</numero>
<issue>4</issue>
<page-range>101-962</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
