<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992018000300011</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Filtrado wiener para la reducción de ruido en la verificación de locutores.]]></article-title>
<article-title xml:lang="en"><![CDATA[Wiener filtering to noise reduction for speaker verification.]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Reyes Díaz]]></surname>
<given-names><![CDATA[Flavio J.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Roble Gutiérrez]]></surname>
<given-names><![CDATA[Alejandro]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández Sierra]]></surname>
<given-names><![CDATA[Gabriel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Calvo de Lara]]></surname>
<given-names><![CDATA[José Ramón]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Aplicaciones de Tecnologías de Avanzada(CENATAV)  ]]></institution>
<addr-line><![CDATA[ La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2018</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2018</year>
</pub-date>
<volume>12</volume>
<numero>3</numero>
<fpage>152</fpage>
<lpage>162</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992018000300011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992018000300011&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992018000300011&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Las señales de audio, incluida la voz, de alguna forma están expuestas al deterioro de su calidad debido a la incorporación de ruidos ambientales. Estos ruidos existentes en las señales de audio, provocan una degradación de la calidad en la información acústica del locutor, trayendo consigo una disminución de la eficacia en el reconocimiento de locutores. En este trabajo se realiza un análisis del comportamiento de algunos de los principales métodos de reducción de ruido: Filtro de Wiener y Sustracción Espectral, ante señales de voces ruidosas. Finalmente, se propone aplicar el filtrado de Wiener a la etapa de pre-procesamiento de las señales de un sistema de reconocimiento de locutores. La evaluación de nuestra propuesta se realizó sobre muestras telefónicas de la base de voces NIST SRE-08, con diferentes tipos de ruidos ambientales, obteniendo una mejora relativa del EER de un 4,94% y 12,5% para ambas condiciones de evaluación.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Audio signals, including voice, are in some way exposed to quality deterioration due to the environmental noise incorporation. These noises existing in the signals, provoke a quality degradation in the speaker acoustic information, bringing with it a decrease of the speaker recognition performance. In this work an analysis of the behavior of some of the main noise reduction methods is performed such as: Wiener Filter and Spectral Subtraction, to pre-procesing the noisy signals. Finally, it is proposed to apply the Wiener filtering to the stage of pre-processing the signals of a speaker recognition system. Then, our proposal are evaluated on telephone session from NIST SRE-08 for different environmental noises types, obtaining an EER improvement of 4,94% and 12,5% for both evaluation conditions.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[filtro de Wiener]]></kwd>
<kwd lng="es"><![CDATA[ruido]]></kwd>
<kwd lng="es"><![CDATA[verificación de locutores]]></kwd>
<kwd lng="en"><![CDATA[noise]]></kwd>
<kwd lng="en"><![CDATA[speaker verification]]></kwd>
<kwd lng="en"><![CDATA[Wiener filter]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Filtrado wiener para la reducci&oacute;n de ruido en la  verificaci&oacute;n de locutores.</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Wiener filtering to noise reduction for speaker verification.</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Flavio  J. Reyes D&iacute;az<strong><sup>1*</sup></strong>, Alejandro  Roble Guti&eacute;rrez<strong><sup>1</sup></strong>, Gabriel  Hern&aacute;ndez Sierra</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup>, Jos&eacute;  Ram&oacute;n Calvo de Lara<sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup>Centro de Aplicaciones de Tecnolog&iacute;as de  Avanzada(CENATAV). 7a.A # 21406 e/ 214 y 216, Playa, La Habana,  C.P. 12200, Cuba. Email: freyes,arobles,gsierra,jcalvo@cenatav.co.cu</font>    <br> </p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:jmperea@unex.es">freyes@cenatav.co.cu</a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las se&ntilde;ales de audio, incluida la voz, de  alguna forma est&aacute;n expuestas al deterioro de su calidad debido a la incorporaci&oacute;n  de ruidos ambientales. Estos ruidos existentes en las se&ntilde;ales de audio,  provocan una degradaci&oacute;n de la calidad en la informaci&oacute;n ac&uacute;stica del locutor,  trayendo consigo una disminuci&oacute;n de la eficacia en el reconocimiento de  locutores. En este trabajo se realiza un an&aacute;lisis del comportamiento de algunos  de los principales m&eacute;todos de reducci&oacute;n de ruido: Filtro de Wiener y Sustracci&oacute;n  Espectral, ante se&ntilde;ales de voces ruidosas. Finalmente, se propone aplicar el  filtrado de Wiener a la etapa de pre-procesamiento de las se&ntilde;ales de un sistema  de reconocimiento de locutores. La evaluaci&oacute;n de nuestra propuesta se realiz&oacute;  sobre muestras telef&oacute;nicas de la base de voces NIST SRE-08, con diferentes  tipos de ruidos ambientales, obteniendo una mejora relativa del EER de un 4,94%  y 12,5% para ambas condiciones de evaluaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">filtro de Wiener, ruido, verificaci&oacute;n de locutores</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Audio signals, including  voice, are in some way exposed to quality deterioration due to the  environmental noise incorporation. These noises existing in the signals,  provoke a quality degradation in the speaker acoustic information, bringing with  it a decrease of the speaker recognition performance. In this work an analysis  of the behavior of some of the main noise reduction methods is performed such  as: Wiener Filter and Spectral Subtraction, to pre-procesing the noisy signals.  Finally, it is proposed to apply the Wiener filtering to the stage of  pre-processing the signals of a speaker recognition system. Then, our proposal  are evaluated on telephone session from NIST SRE-08 for different environmental  noises types, obtaining an EER improvement of 4,94% and 12,5% for both  evaluation conditions.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>noise, speaker verification, Wiener filter.</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Todas las se&ntilde;ales de audio, incluida la voz, de alguna forma est&aacute;n  expuestas al deterioro de su calidad, dado que en cualquiera de las etapas por  las que puede pasar, emisi&oacute;n, propagaci&oacute;n, captura, transmisi&oacute;n, almacenamiento  y reproducci&oacute;n se puede introducir ruido. Se denomina ruido a toda se&ntilde;al no  deseada que se mezcla con la se&ntilde;al deseada, en este caso, la voz. Las se&ntilde;ales de  voz son afectadas por diferentes tipos de ruido, como se describen en (Scheffer et al., 2013): el ruido ambiental, la distorsi&oacute;n propia del  tel&eacute;fono, los ruidos propios del canal por donde se transmite la voz, los  ruidos de cuantificaci&oacute;n y codificaci&oacute;n, entre otros.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El reconocimiento autom&aacute;tico de locutores (RAL) no se encuentra ajeno a  esta problem&aacute;tica, debido a que el ruido aditivo provoca una degradaci&oacute;n de la  calidad de la informaci&oacute;n ac&uacute;stica del locutores existente en la se&ntilde;al de  audio, provocando una disminuci&oacute;n de la eficacia del RAL (Ming et al., 2007; Mandasari et al., 2012; Rajan  et al., 2013). Hasta la actualidad se han  propuesto dis&iacute;miles m&eacute;todos para reducir el efecto del ruido aditivo en el RAL,  principalmente en las etapas de: procesamiento de las se&ntilde;ales de audio y  extracci&oacute;n de rasgos ac&uacute;sticos robustos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para  enfrentar la degradaci&oacute;n del audio, en la etapa de procesamiento de las se&ntilde;ales  se han aplicado 3 m&eacute;todos de filtrado principalmente para reducir el efecto del  ruido aditivo:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la Sustracci&oacute;n Espectral (Davis, 2002): es uno de los primeros algoritmos de  filtrados propuestos para cancelar el ruido aditivo de la se&ntilde;al ruidosa.  Asumiendo que el ruido de una se&ntilde;al de voz es aditivo, este algoritmo sustrae  el espectro de ruido del espectro de la voz y solo debe quedar el espectro de  voz limpio. Para esto realiza una estimaci&oacute;n del espectro de ruido en una regi&oacute;n  de la se&ntilde;al en que no haya voz y considerar que ese espectro no cambia a lo  largo de la se&ntilde;al. Es muy efectivo para reducir la relaci&oacute;n se&ntilde;al-ruido (SNR),  si se logra estimar adecuadamente el espectro de ruido, pero introduce en la se&ntilde;al  un nuevo ruido, conocido como ruido musical; el cual afecta la inteligibilidad  en la se&ntilde;al de audio.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">el m&eacute;todo <em>RASTALP </em>(Boril  et al., 2011): es un filtro paso bajo que se  aplica a la se&ntilde;al ruidosa para reducir el efecto del ruido aditivo y la  reverberaci&oacute;n.</font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">el Filtro de Wiener (Agarwal and Cheng, 1999): presenta como principal objetivo minimizar  el error medio cuadr&aacute;tico entre la se&ntilde;al de voz limpia y la ruidosa. Para  alcanzar su objetivo se apoya en m&eacute;todos estad&iacute;sticos y reduce el ruido  presente en la se&ntilde;al de audio corrupta de tal modo que la se&ntilde;al de salida del  filtro se aproxime lo m&aacute;s posible a la se&ntilde;al deseada.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para  enfrentar la distorsi&oacute;n de la informaci&oacute;n ac&uacute;stica del locutor debido al ruido  aditivo se han dise&ntilde;ado diferentes rasgos ac&uacute;sticos, espec&iacute;ficamente para  robustecer el RAL ante la variabilidad debido al ruido (Scheffer et al., 2013): el cepstrum de la Modulaci&oacute;n de  la duraci&oacute;n media (MDMC) (Mitra et al., 2012), los Coeficientes Cepstrales con  Normalizaci&oacute;n de la Potencia (PNCC) (Kim and Stern, 2016) y los Coeficientes de la  Envolvente de Hilbert (MHEC) (Sadjadi and Hansen, 2011).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Partiendo de los resultados prometedores alcanzados por las Redes  Neuronales profundas (DNN) en la rama del reconocimiento autom&aacute;tica del habla,  se han realizado estudios para aplicar las DNN al RAL. En (McLaren et al., 2014; Richardson et al., 2016) se han propuesto m&eacute;todos donde se aplica esta t&eacute;cnica para reducir el  efecto del ruido sobre la se&ntilde;al de voz, aplicado pricipalmente sobre el espacio  de los rasgos ac&uacute;sticos. Otros trabajos como (Pekhovsky et al., 2016; Plchot et al., 2016) proponen aplicar los autoencoders  apilados formando DNN para mejorar la calidad de la se&ntilde;al de voz. Estos m&eacute;todos  reciben una se&ntilde;al corrupta por ruido y como resultado obtiene una se&ntilde;al limpia,  por lo que los denominan Denoising DNN (por su definici&oacute;n en el Ingles).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir del estudio realizado en esta &aacute;rea de investigaci&oacute;n, se  detectaron diferentes problemas e inconvenientes para aplicar varios de los m&eacute;todos  antes mencionados. En el caso de los rasgos robustos, su principal problema es  que fueron dise&ntilde;ados principalmente para enfrentar el ruido, por tanto, cuando  son aplicados sobre escenarios donde las se&ntilde;ales de voz no est&aacute;n corruptas, el  RAL disminuye su eficacia. Por otra parte, las DNN requieren de grandes bases  de voces para su correcto entrenamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por  otra parte, el Filtro de Wiener fue uno de los m&eacute;todos m&aacute;s utilizados para  reducir el efecto del ruido y obtuvo los mejores resultados (Saedi  et al., 2013; Ferrer  et al., 2013) en la evaluaci&oacute;n bianual  NIST SRE-2012 (Greenberg et al.,  2013), donde por primera vez utilizan se&ntilde;ales  de evaluaci&oacute;n afectadas por diferentes tipos de ruidos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo  en cuenta las inconvenientes antes mencionadas que presentan las DNN y los  rasgos robustos, y bas&aacute;ndonos en los resultados alcanzados por el Filtro de  Wiener en la evaluaci&oacute;n NIST SRE-2012, se propone aplicar el Filtro de Wiener  para reducir el ruido en las se&ntilde;ales de voz y con esto aumentar la eficacia del  RAL sobre escenarios donde el ruido es muy variable. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los sistemas de reconocimiento de locutores que  representan el estado del presentan diferentes etapas: el preprocesamiento de  las se&ntilde;ales de audio, la extracci&oacute;n de rasgos ac&uacute;sticos, el c&aacute;lculo de i-vector,  la compensaci&oacute;n de la variabilidad de sesi&oacute;n y el c&aacute;lculo de la puntuaci&oacute;n  de la similitud. A continuaci&oacute;n se describen los principales m&eacute;todos utilizados  en el trabajo.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Pre-procesamiento  de la se&ntilde;al de audio: Filtro de Wiener</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Filtro de  Wiener es un filtro propuesto por Norbert Wiener en la d&eacute;cada de 1940 y  publicado en 1949. Su prop&oacute;sito es reducir el ruido aditivo presente en la se&ntilde;al  observada utilizando m&eacute;todos estad&iacute;sticos, de tal modo que la se&ntilde;al estimada a  la salida del filtro se aproxime lo m&aacute;s posible a una se&ntilde;al deseada sin ruido.  El filtro produce un estimado de la se&ntilde;al deseada aplicando un filtro lineal e  invariante en el tiempo de la se&ntilde;al ruidosa observada, asumiendo conocidos el  espectro de la se&ntilde;al y del ruido aditivo, minimizando el error medio cuadr&aacute;tico  entre la se&ntilde;al estimada y la se&ntilde;al deseada. El filtro de Wiener se caracteriza  por:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se asume que la se&ntilde;al observada contiene ruido  aditivo, que la se&ntilde;al y el ruido son procesos estoc&aacute;sticos lineales y  estacionarios, que se conocen sus caracter&iacute;sticas espectrales, su  auto-correlaci&oacute;n y su croscorrelaci&oacute;n.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El filtro debe ser f&iacute;sicamente  realizable y causal.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  criterio de comportamiento es el MMSE: error medio-cuadr&aacute;tico m&iacute;nimo.</font></p>   </li>     </ul>     <p><strong><font size="2" face="Verdana, Arial, Helvetica, sans-serif">An&aacute;lisis del  comportamiento del Filtro de Wiener</font></strong></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  an&aacute;lisis del comportamiento del Filtro de Wiener aplicado sobre diversos tipos  de se&ntilde;ales, se realiz&oacute; bas&aacute;ndonos en la SNR de las se&ntilde;ales filtradas y sin filtrar, y se compar&oacute;  con un filtro de Sustracci&oacute;n Espectral.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El Filtro de Wiener se implement&oacute; apoy&aacute;ndonos en la propuesta hecha en  los est&aacute;ndar ETSI (&ldquo;European Telecommunications Standards Institute&rdquo;) 202-212  v1.1.2 del 2005 y 202-050 v1.1.5 del 2007, donde especifican los algoritmos  para la extracci&oacute;n de caracter&iacute;sticas de la voz &ldquo;ETSI advanced front-end su transmisi&oacute;n, como parte de un sistema  distribuido de reconocimiento de voz.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  <a href="/img/revistas/rcci/v11n3/t0111318.jpg" target="_blank">tabla 1</a> muestra los par&aacute;metros caracter&iacute;sticos de las se&ntilde;ales analizadas, las  SNR de la se&ntilde;al original y las SNR posterior al filtrado: </font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se&ntilde;al: nombre de la se&ntilde;al utilizada, las  cuales presentan diferentes tipos de ruido ambiental, tomadas de bases  internacionales.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Duraci&oacute;n: duraci&oacute;n aproximada de las  se&ntilde;ales, en segundos.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Fm: frecuencia de muestreo de las se  &ntilde;ales,  en Hz.</font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"># bits: n&uacute;mero de bits por muestra</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SNR: relaci&oacute;n se&ntilde;al-ruido de la se&ntilde;al  original.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SNR-SE: SNR de la se&ntilde;al filtrada con  el filtro de Sustracci&oacute;n Espectral.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SNR-STD: SNR de la se&ntilde;al  estandarizada a 8000 Hz,16 bits.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SNR-SRD+Wiener:  SNR de la se&ntilde;al estandarizada a 8000 Hz,16 bits y posteriormente filtrada con  el filtro de Wiener.</font></p>   </li>     </ul>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir del an&aacute;lisis de la <a href="/img/revistas/rcci/v11n3/t0111318.jpg" target="_blank">tabla 1</a> podemos  decir que en casi todas las se&ntilde;ales, el filtro de sustracci&oacute;n espectral obtiene  una SNR m&aacute;s elevada que el filtro Wiener, pero incorporando el ruido musical,  el cual aporta ininteligibilidad al segmento de voz. El filtro Wiener no logra  alcanzar las mismas SNR pero las se&ntilde;ales quedan m&aacute;s inteligibles. Incluso en el  caso de las se&ntilde;ales con diferentes tipos de ruido ambiental, que son muy ruidosas, el  filtro de Wiener logra elevar la SNR entre 10 y 20 dB. Por otra parte se puede  observar que la estandarizaci&oacute;n a 8000 Hz y 16 bits de todas las se&ntilde;ales, no  aporta al mejoramiento de la SNR.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Todo lo anterior, unido a su utilizaci&oacute;n en las competencias NIST-SRE  2012, nos hace pensar que el filtro de Wiener es m&aacute;s adecuado que el filtro de  sustracci&oacute;n espectral, para el pre-procesamiento de las muestras celulares y  telef&oacute;nicas en el RAL.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Representaci&oacute;n  del locutor y compensaci&oacute;n de variabilidad de sesi&oacute;n</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  sistemas de RAL actuales se basan en la representaci&oacute;n i-vector para  representar la informaci&oacute;n discriminatoria del locutor. La representaci&oacute;n  i-vector puede definirse mediante una distribuci&oacute;n a posteriori de las  variables ocultas, condicionadas a las estad&iacute;sticas de 0 y 1 orden de  Baum-Welch extra&iacute;das del segmento de voz. El i-vector se obtiene a partir de un  &uacute;nico espacio de variabilidad denominado Espacio de Variabilidad Total (T) (Dehak  et al., 2011), que contiene simult&aacute;neamente  las variabilidades del locutor y de la sesi&oacute;n. Esta representaci&oacute;n del locutor  se formula por </font></p>     <p align="left"><em>M </em>= <em>m </em>+ <em>Tw,&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </em>(1)</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>m </em>es un supervector obtenido mediante la  concatenaci&oacute;n de los vectores de media del Modelo Universal de Fondo (UBM), que  contiene la informaci&oacute;n independiente del locutor y de la sesi&oacute;n, <em>T </em>es una matriz rectangular de bajo  rango y <em>w </em>es un vector intermedio que  sigue una distribuci&oacute;n normal N(0<em>,I</em>)  y representa la informaci&oacute;n discriminatoria del locutor, denominado i-vector.  En la ecuaci&oacute;n 1, se asume que el vector <em>M </em>mantiene una distribuci&oacute;n normal con <em>m </em>and <em>TT</em>0 como media y covarianza respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  variabilidad de sesi&oacute;n es conocida por ser un factor importante en la degradaci&oacute;n  de la eficacia del RAL. La reducci&oacute;n de esta variabilidad representa una parte  obligatoria de los sistemas actuales de RAL. Algunos m&eacute;todos de compensaci&oacute;n o  reducci&oacute;n de variabilidad se han venido aplicando con el objtivo de aumentar la  eficacia del reconocimiento, dentro de este grupo el m&aacute;s utilizado es el An&aacute;lisis  Discriminante Linear (LDA) (Rao, 1948).  El m&eacute;todo LDA es una t&eacute;cnica de reducci&oacute;n de dimensionalidad que actualmente es  aplicada en la rama del reconocimiento de locutores sobre el espacio de los  i-vectores, con el proposito de compensar la variabilidad de sesi&oacute;n (Dehak  et al., 2011). El objetivo principal de  aplicar el LDA, es poder maximizar la dispersi&oacute;n entre las clases (<em>Sb</em>) y simultaneamente  minimizar la dispersi&oacute;n dentro de la clase (<em>Sw</em>),  partiendo de una poblaci&oacute;n de locutores. </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0111318.jpg" alt="fo01" width="302" height="74"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>L </em>es  la cantidad de locutores de la poblaci&oacute;n, <em>xl </em>es la media de los i-vectores por cada locutor y <img src="/img/revistas/rcci/v11n3/fo0211318.jpg" alt="fo02" width="12" height="17"> es el vector de media global dado una poblaci&oacute;n de  locutores, y</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0311318.jpg" alt="fo03" width="362" height="77"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>nl </em>es la cantidad de i-vectores del locutor <em>l </em>y <em><img src="/img/revistas/rcci/v11n3/fo0411318.jpg" alt="fo04" width="20" height="27"> </em>es  el i-th i-vector del locutor <em>l</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La matriz de  proyecci&oacute;n <em>A</em>, es un subconjunto de  vectores propios <em>J </em>asociados a los  mayores valores propios, los cuales son obtenidos mediante la optimizaci&oacute;n del  criterio de Fisher:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0511318.jpg" alt="fo05" width="234" height="77"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>v </em>es la direcci&oacute;n del  espacio dado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  medida de similitud del coseno entre dos i-vectores <em>w</em>1 y <em>w</em>2,  cuando se compensa la variabilidad de sesi&oacute;n con el m&eacute;todo LDA, se define  mediate: </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0611318.jpg" alt="fo06" width="350" height="64"></p> <h2>Dise&ntilde;o  de los experimentos</h2>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para evaluar  el comportamiento del Filtro de Wiener aplicado al RAL nos apoyamos en la  representaci&oacute;n ivector usando como medida de similitud la distancia del coseno.  Y se propuso dos configuraciones de evaluaci&oacute;n apoyados en las sesiones telef&oacute;nicas  masculinas de la base de voces NIST SRE-08 (Gonzalez-Rodriguez, 2014):</font></p> <ol>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ruido-ruido: se realiza una evaluaci&oacute;n  de RAL sobre condiciones ruidosas en los segmentos de voz del cliente y los  segmentos de voz de identidad desconocida.</font></p>   </li>       <li>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">limpio-ruido: se realiza una  evaluaci&oacute;n utilizando solamente muestras de voces ruidosas en los segmentosde  voz de identidad desconocida.</font></p>   </li>     </ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los  detalles en las configuraciones de los experimentos de reconocimiento de  locutores se describen a continuaci&oacute;n en las siguientes secciones. </font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Bases de Voces y  extracci&oacute;n de rasgos ac&uacute;sticos</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El entrenamiento del modelo UBM, matriz T y matriz de compensaci&oacute;n LDA  se realiz&oacute; utilizando un conjunto de segmentos de voces masculinas telef&oacute;nicas,  extraidas de las bases de voces NIST SRE-04 y SRE-05 (Gonzalez-Rodriguez, 2014). La evaluaciones de verificaci&oacute;n de locutores  se realizaron sobre un conjunto de segmentos de voces extraidos de las sesiones  telef&oacute;nicas masculinas, short2 y short3; de la base NIST SRE08. Para un total de 470 clientes y 670 segmentos  de voces a verificar, lo que representa un total de 6615 verificaciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las se&ntilde;ales corruptas por ruido se obtuvieron  simulando el conjunto de evaluaci&oacute;n a partir de diferentes ruidos como: ruidos  propios de restaurantes, de calles, ruidos en aereopuertos, autom&oacute;viles,  cafeterias y ruido comunes en una exhibici&oacute;n. Estas muestras se simularon  utilizando la herramienta p&uacute;blica FaNT y con diferentes relaciones se&ntilde;al a ruido (SNR) entre 2 y 20 db.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para  representar el espectro del habla a corto t&eacute;rmino se utilizaron los  Coeficientes Cepstrales en Frecuencia Lineal (LFCC) (Scheffer et al., 2013), con una dimensi&oacute;n de 50 coeficientes por  cada 10 mseg de voz.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para eliminar el silencio existente en la se&ntilde;ales de voz  se aplic&oacute; un algoritmo de detecci&oacute;n de la actividad de voz (VAD) (Sohn et al., 1999). Finalmente los rasgos ac&uacute;sticos LFCC se  normalizan en funci&oacute;n de su media y varianza (CMVN).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Configuraci&oacute;n del UBM,  T y LDA</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se entren&oacute;  un modelo UBM de 512 componentes gaussianas basado en la covarianza diagonal y  una matriz T de rango 400, utilizando 3911 segmentos de voz de 262 locutores  masculinos. Por cada segmento de voz se extrae un i-vector de 400 dimensiones a  partir de las estad&iacute;sticas de 0 y 1<em>er </em>orden de Baum-Welch. La matriz de compensaci&oacute;n de la variabilidad de  sesi&oacute;n se entreno utilizando el algoritmo LDA con una reducci&oacute;n de dimensi&oacute;n  hasta 250.</font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><strong>RESULTADOS Y DISCUSI&Oacute;N </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v11n3/t0211318.jpg" target="_blank">tabla 2</a> se muestran los resultados de las evaluaciones  realizadas para analizar el comportamiento del RAL sobre escenarios ruidosos  cuando se le aplica o no el Filtro de Wiener. Nos apoyamos para medir la  eficacia del reconocimiento de locutores en el error equiprovable (% EER) y el  m&iacute;nimo de la funci&oacute;n de costo (minDCF) (Gonzalez-Rodriguez, 2014).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se observa en la <a href="/img/revistas/rcci/v11n3/t0211318.jpg" target="_blank">tabla 2</a>, los m&eacute;todos de reconocimiento de locutores sufren un dr&aacute;stico aumento  del error cuando es aplicado sobre escenarios ruidosos, decreciendo su eficacia  en un 68,8% y 50,0% respectivamente para ambas condiciones de evaluaci&oacute;n. Por  otra parte, podemos observar que el sistema RAL obtiene resultados superiores  en la condici&oacute;n de evaluaci&oacute;n limpio-ruido respecto a la ruido-ruido. Estos resultados esta dado a que la muestra  de voz limpia presenta mayor contenido de informaci&oacute;n discriminatoria al  locutor que la muestra de voz ruidosa.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otra  parte la aplicaci&oacute;n del Filtro de Wiener para mejorar la calidad de los  segmentos de voz en los sistemas de RAL, robustece los m&eacute;todos de  reconocimiento alcanzando una mejora relativa del EER de un 4,94% y 12,5%  respectivamente.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font> <strong><font size="3" face="Verdana, Arial, Helvetica, sans-serif">Y TRABAJO FUTURO </font></strong></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este trabajo realiza un an&aacute;lisis del comportamiento del filtro de  Sustracci&oacute;n Espectral y el Filtro de Wiener en la reducci&oacute;n de ruido sobre se&ntilde;ales  de voz, con el objetivo de aplicar el m&aacute;s robusto entre ellos en la fase de  pre-procesamiento de las se&ntilde;ales de audio del sistema de RAL, en aras de  aumentar la eficacia en escenarios ruidosos. Este an&aacute;lisis obtuvo como  resultado que el Filtro de Wiener presenta un grupo de ventajas en relaci&oacute;n a  la Sustracci&oacute;n Espectral, principalmente, el filtrado de Wiener no incorpora  ruido musical a las muestras ruidosas que procesan.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por otra parte, la aplicaci&oacute;n del Filtro de Wiener en la fase de  pre-procesamiento de las se&ntilde;ales del sistemas de RAL, aumenta la eficacia de  los m&eacute;todos de reconocimiento bajo condiciones adversas de ruido en un 4,94% y  12,5% de mejora relativa.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">No  obstante, si se tiene en cuenta que, los rasgos robustos para enfrentar el  ruido reducen la eficacia de los m&eacute;todos de reconocimiento de locutores en  presencia de se&ntilde;ales limpias, nos proponemos como trabajo futuro realizar un an&aacute;lisis  del comportamiento del Filtro de Wiener ante segmentos de voz que no est&aacute;n  afectados por ruido. </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <p name="_ENREF_1"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Anshu Agarwal and Yan Ming Cheng. Two-stage mel-warped  wiener filter for robust speech recognition. In <em>Proc. ASRU</em>, volume 99, pages 67&ndash;70, 1999.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hynek Boril,  Frantisek Gr&eacute;zl, and John HL Hansen. Front-end compensation methods for lvcsr  under lombard effect. In <em>INTERSPEECH</em>,  pages 1257&ndash;1260, 2011.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Gillian M Davis. <em>Noise reduction in speech applications</em>,  volume 7. CRC Press, 2002.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">N. Dehak, P. Kenny, R. Dehak, Dumouchel  P., and Ouellet P. Front-end factor analysis for speaker verification. volume  19, pages 788&ndash;798, 2011.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Luciana Ferrer,  Mitchell McLaren, Nicolas Scheffer, Yun Lei, Martin Graciarena, and Vikramjit  Mitra. A noise-robust system for nist 2012 speaker recognition evaluation.  Technical report, SRI INTERNATIONAL    <br>   MENLO PARK CA  SPEECH TECHNOLOGY AND RESEARCH LAB, 2013.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Joaquin Gonzalez-Rodriguez. Evaluating  automatic speaker recognition systems: An overview of the nist speaker recognition  evaluations (1996-2014). <em>Loquens</em>,  1(1), 2014.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Craig S Greenberg, Vincent M Stanford,  Alvin F Martin, Meghana Yadagiri, George R Doddington, John J Godfrey, and  Jaime Hernandez-Cordero. The 2012 nist speaker recognition evaluation. In <em>INTERSPEECH</em>, pages 1971&ndash;1975, 2013.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Chanwoo Kim and Richard M Stern.  Power-normalized cepstral coefficients (pncc) for robust speech recognition. <em>IEEE/ACM Transactions on Audio, Speech and  Language Processing (TASLP)</em>, 24(7):1315&ndash;1329, 2016.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Miranti Indar Mandasari, Mitchell  McLaren, and David A van Leeuwen. The effect of noise on modern automatic  speaker recognition systems. In <em>Acoustics,  Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on</em>,  pages 4249&ndash;4252. IEEE, 2012.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mitchell McLaren, Yun Lei, Nicolas  Scheffer, and Luciana Ferrer. Application of convolutional neural networks to  speaker recognition in noisy conditions. In <em>Fifteenth  Annual Conference of the International Speech Communication Association</em>,  2014.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ji Ming, Timothy J Hazen, James R  Glass, and Douglas A Reynolds. Robust speaker recognition in noisy conditions. <em>IEEE Transactions on Audio, Speech, and  Language Processing</em>, 15(5):1711&ndash;1723, 2007.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Vikramjit Mitra, Horacio Franco, Martin Graciarena, and Arindam Mandal. Normalized  amplitude modulation features for large vocabulary noise-robust speech  recognition. In <em>Acoustics, Speech and  Signal Processing (ICASSP), 2012 IEEE International Conference on</em>, pages  4117&ndash;4120. IEEE, 2012.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Timur Pekhovsky, Sergey Novoselov,  Aleksei Sholohov, and Oleg Kudashev. On autoencoders in the i-vector space for  speaker recognition. In <em>Proc. Odyssey</em>,  2016.    </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Oldrich Plchot, Lukas Burget, Hagai  Aronowitz, and Pavel Mat&uml;ejka. Audio enhancing with dnn autoencoder for speaker  recognition. In <em>Acoustics, Speech and  Signal Processing (ICASSP), 2016 IEEE International Conference on</em>, pages  5090&ndash;5094, 2016. 161</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Padmanabhan Rajan, Tomi Kinnunen, and  Ville Hautam&uml;aki. Effect of multicondition training on i-vector plda  configurations for speaker recognition. In <em>Interspeech</em>,  pages 3694&ndash;3697, 2013.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">C. R. Rao. The utilization of multiple  measurements in problems of biological classification. <em>Journal of the Royal Statistical Society. Series B (Methodological)</em>,  10(2):159&ndash;203, 1948.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Fred Richardson, Brian Nemsick, and Douglas Reynolds. Channel  compensation for speaker recognition using map adapted plda and denoising dnns.  In <em>Proc. Speaker Lang. Recognit. Workshop</em>,  pages 225&ndash;230, 2016.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Seyed Omid Sadjadi and John HL Hansen.  Hilbert envelope based features for robust speaker identification under  reverberant mismatched conditions. In <em>Acoustics,  Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on</em>,  pages 5448&ndash;5451. IEEE, 2011.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Rahim Saedi, Kong Aik Lee, Tomi  Kinnunen, Tawfik Hasan, Benoit Fauve, Pierre-Michel Bousquet, Elie Khoury,  Pablo Luis Sordo Martinez, Jia Min Karen Kua, Changhuai You, et al. I4u  submission to nist sre 2012: A large-scale collaborative effort for  noise-robust speaker verification. In <em>Interspeech</em>,  number EPFL-CONF-192763, 2013.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Nicolas Scheffer, Luciana  Ferrer, Aaron Lawson, Yun Lei, and Mitchell McLaren. Recent developments in  voice biometrics: Robustness and high accuracy. In <em>Technologies for Homeland Security (HST), 2013 IEEE International  Conference on</em>, pages 447&ndash;452. IEEE, 2013.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Jongseo  Sohn, Nam Soo Kim, and Wonyong Sung. A statistical model-based voice activity  detection. <em>IEEE signal processing letters</em>,  6(1):1&ndash;3, 1999. </font></p>     <p name="_ENREF_1">&nbsp;</p>     ]]></body>
<body><![CDATA[<p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 30/10/2017    <br> Aceptado: 06/06/2018</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Agarwal]]></surname>
<given-names><![CDATA[Anshu]]></given-names>
</name>
<name>
<surname><![CDATA[Ming Cheng]]></surname>
<given-names><![CDATA[Yan]]></given-names>
</name>
</person-group>
<source><![CDATA[Two-stage mel-warped wiener filter for robust speech recognition]]></source>
<year>1999</year>
<volume>99</volume>
<page-range>67-70</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hynek]]></surname>
<given-names><![CDATA[Boril]]></given-names>
</name>
<name>
<surname><![CDATA[Frantisek]]></surname>
<given-names><![CDATA[Grézl]]></given-names>
</name>
<name>
<surname><![CDATA[HL Hansen]]></surname>
<given-names><![CDATA[John]]></given-names>
</name>
</person-group>
<source><![CDATA[Front-end compensation methods for lvcsr under lombard effect.]]></source>
<year>2011</year>
<page-range>1257-1260</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Davis]]></surname>
<given-names><![CDATA[Gillian]]></given-names>
</name>
</person-group>
<source><![CDATA[Noise reduction in speech applications]]></source>
<year>2002</year>
<volume>7</volume>
<publisher-name><![CDATA[CRC Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dehak]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Kenny]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Dehak]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Dumouchel]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Ouellet]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Front-end factor analysis for speaker verification.]]></source>
<year>2011</year>
<volume>19</volume>
<page-range>788-798</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ferrer]]></surname>
<given-names><![CDATA[Luciana]]></given-names>
</name>
<name>
<surname><![CDATA[McLaren]]></surname>
<given-names><![CDATA[Mitchell]]></given-names>
</name>
<name>
<surname><![CDATA[Scheffer]]></surname>
<given-names><![CDATA[Nicolas]]></given-names>
</name>
<name>
<surname><![CDATA[Martin Graciarena]]></surname>
<given-names><![CDATA[Yun Lei]]></given-names>
</name>
<name>
<surname><![CDATA[Vikramjit]]></surname>
<given-names><![CDATA[Mitra]]></given-names>
</name>
</person-group>
<source><![CDATA[A noise-robust system for nist 2012 speaker recognition evaluation.]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gonzalez-Rodriguez.]]></surname>
<given-names><![CDATA[Joaquin]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Evaluating automatic speaker recognition systems: An overview of the nist speaker recognition evaluations (1996-2014).]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>1</volume>
<numero>1</numero>
<issue>1</issue>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Greenberg]]></surname>
<given-names><![CDATA[Craig]]></given-names>
</name>
<name>
<surname><![CDATA[Stanford]]></surname>
<given-names><![CDATA[Vincent]]></given-names>
</name>
<name>
<surname><![CDATA[Martin]]></surname>
<given-names><![CDATA[Alvin]]></given-names>
</name>
<name>
<surname><![CDATA[Yadagiri]]></surname>
<given-names><![CDATA[Meghana]]></given-names>
</name>
<name>
<surname><![CDATA[Doddington]]></surname>
<given-names><![CDATA[George]]></given-names>
</name>
<name>
<surname><![CDATA[Godfrey]]></surname>
<given-names><![CDATA[John]]></given-names>
</name>
<name>
<surname><![CDATA[Hernandez-Cordero]]></surname>
<given-names><![CDATA[Jaime]]></given-names>
</name>
</person-group>
<source><![CDATA[The 2012 nist speaker recognition evaluation.]]></source>
<year>2013</year>
<page-range>1971-1975</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chanwoo]]></surname>
<given-names><![CDATA[Kim]]></given-names>
</name>
<name>
<surname><![CDATA[Stern]]></surname>
<given-names><![CDATA[Richard]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Power-normalized cepstral coefficients (pncc) for robust speech recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2016</year>
<volume>24</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>1315-1329</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Indar Mandasari]]></surname>
<given-names><![CDATA[Miranti]]></given-names>
</name>
<name>
<surname><![CDATA[McLaren]]></surname>
<given-names><![CDATA[Mitchell]]></given-names>
</name>
<name>
<surname><![CDATA[van Leeuwen]]></surname>
<given-names><![CDATA[David A]]></given-names>
</name>
</person-group>
<source><![CDATA[The effect of noise on modern automatic speaker recognition systems.]]></source>
<year>2012</year>
<page-range>4249-4252</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[McLaren]]></surname>
<given-names><![CDATA[Mitchell]]></given-names>
</name>
<name>
<surname><![CDATA[Lei]]></surname>
<given-names><![CDATA[Yun]]></given-names>
</name>
<name>
<surname><![CDATA[Scheffer]]></surname>
<given-names><![CDATA[Nicolas]]></given-names>
</name>
<name>
<surname><![CDATA[Ferrer]]></surname>
<given-names><![CDATA[Luciana]]></given-names>
</name>
</person-group>
<source><![CDATA[Application of convolutional neural networks to speaker recognition in noisy conditions.]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ming]]></surname>
<given-names><![CDATA[Ji]]></given-names>
</name>
<name>
<surname><![CDATA[Hazen]]></surname>
<given-names><![CDATA[Timothy J]]></given-names>
</name>
<name>
<surname><![CDATA[Glass]]></surname>
<given-names><![CDATA[James]]></given-names>
</name>
<name>
<surname><![CDATA[Reynolds]]></surname>
<given-names><![CDATA[Douglas]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust speaker recognition in noisy conditions.]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<volume>15</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>1711-1723</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vikramjit]]></surname>
<given-names><![CDATA[Mitra]]></given-names>
</name>
<name>
<surname><![CDATA[Franco]]></surname>
<given-names><![CDATA[Horacio]]></given-names>
</name>
<name>
<surname><![CDATA[Graciarena]]></surname>
<given-names><![CDATA[Martin]]></given-names>
</name>
<name>
<surname><![CDATA[Mandal]]></surname>
<given-names><![CDATA[Arindam]]></given-names>
</name>
</person-group>
<source><![CDATA[Normalized amplitude modulation features for large vocabulary noise-robust speech recognition.]]></source>
<year>2012</year>
<page-range>4117-4120</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pekhovsky]]></surname>
<given-names><![CDATA[Timur]]></given-names>
</name>
<name>
<surname><![CDATA[Novoselov]]></surname>
<given-names><![CDATA[Sergey]]></given-names>
</name>
<name>
<surname><![CDATA[Sholohov]]></surname>
<given-names><![CDATA[Aleksei]]></given-names>
</name>
<name>
<surname><![CDATA[Kudashev]]></surname>
<given-names><![CDATA[Oleg]]></given-names>
</name>
</person-group>
<source><![CDATA[On autoencoders in the i-vector space for speaker recognition.]]></source>
<year>2016</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Oldrich]]></surname>
<given-names><![CDATA[Plchot]]></given-names>
</name>
<name>
<surname><![CDATA[Burget]]></surname>
<given-names><![CDATA[Lukas]]></given-names>
</name>
<name>
<surname><![CDATA[Hagai]]></surname>
<given-names><![CDATA[Aronowitz]]></given-names>
</name>
<name>
<surname><![CDATA[Mat¨ejka]]></surname>
<given-names><![CDATA[Pavel]]></given-names>
</name>
</person-group>
<source><![CDATA[Audio enhancing with dnn autoencoder for speaker recognition.]]></source>
<year>2016</year>
<page-range>5090-5094</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Padmanabhan]]></surname>
<given-names><![CDATA[Rajan]]></given-names>
</name>
<name>
<surname><![CDATA[Kinnunen]]></surname>
<given-names><![CDATA[Tomi]]></given-names>
</name>
<name>
<surname><![CDATA[Hautam¨aki]]></surname>
<given-names><![CDATA[Ville]]></given-names>
</name>
</person-group>
<source><![CDATA[Effect of multicondition training on i-vector plda configurations for speaker recognition.]]></source>
<year>2013</year>
<page-range>3694-3697</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rao]]></surname>
<given-names><![CDATA[C. R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The utilization of multiple measurements in problems of biological classification]]></article-title>
<source><![CDATA[]]></source>
<year>1948</year>
<volume>10</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>159-203</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Richardson]]></surname>
<given-names><![CDATA[Fred]]></given-names>
</name>
<name>
<surname><![CDATA[Nemsick]]></surname>
<given-names><![CDATA[Brian]]></given-names>
</name>
<name>
<surname><![CDATA[Reynolds]]></surname>
<given-names><![CDATA[Douglas]]></given-names>
</name>
</person-group>
<source><![CDATA[Channel compensation for speaker recognition using map adapted plda and denoising dnns.]]></source>
<year>2016</year>
<page-range>225-230</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Omid Sadjadi]]></surname>
<given-names><![CDATA[Seyed]]></given-names>
</name>
<name>
<surname><![CDATA[HL Hansen]]></surname>
<given-names><![CDATA[John]]></given-names>
</name>
</person-group>
<source><![CDATA[Hilbert envelope based features for robust speaker identification under reverberant mismatched conditions.]]></source>
<year>2011</year>
<page-range>5448-5451</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rahim]]></surname>
<given-names><![CDATA[Saedi]]></given-names>
</name>
<name>
<surname><![CDATA[Kong]]></surname>
<given-names><![CDATA[Aik Lee]]></given-names>
</name>
<name>
<surname><![CDATA[Kinnunen]]></surname>
<given-names><![CDATA[Tomi]]></given-names>
</name>
<name>
<surname><![CDATA[Tawfik]]></surname>
<given-names><![CDATA[Hasan]]></given-names>
</name>
<name>
<surname><![CDATA[Fauve]]></surname>
<given-names><![CDATA[Benoit]]></given-names>
</name>
<name>
<surname><![CDATA[Bousquet]]></surname>
<given-names><![CDATA[Pierre-Michel]]></given-names>
</name>
<name>
<surname><![CDATA[Khoury]]></surname>
<given-names><![CDATA[Elie]]></given-names>
</name>
<name>
<surname><![CDATA[Sordo Martinez]]></surname>
<given-names><![CDATA[Pablo Luis]]></given-names>
</name>
<name>
<surname><![CDATA[Karen]]></surname>
<given-names><![CDATA[Jia Min]]></given-names>
</name>
<name>
<surname><![CDATA[Changhuai]]></surname>
<given-names><![CDATA[You]]></given-names>
</name>
</person-group>
<source><![CDATA[I4u submission to nist sre 2012: A large-scale collaborative effort for noise-robust speaker verification]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Scheffer]]></surname>
<given-names><![CDATA[Nicolas]]></given-names>
</name>
<name>
<surname><![CDATA[Ferrer]]></surname>
<given-names><![CDATA[Luciana]]></given-names>
</name>
<name>
<surname><![CDATA[Lawson]]></surname>
<given-names><![CDATA[Aaron]]></given-names>
</name>
<name>
<surname><![CDATA[Lei]]></surname>
<given-names><![CDATA[Yun]]></given-names>
</name>
<name>
<surname><![CDATA[McLaren]]></surname>
<given-names><![CDATA[Mitchell]]></given-names>
</name>
</person-group>
<source><![CDATA[Recent developments in voice biometrics: Robustness and high accuracy.]]></source>
<year>2013</year>
<page-range>447-452</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sohn]]></surname>
<given-names><![CDATA[Jongseo]]></given-names>
</name>
<name>
<surname><![CDATA[Soo Kim]]></surname>
<given-names><![CDATA[Nam]]></given-names>
</name>
<name>
<surname><![CDATA[Sung]]></surname>
<given-names><![CDATA[Wonyong]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A statistical model-based voice activity detection]]></article-title>
<source><![CDATA[]]></source>
<year>1999</year>
<volume>6</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-3</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
