<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992018000300010</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Método de extracción de rasgos robusto para un sistema de diarización.]]></article-title>
<article-title xml:lang="en"><![CDATA[Method of robust feature extraction for a diarization system.]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Campbell Hernández]]></surname>
<given-names><![CDATA[Edward L]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández Sierra]]></surname>
<given-names><![CDATA[Gabriel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Calvo de Lara]]></surname>
<given-names><![CDATA[José R.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Empresa DATYS  ]]></institution>
<addr-line><![CDATA[ Ciudad Habana]]></addr-line>
<country>CUBA</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2018</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2018</year>
</pub-date>
<volume>12</volume>
<numero>3</numero>
<fpage>140</fpage>
<lpage>151</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992018000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992018000300010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992018000300010&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Los Sistemas Automáticos de Reconocimiento de Locutores, son sistemas biométricos que permiten realizar la identificación y verificación de personas, empleando la voz como rasgo discriminatorio. Uno de los desafíos a superar durante el proceso de reconocimiento, ocurre cuando el flujo de audio a procesar presenta varios locutores, ya que es necesario tener conocimiento de la ubicación temporal de los segmentos de audio relativos a cada locutor, para poder comparar directamente dichos segmentos con las muestras de locutores almacenadas en la base de datos de enrolamiento. Los sistemas de diarización permiten ubicar temporalmente los segmentos de audio relativos a cada locutor, dando solución, al problema mencionado en el reconocedor. En este artículo se propone el empleo de una técnica de extracción de rasgos robusta como subconjunto del sistema de diarización, denominada Respuesta sin Distorsión de Variación Mínima Perceptiva, la cual demostró mayor robustez ante ruido que la técnica dominante en el estado del arte, los Coeficientes Cepstrales en las Frecuencias de Mel. Experimentalmente se demostró como el rasgo propuesto presenta un menor nivel de varianza con respecto a los rasgos mel, entre tramas limpias y sucias, sometiendo el audio a una relación señal ruido de 6 dB y 8 dB respectivamente.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Automatic Speakers Recognition Systems are biometric systems that allow the identification and verification of people, using voice as a discriminatory feature. One of the challenges to overcome during the recognition process is when the audio flow to be processed has several speakers, since it’s necessary to have knowledge of the temporal location of the audio segments relative to each speaker, in order to be able to directly compare those segments with the speaker samples stored in the enrollment database. The diarization system allow to define the audio regions that are associated to a same speaker, solving, the mentioned problem in the recognition process. In this article is proposes a robust feature extraction technique as subsystem of the diarization system, called Perceptive Minimum Variance Distortionless Response, which demonstrated greater robustness to noise than the dominant technique in state-of-the-art, Mel Frequency Cepstral Coefficients. Experimentally is demostrated as the feature proposed present a level less of variance compared with the mel feature, between clean and noisy frame, subjecting the audio to a signal noisy relation of 6 dB and 8 dB respectively.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[diarización]]></kwd>
<kwd lng="es"><![CDATA[rasgo robusto]]></kwd>
<kwd lng="es"><![CDATA[respuesta sin distorsión de variación mínima perceptiva]]></kwd>
<kwd lng="en"><![CDATA[diarization]]></kwd>
<kwd lng="en"><![CDATA[perceptive minimum variance distortionless response]]></kwd>
<kwd lng="en"><![CDATA[robust feature]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><strong><font size="4" face="Verdana, Arial, Helvetica, sans-serif">M&eacute;todo de extracci&oacute;n de  rasgos robusto para un sistema de diarizaci&oacute;n.</font></strong></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Method of robust feature extraction for a diarization system.</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Edward<strong> </strong>L.<strong> </strong>Campbell<strong> </strong>Hern<strong>&aacute;</strong>ndez<strong><sup>1*</sup></strong>, Gabriel<strong> </strong>Hern<strong>&aacute;</strong>ndez<strong> </strong>Sierra<strong><sup>1</sup></strong>, Jos<strong>&eacute; </strong>R.<strong> </strong>Calvo<strong> </strong>de<strong> </strong>Lara</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>1</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup>Empresa DATYS, Calle 7a A # 21406 e/ 214 y 216, Playa, Ciudad Habana, CUBA</font>    <br>       ]]></body>
<body><![CDATA[<br> </p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:jmperea@unex.es">ecampbell@cenatav.co.cu</a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los Sistemas Autom&aacute;ticos de Reconocimiento de  Locutores, son sistemas biom&eacute;tricos que permiten realizar la identificaci&oacute;n y  verificaci&oacute;n de personas, empleando la voz como rasgo discriminatorio. Uno de  los desaf&iacute;os a superar durante el proceso de reconocimiento, ocurre cuando el  flujo de audio a procesar presenta varios locutores, ya que es necesario tener  conocimiento de la ubicaci&oacute;n temporal de los segmentos de audio relativos a  cada locutor, para poder comparar directamente dichos segmentos con las  muestras de locutores almacenadas en la base de datos de enrolamiento. Los  sistemas de diarizaci&oacute;n permiten ubicar temporalmente los segmentos de audio  relativos a cada locutor, dando soluci&oacute;n, al problema mencionado en el  reconocedor. En este art&iacute;culo se propone el empleo de una t&eacute;cnica de extracci&oacute;n  de rasgos robusta como subconjunto del sistema de diarizaci&oacute;n, denominada  Respuesta sin Distorsi&oacute;n de Variaci&oacute;n M&iacute;nima Perceptiva, la cual demostr&oacute; mayor  robustez ante ruido que la t&eacute;cnica dominante en el estado del arte, los  Coeficientes Cepstrales en las Frecuencias de Mel. Experimentalmente se demostr&oacute;  como el rasgo propuesto presenta un menor nivel de varianza con respecto a los  rasgos mel, entre tramas limpias y sucias, sometiendo el audio a una relaci&oacute;n  se&ntilde;al ruido de 6 dB y 8 dB respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">diarizaci&oacute;n, rasgo robusto, respuesta sin distorsi&oacute;n de variaci&oacute;n m&iacute;nima perceptiva. </font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Automatic Speakers Recognition  Systems are biometric systems that allow the identification and verification of  people, using voice as a discriminatory feature. One of the challenges to  overcome during the recognition process is when the audio flow to be processed  has several speakers, since it&rsquo;s necessary to have knowledge of the temporal  location of the audio segments relative to each speaker, in order to be able to  directly compare those segments with the speaker samples stored in the  enrollment database. The diarization system allow to define the audio regions  that are associated to a same speaker, solving, the mentioned problem in the  recognition process. In this article is proposes a robust feature extraction  technique as subsystem of the diarization system, called Perceptive Minimum  Variance Distortionless Response, which demonstrated greater robustness to  noise than the dominant technique in state-of-the-art, Mel Frequency Cepstral  Coefficients. Experimentally is demostrated as the feature proposed present a  level less of variance compared with the mel feature, between clean and noisy  frame, subjecting the audio to a signal noisy relation of 6 dB and 8 dB  respectively.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>diarization, perceptive minimum variance distortionless response, robust feature.</font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso  de diarizaci&oacute;n responde la pregunta &ldquo; &iquest;Qui&eacute;n habla y cu&aacute;ndo? &rdquo;; las  aplicaciones del mismo son diversas, desde empleos comerciales como indexaci&oacute;n  de audio y transcripci&oacute;n rica, hasta aplicaciones de bu&acute;squeda criminal como el  an&aacute;lisis forense. Dicho proceso consta de las siguientes etapas: pre-procesado,  extracci&oacute;n de rasgos, segmentaci&oacute;n, agrupamiento y etiquetado; existiendo tres  campos de investigaci&oacute;n: ambiente telef&oacute;nico, radio difusi&oacute;n y grabaci&oacute;n de  reuniones (Hern&aacute;ndez, 2016). El sistema tratado se perfila a telefon&iacute;a,  con ambiente no controlado; constituyendo una etapa de pre-procesamiento de un  sistema autom&aacute;tico de reconocimiento de locutores, con el objetivo general de  definir las regiones de audio que pertenecen a un mismo locutor, para concluir  con la identificaci&oacute;n o verificaci&oacute;n de los mismos empleando el sistema de reconocimiento.  Como objetivo espec&iacute;fico, se plantea el dise&ntilde;o e implementaci&oacute;n de una t&eacute;cnica  de extracci&oacute;n de rasgos robusta ante ruido.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la propuesta de subsistema, se plantea el empleo de  una t&eacute;cnica de extracci&oacute;n de rasgos robustas denominada Respuesta sin Distorsi&oacute;n  de Variaci&oacute;n M&iacute;nima Perceptiva, la cual resalta las regiones de frecuencia  asociadas a los formantes F1 y F2. El experimento se realiz&oacute; sobre la  herramienta Matlab 2015, y para la comprobaci&oacute;n de robustez y simulaci&oacute;n de ruido  se emple&oacute; el toolkit FaNT. En la figura 1 se  muestra el diagrama funcional de un sistema de diarizaci&oacute;n. Antes  de agrupar los segmentos de voz de locutor, se recomienda la extracci&oacute;n del i-vector  de cada segmento, como modelos representativos. La metodolog&iacute;a i-vector,  permite obtener un vector de bajas dimensiones que aumenta la eficiencia de las  t&eacute;cnicas de compensaci&oacute;n de variabilidad de sesi&oacute;n (Hern&aacute;ndez, 2014),  ya que estas emplean una extensa metadata, que de utilizar vectores de altas  dimensiones terminar&iacute;a comprometiendo los recursos computacionales disponibles,  algo que sucede frecuentemente al emplear un su&acute;per-vector, obtenido a partir  de la concatenaci&oacute;n de las medias de cada una de las componentes del modelo de mezclas gaussianas  obtenido a partir del segmento de locutor. Observaci&oacute;n: el empleo de los  i-vector tambi&eacute;n aumenta la eficiencia de la etapa de agrupamiento.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Pre-procesamiento</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  etapa de pre-procesamiento se divide en pre-&eacute;nfasis, enventanado y  solapamiento. El pre-&eacute;nfasis, se basa en procesar la se&ntilde;al de audio empleando  un filtro de Respuesta Finita al Impulso (FIR) todo cero de primer orden (Woelfel, 2003),  incurriendo en una amplificaci&oacute;n de las muestras espectrales ubicadas en la  regi&oacute;n de altas frecuencias; este paso se realiza con el objetivo de disminuir  el efecto de inclinaci&oacute;n espectral de las se&ntilde;ales de voz, logrando as&iacute; un espectro m&aacute;s plano que aumenta el  poder discriminativo del proceso de extracci&oacute;n de rasgos, ya que en la regi&oacute;n  de altas frecuencias se encuentra la mayor&iacute;a de la informaci&oacute;n relativa a la  configuraci&oacute;n del tracto vocal del locutor (Story, 2003), informaci&oacute;n que es amplificada a trav&eacute;s del filtro. Cabe aclarar, que  la configuraci&oacute;n del tracto vocal de 2 locutores cualesquiera nunca va a  coincidir, por eso dicha informaci&oacute;n es usada com &uacute;nmente para identificar o  verificar locutores.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Debido  a que una se&ntilde;al de voz es un proceso no estacionario, es necesario, para  realizar un correcto procesamiento estad&iacute;stico de la misma, acotarla a  longitudes lo suficientemente peque&ntilde;as como para ser considerada un proceso  cuasi-estacionario y que a su vez contenga informaci&oacute;n &nbsp;&uacute;til; generalmente se escogen ventanas de  longitudes entre 20 y 30 milisegundos para el acotamiento. Sin embargo, este  proceso no es suficiente, ya que entre ventanas consecutivas, existen  discontinuidades como consecuencia del efecto de atenuaci&oacute;n definido por la  funci&oacute;n transferencial de dichas ventanas, por lo que para evitarlas se solapan  las ventanas contiguas una longitud de entre 20 y 10 milisegundos (Kondoz, 2004). </font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Extracci&oacute;n de rasgos</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para que un  rasgo sea considerado como tal, este debe cumplir con las siguientes  propiedades (Castro, 2010):</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Universalidad.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Distintividad.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Evaluabilidad.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Estabilidad.</font></p>   </li>     ]]></body>
<body><![CDATA[</ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  voz tiene 6 niveles de informaci&oacute;n: espectral, pros&oacute;dico, fon&eacute;tico, ideolectal,  dial&oacute;gica y sem&aacute;ntica; de estos, el nivel espectral es el b&aacute;sico, obteni&eacute;ndose  a partir de &eacute;l la ubicaci&oacute;n de los formantes de la se&ntilde;al de voz, y por  consiguiente, informaci&oacute;n sobre la configuraci&oacute;n del tracto vocal del locutor.  Este tiene la ventaja de emplear ventanas de menor longitud que los restantes  niveles para poder extraer informaci&oacute;n &nbsp;&uacute;til  de la voz (Ribas, 2016). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dentro de  este nivel, las t&eacute;cnicas de extracci&oacute;n de rasgos m&aacute;s empleadas se basan en la  transformaci&oacute;n del dominio temporal de la se&ntilde;al, al dominio cepstral, poseyendo  este &nbsp;&uacute;ltimo dominio las siguientes  ventajas (Calvo  et al., 2008):</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cuando la ganancia de la se&ntilde;al var&iacute;a, la forma  de onda del espectro se preserva y solo se desplaza en amplitud.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un filtrado lineal causado por la ac  &uacute;stica del  local o por variaciones en la l&iacute;nea telef&oacute;nica, tiene efectos convolucionales  en la forma de onda y multiplicativos en el espectro de potencia, reflej&aacute;ndose  como adiciones en el logaritmo del espectro de potencia, lo que trae como  consecuencia un menor nivel de deformaci&oacute;n de las caracter&iacute;sticas de la se&ntilde;al  en el dominio cepstral.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La distribuci    &oacute;n estad&iacute;stica del espectro en el  dominio logar&iacute;tmico tiene propiedades no presentes en el espectro de potencia  lineal, que son convenientes en el reconocimiento del locutor y del habla.</font></p>   </li>     </ul>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el  sistema propuesto empleamos una t&eacute;cnica cepstral, denominada Respuesta sin  Distorsi&oacute;n de Variaci&oacute;n M&iacute;nima Perceptiva (PMVDR), la cual emplea como n &uacute;cleo,  una t&eacute;cnica de estimaci&oacute;n de envolvente espectral robusta ante ruido denominada  Respuesta sin Distorsi&oacute;n de Variaci&oacute;n M&iacute;nima (MVDR).</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Estimaci&oacute;n espectral  MVDR</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La  envolvente de predicci&oacute;n lineal, es uno de los m&eacute;todo de estimaci&oacute;n de  envolvente m&aacute;s difundidos en la comunidad cient&iacute;fica, sin embargo, tiene la  desventaja de ofrecer una ineficaz parametrizaci&oacute;n de se&ntilde;ales de voz de tonos  medios y altos, debido a que sobrestima la potencia espectral de susodichas se&ntilde;ales;  dicha sobrestimaci&oacute;n puede ser erradicada, empleando como t&eacute;cnica de estimaci&oacute;n  de envolvente la denominada Respuesta sin Distorsi&oacute;n de Varianza M&iacute;nima (MVDR),  trayendo como consecuencia una mayor eficacia durante el proceso de  parametrizaci&oacute;n de la se&ntilde;al (Murthi and Rao, 2000).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MVDR  se basa en el dise&ntilde;o de un banco de filtros, sujeto a la condici&oacute;n de m&iacute;nima  distorsi&oacute;n, en la cual se establece una respuesta unitaria del filtro centrado  en la frecuencia de inter&eacute;s, mientras que en las restantes frecuencias evita el  paso, vea ecuaci&oacute;n 1 (Woelfel, 2003). </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0110318.jpg" alt="fo01" width="375" height="81"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">h(k): respuesta al impulso del  filtro sobre la muestra k. foi: </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">frecuencia de inter&eacute;s.</font></p>   </li>     ]]></body>
<body><![CDATA[</ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este  m&eacute;todo es sumamente trabajoso, debido a que requiere el dise&ntilde;o de un filtro  para cada frecuencia de inter&eacute;s. Una alternativa a este es el empleo de un m&eacute;todo  param&eacute;trico para definir la envolvente del Espectro de Varianza M&iacute;nima (o  MVDR), definida por la siguiente expresi&oacute;n (Dharanipragada  and Rao, 2001): </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0210318.jpg" alt="fo02" width="363" height="65"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M: orden de estimaci&oacute;n.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">u(k): par&aacute;metro  definido a partir de los coeficientes de predicci&oacute;n lineal de la ventana de la  se&ntilde;al, y se define a partir de la siguiente ecuaci&oacute;n:</font></p>   </li>     </ul>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0310318.jpg" alt="fo03" width="505" height="85"></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde:</font></p> <ul>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>Pe</em>:  error de varianza de predicci&oacute;n lineal. <em>ak</em>: </font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">coeficiente de predicci&oacute;n lineal k.</font></p>   </li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MVDR tiene 3  propiedades b&aacute;sicas: banco de filtro, envolvente espectral y conexi&oacute;n directa  con la predicci&oacute;n lineal. En funci&oacute;n del orden de estimaci&oacute;n espectral que se  emplee, se puede variar el nivel de distorsi&oacute;n del espectro de potencia  estimado, variando desde la representaci&oacute;n del espectro en s&iacute;, hasta la  representaci&oacute;n de su envolvente (Murthi and Rao, 2000).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>T&eacute;cnica de extracci&oacute;n de  rasgos propuesta, PMVDR</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La t&eacute;cnica de extracci&oacute;n de rasgos m&aacute;s empleada en el estado del arte,  son los Coeficientes Cepstrales en las Frecuencias de Mel (MFCC), la cual se  basa en estimar el espectro de potencia de la ventana de la se&ntilde;al, para  posteriormente transformar dicho espectro a la escala de frecuencias de Mel,  finalizando en una transformaci&oacute;n al dominio cepstral (Calvo et al., 2008); la desventaja de este m&eacute;todo, es que el banco de filtros Mel empleado  para distorsionar la escala de frecuencia lineal de la se&ntilde;al, tiene la  propiedad de aumentar la separaci&oacute;n de los filtros ubicados a las altas  frecuencias, disminuyendo as&iacute; la resoluci&oacute;n y la eficacia de la parametrizaci&oacute;n  (Ghosh et  al., 2012), ya que se pierde parte importante  de la informaci&oacute;n relativa a la configuraci&oacute;n del tracto vocal del locutor,  ubicada en las altas frecuencias.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como soluci&oacute;n, se propone el empleo de un m&eacute;todo de extracci&oacute;n de rasgos  que aplica una t&eacute;cnica de distorsi&oacute;n perceptiva v&iacute;a interpolaci&oacute;n, que en  comparaci&oacute;n con el banco de filtros mel, posee una mayor resoluci&oacute;n a las altas  frecuencias, ya que las muestras espectrales estimadas, se encuentran  uniformemente espaciadas sobre todo el espectro (Yapanel and Hansen, 2008), adem&aacute;s, emplea una t&eacute;cnica de estimaci&oacute;n  espectral robusta (MVDR). La <a href="#f02">figura 2</a> muestra el diagrama funcional del m&eacute;todo propuesto, denominado Respuesta  sin Distorsi&oacute;n de Variaci&oacute;n M&iacute;nima Perceptiva (PMVDR).</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v11n3/f0210318.jpg" alt="f02" width="562" height="199"><a name="f02"></a></p>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Distorsi&oacute;n directa (Yapanel and Hansen, 2008): </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El  objetivo del m&eacute;todo de distorsi&oacute;n directa v&iacute;a interpolaci&oacute;n (distorsi&oacute;n  perceptiva) empleado se basa en, obtener a partir del espectro de potencia de  la ventana espaciado linealmente (w), el espectro de potencia distorsionado (<em>wd</em>), cumpliendo la siguiente  relaci&oacute;n: </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0410318.jpg" alt="fo04" width="294" height="65"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dicha relaci&oacute;n se puede garantizar con el empleo de un sistema pasa todo  de primer orden que cumpla con la siguiente condici&oacute;n:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0510318.jpg" alt="fo05" width="285" height="46"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">la variable alfa controla el grado de distorsi&oacute;n; para se&ntilde;ales  muestreadas a 16 khz se recomienda el empleo entre el rango de 0.42 y 0.55,  mientras que para 8 khz se recomienda entre 0.31 y 0.42.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">&iquest;C&oacute;mo  obtener el espectro distorionado?</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1. Obtener el espectro de potencia de  la ventana de entrada de longitud N a trav&eacute;s de FFT, N debe serseleccionada  como la potencia m&aacute;s cercana posible de 2, lo cual provee N puntos espectrales  en un espacio de potencia espectral lineal.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2. Calcular N puntos espectrales linealmente  espaciados sobre el espacio de frecuencia deformada con unaseparaci&oacute;n de  enteros de 2<em>&pi;</em>entre puntos adyacentes:</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v11n3/fo0610318.jpg" alt="fo06" width="292" height="56"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">3. Hallar las frecuencias lineales y el  &iacute;ndice de las FFT correspondientes al espectro deformado usando:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0710318.jpg" alt="fo07" width="444" height="133"></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">4. Interpolar los valores espectrales  lineales m&aacute;s cercanos para obtener el valor espectral deformado:</font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/fo0810318.jpg" alt="fo08" width="506" height="155"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ajustes de PMVDR: factor de distorsi&oacute;n de 0.57  utilizando los primeros 12 coeficientes cepstrales, excluyendo el de orden  cero. Desplazamiento entre tramas de 10 ms, con una longitud de ventana de 20  ms, y filtro de pre-&eacute;nfasis con cero de 0.95.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Detecci&oacute;n  de la actividad de la voz</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La funci&oacute;n  del detector de la actividad de la voz (VAD), como bien se infiere por su  nombre, es la detecci&oacute;n de los segmentos de voz; siendo la voz, el acto  individual del ejercicio del lenguaje, producido al elegir determinados signos,  entre los que ofrece la lengua mediante su realizaci&oacute;n oral (Huijbregts, 2008). El VAD es un elemento crucial del  pre-procesamiento en el marco de los sistemas de diarizaci&oacute;n, pues aumenta la  eficacia de la etapa de segmentaci&oacute;n al garantizar el procesamiento de un flujo  continuo de voz (Hern&aacute;ndez, 2016).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las tramas  eliminadas, clasificadas como no voz, pueden estar compuestas por silencio, m &uacute;sica  o ruido. Los clasificadores de m&aacute;xima-verosimilitud son el enfoque m&aacute;s usado en  la detecci&oacute;n de la voz, empleando modelos de mezclas gaussianas (GMM)  pre-entrenados a partir de tramas de habla y no habla para modelar clases ac &uacute;sticas  (Hern&aacute;ndez, 2016), dichas clases var&iacute;an de un sistema a otro,  pudi&eacute;ndose emplear clases que representen la voz, ruido, silencio y m &uacute;sica  respectivamente. Los detectores de energ&iacute;a son elementos que se pueden emplear  como VAD, pero su eficacia depende del nivel de energ&iacute;a de las tramas de no voz  (Huijbregts, 2008).</font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Segmentaci&oacute;n</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Durante el  proceso de segmentaci&oacute;n, se determinan los puntos de cambios de locutor;  representando puntos consecutivos, segmentos de audio relativos a un &nbsp;&uacute;nico locutor. Los m&eacute;todos m&aacute;s empleados en el  estado del arte se basan en m&eacute;tricas como el Coeficiente de Informaci&oacute;n  Bayesiana (BIC), o en modelos como los Modelos de Mezclas Gaussianas (Hern&aacute;ndez, 2016).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Agrupamiento</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Posterior  a la segmentaci&oacute;n, luego de haber sido determinados los segmentos relativos a  un &nbsp;&uacute;nico locutor, y definidos a su vez  los segmentos de voz mediante la aplicaci&oacute;n del VAD, se agrupan los segmentos  de habla pertenecientes a un mismo locutor en un mismo grupo, respondiendo el proceso  descrito al nombre de agrupamiento. Entre los m&eacute;todos m&aacute;s empleados se  encuentran los basados en M&aacute;quina de Vectores de Soporte, como clasificadores;  y el agrupamiento jer&aacute;rquico (Hern&aacute;ndez, 2016). </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este ep&iacute;grafe  se llevar&aacute; a cabo un an&aacute;lisis de los resultados obtenidos a trav&eacute;s del empleo  de la t&eacute;cnica de extracci&oacute;n de rasgos propuestas, haciendo &eacute;nfasis en el  comportamiento de la misma en ambientes ruidosos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Envolvente  espectral</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como  hab&iacute;amos precisado previamente, la estimaci&oacute;n de la envolvente espectral de la  se&ntilde;al de habla, mediante el m&eacute;todo de predicci&oacute;n lineal, genera una  sobrestimaci&oacute;n de potencia espectral, que se puede compensar empleando la  envolvente de varianza m&iacute;nima; fen&oacute;meno que se evidencia en la <a href="#f03">figura 3</a>, a  partir de un experimento realizado en (Murthi  and Rao, 2000), en donde se compararon  las envolventes espectrales obtenidas a partir del m&eacute;todo de Varianza M&iacute;nima y  el de predicci&oacute;n lineal, de orden 19 respectivamente. Comprobamos la veracidad de este planteamiento a partir del an&aacute;lisis de  100 segmentos de habla de 25 se&ntilde;ales de la base de datos Fisher, concluyendo, c&oacute;mo la propuesta de empleo de la t&eacute;cnica  de Varianza M&iacute;nima incide directamente en ladisminuci&oacute;n de los picos sobrestimados de potencia, obtenidos a partir  de se&ntilde;ales de voz de tonos altos y medios, debido al efecto de suavizado del m&eacute;todo  MVDR sobre la envolvente del espectro de la se&ntilde;al (vea <a href="#f04">figura 4</a>). </font></p>     <p align="center"><img src="/img/revistas/rcci/v11n3/f0310318.jpg" alt="f03" width="444" height="375"><a name="f03"></a></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v11n3/f0410318.jpg" alt="f04" width="364" height="301"><a name="f04"></a></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Robustez  ante ruido</font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un factor de impacto de los rasgos ac &uacute;sticos es la variabilidad de  estos ante el ruido, debido a las m &uacute;ltiples condiciones ac &uacute;sticas no  controlables a las que en la pr&aacute;ctica se exponen los sistemas de diarizaci&oacute;n en  ambiente telef&oacute;nico. En el experimento realizado ( <a href="/img/revistas/rcci/v11n3/f0510318.jpg" target="_blank">figura 5</a> ), PMVDR demostr&oacute; poseer mayor robustez que  MFCC ante ruido.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="/img/revistas/rcci/v11n3/f0510318.jpg" target="_blank">figura 5</a> muestra la  variaci&oacute;n de los primeros 12 coeficientes cepstrales de PMVDR y MFCC extra&iacute;dos  a partir de la ventana de una se&ntilde;al limpia telef&oacute;nica, luego de agregar ruido  blanco, estableciendo una relaci&oacute;n se&ntilde;al ruido de 8 y 6 dB respectivamente en  cada experimento, evidenci&aacute;ndose un nivel inferior de variaci&oacute;n de los  coeficientes de PMVDR ante ruido blanco en comparaci&oacute;n con MFCC.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El m&eacute;todo de extracci&oacute;n de rasgos, PMVDR, es un m&eacute;todo propuesto a partir  de la necesidad de suprimir las deficiencias sobre se&ntilde;ales de voz de mediano y  alto tono, que presentaba la predicci&oacute;n lineal (LPC), demostr&aacute;ndose  experimentalmente, como se lograba una disminuci&oacute;n de los picos sobre-estimados  de potencia al aplicar el espectro de varianza m&iacute;nima (MVDR) sobre la predicci&oacute;n  lineal. Debido a que la investigaci&oacute;n se perfil&oacute; a ambiente telef&oacute;nico no  controlado, era necesario que los rasgos propuestos fueran estables bajo estas  condiciones, por lo que a la se&ntilde;al de audio se le adicion&oacute; ruido blanco, y se  compar&oacute; el nivel de varianza alcanzado entre PMVDR y los rasgos mel bajo estas  condiciones; manifest&aacute;ndose como la variaci&oacute;n entre las tramas limpias y sucias  de PMVDR, era inferior a la de los rasgos mel. A partir del an&aacute;lisis hecho, se  puede concluir, como PMVDR es un rasgo robusto; y espec&iacute;ficamente, MVDR, es una  t&eacute;cnica que permite obtener una buena estimaci&oacute;n de los formantes, no solo de  se&ntilde;ales de voz de tono bajo, sino tambi&eacute;n de tonos medios y altos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dado lo expuesto en este trabajo, recomendamos extender la investigaci&oacute;n  sobre las restantes etapas del sistema de diarizaci&oacute;n, y comprobar la  compatibilidad, de los m&eacute;todos empleados en conjunto, para la confecci&oacute;n del  sistema.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">J. R Calvo, R. Fern&aacute;ndez, and G. Hern&aacute;ndez. M&eacute;todos de extracci&oacute;n,  selecci&oacute;n y clasificaci&oacute;n de rasgos ac &uacute;sticos para el reconocimiento del  locutor. Technical Report RT 08, Serie Azul: Reconocimiento de Patrones,  CENATAV-DATYS, Siboney, Playa, La Habana, Cuba, February 2008.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A. H. Castro. Fiabilidad en sistemas forenses de reconocimiento autom&aacute;tico  de locutor explotando la calidad de la se&ntilde;al de voz, 2010.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">S. Dharanipragada and B. D. Rao. MVDR  based feature extraction for robust speech recognition. pages 309&ndash;312, Salt  Palace Convention Center, Salt Lake City, Utah, USA, May 7-11 2001. IEEE  International Conference on Acoustics, Speech, and Signal Processing, ICASSP  2001.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">D. Ghosh, D. S. Debnath, and S. Bose. A  comparative study of performance of FPGF based mel filter bank bark filter bank. <em>CoRR</em>, 2012.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Gabriel Hern&aacute;ndez. <em>M&eacute;todos de  representaci&oacute;n y verificaci&oacute;n del locutor con independencia del texto</em>. PhD  thesis, Instituto Superior Tecnol&oacute;gico Jos&eacute; Antonio Echeverr&iacute;a, Ciudad de La  Habana, 2014.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Gabriel Hern&aacute;ndez. Diarizaci&oacute;n de locutores sobre se&ntilde;ales telef&oacute;nicas.  Technical Report RT 081, Serie Azul: Reconocimiento de Patrones, CENATAV-DATYS,  Siboney, Playa, La Habana, Cuba, February 2016.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M. Huijbregts. <em>Segmentation, diarization and speech transcription: surprise data  unraveled</em>. PhD thesis, University of Twente, Enschede, Netherlands, 2008.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A.M. Kondoz. <em>Digital Speech. Coding for Low Bit Rate  Communication Systems</em>. University of Surrey, UK, 2nd edition, 2004.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M. N Murthi and B. D. Rao. All-pole  modeling of speech based on the minimum variance distortionless response  spectrum. <em>IEEE Trans. Speech and Audio  Processing</em>, (3):221&ndash;239, 2000.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">D. Ribas. <em>Reconocimiento robusto  de locutores en ambientes no controlados</em>. PhD thesis, Instituto Superior  Polit&eacute;cnico Jos&eacute; Antonio Echeverr&iacute;a, Facultad de Ingenier&iacute;a El&eacute;ctrica, La  Habana, Cuba, 2016.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">B. H. Story. Using imaging and modeling  techniques to understand the relation between vocal tract shape to acoustic  characteristics. Stockholm, Sweden, August 6-9 2003. Stockholm Music Acoustics  Conference.    </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M. Woelfel. Minimun variance  distorsionless response spectral estimation and subtraction for robust speech  recognition, 2003.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">U.  H. Yapanel and J. H. L. Hansen. A new perceptually motivated mvdr based  acoustic front-end (pmvdr) for robust automatic speech recognition. <em>Speech Communication</em>, (2):142&ndash;152, 2008. </font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 21/11/2017    <br> Aceptado: 19/03/2018</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Calvo]]></surname>
<given-names><![CDATA[J. R]]></given-names>
</name>
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Métodos de extracción, selección y clasificación de rasgos acústicos para el reconocimiento del locutor.]]></source>
<year>Febr</year>
<month>ua</month>
<day>ry</day>
<publisher-loc><![CDATA[^eLa Habana La Habana]]></publisher-loc>
<publisher-name><![CDATA[CENATAV-DATYS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Castro]]></surname>
<given-names><![CDATA[A. H]]></given-names>
</name>
</person-group>
<source><![CDATA[Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dharanipragada]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Rao]]></surname>
<given-names><![CDATA[B. D]]></given-names>
</name>
</person-group>
<source><![CDATA[MVDR based feature extraction for robust speech recognition.]]></source>
<year>May </year>
<month>7-</month>
<day>11</day>
<page-range>309-312</page-range><publisher-name><![CDATA[Salt Palace Convention Center]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ghosh]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Debnath]]></surname>
<given-names><![CDATA[D. S]]></given-names>
</name>
<name>
<surname><![CDATA[Bose]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[A comparative study of performance of FPGF based mel filter bank bark filter bank]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[Gabriel]]></given-names>
</name>
</person-group>
<source><![CDATA[Métodos de representación y verificación del locutor con independencia del texto.]]></source>
<year>2014</year>
<publisher-loc><![CDATA[^eCiudad de La Habana Ciudad de La Habana]]></publisher-loc>
<publisher-name><![CDATA[Instituto Superior Tecnológico José Antonio Echeverría]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[Gabriel]]></given-names>
</name>
</person-group>
<source><![CDATA[Diarización de locutores sobre señales telefónicas]]></source>
<year>Febr</year>
<month>ua</month>
<day>ry</day>
<publisher-loc><![CDATA[^eLa Habana La Habana]]></publisher-loc>
<publisher-name><![CDATA[CENATAV-DATYS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Huijbregts]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Segmentation, diarization and speech transcription: surprise data unraveled]]></source>
<year>2008</year>
<publisher-name><![CDATA[University of Twente, Enschede]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kondoz]]></surname>
<given-names><![CDATA[A.M]]></given-names>
</name>
</person-group>
<source><![CDATA[Digital Speech. Coding for Low Bit Rate Communication Systems]]></source>
<year></year>
<edition>2nd edition</edition>
<page-range>2004</page-range><publisher-name><![CDATA[University of Surrey]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Murthi]]></surname>
<given-names><![CDATA[M. N]]></given-names>
</name>
<name>
<surname><![CDATA[Rao]]></surname>
<given-names><![CDATA[B. D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[All-pole modeling of speech based on the minimum variance distortionless response spectrum.]]></article-title>
<source><![CDATA[]]></source>
<year>2000</year>
<volume>3</volume>
<numero>221-239</numero>
<issue>221-239</issue>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ribas]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Reconocimiento robusto de locutores en ambientes no controlados.]]></source>
<year>2016</year>
<publisher-name><![CDATA[Superior Politécnico José Antonio Echeverría]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Story]]></surname>
<given-names><![CDATA[B. H]]></given-names>
</name>
</person-group>
<source><![CDATA[Using imaging and modeling techniques to understand the relation between vocal tract shape to acoustic characteristics]]></source>
<year>Augu</year>
<month>st</month>
<day> 6</day>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Woelfel]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Minimun variance distorsionless response spectral estimation and subtraction for robust speech recognition]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Yapanel]]></surname>
<given-names><![CDATA[U. H]]></given-names>
</name>
<name>
<surname><![CDATA[Hansen]]></surname>
<given-names><![CDATA[J. H. L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A new perceptually motivated mvdr based acoustic front-end (pmvdr) for robust automatic speech recognition]]></article-title>
<source><![CDATA[]]></source>
<year>2008</year>
<volume>2</volume>
<numero>142-152</numero>
<issue>142-152</issue>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
