<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1815-5928</journal-id>
<journal-title><![CDATA[Ingeniería Electrónica, Automática y Comunicaciones]]></journal-title>
<abbrev-journal-title><![CDATA[EAC]]></abbrev-journal-title>
<issn>1815-5928</issn>
<publisher>
<publisher-name><![CDATA[Universidad Tecnológica de La Habana José Antonio Echeverría, Cujae]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1815-59282013000100007</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Sistema de ayuda visual para apoyar aprendizaje de fonemas españoles]]></article-title>
<article-title xml:lang="en"><![CDATA[Visual aid system to support learning spanish phoneme]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[San Juan]]></surname>
<given-names><![CDATA[Enrique]]></given-names>
</name>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Watkins]]></surname>
<given-names><![CDATA[Francisco]]></given-names>
</name>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Kaschel]]></surname>
<given-names><![CDATA[Héctor]]></given-names>
</name>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Santiago de Chile  ]]></institution>
<addr-line><![CDATA[Santiago ]]></addr-line>
<country>Chile</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>04</month>
<year>2013</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>04</month>
<year>2013</year>
</pub-date>
<volume>34</volume>
<numero>1</numero>
<fpage>87</fpage>
<lpage>99</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1815-59282013000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1815-59282013000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1815-59282013000100007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El presente trabajo tiene como propósito mostrar un sistema computacional con la capacidad de apoyar el aprendizaje de la pronunciación de un conjunto determinado de fonemas españoles, dirigido a personas sordas o con dificultades auditivas, que tienen como consecuencia trastornos del habla. La posibilidad de «ver lo que se dice», puede resultar muy útil como método para la implantación y rehabilitación del Habla. Visualizar de forma inmediata, mediante una gráfica, los perfiles acústicos de los principales parámetros de la señal de voz y asociarlos con imágenes que representan lo dicho, ha resultado una alternativa adicional muy estimulante en el campo de la Foniatría. Dicho sistema basa su funcionamiento en la extracción y comparación de parámetros fundamentales de las señales de voz, entre los cuales se puede mencionar los LPC (Linear Predictive Coding), Formantes y coeficientes Ceptrales en la escala de frecuencias de Mel (Mel-frequency cepstral coefficients, MFCCs). Se espera que el sistema constituya una herramienta de apoyo a la rehabilitación de trastornos del habla, reemplazando el canal de realimentación auditivo por un canal de realimentación visual. Es decir, mediante gráficas de los perfiles acústicos y principales parámetros característicos de la señal de voz, con imágenes e indicadores de avance, se estructura en conjunto una importante herramienta alternativa adicional para la rehabilitación en trastornos del habla.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[This paper aims to show a computer system with the ability to support the learning of the pronunciation of a particular set of phonemes Spanish, aimed at people who are deaf or hard of hearing, which result in speech disorders. The ability to «see what it says,» can be very useful as a method for the implementation and speech rehabilitation. Display immediately, using a graph, acoustic profiles of the main parameters of the speech signal and associate them with images that represent what this has proved very stimulating an additional alternative in the field of Pathology. The system operation is based on the extraction and comparison of key parameters of the speech signals, among which one can mention the LPC (Linear Predictive Coding), Formant and Mel-frequency cepstral coefficients (MFCCs). It is expected that the system constitutes a tool to support the rehabilitation of speech disorders, replacing the auditory feedback channel for visual feedback channel. Namely, by graphical and acoustical profiles main characteristic parameters of the speech signal, with images and progress indicators, allow to set an important additional alternative tool for rehabilitation of speech disorders.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[procesamiento digital de señales]]></kwd>
<kwd lng="es"><![CDATA[codificación lineal predictiva]]></kwd>
<kwd lng="es"><![CDATA[autocorrelación]]></kwd>
<kwd lng="es"><![CDATA[análisis de voz]]></kwd>
<kwd lng="es"><![CDATA[formantes]]></kwd>
<kwd lng="es"><![CDATA[coeficientes ceptrales en la escala de mel]]></kwd>
<kwd lng="en"><![CDATA[digital signal rocessing]]></kwd>
<kwd lng="en"><![CDATA[linear predictive coding (LPC)]]></kwd>
<kwd lng="en"><![CDATA[autocorrelation]]></kwd>
<kwd lng="en"><![CDATA[voice analysis]]></kwd>
<kwd lng="en"><![CDATA[formants]]></kwd>
<kwd lng="en"><![CDATA[mel-frequency cepstral coefficients (MFCCs)]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[   <font size="2" face="Verdana">  </font>     <P align="right"><font size="2" face="Verdana"><strong>ARTICULO ORIGINAL</strong></font></p>     <p>&nbsp;</p>     <p><font size="4" face="Verdana"><B>Sistema de ayuda visual para apoyar aprendizaje de fonemas espa&ntilde;oles </B></font></p>     <P>&nbsp;</p>     <P><font size="2"><b><font size="3" face="Verdana">Visual aid system to support learning spanish phoneme</font></b></font></p>     <P>&nbsp;</p>     <P>&nbsp;</p>     <P><font size="2"><b><font face="Verdana">Dr. Enrique San Juan,      Dr. Francisco Watkins,         Dr. H&eacute;ctor Kaschel </font>   </b> </font></p>     <P><font size="2" face="Verdana">Universidad de Santiago de Chile, Santiago, Chile,    <a href="mailto:enrique.sanjuan@usach.cl">enrique.sanjuan@usach.cl</a> , <a href="mailto:francisco.watkins@usach.cl">francisco.watkins@usach.cl</a>    , <a href="mailto:hector.kaschel@usach.cl">hector.kaschel@usach.cl</a></font></p>     ]]></body>
<body><![CDATA[<P>&nbsp;</p>     <P>&nbsp;</p> <hr>     <P><font size="2"><b><font face="Verdana">RESUMEN </font></b></font> </p>     <p></p>     <P><font size="2" face="Verdana">El presente trabajo  tiene como prop&oacute;sito  mostrar un sistema computacional con la capacidad de apoyar el  aprendizaje de la  pronunciaci&oacute;n de un conjunto determinado de fonemas espa&ntilde;oles, dirigido a personas sordas o con  dificultades auditivas, que tienen como consecuencia trastornos del habla. La posibilidad de &#171;ver lo que se dice&#187;, puede resultar   muy &uacute;til como m&eacute;todo para la implantaci&oacute;n y rehabilitaci&oacute;n del Habla. Visualizar de forma inmediata, mediante  una gr&aacute;fica, los perfiles ac&uacute;sticos de los principales par&aacute;metros de la se&ntilde;al de voz y asociarlos con im&aacute;genes que  representan lo dicho, ha resultado una alternativa adicional muy estimulante en el campo de la Foniatr&iacute;a. Dicho sistema basa su   funcionamiento en la extracci&oacute;n y comparaci&oacute;n de par&aacute;metros fundamentales de las se&ntilde;ales de voz, entre los cuales  se puede mencionar los LPC (<I>Linear Predictive  Coding</I>), Formantes y  coeficientes Ceptrales en la escala de  frecuencias de Mel (<I>Mel-frequency cepstral  coefficients</I>, MFCCs).  Se espera que el sistema constituya una  herramienta  de  apoyo a la rehabilitaci&oacute;n de trastornos del habla, reemplazando el canal de realimentaci&oacute;n auditivo por un canal  de realimentaci&oacute;n visual. Es decir, mediante gr&aacute;ficas de los perfiles ac&uacute;sticos y principales par&aacute;metros caracter&iacute;sticos  de la se&ntilde;al de voz, con im&aacute;genes e indicadores de  avance, se estructura en conjunto una importante herramienta  alternativa adicional para la rehabilitaci&oacute;n en trastornos del habla. </font></p>     <P><font size="2" face="Verdana"><strong>Palabras claves:</strong>   procesamiento digital de se&ntilde;ales,  codificaci&oacute;n lineal predictiva , autocorrelaci&oacute;n, an&aacute;lisis de  voz, formantes, coeficientes ceptrales en la escala de mel.    <br> </font></p> <hr>     <P><font size="2" face="Verdana"><B>ABSTRACT</B></font></p>     <P><font size="2" face="Verdana">This paper aims to show a computer system with the ability to support the learning of the pronunciation of a    particular set of phonemes Spanish, aimed at people who are deaf or hard of hearing, which result in speech disorders.    The ability to &#171;see what it says,&#187; can be very useful as a method for the implementation and speech rehabilitation.    Display immediately, using a graph, acoustic profiles of the main parameters of the speech signal and associate them    with images that represent what this has proved very stimulating an additional alternative in the field of Pathology.    The system operation is based on the extraction and comparison of key parameters of the speech signals, among    which one can mention the LPC (Linear Predictive Coding), Formant and Mel-frequency cepstral coefficients (MFCCs).    It is expected that the system constitutes a tool to support the rehabilitation of speech disorders, replacing the    auditory feedback channel for visual feedback channel. Namely, by graphical and acoustical profiles main    characteristic parameters of the speech signal, with images and progress indicators, allow to set an important additional    alternative tool for rehabilitation of speech disorders. </font></p>     <P><font size="2" face="Verdana"><B>Key words: </B>digital signal  rocessing, linear predictive coding (LPC), autocorrelation, voice analysis,  formants, mel-frequency cepstral coefficients (MFCCs). </font></p>       ]]></body>
<body><![CDATA[<br> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2"><b><font size="3" face="Verdana">INTRODUCCI&Oacute;N</font></b></font></p>     <P>&nbsp;</p>     <P><font size="2" face="Verdana">Las patolog&iacute;as auditivas y de la voz, son consideradas uno de los principales problemas en la comunicaci&oacute;n    humana. Es por  esto la necesidad de desarrollar tecnolog&iacute;as orientadas a la rehabilitaci&oacute;n de  estos problemas y/o fortalecer    su apoyo.  Desde mediados de la d&eacute;cada de los 80 se inici&oacute; el desarrollo y comercializaci&oacute;n de sistemas de an&aacute;lisis    de voz mediante la gr&aacute;fica de perfiles param&eacute;tricos de la se&ntilde;al que la representa, entre los par&aacute;metros m&aacute;s    comunes tenemos la intensidad de la se&ntilde;al y su cruce por cero. Estos perfiles param&eacute;tricos no s&oacute;lo se realizaban para la    se&ntilde;al         pura de voz, tambi&eacute;n se realizaban para determinadas bandas de frecuencias en las cuales est&aacute; el mayor contenido    de la informaci&oacute;n hablada: formantes o frecuencias de resonancias del tracto vocal, as&iacute; como la parte del espectro    que caracteriza a los sonidos fricativos y la frecuencia fundamental. En la d&eacute;cada de los 90 aparecieron sistemas, que    sin mostrar los perfiles de par&aacute;metros ac&uacute;sticos, presentaban im&aacute;genes capaces de ser movidas o alteradas por la    presencia de determinado nivel o duraci&oacute;n de un par&aacute;metro en espec&iacute;fico. A inicios del siglo XXI se contin&uacute;a el desarrollo    de aplicaciones para la educaci&oacute;n y se inicia el dise&ntilde;o y programaci&oacute;n de sistemas para el an&aacute;lisis de voz en el    &aacute;rea m&eacute;dica de consultas de foniatr&iacute;a.  A pesar  que el campo de investigaci&oacute;n en el &aacute;rea del an&aacute;lisis y s&iacute;ntesis de voz    lleva varias d&eacute;cadas de desarrollo, los aspectos sobre los sistemas autom&aacute;ticos para el reconocimiento de la misma a&uacute;n    no han sido resueltos totalmente, siendo muy com&uacute;n en la actualidad sistemas de reconocimiento dependiente del    hablante y sobre la base de exigencias de entrenamiento previo.  Adem&aacute;s se debe tomar en cuenta la importancia de la    lengua a la cual nos referimos, principalmente porque  los fonemas son muy distintos en sonidos, dependiendo  de la    lengua o idioma de que se trate. En relaci&oacute;n con esto, la lengua que tratamos en este trabajo es la espa&ntilde;ola y en    espec&iacute;fico fonemas producidos por hablantes chilenos. </font></p>     <P><font size="2" face="Verdana">La tarea de an&aacute;lisis de voz constituye la base para el entendimiento y desarrollo de la producci&oacute;n y s&iacute;ntesis de voz,  as&iacute; como    de  los algoritmos para la identificaci&oacute;n, clasificaci&oacute;n y posterior ayuda a la rehabilitaci&oacute;n de patolog&iacute;as en  la producci&oacute;n del lenguaje hablado. Este sistema, busca entregar al usuario en rehabilitaci&oacute;n &iacute;ndices que le  ayuden  a aprender y a mejorar su pronunciaci&oacute;n, bas&aacute;ndose en la correlaci&oacute;n de los par&aacute;metros propios de cada hablante  con respecto a  par&aacute;metros patrones almacenados en el sistema. </font></p>     <P><font size="2" face="Verdana"><B>T&eacute;cnicas de an&aacute;lisis</B> </font></p>     <P><font size="2" face="Verdana">A continuaci&oacute;n se describen brevemente las t&eacute;cnicas de an&aacute;lisis utilizadas para la implementaci&oacute;n de este sistema. </font></p>     <P><font size="2" face="Verdana"><B>Formantes de la voz </B> </font></p>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Los formantes son frecuencias <I>peaks</I> del espectro de voz, en torno al cual se concentra la mayor parte de la energ&iacute;a.  En el espectro de voz humana, para sonidos sonoros (con uso de las cuerdas vocales) en las se&ntilde;ales de voz est&aacute;n  presentes muchos formantes, no obstante para obtener una representaci&oacute;n adecuada del tracto vocal los primeros tres  formantes son esenciales, mientras que los de orden superior son progresivamente menos importantes. Los dos primeros  Formantes llevan la mayor parte de la potencia del sonido lo que se hace evidente en el nivel  o volumen. El tercer  Formante posee un efecto relevante en la inteligibilidad; aspecto indispensable para la buena comprensi&oacute;n de los  mensajes hablados. Los Formantes se ubican en todas las vocales y algunas de las consonantes. [1] </font></p>     <P><font size="2" face="Verdana"><B>Predicci&oacute;n Lineal en el dominio del tiempo </B> </font></p>     <P><font size="2" face="Verdana">En la teor&iacute;a de predicci&oacute;n lineal [2] es ampliamente utilizado el Modelo para todo polo, conocido como  modelo Autorregresivo. En este modelo  (<a href="#e1">ecuaci&oacute;n 1</a>), la se&ntilde;al  <img src="/img/revistas/eac/v34n1/v0107113.jpg" width="27" height="35">se da como una combinaci&oacute;n lineal de los valores pasados y  algunas entradas <I>U<SUB>n</SUB></I> presentes. </font></p>     
<P align="center"><img src="/img/revistas/eac/v34n1/e0107113.jpg" width="519" height="80">   <a name="e1"></a></p>      
<P><font size="2" face="Verdana">En donde <I>G</I> es un factor de ganancia y  <img src="/img/revistas/eac/v34n1/v0207113.jpg" width="26" height="25">los par&aacute;metros de predicci&oacute;n lineal, m&aacute;s conocidos como par&aacute;metros LPC.  La obtenci&oacute;n de estos par&aacute;metros es fundamental, ya que la voz se puede parametrizar a partir de &eacute;stos.  Siguiendo con  la fundamentaci&oacute;n matem&aacute;tica, es posible obtener la funci&oacute;n de transferencia H(z) del sistema, la que queda   definida como:(<a href="#e2">ecuaci&oacute;n 2</a>) </font></p>     
<P align="center"><img src="/img/revistas/eac/v34n1/e0207113.jpg" width="533" height="93">   <a name="e2"></a></p>      
<P></p>     <P><font size="2" face="Verdana">Uno de los m&eacute;todos para la determinaci&oacute;n    de los par&aacute;metros <img src="/img/revistas/eac/v34n1/v0207113.jpg" width="26" height="25">es    a trav&eacute;s de la minimizaci&oacute;n del error, dado por la <a href="/img/revistas/eac/v34n1/e0407113.jpg">ecuaci&oacute;n    4</a>. En donde <img src="/img/revistas/eac/v34n1/v0307113.jpg" width="27" height="36">(<a href="#e3">ecuaci&oacute;n    3</a>) se obtiene considerando <I>U<SUB>n</SUB></I> (entrada) desconocido totalmente,    lo cual es el caso en muchas aplicaciones. Por lo tanto, la se&ntilde;al <img src="/img/revistas/eac/v34n1/v0107113.jpg" width="27" height="35">s&oacute;lo    puede predecirse en forma aproximada a partir de una sumatoria valorada linealmente    de las muestras pasadas. Siendo <img src="/img/revistas/eac/v34n1/v0107113.jpg" width="27" height="35">    una aproximaci&oacute;n de <img src="/img/revistas/eac/v34n1/v0307113.jpg" width="27" height="36">,    en donde </font> (<a href="#e3"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">ecuaci&oacute;n    3</font></a>)</p>     
<P align="center"><img src="/img/revistas/eac/v34n1/e0307113.jpg" width="578" height="79">   <a name="e3"></a></p>      
<P><font size="2" face="Verdana">Luego minimizando el error entre el valor real  y el valor predicho  , se obtiene el siguiente sistema:(<a href="/img/revistas/eac/v34n1/e0407113.jpg">ecuaci&oacute;n 4</a>) </font></p>     
]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Las sumatorias que contienen  <img src="/img/revistas/eac/v34n1/v0107113.jpg" width="27" height="35">son conocidas como los coeficientes de autocorrelaci&oacute;n y el sistema de ecuaciones   es com&uacute;nmente resuelto por el algoritmo de Levison  Durbin [2][3]. </font></p>      
<P><font size="2" face="Verdana"><B>Estimaci&oacute;n del Per&iacute;odo Fundamental     </B> </font></p>     <P><font size="2" face="Verdana">En los sonidos  sonoros las cuerdas vocales vibran y en los sonidos  sordos las cuerdas vocales no vibran. Se define  el Per&iacute;odo Fundamental T<SUB>0</SUB>, tambi&eacute;n llamado <I>Pitch </I>[1], como el tiempo transcurrido entre dos aperturas sucesivas de  las cuerdas vocales. Las cuerdas vocales al vibrar producen un sonido tonal o peri&oacute;dico, de esto se desprende  que  los sonidos sonoros tienen <I>Pitch</I> y los sonidos sordos carecen de este. Para una secuencia real  <I>s</I>[<I>n</I>], se define la autocorrelaci&oacute;n de  s[<I>n</I>] como:(<a href="#e5">ecuaci&oacute;n 5</a>) </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/e0507113.jpg" width="579" height="99">   <a name="e5"></a></p>      
<P><font size="2" face="Verdana">Si <I>s</I>[<I>n</I>] es una secuencia peri&oacute;dica, de periodo T, la funci&oacute;n de Autocorrelaci&oacute;n <I>r<SUB>ss</SUB></I>(<a href="#e5">ecuaci&oacute;n 5</a>),  es una secuencia peri&oacute;dica  con per&iacute;odo T. Esta caracter&iacute;stica es utilizada para obtener el per&iacute;odo fundamental  (<I>Pitch</I>) de se&ntilde;ales de voz. </font></p>     <P><font size="2" face="Verdana"><B>Coeficientes cepstrales en la escala de frecuencias de mel </B> </font></p>     <P><font size="2" face="Verdana">Los Coeficientes Cepstrales en la escala de frecuencias de Mel son m&aacute;s robustos que los coeficientes LPC.  Esto  se fundamenta principalmente, porque estos  coeficientes adaptan las frecuencias de fonemas a la manera que el  o&iacute;do humano percibe los sonidos [5] [6]. </font></p>     <P><font size="2" face="Verdana">El c&aacute;lculo de los MFCC se obtiene aplicando la siguiente <a href="/img/revistas/eac/v34n1/e0607113.jpg">ecuaci&oacute;n 6</a>. </font></p>     
<P><font size="2" face="Verdana">Donde <img src="/img/revistas/eac/v34n1/v0407113.jpg" width="52" height="35"> es la Transformada de Fourier para la ventana de an&aacute;lisis, M es el n&uacute;mero de bancos de filtros que se  utilizan. Se debe tener en cuenta que <I>M</I>&lt;&lt;<I>N</I>. Los Bancos de Filtros en la Escala de Mel son una serie de filtros  pasa-bandas triangulares, centrados en una frecuencia  <I>f<SUB>c</SUB></I>(<I>m</I>). </font></p>      
<P><font size="2" face="Verdana">Una vez aplicado el Banco de Filtros en la Escala de Frecuencias de Mel a cada una de los coeficientes de      <I>Fourier</I>, se deben calcular una serie de par&aacute;metros de transici&oacute;n denotados por <img src="/img/revistas/eac/v34n1/v0507113.jpg" width="44" height="33">.(<a href="/img/revistas/eac/v34n1/e0707113.jpg">ecuaci&oacute;n 7</a>) </font></p>     
]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Finalmente se aplica a los par&aacute;metros de transici&oacute;n la Transformada Discreta del Coseno  (<I>Discrete Cosine Transform</I>, DCT).(<a href="/img/revistas/eac/v34n1/e0807113.jpg">ecuaci&oacute;n 8</a>) </font></p>     
<P>&nbsp;</p>     <P><font size="3" face="Verdana"><B>DISE&Ntilde;O CONCEPTUAL DEL SISTEMA</B> </font></p>     <P>&nbsp;</p>     <P><font size="2" face="Verdana">El sistema dise&ntilde;ado corresponde a una primera etapa de desarrollo de un sistema mayor, el cual permitir&aacute; el    entrenamiento para el aprendizaje de palabras en forma independiente del hablante. Este sistema contempla el que el usuario    (paciente con dificultades de audici&oacute;n) se entrene en la pronunciaci&oacute;n de una s&iacute;laba, la cual es seleccionada    apropiadamente desde un men&uacute; en una interfaz gr&aacute;fica lo m&aacute;s amigable posible. Se considera que el aprendizaje de la pronunciaci&oacute;n    de fonemas es fundamental para el aprendizaje posterior de la pronunciaci&oacute;n de palabras, partiendo de la base que    las mismas est&aacute;n conformadas por fonemas, por lo que para un sistema mayor que identifique y sirva para el    entrenamiento de palabras, se tendr&aacute; que considerar un sistema que previamente segmente las palabras en silabas, de una    forma similar a la que se realiza en este trabajo, segmentando las s&iacute;labas en fonemas [7]. El dise&ntilde;o conceptual del    sistema computacional para rehabilitaci&oacute;n de trastornos del habla es esquematizado mediante el  diagrama de flujo    se&ntilde;alado en la <a href="/img/revistas/eac/v34n1/f0107113.jpg">figura 1</a>. En el podemos visualizar cada una de las etapas principales de este sistema y a continuaci&oacute;n se    describe cada una de ellas. </font></p>     
<P><font size="2"><b><font face="Verdana">Captura de se&ntilde;al de voz </font></b></font></p>     <P><font size="2" face="Verdana">En esta etapa el usuario, utilizando un micr&oacute;fono, graba la pronunciaci&oacute;n de una s&iacute;laba espa&ntilde;ola. Esta grabaci&oacute;n  es almacenada y guardada en formato de audio WAV (PCM) para posterior an&aacute;lisis de la siguiente etapa. Los  par&aacute;metros extra&iacute;dos a la se&ntilde;al ingresada son posteriormente comparados con los par&aacute;metros correspondientes a fonemas  patrones, previamente procesados y almacenados. La elecci&oacute;n de los fonemas patrones ha sido consensuada por el equipo  de trabajo. </font></p>     <P><font size="2" face="Verdana"><B>Segmentaci&oacute;n en `N' fonemas</B> </font></p>     <P><font size="2" face="Verdana">En este sistema las s&iacute;labas (se&ntilde;al de voz entrante) son segmentadas en N fonemas para lograr una adecuada  comparaci&oacute;n e identificaci&oacute;n.  Por ejemplo la s&iacute;laba /FA/ est&aacute; compuesta por N=2 fonemas (/F/ y /A/). </font></p>     <P><font size="2" face="Verdana">Una vez individualizados los fonemas de una s&iacute;laba, el sistema extrae los par&aacute;metros caracter&iacute;sticos de cada  fonema y a partir de estos  es posible aplicar funciones estad&iacute;sticas, para determinar el grado de similitud  en la  pronunciaci&oacute;n respecto de las s&iacute;labas patrones. </font></p>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana"><B>C&aacute;lculo de Par&aacute;metros A</B> </font></p>     <P><font size="2" face="Verdana">Los Par&aacute;metros A son el Periodo Fundamental  (<I>Pitch</I>) y los Formantes, y su prop&oacute;sito es generar  valores representativos que permitan la comparaci&oacute;n de las vocales. Principalmente porque las vocales tienen  la caracter&iacute;stica de poseer claramente <I>Pitch</I> y Formantes. </font></p>     <P><font size="2" face="Verdana"><B>C&aacute;lculo de Par&aacute;metros B</B> </font></p>     <P><font size="2" face="Verdana">Los Par&aacute;metros B son los coeficientes LPC y los MFCC, y su prop&oacute;sito es generar valores representativos  que permitan la comparaci&oacute;n de las consonantes. </font></p>     <P>&nbsp;</p>     <P><font size="3" face="Verdana"><B>C&Aacute;LCULO ESTAD&Iacute;STICO </B></font></p>     <P>&nbsp;</p>     <P><font size="2"><b><font face="Verdana">Aplicaci&oacute;n del coeficiente de correlaci&oacute;n de <I>Pearson</I></font></b></font></p>     <P><font size="2" face="Verdana">Una vez estimados los Par&aacute;metros del usuario, se  est&aacute; en condiciones de aplicar t&eacute;cnicas estad&iacute;sticas para  obtener &iacute;ndices que revelen el grado de cercan&iacute;a con respecto a la pronunciaci&oacute;n correcta de los fonemas (par&aacute;metros  patrones). La funci&oacute;n estad&iacute;stica utilizada  es el Coeficiente de Correlaci&oacute;n de <I>Pearson</I> y mide que tan cerca se encuentran  los pares de variables a comparar  de su recta de regresi&oacute;n lineal. La funci&oacute;n que rige el c&aacute;lculo de este par&aacute;metro es  la siguiente:(<a href="#e9">ecuaci&oacute;n 9</a>) </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/e0907113.jpg" width="576" height="151">   <a name="e9"></a></p>      
]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Donde <img src="/img/revistas/eac/v34n1/v0607113.jpg" width="22" height="28"> e <img src="/img/revistas/eac/v34n1/v0707113.jpg" width="27" height="29">corresponden a los par&aacute;metros de la se&ntilde;al patr&oacute;n y se&ntilde;al entrante, respectivamente. <img src="/img/revistas/eac/v34n1/v0807113.jpg" width="17" height="26">e  <img src="/img/revistas/eac/v34n1/v0907113.jpg" width="18" height="28">son el promedio  de los par&aacute;metros patrones  y par&aacute;metros de la se&ntilde;al entrante, respectivamente.   </font></p>     
<P>&nbsp;</p>     <P><font size="2" face="Verdana"><B><font size="3">PROMEDIO DE IDENTIFICACI&Oacute;N</font></B> </font></p>     <P>&nbsp;</p>     <P><font size="2" face="Verdana">En esta etapa los coeficientes de correlaci&oacute;n    son ponderados para determinar el Promedio de identificaci&oacute;n (PI).(<a href="/img/revistas/eac/v34n1/e1007113.jpg">ecuaci&oacute;n    10</a>)</font></p>     
<P><font size="2" face="Verdana">Donde     r<SUB>LPC</SUB>:     Coeficiente correlaci&oacute;n de los par&aacute;metros LPC, </font></p>     <P><font size="2" face="Verdana">r<SUB>MFCC</SUB>:     Coeficiente correlaci&oacute;n de los MFCCs, </font></p>     <P><font size="2" face="Verdana">r<SUB>FO</SUB>:     Coeficiente correlaci&oacute;n de los Formantes, </font></p>     <P><font size="2" face="Verdana">rr:      Autocorrelaci&oacute;n (utilizada en el c&aacute;lculo de Pitch). </font></p>     <P><font size="2" face="Verdana">La ponderaci&oacute;n total entre los coeficientes  r<SUB>LPC</SUB> y r<SUB>MFCC</SUB>, que corresponden a los coeficientes de la consonante, es de  un 40%  y para los coeficientes de la vocal,  r<SUB>FO</SUB> y rr, un 60%. Esta diferencia de porcentaje radica que la vocal tiene  un porcentaje mayor de participaci&oacute;n en la extensi&oacute;n temporal de la s&iacute;laba en comparaci&oacute;n a la consonante. El  Promedio de identificaci&oacute;n (PI) var&iacute;a entre 0 y 1. Mientras m&aacute;s cercano este a la unidad, mejor ser&aacute; la pronunciaci&oacute;n  del paciente en comparaci&oacute;n a las s&iacute;labas patrones. </font></p>     ]]></body>
<body><![CDATA[<P>&nbsp;</p>     <P><font size="3" face="Verdana"><b>SISTEMA COMPUTACIONAL </b></font></p>     <P>&nbsp;</p>     <P><font size="2" face="Verdana"><b>Ventana principal del sistema</b></font></p>     <P><font size="2" face="Verdana">La interfaz gr&aacute;fica del sistema computacional es una &uacute;nica ventana, en la cual se encuentran distintas etapas,  que representan los distintos procesos que se llevan a cabo. En la <a href="/img/revistas/eac/v34n1/f0207113.jpg">figura 2</a> muestra la ventana dicha interfaz.</font></p>     
<P><font size="2"><b><font face="Verdana">Pasos para la utilizaci&oacute;n de la Interfaz Gr&aacute;fica </font>   </b> </font></p>     <P><font size="2"><b><font face="Verdana">Paso 1: Elecci&oacute;n de la base de datos</font></b></font></p>     <P><font size="2" face="Verdana">En el paso 1, se realiza la acci&oacute;n de seleccionar entre cuatro bases de datos, que corresponden a las s&iacute;labas  patrones. Entre dichas bases de datos se definen cuatro grupos: Hombres, Mujeres, Ni&ntilde;os y Ni&ntilde;as. Para clasificar dichos  grupos, se consideraron los rangos de edades mostrados en la <a href="#t1">tabla 1</a>. </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/t0107113.jpg" width="453" height="154">   <a name="t1"></a></p>     
<P><font size="2" face="Verdana">Estos rangos de edades fueron seleccionados a partir de las edades de los individuos de pruebas utilizados  durante todo el proceso de programaci&oacute;n del software. </font></p>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La etapa 1 se encuentra representada en la interfaz seg&uacute;n lo indicado en la  <a href="#f3">figura 3</a>. </font></p>      <P align="center"><img src="/img/revistas/eac/v34n1/f0307113.jpg" width="306" height="136">   <a name="f3"></a></p>     
<P></p>     <P><font size="2" face="Verdana">Como se puede apreciar, la elecci&oacute;n de la base de datos es a trav&eacute;s de un men&uacute; de punto. Se puede seleccionar s&oacute;lo  un tipo de base de datos a la vez, en el cual se complementa su elecci&oacute;n, con un mensaje con letras verdes en  may&uacute;scula bajo un t&iacute;tulo &#171;Genero de la S&iacute;laba&#187;. </font></p>     <P><font size="2" face="Verdana"><B>Paso 2: Elecci&oacute;n de la s&iacute;laba a entrenar     </B> </font></p>     <P><font size="2" face="Verdana">El paso 2 consiste en la elecci&oacute;n de la s&iacute;laba a ensayar, esta puede ser elegida a trav&eacute;s de una lista desplegable  en donde se muestran cada una de las opciones disponibles para el entrenamiento del paciente. En la <a href="#f4">figura 4</a> se  muestra el men&uacute; de dicha etapa.</font></p>     <P align="center"><font size="2" face="Verdana"><img src="/img/revistas/eac/v34n1/f0407113.jpg" width="374" height="181"></font>   <a name="f4"></a></p>     
<P><font size="2" face="Verdana">Ya seleccionada la s&iacute;laba con la cual se quiere practicar, &eacute;sta es mostrada, por un motivo interno de las rutinas  de programaci&oacute;n, en un recuadro blanco, como se observa en la <a href="#f3">figura 3</a>.</font></p>     <P><font size="2" face="Verdana"><b>Paso 3: Grabaci&oacute;n de la s&iacute;laba entrante y comparaci&oacute;n entre s&iacute;laba patr&oacute;n y s&iacute;laba entrante </b></font></p>     <P><font size="2" face="Verdana">En el paso 3, se hace uso de los tres conjuntos de par&aacute;metros enunciados anteriormente. En &eacute;ste se graba la  s&iacute;laba pronunciada por el usuario, y se compara (a nivel de fonemas) con la s&iacute;laba patr&oacute;n escogida. En la <a href="#f5">figura 5</a> se  muestra la parte de interfaz gr&aacute;fica de esta etapa. Inicialmente esta etapa permite grabar la pronunciaci&oacute;n de una s&iacute;laba,  dicha por el usuario. Una vez presionado el bot&oacute;n &#171;GRABAR&#187;, el software le entrega dos segundos al usuario para  pronunciar la s&iacute;laba para ensayar. La se&ntilde;al de voz grabada atraviesa por procesos que realizan las tareas de: verificar que  el fonema haya sido pronunciado en un volumen adecuado, y por otro lado, la de acortar la se&ntilde;al grabada para  mostrarla en un gr&aacute;fico, de manera de que el usuario pueda ver la se&ntilde;al en el dominio del tiempo y comprobar de manera  visual que fue lo que se pronunci&oacute;. En caso de que el volumen de la s&iacute;laba se encuentre fuera de los rangos  preestablecidos, el software muestra una advertencia para que la s&iacute;laba sea pronunciada nuevamente. Posteriormente, presionando  en bot&oacute;n &#171;COMPARAR&#187; se acciona el procedimiento mostrado en el diagrama de flujo de la <a href="/img/revistas/eac/v34n1/f0107113.jpg">figura 1</a>. </font></p>     
]]></body>
<body><![CDATA[<P align="center"><img src="/img/revistas/eac/v34n1/f0507113.jpg" width="383" height="197">   <a name="f5"></a></p>      
<P></p>     <P><font size="2" face="Verdana"><B>Visualizaci&oacute;n de resultados de la comparaci&oacute;n de s&iacute;labas, a nivel de fonemas</B>   </font></p>     <P><font size="2" face="Verdana">Una vez hecha la comparaci&oacute;n, a nivel de fonemas, entre la s&iacute;laba patr&oacute;n y la s&iacute;laba entrante, la metodolog&iacute;a  mostrada anteriormente entrega un porcentaje final que representa la exactitud que existe entre las s&iacute;labas comparadas.  Dichos porcentajes son mostrados, en la interfaz gr&aacute;fica, en un recuadro mostrado en la <a href="#f6">figura 6</a>. </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f0607113.jpg" width="483" height="241">   <a name="f6"></a></p>     
<P></p>     <P><font size="2" face="Verdana">Como se puede apreciar el recuadro muestra los    porcentajes por separado, de la comparaci&oacute;n entre consonantes y vocales.    En un recuadro m&aacute;s amplio se muestra el porcentaje final o Promedio de    Identificaci&oacute;n PI (<a href="/img/revistas/eac/v34n1/e1007113.jpg">ecuaci&oacute;n    10</a>), el cual se obtiene ponderando ambos resultados nombrados. </font></p>     
<P><font size="2" face="Verdana"><B>Recuadro de audici&oacute;n</B> </font></p>     <P><font size="2" face="Verdana">En el proceso de formulaci&oacute;n del software se consider&oacute; que el usuario, la persona con deficiencias auditivas,  puede utilizar el programa con cierta asistencia de alguna persona. Para aquella persona se dispuso un cuadro en el cual  se pueden reproducir las s&iacute;labas, patr&oacute;n y entrante, para que pueda apreciar la pronunciaci&oacute;n de la s&iacute;laba ensayada, y  dar algunas indicaciones que sirvan para mejorar dicha pronunciaci&oacute;n. En la <a href="#f7">figura 7</a> se muestra el recuadro comentado.  </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f0707113.jpg" width="277" height="230">   <a name="f7"></a></p>     
]]></body>
<body><![CDATA[<P></p>     <P><font size="2" face="Verdana">Como se puede observar en la figura, existen dos botones claramente identificables los cuales reproducen la    s&iacute;laba correspondiente al t&iacute;tulo mostrado en ellos. </font></p>     <P><font size="2" face="Verdana"><B>Ayudas visuales</B> </font></p>     <P><font size="2" face="Verdana">Una de las caracter&iacute;sticas principales del sistema desarrollado,  se basa en las ayudas visuales que se puedan  entregar al usuario, de tal forma que a partir de la retroalimentaci&oacute;n visual &eacute;l pueda aprender, corregir  o mejorar su  aprendizaje del lenguaje hablado, es decir, en la medida que mejoremos el canal visual se espera que permita un mejor <I>performance</I> del usuario.  </font></p>     <P><font size="2" face="Verdana"><B>Ayuda mediante texto</B> </font></p>     <P><font size="2" face="Verdana">Este tipo de ayuda posee alguna utilidad si se considera que el usuario perdi&oacute; su capacidad auditiva despu&eacute;s  de aprender el lenguaje. En caso contrario esta ayuda no tiene ninguna relevancia. </font></p>     <P><font size="2" face="Verdana">El tipo de ayuda definida en este punto consiste en describir como se pronuncia la consonante, o la vocal,  en entrenamiento. En la <a href="/img/revistas/eac/v34n1/t0207113.jpg">tabla 2</a> se muestran algunas de las descripciones comentadas, siendo  un  total de 22  ayudas textuales. </font></p>     
<P><font size="2" face="Verdana">En la interfaz gr&aacute;fica del programa existe un recuadro en donde se muestran tales descripciones. En la <a href="#f8">figura 8</a> se muestra el recuadro en cuesti&oacute;n. El recuadro posee un men&uacute; de puntos, los cuales se encuentran enumerados del 1  al 3, que permiten apreciar las descripciones, de la tabla 2, en tres etapas. </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f0807113.jpg" width="421" height="267">   <a name="f8"></a></p>     
<P></p>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La principal ayuda visual, independiente del tiempo que lleva el paciente con su padecimiento, se basa en la    reproducci&oacute;n de videos multimedia que muestren la pronunciaci&oacute;n de la s&iacute;laba en aprendizaje. Los videos fueron obtenidos a    partir de la grabaci&oacute;n de una persona que no presenta trastornos del habla la cual pronunci&oacute; cada una de las s&iacute;labas, que    se pueden entrenar, definidas para este trabajo. La reproducci&oacute;n se observa en una ventana independiente, separada de    la interfaz gr&aacute;fica principal, y se reproduce a partir del uso de dos botones que se aprecian en la <a href="#f9">figura 9</a>. </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f0907113.jpg" width="434" height="103">   <a name="f9"></a></p>     
<P><font size="2" face="Verdana">Como se acaba de comentar, el video es reproducido en una ventana anexa. A continuaci&oacute;n, en la figura <a href="/img/revistas/eac/v34n1/f1007113.jpg">10.(a)</a> y <a href="/img/revistas/eac/v34n1/f1007113.jpg">10  (b)</a>, se muestran dos ejemplos de un video de tipo frontal, y uno del tipo lateral. </font></p>     
<P><font size="2" face="Verdana"><b>Ayuda a trav&eacute;s barras</b></font></p>     <P><font size="2" face="Verdana">Una ayuda extra, complementaria a las anteriores, es mostrar una fila de barras para mostrar el porcentaje final  de exactitud de manera visual. En la <a href="#f11">figura 11</a> se muestra dicha ayuda gr&aacute;fica.   </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f1107113.jpg" width="417" height="99">   <a name="f11"></a></p>     
<P></p>     <P><font size="2" face="Verdana">Como se puede observar, la fila de barras muestra un m&iacute;nimo de 30% de exactitud hasta un 100%. </font></p>     <P><font size="2" face="Verdana"><B>Ayuda a trav&eacute;s de im&aacute;genes est&aacute;ticas</B> </font></p>     <P><font size="2" face="Verdana">Finalmente se consider&oacute; la ayuda visual a trav&eacute;s de im&aacute;genes est&aacute;ticas. Esta etapa toma como base la  transformaci&oacute;n de las muestras en el dominio del tiempo, de la se&ntilde;al de voz, en el dominio de la escala de grises. En la <a href="#f12">figura 12</a> se muestra un ejemplo con la s&iacute;laba /do/. </font></p>     ]]></body>
<body><![CDATA[<P align="center"><img src="/img/revistas/eac/v34n1/f1207113.jpg" width="391" height="435">   <a name="f12"></a></p>     
<P><font size="2" face="Verdana">Como se puede ver en la <a href="#f12">figura 12</a> se tienen un par de ventanas, en el dominio del tiempo, para la s&iacute;laba  patr&oacute;n (denotados por la sigla SP) y para la s&iacute;laba entrante (denotados por la sigla SE). Como tambi&eacute;n para el caso en  el dominio de la escala de grises.</font></p>     <P><font size="2" face="Verdana"><b>Caracter&iacute;sticas finales</b></font></p>     <P><font size="2" face="Verdana">Como se ha dicho anteriormente, en la fase de grabaci&oacute;n de la s&iacute;laba entrante, cuando &eacute;sta no se encuentra en un  rango de volumen preestablecido, se muestra una advertencia que pide que se vuelva a pronunciar la s&iacute;laba. En la <a href="#f13">figura  13</a> se muestra el cuadro con el t&iacute;tulo &#171;Alerta&#187; que se muestra en la interfaz gr&aacute;fica. Naturalmente en la etapa de  inducci&oacute;n al software, un asistente deber&aacute; indicar al usuario el significado de esta alerta, dado que lo m&aacute;s com&uacute;n ser&aacute;  encontrar usuarios que no saben leer. </font></p>     <P align="center"><img src="/img/revistas/eac/v34n1/f1307113.jpg" width="517" height="205">   <a name="f13"></a></p>     
<P></p>     <P><font size="2" face="Verdana">En este recuadro, adem&aacute;s, se realizan comentarios cuando el programa no puede realizar algunos de los  procesos definidos en este trabajo. Entre los acontecimientos posibles de ocurrir podemos nombrar: &#171;no se pudo graficar  la s&iacute;laba entrante, no se pudo llevar a cabo la comparaci&oacute;n, &#171;falla&#187;. </font></p>     <P>&nbsp;</p>     <P><font size="3" face="Verdana"><B>CONCLUSIONES</B> </font></p>     <P>&nbsp;</p>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">El sistema presentado es el resultado de dos  a&ntilde;os de trabajo en la l&iacute;nea de procesamiento de voz para aplicaciones    de Foniatr&iacute;a.  Este sistema fue probado por usuarios sordos mudos quienes lo calificaron de muy buena forma,    contando con su aprobaci&oacute;n y expresando &eacute;stos una gran satisfacci&oacute;n por este esfuerzo. Por otra parte, considerando el    an&aacute;lisis del sistema y el p&aacute;rrafo anterior es posible afirmar que lo desarrollado promete muchas expectativas a futuro, para    la obtenci&oacute;n de un sistema eficiente para el apoyo del aprendizaje de hablado de &#171;palabras&#187; destinado a personas    sordas o con dificultades de audici&oacute;n. Los resultados indican  que el sistema implementado permite un adecuado    adiestramiento en la pronunciaci&oacute;n de s&iacute;labas, las que constituyen la base para un sistema mayor capaz de realizar un    entrenamiento en el aprendizaje de palabras. Los resultados obtenidos respecto de la medida cuantitativa del porcentaje de    acertividad o cercan&iacute;a con la s&iacute;laba patr&oacute;n deben ser trabajados y afinados a&uacute;n m&aacute;s, con la participaci&oacute;n de usuarios con este    tipo de afecci&oacute;n, fonoaudi&oacute;logos y otros profesionales del &aacute;rea m&eacute;dica, adem&aacute;s se deben incorporar el mayor n&uacute;mero    de fonemas posibles, ya que existen silabas como &#171;ji&#187; y &#171;fi&#187; que a&uacute;n son dif&iacute;cil de distinguir, por lo que es    recomendable utilizar para estos casos otros m&eacute;todos para su diferenciaci&oacute;n. Por tal motivo es que el equipo de investigadores    se encuentra trabajando en modelos que incorporan estructuras en base a redes Neuronales y Transformadas de    Wavelet, de tal forma de obtener modelos m&aacute;s robustos de identificaci&oacute;n de fonemas. Respecto de sistema desarrollado,    la elecci&oacute;n desde una base de </font><font size="2" face="Verdana">datos del fonema para entrenamiento, proporciona una forma simple para ingresar la s&iacute;laba por parte del usuario,      en donde dicho usuario  puede apreciar lo que pronunci&oacute; en  forma de: se&ntilde;al en el dominio del tiempo, im&aacute;genes      y mensajes visuales. Por tal motivo es que se implementaron ventanas de alertas y ayudas, las cuales muestran      comentarios y explicaciones de los acontecimientos ocurridos durante la comparaci&oacute;n. En resumen, se logra implementar un      sistema complejo, en una forma simple y did&aacute;ctica, que permite una interacci&oacute;n amigable para el usuario en      rehabilitaci&oacute;n. Finalmente es importante insistir que lo presentado es la primera aproximaci&oacute;n a un sistema mayor, el cual deber&aacute;    ser capaz de identificar palabras. Sin embargo, se espera que el sistema presentado para fonemas, constituya una  herramienta    de apoyo inicial a la rehabilitaci&oacute;n de trastornos del habla, reemplazando el canal de realimentaci&oacute;n auditivo por      un canal de realimentaci&oacute;n visual. Es decir, mediante gr&aacute;ficas de los perfiles ac&uacute;sticos y principales      par&aacute;metros caracter&iacute;sticos de la se&ntilde;al de voz (Formantes, LPC y MFCC), con im&aacute;genes e indicadores de  avance, permitan      en conjunto una importante herramienta alternativa adicional para la rehabilitaci&oacute;n de trastornos del habla. </font></p>     <P>&nbsp;</p>     <P><font size="3" face="Verdana"><B>REFERENCIAS</B> </font></p>     <P>&nbsp;</p>     <!-- ref --><P><font size="2" face="Verdana">1.     Fa&uacute;ndez,  Marcos, Tratamiento Digital de Voz e Imagen,       Alfaomega,   M&eacute;xico, 2001.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">2.     Makhoul, J. &#171;Linear  Prediction:  A  Tutorial  Review&#187;  Proc.  IEEE.  1975 </font><!-- ref --><P><font size="2" face="Verdana">3.     Rabiner y Schafer &#171;Digital Processing of Speech Signals&#187; Prentice Hall. Englewood Cliffs, N.J. 1978 </font><!-- ref --><P><font size="2" face="Verdana">4.     B.S. Atal y S.L. Hanauer, Speech analysis and synthesis      by linear prediction of the speech wave, J.  Acoust. Soc. Amer., vol. 50, n&#176;.2, pp. 637-655,1971.     </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">5.     Shimamura, T.y Kobayashi, H., Weighted Autocorrelation for Pitch Extraction of Noisy Speech,       IEEE Transactions on Speech and Audio Processing, Vol.9, No.7, pp. 727-730, Oct. 2001.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">6.     Sigurdsson, Brandt y Lehn-Schiler, Mel Frequency Cepstral Coefficients An Evalution of Robustness of  MP3 Encoded Music, Informatics and Mathematical Modelling Technical University of Denmark, 2006.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">7.     San Juan Enrique, &#171;Segmentaci&oacute;n de s&iacute;labas en fonemas&#187; Congreso Internacional de  Telecomunicaciones, Senacitel 2008, Valdivia, Chile.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">8.      Rabiner y Biing-Hwang Juang, Fundamentals Of Speech      Recognition , Prentice Hall, Englewood  Cliffs, N.J., 1993.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">9.     Quilis, Antonio, Fon&eacute;tica Ac&uacute;stica de la Lengua      Espa&ntilde;ola, Gredos, Madrid,1988.     </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana">10.     Parsons, Thomas, Voice and speech processing,      McGraw-Hill, New York, 1987.     </font></p>     <!-- ref --><P><font size="2" face="Verdana">11.     Rabiner y Schafer, Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, N.J., 1978.       </font></p>     <!-- ref --><P><font size="2" face="Verdana">12.       Delores, M. Etter, Soluci&oacute;n de problemas de Ingenier&iacute;a con MatLab, 2a edici&oacute;n, Prentice Hall, M&eacute;xico,       1998.         </font></p>     <!-- ref --><P><font size="2" face="Verdana">13.     Signal Processing Toolbox. For use with Matlab. User's, Guide version 5. The Math Works Inc. 2000.     </font></p>     <P>&nbsp;</p>     <P>&nbsp;</p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Recibido: Diciembre    2012    <br>   Aprobado: Enero 2013 </font></p>     <P> <font size="2" face="Verdana"><B></b></font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Faúndez]]></surname>
<given-names><![CDATA[Marcos]]></given-names>
</name>
</person-group>
<source><![CDATA[Tratamiento Digital de Voz e Imagen]]></source>
<year>2001</year>
<publisher-name><![CDATA[Alfaomega]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Makhoul]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Linear Prediction: A Tutorial Review]]></source>
<year>1975</year>
<publisher-name><![CDATA[Proc. IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schafe]]></surname>
<given-names><![CDATA[Rabiner]]></given-names>
</name>
</person-group>
<source><![CDATA[Digital Processing of Speech Signals]]></source>
<year>1978</year>
<publisher-loc><![CDATA[N.J.^eEnglewood Cliffs Englewood Cliffs]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[B.S]]></surname>
<given-names><![CDATA[Atal]]></given-names>
</name>
<name>
<surname><![CDATA[S.L.]]></surname>
<given-names><![CDATA[Hanauer]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Speech analysis and synthesis by linear prediction of the speech wave]]></article-title>
<source><![CDATA[J. Acoust. Soc. Amer.]]></source>
<year>1971</year>
<volume>50</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>637-655</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shimamura]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Kobayashi]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Weighted Autocorrelation for Pitch Extraction of Noisy Speech]]></article-title>
<source><![CDATA[IEEE Transactions on Speech and Audio Processing]]></source>
<year>Oct.</year>
<month> 2</month>
<day>00</day>
<volume>9</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>727-730</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sigurdsson]]></surname>
<given-names><![CDATA[Brandt]]></given-names>
</name>
<name>
<surname><![CDATA[Lehn]]></surname>
<given-names><![CDATA[Schiler]]></given-names>
</name>
</person-group>
<source><![CDATA[Mel Frequency Cepstral Coefficients An Evalution of Robustness of MP3 Encoded Music]]></source>
<year>2006</year>
<publisher-name><![CDATA[Informatics and Mathematical Modelling Technical University of Denmark]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[San Juan]]></surname>
<given-names><![CDATA[Enrique]]></given-names>
</name>
</person-group>
<source><![CDATA[Segmentación de sílabas en fonemas]]></source>
<year>2008</year>
<publisher-loc><![CDATA[Valdivia ]]></publisher-loc>
<publisher-name><![CDATA[Congreso Internacional de Telecomunicaciones]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[San Juan]]></surname>
<given-names><![CDATA[Enrique]]></given-names>
</name>
</person-group>
<person-group person-group-type="editor">
<name>
</name>
<name>
<surname><![CDATA[Biing-Hwang]]></surname>
<given-names><![CDATA[Juang]]></given-names>
</name>
</person-group>
<source><![CDATA[Fundamentals Of Speech Recognition]]></source>
<year>1993</year>
<publisher-loc><![CDATA[N.J.^eEnglewood Cliffs Englewood Cliffs]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Quilis]]></surname>
<given-names><![CDATA[Antonio]]></given-names>
</name>
</person-group>
<source><![CDATA[Fonética Acústica de la Lengua Española]]></source>
<year>1988</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Gredos]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Parsons]]></surname>
<given-names><![CDATA[Thomas]]></given-names>
</name>
</person-group>
<source><![CDATA[Voice and speech processing]]></source>
<year>1987</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[McGraw-Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Parsons]]></surname>
<given-names><![CDATA[Thomas]]></given-names>
</name>
<name>
</name>
</person-group>
<person-group person-group-type="editor">
<name>
</name>
<name>
</name>
</person-group>
<source><![CDATA[Digital Processing of Speech Signals]]></source>
<year>1978</year>
<publisher-loc><![CDATA[N.J.^eEnglewood Cliffs Englewood Cliffs]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Delores, M.]]></surname>
<given-names><![CDATA[Etter]]></given-names>
</name>
</person-group>
<source><![CDATA[Solución de problemas de Ingeniería con MatLab]]></source>
<year>1998</year>
<edition>2</edition>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<source><![CDATA[Signal Processing Toolbox. For use with Matlab. User's, Guide version 5.]]></source>
<year>2000</year>
<publisher-name><![CDATA[The Math Works Inc.]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
