<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992018000100002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Algoritmo meta-heurístico Firefly aplicado al pre-entrenamiento de redes neuronales artificiales]]></article-title>
<article-title xml:lang="en"><![CDATA[Firefly meta-heuristic algorithm applied to artificial neural network pre-training]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rojas Delgado]]></surname>
<given-names><![CDATA[Jairo]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Trujillo Rasúa]]></surname>
<given-names><![CDATA[Rafael]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas Facultad de Ciencias y Tecnologías Computacionales ]]></institution>
<addr-line><![CDATA[ La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2018</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2018</year>
</pub-date>
<volume>12</volume>
<numero>1</numero>
<fpage>14</fpage>
<lpage>27</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992018000100002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992018000100002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992018000100002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El campo de investigaciones referente a las Redes Neuronales Artificiales (RNA) es uno de los más activos en la comunidad científica con múltiples aplicaciones recientes. El algoritmo Firefly ha sido empleado con éxito en el pre-entrenamiento de RNAs con el objetivo de evitar la convergencia en mínimos locales de métodos de entrenamiento convencionales como el algoritmo Stochastic Gradient Descent (SGD). Sin embargo, en redes con un considerable número de parámetros, el pre-entrenamiento pasa a ser un problema de optimización en espacios de elevada dimensionalidad, y la aplicación del algoritmo Firefly, así como cualquier meta-heurística, presenta limitaciones computacionales a considerar. En este trabajo se investiga una variante del algoritmo Firefly que permite entrenar una RNA con un subconjunto del conjunto de patrones de entrenamiento original sin disminuir la precisión.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Artificial Neural Networks (ANN) is an active research topic in the scientific community. Firefly algorithm has been successfully used on pre-training ANNs, aiming to avoid local minima convergence of conventional training methods such as Stochastic Gradient Descent. However, pre-training ANNs with a high number of parameters using Firefly algorithms, or any other metaheuristic optimization technique, usually is a high computationally complex task. This paper presents a variation of the firefly algorithm that trains the ANN with a subset of training patterns without causing negative effects in the convergence.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[aprendizaje profundo]]></kwd>
<kwd lng="es"><![CDATA[firefly]]></kwd>
<kwd lng="es"><![CDATA[mínimo local]]></kwd>
<kwd lng="es"><![CDATA[pre-entrenamiento]]></kwd>
<kwd lng="es"><![CDATA[redes neuronales artificiales]]></kwd>
<kwd lng="en"><![CDATA[artificial neural network]]></kwd>
<kwd lng="en"><![CDATA[deep learning]]></kwd>
<kwd lng="en"><![CDATA[firefly]]></kwd>
<kwd lng="en"><![CDATA[local minima]]></kwd>
<kwd lng="en"><![CDATA[pre-training]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Algoritmo  meta-heur&iacute;stico <em>Firefly</em> aplicado al pre-entrenamiento de redes  neuronales artificiales</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Firefly  meta-heuristic algorithm applied to artificial neural network pre-training</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Jairo Rojas Delgado<strong><sup>1*</sup></strong>, Rafael Trujillo Ras&uacute;a<strong><sup>1</sup></strong></font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup>Facultad  de Ciencias y Tecnolog&iacute;as Computacionales. Universidad de las Ciencias  Inform&aacute;ticas. La Habana, Cuba. </font>    <br> </p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span> <font size="2"><a href="mailto:jrdelgado@uci.cu">jrdelgado@uci.cu</a> </font></font>      <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El campo de investigaciones referente a las Redes Neuronales Artificiales  (RNA) es uno de los m&aacute;s activos en la comunidad cient&iacute;fica con m&uacute;ltiples  aplicaciones recientes. El algoritmo <em>Firefly</em> ha sido empleado con &eacute;xito en el pre-entrenamiento de RNAs con el objetivo de  evitar la convergencia en m&iacute;nimos locales de m&eacute;todos de entrenamiento  convencionales como el algoritmo <em>Stochastic  Gradient Descent</em> (SGD). Sin embargo, en redes con un considerable n&uacute;mero de  par&aacute;metros, el pre-entrenamiento pasa a ser un problema de optimizaci&oacute;n en  espacios de elevada dimensionalidad, y la aplicaci&oacute;n del algoritmo <em>Firefly</em>, as&iacute; como cualquier meta-heur&iacute;stica,  presenta limitaciones computacionales a considerar. En este trabajo se  investiga una variante del algoritmo <em>Firefly</em> que permite entrenar una RNA con un subconjunto del conjunto de patrones de  entrenamiento original sin disminuir la precisi&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">aprendizaje profundo, <em>firefly,</em> m&iacute;nimo local, pre-entrenamiento<em>, </em>redes  neuronales artificiales.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Artificial Neural Networks (ANN) is an active research topic in the  scientific community. Firefly algorithm has been successfully used on pre-training  ANNs, aiming to avoid local minima convergence of conventional training methods  such as Stochastic Gradient Descent. However, pre-training ANNs with a high  number of parameters using Firefly algorithms, or any other metaheuristic  optimization technique, usually is a high computationally complex task. This  paper presents a variation of the firefly algorithm that trains the ANN with a  subset of training patterns without causing negative effects in the convergence.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>artificial neural network, deep learning, firefly, local minima,  pre-training.</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El campo de investigaciones referente a las Redes Neuronales Artificiales  (RNA) es uno de los m&aacute;s activos en la comunidad cient&iacute;fica con aplicaciones recientes  en &aacute;reas como el reconocimiento de im&aacute;genes (Simonyan and Zisserman, 2014;  Ciresan et al., 2012), el procesamiento de se&ntilde;ales (Yu and Deng, 2011) y la s&iacute;ntesis  de voz (Dahl et al., 2012; Hannun et al., 2014). El entrenamiento de una RNA se  realiza a trav&eacute;s de la minimizaci&oacute;n de una superficie de error generada a partir  de la presentaci&oacute;n de patrones de entrenamiento, usualmente mediante el  procedimiento conocido como <em>Stochastic  Gradient Descent</em> (SGD), o variaciones de este, que se caracteriza por su  poca capacidad para evadir m&iacute;nimos locales. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El surgimiento relativamente reciente del Aprendizaje Profundo (<em>Deep Learning</em>) propone RNAs con un mayor  n&uacute;mero de capas, un mayor n&uacute;mero de neuronas, y consecuentemente un  considerable n&uacute;mero de par&aacute;metros, en el orden de 10<sup>6</sup> (Yu and Deng,  2011). Se ha mostrado que las superficies de error surgidas durante el  entrenamiento de RNAs de este tipo son no convexas (Janzamin et al., 2015) y la  cantidad de m&iacute;nimos locales se incrementa exponencialmente en la medida que  aumenta la cantidad de par&aacute;metros o el tama&ntilde;o de la red (Ge et al., 2015;  Lipton, 2016). Esto causa una disminuci&oacute;n de la convergencia de los m&eacute;todos de  entrenamiento tipo gradiente descendiente hacia m&iacute;nimos globales, y por tanto  de la precisi&oacute;n del entrenamiento. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos de optimizaci&oacute;n  estoc&aacute;sticos, como los algoritmos evolutivos y metaheur&iacute;sticas bioinspiradas,  han sido empleados de manera combinada con el SGD para el entrenamiento de RNAs  convencionales, con el objetivo de evitar la convergencia en m&iacute;nimos locales (Mavrovouniotis  and Yang, 2013; Sahel and Boudour, 2015). La idea b&aacute;sica es encontrar un punto  en el espacio de par&aacute;metros de la red ubicado en la pendiente donde se ubica al  m&iacute;nimo global, y posteriormente refinar la soluci&oacute;n mediante el algoritmo SGD. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El problema de entrenamiento de una RNA se formula como un problema de  optimizaci&oacute;n. Formalmente, dada una funci&oacute;n f(w,X) que mide el error de la red al evaluar un conjunto de patrones de  entrenamiento <em>X</em>, donde w <img src="/img/revistas/rcci/v12n1/fo0103118.jpg" alt="fo01" width="37" height="21"> es el vector de pesos o par&aacute;metros de una RNA, el problema de optimizaci&oacute;n  se define como:</font></p>     <p align="center"><img src="/img/revistas/rcci/v12n1/fo0203118.jpg" alt="fo02" width="246" height="36"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde</font></p>     <p align="center"><img src="/img/revistas/rcci/v12n1/fo0303118.jpg" alt="fo03" width="276" height="57"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">siendo <img src="/img/revistas/rcci/v12n1/fo0403118.jpg" alt="fo04" width="41" height="21"> la salida esperada y la salida real de la red respectivamente para el  patr&oacute;n xi del conjunto X. La definici&oacute;n de la funci&oacute;n objetivo se conoce tambi&eacute;n como el error  cuadr&aacute;tico medio (MSE, <em>Mean Squared Error</em>).</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se ha demostrado que la  optimizaci&oacute;n de los pesos de una RNA es un problema <em>NP-hard</em> (Lipton, 2016). Uno de los problemas m&aacute;s complejos se relaciona con el costo  computacional de evaluar la funci&oacute;n objetivo , pues se  debe evaluar la RNA para cada uno de los elementos del conjunto X. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la<a href="/img/revistas/rcci/v12n1/f0103118.jpg" target="_blank"> Figura 1</a>  se muestra el efecto del incremento de la cantidad de par&aacute;metros w y la cardinalidad del conjunto de patrones de entrenamiento X en la precisi&oacute;n de los modelos de RNAs. Se puede observar que no es  suficiente incrementar la cantidad de par&aacute;metros, sino tambi&eacute;n es necesario  aumentar la cantidad de patrones de entrenamiento para obtener modelos m&aacute;s  precisos. La explicaci&oacute;n de esta relaci&oacute;n tiene sus or&iacute;genes en el principio de  parsimonia u <em>overfitting</em> (Hawkins, 2004)  como se le denomina por lo regular en la bibliograf&iacute;a especializada.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El empleo de m&eacute;todos heur&iacute;sticos de optimizaci&oacute;n global aplicados al  problema de pre-entrenamiento de RNAs se encuentra actualmente limitado por la  expansi&oacute;n del espacio de b&uacute;squeda definido por w y por el costo de evaluar la funci&oacute;n objetivo f(w,X). En este trabajo se estudia el efecto de disminuir la cantidad de  patrones de entrenamiento para dirigir la b&uacute;squeda realizada mediante el  algoritmo <em>Firefly</em> (Yang and Press,  2010), el cual ha sido empleado anteriormente en problemas de elevada  dimensionalidad (Nandy et al., 2012; Nayak et al., 2015). Nuestra hip&oacute;tesis es  que si se emplea el algoritmo <em>Firefly</em> para resolver el problema (1) en el proceso de entrenamiento, es posible disminuir  la cantidad de patrones en X empleados y a la vez obtener precisiones similares.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El presente documento se encuentra estructurado de la siguiente forma: una primera  secci&oacute;n dedicada al estudio del problema de optimizaci&oacute;n que surge durante el  entrenamiento de RNAs, el problema de los m&iacute;nimos locales y el algoritmo  meta-heur&iacute;stico <em>Firefly</em>, seguida de  una segunda secci&oacute;n donde se abordan temas referidos a la configuraci&oacute;n de los  par&aacute;metros del algoritmo <em>Firefly</em>. Finalmente  se analizan los resultados experimentales obtenidos y se muestran las  conclusiones del trabajo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Entrenamiento de redes neuronales artificiales</strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Introducci&oacute;n  a las redes neuronales artificiales</strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las RNAs,  tambi&eacute;n conocidas como modelos conexionistas surgieron en 1943 introducidas por  McCulloch y Pitts en el trabajo titulado <em>Perceptrons</em>.  Una perspectiva com&uacute;n para su caracterizaci&oacute;n es la idea del Procesamiento  Paralelo Distribuido (McClelland et al., 1987). Bajo esta perspectiva las RNAs  son variaciones de un modelo de procesamiento paralelo distribuido que se  caracteriza por un grupo de aspectos de los cuales a continuaci&oacute;n se enumeran  los m&aacute;s importantes para nuestro an&aacute;lisis.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>1. Unidades de procesamiento  (Neuronas).</strong> Cada unidad de procesamiento realiza un trabajo relativamente simple:  recibir una entrada de sus unidades vecinas o de fuentes externas y usar esta  entrada para producir una se&ntilde;al de salida que se propaga luego hacia otras  unidades de procesamiento o hacia la salida de la red. En esta investigaci&oacute;n se  emplea un tipo de unidades de procesamiento conocidas en la bibliograf&iacute;a como <em>sigma-units</em> cuya regla de propagaci&oacute;n  corresponde a la <a href="#fo05">Ecuaci&oacute;n 3</a>.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12n1/fo0503118.jpg" alt="fo05" width="319" height="38"><a name="fo05"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la Ecuaci&oacute;n 3 Wjk es el peso asociado a la entrada <img src="/img/revistas/rcci/v12n1/fo0703118.jpg" alt="fo07" width="48" height="21"> es el bias correspondiente a la neurona k n un instante de tiempo t. Posteriormente el valor sk se eval&uacute;a en una <em>funci&oacute;n de  activaci&oacute;n</em> para acotar la contribuci&oacute;n de la entrada neta en la activaci&oacute;n  de la neurona. Frecuentemente se emplea una funci&oacute;n no decreciente como la que  se muestra en la <a href="#fo06">Ecuaci&oacute;n 4</a>.</font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v12n1/fo0603118.jpg" alt="fo06" width="243" height="42"></p>     <p><font size="2"><strong align="center"><font face="Verdana, Arial, Helvetica, sans-serif">2. Patr&oacute;n de conectividad entre unidades de procesamiento.</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"> Las unidades de procesamiento se encuentran conectadas unas con otras. La  forma en que se establecen estas conexiones determina lo que la red es capaz de  representar y aprender. Entre las arquitecturas de conexi&oacute;n m&aacute;s frecuentes se  encuentran las redes <em>feed-forward</em>, <em>recurrent</em> y <em>convolutional</em>. </font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las redes <em>feed-forward</em> son las m&aacute;s simples y empleadas <a href="#f02">(Figura 2)</a>. Esta  arquitectura se basa en un grupo de capas de unidades organizadas en cascada.  Las unidades ubicadas en una misma capa no poseen conexiones entre ellas, reciben  su entrada de la salida de las unidades ubicadas en la capa anterior, y env&iacute;an  sus salidas a las unidades en la capa posterior. Por simplicidad en lo  subsiguiente se asumir&aacute; que una RNA del tipo <em>feed-forward</em> se encuentra conformada por una capa de neuronas de  entrada, la cual no realiza procesamiento, una capa de neuronas intermedias u  ocultas y una capa de neuronas de salida. Esta configuraci&oacute;n particular es  ampliamente reconocida como una red del tipo <em>multilayer perceptron</em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>3</strong>. <strong>Regla de aprendizaje.</strong> Para que una red reconozca  determinado problema es necesario un procedimiento que modifique los patrones  de conectividad a partir de la experiencia obtenida de los patrones de  entrenamiento. Esto significa entrenar la red o, lo que es lo mismo, modificar  los pesos &nbsp;que ponderan la importancia de las entradas de  cada neurona. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el entrenamiento de RNAs  tradicionalmente se emplea el algoritmo SGD. Este algoritmo realiza un  recorrido en el espacio de par&aacute;metros de una red de forma tal que se minimice  la funci&oacute;n de error f(w, X), </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">siguiendo iterativamente la  direcci&oacute;n de un gradiente de error calculado en un punto inicial aleatorio del  espacio de par&aacute;metros. En cada paso se realizan peque&ntilde;os movimientos en la  direcci&oacute;n contraria de dicho gradiente hasta que encuentra un m&iacute;nimo. Debido a  este comportamiento, la familia de algoritmos basados en gradiente descendente  es sensible a converger en m&iacute;nimos locales del espacio de par&aacute;metros, y por  tanto es sensible a los valores iniciales de los pesos de la red.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12n1/f0203118.jpg" alt="f02" width="421" height="305"><a name="f02"></a></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Optimizadores globales para el  problema de los m&iacute;nimos locales </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Investigadores del campo de <em>Deep Learning</em> coinciden en que los modelos construidos convergen en m&iacute;nimos locales (Lipton,  2016). El problema se agudiza al considerar que bajo ciertas condiciones, la  gran mayor&iacute;a de irregularidades en las superficies de error no son m&iacute;nimos  locales sino puntos de montura (<em>saddle  points</em>) que se comportan como un m&iacute;nimo y un m&aacute;ximo local simult&aacute;neamente (Lipton,  2016). La dificultad fundamental es que dichos puntos de montura se encuentran  rodeados por elevadas plataformas de error que pueden disminuir  considerablemente la velocidad de convergencia de los algoritmos de aprendizaje  (Janzamin et al., 2015). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos estoc&aacute;sticos de b&uacute;squeda se caracterizan por ser optimizadores  globales (Khan and Sahai, 2012; Mavrovouniotis and Yang, 2013; Raja and  Rajagopalan, 2014). El objetivo de estas soluciones es emplear algoritmos meta-heur&iacute;sticos  con dos rasgos fundamentales: explotaci&oacute;n local y exploraci&oacute;n global. Existen  reportes experimentales de resultados para meta-heur&iacute;sticas como <em>Cuckoo Search</em> (Valian et al., 2011; Nawi  et al., 2015a; Sreeshakthy and Preethi, 2016), <em>Firefly</em> (Nandy et al., 2012; Nayak et al., 2015), <em>Wolf Search</em> (Nawi et al., 2015b),  colonia de hormigas (Mavrovouniotis and Yang, 2013; Pandian, 2013), enjambre de  part&iacute;culas (Gudise and Venayagamoorthy, 2003) y enfoques h&iacute;bridos (Chen et al.,  2015).</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Entrenamiento basado en el algoritmo  metaheur&iacute;stico <em>Firefly</em></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo <em>Firefly</em> fue desarrollado  por Xin-She Yang en el a&ntilde;o 2007, inspirado en el apareamiento de las  luci&eacute;rnagas mediante destellos de luz (bioluminiscencia) De acuerdo a (Yang,  2012) el algoritmo <em>Firefly</em> se basa en  tres principios idealizados: todas las luci&eacute;rnagas son del mismo sexo; la  atracci&oacute;n entre dos luci&eacute;rnagas es proporcional a su brillo y a la distancia  entre ellas, de forma tal que la de menor brillo se mover&aacute; hacia la de mayor  brillo; y el brillo de una luci&eacute;rnaga se encuentra determinado por la funci&oacute;n  objetivo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el <a href="/img/revistas/rcci/v12n1/fo0903118.jpg" target="_blank">Algoritmo 1</a> se indican  los pasos fundamentales del algoritmo <em>Firefly</em>.  En el paso 1 del algoritmo se genera aleatoriamente la poblaci&oacute;n inicial de  luci&eacute;rnagas. La generaci&oacute;n aleatoria de la poblaci&oacute;n de luci&eacute;rnagas determina  la capacidad de exploraci&oacute;n global del algoritmo. En nuestro problema, cada  luci&eacute;rnaga representa un vector de pesos <em>, </em>por lo que se generan n&uacute;meros  aleatorios para cada peso </font><img src="/img/revistas/rcci/v12n1/fo0803118.jpg" alt="fo08" width="27" height="26"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">siguiendo una distribuci&oacute;n normal.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el paso 2 del algoritmo se calcula el brillo de cada individuo a  partir de la funci&oacute;n objetivo, que para nuestro problema ser&iacute;a la definida en  la Ecuaci&oacute;n 2. En el paso 3 se establece un grupo de par&aacute;metros de configuraci&oacute;n  del algoritmo. El coeficiente de absorci&oacute;n &lambda; simula el fen&oacute;meno de atenuaci&oacute;n de la luz entre dos luci&eacute;rnagas  respecto a la distancia entre ellas. La atracci&oacute;n &beta; cuando la distancia entre dos luci&eacute;rnagas es cero es una especie de  ratio de aprendizaje que controla el paso en que una luci&eacute;rnaga se mueve en  direcci&oacute;n a otra m&aacute;s brillante. Finalmente el par&aacute;metro de aleatoriedad &eta; controla en qu&eacute; medida una luci&eacute;rnaga puede moverse de forma aleatoria, por  lo que este par&aacute;metro tiene una estrecha relaci&oacute;n con la capacidad de exploraci&oacute;n  del algoritmo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El paso 4 es el ciclo de ejecuci&oacute;n del algoritmo, determinado por un n&uacute;mero  m&aacute;ximo de iteraciones, aunque bien puede ser condicionado mediante alguna  medida de precisi&oacute;n de la soluci&oacute;n dada una tolerancia de error. Los pasos del  5 al 10 simulan el movimiento de las luci&eacute;rnagas menos brillantes hacia aquellas  de mayor brillo. Esto provoca que cada individuo realice una exploraci&oacute;n en el  espacio de par&aacute;metros con una elevada probabilidad de encontrar la soluci&oacute;n  global. En el paso 15 el algoritmo devuelve el mejor individuo de la poblaci&oacute;n,  que ser&iacute;a la soluci&oacute;n encontrada.</font></p>     <p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Aproximaciones de la funci&oacute;n  objetivo para reducir la complejidad temporal de su evaluaci&oacute;n</font></strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si el espacio de par&aacute;metros de una RNA estuviera constituido por solo dos  pesos, la superficie de error definida por los patrones de entrenamiento  pudiera representarse como un paisaje conformado por valles y colinas. Un  individuo en un punto cualquiera de ese paisaje en busca de una elevaci&oacute;n tendr&iacute;a  que decidir en qu&eacute; direcci&oacute;n ir. Esto se corresponde al hecho de generar un  grupo de soluciones candidatas y, sobre la base de cierta experiencia, elegir  cu&aacute;l podr&iacute;a ser la mejor. En la pr&aacute;ctica esa experiencia se encuentra modelada  en la funci&oacute;n objetivo. La funci&oacute;n objetivo de alguna forma representa una  medida de la altura o calidad de cada soluci&oacute;n candidata.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Planteamos la conjetura de que no es necesario obtener una medici&oacute;n altamente  precisa de la funci&oacute;n objetivo para comparar cualitativamente soluciones  candidatas. Por ejemplo, no siempre es un requisito conocer la cantidad exacta de  metros de altura de dos elevaciones para estimar que una es m&aacute;s alta que la  otra. De este modo, es posible reducir la cantidad de patrones que se emplean  para calcular el valor de la funci&oacute;n objetivo sin que esto afecte la capacidad  de exploraci&oacute;n y explotaci&oacute;n del algoritmo <em>Firefly</em>.  Para reducir la cantidad de patrones se realiza un muestreo del conjunto de  entrenamiento inicial. Este muestreo se realiza aleatoriamente siguiendo una  distribuci&oacute;n uniforme.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Selecci&oacute;n de bases de datos de  prueba y configuraci&oacute;n de par&aacute;metros</font></strong> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n se describe un grupo de pruebas realizadas para constatar  el efecto de disminuir la cantidad de patrones de entrenamiento en la velocidad  de convergencia del algoritmo <em>Firefly</em> aplicado al problema de pre-entrenamiento de RNAs. Las pruebas se realizaron  empleando una RNA <em>mutlilayer perceptron</em> con unidades <em>sigmoid</em>. Para medir la  calidad de cada individuo se emple&oacute; la m&eacute;trica MSE (Ecuaci&oacute;n 2). Para las  pruebas se escogieron tres modelos de RNAs obtenidos de las siguientes bases de  datos de regresi&oacute;n (Lichman, 2013): </font></p>     <p>   <ol>     <p></p> <ol>       <li>         <p><font size="2"><strong><em><font face="Verdana, Arial, Helvetica, sans-serif">Wine  Quality Data Set</font></em></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong>.</strong> Se trata de una base de datos  relacionada con muestras de vino tinto tomadas en el norte de Portugal. El  objetivo es predecir la calidad del vino basado en un grupo de pruebas f&iacute;sico-qu&iacute;micas.  La base de datos contiene 4898 instancias y 12 atributos. El modelo de RNA se  compone de 11 unidades de entrada, 14 unidades intermedias y 1 unidad de salida  para un total de 183 par&aacute;metros.</font></font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong><em>Concrete  Compressive Strength Data Set</em>.</strong> La base de datos est&aacute; relacionada con la  capacidad compresiva del concreto. La fortaleza compresiva del concreto es una  funci&oacute;n no lineal que involucra el tiempo y los ingredientes empleados. El  problema consiste en predecir la fortaleza compresiva de un concreto  caracterizado por sus atributos o ingredientes. La base de datos contiene 1030  instancias, para las cuales se consideran 9 atributos. Las pruebas se  realizaron empleando una RNA con 8 unidades de entrada, 14 unidades intermedias  y 1 unidad de salida para un total de 141 par&aacute;metros.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong><em>Combined  Cycle Power Plant Data Set</em>.</strong> Esta base de datos contiene informaci&oacute;n relacionada con el ciclo de  producci&oacute;n de energ&iacute;a de una planta durante 6 a&ntilde;os. Los atributos consisten en  variables ambientales como la presi&oacute;n, la temperatura y la humedad relativa. El  objetivo es predecir la cantidad de energ&iacute;a el&eacute;ctrica que la planta produce  cada hora. La base de datos posee 9568 instancias y 5 atributos. Las pruebas se  llevaron a cabo con modelos de 4 unidades de entrada, 17 unidades intermedias y  1 unidad de salida para un total de 103 par&aacute;metros.</font></p>   </li>     ]]></body>
<body><![CDATA[</ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los algoritmos <em>Firefly </em>ySGD se configuraron empleando SMAC (Hutter,  2011), un algoritmo de optimizaci&oacute;n autom&aacute;tica de hiper-par&aacute;metros. En base a  trabajos previos y recomendaciones en la literatura (Nandy, 2012), se decidi&oacute;  que el tama&ntilde;o de la poblaci&oacute;n para el algoritmo <em>Firefly</em> sea de 40 individuos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Medici&oacute;n de la precisi&oacute;n del  algoritmo <em>Firefly</em> empleando  diferentes cantidades de patrones de entrenamiento</strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El objetivo de esta prueba es realizar una medici&oacute;n de la precisi&oacute;n del  algoritmo <em>Firefly</em> cuando se emplean  diferentes cantidades de patrones de entrenamiento en comparaci&oacute;n con el  algoritmo SGD. Con precisi&oacute;n se refiere al MSE del mejor individuo. La medici&oacute;n  del MSE se realiza con todos los patrones de la base de datos, pero el  entrenamiento con un subconjunto de este.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="#f03">Figura 3</a> puede apreciarse el promedio del MSE al  emplear distintas cantidades de patrones de entrenamiento para la base de datos  1. En escala de grises, las tonalidades m&aacute;s claras representan una menor  cantidad de patrones de entrenamiento comenzando con 50 patrones hasta 1000  patrones con paso 50. En l&iacute;nea azul se presenta el comportamiento del MSE al  emplear todos los patrones de entrenamiento. Las mediciones se realizaron con  una granularidad de 3 iteraciones en el intervalo de 1 a 500.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="#f03">Figura 3</a> sugiere un incremento en la velocidad de  convergencia del algoritmo <em>Firefly</em> al  emplear menor cantidad de patrones de entrenamientos. En las primeras  iteraciones del algoritmo se aprecia c&oacute;mo los individuos de la poblaci&oacute;n exploran  el espacio de par&aacute;metros resultando en oscilaciones pronunciadas del MSE.  Posteriormente en las iteraciones siguientes el MSE decae hasta cierto m&iacute;nimo.  Se puede observar que en la medida que la cantidad de patrones se incrementa el  algoritmo comienza a converger en una menor cantidad de iteraciones y en  mejores soluciones. Sin embargo, al emplear todos los patrones de entrenamiento  (ver curva azul) el algoritmo converge m&aacute;s lentamente y en soluciones m&aacute;s  pobres.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12n1/f0303118.jpg" alt="f03" width="556" height="250"><a name="f03"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A continuaci&oacute;n,  se muestran los resultados de mediciones del MSE promedio para las tres bases  de datos estudiadas. Para cada base de datos y para cada cantidad de patrones  de entrenamiento se repitieron las mediciones 10 veces, calculando el promedio del  MSE promedio en el cual el algoritmo convergi&oacute;. En la <a href="/img/revistas/rcci/v12n1/t0103118.jpg" target="_blank">Tabla <em>1</em></a> se presentan los resultados de estas mediciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como puede apreciarse, el empleo  de un subconjunto de patrones de la base de datos inicial para dirigir la  exploraci&oacute;n del espacio de par&aacute;metros de una RNA mediante el algoritmo <em>Firefly</em> es factible. Los resultados  muestran que el MSE de los subconjuntos de patrones de entrenamiento se  comporta de manera similar al MSE cuando todos los patrones de entrenamiento  son empleados para el algoritmo <em>Firefly</em>. Sin embargo, este comportamiento no parece mantenerse en el caso del  algoritmo SGD, donde la precisi&oacute;n decrece al emplear una menor cantidad de  patrones de entrenamiento.</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES Y RECOMENDACIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De forma general, la investigaci&oacute;n arroj&oacute; las siguientes conclusiones:</font></p> <ol>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El empleo de un subconjunto de  patrones para dirigir la b&uacute;squeda en el espacio de par&aacute;metros de una RNA  mediante el algoritmo <em>Firefly</em> ofrece  resultados similares en cuanto a precisi&oacute;n, comparado con el empleo de todos  los patrones.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Desde el punto de vista  experimental, emplear un subconjunto de patrones para dirigir la b&uacute;squeda en el  espacio de par&aacute;metros de una RNA posibilita contar con m&aacute;s datos de validaci&oacute;n  que no son utilizados durante el entrenamiento por lo que es posible reducir el  intervalo de confianza para la estimaci&oacute;n de errores.</font></p>   </li>       <li>         <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mediante la disminuci&oacute;n de la cantidad  de patrones de entrenamiento se disminuye la complejidad temporal de la funci&oacute;n  objetivo que se emplea en la resoluci&oacute;n del problema de optimizaci&oacute;n que surge en  el pre-entrenamiento de RNAs, haciendo posible tratar problemas de mayores  dimensiones.</font></p>   </li>     </ol>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHEN  Jeng-Fung, DO Quang-Hung, and Ho-Nien Hsieh. Training artificial neural  networks by a hybrid pso-cs algorithm. <em>Algorithms</em>,  8(2):292&ndash;308, 2015.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHILIMBI  Trishul, SUZUE Yutaka, APACIBLE Johnson, and KALYANARAMAN Karthik. Project  adam: Building an efficient and scalable deep learning training system. In <em>11th USE-NIX Symposium on Operating Systems  Design and Implementation (OSDI 14)</em>, pages 571&ndash;582, 2014.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CIRESAN  Dan, MEIER Ueli, and SCHMIDHUBER Jurgen. Multi-column deep neural networks for  image classification. In <em>Computer Vision  and Pattern Recognition (CVPR), 2012 IEEE Conference on</em>, pages 3642&ndash;3649.  IEEE, 2012.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DAHL  George E, YU Dong, DENG Li, and ACERO Alex. Context-dependent pre-trained deep  neural networks for large-vocabulary speech recognition. Audio, Speech, and  Language Processing, <em>IEEE Transactions</em> on, 20(1):30&ndash;42, 2012.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GE,  Rong, et al. Escaping from saddle points&mdash;online stochastic gradient for tensor  decomposition. En Conference on Learning Theory. 2015. p. 797-842. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GUDISE  Venu G and VENAYAGAMOORTHY Ganesh K. Comparison of particle swarm optimization  and backpropagation as training algorithms for neural networks. In <em>Swarm Intelligence Symposium</em>, 2003.  SIS&rsquo;03. Proceedings of the 2003 IEEE, pages 110&ndash;117. IEEE, 2003.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HANNUN  Awni Y, MAAS Andrew L, JURAFSKY Daniel, and ANDREW Y Ng. First-pass large  vocabulary continuous speech recognition using bi-directional recurrent dnns. <em>ArXiv preprint arXiv</em>:1408.2873, 2014.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HAWKINS  Douglas M. The problem of overfitting. <em>Journal  of chemical information and computer sciences</em>, 44(1):1&ndash;12, 2004.</font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HUTTER,  Frank; HOOS, Holger H.; LEYTON-BROWN, Kevin. Sequential Model-Based  Optimization for General Algorithm Configuration. <em>LION</em>, 2011, vol. 5, p.  507-523.     </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JANZAMIN  Majid, SEDGHI Hanie, and ANANDKUMAR Anima. Beating the perils of non-convexity:  Guaranteed training of neural networks using tensor methods. <em>CoRR</em> abs/1506.08473, 2015.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KHAN  Koffka and SAHAI Ashok. A comparison of ba, ga, pso, bp and lm for training  feed forward neural networks in e-learning context. <em>International Journal of Intelligent Systems and Applications</em>,  4(7):23, 2012.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LICHMAN  M. UCI machine <a href="http://archive.ics.uci.edu/ml">http://archive.ics.uci.edu/ml</a>.  2013.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LIPTON  Zachary C. Stuck in a what? Adventures in weight space. <em>arXiv preprint arXiv</em>:1602.07320, 2016.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MAVROVOUNIOTIS  Michalis and YANG Shengxiang. Evolving neural networks using ant colony  optimization with pheromone trail limits. In <em>Computational Intelligence (UKCI),</em> <em>2013 13th UK Workshop</em> on, pages 16&ndash;23. IEEE, 2013.</font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MCCLELLAND  James L, RUMELHART David E, PDP Research Group, et al. <em>Parallel distributed processing</em>, volume 2. MIT press Cambridge, MA,  1987.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NANDY  Sudarshan, SARKAR Partha Pratim, and DAS Achintya. Analysis of a nature  inspired firefly algorithm based back-propagation neural network training. <em>arXiv preprint arXiv</em>:1206.5360, 2012.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NAWI  Nazri Mohd, KHAN Abdullah, and REHMAN MZ. Data classification using  metaheuristic cuckoo search technique for levenberg marquardt back propagation  (cslm) algorithm. In<em> INTERNATIONAL  CONFERENCE ON MATHEMATICS, ENGINEERING AND INDUSTRIAL APPLICATIONS 2014</em> (ICoMEIA 2014), volume 1660, page 050068. AIP Publishing, 2015a.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NAWI  Nazri Mohd, REHMAN MZ, and KHAN Abdullah. Ws-bp: An efficient wolf search based  back-propagation algorithm. In <em>INTERNATIONAL  CONFERENCE ON MATHEMATICS, ENGINEERING AND INDUSTRIAL APPLICATIONS 2014</em> (ICoMEIA 2014), volume 1660, page 050027. AIP Publishing, 2015b.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">NAYAK  Janmenjoy, NAIK Bighnaraj, and BEHERA HS. A novel nature inspired firefly  algorithm with higher order neural network: Performance analysis. <em>Engineering Science and Technology, an  International Journal, </em>2015.    </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PANDIAN  Arun. Training neural networks with ant colony optimization. PhD thesis,  California State University, Sacramento, 2013.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RAJA  V Saishanmuga and RAJAGOPALAN SP. A comparative analysis of optimization  techniques for artificial neural network in bio medical applications. <em>Journal of computer science</em>, 10(1):106,  2014.    </font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SIMONYAN  Karen and ZISSERMAN Andrew. Very deep convolutional networks for large-scale  image recognition. <em>arXiv preprint arXiv</em>:1409.1556,  2014.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SREESHAKTHY  M and PREETHI J. Classification of human emotion from deap eeg signal using  hybrid improved neural networks with cuckoo search. BRAIN. <em>Broad Research in Artificial Intelligence and Neuroscience</em>,  6(3-4):60&ndash;73, 2016.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VALIAN  Ehsan, MOHANNA Shahram, and TAVAKOLI Saeed. Improved cuckoo search algorithm  for feedforward neural network training. <em>International  Journal of Artificial Intelligence &amp; Applications</em>, 2(3):36&ndash;43, 2011.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VASSILVITSKII  Sergei and ARTHUR David. k-means++: The advantages of careful seeding. In <em>Proceedings of the eighteenth annual  ACM-SIAM symposium on Discrete algorithms</em>, pages 1027&ndash;1035, 2006.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">XU  Rui and WUNSCH Don. Clustering, volume 10. John Wiley &amp; Sons, 2008.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG  Xin-She. Chaos-enhanced firefly algorithm with automatic parameter tuning. Int  J Swarm Intell Res, 2(4):125&ndash;36, 2012.</font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG  Xin-She and PRESS Luniver. Nature-inspired  metaheuristic algorithms second edition. 2010.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YU Dong and DENG Li. Deep learning and its applications to  signal and information processing [exploratory dsp]. Signal Processing  Magazine, IEEE, 28(1):145&ndash;154, 2011. </font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 02/10/2017    <br> Aceptado: 29/01/2017</font></p>     </ol>    ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHEN]]></surname>
<given-names><![CDATA[Jeng-Fung]]></given-names>
</name>
<name>
<surname><![CDATA[DO]]></surname>
<given-names><![CDATA[Quang-Hung]]></given-names>
</name>
<name>
<surname><![CDATA[Ho-Nien]]></surname>
<given-names><![CDATA[Hsieh]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Training artificial neural networks by a hybrid pso-cs algorithm.]]></article-title>
<source><![CDATA[]]></source>
<year>2015</year>
<volume>8</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>292-308</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHILIMBI]]></surname>
<given-names><![CDATA[Trishul]]></given-names>
</name>
<name>
<surname><![CDATA[SUZUE]]></surname>
<given-names><![CDATA[Yutaka]]></given-names>
</name>
<name>
<surname><![CDATA[APACIBLE]]></surname>
<given-names><![CDATA[Johnson]]></given-names>
</name>
<name>
<surname><![CDATA[KALYANARAMAN]]></surname>
<given-names><![CDATA[Karthik]]></given-names>
</name>
</person-group>
<source><![CDATA[Project adam: Building an efficient and scalable deep learning training system.]]></source>
<year>2014</year>
<page-range>571-582</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CIRESAN]]></surname>
<given-names><![CDATA[Dan]]></given-names>
</name>
<name>
<surname><![CDATA[MEIER]]></surname>
<given-names><![CDATA[Ueli]]></given-names>
</name>
<name>
<surname><![CDATA[SCHMIDHUBER]]></surname>
<given-names><![CDATA[Jurgen]]></given-names>
</name>
</person-group>
<source><![CDATA[Multi-column deep neural networks for image classification.]]></source>
<year>2012</year>
<page-range>3642-3649</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DAHL]]></surname>
<given-names><![CDATA[George E]]></given-names>
</name>
<name>
<surname><![CDATA[YU]]></surname>
<given-names><![CDATA[Dong]]></given-names>
</name>
<name>
<surname><![CDATA[DENG]]></surname>
<given-names><![CDATA[Li]]></given-names>
</name>
<name>
<surname><![CDATA[ACERO]]></surname>
<given-names><![CDATA[Alex]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>20</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>30-42</page-range><publisher-name><![CDATA[IEEE Transactions]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GE]]></surname>
<given-names><![CDATA[Rong]]></given-names>
</name>
</person-group>
<source><![CDATA[Escaping from saddle points-online stochastic gradient for tensor decomposition.]]></source>
<year>2015</year>
<page-range>797-842</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUDISE]]></surname>
<given-names><![CDATA[Venu G]]></given-names>
</name>
<name>
<surname><![CDATA[VENAYAGAMOORTHY]]></surname>
<given-names><![CDATA[Ganesh K]]></given-names>
</name>
</person-group>
<source><![CDATA[Comparison of particle swarm optimization and backpropagation as training algorithms for neural networks.]]></source>
<year>2003</year>
<page-range>110-117</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HANNUN]]></surname>
<given-names><![CDATA[Awni Y]]></given-names>
</name>
<name>
<surname><![CDATA[MAAS]]></surname>
<given-names><![CDATA[Andrew L]]></given-names>
</name>
<name>
<surname><![CDATA[JURAFSKY]]></surname>
<given-names><![CDATA[Daniel]]></given-names>
</name>
<name>
<surname><![CDATA[ANDREW]]></surname>
<given-names><![CDATA[Y Ng]]></given-names>
</name>
</person-group>
<source><![CDATA[First-pass large vocabulary continuous speech recognition using bi-directional recurrent dnns.]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HAWKINS]]></surname>
<given-names><![CDATA[Douglas M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The problem of overfitting]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>44</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-12</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HUTTER]]></surname>
<given-names><![CDATA[Frank]]></given-names>
</name>
<name>
<surname><![CDATA[HOOS]]></surname>
<given-names><![CDATA[Holger H.]]></given-names>
</name>
<name>
<surname><![CDATA[LEYTON-BROWN]]></surname>
<given-names><![CDATA[Kevin]]></given-names>
</name>
</person-group>
<source><![CDATA[Sequential Model-Based Optimization for General Algorithm Configuration]]></source>
<year>2011</year>
<volume>5</volume>
<page-range>507-523</page-range><publisher-loc><![CDATA[^eLION LION]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JANZAMIN]]></surname>
<given-names><![CDATA[Majid]]></given-names>
</name>
<name>
<surname><![CDATA[SEDGHI]]></surname>
<given-names><![CDATA[Hanie]]></given-names>
</name>
<name>
<surname><![CDATA[ANANDKUMAR]]></surname>
<given-names><![CDATA[Anima]]></given-names>
</name>
</person-group>
<source><![CDATA[Beating the perils of non-convexity: Guaranteed training of neural networks using tensor methods]]></source>
<year>2015</year>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KHAN]]></surname>
<given-names><![CDATA[Koffka]]></given-names>
</name>
<name>
<surname><![CDATA[SAHAI]]></surname>
<given-names><![CDATA[Ashok]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A comparison of ba, ga, pso, bp and lm for training feed forward neural networks in e-learning context.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>4</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>23</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LICHMAN]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[UCI machine]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LIPTON]]></surname>
<given-names><![CDATA[Zachary C.]]></given-names>
</name>
</person-group>
<source><![CDATA[Stuck in a what? Adventures in weight space.]]></source>
<year>2016</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAVROVOUNIOTIS]]></surname>
<given-names><![CDATA[Michalis]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[Shengxiang]]></given-names>
</name>
</person-group>
<source><![CDATA[Evolving neural networks using ant colony optimization with pheromone trail limits.]]></source>
<year>2013</year>
<page-range>16-23</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MCCLELLAND]]></surname>
<given-names><![CDATA[James L]]></given-names>
</name>
<name>
<surname><![CDATA[RUMELHART]]></surname>
<given-names><![CDATA[David E]]></given-names>
</name>
</person-group>
<collab>PDP Research Group</collab>
<source><![CDATA[Parallel distributed processing,]]></source>
<year></year>
<volume>2</volume>
<page-range>1987</page-range><publisher-name><![CDATA[MIT press Cambridge,]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NANDY]]></surname>
<given-names><![CDATA[Sudarshan]]></given-names>
</name>
<name>
<surname><![CDATA[SARKAR]]></surname>
<given-names><![CDATA[Partha Pratim]]></given-names>
</name>
<name>
<surname><![CDATA[DAS]]></surname>
<given-names><![CDATA[Achintya]]></given-names>
</name>
</person-group>
<source><![CDATA[Analysis of a nature inspired firefly algorithm based back-propagation neural network training.]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NAWI]]></surname>
<given-names><![CDATA[Nazri Mohd]]></given-names>
</name>
<name>
<surname><![CDATA[KHAN]]></surname>
<given-names><![CDATA[Abdullah]]></given-names>
</name>
<name>
<surname><![CDATA[REHMAN]]></surname>
<given-names><![CDATA[MZ]]></given-names>
</name>
</person-group>
<source><![CDATA[Data classification using metaheuristic cuckoo search technique for levenberg marquardt back propagation (cslm) algorithm.]]></source>
<year>2015</year>
<month>a</month>
<volume>1660</volume>
<page-range>050068</page-range><publisher-name><![CDATA[AIP Publishing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NAWI]]></surname>
<given-names><![CDATA[Nazri Mohd]]></given-names>
</name>
<name>
<surname><![CDATA[REHMAN]]></surname>
<given-names><![CDATA[MZ]]></given-names>
</name>
<name>
<surname><![CDATA[KHAN]]></surname>
<given-names><![CDATA[Abdullah]]></given-names>
</name>
</person-group>
<source><![CDATA[Ws-bp: An efficient wolf search based back-propagation algorithm.]]></source>
<year>2015</year>
<month>b</month>
<volume>1660</volume>
<page-range>050027</page-range><publisher-name><![CDATA[AIP Publishing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NAYAK]]></surname>
<given-names><![CDATA[Janmenjoy]]></given-names>
</name>
<name>
<surname><![CDATA[NAIK]]></surname>
<given-names><![CDATA[Bighnaraj]]></given-names>
</name>
<name>
<surname><![CDATA[BEHERA]]></surname>
<given-names><![CDATA[HS]]></given-names>
</name>
</person-group>
<source><![CDATA[A novel nature inspired firefly algorithm with higher order neural network: Performance analysis]]></source>
<year>2015</year>
<publisher-name><![CDATA[Engineering Science and Technology, an International Journal]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PANDIAN]]></surname>
<given-names><![CDATA[Arun]]></given-names>
</name>
</person-group>
<source><![CDATA[Training neural networks with ant colony optimization.]]></source>
<year>2013</year>
<publisher-name><![CDATA[California State University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RAJA V]]></surname>
<given-names><![CDATA[Saishanmuga]]></given-names>
</name>
<name>
<surname><![CDATA[RAJAGOPALAN]]></surname>
<given-names><![CDATA[SP]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A comparative analysis of optimization techniques for artificial neural network in bio medical applications]]></article-title>
<source><![CDATA[]]></source>
<year>2014</year>
<volume>10</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>106</page-range></nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SIMONYAN]]></surname>
<given-names><![CDATA[Karen]]></given-names>
</name>
<name>
<surname><![CDATA[ZISSERMAN]]></surname>
<given-names><![CDATA[Andrew]]></given-names>
</name>
</person-group>
<source><![CDATA[Very deep convolutional networks for large-scale image recognition.]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SREESHAKTHY]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[PREETHI]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Classification of human emotion from deap eeg signal using hybrid improved neural networks with cuckoo search.]]></article-title>
<source><![CDATA[]]></source>
<year>2016</year>
<volume>6</volume>
<numero>3-4</numero>
<issue>3-4</issue>
<page-range>60-73</page-range></nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VALIAN]]></surname>
<given-names><![CDATA[Ehsan]]></given-names>
</name>
<name>
<surname><![CDATA[MOHANNA]]></surname>
<given-names><![CDATA[Shahram]]></given-names>
</name>
<name>
<surname><![CDATA[TAVAKOLI]]></surname>
<given-names><![CDATA[Saeed]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improved cuckoo search algorithm for feedforward neural network training.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>2</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>36-43</page-range></nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VASSILVITSKII]]></surname>
<given-names><![CDATA[Sergei]]></given-names>
</name>
<name>
<surname><![CDATA[ARTHUR]]></surname>
<given-names><![CDATA[David]]></given-names>
</name>
</person-group>
<source><![CDATA[k-means++: The advantages of careful seeding.]]></source>
<year>2006</year>
<page-range>1027-1035</page-range></nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[XU]]></surname>
<given-names><![CDATA[Rui]]></given-names>
</name>
<name>
<surname><![CDATA[WUNSCH]]></surname>
<given-names><![CDATA[Don]]></given-names>
</name>
</person-group>
<source><![CDATA[Clustering]]></source>
<year>2008</year>
<volume>10</volume>
<publisher-name><![CDATA[John Wiley & Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[Xin-She]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Chaos-enhanced firefly algorithm with automatic parameter tuning.]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>2</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>125-36</page-range></nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[Xin-She]]></given-names>
</name>
<name>
<surname><![CDATA[PRESS]]></surname>
<given-names><![CDATA[Luniver]]></given-names>
</name>
</person-group>
<source><![CDATA[Nature-inspired metaheuristic algorithms second edition.]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YU]]></surname>
<given-names><![CDATA[Dong]]></given-names>
</name>
<name>
<surname><![CDATA[DENG]]></surname>
<given-names><![CDATA[Li]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Deep learning and its applications to signal and information processing ENT#091;exploratory dspENT#093;]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>28</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>145-154</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
