<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992013000400002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos]]></article-title>
<article-title xml:lang="en"><![CDATA[A review of feature selection algorithms that treat the microarray data redundancy]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez-Rubido]]></surname>
<given-names><![CDATA[Roxana]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas Facultad 7 Departamento Ciencias Básicas]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2013</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2013</year>
</pub-date>
<volume>7</volume>
<numero>4</numero>
<fpage>16</fpage>
<lpage>30</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992013000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992013000400002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992013000400002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En los últimos tiempos, el análisis de la redundancia en los algoritmos de selección de atributos en el aprendizaje automático, se ha convertido en una constante. Estudios han demostrado que los porcientos de predicción al eliminar estos atributos son mejores que los obtenidos en los casos donde no se hace. Además, al descartarlos se disminuye la complejidad temporal del clasificador al tener menos datos que procesar. En la actualidad, los algoritmos han evolucionado en ese sentido y tratan la redundancia de diferentes formas y con diferentes criterios. El principal objetivo del presente trabajo es presentar diferentes criterios de evaluación para tratar la redundancia en datos microarreglos de ADN. En el estudio se aplicaron los métodos análisis y síntesis, histórico-lógico e inductivo-deductivo. Se realizó una revisión bibliográfica de artículos publicados desde la década del 90 que presentan algoritmos para seleccionar atributos y que tienen en cuenta la dependencia entre ellos. En el artículo se describen de forma general los pasos, el criterio empleado en el análisis de la redundancia y algunas de las ventajas y desventajas de los mismos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In recent times, the redundancy analysis in attribute selection algorithms in machine learning has become a constant. Studies have shown that the percentages of prediction, after removing these attributes, are better than the cases where it is not. Furthermore, by excluding it from data set, the temporal complexity of the classifier is reduced because it has less data to process. In the actually, the algorithms have evolved in this regard and treat redundancy in different ways and with different criteria. The main aim of this review is to present the different evaluation criteria to address data redundancy in ADN microarrays. The study applied analysis-synthesis, historic-logical and inductive-deductive methods. We conducted a literature review of articles published since the 90's which contain algorithms to select attributes and take into account the dependency between them. The article describe a general way, his steps, the criterion used in the analysis of redundancy and some of its advantages and disadvantages.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Algoritmos filtros]]></kwd>
<kwd lng="es"><![CDATA[análisis de redundancia]]></kwd>
<kwd lng="es"><![CDATA[criterios de evaluación]]></kwd>
<kwd lng="es"><![CDATA[selección de atributos]]></kwd>
<kwd lng="en"><![CDATA[Analysis of redundancy]]></kwd>
<kwd lng="en"><![CDATA[evaluation criteria]]></kwd>
<kwd lng="en"><![CDATA[feature selection]]></kwd>
<kwd lng="en"><![CDATA[filter algorithms]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    DE REVISI&Oacute;N</B></font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="4">Una    revisi&oacute;n a algoritmos de selecci&oacute;n de atributos que tratan la    redundancia en datos microarreglos</font></b></font></p>     <p>&nbsp;</p>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">A    review of feature selection algorithms that treat the microarray data redundancy</font></b>    </font>      <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Roxana P&eacute;rez    Rubido</b> </font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Departamento Ciencias    B&aacute;sicas. Facultad 7. Universidad de las Ciencias Inform&aacute;ticas,    Carretera a San Antonio de los Ba&ntilde;os, km 2 &frac12;, Torrens, Boyeros,    La Habana, Cuba. CP.: 19370. e-mail:<a href="mailto:rubido@uci.cu">rubido@uci.cu</a></font>      <P>&nbsp;      ]]></body>
<body><![CDATA[<P>&nbsp;  <hr>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>RESUMEN</B></font>      <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> En los &uacute;ltimos    tiempos, el an&aacute;lisis de la redundancia en los algoritmos de selecci&oacute;n    de atributos en el aprendizaje autom&aacute;tico, se ha convertido en una constante.    Estudios han demostrado que los porcientos de predicci&oacute;n al eliminar    estos atributos son mejores que los obtenidos en los casos donde no se hace.    Adem&aacute;s, al descartarlos se disminuye la complejidad temporal del clasificador    al tener menos datos que procesar. En la actualidad, los algoritmos han evolucionado    en ese sentido y tratan la redundancia de diferentes formas y con diferentes    criterios. El principal objetivo del presente trabajo es presentar diferentes    criterios de evaluaci&oacute;n para tratar la redundancia en datos microarreglos    de ADN. En el estudio se aplicaron los m&eacute;todos an&aacute;lisis y s&iacute;ntesis,    hist&oacute;rico-l&oacute;gico e inductivo-deductivo. Se realiz&oacute; una    revisi&oacute;n bibliogr&aacute;fica de art&iacute;culos publicados desde la    d&eacute;cada del 90 que presentan algoritmos para seleccionar atributos y que    tienen en cuenta la dependencia entre ellos. En el art&iacute;culo se describen    de forma general los pasos, el criterio empleado en el an&aacute;lisis de la    redundancia y algunas de las ventajas y desventajas de los mismos.</font>      <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>Palabras clave:    </B> Algoritmos filtros, an&aacute;lisis de redundancia, criterios de evaluaci&oacute;n,    selecci&oacute;n de atributos.</font></P> <hr>     <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ABSTRACT</b></font>  </P>     <P> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"> In recent times,    the redundancy analysis in attribute selection algorithms in machine learning    has become a constant. Studies have shown that the percentages of prediction,    after removing these attributes, are better than the cases where it is not.    Furthermore, by excluding it from data set, the temporal complexity of the classifier    is reduced because it has less data to process. In the actually, the algorithms    have evolved in this regard and treat redundancy in different ways and with    different criteria. The main aim of this review is to present the different    evaluation criteria to address data redundancy in ADN microarrays. The study    applied analysis-synthesis, historic-logical and inductive-deductive methods.    We conducted a literature review of articles published since the 90's which    contain algorithms to select attributes and take into account the dependency    between them. The article describe a general way, his steps, the criterion used    in the analysis of redundancy and some of its advantages and disadvantages.</font>      <P> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B>Key words:    </B> Analysis of redundancy, evaluation criteria, feature selection, filter    algorithms.</font> </P> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b><font size="3">INTRODUCCI&Oacute;N</font></b></font>  </p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El an&aacute;lisis    de los datos microarreglos de ADN genera un gran c&uacute;mulo de informaci&oacute;n,    por lo que constituye un reto para el aprendizaje autom&aacute;tico. Su gran    dimensionalidad, dada por contener un n&uacute;mero significativo de atributos    irrelevantes para la clasificaci&oacute;n o redundantes en el contexto de otros,    afecta el aprendizaje en t&eacute;rminos de precisi&oacute;n y de complejidad    computacional. Resulta entonces una necesidad reducir el conjunto de datos,    seleccionando un grupo de atributos a trav&eacute;s de la eliminaci&oacute;n    de aquellos que no son &uacute;tiles para la tarea de predicci&oacute;n. Los    m&eacute;todos (algoritmos) de selecci&oacute;n de atributos pueden, de forma    general, ser divididos en dos categor&iacute;as: envolvente (wrapper) y filtro    (Bonev, 2010) (Guyon, y otros, 2003) (Kohavi, y otros, 1997). Los primeros son    dependientes del clasificador, pues usan la precisi&oacute;n estimada de un    algoritmo de clasificaci&oacute;n para medir la bondad de un subconjunto de    atributos en particular. Adem&aacute;s, son computacionalmente costosos para    conjuntos de datos con una gran dimensionalidad, pues realizan la b&uacute;squeda    a trav&eacute;s del espacio de subconjuntos de atributos. Los segundos, a diferencia    de los primeros, son independientes del clasificador y se basan en las caracter&iacute;sticas    generales de los datos de entrenamiento para la selecci&oacute;n. Las funciones    de evaluaci&oacute;n utilizadas est&aacute;n basadas en diversos criterios tales    como el coeficiente de correlaci&oacute;n de Pearson, la informaci&oacute;n    mutua, la incertidumbre sim&eacute;trica o en heur&iacute;sticas que combinan    varios de estos criterios u otros. Por ser r&aacute;pidos y con un costo computacional    menor al de los wrapper, son a menudo los adoptados para reducir la dimensi&oacute;n    en datos microarreglos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">En la literatura    se encuentran dis&iacute;miles algoritmos filtro (Saeys, y otros, 2007), los    primeros que surgieron (univariados) eval&uacute;an a cada gen (atributo) de    forma individual, sin importar la relaci&oacute;n de dependencia existente entre    ellos. Ordenan a los genes a partir de su poder discriminativo con respecto    a la clase o el grado de relevancia individual y finalmente seleccionan los    primeros k elementos. Pese a ser eficientes, computacionalmente hablando, pues    su complejidad de tiempo es lineal y est&aacute; en t&eacute;rminos de la dimensi&oacute;n    del conjunto de datos, presentan dos desventajas principales: 1) se necesita    que se posea conocimientos del dominio en el que se est&eacute; trabajando para    determinar el n&uacute;mero de elementos a seleccionar (umbral) y 2) no se eliminan    los atributos redundantes.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Ha sido demostrado    en varios estudios (Blum, y otros, 1997)(Li, y otros, 2002)(Xiong, y otros,    2001) (Yang, y otros, 1997) que la combinaci&oacute;n de genes relevantes no    siempre hace del subconjunto seleccionado el mejor, pues puede que estos compartan    la misma informaci&oacute;n, lo que los hace redundantes (correlacionados).    Los conjuntos que contienen datos correlacionados entre s&iacute; son menos    abarcadores; o sea, no representan todas las caracter&iacute;sticas del conjunto    original, lo que afecta la precisi&oacute;n de la predicci&oacute;n. Por ello,    varios algoritmos en la actualidad (multivariados) (Battiti, 1994) (Biesiada,    y otros, 2008) (Brown, 2009) (Ding, y otros, 2005) (Fleuret, 2004) (Hall, 1999)    (Meyers, y otros, 2005) (Yu, y otros, 2004) (Zheng, y otros, 2011), a diferencia    de los primeros, tienen en cuenta la correlaci&oacute;n entre atributos y eliminan    a aquellos que no aportan nueva informaci&oacute;n al proceso de clasificaci&oacute;n.    Varios de ellos, siguen dependiendo de la selecci&oacute;n de un valor umbral    para decidir cu&aacute;ntos atributos seleccionar y adem&aacute;s, tienen mayor    complejidad de tiempo computacional en comparaci&oacute;n con los primeros,    aunque siguen siendo m&aacute;s r&aacute;pidos que los wrapper en datos de grandes    dimensiones. En este art&iacute;culo se presenta una selecci&oacute;n de los    algoritmos filtros que tratan la redundancia, publicados en las dos &uacute;ltimas    d&eacute;cadas, divididos seg&uacute;n la direcci&oacute;n de la b&uacute;squeda    que emplean, haciendo &eacute;nfasis en las funciones de evaluaci&oacute;n empleadas    para el an&aacute;lisis de la redundancia y algunas de sus ventajas y desventajas.    </font></p>     <P>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B> <font size="3">MATERIALES    Y M&Eacute;TODOS</font></B></font>      <P> <font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los m&eacute;todos    de investigaci&oacute;n empleados son el anal&iacute;tico-sint&eacute;tico,    hist&oacute;rico-l&oacute;gico e inductivo-deductivo. El m&eacute;todo anal&iacute;tico-sint&eacute;tico    se emple&oacute; para examinar los elementos de los algoritmos de selecci&oacute;n    de atributos y definir los esenciales para la investigaci&oacute;n. El m&eacute;todo    hist&oacute;rico-l&oacute;gico se utiliz&oacute; para determinar las distintas    etapas de los algoritmos descritos y la evoluci&oacute;n de las funciones de    evaluaci&oacute;n siguiendo su l&oacute;gica interna y el m&eacute;todo inductivo-deductivo    para determinar, a partir de las definiciones y conceptos existentes, los que    se ajustan a la investigaci&oacute;n y replantearlos o para, a partir de elementos    singulares llegar a proposiciones generales. </font>      <P><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La selecci&oacute;n    de los algoritmos se realiz&oacute; de forma tal que fuera una muestra heterog&eacute;nea    a partir de las funciones de evaluaci&oacute;n y la direcci&oacute;n de la b&uacute;squeda    que emplean. Adem&aacute;s, se tuvo en cuenta que los resultados de la predicci&oacute;n    fueran semejantes (no exactamente iguales) para una complejidad temporal similar.    </font>      <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B><font size="3">RESULTADOS    Y DISCISI&Oacute;N </font></B></font> </p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Notaci&oacute;n    b&aacute;sica </font>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para un mejor entendimiento    del contenido del art&iacute;culo se declara la notaci&oacute;n empleada en    la descripci&oacute;n de los algoritmos. La letra c &nbsp;es    la variable de salida (clase objetivo), el conjunto de las variables de entrada    (conjunto de datos original) se denota por F &nbsp;y    el conjunto de los atributos seleccionados al aplicar alg&uacute;n criterio    por G. En la    <a href="#t01">tabla</a> se muestra un resumen de la notaci&oacute;n empleada.    </font>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><a name="t01">Tabla</a>.    Notaci&oacute;n b&aacute;sica. </font></p>     <div align="center">    <table border="1" cellspacing="0" cellpadding="0">     <tr>        <td width="258" valign="top"><font face="Verdana, Arial, Helvetica, sans-serif" size="2">    <br>         Notaci&oacute;n </font></td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Descripci&oacute;n</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0102413.png" alt="" width="82" height="17">:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El conjunto            original de n atributos.</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0202413.png" alt="" width="104" height="17">:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Un subconjunto            de F.</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0302413.png" alt="" width="35" height="17">:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Cantidad            de atributos en el conjunto F.</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0402413.png" alt="" width="40" height="17">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Cantidad            de atributos en el conjunto <img src="img/revistas/rcci/v7n4/fo0502413.png" alt="" width="11" height="17"></font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">N:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">N&uacute;mero            de muestras (experimentos).</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0602413.png" alt="" width="154" height="17">:            &nbsp;&nbsp;&nbsp; </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El conjunto            de los m atributos ya seleccionados.</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0702413.png" alt="" width="123" height="17">:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La manta            de Markov para el atributo <img src="img/revistas/rcci/v7n4/fo0802413.png" alt="" width="10" height="17"></font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo0902413.png" alt="" width="38" height="17">:            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Cantidad            de atributos en el conjunto G.</font></p>       </td>     </tr>     <tr>        <td width="258" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><img src="img/revistas/rcci/v7n4/fo1002413.png" alt="" width="42" height="17">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;            </font></p>       </td>       <td width="304" valign="top">              <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Cantidad            de atributos en el conjunto <img src="img/revistas/rcci/v7n4/fo1102413.png" alt="" width="14" height="17"></font></p>       </td>     </tr>   </table> </div>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Algoritmos filtros.    Atributos relevantes y redundantes</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los algoritmos    filtro se basan en las caracter&iacute;sticas de los atributos para seleccionar    el subconjunto que contenga aquellos que son relevantes (la relevancia se establece    al aplicar diferentes criterios) para la tarea de clasificaci&oacute;n. Al igual    que cualquier algoritmo de selecci&oacute;n de atributos, parten del conjunto    de datos completo F,    o del conjunto vac&iacute;o <img src="img/revistas/rcci/v7n4/fo1202413.png" alt="" width="8" height="17">&nbsp;o    bien de un conjunto <img src="img/revistas/rcci/v7n4/fo1302413.png" alt="" width="28" height="17">&nbsp;cualquiera.    Iterativamente analizan otros subconjuntos, una vez terminado con el primero,    y se detendr&aacute;n cuando ya no queden subconjuntos por analizar o se cumpla    la condici&oacute;n de parada establecida en el algoritmo. La b&uacute;squeda    del pr&oacute;ximo subconjunto depende de la direcci&oacute;n de la misma: hacia    adelante (forward), hacia atr&aacute;s (backward), aleatoria (random), entre    otras.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para determinar    si un atributo es relevante para la tarea de clasificaci&oacute;n o si es redundante    con respecto a otros existen diferentes criterios. Los mismos son de dis&iacute;miles    naturalezas: estad&iacute;sticos como el coeficiente de correlaci&oacute;n de    Pearson (Meyers<em> et al.,</em> 2005), pruebas Kolmogorov-Smirnov (Biesiada    and Duch, 2008), c&aacute;lculos relacionados con la entrop&iacute;a (Frey and    Fisher, 2003; Khinchin, 1957; Shannon and Weaver, 1963) como la informaci&oacute;n    mutua, informaci&oacute;n mutua condicional, entre otros.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La definici&oacute;n    m&aacute;s com&uacute;nmente usada de atributo relevante es la planteada en    (John<em> et al.,</em> 1994), donde se especifican dos tipos: fuerte y d&eacute;bil.    Un atributo es fuertemente relevante si al eliminarlo del conjunto de datos    afecta la precisi&oacute;n del clasificador, pues aporta informaci&oacute;n    que ning&uacute;n otro tiene, por lo que son atributos necesarios en el subconjunto    &oacute;ptimo. Un atributo es d&eacute;bilmente relevante si no es fuertemente    relevante pero bajo ciertas condiciones aporta informaci&oacute;n nueva, no    siempre es necesario pues su informaci&oacute;n puede ser suministrada por un    conjunto de atributos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La redundancia    normalmente es definida en t&eacute;rminos del grado de dependencia (correlaci&oacute;n)    que existe entre los atributos, por lo que se dice que dos atributos son redundantes    entre s&iacute;, si est&aacute;n altamente correlacionados. Se distinguen dos    tipos de correlaci&oacute;n: lineal y no lineal. En la literatura es com&uacute;n    encontrar este an&aacute;lisis entre pares de atributos(Brown, 2009; Hall, 1999)    sin tener en cuenta la dependencia que puede existir entre grupos de atributos    (complementariedad entre atributos (Meyer<em> et al.,</em> 2008)).</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Por lo general,    los algoritmos no tratan la redundancia de forma independiente, sino que a partir    de una misma funci&oacute;n de evaluaci&oacute;n tratan de seleccionar los atributos    m&aacute;s relevantes para la clase, pero menos redundantes con respecto a otros    atributos.</font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A continuaci&oacute;n    se describen algunos de los algoritmos filtros que tratan la redundancia a partir    de diferentes criterios y tipos de datos, presentados en orden cronol&oacute;gico.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Algoritmos filtros    con b&uacute;squeda forward</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los algoritmos    que utilizan una b&uacute;squeda forward en el espacio de subconjuntos comienzan    con el conjunto vac&iacute;o y van adicionando los &ldquo;mejores&rdquo; atributos    escogidos del conjunto F&nbsp;de    acuerdo al criterio de evaluaci&oacute;n en cada iteraci&oacute;n. La b&uacute;squeda    puede detenerse por diversas razones: se seleccionaron la cantidad de atributos    predefinida, no se alcanzan resultados mejores pasadas algunas iteraciones,    no quedan subconjuntos por analizar, entre otras.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    MIFS </strong>(BATTITI 1994) (del ingl&eacute;s, <em>Mutual Information Features    Selection</em>) es el primero, de varios, que intenta balancear la relevancia    con la redundancia. Selecciona a los atributos relevantes para la predicci&oacute;n    con la menor correlaci&oacute;n con otros atributos. El algoritmo calcula el    valor <img src="img/revistas/rcci/v7n4/fo1402413.png" alt="" width="33" height="17">&nbsp;para    cada atributo <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">&nbsp;y    selecciona al de mayor informaci&oacute;n mutua como el primer elemento del    subconjunto de atributos seleccionados G.    Luego para el pr&oacute;ximo F<sub>i</sub>&nbsp;se    calcula la informaci&oacute;n mutua de (<img src="img/revistas/rcci/v7n4/fo1602413.png" alt="" width="22" height="17">)    y se seleccionan los m atributos F<sub>i</sub>&nbsp;que    maximizan el criterio MIFS. Este criterio incluye el t&eacute;rmino <img src="img/revistas/rcci/v7n4/fo1702413.png" alt="" width="33" height="17">&nbsp;para    garantizar la relevancia del atributo pero introduce una penalidad <img src="img/revistas/rcci/v7n4/fo1802413.png" alt="" width="70" height="17">,&nbsp;    para forzar que exista baja correlaci&oacute;n. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (criterio MIFS): Sea<img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">un    atributo, la condici&oacute;n MIFS es:    <br>   <img src="img/revistas/rcci/v7n4/fo1902413.png" alt="" width="206" height="17">, donde<img src="img/revistas/rcci/v7n4/fo2002413.png" alt="" width="10" height="17">&nbsp;es    un par&aacute;metro de peso que es configurable, y es quien regula la importancia    relativa de la informaci&oacute;n mutua entre el atributo candidato y los ya    seleccionados, con respecto a la informaci&oacute;n mutua con la clase. Si toma    valor 0 la expresi&oacute;n resultar&aacute; en el c&aacute;lculo de la relevancia    individual, si toma un valor grande denotar&aacute; mayor &eacute;nfasis en    la reducci&oacute;n de la correlaci&oacute;n entre los atributos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Se logra un balance    entre la importancia (relevancia) individual (<img src="img/revistas/rcci/v7n4/fo1702413.png" alt="" width="33" height="17">)    y la correlaci&oacute;n con el resto de los atributos ya seleccionados (<img src="img/revistas/rcci/v7n4/fo2102413.png" alt="" width="38" height="17">).    No se hacen suposiciones sobre la distribuci&oacute;n de los datos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Sufre la dificultad    de calcular apropiadamente el valor del par&aacute;metro <img src="img/revistas/rcci/v7n4/fo2202413.png" alt="" width="7" height="17">.    Depende de un t&eacute;rmino como umbral para decidir la cantidad de elementos    a seleccionar. No tiene en cuenta la interacci&oacute;n entre grupos de atributos.</font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    EWUSC</strong> (del ingl&eacute;s, <em>Error-Weighted, Uncorrelated Shrunken    Centroid</em>) (Yeung and Bumgarner, 2003), es una modificaci&oacute;n del algoritmo    USC (del ingl&eacute;s, <em>Uncorrelated Shrunken Centroid</em>), el cual constituye    un m&eacute;todo integrado de selecci&oacute;n y clasificaci&oacute;n de atributos.    Se basa en las estimaciones del error o variabilidad de las mediciones repetidas.    El algoritmo, para cada umbral de contracci&oacute;n <img src="img/revistas/rcci/v7n4/fo2302413.png" alt="" width="11" height="17">selecciona    los atributos relevantes formando un conjunto <img src="img/revistas/rcci/v7n4/fo2402413.png" alt="" width="10" height="17">.    Los atributos relevantes ser&aacute;n aquellos que posean al menos una diferencia    relativa ponderada <img src="img/revistas/rcci/v7n4/fo2502413.png" alt="" width="38" height="17">&nbsp;(diferencia    entre la clase centroide y todos los centroides, estandarizado por la desviaci&oacute;n    est&aacute;ndar dentro de la clase del atributo i) sobre todas las clases. Se    ordenan en forma descendiente, a partir del valor de la <img src="img/revistas/rcci/v7n4/fo2602413.png" alt="" width="20" height="17">&nbsp;Luego,    se calcula la correlaci&oacute;n pairwise (por pareja) ponderada basada en el    error entre cada par de atributos <img src="img/revistas/rcci/v7n4/fo2702413.png" alt="" width="54" height="17">&nbsp;y    se eliminan aquellos atributos <img src="img/revistas/rcci/v7n4/fo2802413.png" alt="" width="8" height="17">cuyo    valor de correlaci&oacute;n <img src="img/revistas/rcci/v7n4/fo2902413.png" alt="" width="22" height="17">sea    mayor que un valor <img src="img/revistas/rcci/v7n4/fo3002413.png" alt="" width="11" height="17">.    Los valores de <img src="img/revistas/rcci/v7n4/fo3102413.png" alt="" width="7" height="17">&nbsp;y    <img src="img/revistas/rcci/v7n4/fo3002413.png" alt="" width="11" height="17">est&aacute;n    determinados por la validaci&oacute;n cruzada de manera tal que el n&uacute;mero    de errores de clasificaci&oacute;n se reduce al m&iacute;nimo en el conjunto    de entrenamiento.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (correlaci&oacute;n basada en el error ponderado): Sea <img src="img/revistas/rcci/v7n4/fo3202413.png" alt="" width="19" height="17">&nbsp;el    error estimado del nivel de expresi&oacute;n del atributo <img src="img/revistas/rcci/v7n4/fo3302413.png" alt="" width="8" height="17">&nbsp;bajo    el experimento e. La correlaci&oacute;n basada en el error entre el par de atributos    <img src="img/revistas/rcci/v7n4/fo3402413.png" alt="" width="28" height="17">&nbsp;se define    como:     <br>   <img src="img/revistas/rcci/v7n4/fo3502413.png" alt="" width="240" height="71"></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">donde<img src="img/revistas/rcci/v7n4/fo3602413.png" alt="" width="128" height="23">&nbsp;es    el nivel de expresi&oacute;n promedio ponderado del atributo i y <img src="img/revistas/rcci/v7n4/fo3702413.png" alt="" width="35" height="17">&nbsp;representa    el nivel de expresi&oacute;n promedio sobre las mediciones repetidas para un    atributo <img src="img/revistas/rcci/v7n4/fo3302413.png" alt="" width="8" height="17">&nbsp;bajo    el experimento e.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El algoritmo analiza    la redundancia luego de la relevancia, reduciendo la dimensi&oacute;n del conjunto    de datos relevantes al eliminar aquellos que no aportan informaci&oacute;n nueva    sobre la clase. Puede ser usado en problemas con m&uacute;ltiples clases y no    hace suposiciones sobre la distribuci&oacute;n de los datos. Combina, para determinar    el an&aacute;lisis de la redundancia una b&uacute;squeda forward con una eliminaci&oacute;n    backward. Trabaja con datos continuos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Depende de las    estimaciones de error o variabilidad, pues hace que mejore la estabilidad de    los rasgos con estimaciones de error. No se obtienen buenos resultados cuando    las clases no est&aacute;n bien separadas; o sea, cuando el ruido biol&oacute;gico    no es peque&ntilde;o o cuando la raz&oacute;n ruido-se&ntilde;al es baja.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    CMIM</strong> (del ingl&eacute;s, <em>Conditional Mutual Information Maximization</em>)    (Fleuret, 2004) se basa en la informaci&oacute;n mutua condicional y no trata    la redundancia de forma independiente a la relevancia. El algoritmo selecciona    un nuevo atributo <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">&nbsp;solamente    si aporta informaci&oacute;n nueva sobre la clase, informaci&oacute;n que no    est&eacute; presente en G.    El primer atributo seleccionado es aquel que tiene una informaci&oacute;n mutua    m&aacute;xima con respecto a la clase. Iterativamente se seleccionan los atributos    <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;que maximizan    su informaci&oacute;n mutua con la clase a predecir, condicionada a cualquier    atributo <img src="img/revistas/rcci/v7n4/fo3902413.png" alt="" width="10" height="17">&nbsp;ya    seleccionado. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (CMIM): Sea <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">&nbsp;un    atributo, se define el criterio CMIM como:    ]]></body>
<body><![CDATA[<br>   <img src="img/revistas/rcci/v7n4/fo4002413.png" alt="" width="182" height="17"> </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El algoritmo logra    un balance entre el poder individual de cada atributo y su independencia al    compararlos con los atributos ya seleccionados. Adem&aacute;s, calcula densidades    bivariadas y tiene en cuenta la interacci&oacute;n entre grupos de atributos.    Trabaja con datos binarios. Realiza el an&aacute;lisis de la redundancia junto    con el paso de selecci&oacute;n lo que provoca que este &uacute;ltimo aumente    su complejidad al realizar la b&uacute;squeda en un espacio de gran dimensionalidad.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Depende de un t&eacute;rmino    como umbral para determinar cantidad de atributos a seleccionar. No garantiza    la selecci&oacute;n de todos los atributos que interact&uacute;an con los pertenecientes    a G. Puede    ocurrir que un atributo tenga una alta informaci&oacute;n mutua condicional    con respecto a otros atributos ya seleccionados (complementariedad) pero no    necesariamente ser&aacute; la mayor informaci&oacute;n mutua condicional. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    FCBF</strong> (del ingl&eacute;s, <em>Fast Correlation Based Filter</em>) (Yu    and Lei, 2004) combina un m&eacute;todo ranking con el an&aacute;lisis de la    redundancia. El an&aacute;lisis de los atributos redundantes se hace de forma    independiente al de la relevancia, determin&aacute;ndose a partir de los atributos    seleccionados como relevantes.&nbsp;</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La redundancia    se define a partir de las mantas de Markov:</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (atributo redundante-mantas de Markov): Un atributo <img src="img/revistas/rcci/v7n4/fo4102413.png" alt="" width="28" height="17">&nbsp;es    <strong>redundante</strong> si y solo si (ssi) es d&eacute;bilmente relevante;    o sea, aquel que es independiente condicionalmente del resto de los atributos    <img src="img/revistas/rcci/v7n4/fo4202413.png" alt="" width="29" height="17">&nbsp;pero    no de un subconjunto de ellos (<img src="img/revistas/rcci/v7n4/fo4302413.png" alt="" width="310" height="17">;    y tiene una manta de Markov aproximada <img src="img/revistas/rcci/v7n4/fo4402413.png" alt="" width="12" height="17">&nbsp;dentro    de F.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El algoritmo, en    un primer paso, selecciona los atributos (la cantidad de atributos est&aacute;    condicionada por un valor umbral) m&aacute;s relevantes con respecto a la clase    a partir del valor <img src="img/revistas/rcci/v7n4/fo4702413.png" alt="" width="33" height="17">.    En un segundo paso se analiza si cada atributo <img src="img/revistas/rcci/v7n4/fo4802413.png" alt="" width="30" height="17">&nbsp;(<img src="img/revistas/rcci/v7n4/fo4902413.png" alt="" width="9" height="17">&nbsp;conjunto    de los atributos m&aacute;s relevantes) es redundante con respecto a los seleccionados    en G&nbsp;y    en caso positivo se elimina. Este paso se repite hasta que no queden atributos    redundantes.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El an&aacute;lisis    de la redundancia se divide en 3 pasos: primero, determinar un atributo predominante,    es decir, un atributo que no tenga ninguna manta de Markov aproximada en el    conjunto <img src="img/revistas/rcci/v7n4/fo4902413.png" alt="" width="9" height="17">;    segundo, eliminar todos los atributos para los cuales este forme una manta de    Markov aproximada y tercero repetir los pasos anteriores hasta que no haya m&aacute;s    atributos predominantes. </font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (Manta de Markov aproximada): Para dos atributos relevantes <img src="img/revistas/rcci/v7n4/fo5002413.png" alt="" width="61" height="17">,    <img src="img/revistas/rcci/v7n4/fo5102413.png" alt="" width="8" height="17">&nbsp;forma    una manta de Markov aproximada para <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;ssi    el valor de relevancia de <img src="img/revistas/rcci/v7n4/fo5102413.png" alt="" width="8" height="17">&nbsp;es    mayor o igual que el valor de relevancia de <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;con    respecto a la clase y adem&aacute;s, el grado de correlaci&oacute;n entre ellos    es mayor que el valor de relevancia de <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;con    respecto a la clase.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El criterio para    medir el nivel de relevancia y de correlaci&oacute;n es la incertidumbre sim&eacute;trica    lo que evita la parcialidad de la informaci&oacute;n mutua hacia los atributos    multi-evaluados, penalizando los atributos con grandes entrop&iacute;as. Trabaja    con datos discretos. Realiza la selecci&oacute;n y el tratamiento de la redundancia    no simult&aacute;neamente. Combina, para determinar el an&aacute;lisis de la    redundancia una b&uacute;squeda forward con una eliminaci&oacute;n backward.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La selecci&oacute;n    del conjunto de los atributos relevantes se basa en un umbral predefinido <img src="img/revistas/rcci/v7n4/fo5202413.png" alt="" width="6" height="17">&nbsp;buscando    los atributos que est&aacute;n m&aacute;s correlacionados con la clase. Es un    algoritmo r&aacute;pido pero puede eliminar atributos redundantes que est&aacute;n    fuertemente correlacionados con la clase, en situaciones donde la dependencia    entre atributos ocurre solamente condicionalmente sobre esta, debido a que est&aacute;    fundamentado en dos funciones de costo.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    CMIFS</strong> (del ingl&eacute;s, <em>Conditional Mutual Information-based    Feature Selection</em>) (Cheng<em> et al.,</em> 2011) se basa en la informaci&oacute;n    mutua condicional y en el criterio <em>atributo redundante para la clasificaci&oacute;n</em>    (FCR), el cual define la informaci&oacute;n de redundancia de un atributo que    est&aacute; relacionada con la clasificaci&oacute;n. Se seleccionan los atributos    <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">&nbsp;que    no sean FCR y que maximicen la siguiente relaci&oacute;n de recurrencia:</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (criterio CMIFS) Sea el atributo <img src="img/revistas/rcci/v7n4/fo5302413.png" alt="" width="11" height="17">&nbsp;el    primero, del conjunto G&nbsp;y    <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">, se    define el pr&oacute;ximo atributo a seleccionar como:    <br>   <img src="img/revistas/rcci/v7n4/fo5402413.png" alt="" width="301" height="17"> </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Para detectar los    atributos FCR se auxilian de un par&aacute;metro <img src="img/revistas/rcci/v7n4/fo5202413.png" alt="" width="6" height="17">.    El valor de <img src="img/revistas/rcci/v7n4/fo5202413.png" alt="" width="6" height="17">&nbsp;debe    estar en un rango de valores razonable, para evitar que sean eliminados atributos    como FCR irracionalmente. El primer atributo que es seleccionado es el m&aacute;s    relevante para la clase. Luego se va construyendo el conjunto G&nbsp;paso    a paso, elimin&aacute;ndose primero de F&nbsp;todos    los atributos que cumplen con el criterio FCR con respecto a los atributos en    G&nbsp;y    luego adicionando el atributo <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;que    maximiza el criterio CMIFS (usan una f&oacute;rmula de estimaci&oacute;n aproximada).</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (criterio FCR): Un atributo <img src="img/revistas/rcci/v7n4/fo1502413.png" alt="" width="40" height="17">&nbsp;es    un FCR de G&nbsp;si    <img src="img/revistas/rcci/v7n4/fo5802413.png" alt="" width="53" height="17">&nbsp;y <img src="img/revistas/rcci/v7n4/fo5502413.png" alt="" width="64" height="17">.</font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Se tiene en cuenta    la interacci&oacute;n entre grupos de atributos. Se combina el c&aacute;lculo    de la redundancia con la tarea de clasificaci&oacute;n, lo que puede disminuir    la probabilidad de confundir a un atributo importante con un atributo redundante    durante el proceso de b&uacute;squeda. La existencia de atributos que cumplen    el criterio FCR tiene poco impacto en los resultados del criterio de selecci&oacute;n    de subconjunto de atributos, sin embargo ayudan a reducir el tiempo, pues permite    que sean eliminados atributos antes de hacer una nueva b&uacute;squeda a trav&eacute;s    del espacio de subconjuntos candidatos.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventaja    <br>   </b>Depende de un valor umbral.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Algoritmos con    b&uacute;squeda backward</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Los algoritmos    que utilizan una b&uacute;squeda backward en el espacio de subconjuntos comienzan    con el conjunto completo F&nbsp;y    van eliminando los &ldquo;peores&rdquo; atributos escogidos de acuerdo al criterio    de evaluaci&oacute;n en cada iteraci&oacute;n. La b&uacute;squeda puede detenerse    por diversas razones: el conjunto de atributos posee la cantidad de atributos    predefinida, no se alcanzan resultados mejores pasadas algunas iteraciones,    entre otras.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    KS </strong>(Koller and Sahami, 1996) utiliza la idea de independencia condicional    para reducir el conjunto de datos, auxili&aacute;ndose del c&aacute;lculo de    la entrop&iacute;a cruzada y utilizando una eliminaci&oacute;n hacia atr&aacute;s    (backward). El algoritmo comienza calculando el coeficiente de correlaci&oacute;n    de Pearson entre cada par de atributos (<img src="img/revistas/rcci/v7n4/fo5602413.png" alt="" width="20" height="17">),    <img src="img/revistas/rcci/v7n4/fo5702413.png" alt="" width="89" height="17">&nbsp;para,    a partir de este, conformar para cada <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;su    manta de Markov <img src="img/revistas/rcci/v7n4/fo4402413.png" alt="" width="12" height="17">&nbsp;con    los r atributos <img src="img/revistas/rcci/v7n4/fo5102413.png" alt="" width="8" height="17">&nbsp;m&aacute;s    correlacionados con &eacute;l (los r atributos con mayor coeficiente de correlaci&oacute;n).    Luego se determina el atributo <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">a    eliminar a partir de la heur&iacute;stica empleada para estimar mantas de Markov    aproximadas y se detiene cuando hayan sido eliminados un n&uacute;mero especificado    de atributos. La heur&iacute;stica se basa en el c&aacute;lculo de la entrop&iacute;a    cruzada:    <br>   <img src="img/revistas/rcci/v7n4/fo5902413.png" alt="" width="367" height="32"> </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">siendo <img src="img/revistas/rcci/v7n4/fo6002413.png" alt="" width="138" height="21">donde    <img src="img/revistas/rcci/v7n4/fo6102413.png" alt="" width="8" height="17">&nbsp;es el    espacio de probabilidades, <img src="img/revistas/rcci/v7n4/fo6202413.png" alt="" width="6" height="17">&nbsp;la    distribuci&oacute;n real, <img src="img/revistas/rcci/v7n4/fo6302413.png" alt="" width="7" height="17">&nbsp;distribuci&oacute;n    aproximada. <img src="img/revistas/rcci/v7n4/fo6402413.png" alt="" width="34" height="17">&nbsp;mide    la magnitud del error que se comete al usar <img src="img/revistas/rcci/v7n4/fo6302413.png" alt="" width="7" height="17">&nbsp;como    sustituto de <img src="img/revistas/rcci/v7n4/fo6502413.png" alt="" width="8" height="17">        <br>   La heur&iacute;stica consiste en tomar el conjunto <img src="img/revistas/rcci/v7n4/fo4402413.png" alt="" width="12" height="17">&nbsp;con    el menor valor <img src="img/revistas/rcci/v7n4/fo6602413.png" alt="" width="44" height="17">,    siendo este <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;eliminado    (<img src="img/revistas/rcci/v7n4/fo4402413.png" alt="" width="12" height="17">una    manta de Markov aproximada). El fundamento est&aacute; en que si <img src="img/revistas/rcci/v7n4/fo4402413.png" alt="" width="12" height="17">&nbsp;es    una manta de Markov para <img src="img/revistas/rcci/v7n4/fo3802413.png" alt="" width="8" height="17">&nbsp;el    valor de <img src="img/revistas/rcci/v7n4/fo6702413.png" alt="" width="64" height="17">.    </font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El algoritmo permite    descartar aquellos atributos que no se acerquen a la distribuci&oacute;n del    conjunto F,    por ser irrelevantes o redundantes y trabaja con datos discretos. Adem&aacute;s,    bas&aacute;ndose en que el c&aacute;lculo de las probabilidades condicionales    puede ser computacionalmente costoso, se plantean criterios que producen resultados    aproximados (la heur&iacute;stica) a un menor costo. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Depende de dos    par&aacute;metros: cantidad de atributos que permanecer&aacute;n en el conjunto    (o cantidad de atributos a eliminar) y el tama&ntilde;o de la manta de Markov.    Puede sufrir el problema de buscar a trav&eacute;s de un subconjunto requerido    en el paso de generaci&oacute;n de subconjuntos, lo que puede provocar una complejidad    temporal <img src="img/revistas/rcci/v7n4/fo4502413.png" alt="" width="28" height="17">.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El <strong>algoritmo    CFS</strong> (del ingl&eacute;s, <em>Correlation Features Selection</em>) (Hall    1999) clasifica subconjuntos de atributos de acuerdo a los valores de una funci&oacute;n    de evaluaci&oacute;n heur&iacute;stica <img src="img/revistas/rcci/v7n4/fo4602413.png" alt="" width="28" height="17">basada    en la correlaci&oacute;n (correlaci&oacute;n atributo-clase, atributo-atributo).    No trata a la redundancia de forma independiente; sino que en una misma funci&oacute;n    se determinan los atributos altamente relevantes para la clasificaci&oacute;n    con respecto a la clase pero con poca o ninguna correlaci&oacute;n con otros    atributos ya seleccionados. Adem&aacute;s, se asume que los atributos son condicionalmente    independientes de otros. El algoritmo calcula las correlaciones atributo-atributo    y clase-atributo y luego busca en el espacio de subconjunto de atributos, reportando    el subconjunto<img src="img/revistas/rcci/v7n4/fo6802413.png" alt="" width="4" height="17">&nbsp;con    mejor puntuaci&oacute;n<img src="img/revistas/rcci/v7n4/fo4602413.png" alt="" width="28" height="17">.    </font></p>     <p> <font face="Verdana, Arial, Helvetica, sans-serif" size="2"><strong>Definici&oacute;n</strong>    (selecci&oacute;n de atributos basada en la correlaci&oacute;n): Sean <img src="img/revistas/rcci/v7n4/fo6902413.png" alt="" width="15" height="17">&nbsp;la    correlaci&oacute;n promedio entre el atributo <img src="img/revistas/rcci/v7n4/fo3302413.png" alt="" width="8" height="17">&nbsp;y    la clase <img src="img/revistas/rcci/v7n4/fo7002413.png" alt="" width="26" height="17">&nbsp;y    <img src="img/revistas/rcci/v7n4/fo7102413.png" alt="" width="18" height="17">la correlaci&oacute;n    promedio entre un par de atributos, el criterio de selecci&oacute;n se define    como:     <br>   <img src="img/revistas/rcci/v7n4/fo7202413.png" alt="" width="139" height="68"></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">El numerador puede    ser visto como un indicador de cu&aacute;n predictivo de la clase es un conjunto    de atributos y el denominador como un indicador de cu&aacute;nta redundancia    existe entre los atributos. </font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Ventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">No necesita se    predefina un t&eacute;rmino como umbral ni la cantidad de elementos a seleccionar.    Pueden usarse diferentes criterios, seg&uacute;n el problema de clasificaci&oacute;n    o la experiencia del investigador, para calcular las correlaciones promedio    entre atributo-clase y atributo-clase.</font></p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><b>Desventajas</b></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">No tiene en cuenta    la cooperaci&oacute;n entre atributos. Cuando existe dependencia condicional    y esta es fuerte, el algoritmo puede fallar provocando que no sean seleccionados    todos los atributos relevantes necesarios.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">Entre los algoritmos    descritos se enuncian desventajas que pueden afectar la ejecuci&oacute;n del    clasificador en t&eacute;rminos de precisi&oacute;n. Aquellos que dependen de    un umbral (MIFS, CMIM, CMIFS) ya sea para determinar el tama&ntilde;o de los    subconjuntos (o de las mantas de Markov) como para detener la ejecuci&oacute;n    o determinar el valor de la penalizaci&oacute;n en los atributos redundantes,    pese a que su objetivo en la mayor&iacute;a de los casos es evitar que se haga    una b&uacute;squeda exhaustiva en el conjunto F, sufren&nbsp; la dificultad    de seleccionar (calcular) adecuadamente su valor, y para esto se necesita dominar    el problema y la naturaleza de los datos. Por ejemplo, si el valor es peque&ntilde;o,    en el caso del umbral para determinar el tama&ntilde;o del subconjunto &oacute;ptimo,    se pueden obtener subconjuntos grandes, aumentando el costo computacional, mientras    que si es muy grande se obtienen conjuntos peque&ntilde;os, disminuyendo bastante    el poder predictivo del clasificador, por lo que, si no se logra un valor adecuado    los resultados obtenidos al final de la clasificaci&oacute;n no ser&aacute;n    satisfactorios ni fiables. Varios de estos algoritmos asumen el c&aacute;lculo    bivariado para evitar los costosos c&aacute;lculos multivariados (muy costosos    en datos de grandes dimensiones como los datos microarreglos de ADN); debido    a esto no analizan la complementariedad entre grupos de atributos eliminando    en muchos casos atributos que analizados con respecto a otro (bivariado) es    redundante o irrelevante pero que cuando est&aacute;n junto a otros aportan    informaci&oacute;n muy valiosa para la tarea en cuesti&oacute;n.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">La mayor&iacute;a    de ellos eval&uacute;an la redundancia independientemente del problema de clasificaci&oacute;n    en cuesti&oacute;n, o sea, analizan si dos atributos son redundantes entre s&iacute;    y de serlo eliminan uno sin importar si la informaci&oacute;n que aporta es    relevante o no para la tarea de clasificaci&oacute;n, lo que supone p&eacute;rdida    de informaci&oacute;n importante y puede traer como consecuencia la degradaci&oacute;n    de la predicci&oacute;n. Esto ocurre cuando la informaci&oacute;n redundante    entre dos importantes atributos es (raramente) relativa a la clase objetivo    correspondiente, por lo que ninguno puede ser ignorado. Adem&aacute;s, como    el atributo candidato es comparado con cada uno de los ya seleccionados, uno    por uno, se introducen algunos c&aacute;lculos redundantes. La mayor&iacute;a    usa una sola direcci&oacute;n de b&uacute;squeda y otros combinan la b&uacute;squeda    forward con una eliminaci&oacute;n backward, ambos tipos tienen resultados adecuados    dados por la condici&oacute;n de parada que implementan; pero la combinaci&oacute;n    propicia que no solo se evite el an&aacute;lisis completo de la correlaci&oacute;n    entre atributos sino tambi&eacute;n que alcance mayor eficiencia que si se hiciera    una b&uacute;squeda pura forward o una eliminaci&oacute;n backward.</font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="2">A partir del an&aacute;lisis    de los algoritmos se puede decir que un criterio adecuado para el an&aacute;lisis    de la redundancia es la informaci&oacute;n mutua pues permite calcular cuanta    informaci&oacute;n comparten, no solo un par de atributos sino tambi&eacute;n    un conjunto de atributos, adem&aacute;s de no hacer suposiciones sobre la naturaleza    de los datos.    <br>   </font></p>     <p>&nbsp;      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><B><font size="3">CONCLUSIONES</font></B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el presente    art&iacute;culo se revisaron los algoritmos filtros MIFS, EWUSC, CMIM, FCBF,    CMIFS, KS Y CFS. Se describieron de forma general los pasos que siguen para    la selecci&oacute;n; adem&aacute;s, se se&ntilde;alaron algunas de sus ventajas    y desventajas. La v&iacute;a que emplean para seleccionar los atributos no coincide    en todos los algoritmos; algunos a trav&eacute;s de una sola funci&oacute;n    eligen al que mejor balance presenta entre la redundancia en el contexto de    otros y el poder discriminativo. Otros, seleccionan un conjunto de atributos    relevantes y luego realizan el an&aacute;lisis de la redundancia. Entre los    criterios usados en los algoritmos, el m&aacute;s com&uacute;n es el c&aacute;lculo    de la informaci&oacute;n mutua, la cual permite capturar las dependencias que    aportan informaci&oacute;n sobre la clase, sin tener en cuenta aquellas dependencias    entre atributos que son irrelevantes para la clasificaci&oacute;n. Aunque est&aacute;    parcializada hacia atributos multievaluados, en la literatura se encuentran    varias formas de normalizar su valor, por ejemplo penalizando aquellos que mayor    valor de entrop&iacute;a presenten. Los m&aacute;s recientes hacen uso de la    informaci&oacute;n mutua condicional, con el fin de no solo analizar la redundancia    entre un par de atributos, sino entre grupos de atributos, lo que propicia mayor    eficiencia en la detecci&oacute;n de redundancias y mayor reducci&oacute;n del    conjunto de datos original.</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B><font size="3">REFERENCIAS    BIBLIOGR&Aacute;FICAS</font></B></font>      <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BATTITI, R. Using    mutual information for selecting features in supervised neural net learning.    IEEE Transactions on Neural Networks, 1994, 5(4): 537-550.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BIESIADA, J. and    W. DUCH A Kolmogorov-Smirnov Correlation-Based Filter for Microarray Data. Neural    Information Processing, 2008: 285-294.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BLUM, A. and P.    LANGLEY Selection of relevant features and examples in machine learning. Artificial    Intelligence. 1997, 97(1-2): 245-271.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BONEV, B. I. FEATURE    SELECTION BASED ON INFORMATION THEORY. Department of Computer Science and Articial    Intelligence, UNIVERSITY OF ALICANTE 2010.     p.</font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">BROWN, G. A New    Perspective for Information Theoretic Feature Selection. En: Proceedings of    12th International Conference on Artificial Intelligence and Statistics (AISTATS),    Clearwater Beach, Florida, USA, 2009.     p.</font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHENG, H.; Z. QIN,    et al. Conditional Mutual Information-Based Feature Selection Analyzing for    Synergy and Redundancy ETRI, 2011, 33(2): 210-219.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DING, C. and H.    PENG Minimum Redundancy Feature Selection from Microarray Gene Expression Data.    Bioinformatics and computational biology, 2005, 3(2): 185-205.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FLEURET, F. Fast    Binary Feature Selection with Conditional Mutual Information. Machine Learning    Research, 2004, 5: 1531-1555.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FREY, L. and D.    FISHER. Identifying Markov Blankets with Decision Tree Induction. Third IEEE    International Conference on Data Mining, 2003.     p. </font>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">GUYON and A. ELISSEEFF    An introduction to variable and feature selection. Journal of Machine Learning    Research, 2003, 3: 1157-1182.</font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HALL, M. A. Correlation-based    Feature Selection for Machine Learning. Department of Computer Science. Hamilton,    New Zealand, University of Waikato, 1999. 149.     p.</font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">JOHN, G. H.; R.    KOHAVI, et al. Irrelevant features and the subset selection problem. International    Conference in Machine Learning, 1994. 121-129 p.     </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KHINCHIN, A. I.    Mathematical foundations of information theory. 1957.     p. </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KOHAVI, R. and    G. H. JOHN Wrappers for feature subset selection. Artif. Intell., 1997, 97(1-2):    273-324.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">KOLLER, D. and    M. SAHAMI. Toward optimal feature selection. Thirteenth International Conference    on Machine Learning, Bari, Italia, 1996. 284-292.     p. </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">LI, W. and Y. YANG    How many genes are needed for a discriminant microarray data analysis? Methods    of microarray data analysis, 2002: 137-150.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MEYER, P.; C. SCHRETTER,    et al. Information-theoretic feature selection in micro-array data using variable    complementarity IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, 2008,    2: 261-274.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MEYERS, L. S.;    G. GAMST, et al. Applied Multivariate Research: Design and Interpretation. SAGE    Publications, 2005.     p. 9781412904124</font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SAEYS, Y.; I. INZA,    et al. A review of feature selection techniques in bioinformatics Bioinformatics    and computational biology, 2007, 23(19): 2507-2517.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">SHANNON, C. and    W. WEAVER. The Mathematical Theory of Communication. Urbana, IL, University    of Illinois Press, 1963.     p. </font>     ]]></body>
<body><![CDATA[<!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">XIONG, M.; Z. FANG,    et al. Biomarker identification by feature wrappers. Genome Research, 2001,    11: 1878-1887.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YANG, J. and J.    O. PEDERSEN. A Comparative Study on Feature Selection in Text Categorization.    Fourteenth International Conference on Machine Learning (ICML'97), 1997. 412-420    p.     </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YEUNG, K. Y. and    R. E. BUMGARNER Multiclass classification of microarray data with repeated measurements:    application to cancer. Genome Biology, 2003, 4(12): R83.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">YU, L. and H. LEI    Efficient Feature Selection via Analysis of Relevance and Redundancy Machine    Learning Research, 2004, 5: 1205-1224.    </font>     <!-- ref --><P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZHENG, Y. and C.    K. KWOH A feature subset selection method based on high-dimensional mutual information    Entropy, 2011, 13: 860-901.    <br>   </font>     ]]></body>
<body><![CDATA[<p>&nbsp; </p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 27/02/2013        <br>   Aceptado: 25/06/2013</font>       ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BATTITI]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Using mutual information for selecting features in supervised neural net learning]]></article-title>
<source><![CDATA[IEEE Transactions on Neural Networks]]></source>
<year>1994</year>
<volume>5</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>537-550</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BIESIADA]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[W.]]></surname>
<given-names><![CDATA[DUCH]]></given-names>
</name>
</person-group>
<source><![CDATA[A Kolmogorov-Smirnov Correlation-Based Filter for Microarray Data]]></source>
<year>2008</year>
<page-range>285-294</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BLUM]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[P.]]></surname>
<given-names><![CDATA[LANGLEY]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Selection of relevant features and examples in machine learning]]></article-title>
<source><![CDATA[Artificial Intelligence]]></source>
<year>1997</year>
<volume>97</volume>
<numero>1-2</numero>
<issue>1-2</issue>
<page-range>245-271</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BONEV]]></surname>
<given-names><![CDATA[B. I.]]></given-names>
</name>
</person-group>
<source><![CDATA[FEATURE SELECTION BASED ON INFORMATION THEORY]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BROWN]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[A New Perspective for Information Theoretic Feature Selection]]></source>
<year>2009</year>
<publisher-loc><![CDATA[^eFlorida Florida]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHENG]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Z.]]></surname>
<given-names><![CDATA[QIN]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Conditional Mutual Information-Based Feature Selection Analyzing for Synergy and Redundancy]]></article-title>
<source><![CDATA[ETRI]]></source>
<year>2011</year>
<volume>33</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>210-219</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DING]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[H.]]></surname>
<given-names><![CDATA[PENG]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Minimum Redundancy Feature Selection from Microarray Gene Expression Data]]></article-title>
<source><![CDATA[Bioinformatics and computational biology]]></source>
<year>2005</year>
<volume>3</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>185-205</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FLEURET]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Fast Binary Feature Selection with Conditional Mutual Information]]></source>
<year>2004</year>
<volume>5</volume>
<page-range>1531-1555</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FREY]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[D.]]></surname>
<given-names><![CDATA[FISHER]]></given-names>
</name>
</person-group>
<source><![CDATA[Identifying Markov Blankets with Decision Tree Induction]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GUYON]]></surname>
</name>
<name>
<surname><![CDATA[A.]]></surname>
<given-names><![CDATA[ELISSEEFF]]></given-names>
</name>
</person-group>
<source><![CDATA[An introduction to variable and feature selection]]></source>
<year>2003</year>
<volume>3</volume>
<page-range>1157-1182</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HALL]]></surname>
<given-names><![CDATA[M. A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Correlation-based Feature Selection for Machine Learning]]></source>
<year>1999</year>
<page-range>149</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JOHN]]></surname>
<given-names><![CDATA[G. H.]]></given-names>
</name>
<name>
<surname><![CDATA[R.]]></surname>
<given-names><![CDATA[KOHAVI]]></given-names>
</name>
</person-group>
<source><![CDATA[Irrelevant features and the subset selection problem]]></source>
<year>1994</year>
<page-range>121-129</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KHINCHIN]]></surname>
<given-names><![CDATA[A. I.]]></given-names>
</name>
</person-group>
<source><![CDATA[Mathematical foundations of information theory]]></source>
<year>1957</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KOHAVI]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[G.]]></surname>
<given-names><![CDATA[H. JOHN]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Wrappers for feature subset selection]]></article-title>
<source><![CDATA[Artif. Intell.]]></source>
<year>1997</year>
<volume>97</volume>
<numero>1-2</numero>
<issue>1-2</issue>
<page-range>273-324</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KOLLER]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[M.]]></surname>
<given-names><![CDATA[SAHAMI]]></given-names>
</name>
</person-group>
<source><![CDATA[Toward optimal feature selection]]></source>
<year>1996</year>
<page-range>284-292</page-range><publisher-loc><![CDATA[Bari ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LI]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[Y.]]></surname>
<given-names><![CDATA[YANG]]></given-names>
</name>
</person-group>
<source><![CDATA[How many genes are needed for a discriminant microarray data analysis? Methods of microarray data analysis]]></source>
<year>2002</year>
<page-range>137-150</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MEYER]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[C.]]></surname>
<given-names><![CDATA[SCHRETTER]]></given-names>
</name>
</person-group>
<source><![CDATA[Information-theoretic feature selection in micro-array data using variable complementarity]]></source>
<year>2008</year>
<volume>2</volume>
<page-range>261-274</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MEYERS]]></surname>
<given-names><![CDATA[L. S.]]></given-names>
</name>
<name>
<surname><![CDATA[G.]]></surname>
<given-names><![CDATA[GAMST]]></given-names>
</name>
</person-group>
<source><![CDATA[Applied Multivariate Research: Design and Interpretation]]></source>
<year>2005</year>
<publisher-name><![CDATA[SAGE Publications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SAEYS]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[I.]]></surname>
<given-names><![CDATA[INZA]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A review of feature selection techniques in bioinformatics]]></article-title>
<source><![CDATA[Bioinformatics and computational biology]]></source>
<year>2007</year>
<volume>23</volume>
<numero>19</numero>
<issue>19</issue>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHANNON]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[W.]]></surname>
<given-names><![CDATA[WEAVER]]></given-names>
</name>
</person-group>
<source><![CDATA[The Mathematical Theory of Communication]]></source>
<year>1963</year>
<publisher-name><![CDATA[University of Illinois Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[XIONG]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Z.]]></surname>
<given-names><![CDATA[FANG]]></given-names>
</name>
</person-group>
<source><![CDATA[Biomarker identification by feature wrappers]]></source>
<year>2001</year>
<volume>11</volume>
<page-range>1878-1887</page-range></nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[J. O.]]></surname>
<given-names><![CDATA[PEDERSEN]]></given-names>
</name>
</person-group>
<source><![CDATA[A Comparative Study on Feature Selection in Text Categorization]]></source>
<year>1997</year>
<page-range>412-420</page-range></nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YEUNG]]></surname>
<given-names><![CDATA[K. Y.]]></given-names>
</name>
<name>
<surname><![CDATA[BUMGARNER]]></surname>
<given-names><![CDATA[R. E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multiclass classification of microarray data with repeated measurements: application to cancer]]></article-title>
<source><![CDATA[Genome Biology]]></source>
<year>2003</year>
<volume>4</volume>
<numero>12</numero>
<issue>12</issue>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YU]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[LEI]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Efficient Feature Selection via Analysis of Relevance and Redundancy Machine Learning Research]]></source>
<year>2004</year>
<volume>5</volume>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHENG]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[KWOH]]></surname>
<given-names><![CDATA[C. K.]]></given-names>
</name>
</person-group>
<source><![CDATA[A feature subset selection method based on high-dimensional mutual information Entropy]]></source>
<year>2011</year>
<volume>13</volume>
<page-range>860-901</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
