<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992016000200001</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Limpieza de ruido para clasificación basado en vecindad y cambios de concepto en el tiempo]]></article-title>
<article-title xml:lang="en"><![CDATA[Noise cleaning for classification based on neighborhood and concept changes over time]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Toro Pozo]]></surname>
<given-names><![CDATA[Jorge Luis]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pascual González]]></surname>
<given-names><![CDATA[Damaris]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Vázquez Mesa]]></surname>
<given-names><![CDATA[Fernando Daniel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Las Tunas  ]]></institution>
<addr-line><![CDATA[Las Tunas ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Oriente  ]]></institution>
<addr-line><![CDATA[Santiago de Cuba ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2016</year>
</pub-date>
<volume>10</volume>
<numero>2</numero>
<fpage>1</fpage>
<lpage>13</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992016000200001&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992016000200001&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992016000200001&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En la minería de datos y reconocimiento de patrones, un importante campo lo constituye la clasificación. La clasificación es necesaria en muchos procesos del mundo de hoy. Muchos son los estudios y métodos propuestos con el fin de hacer que los clasificadores sean cada vez más efectivos. Sin embargo, la mayoría de ellos consideran la perfección en los conjuntos de entrenamiento, sin tener en cuenta que podría haber, dentro de estos conjuntos de entrenamiento, objetos con etiquetas de clases erróneas, producto tanto de errores humanos como de previos procesos de clasificación. Al proceso de eliminar estos objetos mal clasificados, se denomina limpieza de ruido. Obviamente, la limpieza de ruido influye considerablemente en la correcta clasificación de nuevas muestras. En esta investigación, se presenta un nuevo algoritmo de limpieza de ruido en flujos de datos para clasificación, basado en criterios de vecindad. Además, considera cambios en la distribución de los datos que pueden ocurrir en el transcurso del tiempo. Se evaluó, mediante varios experimentos, el efecto de la aplicación del método en la construcción automática de conjuntos de entrenamiento usando bases de datos del repositorio UCI y dos sintéticas. Los resultados obtenidos demuestran la eficacia de la estrategia de limpieza de ruido y su influencia en la correcta clasificación de nuevas muestras.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[An important field within data mining and pattern recognition is classification. Classification is necessary in a number nowadays-world processes. Several works and methods have been proposed with the goal to achieve classifiers to be more effective each time. However, most of them consider the training sets to be perfectly clustered, without having into account that incorrectly classified data might be in them. The process of removing incorrectly classified objects is called noise cleaning. Obviously, noise cleaning influences considerably in classification of new samples. In this work, we present a neighborhood-based algorithm for noise cleaning on data stream for classification. In addition, it considers the data distribution changes that may occur on the time. It was measured, by several experiments, the effect of the method on automatic building of training sets by using databases from UCI repository and two synthetic ones. The obtained results show prove the efficacy of the proposed noise cleaning strategy and its influence on the right classification of new samples.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Limpieza de ruido]]></kwd>
<kwd lng="es"><![CDATA[aprendizaje semi-supervisado]]></kwd>
<kwd lng="es"><![CDATA[cambios de concepto]]></kwd>
<kwd lng="en"><![CDATA[Noise cleaning]]></kwd>
<kwd lng="en"><![CDATA[semi-supervised learning]]></kwd>
<kwd lng="en"><![CDATA[concept drift]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Limpieza de ruido para clasificaci&oacute;n basado  en vecindad y cambios de concepto en el tiempo</font></strong></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Noise cleaning for classification  based on neighborhood and concept changes  over time</font></strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Jorge &nbsp;Luis &nbsp;Toro  &nbsp;Pozo<strong><sup>1*</sup></strong>, Damaris &nbsp;Pascual  &nbsp;Gonz&aacute;lez<strong><sup>2</sup></strong>, Fernando &nbsp;Daniel &nbsp;V&aacute;zquez &nbsp;Mesa</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup></sup></strong></font><font face="Verdana, Arial, Helvetica, sans-serif"><strong><sup>2</sup></strong></font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Universidad de Las Tunas. Av. Carlos J. Finlay SN, Rpto.  Santos, Las Tunas    <br>       <sup>2 </sup>Universidad de Oriente. Av. Patricio Lumumba SN, Santiago de Cuba    ]]></body>
<body><![CDATA[<br>     </font></p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <a href="mailto:jorgitoltp@gmail.com">jorgitoltp@gmail.com</a><a href="mailto:mcairo@uci.cu"></a><a href="mailto:jova@uci.cu"></a></font><font face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:losorio@ismm.edu.cu"></a> </font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la miner&iacute;a de datos y reconocimiento de patrones,  un importante campo lo constituye la clasificaci&oacute;n. La clasificaci&oacute;n es necesaria  en muchos procesos del mundo de hoy. Muchos son los estudios y m&eacute;todos propuestos con el fin de hacer que los clasificadores sean cada vez m&aacute;s efectivos. Sin embargo, la mayor&iacute;a de ellos consideran la perfecci&oacute;n en los conjuntos de entrenamiento, sin tener en cuenta que podr&iacute;a haber, dentro de estos conjuntos de entrenamiento, objetos con etiquetas de clases  err&oacute;neas, producto tanto de errores  humanos como de previos procesos de clasificaci&oacute;n. Al proceso de eliminar estos objetos mal clasificados, se denomina limpieza  de ruido. Obviamente, la limpieza  de ruido influye considerablemente en la correcta clasificaci&oacute;n de nuevas muestras.  En esta investigaci&oacute;n, se presenta un nuevo algoritmo  de limpieza de ruido en flujos de datos para clasificaci&oacute;n, basado en criterios  de vecindad. Adem&aacute;s, considera cambios en la distribuci&oacute;n de los datos que pueden ocurrir en el transcurso  del tiempo. Se evalu&oacute;, mediante varios experimentos, el efecto de la aplicaci&oacute;n del m&eacute;todo en la construcci&oacute;n autom&aacute;tica de conjuntos de entrenamiento usando bases de datos del repositorio UCI y dos sint&eacute;ticas. Los resultados obtenidos  demuestran la eficacia de la estrategia de limpieza de ruido y su influencia en la correcta clasificaci&oacute;n de nuevas muestras. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Limpieza de ruido, aprendizaje semi-supervisado,  cambios de concepto</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">An important field within data mining and pattern recognition is classification. Classification is necessary  in a number nowadays-world processes.  Several works and methods have been proposed with the goal to achieve classifiers to be more effective each time. However, most of them consider  the training sets to be perfectly clustered, without having  into account that incorrectly classified data might be in them. The process of removing incorrectly classified objects is called noise  cleaning. Obviously, noise cleaning  influences considerably in classification of new samples.  In this work, we present a neighborhood-based algorithm for noise cleaning on data stream for classification. In addition,  it considers the data distribution changes that may occur on the time. It was measured, by several experiments, the effect of the method on automatic building of training sets by using databases from UCI repository and two synthetic  ones. The obtained results  show prove the efficacy of the proposed noise cleaning strategy and its influence on the right classification of new samples.</font> </p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>Noise cleaning,  semi-supervised learning,  concept drift</font></p> <hr>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el mundo actual,  varias son las esferas  en las que es necesario realizar un proceso de clasificaci&oacute;n. Para rea- lizar el proceso de clasificaci&oacute;n se necesita  un conjunto de muestras etiquetadas (prototipos) lo suficientemente representativas, que sean capaces de emitir un juicio correcto acerca de la clase a la cual pertenece  un nuevo objeto. Este conjunto de muestras etiquetadas se conoce en la literatura como conjunto de entrenamiento (Training&nbsp;  Set,&nbsp; TS).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los algoritmos de clasificaci&oacute;n semi-supervisada o de aprendizaje semi-supervisado  (Chapelle et al., 2006; Kalish et al., 2011; Liu et al., 2009; Rohban and Rabiee, 2012; Settles, 2010; Zhou and Goldman, 2004) tienen como &uacute;nica informaci&oacute;n <em>a priori </em>pocas muestras de las clases  presentes y cuentan con un conjunto numeroso  de objetos no etiquetados que ser&aacute;n utilizados tambi&eacute;n en el proceso de clasificaci&oacute;n. En procesos de aprendizaje  semi-supervisado, se pueden cometer errores que m&aacute;s tarde ocasionar&aacute;n a su vez fallos en la clasificaci&oacute;n de nuevos objetos, ya  que aprender de datos clasificados incorrectamente afecta la funcionalidad de los algoritmos de clasificaci&oacute;n, lo que demuestra la necesidad de aplicar estrategias de eliminaci&oacute;n de objetos err&oacute;neamente clasificados en las bases  de datos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Muchos algoritmos de detecci&oacute;n de ruido trabajan sobre conjuntos de datos est&aacute;ticos (algoritmos de edici&oacute;n), &eacute;stos tienden  a obtener un conjunto de prototipos eliminando valores at&iacute;picos  (<em>outliers </em>en la literatura en  ingl&eacute;s), y no tienen en cuenta los cambios que se pueden ocasionar  con el transcurso del tiempo (Garc&iacute;a et al., 2012; Segata et al., 2010; V&aacute;zquez et al., 2005; Wilson and Martinez, 2000). Sin embargo, se deben tener en cuenta los cambios en la distribuci&oacute;n de los datos que pueden ocurrir en el transcurso del tiempo, dando lugar a lo que se denomina <em>cambios de concepto </em>(conocido por <em>concept drift </em>en ingl&eacute;s) (ver (Jagadeesh et al., 2011; Klinkenberg, &nbsp;2004)). </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En (Zhu et al., 2008) aparece  un m&eacute;todo para eliminar  ruido en un flujo de datos, utilizando t&eacute;cnicas  estad&iacute;sticas como el margen de varianza  m&aacute;xima, y hace una comparaci&oacute;n entre las t&eacute;cnicas  de Filtrado Local (FL), Global (FG) y, Local y Global (FLyG).  Este m&eacute;todo tiene tres limitaciones fundamentales: 1) necesita  introducir un par&aacute;metro <em>&alpha; </em>que indica  el n&uacute;mero de objetos que considera como ruidosos en la base de datos, esto en general, es un problema  ya que es imposible conocer a priori cu&aacute;n contaminados est&aacute;n los datos, 2) se necesita  evaluar la funci&oacute;n que caracteriza el principio del margen de varianza  m&aacute;xima varias veces, lo que hace el proceso costoso y 3) los mejores  resultados de su algoritmo se obtienen con el Filtrado  FLyG, por lo que hace es necesario desarrollar tanto el filtrado  local como el global.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por ello, el problema a investigar  en este trabajo es la insuficiencia en la calidad de la clasificaci&oacute;n debido a la presencia de objetos mal etiquetados (ruido) en los conjuntos de entrenamiento. El objetivo de esta investigaci&oacute;n es la creaci&oacute;n de un algoritmo para detecci&oacute;n y eliminaci&oacute;n de ruido basado  en criterios de vecindad  y que tiene en cuenta cambios de concepto en el tiempo. Adem&aacute;s, nuestra hip&oacute;tesis radica en el perfeccionamiento de los m&eacute;todos  de clasificaci&oacute;n basados en aprendizaje  semi-supervisado con el uso del m&eacute;todo  de limpieza de ruido propuesto. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el presente trabajo, se muestra una nueva estrategia  para la detecci&oacute;n de ruido en flujos de datos mediante criterios de vecindad  para eliminar las limitaciones del m&eacute;todo propuesto  en (Zhu et al., 2008) empleando un conjunto de dos clasificadores (en la literatura cient&iacute;fica en ingl&eacute;s suele llamarse  ensemble). Adem&aacute;s, se hace una propuesta  de un esquema de aprendizaje semi-supervisado que utiliza en la etapa del filtrado  de las muestras, el m&eacute;todo de limpieza de ruido propuesto.</font> </p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos de limpieza de ruido en general, usan clasificadores entrenados de una porci&oacute;n de los datos de  entrenamiento, para justificar las muestras  excluidas (Jeatrakul et al., 2010; Jagadeesh et al., 2011; Segata et al., 2010; Li et al., 2007). Esto puede ser posible para datos est&aacute;ticos,  pero en flujos de datos, es necesario tener en cuenta que ellos  est&aacute;n sujetos a cambios en las diferentes distribuciones, por lo que es necesario definir estrategias para lidiar con esta problem&aacute;tica. Se pueden efectuar  tres variantes para filtrar el flujo de datos: 1) El Filtrado  Local (FL) realiza la limpieza de los datos localmente dentro de cada bloque, sin necesitar ning&uacute;n otro bloque de datos,  2) Filtrado Global  (FG) que utiliza clasificadores entrenados desde m&uacute;ltiples  bloques para identificar  el ruido y/o 3) Filtrado  Local y Global (FLyG)  que tiene en cuenta los objetos ruidosos  seg&uacute;n cada una de las dos estrategias anteriores. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El flujo de datos se modela a trav&eacute;s de los bloques de objetos etiquetados que se denotan <em>F<sub>i</sub> </em>(<em>i </em>= 1<em>, </em>2<em>, . . . , H</em>). Para todos los objetos de cada bloque se aplica una regla de clasificaci&oacute;n, y se verifica si la etiqueta  asignada al objeto coincide  con la etiqueta que tiene originalmente, en caso que esto no ocurra, el objeto se considera  ruidoso y es eliminado. Luego,  un problema de clasificaci&oacute;n en general puede  ser descrito en la siguiente forma:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Definici&oacute;n  1 (Problema de clasificaci&oacute;n) <em>Sean </em>(<em>X, &Theta;</em>) = <em>{</em>(<em>x</em>1<em>, &theta;</em>1)<em>, </em>(<em>x</em>2<em>, &theta;</em>2)<em>, . . . , </em>(<em>xN , &theta;N </em>)<em>} un conjunto de muestras etiquetadas (conjunto de entrenamiento) y x un nuevo objeto  que se quiere asignar  a una de las</em> <em>M clases C</em><sub>1</sub><em>, C</em><sub>2</sub><em>, . . . , C</em><sub>M</sub><em> &nbsp;donde &theta;i &isin; {C</em><sub>1</sub><em>, C</em><sub>2</sub><em>, . . . , C</em><sub>M</sub> <em>} &forall;i &isin; {</em>1<em>, </em>2<em>, . . . , N }. Si p</em>(<em>cj |x</em>) <em>son las probabilidades a posteriori de cada una de las clases, se debe asignar a x la etiqueta c que maximice el valor de la probabilidad</em> <em>anteriormente descrita, i.e.:</em> </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0101216.jpg" alt="fo01" width="404" height="55"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una de las t&eacute;cnicas  m&aacute;s empleadas para manejar  los cambios de concepto  son los conjuntos de clasificadores, mediante los cuales las salidas de varios clasificadores se combinan para tomar una decisi&oacute;n final. En nuestra estrategia se utiliza  un producto de dos funciones<em> p</em><sub>1</sub> y<em> p</em><sub>2</sub> que representan estrategias de clasificaci&oacute;n diferentes y luego se normaliza  como se expresa a continuaci&oacute;n:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0201216.jpg" alt="fo02" width="327" height="57"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dado un conjunto de entrenamiento <em>E &nbsp;</em>y <em>x </em>un objeto a clasificar, denotemos  por <img src="/img/revistas/rcci/v10n2/fo0301216.jpg" alt="fo03" width="28" height="27">al conjunto de los <em>k </em>elementos de <em>E </em>m&aacute;s cercanos  de acuerdo a la distancia  Euclidiana a <em>x </em>es tambi&eacute;n conocido como <em>k-</em>vecindad de <em>x </em>en <em>E</em>) unido al conjunto de los elementos de <em>E </em>que  tienen a <em>x </em>incluido en su <em>k</em>-vecindad , entonces se define:</font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0401216.jpg" alt="fo04" width="295" height="57"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <em>&theta;<sub>u</sub> </em>representa la clase de <em>u </em>y <em>|A| </em>es el cardinal del conjunto A. Por otro lado, para definir  la probabilidad <em>p</em><sub>2</sub> se tuvo en cuenta la cercan&iacute;a de <em>x </em>a las clases presentes, para ello se utiliz&oacute; la siguiente f&oacute;rmula: </font></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rcci/v10n2/fo0501216.jpg" alt="fo05" width="568" height="104"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es precisamente en el filtrado global, donde se consideran los cambios de concepto  en el tiempo, que significa que se decanten o ignoren todos los bloques anteriores a uno dado. La idea de esta propuesta se basa en el hecho que si hay distribuciones de los datos muy antiguas,  es aconsejable no considerarlas, porque podr&iacute;a provocar criterios  falsos acerca de la situaci&oacute;n actual. As&iacute;, en un filtrado global se utiliza un par&aacute;metro <em>&beta; </em>para determinar el n&uacute;mero  de bloques anteriores  a F<em><sub>i</sub>&nbsp;</em>que formar&aacute;n parte del conjunto de entrenamiento <em>E</em>: </font></p>     <p align="center"><img src="/img/revistas/rcci/v10n2/fo0601216.jpg" alt="fo06" width="211" height="62"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El conjunto de entrenamiento se constituye con los elementos de los <em>&beta; </em>bloques anteriores a F<em><sub>i</sub> </em>que ya han sido aceptados como no ruidosos (F&oacute;rmula 5). En la <a href="/img/revistas/rcci/v10n2/f0101216.jpg" target="_blank">Figura 1</a> se resume el m&eacute;todo de limpieza  de ruido propuesto. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Aprendizaje semi-supervisado  con limpieza de ruido </strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En aprendizaje semi-supervisado, se tiene un conjunto peque&ntilde;o E de muestras  correctamente etiquetadas y un conjunto grande de objetos sin clase que necesitan  ser etiquetados para luego ser utilizados como conjunto de entrenamiento, con el objetivo de clasificar  nuevas muestras.  Se considera que los objetos sin etiqueta llegan formando una secuencia de bloques G<em><sub>1</sub></em><em>, G</em><em><sub>2</sub></em><em>, . . . , </em>G<em><sub>H</sub></em><em> </em>y con alg&uacute;n clasificador, se asignan etiquetas  a los objetos, modelando  de esta forma un flujo de datos F<em><sub>1 </sub></em><em>, </em>F<em><sub>2 </sub>, . . . , </em>F<em><sub>H</sub></em><em> </em>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Entre los elementos etiquetados de cada  bloque existen algunos  ruidosos debido a errores en la  clasificaci&oacute;n, lo que puede ocasionar la aparici&oacute;n de cambios de concepto. Una manera de detectar estos cambios de concepto es mediante la aplicaci&oacute;n del m&eacute;todo de detecci&oacute;n de ruido utilizando &uacute;nicamente los dos resultados m&aacute;s recientes como se explic&oacute; en  la secci&oacute;n anterior. El esquema de aprendizaje semi-supervisado  se muestra en la <a href="/img/revistas/rcci/v10n2/f0201216.jpg" target="_blank">Figura 2</a>. Con esta nueva propuesta, constituye el conjunto de entrenamiento actual el conjunto A<em><sub>i</sub></em> obtenido, a diferencia de otros esquemas de aprendizaje  semi-supervisado (V&aacute;zquez et al., 2008).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por tanto, en dependencia de la funcionalidad del clasificador empleado en el paso 1.1, y de la aplicaci&oacute;n del algoritmo de detecci&oacute;n de ruido en el paso 1.2, as&iacute; ser&aacute; la calidad del conjunto de entrenamiento A<em><sub>i</sub></em>obtenido en cada etapa. Para desarrollar el paso 1.2 la primera  vez, se selecciona un conjunto inicial A<em><sub>0</sub></em> de datos bien etiquetados que constituyen la experiencia existente acerca  de la distribuci&oacute;n de las clases,  que sirve como conjunto de entrenamiento para etiquetar los objetos de F<em><sub>1</sub></em>&nbsp;y luego, decidir cu&aacute;les de ellos fueron mal etiquetados. La segunda vez, el conjunto de entrenamiento ser&aacute; la uni&oacute;n de <em>A</em>0 y <em>A</em>1, para, desde entonces, utilizar los dos conjuntos de aceptados anteriores al bloque que se eval&uacute;a.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este ep&iacute;grafe se muestran  los resultados obtenidos  de la experimentaci&oacute;n realizada  para verificar la efectivi- dad del m&eacute;todo propuesto. Para ello se utilizaron 8 bases de datos del repositorio UCI (Newman and Asuncion, 2007) y otras dos sint&eacute;ticas creadas  por los autores que fueron denominadas G4 y G6. G4 est&aacute; formada  por 4 modos gaussianos con poco solapamiento ya que estos concentran la mayor parte de sus puntos cerca de la media, por tanto, los puntos comunes a los dem&aacute;s modos son pocos en comparaci&oacute;n con los que se encuentran en un radio dado alrededor  de la media. G6 est&aacute; compuesta  por 6 modos gaussianos y en este caso s&iacute; existe un alto &iacute;ndice de solapamiento ya que uno de ellos tiene otros tres modos distribuidos cerca de su media.  Son modos gaussianos con medias muy cercanas  y por tanto muy solapados. En la <a href="#t01">Tabla 1</a> se exponen las principales caracter&iacute;sticas  de estas colecciones de datos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se utiliz&oacute; como medida de calidad <em>precisi&oacute;n </em>definida por </font><img src="/img/revistas/rcci/v10n2/fo0701216.jpg" alt="fo07" width="118" height="51"> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde<em> <img src="/img/revistas/rcci/v10n2/fo0801216.jpg" alt="fo08" width="15" height="22"></em> es el conjunto de los objetos ruidosos detectados por el algoritmo y <em>R </em>es el conjunto de los ruidosos reales. Para simular el flujo de datos, cada una de las bases de datos fue dividida  en 10 bloques de manera aleatoria, manteniendo la distribuci&oacute;n de probabilidades de las clases,  y de cada bloque del flujo de datos se seleccion&oacute; de manera aleatoria  un porcentaje <em>&alpha; &isin; {</em>10<em>, </em>20<em>, </em>30<em>, </em>40<em>, </em>50<em>} </em>de objetos a los que se les alter&oacute; su correcta  etiqueta de clase  para simular la existencia de objetos ruidosos  en la base de datos. Con cada valor de <em>&alpha; </em>se generaron cinco conjuntos diferentes de objetos</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">mal etiquetados. Los resultados son el promedio  de las cinco ejecuciones realizadas del proceso indicado. El conjunto <img src="/img/revistas/rcci/v10n2/fo0301216.jpg" alt="fo03" width="28" height="27">para cada <em>x </em>se construy&oacute; tomando  los valores de <em>k </em>= 1<em>, </em>3.</font> </p>     <p align="center"><img src="/img/revistas/rcci/v10n2/t0101216.jpg" alt="t01" width="573" height="302"><a name="t01"></a></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v10n2/t0201216.jpg" target="_blank">Tabla 2</a> se muestran los porcentajes de precisi&oacute;n en la detecci&oacute;n del ruido que se obtuvo para cada una de las bases  de datos, es decir,  el porcentaje de objetos verdaderamente ruidosos que el algoritmo  detect&oacute; como ruidosos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">N&oacute;tese que en todos los casos el mayor porcentaje de aciertos  se obtuvo con el Filtrado  Global (en negrita), o sea, con el Filtrado  FG se detecta el mayor porcentaje de objetos ruidosos,  tanto cuando se considera  un vecino como si se utilizan  los tres vecinos m&aacute;s cercanos  del objeto en an&aacute;lisis. Este es un resultado importante  ya que disminuye el costo de la detecci&oacute;n de  ruido, pues no ser&iacute;a necesario  realizar simult&aacute;neamente para  cada bloque del flujo de datos  un filtrado local y un filtrado  global.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obs&eacute;rvese tambi&eacute;n, que cuando se tienen en cuenta los 3 vecinos de cada objeto (FG-3 o FLyG-3), los porcen- tajes son superiores, ya que se est&aacute; utilizando una vecindad m&aacute;s amplia, lo cual garantiza una mayor precisi&oacute;n en la detecci&oacute;n de objetos mal etiquetados.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es de destacar, que sobre las bases de datos Cancer,  Page, Pendigit y G4, con un 10 % de datos  mal etiquetados, considerando tres vecinos, se hace una limpieza de al menos el 90 % de los objetos ruidosos con el filtrado  FG. Para las bases de datos: Diabetes, Wave, Spam y G6, con un 10 % de objetos ruidosos  se detecta un 80 % o m&aacute;s de los mismos. S&oacute;lo en el caso de la base de datos German, se obtuvieron porcentajes de detecci&oacute;n de ruido inferiores.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para <em>&alpha; </em>=  40, se detect&oacute; alrededor del 50 % de los objetos ruidosos, mientras que para <em>&alpha; </em>= 50 fueron eliminados alrededor del 40 % de los objetos mal etiquetados, siempre  que se aplica el filtrado  global, lo que no ocurre con el filtrado  FLyG con el cual los porcentajes de detecci&oacute;n de ruido son mucho menores.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es v&aacute;lido aclarar,  que si cerca de la mitad de los ejemplos  de la base de datos son ruidosos,  hay una gran confu- si&oacute;n entre los objetos ruidosos  y los objetos con una etiquetada de clase correcta, lo que hace  extremadamente dif&iacute;cil determinar cu&aacute;les son los objetos realmente ruidosos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Influencia de la limpieza  de ruido en aprendizaje semi-supervisado </strong></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se evalu&oacute; la influencia de la estrategia de limpieza de ruido en un esquema de aprendizaje semi-supervisado utilizando los conjuntos de objetos aceptados como conjuntos de entrenamiento. Se tom&oacute; como conjunto de  prueba  (<em>test </em>) el 10 % de cada base de datos. El criterio de selecci&oacute;n de este sub-conjunto fue mediante la selecci&oacute;n aleatoria de una muestra  del 10 % de cada una de las clases existentes. Este conjunto fue utilizado para determinar  el porcentaje de clasificaci&oacute;n correcta  que los objetos aceptados  como no ruidosos (de entre</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">el restante 90 % dividido  en flujos) proporcionan al etiquetar los ejemplos del conjunto de prueba.  En este experimento, se emplearon los conjuntos de objetos aceptados del filtrado con las estrategias: FG y FLyG como conjunto de entrenamiento para clasificar el conjunto de prueba y comparamos los resultados obtenidos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v10n2/t0301216.jpg" target="_blank">Tabla 3</a> se muestran los resultados de este experimento, con <em>k </em>= 3 siendo el valor de mejores  resultados en la detecci&oacute;n de ruido.  Se agregaron, adem&aacute;s, dos experimentos cuyos resultados aparecen en las columnas nombradas SF (Sin Filtrado)  y FP (Filtrado Perfecto),  que significan: todos los bloques antes de ser filtrados,  y,  todos los bloques luego de haber eliminado el total de los objetos ruidosos,  respectivamente. En negrita, marcamos  los valores m&aacute;s significativos (mayores) del porcentaje de clasificaci&oacute;n correcta. La columna BD significa base de datos, el s&iacute;mbolo <em>&alpha; </em>representa el porcentaje de ruido presente. Los resultados indican  que en un esquema de aprendizaje, en el que se etiquetan objetos desconocidos, hasta un 20 %  de error en el etiquetado  puede ser <em>corregido </em>o eliminando un porcentaje alto de los objetos ruidosos, y as&iacute;, los conjuntos de entrenamiento tendr&iacute;an mayor calidad.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Puede verse, adem&aacute;s, que cuando hay un 10 % de objetos ruidosos, sobre las bases de datos:  Cancer, German, Diabetes, G4, G6, Page, Wave, Pendigit  y Spam, se obtiene un porcentaje de clasificaci&oacute;n correcta superior o similar al que se obtiene cuando se realiza un filtrado perfecto. Esto significa, que es &uacute;til emplear la estrategia  de detecci&oacute;n de ruido para construir  conjuntos de entrenamiento. S&oacute;lo con las bases de datos Page y Phoneme quedaron los porcentajes por debajo de los del filtrado  perfecto, aunque sin una marcada diferencia en el caso del filtrado FG.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cuando existe un 20 % de objetos ruidosos en las bases de datos, tambi&eacute;n los resultados alcanzados con el  m&eacute;todo propuesto  para la detecci&oacute;n de ruido son buenos.  Por ejemplo, sobre las bases de datos:  German, Diabetes, G6 y Wave, los porcentajes de clasificaci&oacute;n correcta  son superiores o similares  a los obtenidos con un filtrado  perfecto. Para el resto de las bases de datos,  los porcentajes se pueden considerar adecuados por su significado, ya que al realizar  un filtrado se logra eliminar  objetos ruidosos y disminuir el tama&ntilde;o del conjunto de entrenamiento. Se pueden destacar los resultados que se han obtenido con las bases de datos: Cancer, G4, G6, Page, Pendigit, para las cuales, el porcentaje de clasificaci&oacute;n correcta  que proporcionan es igual o superior al 90 % cuando  hay un 20 % o menos de error en las etiquetas  de los objetos que forman los bloques. Esto garantiza que la estrategia de detecci&oacute;n de ruido, es capaz de filtrar los bloques del flujo de datos de manera que los objetos aceptados como no ruidosos  puedan ser empleados  para clasificar objetos nuevos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Obs&eacute;rvese adem&aacute;s, la diferencia de los porcentajes obtenidos  despu&eacute;s de la limpieza con relaci&oacute;n a los obtenidos  si no  se aplica nuestra estrategia. Para la mayor&iacute;a de las bases de datos, el porcentaje de clasificaci&oacute;n correcta que se obtiene del conjunto de entrenamiento con ruido (sin aplicar el m&eacute;todo de filtrado que aqu&iacute; se propone) es por lo menos un 10 % menor que cuando se utilizan  los bloques filtrados.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por ejemplo, sobre la base de datos c&aacute;ncer, con un 10 % de objetos ruidosos, sin aplicar limpieza  de ruido, el porcentaje de clasificaci&oacute;n correcta  que proporciona el conjunto de entrenamiento es de un 87 %. Sin embargo, despu&eacute;s de haber detectado objetos ruidosos,  el porcentaje de clasificaci&oacute;n correcta aumenta hasta m&aacute;s de un 96 %.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los resultados, demuestran, adem&aacute;s, que la estrategia de tener en cuenta los cambios de concepto  proporciona la construcci&oacute;n de conjuntos de entrenamiento adecuados  sin necesidad de utilizar todos los objetos del flujo</font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">de datos. El hecho de obtener buenos resultados cuando se tienen en cuenta los  cambios de concepto, adem&aacute;s de la utilidad en s&iacute; que tiene este problema en la actualidad, es importante ya que se puede  ir eliminando informaci&oacute;n no relevante en el contexto actual. Desde el punto de vista computacional es conveniente, ya que para realizar  una clasificaci&oacute;n, no es necesario  utilizar todos los objetos que ya han sido procesados, sino los de la &uacute;ltima  generaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Tambi&eacute;n se puede mencionar el hecho de que cuando hay un porcentaje de error de 40 % o 50 % se detecta  menor cantidad de objetos ruidosos, causado  por la incertidumbre en la veracidad  de las etiquetas de clase existe en este caso, pues habr&iacute;a casi el mismo n&uacute;mero de objetos bien etiquetados que mal etiquetados. Obviamente, esto influye en los porcentajes de clasificaci&oacute;n correcta.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se ha mostrado una nueva estrategia para la detecci&oacute;n y limpieza de ruido en flujos de datos, empleando criterios de vecindad. En la nueva estrategia se utiliza un <em>conjunto </em>de dos clasificadores, para combinar los resultados que cada uno aporta en la etapa de clasificaci&oacute;n. Este m&eacute;todo se enfoca en el problema de la presencia de cambios de concepto  en el tiempo. El m&eacute;todo propuesto  detecta autom&aacute;ticamente todos los objetos que considera ruidosos, no se limita  a un porcentaje <em>&alpha; </em>(este valor s&oacute;lo se utiliza para simular la existencia de objetos ruidosos en el flujo de datos).  Se emplea una estrategia muy simple  (vecinos m&aacute;s cercanos). Se realizaron los experimentos siguiendo  los esquemas de los filtrados: FG y FLyG debido  a que con el filtrado local (FL) no se tiene en cuenta los cambios de concepto  en el tiempo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como medida para establecer la calidad del proceso de limpieza  de ruido se utiliz&oacute; la precisi&oacute;n, analiz&aacute;ndose el porcentaje de objetos ruidosos que el algoritmo detecta y la calidad de los bloques luego del proceso de  limpieza, para ser utilizados como conjuntos de entrenamiento en la clasificaci&oacute;n de nuevas muestras. De las dos estrategias de filtrado, los resultados en el procesamiento de los patrones demuestran que el filtrado  FG es suficiente para detectar los objetos ruidosos. Esto es importante ya que as&iacute; el proceso es menos costoso  debido a que no hay que realizar  el filtrado local.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Entre los valores  del par&aacute;metro <em>k</em>, para detecci&oacute;n de ruido el m&aacute;s efectivo result&oacute; <em>k </em>= 3, lo cual demuestra que para detectar  los objetos ruidosos es m&aacute;s conveniente verificar  las etiquetas de otros objetos que rodean al que se est&aacute; analizando, no s&oacute;lo su vecino m&aacute;s cercano. Este hecho se observa en la <a href="/img/revistas/rcci/v10n2/t0201216.jpg" target="_blank">Tabla 2</a> ya que FG-3 y FLyG-3 tienen  siempre porcentajes de detecci&oacute;n de ruido m&aacute;s altos  que FG-1 y FLyG-1  respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra cuesti&oacute;n a destacar es que para tener en cuenta los cambios de concepto, s&oacute;lo se emplearon dos bloques anteriores  al analizado en cada etapa,  esto contribuye con un ahorro computacional importante, adem&aacute;s del hecho en s&iacute; que es tener en cuenta nada m&aacute;s los resultados m&aacute;s actuales  para detectar nuevos objetos ruidosos o para clasificar objetos correctamente, desechando informaci&oacute;n fuera del contexto  actual. Los porcentajes alcanzados en cuanto al filtrado  de objetos ruidosos, demuestran la validez del m&eacute;todo aplicado, ya que se detecta un 80 % o m&aacute;s de individuos mal etiquetados cuando  hay hasta un 20 % de error de clasificaci&oacute;n.  La importancia de este hecho est&aacute; en la posibilidad de emplear el m&eacute;todo en esquemas  de aprendizaje semi- supervisado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En cuanto a la calidad como conjuntos de entrenamiento de los bloques filtrados, los resultados en los casos de menos de un 30 % de ruido son positivos. Los mejores resultados se obtienen cuando hay un 10 % de ruido, ya que los porcentajes son superiores a los que se obtienen con el filtrado  perfecto y se demuestra que con un menor n&uacute;mero de objetos se obtienen  porcentajes de clasificaci&oacute;n satisfactorios.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como una aplicaci&oacute;n de los resultados obtenidos  en el esquema de detecci&oacute;n de ruido en flujos de datos, se propuso un algoritmo de aprendizaje semi-supervisado para desechar los objetos ruidosos producto de la etapa de clasificaci&oacute;n.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Olivier Chapelle, Bernhard  Scholkopf, and Alexander  Zien. <em>Semi-supervised learning</em>. MIT press Cambridge, 2006.    </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Salvador Garc&iacute;a, Joaqu&iacute;n Derrac,  Jos&eacute; Ram&oacute;n Cano, and Francisco Herrera.  Prototype selection for nearest neighbor classification: Taxonomy and empirical  study. <em>IEEE Trans. Pattern  Anal. Mach. Intell.</em>, &nbsp;34(3): 417&ndash;435, 2012.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">R. P. Jagadeesh, Chandra  Bose, Wil M. P. van der Aalst,  Indre Zliobaite,  and Mykola Pechenizkiy. Hand- ling concept  drift in process mining.  In <em>Advanced Information Systems  Engineering - 23rd International Conference, CAiSE 2011, London, UK, June 20-24, 2011. Proceedings</em>, pages 391&ndash;405, 2011. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Piyasak Jeatrakul, Kok Wai Wong, and Chun Che Fung. Data cleaning  for classification using misclassification analysis. <em>JACIII</em>, 14(3):297&ndash;302, 2010. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Charles W. Kalish,  Timothy T. Rogers, Jonathan Lang, and Xiaojin Zhu. Can semi-supervised  learning explain incorrect beliefs about categories? <em>Cognition</em>, 120(1):106&ndash;118, 2011.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ralf Klinkenberg. Learning drifting  concepts: Example selection vs. example weighting. <em>Intelligent Data Analysis</em>, 8(3):281&ndash;300, 2004.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Yunlei Li, Lodewyk F. A. Wessels,  Dick de Ridder, and Marcel J. T. Reinders. Classification in the presence of class noise using a probabilistic kernel fisher method. <em>Pattern Recognition</em>, 40(12):3349&ndash;3357, 2007. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Qiuhua Liu, Xuejun Liao, Hui Li, Jason R. Stack, and Lawrence Carin. Semisupervised multitask learning. <em>IEEE Trans. Pattern Anal. Mach. Intell.</em>, 31(6):1074&ndash;1086, 2009.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">David Newman and Arthur Asuncion. University of California Irvine UCI- Machine Learning  repository, 2007.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mohammad H. Rohban and Hamid R. Rabiee. Supervised neighborhood graph construction for semi-supervised classification. <em>Pattern Recognition</em>, 45(4):1363&ndash;1372, 2012. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Nicola Segata, Enrico Blanzieri, Sarah Jane Delany, and Padraig Cunningham. Noise reduction for instance- based learning with a local maximal margin approach. <em>Journal of Intelligent Information Systems</em>, 35(2): 301&ndash;331, 2010.</font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Burr Settles. Active learning  literature survey. <em>University of Wisconsin, Madison</em>, 52(55-66):11, 2010.    </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Fernando V&aacute;zquez, J. Salvador  S&aacute;nchez, and Filiberto Pla.  A stochastic  approach to wilson&rsquo;s editing algorithm. In <em>Pattern  Recognition and Image Analysis</em>, pages 35&ndash;42. Springer, 2005. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Fernando V&aacute;zquez,  Jos&eacute; Salvador S&aacute;nchez, and Filiberto Pla. Learning and forgetting with local information of  new objects. In <em>Progress in Pattern Recognition, Image Analysis  and Applications,  13th Iberoamerican  Congress on Pattern Recognition, CIARP 2008, Havana,  Cuba, September 9-12,  2008. Proceedings</em>, pages 261&ndash;268, 2008. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">D. Randall Wilson  and Tony R. Martinez.&nbsp;&nbsp;&nbsp; Reduction techniques for instance-based learning  algorithms. <em>Machine Learning</em>, 38(3):257&ndash;286, 2000. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Yan Zhou and Sally A. Goldman. Democratic co-learning. In <em>16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI 2004), 15-17 November 2004, Boca Raton, FL, USA</em>,  pages 594&ndash;602, 2004.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Xingquan Zhu, Peng Zhang, Xindong Wu, Dan He, Chengqi Zhang, and Yong Shi. Cleansing noisy data streams. In <em>Proceedings of the 8th IEEE International Conference on Data Mining (ICDM 2008), December 15-19, 2008, Pisa, Italy</em>, pages 1139&ndash;1144, 2008. </font></p>     <p>&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 10/11/2015    ]]></body>
<body><![CDATA[<br> Aceptado: 07/03/2016</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chapelle]]></surname>
<given-names><![CDATA[Olivier]]></given-names>
</name>
<name>
<surname><![CDATA[Scholkopf]]></surname>
<given-names><![CDATA[Bernhard]]></given-names>
</name>
<name>
<surname><![CDATA[Zien]]></surname>
<given-names><![CDATA[Alexander]]></given-names>
</name>
</person-group>
<source><![CDATA[Semi-supervised learning]]></source>
<year>2006</year>
<publisher-name><![CDATA[MIT press Cambridge]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[Salvador]]></given-names>
</name>
<name>
<surname><![CDATA[Derrac]]></surname>
<given-names><![CDATA[Joaquín]]></given-names>
</name>
<name>
<surname><![CDATA[Cano]]></surname>
<given-names><![CDATA[José Ramón]]></given-names>
</name>
<name>
<surname><![CDATA[Herrera]]></surname>
<given-names><![CDATA[Francisco]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Prototype selection for nearest neighbor classification: Taxonomy and empirical study]]></article-title>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>34</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>417-435</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jagadeesh]]></surname>
<given-names><![CDATA[R. P.]]></given-names>
</name>
<name>
<surname><![CDATA[Chandra]]></surname>
<given-names><![CDATA[Bose]]></given-names>
</name>
<name>
<surname><![CDATA[van der Aalst]]></surname>
<given-names><![CDATA[Wil M. P]]></given-names>
</name>
<name>
<surname><![CDATA[Zliobaite]]></surname>
<given-names><![CDATA[Indre]]></given-names>
</name>
<name>
<surname><![CDATA[Pechenizkiy]]></surname>
<given-names><![CDATA[Mykola]]></given-names>
</name>
</person-group>
<source><![CDATA[Hand- ling concept drift in process mining.]]></source>
<year>June</year>
<month> 2</month>
<day>0-</day>
<page-range>391-405</page-range><publisher-loc><![CDATA[^eLondon London]]></publisher-loc>
<publisher-name><![CDATA[23rd International Conference]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Piyasak]]></surname>
<given-names><![CDATA[Jeatrakul]]></given-names>
</name>
<name>
<surname><![CDATA[Kok Wai]]></surname>
<given-names><![CDATA[Wong]]></given-names>
</name>
<name>
<surname><![CDATA[Fung]]></surname>
<given-names><![CDATA[Chun Che]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data cleaning for classification using misclassification analysis]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>14</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>297-302</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Charles W]]></surname>
<given-names><![CDATA[Kalish]]></given-names>
</name>
<name>
<surname><![CDATA[Timothy T]]></surname>
<given-names><![CDATA[Rogers]]></given-names>
</name>
<name>
<surname><![CDATA[Lang]]></surname>
<given-names><![CDATA[Jonathan]]></given-names>
</name>
<name>
<surname><![CDATA[Xiaojin]]></surname>
<given-names><![CDATA[Zhu]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Can semi-supervised learning explain incorrect beliefs about categories?]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>120</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>106-118</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Klinkenberg]]></surname>
<given-names><![CDATA[Ralf]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Learning drifting concepts: Example selection vs. example weighting]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>8</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>281-300</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[Yunlei]]></given-names>
</name>
<name>
<surname><![CDATA[Lodewyk F. A.]]></surname>
<given-names><![CDATA[Wessels]]></given-names>
</name>
<name>
<surname><![CDATA[Dick de]]></surname>
<given-names><![CDATA[Ridder]]></given-names>
</name>
<name>
<surname><![CDATA[Reinders]]></surname>
<given-names><![CDATA[Marcel J. T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Classification in the presence of class noise using a probabilistic kernel fisher method.]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<volume>40</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>3349-3357</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Qiuhua]]></surname>
<given-names><![CDATA[Liu]]></given-names>
</name>
<name>
<surname><![CDATA[Xuejun]]></surname>
<given-names><![CDATA[Liao]]></given-names>
</name>
<name>
<surname><![CDATA[Hui]]></surname>
<given-names><![CDATA[Li]]></given-names>
</name>
<name>
<surname><![CDATA[Stack]]></surname>
<given-names><![CDATA[Jason R]]></given-names>
</name>
<name>
<surname><![CDATA[Lawrence]]></surname>
<given-names><![CDATA[Carin]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Semisupervised multitask learning.]]></article-title>
<source><![CDATA[]]></source>
<year>2009</year>
<volume>31</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>1074-1086</page-range><publisher-name><![CDATA[Intell]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Newman]]></surname>
<given-names><![CDATA[David]]></given-names>
</name>
<name>
<surname><![CDATA[Asuncion]]></surname>
<given-names><![CDATA[Arthur]]></given-names>
</name>
</person-group>
<source><![CDATA[Machine Learning repository]]></source>
<year>2007</year>
<publisher-name><![CDATA[University of California Irvine UCI]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mohammad H]]></surname>
<given-names><![CDATA[Rohban]]></given-names>
</name>
<name>
<surname><![CDATA[Hamid R.]]></surname>
<given-names><![CDATA[Rabiee]]></given-names>
</name>
</person-group>
<source><![CDATA[]]></source>
<year>2012</year>
<volume>45</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>1363-1372</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Segata]]></surname>
<given-names><![CDATA[Nicola]]></given-names>
</name>
<name>
<surname><![CDATA[Blanzieri]]></surname>
<given-names><![CDATA[Enrico]]></given-names>
</name>
<name>
<surname><![CDATA[Delany]]></surname>
<given-names><![CDATA[Sarah Jane]]></given-names>
</name>
<name>
<surname><![CDATA[Cunningham]]></surname>
<given-names><![CDATA[Padraig]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Noise reduction for instance- based learning with a local maximal margin approach]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>35</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>301-331</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Settles]]></surname>
<given-names><![CDATA[Burr]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Active learning literature survey]]></article-title>
<source><![CDATA[]]></source>
<year>2010</year>
<volume>52</volume>
<numero>11</numero>
<issue>11</issue>
<publisher-loc><![CDATA[Madison ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vázquez]]></surname>
<given-names><![CDATA[Fernando]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez]]></surname>
<given-names><![CDATA[J. Salvador]]></given-names>
</name>
<name>
<surname><![CDATA[Pla]]></surname>
<given-names><![CDATA[Filiberto]]></given-names>
</name>
</person-group>
<source><![CDATA[A stochastic approach to wilson&#8217;s editing algorithm.]]></source>
<year>2005</year>
<page-range>35-42</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vázquez]]></surname>
<given-names><![CDATA[Fernando]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez]]></surname>
<given-names><![CDATA[José Salvador]]></given-names>
</name>
<name>
<surname><![CDATA[Pla]]></surname>
<given-names><![CDATA[Filiberto]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning and forgetting with local information of new objects.]]></source>
<year>Sept</year>
<month>em</month>
<day>be</day>
<page-range>261-268</page-range><publisher-loc><![CDATA[^eHavana Havana]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Randall Wilson]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[R. Martinez]]></surname>
<given-names><![CDATA[Tony]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reduction techniques for instance-based learning algorithms.]]></article-title>
<source><![CDATA[]]></source>
<year>2000</year>
<volume>38</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>257-286</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zhou]]></surname>
<given-names><![CDATA[Yan]]></given-names>
</name>
<name>
<surname><![CDATA[Sally]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Democratic co-learning.]]></source>
<year>2004</year>
<page-range>594-602</page-range><publisher-loc><![CDATA[Boca Raton^eFL FL]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Xingquan]]></surname>
<given-names><![CDATA[Zhu]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[Peng]]></given-names>
</name>
<name>
<surname><![CDATA[Xindong]]></surname>
<given-names><![CDATA[Wu]]></given-names>
</name>
<name>
<surname><![CDATA[He]]></surname>
<given-names><![CDATA[Dan]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[Chengqi]]></given-names>
</name>
<name>
<surname><![CDATA[Shi]]></surname>
<given-names><![CDATA[Yong]]></given-names>
</name>
</person-group>
<source><![CDATA[Cleansing noisy data streams.]]></source>
<year>Dece</year>
<month>mb</month>
<day>er</day>
<page-range>1139-1144</page-range><publisher-loc><![CDATA[Pisa ]]></publisher-loc>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
