<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2218-3620</journal-id>
<journal-title><![CDATA[Revista Universidad y Sociedad]]></journal-title>
<abbrev-journal-title><![CDATA[Universidad y Sociedad]]></abbrev-journal-title>
<issn>2218-3620</issn>
<publisher>
<publisher-name><![CDATA[Editorial "Universo Sur"]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2218-36202016000400004</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[COMPARACIÓN DE ALGORITMOS PARA DETECCIÓN DE INTRUSOS EN ENTORNOS ESTACIONARIOS Y DE FLUJO DE DATOS]]></article-title>
<article-title xml:lang="en"><![CDATA[A COMPARISON OF ALGORITHMS FOR INTRUDER DETECTION ON BATCH AND DATA STREAM ENVIRONMENTS]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Rivero Pérez]]></surname>
<given-names><![CDATA[Jorge Luis]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ribeiro]]></surname>
<given-names><![CDATA[Bernardete]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Héctor Ortiz]]></surname>
<given-names><![CDATA[Kadir]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Coimbra  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Portugal</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Metropolitana  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>República del Ecuador</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2016</year>
</pub-date>
<volume>8</volume>
<numero>4</numero>
<fpage>32</fpage>
<lpage>42</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2218-36202016000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2218-36202016000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2218-36202016000400004&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La detección de intrusos en redes de computadoras a partir del enfoque de aprendizaje automático presenta algunas deficiencias dadas por la propia naturaleza de la aplicación. La principal viene dada por el modesto despliegue de sistemas de detección basados en algoritmos de aprendizaje bajo las restricciones impuestas por los entornos reales. En este artículo se describen y proponen tres variantes de pre procesamiento sobre el conjunto de datos KDD99, incluye selección de atributos. Luego la experimentación se realiza primeramente a partir de evaluar algoritmos representativos en entornos estacionarios sobre las variantes obtenidas a partir de pre procesar KDD99. Por último, dado que el tráfico de red es un flujo constante de datos, en el cual pueden existir variaciones de conceptos relacionadas con las tasas de falsos positivos, unido al hecho de que no se encuentran muchas investigaciones que aborden la detección de intrusos en entornos de flujos de datos nos conduce a realizar una comparación de varios algoritmos también representativos de flujos de datos. Como resultado se obtiene cuáles son los algoritmos que mejores resultados ofrecen en la detección de intrusos sobre las variantes de pre procesamiento propuestas, tanto para entornos estacionarios como de flujos de datos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Intruders detection in computer networks has some deficiencies from machine learning approach, given by the nature of the application. The principal problem is the modest display of detection systems based on learning algorithms under the constraints imposed by real environments. This article focuses on the machine learning approach for network intrusion detection in batch and data stream environments. First, we propose and describe three variants of KDD99 dataset pre processing including attribute selection. Secondly, a thoroughly experimentation is performed from evaluating and comparing representative batch learning algorithms on the variants obtained from KDD99 pre processing. Finally, since network traffic is a constant data stream, which can present concept drifting with high rate of false positive, along with the fact that there are not many researches addressing intrusion detection on streaming environments, lead us to make a comparison of various representative data stream classification algorithms. This research allows determining the algorithms that better perform on the proposed variants of KDD99 for both batch and data stream environments.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Aprendizaje automático]]></kwd>
<kwd lng="es"><![CDATA[detección de intrusos en redes]]></kwd>
<kwd lng="es"><![CDATA[flujos de datos]]></kwd>
<kwd lng="es"><![CDATA[KDD99]]></kwd>
<kwd lng="en"><![CDATA[Data stream]]></kwd>
<kwd lng="en"><![CDATA[KDD99]]></kwd>
<kwd lng="en"><![CDATA[machine learning]]></kwd>
<kwd lng="en"><![CDATA[network intrusion detection]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <html>  <head>  <title>Comparación de algoritmos para detección de intrusos en entornos estacionarios y de flujo de datos</title> <meta http-equiv=Content-Type content="text/html; charset=windows-1252"> <meta name=Generator content="Microsoft Word 15 (filtered)"> <style> <!--  /* Font Definitions */  @font-face 	{font-family:Wingdings; 	panose-1:5 0 0 0 0 0 0 0 0 0;} @font-face 	{font-family:"Cambria Math"; 	panose-1:2 4 5 3 5 4 6 3 2 4;} @font-face 	{font-family:Calibri; 	panose-1:2 15 5 2 2 2 4 3 2 4;} @font-face 	{font-family:Cambria; 	panose-1:2 4 5 3 5 4 6 3 2 4;} @font-face 	{font-family:Tahoma; 	panose-1:2 11 6 4 3 5 4 4 2 4;} @font-face 	{font-family:Verdana; 	panose-1:2 11 6 4 3 5 4 4 2 4;}  /* Style Definitions */  p.MsoNormal, li.MsoNormal, div.MsoNormal 	{margin:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	line-height:17.0pt; 	font-size:12.0pt; 	font-family:"Times New Roman",serif; 	color:black;} h1 	{mso-style-link:"Título 1 Car"; 	margin-top:24.0pt; 	margin-right:0in; 	margin-bottom:0in; 	margin-left:0in; 	margin-bottom:.0001pt; 	line-height:115%; 	page-break-after:avoid; 	font-size:14.0pt; 	font-family:"Cambria",serif; 	color:#365F91; 	font-weight:bold;} p.MsoFootnoteText, li.MsoFootnoteText, div.MsoFootnoteText 	{mso-style-link:"Texto nota pie Car"; 	margin-top:3.0pt; 	margin-right:0in; 	margin-bottom:0in; 	margin-left:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	text-indent:14.2pt; 	font-size:10.0pt; 	font-family:"Arial",sans-serif;} p.MsoHeader, li.MsoHeader, div.MsoHeader 	{mso-style-link:"Encabezado Car"; 	margin:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	font-size:12.0pt; 	font-family:"Times New Roman",serif; 	color:black;} p.MsoFooter, li.MsoFooter, div.MsoFooter 	{mso-style-link:"Pie de página Car"; 	margin:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	font-size:12.0pt; 	font-family:"Times New Roman",serif; 	color:black;} span.MsoFootnoteReference 	{vertical-align:super;} a:link, span.MsoHyperlink 	{color:blue; 	text-decoration:underline;} a:visited, span.MsoHyperlinkFollowed 	{color:purple; 	text-decoration:underline;} p 	{margin-right:0in; 	margin-left:0in; 	font-size:12.0pt; 	font-family:"Times New Roman",serif;} p.MsoAcetate, li.MsoAcetate, div.MsoAcetate 	{mso-style-link:"Texto de globo Car"; 	margin:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	font-size:8.0pt; 	font-family:"Tahoma",sans-serif; 	color:black;} p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph 	{margin-top:0in; 	margin-right:0in; 	margin-bottom:0in; 	margin-left:.5in; 	margin-bottom:.0001pt; 	text-align:justify; 	line-height:17.0pt; 	font-size:12.0pt; 	font-family:"Times New Roman",serif; 	color:black;} span.Ttulo1Car 	{mso-style-name:"Título 1 Car"; 	mso-style-link:"Título 1"; 	font-family:"Cambria",serif; 	color:#365F91; 	font-weight:bold;} span.TextonotapieCar 	{mso-style-name:"Texto nota pie Car"; 	mso-style-link:"Texto nota pie"; 	font-family:"Arial",sans-serif;} p.Encabezadosnivel2, li.Encabezadosnivel2, div.Encabezadosnivel2 	{mso-style-name:"Encabezados nivel2"; 	margin-top:3.0pt; 	margin-right:0in; 	margin-bottom:6.0pt; 	margin-left:.25in; 	text-align:justify; 	text-indent:-.25in; 	font-size:11.0pt; 	font-family:"Arial",sans-serif; 	font-weight:bold;} p.Encabezadosnivel3, li.Encabezadosnivel3, div.Encabezadosnivel3 	{mso-style-name:"Encabezados nivel3"; 	margin-top:3.0pt; 	margin-right:0in; 	margin-bottom:6.0pt; 	margin-left:.5in; 	text-align:justify; 	text-indent:-.5in; 	font-size:11.0pt; 	font-family:"Arial",sans-serif; 	font-weight:bold; 	font-style:italic;} span.EndNoteBibliographyCar 	{mso-style-name:"EndNote Bibliography Car"; 	mso-style-link:"EndNote Bibliography"; 	font-family:"Arial",sans-serif; 	color:black;} p.EndNoteBibliography, li.EndNoteBibliography, div.EndNoteBibliography 	{mso-style-name:"EndNote Bibliography"; 	mso-style-link:"EndNote Bibliography Car"; 	margin:0in; 	margin-bottom:.0001pt; 	text-align:justify; 	line-height:12.0pt; 	font-size:10.0pt; 	font-family:"Arial",sans-serif; 	color:black;} span.TextodegloboCar 	{mso-style-name:"Texto de globo Car"; 	mso-style-link:"Texto de globo"; 	font-family:"Tahoma",sans-serif; 	color:black;} p.EndNoteBibliographyTitle, li.EndNoteBibliographyTitle, div.EndNoteBibliographyTitle 	{mso-style-name:"EndNote Bibliography Title"; 	mso-style-link:"EndNote Bibliography Title Car"; 	margin:0in; 	margin-bottom:.0001pt; 	text-align:center; 	line-height:17.0pt; 	font-size:10.0pt; 	font-family:"Arial",sans-serif; 	color:black;} span.EndNoteBibliographyTitleCar 	{mso-style-name:"EndNote Bibliography Title Car"; 	mso-style-link:"EndNote Bibliography Title"; 	font-family:"Arial",sans-serif; 	color:black;} span.EncabezadoCar 	{mso-style-name:"Encabezado Car"; 	mso-style-link:Encabezado; 	font-family:"Times New Roman",serif; 	color:black;} span.PiedepginaCar 	{mso-style-name:"Pie de página Car"; 	mso-style-link:"Pie de página"; 	font-family:"Times New Roman",serif; 	color:black;} .MsoChpDefault 	{font-family:"Calibri",sans-serif;}  /* Page Definitions */  @page WordSection1 	{size:8.5in 11.0in; 	margin:70.85pt 85.05pt 70.85pt 85.05pt;} div.WordSection1 	{page:WordSection1;}  /* List Definitions */  ol 	{margin-bottom:0in;} ul 	{margin-bottom:0in;} .Estilo1 {font-weight: bold} --> </style>  </head>       <p align="right"><font face="verdana" size="2"><strong>ART&Iacute;CULO ORIGINAL</strong></font></p>     <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="4"><b>COMPARACIÓN DE ALGORITMOS PARA DETECCIÓN DE INTRUSOS EN ENTORNOS ESTACIONARIOS Y DE FLUJO DE DATOS</b></font></p>    <br>     <br>  	    <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="3"><b>A COMPARISON OF ALGORITHMS FOR INTRUDER DETECTION ON BATCH AND DATA STREAM ENVIRONMENTS</b></font></p>    <br>     <br> <span lang=FR style='font-size: 10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc. Jorge Luis Rivero Pérez<sup>1</sup></span>, <span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc. Bernardete Ribeiro<sup>1</sup></span>, <span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc. Kadir Héctor Ortiz<sup>2</sup></span>    <br>       <p align="justify" class=MsoNormal style='line-height:normal'><sup><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>1</span></sup><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Universidad de Coimbra. Portugal.</span></p>     ]]></body>
<body><![CDATA[<br>       <p class=MsoNormal style='line-height:normal'><sup><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>2</span></sup><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Universidad de Metropolitana. República del Ecuador. </span></p>    <br>    <br>     <br> <hr>     <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="2"><b>RESUMEN</b></font></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>La detección de intrusos en redes de computadoras a partir del enfoque de aprendizaje automático presenta algunas deficiencias dadas por la propia naturaleza de la aplicación. La principal viene dada por el modesto despliegue de sistemas de detección basados en algoritmos de aprendizaje bajo las restricciones impuestas por los entornos reales. En este artículo se describen y proponen tres variantes de pre procesamiento sobre el conjunto de datos KDD99, incluye selección de atributos. Luego la experimentación se realiza primeramente a partir de evaluar algoritmos representativos en entornos estacionarios sobre las variantes obtenidas a partir de pre procesar KDD99. Por último, dado que el tráfico de red es un flujo constante de datos, en el cual pueden existir variaciones de conceptos relacionadas con las tasas de falsos positivos, unido al hecho de que no se encuentran muchas investigaciones que aborden la detección de intrusos en entornos de flujos de datos nos conduce a realizar una comparación de varios algoritmos también representativos de flujos de datos. Como resultado se obtiene cuáles son los algoritmos que mejores resultados ofrecen en la detección de intrusos sobre las variantes de pre procesamiento propuestas, tanto para entornos estacionarios como de flujos de datos. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><b><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Palabras clave: </span></b> <span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Aprendizaje automático, detección de intrusos en redes, flujos de datos, KDD99. </span></p>    ]]></body>
<body><![CDATA[<br> <hr>      <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="2"><b>ABSTRACT</b></font></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=EN-GB style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>I</span><span lang=EN-CA style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>ntruders detection in computer networks has some deficiencies from machine learning approach, given by the nature of the application. The principal problem is the modest display of detection systems based on learning algorithms under the constraints imposed by real environments. This article focuses on the machine learning approach for network intrusion detection in batch and data stream environments. First, we propose and describe three variants of KDD99 dataset pre processing including attribute selection. Secondly, a thoroughly experimentation is performed from evaluating and comparing representative batch learning algorithms on the variants obtained from KDD99 pre processing. Finally, since network traffic is a constant data stream, which can present concept drifting with high rate of false positive, along with the fact that there are not many researches addressing intrusion detection on streaming environments, lead us to make a comparison of various representative data stream classification algorithms. This research allows determining the algorithms that better perform on the proposed variants of KDD99 for both batch and data stream environments. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><b><span lang=EN-CA style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Keywords: </span></b><span lang=EN-CA style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Data stream, KDD99, machine learning, network intrusion detection. </span></p><hr>     <br>     <br>     <br>       <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="3"><b>INTRODUCCI&Oacute;N</b></font></p>    ]]></body>
<body><![CDATA[<br>      <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En la actualidad la sociedad se va haciendo cada día más dependiente del uso de sistemas computarizados en diversas ramas como: las finanzas, la industria, la medicina y aspectos de la vida cotidiana entre otras. A su vez crecen las amenazas y los ataques lo que ha hecho que la Ciber Seguridad se convierta en un área de especial atención por parte de los especialistas, teniendo especial consideración en la capacidad de actuar pro-activamente con el objetivo de mitigar o prevenir los ataques. Dentro de esta área, la detección de intrusos es abordada desde enfoques estadísticos </span><span style='font-size:10.0pt; font-family:"Verdana",sans-serif;color:windowtext'>Marchete (2012)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'> y de aprendizaje automático </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Garcia-Teodoro, Diaz-Verdejo, Maciá-Fernández &amp; Vázquez (2009); Sangkatsanee, Wattanapongsa korn &amp; Charnsripinyo (2011), Sommer &amp; Paxson (2010); Tsai, Hsu, Lin &amp; Lin (2009)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Los Sistemas de Detección de Intrusos en Redes (NIDS por sus siglas en inglés) son clasificados según sus métodos de detección. Los basados en firmas monitorizan la actividad comparándola con descripciones (firmas) de comportamientos maliciosos conocidos previamente; mientras que los basados en anomalías tiene la noción de actividad normal, clasificando como malicioso todo comportamiento desviado de ese perfil. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Varias son las investigaciones realizadas en la detección de intrusos en redes a partir de algoritmos de aprendizaje automático. </span><span lang=FR style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Garcia-Teodoro, et al (2009); Sangkatsanee, et al (2011); Sommer &amp; Paxson (2010); Tsai, et al (2009)</span><span lang=FR style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>. </span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>Pero a pesar de estas extensas investigaciones académicas, el despliegue de sistemas basados en aprendizaje automático para la detección de intrusos en ambientes operacionales se ha visto muy limitado </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(Sommer &amp; Paxson, 2010)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>. Esto ocurre debido a la propia naturaleza de la aplicación, la cual exhibe características particulares que hace que un despliegue efectivo sea más complicado que en otros contextos. Investigaciones previas han fundamentado lo anteriormente planteado identifica algunos aspectos que resultan claves, en los cuales los enfoques de aprendizaje automático no alcanzan su mejor rendimiento. Ejemplo de ello es la detección de patrones que no se ajustan a la distribución de los datos (outliers) ya que los algoritmos de aprendizaje automático en esencia ofrecen mejores resultados encontrando similitudes, o sea, en tareas de clasificación, que identifican actividades no se ajustadas a un patrón. Esto último es muy necesario en la detección de intrusos basada en anomalías. Por otra parte el costo relativo de una mala clasificación es extremadamente alto comparado con otras aplicaciones de aprendizaje automático. Un falso positivo requiere el consumo de mucho tiempo de los especialistas. Se examina el incidente reportado para eventualmente determinar que el mismo refleja una situación normal. Estudios argumentan que una tasa pequeña de falsos positivos puede inutilizar un NIDS (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Modi, et al., 2013)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>. Además, los falsos negativos tienen el potencial para comprometer seriamente la integridad de la infraestructura informática y de comunicaciones. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En la comunidad de detección de intrusos se tiende a limitar la evaluación de los sistemas de detección de anomalías al cálculo de la desviación de las nuevas instancias respecto al perfil normal. Constituye un reto convertir sus resultados en reportes semánticos para los operadores de redes. Por lo general este último paso no es abordado por las investigaciones, es una carencia actual. Al sistema detectar situaciones anómalas, o sea que se desvían del perfil normal, los operadores de redes se hacen preguntas como: ¿Qué significa? Esa es la principal diferencia entre actividad anómala y ataque. Se puede afirmar que los sistemas de detección basados en anomalías reportan actividad que no ha sido vista nunca, la cual puede ser normal o no. Se hace necesaria una interpretación semántica de los resultados para el despliegue operacional de estos sistemas, ya que el objetivo es detectar ataques y por lo general la tasa de falsos positivos es muy alta. Por otra parte el tráfico de red resulta diverso, debido a que comúnmente características como el ancho de banda, la duración de las conexiones y la variedad de las aplicaciones muestran gran variabilidad. Esto hace que para los sistemas de detección de intrusos basados en anomalías sea difícil encontrar una noción estable de normalidad en el tráfico </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(Sommer &amp; Paxson, 2010)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Otra cuestión que se considera atenuante para el despliegue de estos sistemas es que tradicionalmente la detección de intrusos a partir de aprendizaje automático se ha trabajado en entornos estacionarios, donde los datos permanecen disponibles en todo momento y son divididos, utilizando una porción para entrenar los algoritmos y otra para evaluarlos. Frameworks como WEKA (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Bouckaert, et al., 2013)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'> son muy utilizados para estas tareas ya que implementan varios algoritmos para el aprendizaje así como métricas para evaluar y establecer comparaciones. La evaluación de algoritmos de aprendizaje en estos entornos para la detección de anomalías en redes, resulta útil como base para otras formas de descubrimiento del conocimiento como son los sistemas basados en reglas. Pero este enfoque se aleja del fenómeno real ya que el tráfico de red es un flujo constante de datos y para lograr actuar de manera proactiva se requiere de algoritmos capaces de aprender en tiempo real a partir de instancias de datos que van arribando en fracciones de tiempo muy pequeñas. Estos entornos de aprendizaje son los denominados flujos de datos, donde los datos no están idénticamente distribuidos por lo que existen variaciones de conceptos pudiendo constituir variantes de nuevos ataques (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Gama &amp; Gaber, 2007; Gama, Sebastião &amp; Rodriguez, 2009; Shaker &amp; Hüllermeier, 2012)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>. </span></p>    ]]></body>
<body><![CDATA[<br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Para su mejor comprensión este artículo está dividido en secciones, en las que se describen algunos de los conjuntos de datos disponibles para la evaluación de propuestas de sistemas de detección de intrusos en redes de computadoras. Luego se presentan algunas variantes de preprocesamiento de los mismos. Por último se evalúan y comparan algoritmos de clasificación representativos de diferentes enfoques de aprendizaje automático tanto en entornos estacionarios como de flujos de datos, se utiliza para ello frameworks que implementan además de los algoritmos, metodologías de evaluación y métricas de comparación.</span></p>    <br>       <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal;text&#45;autospace:none'><font face="verdana" size="3"><b>DESARROLLO</b></font></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En la presente investigación se realiza un estudio de diferentes variantes de preprocesamiento sobre el conjunto de datos KDD99. Luego se proponen tres variantes sobre las cuales se evalúan varios algoritmos representativos del aprendizaje automático tanto en entornos estacionarios como de flujos de datos. Para ello se han tenido en cuenta diferentes metodologías y métricas de evaluación bien establecidas para estas tareas. Las mismas permiten establecer una comparación confiable para determinar cuáles son los mejores resultados, en este caso en la detección de intrusos.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>La investigación sigue una secuencia lógica y ordenada de etapas en la detección de intrusos. Se desarrolla una primera etapa en la que a partir del estudio y la experimentación de investigaciones previas en este campo de acción se logra proponer tres variantes de preprocesamiento. Luego son seleccionados y evaluados algoritmos representativos de diferentes enfoques dentro del aprendizaje automático en entornos estacionarios. De igual manera se seleccionan y evalúan algoritmos de entornos de flujos de datos.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Para llevar esta investigación a la práctica se utilizan los frameworks WEKA y MOA, para entornos de aprendizaje estacionarios y de flujos de datos respectivamente. Ambos implementan los algoritmos, metodologías y métricas antes mencionadas, se facilita así la reproducibilidad de los experimentos</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>.</span></p>      ]]></body>
<body><![CDATA[<p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En la selección de los métodos se tuvieron en cuenta aspectos como: los datos que se necesitan obtener, la correspondencia con el diseño teórico y la estrategia investigativa seleccionada. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>La relativa falta de conjuntos de datos de alta calidad para la detección de intrusiones es un problema en esta área. Debido a esto algunos investigadores han construido sus propios conjuntos de datos. Sin embargo, esta solución se enfrenta a la dificultad de etiquetar correctamente los mismos. Para ello se emplean varias herramientas como honey-pots<a href="#_ftn1" name="_ftnref1" title=""><sup><sup><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>[1]</span></sup></sup></a> y honey-nets<a href="#_ftn2" name="_ftnref2" title=""><sup><sup><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>[2]</span></sup></sup></a>, combinadas con ataques para así lograr etiquetarlos de manera precisa, pero estos enfoques aun enfrentan varios retos. Además, el resto del tráfico no se puede asumir siempre como normal, ya que también puede estar contaminado con datos correspondientes a ataques. Otra cuestión es que los conjuntos de datos deben actualizarse constantemente con nuevas instancias al contener nuevo tráfico normal (correspondiente al uso de nuevas tecnologías, al despliegue de nuevas aplicaciones y a nuevos usuarios) y ataques (nuevas técnicas o vulnerabilidades) para entrenar interactivamente a los sistemas de detección de intrusos en la medida que evolucionan las nuevas tecnologías y los ataques. Conjuntos de datos públicos de alta calidad, robustos y diversos son fundamentales para estos problemas. Las investigaciones actuales referidas a la producción de los mismos facilitan a los investigadores tener un mejor progreso general en la detección de intrusos. Algunas fuentes sugieren que la detección de intrusos en algunos escenarios debe utilizar clasificación múltiple, es decir, utilizar más etiquetas (ataque, normal, sospechoso, desconocido, etc.) para caracterizar el tráfico, en lugar de usar clasificación binaria a partir de solo dos etiquetas (ataque, normal) (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Sommer &amp; Paxson, 2010)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Los primeros conjuntos de datos disponibles DARPA98 y DARPA99 han sido creados a partir de capturar el tráfico de red con TCPdump<a href="#_ftn3" name="_ftnref3" title=""><sup><sup><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>[3]</span></sup></sup></a><sup>.</sup> Luego, basados en estos propusieron KDD99 (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>. Este se ha convertido en un estándar dentro de los conjuntos de datos de gran volumen para la evaluación de diferentes algoritmos de aprendizaje automático. Sobre el mismo se han desarrollado diversos estudios, los que han dado lugar a algunas variantes del mismo como son NSL-KDD y KDD99-10.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Otros conjuntos de datos recientes son: ISCX </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(Shiravi, Shiravi, Tavallaee &amp; Ghorbani, (2012)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>, MAWI (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Fontugne, Borgnat, Abry &amp; Fukuda, 2010)</span><span lang=ES-EC style='font-size:10.0pt; font-family:"Verdana",sans-serif;color:windowtext'>. A pesar de ser más actuales, estos no son tan utilizados como KDD99 y sus variantes </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(Ibrahim, Basheer &amp; Mahmod, 2013; Revathi &amp; Malathi, 2013; Rivero Pérez, (2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>. La experimentación desarrollada en este artículo, tanto en entornos estacionarios como de flujos de datos se realiza sobre KDD99. A continuación se realiza una breve descripción del mismo y se definen cuáles fueron los atributos seleccionados en la etapa de preprocesamiento de los datos</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>.</span></p>    <br>       <p class=Encabezadosnivel3 style='margin:0in;margin-bottom:.0001pt;text-indent: 0in'><span style='font-size:10.0pt;font-family:"Verdana",sans-serif;font-style: normal'>Conjunto de Datos KDD99 y sus Variantes</span></p>    <br>       ]]></body>
<body><![CDATA[<p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>KDD99 Consiste en registros de conexiones de red formados por 41 atributos. Los datos originales contienen 744 MB de 4 940 000. El conjunto de datos contiene 40 atributos por cada registro de conexión más otro atributo de etiquetado de la clase. Específicamente una conexión es una secuencia de paquetes TCP con un tiempo de inicio y fin bien definidos donde se enmarca el tráfico desde una dirección IP origen a una dirección IP destino a través de algún protocolo definido (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Song, Zhu, Scully &amp; Price (2013)</span><span lang=ES-EC style='font-size:10.0pt; font-family:"Verdana",sans-serif;color:windowtext'>, se explican los experimentos realizados para la conformación del mismo. Los 41 atributos que lo conforman se agrupan en las siguientes cuatro categorías (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>:</span></p>    <br>       <p class=MsoListParagraph style='text-indent:-.25in;line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:Symbol;color:windowtext'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>Atributos básicos: se obtienen de los encabezados de los paquetes, sin inspeccionar el cuerpo del paquete. Son los 6 primeros atributos del conjunto de datos.</span></p>    <br>       <p class=MsoListParagraph style='text-indent:-.25in;line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:Symbol;color:windowtext'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>Atributos de contenido: se obtienen a partir de un conocimiento del dominio aplicado al contenido del cuerpo de los paquetes TCP. Ejemplo: cantidad de intentos fallidos de inicio de sesión.</span></p>    <br>       <p class=MsoListParagraph style='text-indent:-.25in;line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:Symbol;color:windowtext'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>Atributos de tráfico basados en tiempo: estos atributos fueron diseñados para capturar propiedades dentro de una ventana temporal de dos segundos. Por ejemplo el número de conexiones de una misma estación en un intervalo de dos segundos.</span></p>    <br>       ]]></body>
<body><![CDATA[<p class=MsoListParagraph style='text-indent:-.25in;line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:Symbol;color:windowtext'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>Atributos de tráfico basado en estaciones: se utiliza una ventana histórica estimada a partir de un número de conexiones, en este caso 100. Estos atributos son diseñados para detectar ataques que sobrepasan los 2 segundos de duración.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>KDD99 contiene alrededor de 5 millones de instancias, donde cada una representa una conexión TCP/IP que está compuesta por 41 atributos tanto cuantitativos como cualitativos. En muchas investigaciones se utiliza una pequeña porción que representa el 10 % del conjunto de datos original (variante conocida como KDD99-10), contiene 494021 instancias. Este subconjunto es utilizado para entrenamiento, mientras que para prueba se utiliza otro subconjunto que contiene 331029 instancias. Aproximadamente el 20% de ambos subconjuntos representan patrones normales de tráfico (no ataques). El conjunto de datos en su totalidad contiene 39 tipos de ataques agrupados en 4 categorías (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Algunas variantes han surgido a partir de KDD99. Ejemplo de ello es KDD99-10 contiene 22 tipos de ataques y es una versión más concisa que el conjunto original. Contiene más ejemplos de ataques que de conexiones normales. Debido a su naturaleza predominan los ataques del tipo DoS. La <a href= /img/revistas/rus/v8n4/t0104416.jpg"> Tabla 1</a> muestra la cantidad de ejemplos de cada clase </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Rivero Pérez, 2014</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>.</span></p>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>&nbsp;</span></p>      <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Entre las deficiencias de KDD99 (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Kayacik, Zincir-Heywood &amp; Heywood, 2005; McHugh, 2000; Tavallaee, Bagheri, Lu &amp; Ghorbani, 2009)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>, destaca el gran número de registros redundantes dado que aproximadamente el 78% y 75% de los registros en los conjuntos de datos de entrenamiento y de prueba del mismo se duplican. Esta gran cantidad de registros redundantes hace que los algoritmos de aprendizaje clasifiquen mejor las clases de las instancias más frecuentes, se dificulta el aprendizaje a partir de instancias poco frecuentes que son generalmente más perjudiciales para las redes, tales como ataques U2R. La existencia de estos registros repetidos en los conjuntos de prueba, hace que los resultados de la evaluación se inclinen por los métodos que tienen mejores tasas de detección, sobre los registros más frecuentes. En </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Tavallaee, et al (2009)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>, se proporciona una solución para resolver las cuestiones mencionadas, y se obtienen nuevos conjuntos de entrenamiento y prueba que constan de registros seleccionados de KDD99. La nueva variante creada, llamada NSL-KDD (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Ibrahim et al., 2013; Revathi &amp; Malathi, 2013)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'> no resulta redundante, cuenta con un total de 125973 instancias, lo que hace que sea asequible para realizar los experimentos en el conjunto de datos completo, sin necesidad de seleccionar al azar una pequeña porción para entornos estacionarios. Estas características, unidas al hecho de que los experimentos se realizan en una computadora personal de gama media, implica que los algoritmos no pueden analizar un volumen demasiado grande de datos, propicia el empleo de queNSL-KDD ,en este artículo para evaluar los algoritmos de aprendizaje en entornos estacionarios. Luego, debido a que quizás la redundancia de KDD99 puede ser una característica asociada al tráfico de redes. En las redes es común encontrar más tráfico normal que de ataques en un largo período de tiempo. Se hace considerar KDD99-10 como conjunto de datos para la evaluación de algoritmos en entornos de flujos de datos. Ambos conjuntos de datos cuentan con los mismos atributos y clases, por lo que se aplican las mismas variantes de preprocesamiento a ambos.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><b><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Preprocesamiento de los Datos</span></b></p>      <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Tanto el conjunto de datos KDD99 como sus variantes NSL-KDD y KDD99-10 tienen 23 clases, donde una clase es lo considerado como tráfico normal y las restantes 22 son consideradas ataques bajo cuatro categorías principales. Existen ataques de los cuales se tienen muy pocas instancias como el caso de spy (solo 2 instancias), perl (solo 3 instancias) y otras clases como la normal y smurf, las cuales cuentan con muchas instancias. En tal sentido, después de seleccionar los atributos previamente mencionados y para lidiar con esta situación se estudiaron las siguientes variantes de preprocesamiento de los datos (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>:</span></p>    ]]></body>
<body><![CDATA[<br>   <ol style='margin-top:0in' start=1 type=1>  <li class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt;      font-family:"Verdana",sans-serif'>Modificar el conjunto de datos solo con      la muestra de las cinco categorías como clases, las cuales serían: <i>normal,      dos, probe, u2r, r2l</i>. </span></li>    <br>   <li class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt;      font-family:"Verdana",sans-serif'>Modificar el conjunto de datos solo con      la muestra de dos clases: <i>ataque</i> y <i>normal</i>. Sobre esta      variante se aplica el algoritmo de máquinas de soporte vectorial <i>SMO</i>      en la experimentación.</span></li>    <br>   <li class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt;      font-family:"Verdana",sans-serif'>Mantener como etiquetas de clases los 23      tipos de ataques contenidos en el conjunto de datos.</span></li>    <br>      </ol>      <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>La selección de atributos para esta investigación se realiza al tener en cuenta los atributos seleccionados como más relevantes en el estudio realizado sobre las diferentes técnicas de preprocesamiento, aplicadas sobre KDD99 (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'> y los obtenidos a partir de aplicar como algoritmo evaluador de atributos OneR AttributeEval con el método de búsqueda Ranker. Una vez fusionados los resultados fueron seleccionados los atributos: 1, 2, 5, 6, 9, 23, 24, 29, 32, 33, 34 y 36 (</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Rivero Pérez, 2014)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'>.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><b><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Detección de Intrusos en Entornos Estacionarios</span></b></p>     <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En esta sección se describen los resultados obtenidos al evaluar algoritmos representativos de los diferentes enfoques de aprendizaje automático en entornos estacionarios. Las evaluaciones se desarrollan con el framework WEKA </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>(Bouckaert, et al., 2013)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif; color:windowtext'> que además de implementar la mayoría de los algoritmos de clasificación del estado del arte implementa diferentes metodologías de evaluación. En estos experimentos se utiliza validación cruzada con valor de 10 (crossvalidationfold 10) garantizando que cada instancia fuera utilizada al menos una vez para entrenar y otra para probar. Son evaluados algoritmos de diferentes enfoques de clasificación sobre el conjunto de datos NSL-KDD. A continuación se referencian trabajos relacionados con la aplicación de algoritmos de clasificación para la detección de ataques y se exponen los resultados obtenidos en esta investigación.</span></p>    ]]></body>
<body><![CDATA[<br>       <p class=Encabezadosnivel3 style='margin-top:0in;margin-right:0in;margin-bottom: 0in;margin-left:.5in;margin-bottom:.0001pt'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif;font-style:normal'>Evaluación de los Algoritmos en Entornos Estacionarios</span></p>     <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>El primer algoritmo evaluado ha sido una Red Neuronal Perceptrón Multicapa (MLP). Esta es una de las redes neuronales más usadas para la clasificación. En </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Sabhnani &amp; Serpen (2003)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>, aplican MLP para detectar ataques en el juego de datos KDD99. Su arquitectura consiste en una red feed-forward de tres capas: una de entrada, una oculta y una capa de salida. En las capas oculta y de salida se utiliza la función Unipolar sigmoid con un valor slope de 1.0. El algoritmo de aprendizaje usado es el gradiente estocástico descendiente con una función de error de cuadrado medio. La capa de entrada está formada por 41 neuronas (una para cada atributo) y la capa de salida está formada por 5 neuronas (una para cada clase). En los resultados reportados en </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Sabhnani &amp; Serpen (2003)</span><span lang=ES-EC style='font-size:10.0pt;font-family: "Verdana",sans-serif;color:windowtext'>, muestran que el 88.7% de los ataques Probe son detectados. Se detectan un 97.2% de los ataques DoS, un 13.2% de los ataques U2R y 5.6% de los ataques R2L. En </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Bivens, Palagiri, Smith, Szymanski &amp; Embrechts (2002)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>, usan un MLP combinado con Mapas Auto-organizados para clasificar ataques. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En el presente experimento se mantiene la misma arquitectura de red neuronal que se referencia. Solamente varía la cantidad de neuronas de la capa de entrada. Se realizas una selección de atributos y no se trabaja con el total de 41. Además en dependencia de las variantes de preprocesamiento varia la cantidad de neuronas en la capa de salida pues la cantidad de clases es diferente para cada variante. En la primera han sido clasificadas correctamente 124109 instancias para un 98.49%, e incorrectamente 1864 instancias, lo que representa un 1.48%. En la variante 2 se obtiene un 98.58% de clasificación correcta sobre 124184 instancias y un 1.42% de clasificación incorrecta para 1789 instancias. Por último sobre la variante 3 los resultados arrojan un 98.49% de clasificación correcta sobre 124071 instancias y un 1.51% de clasificación incorrecta sobre 1902 instancias. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><i><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Máquinas de Soporte Vectorial (SVM</span></i><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>):</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'> en </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Li, et al., (2012); Mukkamala, Sung &amp; Ribeiro, 2005)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'> aplican clasificadores basados en kernel<a href="#_ftn4" name="_ftnref4" title=""><sup><sup><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>[4]</span></sup></sup></a> a problemas de detección de anomalías en redes de computadoras. Evalúan el impacto del tipo de kernel y de los valores de los parámetros en la exactitud con que clasifica los ataques SVM. La exactitud varía con el tipo de kernel así como con los valores de los parámetros. Una vez ajustados apropiadamente estos valores se logran clasificar con gran exactitud los ataques. Los resultados obtenidos en KDD99 muestran que más del 99% de los ataques son detectados por este algoritmo se usan los 6 atributos más relevantes. Sin embargo los autores en su artículo no dan una descripción detallada sobre sus experimentos. En </span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>Sung &amp; Mukkamala (2003),</span><span lang=ES-EC style='font-size:10.0pt; font-family:"Verdana",sans-serif;color:windowtext'> usan SVM como clasificador en su propuesta de arquitectura de 3 capas para la detección de intrusos. En la última capa usan SVM multi-clase como clasificador para 4 categorías: Probe, DoS, U2R y R2L, se obtienen como resultados: 99.16 %, 97.65 %, 76.32% y 46.53 %, respectivamente. Estos resultados son mejores que los ganadores de la competencia que evalua el conjunto de datos KDD99. Los resultados de los falsos positivos no están reportados ni analizados en su artículo. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>En esta experimentación se evalúa el algoritmo de SVM implementado en WEKA, conocido como SMO. Solo ha sido evaluada la variante 2 pues ese algoritmo es para tareas de clasificación binaria. Como resultado se obtuvo que 125242 instancias fueron clasificadas correctamente, lo que representa un 99.42% de clasificación correcta, mientras que 731 instancias resultan mal clasificadas lo que representa un 0.58% del total</span><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>. </span></p>    ]]></body>
<body><![CDATA[<br>       <p class=MsoNormal style='line-height:normal'><i><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Árboles de decisión: </span></i><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>se estudia la propuesta de </span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Sindhu, Geetha &amp; Kannan (2012)</span><span lang=ES-EC style='font-size:10.0pt;font-family:"Verdana",sans-serif'>,</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'> y se evalúa el algoritmo de árboles de decisión implementado en WEKA conocido como <i>J48</i>. Sobre la primera variante mencionada la clasificación se realiza sobre las clases <i>Probe</i>, <i>DoS</i>, <i>Normal</i>, <i>U2R</i> y <i>R2L</i>. De un total de 124738 instancias, se logra una clasificación de 125847 instancias correctas para un 99.02%, y 1235 instancias incorrectas para un 0.98%. En la variante 2 se obtiene un 97.43% de clasificación correcta sobre 122735 instancias y un 2.57% de clasificación incorrecta para 3238 instancias. Luego, sobre la variante 3 se logra clasificar correctamente 120745 instancias, lo que representa un 95.85% y 5228 instancias fueron clasificadas incorrectamente para un 4.15%.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Sobre esas mismas variantes se evalúa también el algoritmo <i>NaiveBayes</i>, donde en la primera variante de un total de 125973 instancias, se logra una clasificación correcta de 123642 instancias para un 98.15%, y 2331 instancias incorrectas para un 1.85%. En la variante 2 se obtiene un 98.5% de clasificación correcta sobre 124083 instancias y un 1.5% de clasificación incorrecta para 1890 instancias. Luego, la variante 3 logra una clasificación correcta de 121224 instancias de un total de 125973, para un 96.23%, y clasifica incorrectamente 4749 instancias lo que representa un 3.77%. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Luego se estudian variantes propuestas de aprendizaje basado en instancias para la detección de intrusos </span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>(Garcia-Teodoro, et al., 2009)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'> y se evalúa el algoritmo de clasificación basado en instancias <i>k </i>vecinos más cercanos (<i>k-NN</i>) implementado como <i>IBK</i> en WEKA sobre las diferentes variantes de preprocesamiento propuestas. Para ello se realiza la evaluación de diferentes valores de <i>k</i> (3, 5, 7, 9, 11 y 13). Sobre la variante 1, con <i>k</i>=3 han sido clasificadas correctamente 123984 instancias para un 98.42%, e incorrectamente 1989, lo que representa un 1.58%. En la variante 2 para ese mismo valor de <i>k</i> se obtiene un 98.02% de clasificación correcta sobre 123479 instancias y un 1.98% de clasificación incorrecta para 2494 instancias. Por último sobre la variante 3 los resultados arrojan un 97.94% de clasificación correcta sobre 123378 instancias y un 2.06% de clasificación incorrecta sobre 2595 instancias.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Con <i>k</i>=5 fueron clasificadas correctamente 123938 instancias para un 98.38%, e incorrectamente 2035 de las mismas, lo que representa un 1.62%. En la variante 2 se obtuvo un 97.98% de clasificación correcta sobre 123428 instancias y un 2.02% de clasificación incorrecta para 2545 instancias. Por último sobre la variante 3 los resultados mostraron un 97.89% de clasificación correcta sobre 123315 instancias y un 2.11% de clasificación incorrecta sobre 2658 instancias.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Con <i>k=7 </i>fueron clasificadas correctamente 123783 instancias para un 98.26 %, e incorrectamente 2190, lo que representa un 1.74%. En la variante 2 para ese mismo valor de <i>k</i> se obtiene un 97.76% de clasificación correcta sobre 123151 instancias y un 2.24% de clasificación incorrecta para 2822 instancias. Por último sobre la variante 3 los resultados muestran un 97.86% de clasificación correcta sobre 123277 instancias y un 2.14% de clasificación incorrecta sobre 2696 instancias.</span></p>    ]]></body>
<body><![CDATA[<br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>En la <a href= /img/revistas/rus/v8n4/t0204416.jpg"> Tabla 2</a> se resumen los resultados de clasificación obtenidos por los algoritmos evaluados sobre las diferentes variantes de preprocesamiento. A partir de la misma puede hacerse un análisis que permite fusionar los resultados de los algoritmos con las diferentes variantes de preprocesamiento. Para la primera variante se obtiene mejor clasificación por parte del algoritmo de árboles de decisión J48, mientras que para la variante 2 resulta el algoritmo SMO de máquinas de soporte vectorial. En la variante 3 la mejor clasificación se obtiene con la Red Neuronal Perceptrón Multicapa (MLP).</span></p>      <p class=Encabezadosnivel2 style='margin:0in;margin-bottom:.0001pt;text-indent: 0in'><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>&nbsp;</span></p>      <p class=Encabezadosnivel2 style='margin:0in;margin-bottom:.0001pt;text-indent: 0in'><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Detección de Intrusos en Entornos de Flujos de Datos</span></p>     <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>La experimentación en entornos estacionarios provee los criterios para el preprocesamiento de los datos, así como las bases para nuevas formas de extracción de conocimiento como es la generación de reglas a partir de los resultados obtenidos por algoritmos de árboles de decisión para su posterior implementación en sistemas basados en conocimiento. Sin duda resulta de gran utilidad pero dado el volumen de datos a analizar en tareas de detección de intrusos, en el que el tráfico de red es constante no se puede almacenar debido al gran volumen de información que implicaría, hace que metodologías de evaluación que dividen los datos para entrenamiento y pruebas como validación cruzada empleada anteriormente inmanejable pues los algoritmos solo pueden acceder a los datos una vez. Es decir, en la medida que arriban las instancias de tráfico. Esas características son propias de entornos de flujos de datos (</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Gama &amp; Gaber, 2007; Gama, et al., 2009; Shaker &amp; Hüllermeier, 2012)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>, además de estar caracterizados por datos arribando constantemente incluso de diversas fuentes, con tendencia a ser infinito, ocurren variaciones de conceptos que son un cambio en la distribución caracterizada por la generación de los datos. De ahí que los algoritmos para estos entornos además de tener la capacidad de procesar los datos en tiempo real deben detectar la ocurrencia de variaciones de concepto e implementar mecanismos para su tratamiento. </span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Con el objetivo de acercar esta investigación a la realidad de la aplicación en cuestión, a partir del despliegue de la misma en entornos de reales, al ser una de las deficiencias de la implementación del enfoque de aprendizaje automático para la detección de intrusos, comparamos en esta sección algoritmos de clasificación de flujos de datos para la detección de intrusos.</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Para los entornos estacionarios existen varias metodologías que permiten la evaluación y comparación de algoritmos de aprendizaje incluso en múltiples conjuntos de datos o variantes del mismo (</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Demsar, 2006)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>. En el caso de los algoritmos de clasificación en entornos de flujos de datos han sido propuestas algunas metodologías y métricas para evaluar el rendimiento de los clasificadores (</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Bifet, Read, Žliobait&#279;, Pfahringer &amp; Holmes, 2013; Gama, et al., 2009; Gama, Sebastião &amp; Rodrigues, 2013; Shaker &amp; Hüllermeier, 2012)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>. Existen dos metodologías de evaluación para estos entornos conocidas como: <i>holdout</i>y <i>prequential</i>, las mismas son combinadas con mecanismos de olvido como: ventanas deslizantes y factores de desvanecimiento, que son requeridos para una rápida y eficiente detección de variaciones de conceptos. Estudios comparativos sobre las metodologías antes referidas han defendido el uso de <i>prequential</i> con factores de desvanecimiento como mecanismo de olvido </span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>(Gama, et al., 2009, 2013)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>, se demuestran las ventajas de la misma para calcular el rendimiento de los algoritmos. Para ello se calculan como métricas: la tasa de error y la exactitud.</span></p>    ]]></body>
<body><![CDATA[<br>       <p class=Encabezadosnivel2 style='margin:0in;margin-bottom:.0001pt;text-indent: 0in'><span style='font-size:10.0pt;font-family:"Verdana",sans-serif;font-weight: normal'>A continuación se describen los resultados obtenidos a partir de evaluar varios algoritmos de clasificación de flujos de datos para la detección de intrusos en tiempo real.</span></p>    <br>       <p class=Encabezadosnivel2 style='margin:0in;margin-bottom:.0001pt;text-indent: 0in'><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Evaluación de los Algoritmos en Entornos de Flujos de Datos</span></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Para la evaluación de los algoritmos en entornos de flujos de datos se utiliza el <i>framework</i> MOA (<i>Massive Online Analysis</i>) (</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Bifet, Holmes, Kirkby &amp; Pfahringer, 2010)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>. Se mantienen todos los valores que tienen los parámetros por defecto. Se utiliza la metodología <i>prequential</i> en la cual cada instancia es evaluada antes de que el algoritmo entrene con ella, se asegura que todas son utilizadas una vez para entrenar y otra para clasificar. Como mecanismo de olvido se utiliza un factor de desvanecimiento con un valor de 0.95 se garantiza así un tratamiento adecuado ante las variaciones de concepto en el tráfico. </span></p>      <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Todas las experimentaciones se realizan sobre la variante 2 de preprocesamiento pero en el conjunto de datos KDD99-10. Los algoritmos evaluados fueron (Hoeffding Tree</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'> Rutkowski, Pietruczuk, Duda &amp; Jaworski, 2013)</span><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>: HoeffdingTree, IBL Stream, Naive Bayes, Ozaa Boost. A continuación se muestran gráficamente los resultados en cuanto a exactitud de clasificación obtenidos por cada uno. Primero se muestran los resultados individuales y luego se muestra una gráfica que contiene todos los resultados (<a href= /img/revistas/rus/v8n4/f01041416.jpg">Figura 1</a>,<a href= /img/revistas/rus/v8n4/f02041416.jpg">Figura 2</a>,<a href= /img/revistas/rus/v8n4/f03041416.jpg">Figura 3</a>,<a href= /img/revistas/rus/v8n4/f04041416.jpg">Figura 4</a>,<a href= /img/revistas/rus/v8n4/f05041416.jpg">Figura 5</a>). </span></p>    <br>      <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>A partir del análisis de las mismas se puede apreciar que existen variaciones de conceptos en las instancias 50788, 58628, 73274 y 150925 aproximadamente. Todos los clasificadores evaluados las detectaron, pero no se recuperaron en igual medida ante las mismas. La meta clasificadora OzaBoost ofrece los mejores resultados con la recuperación de las variaciones de concepto como en el promedio de la exactitud de la clasificación. De esa manera se logra corroborar en otras investigaciones que muestran la superioridad de estos algoritmos (</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>Zhang, Zhu, Shi, Guo &amp; Wu, 2011)</span><span style='font-size:10.0pt;font-family:"Verdana",sans-serif'>; también en la detección de intrusos los resultados son relevantes (<a href= /img/revistas/rus/v8n4/t0304416.jpg">Tabla 3</a>).</span></p>     <br>    ]]></body>
<body><![CDATA[<br>      <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal'><font face="verdana" size="3"><b>CONCLUSIONES</b></font></p>    <br>       <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>La detección de intrusos bajo el enfoque de aprendizaje automático tiene varias deficiencias dada la naturaleza de la propia aplicación. A pesar de ello los investigadores continúan trabajando en lograr soluciones que permitan cubrir las mismas. Algo que resulta fundamental para el despliegue de estas soluciones es lograr que cada red, como sistema autónomo, haga la construcción de su propio conjunto de datos, lo cual debe actualizarse periódicamente debido a la diversidad de aplicaciones y al emergente crecimiento de las mismas, lo que puede provocar que el tráfico normal se clasifique cado como algún tipo de ataque. Así mismo surgen nuevos ataques y/o variantes de los ya conocidos. Existen varios conjuntos de datos disponibles para la evaluación de los algoritmos pero ninguno logra caracterizar de manera general el tráfico de las redes. KDD99 y sus variantes son los más empleados en la investigación científica.</span></p>      <p class=MsoNormal style='line-height:normal'><span style='font-size:10.0pt; font-family:"Verdana",sans-serif'>Existen varias soluciones comerciales para la detección pero la mayoría son basadas en firmas, pero solo detectan ataques que ya tengan registrados. Lo adecuado es aplicar un enfoque de detección de anomalías a partir de determinar cuál es el algoritmo que mejores resultados ofrece sobre el conjunto de datos creado dentro del sistema autónomo. Para ello la evaluación de algoritmos en entornos estacionarios, a pesar de carecer de aplicabilidad cuando se refiere al fenómeno de tráfico en la red, requiere de menor infraestructura de cómputo, crea las bases para un criterio en cuanto a que algoritmos pueden resultar mejores, cuáles pueden ser las mejores variantes de procesamiento y cuáles serían las reglas de clasificación. Sirve de base para el aprendizaje automático a partir de flujos de datos de tráfico de red a pesar de que las metodologías de evaluación son diferentes. Luego, a partir del <i>framework</i> MOA puede construirse una solución personalizada para la red en cuestión, con la posibilidad de evaluar más de un algoritmo, incluso pudiendo desarrollar nuevas variantes de los mismos.</span></p>    <br>    <br>       <p align="justify" style='margin&#45;bottom:0in;margin&#45;bottom:.0001pt;text&#45;align: justify;line&#45;height:normal'><font face="verdana" size="3"><b>REFERENCIAS BIBLIOGR&Aacute;FICAS</b></font></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Bifet, A., Holmes, G., Kirkby, R., &amp; Pfahringer, B. (2010). Moa: Massive online analysis. <i>The Journal of Machine Learning Research, 11</i>, pp. 1601-1604. Recuperado de http://www.jmlr.org/papers/volume11/bifet10a/bifet10a.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Bifet, A., Holmes, G., Pfahringer, B., Kirkby, R., &amp; Gavaldà, R. (2009). <i>New ensemble methods for evolving data streams.</i> Paper presented at the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Bifet, A., Read, J., Žliobait&#279;, I., Pfahringer, B., &amp; Holmes, G. (2013). Pitfalls in benchmarking data stream classification and how to avoid them <i>Machine Learning and Knowledge Discovery in Databases</i> (pp. 465-479). Berlin: Springer.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Bivens, A., Palagiri, C., Smith, R., Szymanski, B., &amp; Embrechts, M. (2002). Network-based intrusion detection using neural networks. <i>Intelligent Engineering Systems through Artificial Neural Networks, 12</i>(1), pp. 579-584. Recuperado de https://www.utdallas.edu/~lkhan/papers/Intrusion%20Detection%20Using%20Clustering%20Approaches.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Bouckaert, R. R., Frank, E., Hall, M., Kirkby, R., Reutemann, P., Seewald, A., &amp; Scuse, D. (2013). WEKA Manual for Version 3-7-8: January.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Demsar, J. (2006). Statistical Comparisons of Classifiers over Multiple Data Sets.<i>Journal of Machine Learning Research, 7</i>, pp. 1–30. Recuperado de http://jmlr.csail.mit.edu/papers/volume7/demsar06a/demsar06a.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Fontugne, R., Borgnat, P., Abry, P., &amp; Fukuda, K. (2010). <i>Mawilab: combining diverse anomaly detectors for automated anomaly labeling and performance benchmarking.</i> Paper presented at the Proceedings of the 6th International Conference.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Gama, J., &amp; Gaber, M. M. (2007). <i>Learning from data streams</i>. Berlin: Springer.    </span></p>    <br>       ]]></body>
<body><![CDATA[<!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Gama, J., Sebastião, R., &amp; Rodrigues, P. P. (2009). <i>Issues in evaluation of stream learning algorithms.</i> Paper presented at the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Gama, J., Sebastião, R., &amp; Rodrigues, P. P. (2013). On evaluating stream learning algorithms. <i>Machine learning, 90</i>(3), pp. 317-346. Recuperado de http://link.springer.com/article/10.1007/s10994-012-5320-9</span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Garcia-Teodoro, P., Diaz-Verdejo, J., Maciá-Fernández, G., &amp; Vázquez, E. (2009). Anomaly-based network intrusion detection: Techniques, systems and challenges. <i>Computers &amp; Security, 28</i>(1), pp. 18-28. Recuperado de http://csnotes.upm.edu.my/kelasmaya/pgkm20910.nsf/de8cc2082fc4d31b4825730e002bd111/ccdb136a3174bb5f482577680001cd08/$FILE/ScienceDirect%20Anomaly-based%20NIDS.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Ibrahim, L. M., Basheer, D. T., &amp; Mahmod, M. S. (2013). A comparison study for intrusion database (Kdd99, Nsl-Kdd) based on self organization map (SOM) artificial neural network. <i>Journal of Engineering Science and Technology, 8</i>(1), pp. 107-119. Recuperado de http://jestec.taylors.edu.my/Vol%208%20Issue%201%20February%2013/Vol_8_1_107-119_LAHEEB%20M.%20IBRAHIM.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Kayacik, H. G., Zincir-Heywood, A. N., &amp; Heywood, M. I. (2005). <i>Selecting features for intrusion detection: A feature relevance analysis on KDD 99 intrusion detection datasets.</i> Paper presented at the Proceedings of the third annual conference on privacy, security and trust.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Li, Y., Xia, J., Zhang, S., Yan, J., Ai, X., &amp; Dai, K. (2012). An efficient intrusion detection system based on support vector machines and gradually feature removal method. <i>Expert Systems with Applications, 39</i>(1), pp. 424-430.     </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Marchette, D. J. (2012). Network intrusion detection <i>Handbook of Computational Statistics</i> (pp. 1139-1165).Berlin: Springer.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>McHugh, J. (2000). Testing intrusion detection systems: a critique of the 1998 and 1999 DARPA intrusion detection system evaluations as performed by Lincoln Laboratory. <i>ACM transactions on Information and system Security, 3</i>(4), pp. 262-294.     </span></p>    ]]></body>
<body><![CDATA[<br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Modi, C., Patel, D., Borisaniya, B., Patel, H., Patel, A., &amp; Rajarajan, M. (2013). A survey of intrusion detection techniques in cloud. <i>Journal of Network and Computer Applications, 36</i>(1), pp. 42-57. Recuperado de http://openaccess.city.ac.uk/1737/1/A%20survey%20of%20intrusion%20detection%20techniques%20in%20Cloud.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Mukkamala, S., Sung, A., &amp; Ribeiro, B. (2005). <i>Model selection for kernel based intrusion detection systems</i>. Berlin: Springer.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Revathi, S., &amp; Malathi, A. (2013). <i>A Detailed Analysis on NSL-KDD Dataset Using Various Machine Learning Techniques for Intrusion Detection.</i> Paper presented at the International Journal of Engineering Research and Technology, 2(12), pp. 1848-1853. Recuperado de http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=7C05CDF892E875A01EDF75C2970CBDB9?doi=10.1.1.680.6760&amp;rep=rep1&amp;type=pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Rivero Pérez, J. L. (2014). Técnicas de aprendizaje automático para la detección de intrusos en redes de computadoras. <i>Revista Cubana de Ciencias Informáticas, 8</i>(4), pp. 52-73. Recuperado de http://scielo.sld.cu/pdf/rcci/v8n4/rcci03414.pdf </span><br>       ]]></body>
<body><![CDATA[<!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Rutkowski, L., Pietruczuk, L., Duda, P., &amp; Jaworski, M. (2013). Decision trees for mining data streams based on the McDiarmid's bound. <i>Knowledge and Data Engineering, IEEE Transactions on, 25</i>(6), pp. 1272-1279. Recuperado de http://www.iisi.pcz.pl/~rutkowski/papers/TKDE-2011-07-0410.pdf</span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Sabhnani, M., &amp; Serpen, G. (2003). <i>Application of Machine Learning Algorithms to KDD Intrusion Detection Dataset within Misuse Detection Context.</i> Paper presented at the MLMTA.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Sangkatsanee, P., Wattanapongsakorn, N., &amp; Charnsripinyo, C. (2011). Practical real-time intrusion detection using machine learning approaches. <i>Computer Communications, 34</i>(18), pp. 2227-2235.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Shaker, A., &amp; Hüllermeier, E. (2012). Iblstreams: a system for instance-based classification and regression on data streams. <i>Evolving Systems, 3</i>(4), pp. 235-249.     </span></p>    ]]></body>
<body><![CDATA[<br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Shiravi, A., Shiravi, H., Tavallaee, M., &amp; Ghorbani, A. A. (2012). Toward developing a systematic approach to generate benchmark datasets for intrusion detection. <i>Computers &amp; Security, 31</i>(3), pp. 357-374.     </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>SivathaSindhu, S. S, Geetha, S., &amp; Kannan, A. (2012). Decision tree based light weight intrusion detection using a wrapper approach. <i>Expert Systems with Applications, 39</i>(1), pp. 129-141. Recuperado de http://fulltext.study/preview/pdf/388266.pdf </span><br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Sommer, R., &amp; Paxson, V. (2010). <i>Outside the closed world: On using machine learning for network intrusion detection.</i> Paper presented at the Security and Privacy (SP), 2010 IEEE Symposium on.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Song, J., Zhu, Z., Scully, P., &amp; Price, C. (2013). Selecting Features for Anomaly Intrusion Detection: A Novel Method using Fuzzy C Means and Decision Tree Classification <i>Cyberspace Safety and Security</i> (pp. 299-307). Berlin: Springer.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Sung, A. H., &amp; Mukkamala, S. (2003). <i>Identifying important features for intrusion detection using support vector machines and neural networks.</i> Paper presented at the Applications and the Internet, 2003. Proceedings. 2003 Symposium on.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Tavallaee, M., Bagheri, E., Lu, W., &amp; Ghorbani, A.-A. (2009). <i>A detailed analysis of the KDD CUP 99 data set.</i> Paper presented at the Proceedings of the Second IEEE Symposium on Computational Intelligence for Security and Defence Applications 2009.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Tsai, C.-F., Hsu, Y.-F., Lin, C.-Y., &amp; Lin, W.-Y. (2009). Intrusion detection by machine learning: A review. <i>Expert Systems with Applications, 36</i>(10), pp. 11994-12000. Recuperado de http://tarjomeh20.com/wp-content/uploads/2015/05/Intrusion-detection-by-machine-learning-A-review____9aswe8rf45dghdhfg.pdf </span><br>       ]]></body>
<body><![CDATA[<!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Wang, B., &amp; Pineau, J. (2013). Online ensemble learning for imbalanced data streams. <i>arXiv preprint arXiv:1310.8004</i>.     </span></p>    <br>       <p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Wang, X. (2012). Study on Genetic Algorithm Optimization for Support Vector Machine in Network Intrusion Detection. <i>Advances in Information Sciences &amp; Service Sciences, 4</i>(2). </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Yan, R., Hauptmann, A. G., &amp; Jin, R. (2003). <i>Negative pseudo-relevance feedback in content-based video retrieval.</i> Paper presented at the Proceedings of the eleventh ACM international conference on Multimedia.    </span></p>    <br>       <!-- ref --><p class=EndNoteBibliography style='margin-left:.5in;text-indent:-.5in; line-height:normal'><span lang=DE style='font-family:"Verdana",sans-serif'>Zhang, P., Zhu, X., Shi, Y., Guo, L., &amp; Wu, X. (2011). Robust ensemble learning for mining noisy data streams. <i>Decision Support Systems, 50</i>(2), pp. 469-479. </span><span style='font-family:"Verdana",sans-serif'>Recuperado de </span><span lang=DE><a href="http://realm.sics.se/papers/Robust%20ensemble%20learning%20for%20mining%20noisy%20data%20streams%20(1).pdf"><span lang=ES style='font-family:"Verdana",sans-serif'>http://realm.sics.se/papers/Robust%20ensemble%20learning%20for%20mining%20noisy%20data%20streams%20(1).pdf</span></a></span><br>    ]]></body>
<body><![CDATA[<br>     <br>     <p align="justify"><font face="verdana" size="2">Recibido:&nbsp;Septiembre de 2016.</font> </p> 	    <p style="margin-bottom: 0cm" ><font face="verdana" size="2">Aprobado:&nbsp;Noviembre de 2016.</font></p>    <br>     <br>     <br>  </div>      <p class=MsoNormal style='line-height:normal'><em><span lang=FR style='font-size: 10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc. Jorge Luis   Rivero P&eacute;rez</span></em></p>    <br>  <font face="verdana" size="2"><b>E&#45;mail:</b> <a href="mailto:jlrivero85@gmail.com">jlrivero85@gmail.com</a></font>    <br>    ]]></body>
<body><![CDATA[<br>       <p class=MsoNormal style='line-height:normal'><em><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc.   Bernardete Ribeiro</span></em></p>    <br>  <font face="verdana" size="2"><b>E&#45;mail:</b> <a href="mailto:bribeiro@dei.uc.pt">bribeiro@dei.uc.pt</a></font><font face="verdana" size="2">    <br>    <br>       <p class=MsoNormal style='line-height:normal'><em><span lang=ES-MX style='font-size:10.0pt;font-family:"Verdana",sans-serif;color:windowtext'>MSc.   Kadir H&eacute;ctor Ortiz</span></em></p>    <br>  <font face="verdana" size="2"><b>E&#45;mail:</b> <a href="mailto:khector@umet.edu.ec">khector@umet.edu.ec</a></font><font face="verdana" size="2">    <br>      <div><br clear=all>  <hr align=left size=1 width="33%">      <div id=ftn1>      ]]></body>
<body><![CDATA[<p class=MsoFootnoteText><a href="#_ftnref1" name="_ftn1" title=""><span class=MsoFootnoteReference><span style='font-size:8.0pt'><span class=MsoFootnoteReference><span style='font-size:8.0pt;font-family:"Arial",sans-serif'>[1]</span></span></span></span></a><span style='font-size:8.0pt'> Software o conjunto de computadores cuya intención es atraer a atacantes, simulando ser sistemas vulnerables o débiles a los ataques.</span></p>  </div>      <div id=ftn2>      <p class=MsoFootnoteText><a href="#_ftnref2" name="_ftn2" title=""><span class=MsoFootnoteReference><span style='font-size:8.0pt'><span class=MsoFootnoteReference><span style='font-size:8.0pt;font-family:"Arial",sans-serif'>[2]</span></span></span></span></a><span style='font-size:8.0pt'> Tipo especial de <i>Honey-pots</i> de alta interacción que actúan sobre una red entera.</span></p>  </div>      <div id=ftn3>      <p class=MsoFootnoteText><a href="#_ftnref3" name="_ftn3" title=""><span class=MsoFootnoteReference><span style='font-size:8.0pt'><span class=MsoFootnoteReference><span style='font-size:8.0pt;font-family:"Arial",sans-serif'>[3]</span></span></span></span></a><span style='font-size:8.0pt'> Herramienta en línea de comandos cuya utilidad principal es analizar el tráfico que circula por la red.</span></p>  </div>      <div id=ftn4>      <p class=MsoFootnoteText style='text-indent:0in'><a href="#_ftnref4" name="_ftn4" title=""><span class=MsoFootnoteReference><span style='font-size: 8.0pt'><span class=MsoFootnoteReference><span style='font-size:8.0pt; font-family:"Arial",sans-serif'>[4]</span></span></span></span></a><span style='font-size:8.0pt'> Funciones que permiten convertir lo que sería un problema de clasificación no lineal en el espacio dimensional original, a un sencillo problema de clasificación lineal en un espacio dimensional mayor.</span></p>  </div>  </div>      </body>  </html>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bifet]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Holmes]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Kirkby]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Pfahringer]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Moa: Massive online analysis.]]></article-title>
<source><![CDATA[The Journal of Machine Learning Research]]></source>
<year>2010</year>
<volume>11</volume>
<page-range>1601-1604</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bifet]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Holmes]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Pfahringer]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Kirkby]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Gavaldà]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[New ensemble methods for evolving data streams]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bifet]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Read]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Žliobait&#279;]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[Pfahringer]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Holmes]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Pitfalls in benchmarking data stream classification and how to avoid them: Machine Learning and Knowledge Discovery in Databases]]></source>
<year>2013</year>
<page-range>465-479</page-range><publisher-loc><![CDATA[Berlin ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bivens]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Palagiri]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Smith]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Szymanski]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Embrechts]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Network-based intrusion detection using neural networks]]></article-title>
<source><![CDATA[Intelligent Engineering Systems through Artificial Neural Networks]]></source>
<year>2002</year>
<volume>12</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>579-584</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[R]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Frank]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Hall]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Kirkby]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Reutemann]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Seewald]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Scuse]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[WEKA Manual for Version 3-7-8: January]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Demsar]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Statistical Comparisons of Classifiers over Multiple Data Sets]]></article-title>
<source><![CDATA[Journal of Machine Learning Research]]></source>
<year>2006</year>
<volume>7</volume>
<page-range>1-30</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fontugne]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Borgnat]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Abry]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Fukuda]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<source><![CDATA[Mawilab: combining diverse anomaly detectors for automated anomaly labeling and performance benchmarking]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gama]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Gaber]]></surname>
<given-names><![CDATA[M. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning from data streams]]></source>
<year>2007</year>
<publisher-loc><![CDATA[Berlin ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gama]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Sebastião]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Rodrigues]]></surname>
<given-names><![CDATA[P. P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Issues in evaluation of stream learning algorithms]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gama]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Sebastião]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Rodrigues]]></surname>
<given-names><![CDATA[P. P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On evaluating stream learning algorithms]]></article-title>
<source><![CDATA[Machine learning]]></source>
<year>2013</year>
<volume>90</volume>
<numero>^s3</numero>
<issue>^s3</issue>
<supplement>3</supplement>
<page-range>317-346</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Garcia-Teodoro]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Diaz-Verdejo]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Maciá-Fernández]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Vázquez]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Anomaly-based network intrusion detection: Techniques, systems and challenges]]></article-title>
<source><![CDATA[Computers & Security]]></source>
<year>2009</year>
<volume>28</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>18-28</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ibrahim]]></surname>
<given-names><![CDATA[L. M]]></given-names>
</name>
<name>
<surname><![CDATA[Basheer]]></surname>
<given-names><![CDATA[D. T]]></given-names>
</name>
<name>
<surname><![CDATA[Mahmod]]></surname>
<given-names><![CDATA[M. S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A comparison study for intrusion database (Kdd99, Nsl-Kdd) based on self organization map (SOM) artificial neural network.]]></article-title>
<source><![CDATA[Journal of Engineering Science and Technology]]></source>
<year>2013</year>
<volume>8</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>107-119</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kayacik]]></surname>
<given-names><![CDATA[H. G.]]></given-names>
</name>
<name>
<surname><![CDATA[Zincir-Heywood]]></surname>
<given-names><![CDATA[A. N.]]></given-names>
</name>
<name>
<surname><![CDATA[Heywood]]></surname>
<given-names><![CDATA[M. I.]]></given-names>
</name>
</person-group>
<source><![CDATA[Selecting features for intrusion detection: A feature relevance analysis on KDD 99 intrusion detection datasets]]></source>
<year>2005</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Xia]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Yan]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Ai]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Dai]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An efficient intrusion detection system based on support vector machines and gradually feature removal method]]></article-title>
<source><![CDATA[Expert Systems with Applications]]></source>
<year>2012</year>
<volume>39</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>424-430</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marchette]]></surname>
<given-names><![CDATA[D. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Network intrusion detection]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[McHugh]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Testing intrusion detection systems: a critique of the 1998 and 1999 DARPA intrusion detection system evaluations as performed by Lincoln Laboratory]]></article-title>
<source><![CDATA[ACM transactions on Information and system Security]]></source>
<year>2000</year>
<volume>3</volume>
<numero>^s4</numero>
<issue>^s4</issue>
<supplement>4</supplement>
<page-range>262-294</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Modi]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Patel]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Borisaniya]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Patel]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Patel]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Rajarajan]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A survey of intrusion detection techniques in cloud]]></article-title>
<source><![CDATA[Journal of Network and Computer Applications]]></source>
<year>2013</year>
<volume>36</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>42-57</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mukkamala]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Sung]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Ribeiro]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Model selection for kernel based intrusion detection systems]]></source>
<year>2005</year>
<publisher-loc><![CDATA[Berlin ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Revathi]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Malathi]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Detailed Analysis on NSL-KDD Dataset Using Various Machine Learning Techniques for Intrusion Detection]]></article-title>
<source><![CDATA[International Journal of Engineering Research and Technology]]></source>
<year>2013</year>
<volume>2</volume>
<numero>^s12</numero>
<issue>^s12</issue>
<supplement>12</supplement>
<page-range>1848-1853</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rivero Pérez]]></surname>
<given-names><![CDATA[J. L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Técnicas de aprendizaje automático para la detección de intrusos en redes de computadoras]]></article-title>
<source><![CDATA[Revista Cubana de Ciencias Informáticas]]></source>
<year>2014</year>
<volume>8</volume>
<numero>^s4</numero>
<issue>^s4</issue>
<supplement>4</supplement>
<page-range>52-73</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rutkowski]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Pietruczuk]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Duda]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Jaworski]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Decision trees for mining data streams based on the McDiarmid's bound]]></article-title>
<source><![CDATA[Knowledge and Data Engineering, IEEE Transactions on]]></source>
<year>2013</year>
<volume>25</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>1272-1279</page-range></nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sabhnani]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Serpen]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Application of Machine Learning Algorithms to KDD Intrusion Detection Dataset within Misuse Detection Context]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sangkatsanee]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Wattanapongsakorn]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Charnsripinyo]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Practical real-time intrusion detection using machine learning approaches]]></article-title>
<source><![CDATA[Computer Communications]]></source>
<year>2011</year>
<volume>34</volume>
<numero>18</numero>
<issue>18</issue>
<page-range>2227-2235</page-range></nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shaker]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Hüllermeier]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Iblstreams: a system for instance-based classification and regression on data streams]]></article-title>
<source><![CDATA[Evolving Systems]]></source>
<year>2012</year>
<volume>3</volume>
<numero>^s4</numero>
<issue>^s4</issue>
<supplement>4</supplement>
<page-range>235-249</page-range></nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shiravi]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Shiravi]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Tavallaee]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Ghorbani]]></surname>
<given-names><![CDATA[A. A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Toward developing a systematic approach to generate benchmark datasets for intrusion detection]]></article-title>
<source><![CDATA[Computers & Security]]></source>
<year>2012</year>
<volume>31</volume>
<numero>^s3</numero>
<issue>^s3</issue>
<supplement>3</supplement>
<page-range>357-374</page-range></nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SivathaSindhu]]></surname>
<given-names><![CDATA[S. S]]></given-names>
</name>
<name>
<surname><![CDATA[Geetha]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Kannan]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Decision tree based light weight intrusion detection using a wrapper approach]]></article-title>
<source><![CDATA[Expert Systems with Applications]]></source>
<year>2012</year>
<volume>39</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>129-141</page-range></nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sommer]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Paxson]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
</person-group>
<source><![CDATA[Outside the closed world: On using machine learning for network intrusion detection]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Song]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Zhu]]></surname>
<given-names><![CDATA[Z.]]></given-names>
</name>
<name>
<surname><![CDATA[Scully]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Price]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<source><![CDATA[Selecting Features for Anomaly Intrusion Detection: A Novel Method using Fuzzy C Means and Decision Tree Classification.]]></source>
<year>2013</year>
<page-range>299-307</page-range><publisher-loc><![CDATA[Berlin ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sung]]></surname>
<given-names><![CDATA[A. H.]]></given-names>
</name>
<name>
<surname><![CDATA[Mukkamala]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<source><![CDATA[Identifying important features for intrusion detection using support vector machines and neural networks.]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tavallaee]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Bagheri]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[Lu]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[Ghorbani]]></surname>
<given-names><![CDATA[A.-A.]]></given-names>
</name>
</person-group>
<source><![CDATA[A detailed analysis of the KDD CUP 99 data set]]></source>
<year>2009</year>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tsai]]></surname>
<given-names><![CDATA[C.-F]]></given-names>
</name>
<name>
<surname><![CDATA[Hsu]]></surname>
<given-names><![CDATA[Y.-F.]]></given-names>
</name>
<name>
<surname><![CDATA[Lin]]></surname>
<given-names><![CDATA[C.-Y]]></given-names>
</name>
<name>
<surname><![CDATA[Lin]]></surname>
<given-names><![CDATA[W.-Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Intrusion detection by machine learning: A review]]></article-title>
<source><![CDATA[Expert Systems with Applications]]></source>
<year>2009</year>
<volume>36</volume>
<numero>^s10</numero>
<issue>^s10</issue>
<supplement>10</supplement>
<page-range>11994-12000</page-range></nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[Pineau]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Online ensemble learning for imbalanced data streams: arXiv preprint arXiv:1310.8004]]></source>
<year>2013</year>
</nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Yan]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Hauptmann]]></surname>
<given-names><![CDATA[A. G.]]></given-names>
</name>
<name>
<surname><![CDATA[Jin]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Negative pseudo-relevance feedback in content-based video retrieval]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Zhu]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[Shi]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[Guo]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Wu]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust ensemble learning for mining noisy data streams]]></article-title>
<source><![CDATA[Decision Support Systems]]></source>
<year>2011</year>
<volume>50</volume>
<numero>^s2</numero>
<issue>^s2</issue>
<supplement>2</supplement>
<page-range>469-479</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
