<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992018000500001</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Mejorando el rendimiento en la detección de tráfico scan y backscatter.]]></article-title>
<article-title xml:lang="en"><![CDATA[Improving scan and backscatter detection performance.]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Herrera-Semenets]]></surname>
<given-names><![CDATA[Vitali]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Doerr]]></surname>
<given-names><![CDATA[Christian]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez-García]]></surname>
<given-names><![CDATA[Osvaldo Andrés]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Hernández-León]]></surname>
<given-names><![CDATA[Raudel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Advanced Technologies Application Center (CENATAV)  ]]></institution>
<addr-line><![CDATA[ Havana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Delft University of Technology Intelligent Systems Department ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Netherlands</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>00</month>
<year>2018</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>00</month>
<year>2018</year>
</pub-date>
<volume>12</volume>
<fpage>1</fpage>
<lpage>12</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992018000500001&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992018000500001&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992018000500001&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El crecimiento exponencial del volumen de datos generado por la prestación de servicios en las redes de telecomunicaciones hace que sea cada vez más complejo su procesamiento. La presencia de datos innecesarios, datos redundantes o ruidosos, puede afectar el rendimiento de los Sistemas de Detección de Intrusos (IDS). El empleo de técnicas de Minería de Datos que permiten reducir la información innecesaria se ha hecho frecuente en estos escenarios. Sin embargo, llevar a cabo el proceso de reducción sin afectar la eficacia del proceso de detección, sigue siendo un reto. En este trabajo se presenta un método que permite reducir la existencia de información innecesaria, aportando mayor eficiencia al IDS, sin afectar en gran medida la eficacia durante el proceso de detección. Los resultados alcanzados utilizando datos reales, en la detección de paquetes de tipo scan y backscatter, muestran que es factible el uso del método propuesto en escenarios reales.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The exponential growth in the volume of information generated by the provision of telecommunications services makes the data processing an increasingly complex task. The presence of unnecessary information, such as redundantor noisy data, can affect the performance of Intrusion Detection Systems (IDS). Several data mining techniques have been proposed to reduce unnecessary information. However, carrying out the reduction process without affecting the efficacy of the detection process, remains a challenge. In this paper, a method to reduce the existence of unnecessary information is presented, improving the IDS efficiency, without greatly affecting the efficacy during the detection process. Achieved results using real data to detect scan and backscatter packages, show that the application of proposed method in real scenarios is feasible.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[reducción de datos]]></kwd>
<kwd lng="es"><![CDATA[scan]]></kwd>
<kwd lng="es"><![CDATA[backscatter]]></kwd>
<kwd lng="en"><![CDATA[data reduction]]></kwd>
<kwd lng="en"><![CDATA[scan]]></kwd>
<kwd lng="en"><![CDATA[backscatter]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO  ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Mejorando &nbsp;el rendimiento &nbsp;en la detecci&oacute;n de tr&aacute;fico scan y backscatter</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong>.</strong></font></font></p>     <p>&nbsp;</p>     <p><font size="3"><strong><font face="Verdana, Arial, Helvetica, sans-serif"><em>Improving </em></font></strong><em><font face="Verdana, Arial, Helvetica, sans-serif"><strong>scan and backscatter detection&nbsp;  performance.</strong></font></em><font face="Verdana, Arial, Helvetica, sans-serif"><strong></strong></font></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2"><strong><font face="Verdana, Arial, Helvetica, sans-serif">Vitali &nbsp;Herrera-Semenets<strong><sup>1</sup><strong><sup>*</sup></strong></strong>, Christian &nbsp;Doerr<strong><sup>2</sup></strong>, Osvaldo Andr&eacute;s P&eacute;rez-Garc&iacute;a</font></strong><font face="Verdana, Arial, Helvetica, sans-serif"><strong><strong><sup>1</sup></strong></strong></font></font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">, <strong>Raudel</strong> <strong>Hern&aacute;ndez-Le&oacute;n<strong><sup>1</sup></strong></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup>Advanced Technologies Application Center (CENATAV). 7a #21406, &nbsp;Playa, C.P. 12200, Havana, Cuba</font>    <br>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>2</sup>Intelligent Systems Department, Delft University of Technology. Mekelweg 4, 2628 CD  Delft, the Netherlands</font>    ]]></body>
<body><![CDATA[<br>     <br> </p>     <P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span><font size="2"><a href="mailto:vherrera@cenatav.co.cu">vherrera@cenatav.co.cu</a></font></font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El crecimiento exponencial  &nbsp;del volumen de datos generado por la prestaci&oacute;n &nbsp;de servicios en las redes &nbsp;de  telecomunicaciones  &nbsp;hace que sea cada vez m&aacute;s complejo su procesamiento. La presencia de  datos  innecesarios,  datos redundantes o ruidosos, puede afectar el rendimiento de los Sistemas de Detecci&oacute;n de Intrusos  (IDS). El  empleo de t&eacute;cnicas de Miner&iacute;a de Datos que permiten reducir  la informaci&oacute;n innecesaria se ha hecho frecuente en estos escenarios. Sin embargo, llevar a cabo el proceso de  reducci&oacute;n sin afectar  la eficacia del proceso de detecci&oacute;n, sigue siendo un reto. En este trabajo se presenta &nbsp;un m&eacute;todo que permite reducir la existencia de informaci&oacute;n innecesaria, aportando mayor eficiencia al IDS, sin afectar en gran medida  la eficacia durante el proceso de detecci&oacute;n. Los resultados alcanzados utilizando datos reales, en  la detecci&oacute;n de paquetes de tipo scan y backscatter, muestran que es factible el uso del m&eacute;todo propuesto en  escenarios reales.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b></font> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">reducci&oacute;n de datos, scan, backscatter</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p align="justify"><font size="2"><em><font face="Verdana, Arial, Helvetica, sans-serif">The exponential growth in the volume of  information generated by the provision  of telecommunications services</font></em> <font face="Verdana, Arial, Helvetica, sans-serif"><em>makes the data processing  an increasingly  &nbsp;complex task. The presence of unnecessary  information, &nbsp;such  as</em> <em>redundantor noisy data, can affect the performance of  Intrusion Detection  Systems (IDS). Several data mining</em> <em>techniques &nbsp;have  been proposed to reduce unnecessary information. However, carrying out the reduction process</em>     <em>without affecting the efficacy of  the detection process, remains a challenge. In  this paper, a  method to  reduce the</em>     <em>existence of unnecessary information is presented, improving the  IDS efficiency, without  greatly affecting the</em>     <em>efficacy during the detection  process. Achieved results  using real data to detect scan and backscatter packages,</em> <em>show that the application of proposed method in  real scenarios is  feasible.</em> </font></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>data reduction, scan, backscatter</font></p> <hr>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hoy en d&iacute;a, &nbsp;una de las amenazas m&aacute;s &nbsp;importantes en Internet &nbsp;son los ataques  de denegacion &nbsp;de servicio distribuido (DDoS,  por sus siglas en ingl&eacute;s). Estos ataques est&aacute;n orientados a interrumpir el acceso leg&iacute;timo a un sistema de redes mediante la generacion de un gran flujo  de informaci&oacute;n desde varios puntos de conexi&oacute;n hacia un  mismo punto de destino.  Los reportes de inteligencia estad&iacute;stica del primer trimestre del presente a&ntilde;o (2018) proporcionados por la compa&ntilde;&iacute;a Kaspersky Lab, indican que se registraron ataques de DDoS contra 79 pa&iacute;ses y el ataque m&aacute;s largo dur&oacute; 297 horas (m&aacute;s de doce d&iacute;as), siendo uno de los m&aacute;s largos en los &uacute;ltimos a&ntilde;os (Alexander et al., 2018).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo en cuenta la observaci&oacute;n anterior,  se hace necesario &nbsp;garantizar la disponibilidad de los sistemas de  redes ante posibles ataques de DDoS. Una caracter&iacute;stica presente en este tipo de ataque es que el atacante falsifica de forma aleatoria  la direcci&oacute;n origen de los paquetes IP  enviados a  la v&iacute;ctima. Al no poder distinguir entre paquetes falsificados y leg&iacute;timos, &nbsp;la v&iacute;ctima responde &nbsp;a los paquetes falsos como lo har&iacute;a &nbsp;ante uno leg&iacute;timo. Estos paquetes de respuesta son conocidos como retrodispersi&oacute;n (<em>backscatter </em>). Al enviarse los paquetes <em>backscatter  &nbsp;</em>como respuesta a  destinatarios aleatorios, pudieran  emplearse telescopios de red (Moore et al., 2006) (network telescopes) para tener una evidencia indirecta de dichos ataques. El  an&aacute;lisis de los paquetes <em>backscatter </em>pueden ayudar a identificar caracter&iacute;sticas particulares del ataque y de la v&iacute;ctima.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las operaciones de reconocimiento &nbsp;de la red, m&aacute;s conocidas como <em>scan</em>, son en muchas ocasiones un  paso previo  a los  ataques. Identificar qu&eacute; est&aacute;n escaneando los atacantes puede alertar a los analistas de seguridad sobre cu&aacute;les servicios o tipos de computadora est&aacute;n siendo objeto de un ataque. Conocer esta informaci&oacute;n antes del  ataque, le da la posibilidad  al analista de tomar acciones preventivas para proteger  los recursos. Por ejemplo,  instalar parches, deshabilitar servicios en computadoras  &nbsp;que no  deber&iacute;an estar ejecut&aacute;ndose, entre otros.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los Sistemas de Detecci&oacute;n de Intrusos (IDS) son utilizados para inspeccionar el tr&aacute;fico de red en busca de alg&uacute;n evento asociado a la ejecuci&oacute;n de una actividad maliciosa (Liao et al., 2013). El empleo de IDS basados en reglas es muy  frecuente en las compa&ntilde;&iacute;as proveedoras de servicios de telecomunicaciones. Esto se debe a  que permiten procesar la informaci&oacute;n generada en  tiempo real o muy cercano a  este,  lo cual hace posible prevenir o reducir los da&ntilde;os que se puedan &nbsp;ocasionar &nbsp;por la ejecuci&oacute;n de actividades maliciosas.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Desde el punto de vista de la clasificaci&oacute;n, el objetivo principal de construir un IDS basado en reglas es entrenar un  clasificador basado en reglas que pueda categorizar los datos como ataques o  normales (Herrera-Semenets et al., 2017). En los escenarios de detecci&oacute;n de intrusos, la reducci&oacute;n del conjunto de entrenamiento <em>T </em>puede resultar muy &uacute;til para minimizar  el consumo de recursos  computacionales, &nbsp;como la memoria RAM, &nbsp;lo cual  hace posible aplicar algoritmos  con un elevado costo computacional. Adem&aacute;s, la eliminaci&oacute;n de informaci&oacute;n redundante y ruidosa hace m&aacute;s eficiente la  etapa de entrenamiento, &nbsp;permitiendo obtener reglas  representativas de ataques en menor tiempo, lo cual puede ser de mucha utilidad en escenarios que procesen informaci&oacute;n en  tiempo real o muy cercano a  este.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">No obstante, el proceso de reducci&oacute;n de datos puede conducir a que se pierda informaci&oacute;n durante la etapa de  entrenamiento (Aggarwal, 2015). Esto conlleva a que la eficacia del clasificador pueda ser afectada  durante la etapa de clasificaci&oacute;n. El tiempo de ejecuci&oacute;n de las estrategias de reducci&oacute;n reportadas en  estos  escenarios suele ser elevado, lo cual se debe a los grandes vol&uacute;menes de datos que se suelen procesar.  Estos aspectos inciden directamente en  el rendimiento de los clasificadores utilizados en tareas de detecci&oacute;n de intrusos,  haciendo que en algunos casos no  sea  factible su aplicaci&oacute;n.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se presenta&nbsp; &nbsp;una estrategia de reducci&oacute;n &nbsp;de datos para  mejorar el rendimiento de los clasi- ficadores basados  en reglas en la detecci&oacute;n de paquetes de  tipo <em>scan </em>y <em>backscatter</em>. La estrategia propuesta combina t&eacute;cnicas de selecci&oacute;n de atributos con t&eacute;cnicas de selecci&oacute;n de instancias para obtener un conjunto de entrenamiento reducido <em>S &sub; &nbsp;T</em>, proporcionando mayor eficiencia a  la etapa de entrenamiento, sin afectar  en gran medida la eficacia durante la etapa de clasificaci&oacute;n.</font></p>     <p>&nbsp; </p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p align="justify"><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="2">T</font></strong><font size="2"><strong>rabajos relacionados</strong> </font></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si representamos el  conjunto de datos de entrenamiento &nbsp;<em>T </em>como una matriz, podemos decir que la reducci&oacute;n de  datos puede ser en t&eacute;rminos de reducci&oacute;n de filas (instancias) o reducci&oacute;n de columnas (atributos) (Aggarwal,   2015). Existen tres enfoques ampliamente utilizados en tareas de reducci&oacute;n de datos  en estos escenarios, ellos son: (1) selecci&oacute;n de atributos (Ganapathi and Duraivelu, 2015; Vinutha and Poornima, 2018), (2) selecci&oacute;n de instancias (Guo et al., 2013; Ashfaq et al., 2017) e h&iacute;bridos, donde la selecci&oacute;n de atributos  y la selecci&oacute;n de instancias &nbsp;se combinan (Chen et al., 2014).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los m&eacute;todos basados en  selecci&oacute;n de atributos buscan los atributos m&aacute;s representativos del conjunto de datos.  De esta manera &nbsp;solo  se utiliza un subconjunto de atributos de los datos subyacentes para generar el  modelo de clasificaci&oacute;n. Esto facilita  la comprensi&oacute;n de los patrones extra&iacute;dos, representados como reglas, &nbsp;e incrementa el  rendimiento de la etapa de entrenamiento.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La mayor&iacute;a de los m&eacute;todos de selecci&oacute;n de atributos propuestos para estos escenarios solo utilizan una medida para estimar  el nivel de representatividad &nbsp;que puede tener un atributo sobre los datos.  Esto conlleva a que los  resultados obtenidos est&eacute;n sesgados por la medida  utilizada. Cada medida  analiza distinta informaci&oacute;n en los  atributos, por lo cual se puede obtener  &nbsp;un subconjunto  de atributos diferente para cada una, con igual nivel de  representatividad. En  nuestra opini&oacute;n, la  combinaci&oacute;n de varias  medidas puede conducir a una mejor selecci&oacute;n del conjunto final de atributos.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El objetivo de los m&eacute;todos basados en selecci&oacute;n de instancias es obtener un subconjunto de entrenamiento reducido <em>S </em>a partir &nbsp;de <em>T </em>, de forma tal que <em>S </em>no contenga instancias innecesarias. Estos m&eacute;todos  &nbsp;pueden  categorizarse  como incrementales si inician con <em>S </em>= <img src="/img/revistas/rcci/v12s1/fo0101518.png" alt="fo01" width="14" height="19" align="absbottom">, o como decrementales si se inicializa <em>S </em>= <em>T </em>(Olvera-L&oacute;pez&nbsp;&nbsp;et al., 2010). Seg&uacute;n &nbsp;la estrategia utilizada para seleccionar &nbsp;las instancias, estos m&eacute;todos &nbsp;se &nbsp;pueden  agrupar en <em>Filter &nbsp;</em>o <em>Wrapper </em>(Olvera-L&oacute;pez et al., 2010). En los m&eacute;todos <em>Wrapper </em>se utiliza el clasificador en  el proceso de selecci&oacute;n, donde aquellas instancias que no afecten la eficacia del clasificador &nbsp;se eliminan. Por otra parte, los m&eacute;todos <em>Filter &nbsp;</em>son independientes del clasificador utilizado y el criterio  de selecci&oacute;n se basa en distintas heur&iacute;sticas.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El hecho de que un m&eacute;todo  &nbsp;<em>Wrapper </em>est&eacute; &nbsp;orientado a un clasificador espec&iacute;fico, &nbsp;hace  que la eficacia del  clasificador para el cual fue concebido pueda ser superior a la alcanzada aplicando un m&eacute;todo  &nbsp;<em>Filter</em>. &nbsp;No obstante, cuando se desea &nbsp;aplicar en varios clasificadores, la eficacia que se alcanzada &nbsp;utilizando un m&eacute;todo <em>Filter </em>es superior, ya que su criterio de selecci&oacute;n es independiente al  clasificador utilizado. Los m&eacute;todos <em>Wrapper </em>suelen ser menos eficientes que los <em>Filter &nbsp;</em>(Olvera-L&oacute;pez et al., 2010), lo cual se debe a  la ejecuci&oacute;n de an&aacute;lisis complejos sobre los datos utilizando un clasificador como parte de su estrategia de  selecci&oacute;n. La complejidad suele ser directamente proporcional  al volumen de datos que se desean &nbsp;procesar,&nbsp; &nbsp;lo cual conlleva a que en  ocasiones su aplicaci&oacute;n &nbsp;en los escenarios que se &nbsp;abordan en este &nbsp;trabajo no sea &nbsp;factible, haciendo  que los m&eacute;todos <em>Filter &nbsp;</em>sean una opci&oacute;n m&aacute;s viable.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo en cuenta las caracter&iacute;sticas propias de  estos  escenarios, resulta complejo definir si es m&aacute;s ventajoso  aplicar selecci&oacute;n de atributos o selecci&oacute;n de instancias como m&eacute;todos de reducci&oacute;n. Si solo se aplica &nbsp;selecci&oacute;n de atributos, puede permanecer informaci&oacute;n innecesaria en las instancias  y si solo se aplica selecci&oacute;n de instancias pues pudieran quedar atributos no representativos del conjunto de datos. Una soluci&oacute;n a esta disyuntiva es la combinaci&oacute;n de ambos enfoques dando lugar a uno h&iacute;brido. </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la propuesta de Chen <em>et al. </em>(Chen et al., 2014) se presenta  &nbsp;un m&eacute;todo h&iacute;brido. La selecci&oacute;n de atributos  se realiza aplicando el m&eacute;todo OneR (Holte, 1993). Luego, se realiza la selecci&oacute;n de instancias utilizando el m&eacute;todo &nbsp;de Affinity &nbsp;Propagation (Frey and Dueck, 2007) (AP) &nbsp;basado en agrupamiento. El problema  aqu&iacute; radica en que el m&eacute;todo AP tiene un elevado costo computacional y agota la memoria  RAM &nbsp;disponible (4 Gb) cuando <em>| T |&gt;</em>6000. Para hacer factible su aplicaci&oacute;n en este escenario, los autores proponen una soluci&oacute;n distribuida para AP utilizando MapReduce (Dean and Ghemawat, 2008). Para un rendimiento adecuado, los autores recomiendan el empleo de 8 nodos cada uno equipado con un procesador  quad-core 2.5 GHz y 4 Gb de memoria RAM para reducir un conjunto de datos de entrenamiento <em>| T | </em>=&nbsp;12872 instancias,  &nbsp;lo cual  es considerablemente &nbsp;peque&ntilde;o comparado con un escenario real. Esto hace que su propuesta sea costosa &nbsp;en t&eacute;rminos computacionales. Los resultados son evaluados  sobre un conjunto de prueba conformado por 115848, lo cual tambi&eacute;n representa un  conjunto de datos  peque&ntilde;o para estos escenarios. Adem&aacute;s, no es posible  &nbsp;observar su escalabilidad sobre un  conjunto de datos m&aacute;s grande, caracter&iacute;stico de escenarios de detecci&oacute;n de intrusos.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El principal problema est&aacute; en el elevado tiempo de ejecuci&oacute;n que requieren  los m&eacute;todos de selecci&oacute;n de instancias para procesar un volumen grande de datos, lo  cual afecta directamente el enfoque h&iacute;brido. Teniendo en cuenta  esto, se propone un m&eacute;todo &nbsp;h&iacute;brido &nbsp;que  incluye &nbsp;un paso de selecci&oacute;n &nbsp;de atributos donde se combinan tres  medidas diferentes para obtener un  conjunto de atributos final. El segundo paso consiste en un m&eacute;todo <em>Filter </em>de selecci&oacute;n &nbsp;de instancias que incorpora un proceso r&aacute;pido &nbsp;de reducci&oacute;n &nbsp;de instancias, a partir  &nbsp;de un re-  etiquetado previo. De esta forma se reduce &nbsp;el conjunto de entrenamiento con un bajo tiempo de ejecuci&oacute;n, sin  afectar en gran medida la eficacia durante la clasificaci&oacute;n.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Propuesta</strong> </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La mayor&iacute;a de los m&eacute;todos que realizan selecci&oacute;n de atributos y han reportados  en estos escenarios utilizan  solo  una medida para seleccionar un subconjunto de atributos final con el cual representar los datos. De esta forma no se aprovechan  &nbsp;las ventajas que puede ofrecer  la combinaci&oacute;n de varias medidas, ya que cada medida  puede estimar informaci&oacute;n &nbsp;diferente en los atributos. Luego de un estudio, se &nbsp;determin&oacute; &nbsp;que las medidas  m&aacute;s utilizadas  pueden  ser agrupadas en tres categor&iacute;as: basadas en  entrop&iacute;a (Information Gain, Gain Ratio y Symmetric  Uncertainty), basadas en estad&iacute;stica (Chi-square) y basadas en instancias (Relief y ReliefF) (Liu et al., 2016).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como &nbsp;se muestra en la <a href="#f01">Figura 1</a>, en el m&eacute;todo h&iacute;brido de reducci&oacute;n de datos (HRD) propuesto en este trabajo se utilizaron tres medidas diferentes, una representativa &nbsp;de cada categor&iacute;a, dichas medidas son: Information Gain, Chi-square y  ReliefF. La medida  ReliefF (RF) estima  que tan bien un atributo  puede  diferenciar instancias  de clases diferentes,  &nbsp;bas&aacute;ndose en los vecinos m&aacute;s cercanos de su misma clase y  clases diferentes. Chi-square (CHI) es una medida estad&iacute;stica no param&eacute;trica que estima la correlaci&oacute;n entre la distribuci&oacute;n de un atributo y la distribuci&oacute;n &nbsp;de la clase. La medida  Information Gain (IG) &nbsp;calcula la cantidad de informaci&oacute;n &nbsp;que un atributo puede proporcionar sobre si  una instancia pertenece a  una clase u otra.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cada medida <em>M </em>luego de procesar el conjunto <em>T </em>, obtiene un  conjunto de puntuaciones <em>PM </em>, donde un elemento <em>pa &isin; &nbsp;PM&nbsp; &nbsp;</em>representa la puntuaci&oacute;n asignada a un atributo  &nbsp;<em>a</em>, mientras mayor sea la puntuaci&oacute;n, m&aacute;s repre-  sentativo ser&aacute; el atributo &nbsp;de <em>T </em>. Luego de obtenerse <em>PM </em>, se calcula la media de sus puntuaciones &nbsp;<em>p</em>&macr;<em>M </em>. Si un atributo <em>a </em>satisface la  condici&oacute;n <em>pa &gt; p</em>&macr;<em>m</em>, se adiciona  a un conjunto de atributos <em>AM </em>. Para ganar en eficiencia, el m&eacute;todo se program&oacute; para que cada medida se ejecute de forma paralela. Despu&eacute;s de obtenerse los conjuntos </font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">de atributos para cada medida,  &nbsp;se selecciona <em>A </em>= <em>ARF &nbsp;</em>U <em>AC H I </em>U <em>AI&nbsp;G&nbsp; </em>como conjunto m&aacute;s representativo. </font></p>     <p align="center"><img src="/img/revistas/rcci/v12s1/f0101518.png" alt="f01" width="530" height="213"><a name="f01"></a></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#f01">Figura 1</a>: Esquema del  m&eacute;todo HRD.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el conjunto de datos representado solamente por los atributos seleccionados en <em>A </em>se procede &nbsp;a reducir el n&uacute;mero de instancias (ver <a href="#f01">Figura 1</a>). Durante la etapa de generaci&oacute;n de etiquetas se discretizan  &nbsp;los atributos  continuos. Este proceso posibilita el mapeo de un amplio  rango  de valores num&eacute;ricos a un peque&ntilde;o subconjunto  de valores discretos. En  varios estudios comparativos <em>k </em>-means ha sido utilizado como m&eacute;todo de discretiza-  ci&oacute;n (Maslove et al., 2012; Dash et al., 2011). En estos estudios &nbsp;se concluye &nbsp;que el proceso de  discretizaci&oacute;n utilizando <em>k </em>-means, adem&aacute;s de ser muy eficiente, produce resultados m&aacute;s consistentes y favorables  que con otros m&eacute;todos. &nbsp;El objetivo de utilizar &nbsp;un algoritmo de agrupamiento aqu&iacute; &nbsp;es buscar los valores  similares y agruparlos de  forma tal que la  distancia entre los valores &nbsp;sea la  menor posible, mientras que la distancia  entre los grupos &nbsp;sea  la mayor posible. Teniendo en cuenta este an&aacute;lisis se utiliz&oacute; <em>k </em>-means para generar las etiquetas.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El algoritmo de <em>k </em>-means se ejecuta &nbsp;sobre  el conjunto de valores que toma cada atributo num&eacute;rico <em>ai</em>seleccio- nado. Cada grupo obtenido est&aacute; conformado por un rango de atributos num&eacute;ricos, los cuales son representados  por una &uacute;nica etiqueta num&eacute;rica. El uso de estos grupos permite cubrir  valores de atributos que no estuvieron  en el conjunto <em>T </em>,  pero que pudieran estar en el conjunto de prueba.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El proceso de re-etiquetado consiste en reemplazar los valores de los atributos  num&eacute;ricos por sus etiquetas correspondientes. Finalmente se ejecuta &nbsp;la eliminaci&oacute;n de duplicados, que  como  su nombre indica consiste en eliminar las instancias duplicadas. Es valido resaltar  que una instancia es duplicada si al menos existe otra con los mismos valores  de atributos y clase. El resultado es un conjunto de entrenamiento reducido <em>S</em>, que es utilizado  para generar reglas que sean evaluadas  sobre nuevos datos.</font></p>     <p align="justify">&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n se muestran  los resultados alcanzados utilizando HRD para reducir el conjunto de entrena-  miento original y mejorar el rendimiento de tres clasificadores basados  en regla en la detecci&oacute;n de paquetes  de tipo <em>scan </em>y <em>backscatter</em>. &nbsp;Se utiliz&oacute; una PC equipada con un procesador quad-core  a 3.5 GHz, 8 Gb de memoria RAM &nbsp;y sistema operativo Ubuntu 16.04. Los datos utilizados  en este experimento fueron recolectados por  un telescopio de red de la Universidad Tecnol&oacute;gica de Delft (TUDelft). &nbsp;Espec&iacute;ficamente el conjunto de datos utilizado representa 24 horas de  tr&aacute;fico <em>scan </em>y <em>backscatter</em>.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cada paquete &nbsp;de red se proces&oacute; y se represent&oacute; como una instancia, donde cada elemento representa un atributo del paquete. Los atributos utilizados para representar los  datos fueron: <em>source address,  source port, destination address, destination port, source MAC, destination MAC, protocol, packet length, IP length, TCP flag, ICMP message, TTL  &nbsp;</em>y <em>ToS</em>.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los paquetes que llegan a un telescopio de red son enviados  a direcciones IP no utilizadas, por tanto pudieran provenir de una mala  configuraci&oacute;n, un intento de <em>scan </em>o <em>backscatter</em>. Para poder etiquetar correctamente el  conjunto de entrenamiento, se sigui&oacute; la propuesta  presentada por Blenn <em>et al. </em>(Blenn et al., 2017). En esta se propone  &nbsp;una estrategia para identificar en los datos  recolectados por un telescopio de red, cu&aacute;les paquetes pertenecen  a tr&aacute;fico de tipo <em>scan </em>o <em>backscatter</em>. B&aacute;sicamente, la idea se centra en el atributo <em>TCP  flag</em>, que en caso de contener el valor SYN+ACK  &nbsp;(para un puerto abierto)  o RST (para un puerto cerrado) el paquete  ser&aacute; de tipo <em>backscatter</em>, mientras que si  el valor es SYN el paquete ser&aacute; de tipo <em>scan</em>.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Luego de etiquetar los datos retiramos el atributo TCP flag para  identificar otros patrones que tambi&eacute;n puedan discriminar entre tr&aacute;fico de tipo <em>scan </em>o <em>backscatter</em>. El conjunto de datos etiquetado se qued&oacute; conformado por 21470669 instancias y 12 atributos. Este conjunto de datos &nbsp;se fragment&oacute; por horas, con el  objetivo de entrenar  con la 1ra hora y evaluar las reglas obtenidas sobre las restantes. En este sentido, el conjunto de entrenamiento <em>T </em>estaba formado por 794544 instancias y 12 atributos.  Luego de aplicar HRD, se obtuvo un conjunto de entrenamiento reducido <em>S </em>con 62768 instancias y 8 atributos (<em>source address, source port, destination address,  destination port, packet length, IP length, ICMP message and TTL</em>). &nbsp;Esto significa  que se redujo en un 92 % el  n&uacute;mero de instancias en <em>T </em>, as&iacute; como en un 33 % la cantidad de atributos. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para evaluar el desempe&ntilde;o de HRD se utilizaron tres clasificadores: Non-Nested generalized exemplars  (Sylvain,  2002) (NNge), Decision Table/Naive  &nbsp;Bayes (Hall&nbsp; and Frank, 2008) (DTNB) &nbsp;y PART &nbsp;(Frank and Witten,  1998). Estos clasificadores han sido ampliamente utilizados en tares de detecci&oacute;n &nbsp;de intrusos (Panda and  Patra, 2009; MeeraGandhi et al., 2010; Azad and Jha, 2014). Los modelos de clasificaci&oacute;n &nbsp;se construyeron para cada uno de los clasificadores utilizando el conjunto de entrenamiento <em>S </em>y se compararon  &nbsp;los resultados con respecto a los alcanzados utilizando <em>T </em>para el entrenamiento. Para medir la eficacia durante el proceso de clasificaci&oacute;n utilizamos  tres medidas de calidad: <em>accuracy </em>(Acc)(ver Ecuaci&oacute;n 1), porcentaje de verdaderos  positivos (TPR)(ver Ecuaci&oacute;n 2) y porcentaje de  falsos positivos (FPR)(ver Ecuaci&oacute;n 3).</font></p>     <p align="center"><img src="/img/revistas/rcci/v12s1/fo0201518.png" alt="fo02" width="333" height="230"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las variables TP, TN, FP, FN representan la cantidad de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos respectivamente.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los resultados &nbsp;que se muestran en la <a href="#t01">Tabla 1</a> se obtuvieron empleando la 1ra hora como conjunto de prueba.  &nbsp;Se  puede  apreciar como los clasificadores NNge y PART obtienen resultados muy similares para ambos conjuntos de entrenamiento, <em>S </em>y <em>T </em>. Por otra parte, el clasificador DTNB alcanza los mismos valores de  TPR y FPR, con una minima diferencia de 0,02 % en la medida Acc. Luego de esta evaluaci&oacute;n, es posible &nbsp;decir que no existe una diferencia considerable entre los resultados obtenidos con el conjunto de entrenamiento <em>T </em>y el conjunto <em>S</em>, lo cual indica que no se afecta &nbsp;en gran medida la eficacia del proceso de detecci&oacute;n (clasificaci&oacute;n).</font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#t01">Tabla 1</a>: Resultados alcanzados utilizando <em>S </em>y <em>T </em>como conjuntos de entrenamiento.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12s1/t0101518.png" alt="t01" width="466" height="253"><a name="t01"></a></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El uso del conjunto reducido <em>S </em>aporta ciertas ventajas al clasificador. En la <a href="#f02">Figura 2</a> se muestran &nbsp;los tiempos  empleados por cada clasificador, durante el entrenamiento, para construir el modelo de clasificaci&oacute;n. En los  tres clasificadores el  tiempo se reduce &nbsp;significativamente, pero en el caso espec&iacute;fico del clasificador PART &nbsp;el tiempo se reduce en aproximadamente un  90 %.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12s1/f0201518.jpg" alt="f02" width="559" height="155"><a name="f02"></a></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#f02">Figura 2</a>: Tiempo empleado para construir los modelos de clasificaci&oacute;n.</font></p>     <p align="center"><img src="/img/revistas/rcci/v12s1/f0301518.png" alt="f03" width="555" height="344"><a name="f03"></a></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#f03">Figura 3</a>: Tiempo empleado durante el proceso de clasificaci&oacute;n.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra contribuci&oacute;n de HRD consiste en que mejora el tiempo empleado durante el proceso de clasificaci&oacute;n. En la <a href="#f03">Figura 3</a> se puede &nbsp;ver como mejoran los clasificadores en cuanto a tiempo empleado durante la clasificaci&oacute;n cuando &nbsp;se entrena con el conjunto reducido <em>S</em>. Esto puede ser muy &uacute;til en escenarios que requieran procesar  los datos en tiempo real.</font></p> <br clear="all">     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se present&oacute; un m&eacute;todo para mejorar el rendimiento de los IDS  basados en reglas. La  propuesta fue evaluada sobre un conjunto de datos reales asociados a tr&aacute;fico de tipo <em>scan </em>y <em>backscatter</em>. El uso de  HRD permite reducir en gran medida el tiempo empleado durante la construcci&oacute;n de los modelos de clasificaci&oacute;n, sin afectar en gran medida la eficacia durante el proceso de clasificaci&oacute;n. Adem&aacute;s, su aplicaci&oacute;n logr&oacute; reducir los  tiempos utilizados por los clasificadores para la clasificaci&oacute;n, lo cual es un aspecto importante para el an&aacute;lisis de datos en tiempo real.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Teniendo en cuenta las propiedades est&aacute;ndar de la PC donde &nbsp;se ejecut&oacute; la propuesta,  &nbsp;se hace notable que no  requiere de grandes recursos  computacionales para procesar grandes vol&uacute;menes de datos.  Esta caracter&iacute;stica hace factible su uso como etapa de preprocesamiento en escenarios que no cuentan &nbsp;con muchos recursos y  necesitan ejecutar algoritmos costosos para extraer conocimiento.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HRD no est&aacute; limitado  a la detecci&oacute;n de tr&aacute;fico de tipo <em>scan </em>y <em>backscatter</em>, sino que tambi&eacute;n puede ser empleado en escenarios con caracter&iacute;sticas &nbsp;similares. Un ejemplo pudieran  ser la detecci&oacute;n de fraudes  en servicios de telecomunicaciones, detecci&oacute;n de fraudes en  transacciones bancarias, entre otras.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como trabajo futuro nos proponemos integrar la propuesta presentada en  un IDS basado en reglas y evaluar  los resultados obtenidos  en un escenario real.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aggarwal, C. C. (2015). <em>Data mining:  the textbook</em>. Springer.    </font></p>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Alexander, K., Oleg, K., and Ekaterina, B. (2018). Ddos attacks in q1 2018. <em>[citado 16 de mayo de 2018].</em><em>Disponible en Internet: https://securelist.com/ddos-report-in-q1-2018/85373/</em>.     </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ashfaq, R. A. R., He, Y.-l.,  and Chen, D.-g. (2017). Toward an efficient fuzziness based instance selection methodology for intrusion detection system. <em>International Journal  of Machine Learning and Cybernetics</em>,   8(6):1767&ndash;1776.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Azad, C. and Jha, V. K. (2014). Data mining based hybrid intrusion detection  system. <em>Indian Journal  of Science and Technology</em>, 7(6):781&ndash;789.</font></p>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Blenn, N., Ghi&euml;tte, V., and Doerr, C. (2017). Quantifying the spectrum of denial-of-service attacks through internet  backscatter. In <em>Proceedings of the 12th International Conference on Availability, &nbsp;Reliability and Security</em>, page 21. ACM.    </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Chen, T., Zhang, X., Jin, S., and  Kim, O. (2014). Efficient classification using parallel and scalable compressed  model and its application on intrusion  detection. <em>Expert Systems with Applications</em>, 41(13):5972&ndash;5983.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dash, R., Paramguru, R. L., and Dash, R. (2011).  &nbsp;Comparative  &nbsp;analysis &nbsp;of supervised  and unsupervised discretization techniques. <em>International Journal  of Advances in Science and Technology</em>, 2(3):29&ndash;37.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dean, J. and Ghemawat, S.  (2008). Mapreduce: simplified data processing on large clusters. <em>Communications of the ACM</em>, 51(1):107&ndash;113.</font></p>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Frank, E. and Witten,  I. H. (1998). Generating accurate rule sets without global optimization.    </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Frey, B. J. and Dueck, D. (2007).  Clustering by passing messages  between &nbsp;data points. <em>science</em>, 315(5814):972&ndash;976.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ganapathi, N. P. and Duraivelu, V. (2015).  A knowledgeable feature selection based on set theory for web intrusion detection  system. In <em>Artificial Intelligence and Evolutionary Algorithms in Engineering Systems</em>, pages 51&ndash;59.  Springer.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Guo, C., Zhou, Y.-J., Ping, Y., Luo, S.-S., Lai, Y.-P., and Zhang, Z.-K. (2013). Efficient intrusion detection using representative instances. <em>computers &amp; security</em>, 39:255&ndash;267.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hall, M. A. and Frank, E. (2008). Combining naive bayes and  decision tables. In <em>FLAIRS  Conference</em>, volume   2118, pages 318&ndash;319.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Herrera-Semenets, V., P&eacute;rez-Garc&iacute;a, O. A., Gago-Alonso, A., and Hern&aacute;ndez-Le&oacute;n, R. (2017). Classification  rule-based models for malicious activity&nbsp; detection. <em>Intelligent Data Analysis</em>, 21(5):1141&ndash;1154.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Holte, R. C. (1993). Very simple  classification rules perform well on most commonly used datasets. <em>Machine learning</em>, 11(1):63&ndash;90.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Liao, H.-J., Lin, C.-H. R., Lin, Y.-C., and Tung, K.-Y.  (2013). Intrusion  detection system: A comprehensive  review. <em>Journal of Network and Computer Applications</em>, 36(1):16&ndash;24.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Liu, W., Liu, S., Gu, Q., Chen, J., Chen, X., and Chen, D. (2016). Empirical  studies of a two-stage &nbsp;data preprocessing approach for software fault prediction. <em>IEEE Transactions on Reliability</em>, 65(1):38&ndash;53.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Maslove, D. M., Podchiyska, T., and Lowe, H. J. (2012).  &nbsp;Discretization of continuous &nbsp;features in clinical datasets. <em>Journal of the American Medical Informatics Association</em>, 20(3):544&ndash;553.</font></p>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MeeraGandhi,  G., Appavoo, K., and Srivasta,  S. (2010). Effective network  intrusion detection using classifiers  decision trees and  decision rules. <em>Int. J. Advanced network and application, Vol2</em>.    </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Moore, D., Shannon, C., Brown, D. J., Voelker, G. M., and Savage, S. (2006). Inferring internet denial-of-service activity.  &nbsp;<em>ACM Transactions on Computer Systems (TOCS)</em>, 24(2):115&ndash;139.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Olvera-L&oacute;pez, &nbsp;J. A., Carrasco-Ochoa, J. A., Mart&iacute;nez-Trinidad, &nbsp;J. F., and Kittler, J. (2010). &nbsp;A review of instance selection methods. <em>Artificial Intelligence Review</em>, 34(2):133&ndash;143.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Panda, M. and Patra, M. R. (2009). Ensembling rule based classifiers for detecting network intrusions.  &nbsp;In <em>Advances in Recent Technologies in  Communication and Computing, 2009. ARTCom&rsquo;09. International Con- ference on</em>, pages 19&ndash;22. IEEE.</font></p>     <!-- ref --><p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Sylvain, R. (2002). Nearest neighbor with generalization. <em>University of Canterbury, Christchurch, New Zealand</em>.    </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Vinutha, H. and Poornima,  B. (2018). An ensemble classifier approach on different feature  selection methods for intrusion detection. In <em>Information Systems Design and Intelligent Applications</em>, pages 442&ndash;451.  Springer.</font></p>     <p name="_ENREF_1">&nbsp;</p>     <p name="_ENREF_1">&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 31/05/2018     <br> Aceptado: 13/09/2018</font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Aggarwal]]></surname>
<given-names><![CDATA[C. C]]></given-names>
</name>
</person-group>
<source><![CDATA[Data mining: the textbook]]></source>
<year>2015</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Alexander]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Oleg]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Ekaterina]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Ddos attacks in q1 2018.]]></source>
<year>(201</year>
<month>8)</month>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ashfaq, R.]]></surname>
<given-names><![CDATA[A. R.]]></given-names>
</name>
<name>
<surname><![CDATA[He]]></surname>
<given-names><![CDATA[Y.-l.]]></given-names>
</name>
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[D.-g.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Toward an efficient fuzziness based instance selection methodology for intrusion detection system.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>8</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>1767-1776</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Azad]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[Jha]]></surname>
<given-names><![CDATA[V. K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data mining based hybrid intrusion detection system.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>7</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>781-789</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Blenn]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[Ghiëtte]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Doerr]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Quantifying the spectrum of denial-of-service attacks through internet backscatter.: In Proceedings of the 12th International Conference on Availability, Reliability and Security]]></source>
<year>(201</year>
<month>7)</month>
<page-range>21</page-range><publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Jin]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Kim]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Efficient classification using parallel and scalable compressed model and its application on intrusion detection.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>41</volume>
<numero>13</numero>
<issue>13</issue>
<page-range>5972-5983</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dash]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Paramguru]]></surname>
<given-names><![CDATA[R. L.]]></given-names>
</name>
<name>
<surname><![CDATA[Dash]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparative analysis of supervised and unsupervised discretization techniques]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>2</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>29-37</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dean]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Ghemawat]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mapreduce: simplified data processing on large clusters.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>51</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>107-113</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Frank]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Witten]]></surname>
<given-names><![CDATA[I. H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Generating accurate rule sets without global optimization.]]></source>
<year>(199</year>
<month>8)</month>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Frey]]></surname>
<given-names><![CDATA[B. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Dueck]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Clustering by passing messages between data points]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>315</volume>
<numero>5814</numero>
<issue>5814</issue>
<page-range>972-976</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ganapathi]]></surname>
<given-names><![CDATA[N. P.]]></given-names>
</name>
<name>
<surname><![CDATA[Duraivelu]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[A knowledgeable feature selection based on set theory for web intrusion detection system.: In Artificial Intelligence and Evolutionary Algorithms in Engineering Systems]]></source>
<year>(201</year>
<month>5)</month>
<page-range>51-59</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Guo]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Zhou]]></surname>
<given-names><![CDATA[Y.-J.]]></given-names>
</name>
<name>
<surname><![CDATA[Ping]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Luo]]></surname>
<given-names><![CDATA[S.-S.]]></given-names>
</name>
<name>
<surname><![CDATA[Lai]]></surname>
<given-names><![CDATA[Y.-P.]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[Z.-K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Efficient intrusion detection using representative instances.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>39</volume>
<page-range>255-267</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hall]]></surname>
<given-names><![CDATA[M. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Frank]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Combining naive bayes and decision tables.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>2118</volume>
<page-range>318-319</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Herrera-Semenets]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Pérez-García]]></surname>
<given-names><![CDATA[O. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Gago-Alonso]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Hernández-León]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Classification rule-based models for malicious activity detection.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>21</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>1141-1154</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Holte]]></surname>
<given-names><![CDATA[R. C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Very simple classification rules perform well on most commonly used datasets.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>11</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>63-90</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Liao]]></surname>
<given-names><![CDATA[H.-J.]]></given-names>
</name>
<name>
<surname><![CDATA[Lin]]></surname>
<given-names><![CDATA[C. R.]]></given-names>
</name>
<name>
<surname><![CDATA[Lin]]></surname>
<given-names><![CDATA[Y.-C.]]></given-names>
</name>
<name>
<surname><![CDATA[Tung]]></surname>
<given-names><![CDATA[K.-Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Intrusion detection system]]></article-title>
<source><![CDATA[Journal of Network and Computer Applications]]></source>
<year></year>
<volume>36</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>16-24</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Liu]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Liu]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Gu]]></surname>
<given-names><![CDATA[Q]]></given-names>
</name>
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Empirical studies of a two-stage data preprocessing approach for software fault prediction.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>65</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>38-53</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Maslove]]></surname>
<given-names><![CDATA[D. M.]]></given-names>
</name>
<name>
<surname><![CDATA[Podchiyska]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Lowe]]></surname>
<given-names><![CDATA[H. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Discretization of continuous features in clinical datasets.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>20</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>544-553</page-range></nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MeeraGandhi]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Appavoo]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Srivasta]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Effective network intrusion detection using classifiers decision trees and decision rules.: Int. J. Advanced network and application]]></source>
<year>(201</year>
<month>0)</month>
<volume>2</volume>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Moore]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Shannon]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Brown]]></surname>
<given-names><![CDATA[D. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Voelker]]></surname>
<given-names><![CDATA[G. M.]]></given-names>
</name>
<name>
<surname><![CDATA[Savage]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Inferring internet denial-of-service activity.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>24</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>115-139</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Olvera-López]]></surname>
<given-names><![CDATA[J. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Carrasco-Ochoa]]></surname>
<given-names><![CDATA[J. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Martínez-Trinidad]]></surname>
<given-names><![CDATA[J. F.]]></given-names>
</name>
<name>
<surname><![CDATA[Kittler]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A review of instance selection methods.]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<volume>34</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>133-143</page-range></nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Panda]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Patra]]></surname>
<given-names><![CDATA[M. R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Ensembling rule based classifiers for detecting network intrusions.: In Advances in Recent Technologies in Communication and Computing]]></source>
<year>(200</year>
<month>9)</month>
<day>20</day>
<page-range>19-22</page-range><publisher-name><![CDATA[IEEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sylvain]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Nearest neighbor with generalization.]]></source>
<year>(200</year>
<month>2)</month>
<edition>University of Canterbury</edition>
<publisher-loc><![CDATA[^eChristchurch Christchurch]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vinutha]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Poornima]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[An ensemble classifier approach on different feature selection methods for intrusion detection.: In Information Systems Design and Intelligent Applications]]></source>
<year>(201</year>
<month>8)</month>
<page-range>442-451</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
