<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2227-1899</journal-id>
<journal-title><![CDATA[Revista Cubana de Ciencias Informáticas]]></journal-title>
<abbrev-journal-title><![CDATA[Rev cuba cienc informat]]></abbrev-journal-title>
<issn>2227-1899</issn>
<publisher>
<publisher-name><![CDATA[Editorial Ediciones Futuro]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2227-18992014000400008</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Técnica de clasificación bayesiana para identificar posible plagio en información textual]]></article-title>
<article-title xml:lang="en"><![CDATA[Bayesian classification technique to identify possible plagiarism in textual information]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Castillo Reyes]]></surname>
<given-names><![CDATA[Grethell]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[González González]]></surname>
<given-names><![CDATA[Yanisley]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Luzua Farias]]></surname>
<given-names><![CDATA[Guillermo]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de las Ciencias Informáticas  ]]></institution>
<addr-line><![CDATA[Boyeros La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de las Ciencias Informáticas  ]]></institution>
<addr-line><![CDATA[Boyeros La Habana]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<volume>8</volume>
<numero>4</numero>
<fpage>130</fpage>
<lpage>144</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S2227-18992014000400008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S2227-18992014000400008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S2227-18992014000400008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En la rama de la educación, el plagio de documentos es un problema con tendencia a ir en aumento. En el ámbito de la investigación científica, la manifestación de trabajos investigativos plagiados ha estado extendiéndose, por lo que se ha hecho necesaria la búsqueda de soluciones para contrarrestar este problema. En particular la Universidad de las Ciencias Informáticas decidió implementar un sistema informático que permita verificar la existencia de plagio en los artículos científico - técnicos a publicar en los sistemas de información académica que allí se manejan: Serie Científica, Revista Cubana de Ciencias Informáticas y Repositorio Institucional fundamentalmente. El objetivo de este trabajo es proponer el uso de varias técnicas de detección de plagio para el sistema a desarrollar, así como la utilización de un método de aprendizaje automático para la clasificación de los documentos sospechosos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In the field of education, the document plagiarism is a problem with tendency to go up. In the field of scientific research, has been demonstrated that the plagiarized research papers has been spreading, so it has become necessary to find a solution to counteract this problem. In particular the University of Informatics Sciences decided to implement a computerized system to check for plagiarism in scientific articles for publishing in the academic information systems of the university such as: Scientific Series, Cuban Journal of Computer Science and the Institutional Repository fundamentally. The aim of this paper is to propose the use of various techniques for the plagiarism detection system to be developed, and the use of a machine learning method for the classification of suspicious documents.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[aprendizaje automático]]></kwd>
<kwd lng="es"><![CDATA[clasificación]]></kwd>
<kwd lng="es"><![CDATA[detección]]></kwd>
<kwd lng="es"><![CDATA[documentos]]></kwd>
<kwd lng="es"><![CDATA[plagio]]></kwd>
<kwd lng="en"><![CDATA[classification]]></kwd>
<kwd lng="en"><![CDATA[detection]]></kwd>
<kwd lng="en"><![CDATA[documents]]></kwd>
<kwd lng="en"><![CDATA[machine learning]]></kwd>
<kwd lng="en"><![CDATA[plagiarism]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif" size="2"><B>ART&Iacute;CULO    ORIGINAL</B></font></p>     <p>&nbsp;</p>     <p><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><strong>T&eacute;cnica  de clasificaci&oacute;n bayesiana para identificar posible plagio en informaci&oacute;n  textual</strong></font></p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><strong>Bayesian classification technique to identify possible  plagiarism in textual information</strong></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Grethell Castillo Reyes <strong><strong><strong><sup>1*</sup></strong></strong></strong>, Yanisley  Gonz&aacute;lez Gonz&aacute;lez <strong><strong><strong><sup>2</sup></strong></strong></strong>, Guillermo Luzua Farias<strong><strong><sup>1</sup></strong></strong></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1 </sup>Centro de Desarrollo  Geoinform&aacute;tica y Se&ntilde;ales Digitales (GEYSED). Universidad de las Ciencias  Inform&aacute;ticas, Carretera a San Antonio de los Ba&ntilde;os, km 2 &frac12;, Torrens, Boyeros,  La Habana, Cuba. CP.: 19370.    <br>     <sup>2</sup> Centro de Informaci&oacute;n Cient&iacute;fico  T&eacute;cnico (CICT). Universidad de las Ciencias Inform&aacute;ticas, Carretera a San  Antonio de los Ba&ntilde;os, km 2 &frac12;, Torrens, Boyeros, La Habana, Cuba. CP.: 19370.</font></p>     ]]></body>
<body><![CDATA[<P><font face="Verdana, Arial, Helvetica, sans-serif"><span class="class"><font size="2">*Autor para la correspondencia: </font></span><a href="mailto:gcreyes@uci.cu"><font size="2">gcreyes@uci.cu</font></a></font>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr>     <P><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b> </font>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la rama de la educaci&oacute;n, el plagio de documentos es un  problema con tendencia a ir en aumento. En el &aacute;mbito de la investigaci&oacute;n cient&iacute;fica, la  manifestaci&oacute;n de trabajos investigativos plagiados ha estado extendi&eacute;ndose, por  lo que se ha hecho necesaria la b&uacute;squeda de soluciones para contrarrestar este  problema. En particular la Universidad de las Ciencias Inform&aacute;ticas decidi&oacute;  implementar un sistema inform&aacute;tico que permita verificar la existencia de  plagio en los art&iacute;culos cient&iacute;fico &ndash; t&eacute;cnicos a publicar en los sistemas de  informaci&oacute;n acad&eacute;mica que all&iacute; se manejan: Serie Cient&iacute;fica, Revista Cubana de Ciencias  Inform&aacute;ticas y Repositorio Institucional fundamentalmente. El objetivo de este  trabajo es proponer el uso de varias t&eacute;cnicas de detecci&oacute;n de plagio para el  sistema a desarrollar, as&iacute; como la utilizaci&oacute;n de un m&eacute;todo de aprendizaje  autom&aacute;tico para la clasificaci&oacute;n de los documentos sospechosos.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Palabras clave:</span></b> aprendizaje autom&aacute;tico, clasificaci&oacute;n, detecci&oacute;n, documentos, plagio.</font></p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>ABSTRACT</span></b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">In the field of education, the document  plagiarism is a problem with tendency to go up. In the field of scientific  research, has been demonstrated that the plagiarized research papers has been  spreading, so it has become necessary to find a solution to counteract this  problem. In particular the University of Informatics Sciences decided to  implement a computerized system to check for plagiarism in scientific articles for  publishing in the academic information systems of the university such as:  Scientific Series, Cuban Journal of Computer Science and the Institutional  Repository fundamentally. The aim of this paper is to propose the use of  various techniques for the plagiarism detection system to be developed, and the  use of a machine learning method for the classification of suspicious  documents.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><span lang=EN-GB>Key words: </span></b>classification, detection,  documents, machine learning, plagiarism.</font></p> <hr>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El plagio es una mala pr&aacute;ctica que ha  existido siempre, pero no en gran medida. Tener acceso a grandes vol&uacute;menes de  informaci&oacute;n en la actualidad, para muchos, se ha convertido en un beneficio a  la hora de buscar trabajos ya realizados por otros para tratar de imitarlos. En  estos tiempos, este fen&oacute;meno se manifiesta con mayor fuerza debido a que con la  presencia de Internet, se hace m&aacute;s variada, directa y accesible la b&uacute;squeda de  documentaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La (<a href="#_ENREF_7" title="IEEE, 2014 #15">IEEE, 2014</a>) define plagio como la &ldquo;reutilizaci&oacute;n  de las ideas, procesos, resultados o palabras de alguien m&aacute;s sin mencionar  expl&iacute;citamente a la fuente y su autor&rdquo;. Para nada es extra&ntilde;o encontrar  documentos que no han sido escritos originalmente (parcial o totalmente) por  quienes dicen serlo. Cuando se copia la idea de alguien sin hacer referencia a  su autor&iacute;a se est&aacute; cometiendo el delito de plagiar. Por su parte, el plagio de  documentos, seg&uacute;n (<a href="#_ENREF_1" title="Cede&ntilde;o, 2008 #1">Cede&ntilde;o, 2008</a>), se define como el plagio que  implica incluir fragmentos de texto que se encuentran en documentos escritos  por otro autor en un documento propio sin incluir el cr&eacute;dito correspondiente. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al presentar una obra ajena haci&eacute;ndola  pasar como propia no solo se incurre en delitos penalizados por la ley, sino  que tambi&eacute;n se ve afectada la &eacute;tica moral y profesional del individuo que  incurre en este delito. En el &aacute;mbito de la investigaci&oacute;n cient&iacute;fica, este  problema tambi&eacute;n va en aumento. En su investigaci&oacute;n, (<a href="#_ENREF_14" title="Vega, 2011 #7">Vega, 2011</a>) afirma que la manifestaci&oacute;n de  trabajos investigativos plagiados ha estado extendi&eacute;ndose en los comit&eacute;s de  publicaci&oacute;n de revistas de alto prestigio. Es por ello que se ha hecho  necesaria la b&uacute;squeda de una soluci&oacute;n para contrarrestar este problema.    <br>       <br>   A partir de esto es que surge la  importancia absoluta de utilizar herramientas inform&aacute;ticas que permitan la  detecci&oacute;n autom&aacute;tica de plagio. No siempre lo plagiado de un texto es lo  copiado exactamente, muchas veces se cambian palabras por sin&oacute;nimos, se  intercambian ideas de una parte de la frase a otra, entre distintas  transformaciones que complican la detecci&oacute;n del plagio. Aunque los  profesionales incurran en este fraude por ignorancia, no deja de repercutirle  en su formaci&oacute;n, lo que puede traerle consigo la p&eacute;rdida de credibilidad y  prestigio profesional.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la  Universidad de las Ciencias Inform&aacute;ticas (UCI) existen varios sistemas de  informaci&oacute;n acad&eacute;mica que permiten la publicaci&oacute;n de investigaciones  cient&iacute;ficas, entre ellos: el Repositorio Institucional, la Serie Cient&iacute;fica de  la Universidad (SC &ndash; UCI) y la Revista Cubana de Ciencias Inform&aacute;ticas (RCCI).  As&iacute; mismo cuenta con los sitios de gesti&oacute;n de eventos como pueden ser: UCIENCIA,  F&oacute;rum de Ciencia y T&eacute;cnica, Jornadas Cient&iacute;ficas Estudiantiles, Pe&ntilde;as  Tecnol&oacute;gicas, entre otros. Antes de aceptar las investigaciones enviadas por  los autores para publicar, estas son remitidas a un colectivo de revisores y  sometidas a un proceso de arbitraje en el que se verifican una serie de requisitos  que se deben cumplir.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Hoy, este  proceso de revisi&oacute;n y arbitraje no contempla oficialmente la verificaci&oacute;n de  coincidencias en el contenido de los art&iacute;culos enviados para revisi&oacute;n, con el  contenido de otros ya publicados. En algunos casos, por gesti&oacute;n propia de los  revisores y mediante la utilizaci&oacute;n de su cuota de navegaci&oacute;n en Internet, se  utilizan herramientas en l&iacute;nea que permiten analizar hasta qu&eacute; punto el  material enviado coincide con otra colaboraci&oacute;n publicada o en proceso de  publicaci&oacute;n, con el objetivo de analizar si existe posible plagio.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Lo anterior  trae como consecuencia que:</font></p> <ol>       ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con el uso de herramientas en l&iacute;nea no se detectan las  coincidencias con documentos que no han sido publicados en internet. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A trav&eacute;s del uso de herramientas en l&iacute;nea se env&iacute;e  informaci&oacute;n sensible a programas de terceros comprometiendo la confidencialidad  de la informaci&oacute;n. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se consuma ancho de banda por la utilizaci&oacute;n de  herramientas en l&iacute;nea. </font></li>     </ol>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir de  las problem&aacute;ticas planteadas anteriormente y del estudio realizado acerca de  los sistemas que permiten la detecci&oacute;n de plagio en documentos digitales de  texto, la Universidad decidi&oacute; implementar una herramienta local que permita  analizar la coincidencia de un documento en revisi&oacute;n con otros ya publicados en  sistemas de informaci&oacute;n acad&eacute;mica, con el objetivo de detectar posible plagio  en el mismo. Por lo general, las herramientas de este tipo a nivel global  utilizan algoritmos a partir de los cuales se deduce si un documento determinado  contiene pasajes sospechosos de un texto original. En la mayor&iacute;a de los casos,  estos algoritmos aplicados de manera individual tienen sus limitantes, ya que  unos contemplan conceptos o rasgos de la detecci&oacute;n de plagio que otros no. Por  tal motivo, en este trabajo se propone la utilizaci&oacute;n de varios algoritmos de  detecci&oacute;n de plagio para el sistema a desarrollar. La propuesta tiene el  objetivo de valorar al un&iacute;sono el comportamiento de varios rasgos en los documentos  sospechosos de plagio. Para lograrlo, se plantea la utilizaci&oacute;n de un m&eacute;todo de  aprendizaje autom&aacute;tico: el algoritmo Na&iuml;ve Bayes, el cual es aplicado para la  clasificaci&oacute;n de los documentos seg&uacute;n los resultados emitidos por los  algoritmos.</font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">MATERIALES Y M&Eacute;TODOS </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La tarea de la detecci&oacute;n de plagio seg&uacute;n  (<a href="#_ENREF_1" title="Cede&ntilde;o, 2008 #1">Cede&ntilde;o, 2008</a>) consiste en que, dado un  conjunto <em>V</em> de documentos originales y  un documento sospechoso <em>s, </em>realizar  una comparaci&oacute;n entre <em>s </em>y el conjunto <em>V </em>para determinar si <em>s</em> contiene fragmentos plagiados de alg&uacute;n <img src="/img/revistas/rcci/v8n4/fo0108414.jpg" width="46" height="18">. El proceso que se propone en el siguiente trabajo  contempla dos fases fundamentales para concluir si un documento es plagiado o  no. La primera de ellas es la aplicaci&oacute;n de varias t&eacute;cnicas de detecci&oacute;n de  plagio al documento que se desea verificar: el an&aacute;lisis basado en n-gramas, el  an&aacute;lisis basado en el modelo de espacio vectorial y el c&aacute;lculo de la m&aacute;xima  subsecuencia com&uacute;n. La segunda fase, consiste en emplear los resultados  emitidos en la fase anterior para clasificar el documento en &ldquo;Plagiado&rdquo; o &ldquo;No  plagiado&rdquo;, utilizando un algoritmo de aprendizaje autom&aacute;tico.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Rasgos observados en la detecci&oacute;n de plagio en texto</strong>    <br>       ]]></body>
<body><![CDATA[<br> Autores como (<a href="#_ENREF_2" title="Clough, 2003 #3">Clough, 2003</a>) y (<a href="#_ENREF_14" title="Vega, 2011 #7">Vega, 2011</a>) definen algunas caracter&iacute;sticas  o rasgos comunes presentados por las obras plagiadas. A continuaci&oacute;n se mencionan  y se describen brevemente algunas de ellas que servir&aacute;n como base de la  investigaci&oacute;n. Las mismas han motivado la implementaci&oacute;n de algoritmos y  m&eacute;todos de detecci&oacute;n de plagio que se describen posteriormente.</font></p> <ul>    <li>      <font size="2" face="Verdana, Arial, Helvetica, sans-serif">Distribuci&oacute;n de palabras. La distribuci&oacute;n de las palabras se  refiere a su frecuencia o habitualidad en determinado documento. Cada autor  prefiere el uso de ciertos t&eacute;rminos en lugar de otros; por lo que encontrar  varias palabras que sean usadas con la misma frecuencia da pie a pensar que  dichos textos est&aacute;n influenciados y que podr&iacute;a tratarse de un plagio. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Secuencias de texto com&uacute;n. Los textos escritos de forma  independiente no deber&iacute;an contener secuencias (de palabras o caracteres)  comunes de gran longitud, incluso si abordan el mismo tema. </font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cantidad de texto com&uacute;n. Es habitual que documentos que  abordan el mismo tema (inclusive aquellos que s&oacute;lo son de temas relacionados)  compartan cierta cantidad de texto, b&aacute;sicamente nombres y t&eacute;rminos espec&iacute;ficos  del &aacute;rea. Pero si se trata de documentos escritos de forma independiente, esta  cantidad de texto similar o id&eacute;ntico deber&iacute;a ser peque&ntilde;a. </font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Algoritmos y m&eacute;todos para la detecci&oacute;n de plagio en texto</strong>    <br>       <br> A nivel global existen varios algoritmos  y m&eacute;todos que, bajo diferentes conceptos, permiten detectar las coincidencias  existentes entre dos documentos. A continuaci&oacute;n se detallan algunas de las  caracter&iacute;sticas particulares de cada uno de los algoritmos y m&eacute;todos que m&aacute;s  resaltan en el estudio realizado, a partir de los rasgos enunciados  anteriormente:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><em>An&aacute;lisis basado en n-gramas de  palabras</em>    <br>       ]]></body>
<body><![CDATA[<br>   Para realizar  una estrategia de b&uacute;squeda flexible, (<a href="#_ENREF_11" title="Pinto, 2011 #24">Pinto et al., 2011</a>) basan la  comparaci&oacute;n de documentos en los n-gramas contenidos en ellos. Seg&uacute;n (<a href="#_ENREF_14" title="Vega, 2011 #7">Vega, 2011</a>), los n-gramas son trozos de <em>n</em> palabras del texto. El empleo de estos  proviene de los modelos de lenguaje y su utilizaci&oacute;n en el reconocimiento del  habla. Los m&eacute;todos basados en n-gramas tienen la misma estructura: se toman  n-gramas del documento en general de forma superpuesta, lo cual hace que la  cantidad de n-gramas de un texto de <em>r</em> palabras sea igual a <em>r-n+1</em>. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La correcta  selecci&oacute;n de los n-gramas de un documento es muy importante. Por ejemplo, si se  eligen trozos demasiado peque&ntilde;os, la probabilidad de que se repitan en otros  textos ser&aacute; muy grande, sin importar que sean textos independientes (sin  plagio). Por otro lado, elegir trozos muy grandes disminuye la posibilidad de  que se encuentren en otro documento (<a href="#_ENREF_9" title="Manchego, 2010 #23">Manchego, 2010</a>) y las peque&ntilde;as modificaciones o reescrituras  como la omisi&oacute;n o cambio de alguna palabra, evitar&iacute;a que las porciones  plagiadas fueran detectadas (<a href="#_ENREF_13" title="Stamatatos, 2011 #25">Stamatatos, 2011</a>). Este m&eacute;todo suele ser combinado  con otros m&eacute;todos de an&aacute;lisis m&aacute;s detallados. En el caso de aplicar esta  t&eacute;cnica se consideran los rasgos (2) y (3). El siguiente ejemplo muestra c&oacute;mo  se aplica la t&eacute;cnica basada en n-gramas de palabras, con <em>n</em> = 3. Los n-gramas que coinciden en ambos textos se muestran  resaltados.</font></p> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto  1: &ldquo;Plagiar  es copiar en lo sustancial obras ajenas, d&aacute;ndolas como propias&rdquo;.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto  2 (sospechoso): &ldquo;Plagiar es reusar en lo sustancial palabras ajenas, d&aacute;ndolas  como propias&rdquo;.</font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">N-gramas del  Texto 1: [plagiar es copiar], [es copiar en], [copiar en lo], <strong><u>[en lo sustancial]</u></strong>, [lo  sustancial obras], [sustancial obras ajenas], [obras ajenas d&aacute;ndolas], <strong><u>[ajenas d&aacute;ndolas como]</u></strong>, <strong><u>[d&aacute;ndolas como propias]</u></strong>.    <br>       <br> N-gramas del  Texto 2: [plagiar es reusar], [es reusar en], [reusar en lo], <strong><u>[en lo sustancial]</u></strong>, [lo  sustancial palabras], [sustancial palabras ajenas], [palabras ajenas d&aacute;ndolas], <strong><u>[ajenas d&aacute;ndolas como]</u></strong>, <strong><u>[d&aacute;ndolas como propias]</u></strong>.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelo de espacio vectorial</font><font face="Verdana, Arial, Helvetica, sans-serif">    <br>       ]]></body>
<body><![CDATA[<br> <font size="2">El modelo de  espacio vectorial es otro de los m&eacute;todos utilizados para la detecci&oacute;n de  plagio. Basa su funcionamiento en la representaci&oacute;n del contenido de los documentos  en t&eacute;rminos de vectores. Posteriormente, mediante f&oacute;rmulas matem&aacute;ticas, arroja  los resultados de las similitudes (<a href="#_ENREF_14" title="Vega, 2011 #7">Vega, 2011</a>). Seg&uacute;n este modelo, cada  expresi&oacute;n del lenguaje natural puede representarse como un vector de pesos de  t&eacute;rminos, o la unidad m&iacute;nima de informaci&oacute;n, como una palabra o la ra&iacute;z  sint&aacute;ctica de una palabra. Para determinar la similitud que existe entre un  documento y una consulta se calcula la distancia que existe entre los vectores  que los representan (<a href="#_ENREF_16" title="Zechner, 2009 #17">Zechner et al., 2009</a>). </font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un algoritmo  basado en este m&eacute;todo es el llamado <em>Word  Chunking Overlap</em> (WCO por sus siglas en ingl&eacute;s), que calcula la similitud  entre dos documentos utilizando la f&oacute;rmula del coseno. Como resultado, se  obtiene el valor del &aacute;ngulo entre los vectores que representan los mismos. Mientras  m&aacute;s peque&ntilde;o sea el &aacute;ngulo, m&aacute;s similares ser&aacute;n estos documentos. La desventaja  de esta t&eacute;cnica radica en que el cambio del orden de las palabras puede cambiar  el sentido de una oraci&oacute;n, y precisamente este es un hecho que no se toma en  cuenta. Por lo que para hacerlo efectivo es necesario combinarlo con alguna  otra t&eacute;cnica, por ejemplo con el an&aacute;lisis de n-gramas de palabras. La  aplicaci&oacute;n de esta t&eacute;cnica cubre el rasgo (1) descrito en el ep&iacute;grafe anterior.  A continuaci&oacute;n se muestra un ejemplo de c&oacute;mo se aplica el m&eacute;todo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Suponiendo que  se tienen los siguientes textos de referencia:</font></p> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto  1: &ldquo;Plagiar es reusar las ideas, procesos, resultados o palabras de alguien m&aacute;s  sin mencionar expl&iacute;citamente a la fuente y su autor&rdquo;.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto  2: &ldquo;Plagiar es copiar en lo  sustancial obras ajenas, d&aacute;ndolas como propias&rdquo;. </font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">T&eacute;rminos:  [plagiar, reusar, copiar, inteligencia, ideas, artificial, procesos, alguien,  palabras, fuente, autor, obras, propias, aprendizaje].</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir de los  t&eacute;rminos anteriores se representan los vectores asociados a cada texto.  Suponiendo que los pesos se asignen de la siguiente manera: 1 si aparece el  t&eacute;rmino en el texto y 0 si no aparece, los vectores quedar&iacute;an como sigue:</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto 1: [1 1 0 0 1 0 1 1 1 1 1 0 0 0] </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Texto 2: [1 0 1 0 0 0 0 0 0 0 0 1 1 0] </font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La f&oacute;rmula del  coseno para calcular la distancia entre los vectores es la siguiente: </font></p>     <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo0208414.jpg" width="570" height="42"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde:     <br>       <br>   <em>Vx</em>&nbsp;y <em>Vy &nbsp;</em>son los vectores  de los textos 1 y 2 respectivamente.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">M&aacute;xima subsecuencia com&uacute;n    <br>       <br> Un aspecto importante a considerar cuando se trata el tema de la detecci&oacute;n  de plagio es mencionado por (<a href="#_ENREF_4" title="Elizalde, 2011 #8">Elizalde, 2011</a>). Se refiere a que al buscar  plagio se prefieren cadenas largas ya que a mayor longitud, mayor es la  probabilidad de que el fragmento sea producto de una copia y no de una  coincidencia casual. A partir de este concepto surge el algoritmo <em>Longest Common Subsequence</em> (LCS por sus  siglas en ingl&eacute;s). El mismo es capaz de devolver el total de palabras  coincidentes en cada sentencia u oraci&oacute;n de los textos. Este algoritmo es  utilizado para la comparaci&oacute;n de textos mediante la herramienta Diff de Unix,  que b&aacute;sicamente comprueba las diferencias entre dos versiones de un mismo  archivo, muy com&uacute;n en las herramientas de versionado. Su aplicaci&oacute;n cubre el  rasgo (2) de los antes mencionados. La <a href="#f01">figura 1</a> muestra la m&aacute;xima subsecuencia  com&uacute;n en dos frases similares.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f01"></a><img src="/img/revistas/rcci/v8n4/f0108414.jpg" width="570" height="110"></font></p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="2">T&eacute;cnica de aprendizaje autom&aacute;tico para la clasificaci&oacute;n</font></strong><font size="2">    ]]></body>
<body><![CDATA[<br>       <br> Una vez empleados los algoritmos  descritos para la detecci&oacute;n de las coincidencias en el texto, se propone la  utilizaci&oacute;n de una t&eacute;cnica de aprendizaje autom&aacute;tico. Esta t&eacute;cnica permitir&aacute;  determinar si un texto es plagiado o no a partir de los resultados que arroje  la aplicaci&oacute;n de cada uno de los m&eacute;todos anteriores. Dentro de la rama de la  inteligencia artificial existen varios m&eacute;todos de aprendizaje autom&aacute;tico para la  clasificaci&oacute;n (<a href="#_ENREF_3" title="Chong, 2013 #10">Chong, 2013</a>) que permiten la realizaci&oacute;n de  esta tarea. Luego de un estudio realizado se decidi&oacute; explotar el algoritmo de  clasificaci&oacute;n Na&iuml;ve Bayes o clasificador bayesiano ingenuo.</font></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este algoritmo es ampliamente usado en  procesos de clasificaci&oacute;n. Se le considera como una forma especial, o como el  modelo m&aacute;s simple de clasificaci&oacute;n basado en una Red Bayesiana (<a href="#_ENREF_6" title="Hern&aacute;ndez, 2004 #12">Hern&aacute;ndez et al., 2004</a>). Es utilizado para  predecir la clase a la que pertenece una instancia determinada, suponiendo que  las caracter&iacute;sticas de dicha instancia son independientes (<a href="#_ENREF_8" title="Inza, 2000 #9">Inza et al., 2000</a>), como se muestra en la <a href="#f02">figura 2</a>. </font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f02"></a><img src="/img/revistas/rcci/v8n4/f0208414.jpg" width="570" height="190"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para el caso que se aplica, se toman  como las &ldquo;caracter&iacute;sticas&rdquo; el resultado de cada uno de los algoritmos de  detecci&oacute;n de plagio, con el fin de clasificar un texto en las siguientes clases  &ldquo;Plagiado&rdquo; o &ldquo;No plagiado&rdquo;.    <br>       <br> Con relaci&oacute;n al c&aacute;lculo de la probabilidad  de una hip&oacute;tesis (<a href="#_ENREF_10" title="Mitchell, 1997 #19">Mitchell, 1997</a>) define que, dado un n&uacute;mero de  caracter&iacute;sticas <em>{f<sub>1</sub>...f<sub>n</sub>}</em>&nbsp;conocidas, para un  conjunto de entrenamiento de referencia, el clasificador Na&iuml;ve Bayes plantea  que: </font></p>     <p align="right"><font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo0308414.jpg" width="559" height="56"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para confeccionar la propuesta de  soluci&oacute;n se implementaron los algoritmos de detecci&oacute;n de coincidencias antes  presentados. Lo que posibilit&oacute; tener varios criterios para un documento que  entra en revisi&oacute;n y definir de manera acertada cu&aacute;ndo el documento analizado  posee coincidencias con otros ya publicados o en proceso. A continuaci&oacute;n, la <a href="#f03">figura 3</a> muestra un flujo de la propuesta de soluci&oacute;n.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f03"></a><img src="/img/revistas/rcci/v8n4/f0308414.jpg" width="581" height="282"></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>A: </strong>Documento para  analizar y definir el nivel de coincidencias con los ya publicados o en proceso  de revisi&oacute;n.     <br>     <strong>B, C, D</strong>: Algoritmos  que procesan el documento de consulta en busca de similitudes con otros  documentos y en funci&oacute;n de sus resultados informan en qu&eacute; porciento el  documento es plagiado.    <br>     <strong>E: </strong>El  Clasificador Na&iuml;ve Bayes, tiene como entrada los valores resultantes de los  algoritmos aplicados en la fase anterior. Con estos valores se ejecuta el  algoritmo y su resultado definir&aacute; si el documento finalmente es plagiado o no.    <br>     <strong>F: </strong>No plagiado es  uno de los tipos de clase para la clasificaci&oacute;n. Este tipo afirma que no existe  plagio en el documento especificado en el comienzo del flujo.    <br>     <strong>G: </strong>Plagiado es el  otro tipo de clase para la clasificaci&oacute;n. Este tipo afirma la existencia de  plagio en el documento que se est&aacute; analizando. </font></p>     <p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif"><strong><font size="3">RESULTADOS Y DISCUSI&Oacute;N </font></strong></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><strong>Aplicaci&oacute;n de la t&eacute;cnica de clasificaci&oacute;n Na&iuml;ve Bayes </strong>    <br>       <br> Con el objetivo de lograr un mayor  entendimiento del procedimiento propuesto se ilustra un ejemplo de c&oacute;mo debe ser  su funcionamiento b&aacute;sico. Para ello se supone que se tiene un conjunto de  entrenamiento <em>E </em>con un total de 300instancias  de documentos: 210 intencionalmente plagiados y 90 no plagiados. Adem&aacute;s, se  tienen dos categor&iacute;as para representar el resultado de la aplicaci&oacute;n de cada  uno de los algoritmos de detecci&oacute;n de plagio:</font></p> <ul>       ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Bajo:  Si como resultado del algoritmo se obtiene que el texto coincida con otros en  menos de un 30%.</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Alto:  Si como resultado del algoritmo se obtiene que el texto coincida con otros en  m&aacute;s de un 30%.</font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v8n4/t0108414.jpg" target="_blank">tabla    1</a> se muestran la cantidad de documentos por categor&iacute;a seg&uacute;n    el resultado de la aplicaci&oacute;n de los algoritmos, ya sea el an&aacute;lisis    basado en n &ndash; gramas de palabras, modelo de espacio vectorial o m&aacute;xima    subsecuencia com&uacute;n. Estos datos son utilizados posteriormente para la    clasificaci&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se quiere comprobar si un texto es  plagiado sabiendo que el resultado de la aplicaci&oacute;n de los m&eacute;todos de detecci&oacute;n  de plagio es el siguiente: </font></p> <ul>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">An&aacute;lisis  basado en n-gramas de palabras: 12,1% (Bajo).</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Modelo  de espacio vectorial: 46,7% (Alto).</font></li>       <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Mayor  subsecuencia com&uacute;n: 32,3% (Alto).</font></li>     </ul>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Paso 1: Calcular las probabilidades a  priori: Son las probabilidades de que ocurra una clase u otra, calculadas a partir  de los datos obtenidos del conjunto de entrenamiento.</font></p>     ]]></body>
<body><![CDATA[<p align="right"><font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo0408414.jpg" width="574" height="140"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Paso 2: Calcular    las probabilidades condicionales: Probabilidades referentes a la ocurrencia    de un evento dado otro. Al igual que las probabilidades a priori, se calculan    a partir de los datos obtenidos del conjunto de entrenamiento y los datos mostrados    en la <a href="/img/revistas/rcci/v8n4/t0108414.jpg" target="_blank">tabla 1</a>.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo0508414.jpg" width="415" height="289"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Paso 3: Calcular la probabilidad a  posteriori. Se utilizan las probabilidades obtenidas de los dos pasos  anteriores para aplicar la f&oacute;rmula (2).</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/rcci/v8n4/fo0608414.jpg" width="322" height="64"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como resultado final se tiene que &nbsp;0.04 &gt; 0.03 por tanto se  clasifica el texto como &ldquo;Plagiado&rdquo;.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente, en    la comprobaci&oacute;n de los resultados fue utilizada la herramienta WEKA (acr&oacute;nimo    de <em>Waikato Environment for Knowledge Analysis</em>). Es una herramienta    desarrollada por la Universidad de Waikato en Nueva Zelanda. Incluye una colecci&oacute;n    de herramientas para el procesado de datos y un conjunto de algoritmos de aprendizaje    autom&aacute;tico para la experimentaci&oacute;n y an&aacute;lisis (<a href="#_ENREF_15" title="Witten, 2011 #14">Witten    et al., 2011</a>). Provee un paquete de algoritmos para la clasificaci&oacute;n,    entre ellos el Na&iuml;ve Bayes. En la <a href="/img/revistas/rcci/v8n4/t0208414.jpg" target="_blank">tabla    2</a> se visualizan los resultados obtenidos en la ejecuci&oacute;n del algoritmo    Na&iuml;ve Bayes utilizando un <em>dataset</em> con 300 instancias.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="#f04">figura 4</a> muestra la matriz de  confusi&oacute;n que retorna la herramienta WEKA. En ella se puede visualizar el  resultado de la clasificaci&oacute;n. Los valores de la diagonal corresponden a las  instancias correctamente clasificadas y el resto a los errores. De los 210  documentos con plagio 203 fueron correctamente clasificados y 7 con error. De  los 90 documentos no plagiados, todos fueron correctamente clasificados.</font></p>     <p align="center"><font face="Verdana, Arial, Helvetica, sans-serif"><a name="f04"></a><img src="/img/revistas/rcci/v8n4/f0408414.jpg" width="211" height="155"></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="/img/revistas/rcci/v8n4/f0508414.jpg" target="_blank">figura 5</a> se muestra una  representaci&oacute;n gr&aacute;fica de los errores ocurridos en el proceso de clasificaci&oacute;n con  el algoritmo Na&iuml;ve Bayes. El color azul identifica  a las instancias clasificadas en la clase &ldquo;Plagiados&rdquo; y el color rojo  representa a las instancias clasificadas en la clase &ldquo;No plagiados&rdquo;. Las cruces  son las clasificadas correctamente y los cuadrados las clasificadas incorrectamente. Se puede obtener la  representaci&oacute;n para ver en cu&aacute;l atributo se comete m&aacute;s error y en cu&aacute;l menos. Por  ejemplo las gr&aacute;ficas (a), (b) y (c) de la Figura 5 representan los errores teniendo  en cuenta las tres caracter&iacute;sticas utilizadas para la clasificaci&oacute;n: (a) el  an&aacute;lisis basado en n-gramas, (b) el an&aacute;lisis basado en el modelo de espacio  vectorial y (c) el an&aacute;lisis de la m&aacute;xima subsecuencia com&uacute;n. La gr&aacute;fica (d)  muestra la relaci&oacute;n entre el resultado que se predec&iacute;a de la clasificaci&oacute;n y el  resultado real que se obtuvo. </font></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>CONCLUSIONES</B></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A partir del estudio realizado, los  autores de este reporte consideran que el uso de herramientas o m&eacute;todos para  detectar coincidencias de texto en documentos digitales, ha aumentado  considerablemente en los &uacute;ltimos a&ntilde;os. Teniendo en cuenta esta premisa, se  considera que el principal aporte de la presente investigaci&oacute;n es la  utilizaci&oacute;n de la t&eacute;cnica de clasificaci&oacute;n Na&iuml;ve Bayes, permitiendo de esta  forma procesar la salida de los m&eacute;todos de detecci&oacute;n de coincidencias aplicados.  De esta manera, se tiene la posibilidad de combinar el resultado dado por  varios algoritmos, lo que permite tener en cuenta diferentes criterios o  conceptos de la detecci&oacute;n de plagio. Por lo tanto, se puede afirmar que con  este enfoque se cubre m&aacute;s de un rasgo en el proceso de an&aacute;lisis de los  documentos. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La aplicaci&oacute;n de la t&eacute;cnica propuesta,  apoya la detecci&oacute;n de coincidencias entre documentos de texto llevada a cabo como  parte de los procesos de revisi&oacute;n de art&iacute;culos. Lo anterior, evita que los documentos  a publicar tengan m&aacute;s de un 30% de similitud con textos publicados previamente,  elevando la calidad y fiabilidad del proceso de revisi&oacute;n. La posibilidad de  detectar plagio desde una herramienta web local, soluciona el problema del  consumo de ancho de banda, al no tener que utilizar herramientas en l&iacute;nea para  realizar esta tarea. Adem&aacute;s, se elimina la incertidumbre del manejo real que  dan las herramientas en l&iacute;nea a la informaci&oacute;n que a&uacute;n no ha sido publicada,  garantizando de esta forma la integridad de las publicaciones. </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La utilizaci&oacute;n de esta t&eacute;cnica puede  generalizarse, y ser aplicada en la identificaci&oacute;n de contribuciones que sean  enviadas a m&aacute;s de una revista o evento a la vez. Lo anterior contribuye a  reducir la posibilidad de que se publique un mismo art&iacute;culo en varios  escenarios, lo que denotar&aacute; originalidad e innovaci&oacute;n en los manuscritos que  logren ser aceptados. De igual manera influye positivamente en el nivel y  calidad cient&iacute;fica de los documentos que sean sometidos a un proceso de arbitraje.  Se recomienda la inclusi&oacute;n en la primera etapa de otros m&eacute;todos de detecci&oacute;n de  coincidencias de texto, adem&aacute;s de los propuestos, lo que aumentar&aacute; la detecci&oacute;n  certera del plagio.</font></p>     <p>&nbsp;</p>     <p align="left"><font face="Verdana, Arial, Helvetica, sans-serif" size="3"><B>REFERENCIAS    BIBLIOGR&Aacute;FICAS</B></font>     <!-- ref --><p name="_ENREF_1"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CEDE&Ntilde;O, L. A. B. Detecci&oacute;n autom&aacute;tica de plagio en  texto. Tesis desarrollada dentro del M&aacute;ster en Inteligencia Artificial,  Reconocimiento de Formas e Imagen Digital Universidad Polit&eacute;cnica de Valencia,  2008.     </font></p>     <!-- ref --><p name="_ENREF_2"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CLOUGH, P. Old and new challenges in automatic plagiarism  detection. National UK Plagiarism Advisory Service,&nbsp; 2003, 76.     </font></p>     <!-- ref --><p name="_ENREF_3"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">CHONG, M. Y. M. A Study on Plagiarism Detection and  Plagiarism Direction Identification Using Natural Language Processing  Techniques. A thesis submitted in partial fullment of the requirements of the  University of Wolverhampton for the degree of Doctor of Philosophy Research  Group in Computational Linguistics University of Wolverhampton, UK, 2013.     </font></p>     <!-- ref --><p name="_ENREF_4"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ELIZALDE, V. Estudio y  desarrollo de nuevos algoritmos de detecci&oacute;n de plagio. Tesis de Licenciatura  en Ciencias de la Computaci&oacute;n Departamento de Computaci&oacute;n, Facultad de Ciencias  Exactas y Naturales, Universidad de Buenos Aires, 2011.     </font></p>     <p name="_ENREF_5"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">FRIEDMAN, N., D. GEIGER AND M. GOLDSZMIDT. Bayesian Network  Classifiers. In <em>Machine Learning. </em>Netherlands: Kluwer  Academic Publishers, 1997, vol. 29, p. 131&ndash;163. </font></p>     <!-- ref --><p name="_ENREF_6"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">HERN&Aacute;NDEZ, J., M. J.  RAM&Iacute;REZ AND C. FERRI <em>Introducci&oacute;n a la  Miner&iacute;a de Datos</em>. Edtion ed. Madrid: Pearson  Prentice Hall, 2004.     </font></p>     <p name="_ENREF_7"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">IEEE. Institute of Electrical and Electronics Engineers. A plagiarism FAQ.  2014, [cited 21 de marzo 2014]. Available from Internet:&lt;<a href="http://www.ieee.org/web/publications/rights/plagiarismFAQ.htm%3e">http://www.ieee.org/web/publications/rights/plagiarismFAQ.htm&gt;</a>. </font></p>     <p name="_ENREF_8"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">INZA, I., P.  LARRA&Ntilde;AGA, R. ETXEBERRIA AND B. SIERRA. Feature  Subset Selection by Bayesian network-based optimization. In <em>Artificial Intelligence.</em> Elsevier  Science, 2000, vol. 123, p. 157&ndash;184. </font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p name="_ENREF_9"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MANCHEGO, F. E. A.  Sistema de informaci&oacute;n de detecci&oacute;n de plagio en documentos digitales usando el  m&eacute;todo Document Fingerprinting. Tesis para optar por el T&iacute;tulo de Ingeniero  Inform&aacute;tico Pontificia Universidad Cat&oacute;lica del Per&uacute;, 2010.     </font></p>     <!-- ref --><p name="_ENREF_10"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">MITCHELL, T. M. <em>Machine  Learning</em>. Edtion ed.: McGraw-Hill Science/Engineering/Math, 1997.     </font></p>     <!-- ref --><p name="_ENREF_11"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">PINTO, D., D.  VILARI&Ntilde;O, C. BALDERAS, M. TOVAR, et al. Evaluating n-gram Models for a Bilingual Word Sense Disambiguation Task. Computaci&oacute;n y  Sistemas,&nbsp; 2011, 5(2), 209-220.     </font></p>     <!-- ref --><p name="_ENREF_12"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">RAE. Diccionario de la  Lengua Espa&ntilde;ola. 2014, [cited 18 de marzo 2014]. Available from Internet:&lt;<a href="http://www.rae.es/rae.html%3e">http://www.rae.es/rae.html&gt;    </a>. </font></p>     <p name="_ENREF_13"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">STAMATATOS, E. Plagiarism detection using stopword n-grams.  Journal of the American Society for Information Science and Technology,&nbsp; 2011, 62(12), 2512&ndash;2527. </font></p>     <!-- ref --><p name="_ENREF_14"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">VEGA, J. F. S.  Detecci&oacute;n autom&aacute;tica de plagio basada en la distinci&oacute;n y fragmentaci&oacute;n del  texto reutilizado. . Tesis sometida como requisito parcial para obtener el  grado de: Maestro en Ciencias en el &Aacute;rea de Ciencias Computacionales Instituto  Nacional de Astrof&iacute;sica, &Oacute;ptica y Electr&oacute;nica, 2011.     </font></p>     <!-- ref --><p name="_ENREF_15"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">WITTEN, I. H., E. FRANK AND M. A. HALL <em>Data Mining Practical Machine Learning Tools and Techniques</em>. Edtion  ed.: Morgan Kaufmann Publishers, 2011. ISBN 978-0-12-374856-0.     </font></p>     <!-- ref --><p name="_ENREF_16"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">ZECHNER, M., M. MUHR, R. KERN AND M. GRANITZER. External and  Intrinsic Plagiarism Detection using Vector Space Models. In <em>3rd Pan Workshop. Uncovering plagiarism,  authorship and social software Misuse. 25th Annual Conference of the spanish  society for natural language processing.</em> SEPLN, 2009, p. 47-55.     </font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: 28/03/2014     <br> Aceptado: 30/09/2014</font><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> </font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CEDEÑO]]></surname>
<given-names><![CDATA[L. A. B]]></given-names>
</name>
</person-group>
<source><![CDATA[Detección automática de plagio en texto. Tesis desarrollada dentro del Máster en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital]]></source>
<year>2008</year>
<publisher-name><![CDATA[Universidad Politécnica de Valencia]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CLOUGH]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Old and new challenges in automatic plagiarism detection. National UK Plagiarism Advisory Service]]></source>
<year>2003</year>
<page-range>76</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CHONG]]></surname>
<given-names><![CDATA[M. Y. M]]></given-names>
</name>
</person-group>
<source><![CDATA[A Study on Plagiarism Detection and Plagiarism Direction Identification Using Natural Language Processing Techniques. A thesis submitted in partial fullment of the requirements of the University of Wolverhampton for the degree of Doctor of Philosophy Research Group in Computational Linguistics University of Wolverhampton]]></source>
<year>2013</year>
<publisher-name><![CDATA[UK]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ELIZALDE]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Estudio y desarrollo de nuevos algoritmos de detección de plagio. Tesis de Licenciatura en Ciencias de la Computación Departamento de Computación, Facultad de Ciencias Exactas y Naturales]]></source>
<year>2011</year>
<publisher-name><![CDATA[Universidad de Buenos Aires]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FRIEDMAN]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[GEIGER]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[GOLDSZMIDT]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Bayesian Network Classifiers. In Machine Learning.]]></article-title>
<source><![CDATA[]]></source>
<year>1997</year>
<volume>29</volume>
<page-range>131-163</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[RAMÍREZ]]></surname>
<given-names><![CDATA[M. J]]></given-names>
</name>
<name>
<surname><![CDATA[FERRI]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Introducción a la Minería de Datos]]></source>
<year>2004</year>
<publisher-name><![CDATA[Edtion ed. Madrid: Pearson Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<collab>of Electrical and Electronics Engineers</collab>
<source><![CDATA[<. A plagiarism FAQ.</]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[INZA]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[LARRAÑAGA]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[ETXEBERRIA]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[SIERRA]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Feature Subset Selection by Bayesian network-based optimization. In Artificial Intelligence.]]></article-title>
<source><![CDATA[]]></source>
<year>2000</year>
<volume>123</volume>
<page-range>157-184</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MANCHEGO]]></surname>
<given-names><![CDATA[F. E. A]]></given-names>
</name>
</person-group>
<source><![CDATA[Sistema de información de detección de plagio en documentos digitales usando el método Document Fingerprinting. Tesis para optar por el Título de Ingeniero Informático Pontificia Universidad Católica del Perú]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MITCHELL]]></surname>
<given-names><![CDATA[T. M]]></given-names>
</name>
</person-group>
<source><![CDATA[Machine Learning]]></source>
<year>1997</year>
<publisher-name><![CDATA[McGraw-Hill Science/Engineering/Math]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PINTO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[VILARIÑO]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[BALDERAS]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[TOVAR]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Evaluating n-gram Models for a Bilingual Word Sense Disambiguation Task.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>5</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>209-220</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<collab>RAE</collab>
<source><![CDATA[Diccionario de la Lengua Española]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[STAMATATOS]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Plagiarism detection using stopword n-grams.]]></article-title>
<source><![CDATA[]]></source>
<year>2011</year>
<volume>62</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>2512-2527</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VEGA]]></surname>
<given-names><![CDATA[J. F. S]]></given-names>
</name>
</person-group>
<source><![CDATA[Detección automática de plagio basada en la distinción y fragmentación del texto reutilizado. Tesis sometida como requisito parcial para obtener el grado de: Maestro en Ciencias en el Área de Ciencias Computacionales Instituto Nacional de Astrofísica]]></source>
<year>2011</year>
<publisher-name><![CDATA[Óptica y Electrónica]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WITTEN]]></surname>
<given-names><![CDATA[I. H]]></given-names>
</name>
<name>
<surname><![CDATA[FRANK]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[M]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[HALL Data Mining Practical Machine Learning Tools and Techniques.]]></source>
<year>2011</year>
<publisher-name><![CDATA[Edtion ed.: Morgan Kaufmann Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZECHNER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[MUHR]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[KERN]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[GRANITZER]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[External and Intrinsic Plagiarism Detection using Vector Space Models. In 3rd Pan Workshop. Uncovering plagiarism, authorship and social software Misuse.]]></source>
<year>2009</year>
<page-range>47-55</page-range><publisher-loc><![CDATA[^eSEPLN SEPLN]]></publisher-loc>
<publisher-name><![CDATA[25th Annual Conference of the spanish society for natural language processing.]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
