<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1684-1859</journal-id>
<journal-title><![CDATA[Revista Cubana de Informática Médica]]></journal-title>
<abbrev-journal-title><![CDATA[RCIM]]></abbrev-journal-title>
<issn>1684-1859</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Ciencias Médicas de La Habana]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1684-18592013000100004</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Herramienta web para la clasificación de microsatélites polimórficos en genomas bacterianos]]></article-title>
<article-title xml:lang="en"><![CDATA[Web Tool for classfication of polymorphic microsatellites in bacteria genomes]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Martínez Ortiz]]></surname>
<given-names><![CDATA[Carlos M.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sautié Castellanos]]></surname>
<given-names><![CDATA[Miguel]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cuza Ferrer]]></surname>
<given-names><![CDATA[Yordanka]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Wisdom Viña]]></surname>
<given-names><![CDATA[Yinette]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Cibernética Aplicada a la Medicina (CECAM)  ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A02">
<institution><![CDATA[,ICBP Victoria de Girón  ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Producciones Trimagen. S.A  ]]></institution>
<addr-line><![CDATA[La Habana ]]></addr-line>
<country>Cuba</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2013</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2013</year>
</pub-date>
<volume>5</volume>
<numero>1</numero>
<fpage>20</fpage>
<lpage>29</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_arttext&amp;pid=S1684-18592013000100004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_abstract&amp;pid=S1684-18592013000100004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.sld.cu/scielo.php?script=sci_pdf&amp;pid=S1684-18592013000100004&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Las secuencias repetidas en tándem, específicamente los mini y micro satélites, han demostrado ser muy eficaces en la clasificación de bacterias patogénicas como B. anthracis, M. tuberculosis y P. aeruginosa, entre otras. En humanos es manifiesta su participación estando relacionados con más de ochenta enfermedades, gran parte de ellas de tipo neurodegenerativas, musculares y algunos tipos de cáncer. La herramienta web que presentamos es el resultado de la detección computacional de estas secuencias en genomas bacterianos completos y su correspondiente anotación en la estructura genómica de acuerdo a las diferentes regiones donde estos se localizan. La herramienta tiene como fin primario brindar un sistema relacional que permita al investigador ubicar los microsatélites de diferentes especies bacterianas, con más de un genoma secuenciado para inferir su posible carácter polimórfico, dentro del contexto de la estructura genómica y así proveer un primer acercamiento al rol putativo que los microsatélites desempeñan desde el punto de vista funcional. La herramienta se puede aplicar no solo en estudios taxonómicos y epidemiológicos sino en la detección de posibles relaciones de estas secuencias con las funciones moleculares, procesos biológicos y, en última instancia, las diversas formas de evolución de estas especies. El sitio web brinda el servicio de consultas a la base de datos de microsatélites bacterianos de acuerdo al sistema de tablas relacionales y atributos propios de las mismas. Cuenta además con los servicios típicos de un sitio con estas características como: sistema de autenticación, foro, encuestas, enlaces y documentación sobre la metodología empleada y del tema en cuestión.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The tandem repeat sequences, especially mini and microsatellites, have proven to be very effective in classification of pathogenic bacteria such as B. anthracis, M. tuberculosis and P. aeruginosa, among others. In human beings it is manifest its participation, being related with over eighty diseases, nearly all neurodegenerative and muscular, and some kinds of cancer. The web tool we are offering here is the result of computational detection of these sequences in whole bacteria genomes, and its respective annotation in the genomic structure according to the different regions where they are localized. The primary goal of this tool is to offer a relational system that allows mapping the microsatellites of bacterial species, all of them with more than one genome sequenced to infer their possible polymorphic character, in the context of genomic structure and thus providing a first approach to the putative role they perform from the functional point of view. The tool can be applied not only in taxonomical and epidemiological studies but in the detection of possible relationships of these sequences with the molecular functions, the biological processes and, as a last resort, the different forms of these species evolution. The web site offers the service of queries to the bacterial microsatellites database according to the related tables and its inherent attributes. It also has the typical services of this kind of site like: logging system, forum, polls, links and documentation about the employed methodology and the topic.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[microsatélites]]></kwd>
<kwd lng="es"><![CDATA[repetidos en tándem]]></kwd>
<kwd lng="es"><![CDATA[bacterias]]></kwd>
<kwd lng="es"><![CDATA[sistema de base de datos]]></kwd>
<kwd lng="en"><![CDATA[microsatellites]]></kwd>
<kwd lng="en"><![CDATA[tandem Repeat]]></kwd>
<kwd lng="en"><![CDATA[bacteria]]></kwd>
<kwd lng="en"><![CDATA[data base system]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <div align="right">     <p><font size="2" face="Verdana"><strong>ART&Iacute;CULO ORIGINAL</strong></font></p>    <p>&nbsp;</p>    <p align="left"><font size="2" face="Verdana"><font size="4"><strong>Herramienta  web para la clasificaci&oacute;n de microsat&eacute;lites polim&oacute;rficos  en genomas bacterianos</strong></font> </font></p>    <p align="left">&nbsp;</p>    <p align="left"><font size="2" face="Verdana"><strong><font size="3">Web  Tool for classfication of polymorphic microsatellites in bacteria genomes</font></strong></font></p>    <p align="left">&nbsp;</p>    <p align="left">&nbsp;</p>    <p align="left"><font size="2" face="Verdana"><strong>MsC.  Carlos M. Mart&iacute;nez Ortiz,<sup>I</sup> MsC. Miguel Sauti&eacute; Castellanos,<strong><sup>II</sup></strong>  Dra. Yordanka Cuza Ferrer,<sup>III</sup> Ing. Yinette Wisdom Vi&ntilde;a<sup>IV    <br>      ]]></body>
<body><![CDATA[<br> </sup></strong> <sup>I</sup>Profesor Auxiliar. Lic. Microbiolog&iacute;a  y M&aacute;ster en ciencias en Bioqu&iacute;mica de las prote&iacute;nas. Centro  de Cibern&eacute;tica Aplicada a la Medicina (CECAM). La Habana, Cuba. E-mail:  <a href="mailto:cmmo@infomed.sld.cu">cmmo@infomed.sld.cu</a>    <br> <sup>II</sup>Profesor  Auxiliar. Lic. Bioqu&iacute;mica. M&aacute;ster en ciencias en Inform&aacute;tica  M&eacute;dica. Centro de Cibern&eacute;tica Aplicada a la Medicina (CECAM). La  Habana, Cuba. E-mail: <a href="mailto:msc@infomed.sld.cu">msc@infomed.sld.cu</a>    <br>  <sup>III</sup>Profesora Asistente. Dra. en Medicina. Especialista en Fisiolog&iacute;a  Normal y Patol&oacute;gica. ICBP &quot;Victoria de Gir&oacute;n&quot;. La Habana,  Cuba. E-mail: <a href="mailto:yordankacuza@infomed.sld.cu">yordankacuza@infomed.sld.cu</a>    <br>  <sup>IV</sup>Profesora Instructor. Ingeniera en Inform&aacute;tica. Producciones  Trimagen. S.A. La Habana, Cuba. E-mail: <a href="mailto:yinette@trimagen.co.cu">yinette@trimagen.co.cu</a></font></p>    <p align="left">&nbsp;</p>    <p align="left">&nbsp;</p><hr>      <div align="left"><font size="2" face="Verdana"><strong>RESUMEN</strong></font></div></div>    <P><font size="2" face="Verdana">Las  secuencias repetidas en t&aacute;ndem, espec&iacute;ficamente los mini y micro  sat&eacute;lites, han demostrado ser muy eficaces en la clasificaci&oacute;n de  bacterias patog&eacute;nicas como B. anthracis, M. tuberculosis y P. aeruginosa,  entre otras. En humanos es manifiesta su participaci&oacute;n estando relacionados  con m&aacute;s de ochenta enfermedades, gran parte de ellas de tipo neurodegenerativas,  musculares y algunos tipos de c&aacute;ncer. La herramienta web que presentamos  es el resultado de la detecci&oacute;n computacional de estas secuencias en genomas  bacterianos completos y su correspondiente anotaci&oacute;n en la estructura gen&oacute;mica  de acuerdo a las diferentes regiones donde estos se localizan. La herramienta  tiene como fin primario brindar un sistema relacional que permita al investigador  ubicar los microsat&eacute;lites de diferentes especies bacterianas, con m&aacute;s  de un genoma secuenciado para inferir su posible car&aacute;cter polim&oacute;rfico,  dentro del contexto de la estructura gen&oacute;mica y as&iacute; proveer un primer  acercamiento al rol putativo que los microsat&eacute;lites desempe&ntilde;an desde  el punto de vista funcional. La herramienta se puede aplicar no solo en estudios  taxon&oacute;micos y epidemiol&oacute;gicos sino en la detecci&oacute;n de posibles  relaciones de estas secuencias con las funciones moleculares, procesos biol&oacute;gicos  y, en &uacute;ltima instancia, las diversas formas de evoluci&oacute;n de estas  especies. El sitio web brinda el servicio de consultas a la base de datos de microsat&eacute;lites  bacterianos de acuerdo al sistema de tablas relacionales y atributos propios de  las mismas. Cuenta adem&aacute;s con los servicios t&iacute;picos de un sitio  con estas caracter&iacute;sticas como: sistema de autenticaci&oacute;n, foro,  encuestas, enlaces y documentaci&oacute;n sobre la metodolog&iacute;a empleada  y del tema en cuesti&oacute;n. </font>     <P><font size="2" face="Verdana"><strong>Palabras  clave:</strong> microsat&eacute;lites, repetidos en t&aacute;ndem, bacterias,  sistema de base de datos. </font> <hr> <font size="2" face="Verdana"><strong>ABSTRACT</strong></font>      <P><font size="2" face="Verdana">The tandem repeat sequences, especially mini  and microsatellites, have proven to be very effective in classification of pathogenic  bacteria such as B. anthracis, M. tuberculosis and P. aeruginosa, among others.  In human beings it is manifest its participation, being related with over eighty  diseases, nearly all neurodegenerative and muscular, and some kinds of cancer.  The web tool we are offering here is the result of computational detection of  these sequences in whole bacteria genomes, and its respective annotation in the  genomic structure according to the different regions where they are localized.  The primary goal of this tool is to offer a relational system that allows mapping  the microsatellites of bacterial species, all of them with more than one genome  sequenced to infer their possible polymorphic character, in the context of genomic  structure and thus providing a first approach to the putative role they perform  from the functional point of view. The tool can be applied not only in taxonomical  and epidemiological studies but in the detection of possible relationships of  these sequences with the molecular functions, the biological processes and, as  a last resort, the different forms of these species evolution. The web site offers  the service of queries to the bacterial microsatellites database according to  the related tables and its inherent attributes. It also has the typical services  of this kind of site like: logging system, forum, polls, links and documentation  about the employed methodology and the topic. </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana"><strong>Key  words: </strong>microsatellites, tandem Repeat, bacteria, data base system. </font>  <hr>     <p>&nbsp;</p>    <p>&nbsp;</p>    <p><font size="3" face="Verdana"><strong>INTRODUCCI&Oacute;N  </strong> </font></p>    <P><font size="2" face="Verdana">El descubrimiento del ADN  sat&eacute;lite en 1961<sup>1</sup> inici&oacute; el estudio de las secuencias  repetidas en t&aacute;ndem devel&aacute;ndose con el tiempo un amplio espectro  de estas secuencias en cuanto a composici&oacute;n, tama&ntilde;o y localizaci&oacute;n  gen&oacute;mica. </font>     <P><font size="2" face="Verdana">Estos marcadores gen&eacute;ticos  han demostrado ser muy &uacute;tiles constituyendo el elemento clave en las pruebas  forenses para la identificaci&oacute;n de personas y animales. Los Repetidos en  T&aacute;ndem de Longitud Variable (VNTR por sus siglas en ingl&eacute;s) son  de vital importancia en los estudios gen&eacute;ticos de linaje pues, a diferencia  de los polimorfismos de simple nucle&oacute;tido (SNP), exhiben m&aacute;s de  un alelo con alta frecuencia en el n&uacute;mero de copias, conduciendo as&iacute;  a altas tasas de heterocigosis.<sup>2</sup> </font>     <P><font size="2" face="Verdana">Desde  hace m&aacute;s de 18 a&ntilde;os se conoce la participaci&oacute;n de los repetidos  en t&aacute;ndem (RTs) como agentes causales de enfermedades en humanos. Dentro  de las m&aacute;s conocidas se encuentran la atrofia muscular espinobulbar, la  enfermedad de Huntington y las ataxias espinocerebelosas de tipo 1, 2, 3, 6 y  7, todas relacionadas con la expansi&oacute;n del triplete CAG en regiones codificantes.  Asociadas a expansiones en regiones no codificantes est&aacute;n el s&iacute;ndrome  de Fragil X, la ataxia de Friedreich, la distrofia miot&oacute;nica y las ataxias  espinocerebelosas de tipo 8 y 12. </font>     <P><font size="2" face="Verdana">Los  repetidos en t&aacute;ndem, particularmente los mini y microsat&eacute;lites,  se encuentran tambi&eacute;n en organismos procariotas y han sido de gran utilidad  en estudios de epidemiolog&iacute;a molecular.<sup>3</sup> En bacterias pat&oacute;genas,  los RTs fueron inicialmente identificados asoci&aacute;ndose a genes causantes  de la virulencia. Las t&eacute;cnicas que emplean los RTs como marcadores han  sido efectivas donde otras, de car&aacute;cter molecular inclusive, han fallado.<sup>4-5</sup>  Por ejemplo, la t&eacute;cnica de clasificaci&oacute;n de secuencias multilocus  (MLST)<sup>6</sup> actual referencia en epidemiolog&iacute;a molecular para Nisseria  meningitidis, no es aplicable en varios tipos de g&eacute;rmenes como son B. anthracis,  M. tuberculosis y Y. pestis, debido al reciente surgimiento de estos pat&oacute;genos  y su consecuente variabilidad en las secuencias. En estos casos los RTs han resultado  marcadores muy informativos para la clasificaci&oacute;n gen&eacute;tica de estas  especies. La contribuci&oacute;n de los RTs al polimorfismo gen&oacute;mico ha  quedado establecida por dise&ntilde;os como el AFPL (polimorfismo en fragmentos  de longitud amplificada), quedando ilustrada claramente en B. anthracis, donde  se demostr&oacute; que las bandas polim&oacute;rficas en los patrones de AFPL  se deb&iacute;an a variaciones de secuencias repetidas en t&aacute;ndem. </font>      <P><font size="2" face="Verdana">Los RTs exhiben una alta tasa de mutaci&oacute;n  debido a una variedad de mecanismos que afectan su estabilidad entre los que se  encuentran el deslizamiento en la replicaci&oacute;n y el entrecruzamiento desigual  en la meiosis.<sup>7</sup> </font>     <P><font size="2" face="Verdana">En internet  existen publicados varios sitios que brindan servicios de consulta en repositorios  de secuencias repetidas en t&aacute;ndem. Estos repositorios han sido construidos  algunos para aplicaciones muy espec&iacute;ficas, varios de ellos dedicados precisamente  a organismos bacterianos,<sup>8-9</sup> y otros de car&aacute;cter general incluyendo  todo tipo de especies.<sup>2</sup> </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La  creaci&oacute;n de algoritmos para detectar secuencias repetidas en t&aacute;ndem  ha sido un tema muy abordado en la literatura y contin&uacute;a siendo un problema  computacional si tenemos en cuenta el crecimiento exponencial que exhiben los  bancos de secuencias. Estos algoritmos se pueden clasificar de acuerdo a tres  esquemas generales. El primer grupo emplea un esquema puramente combinatorio que  recorre la secuencia linealmente y selecciona los RTs de acuerdo con determinadas  reglas de construcci&oacute;n de estas secuencias. El segundo grupo usa criterios  probabil&iacute;sticos para seleccionar RTs candidatos que luego son sometidos  a pruebas de evaluaci&oacute;n para su selecci&oacute;n final. El tercer esquema  utiliza el alineamiento con patrones o librer&iacute;as de estos y los RTs seleccionados  son aquellos que obtienen una puntuaci&oacute;n por encima de determinado valor  de corte.<sup>10-13</sup> </font>     <P><font size="2" face="Verdana">La herramienta  web que presentamos hace uso de una base de datos relacional (MSB_DB) permitiendo  consultar la informaci&oacute;n de los microsat&eacute;lites (localizaci&oacute;n,  tama&ntilde;o, unidad repetida, etc) relacionada con gran parte de las anotaciones  que presentan los ficheros de secuencias gen&oacute;micas del GeneBank, (ej. <em>organism</em>,  gene, CDS, RNA, etc.). Los genomas bacterianos escogidos fueron los de aquellas  especies que pose&iacute;an m&aacute;s de un genoma secuenciado lo que permite  hacer inferencias sobre el car&aacute;cter polim&oacute;rfico de los microsat&eacute;lites  contenidos en ellos. </font>     <P><font size="2" face="Verdana">Se dise&ntilde;&oacute;  un algoritmo para la detecci&oacute;n de los microsat&eacute;lites que emplea  un esquema combinado de detecci&oacute;n exacta de todas las ocurrencias de patrones  mediante el aut&oacute;mata Aho-Corasick y de extensi&oacute;n aproximada de los  mismos mediante alineamiento <em>wraparound</em>, aplicando una distribuci&oacute;n  probabil&iacute;stica como criterio de parada. El algoritmo es eficiente y aplica  adem&aacute;s determinadas reglas heur&iacute;sticas para seleccionar los microsat&eacute;lites  candidatos. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>MATERIALES Y  M&Eacute;TODOS </strong> </font>     <P><font size="2" face="Verdana">Las secuencias  gen&oacute;micas de bacterias con m&aacute;s de un genoma secuenciado fueron extra&iacute;das  del sitio <A HREF="ftp://ftp.ncbi.nih.gov/genomes/Bacteria/-all.gbk.tar.gz" TARGET="_blank">ftp://ftp.ncbi.nih.gov/genomes/Bacteria/-all.gbk.tar.gz</A>.  En este archivo se encuentran todas las secuencias gen&oacute;micas de bacterias  en formato de ficheros planos GenBank (GBFF). Los ficheros planos son f&aacute;ciles  de acceder, distribuir y adem&aacute;s de mantener. La mayor&iacute;a de las aplicaciones  para an&aacute;lisis de secuencias tienen herramientas para su utilizaci&oacute;n.  En nuestro caso empleamos el paquete Biojava para extraer la informaci&oacute;n  en ellos contenida. </font>     <P><font size="2" face="Verdana">Para la creaci&oacute;n  de la base de datos MSB_DB, se implement&oacute; una aplicaci&oacute;n en Java  (JDK 6) la cual incluy&oacute; tres m&oacute;dulos fundamentales: I) m&oacute;dulo  empleando el analizador sint&aacute;ctico contenido en el paquete Biojava 1.7,  II) m&oacute;dulo empleando el API JDBC para acceso a bases de datos, en este  caso se emple&oacute; el gestor de bases de datos MySQL y III) m&oacute;dulo para  la detecci&oacute;n de microsat&eacute;lites que fue implementado en lenguaje  C++. </font>     <P><font size="2" face="Verdana">Para la creaci&oacute;n del sitio  web se emple&oacute; el gestor de contenidos DRUPAL 6.3 y para la gesti&oacute;n  interna de la base de datos MSB_DB del sitio se programaron scripts para consultas  de actualizaci&oacute;n y de selecci&oacute;n en el lenguaje PHP 5.3. Como gestor  de base de datos se emple&oacute; MySQL 5.5. El servicio http corri&oacute; a  cargo de Apache 2.2. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>RESULTADOS  Y DISCUSI&Oacute;N</strong></font><font size="2" face="Verdana"><strong> </strong>  </font>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">En la <a href="#figura1">figura 1</a>  se muestra el algoritmo general para la generaci&oacute;n de la base de datos  MSB_DB. Este transcurre a trav&eacute;s de dos m&oacute;dulos principales que  tienen como entrada los ficheros planos del GenBank. El primero fue programado  en Java y tiene la funci&oacute;n de extraer rasgos y anotaciones. El segundo  fue programado en C++ y tiene la funci&oacute;n de detectar y extraer los microsat&eacute;lites  presentes en las secuencias gen&oacute;micas. Ambos m&oacute;dulos contribuyen  con sus salidas al tercer m&oacute;dulo que se encarga de actualizar la base de  datos MSB_DB y establecer las relaciones necesarias.</font>     <P align="center"><img src="/img/revistas/rcim/v5n1/f0104113.jpg" width="441" height="415">  <a name="figura1"></a>     <P><font size="2" face="Verdana">El m&oacute;dulo de detecci&oacute;n  de microsat&eacute;lites (<a href="#fig2">Fig. 2</a>), realiza primeramente la  b&uacute;squeda exacta y exhaustiva, a lo largo de toda la secuencia de tama&ntilde;o  n, de todas las ocurrencias de todos los patrones posibles de tama&ntilde;o entre  1 y 8 nucle&oacute;tidos. Esto lo hace mediante el algoritmo de Aho-Corasick,  aut&oacute;mata que dado un diccionario de palabras detecta todas las ocurrencias  de estas en un texto. Luego empalma estas ocurrencias cuando son del mismo patr&oacute;n  y est&aacute;n unas consecutivas a las otras y reporta la posici&oacute;n, longitud  y composici&oacute;n del repetido. Posteriormente, si se elige la opci&oacute;n  de hallar repetidos aproximados se realiza la extensi&oacute;n de las secuencias  antes reportadas mediante alineamiento wraparound. Para el caso de los microsat&eacute;lites  registrados en esta base de datos se emplearon los siguientes par&aacute;metros  para el alineamiento: match=2, mismatch=-4, indel=-4, flank=3. El par&aacute;metro  flank es un factor que multiplicado por el tama&ntilde;o del repetido exacto obtenemos  las secuencias a considerar en los flancos para hacer el alineamiento local wraparound,  el resto de los par&aacute;metros son los referidos a coincidencias, no coincidencias  e inserci&oacute;n-deleci&oacute;n y son comunes a cualquier tipo de alineamiento.  El algoritmo es muy eficiente: O(n) en la primera fase y O(kp) en la fase de extensi&oacute;n,  donde k es la longitud del repetido candidato y p la longitud del patr&oacute;n.  El algoritmo emplea adem&aacute;s determinadas reglas heur&iacute;sticas que agilizan  a&uacute;n m&aacute;s la b&uacute;squeda y sesgan el n&uacute;mero de microsat&eacute;lites  candidatos. El m&oacute;dulo tiene una versi&oacute;n <em>standalone</em> que  puede ser descargada del sitio y en la que el usuario puede emplear par&aacute;metros  de b&uacute;squeda personalizados. </font>     <P align="center"><font size="2" face="Verdana"><img src="/img/revistas/rcim/v5n1/f0204113.jpg" width="473" height="340"></font>  <font size="2" face="Verdana"><a name="fig2"></a> </font>     <P><font size="2" face="Verdana">En  la <a href="#figura3">figura 3</a> se muestra el esquema de la base de datos MSB_DB.  La tabla TLocus registra anotaciones generales de cada genoma y cada entrada tiene  m&uacute;ltiples entradas en la tabla TReference que registra las diferentes referencias  bibliogr&aacute;ficas relacionadas con la secuenciaci&oacute;n de dichos genomas.  La tabla TFeature registra una selecci&oacute;n de los rasgos anotados y su localizaci&oacute;n  en la secuencia gen&oacute;mica, cada entrada de esta tabla tiene m&uacute;ltiples  entradas a la tabla TAnnotation que registra las anotaciones hechas a los rasgos  en forma de pares clave-valor. La tabla TRepeat registra los microsat&eacute;lites  propiamente: su posici&oacute;n en la secuencia, la unidad repetida, el n&uacute;mero  de estas unidades y si es exacto o no. Una registro de esta tabla puede tener  m&uacute;ltiples entradas en la tabla TAligment donde se caracteriza el alineamiento  de este microsat&eacute;lite con la unidad repetida. La relaci&oacute;n entre  TFeature y TRepeat es de muchos a muchos y esto es debido a que en el tramo de  secuencia relativo a un rasgo pueden existir muchos microsat&eacute;lites distintos  pero a su vez un mismo microsat&eacute;lite puede estar en diferentes rasgos anotados.  Esto se debe a redundancia en la anotaci&oacute;n de rasgos en la cual un rasgo  espec&iacute;fico puede estar embebido en un rasgo m&aacute;s general. </font>      <P align="center"><font size="2" face="Verdana">    <br> <img src="/img/revistas/rcim/v5n1/f0304113.jpg" width="569" height="477">  </font> <a name="figura3"></a>     <P><font size="2" face="Verdana">En la <a href="/img/revistas/rcim/v5n1/f0404113.jpg">figura  4</a> se muestra una vista general del sitio y la p&aacute;gina generada luego  de hacer una consulta de selecci&oacute;n que relaciona las tablas TLocus, TFeature  y TRepeat. En esta consulta, truncada por la vista de browser, se pueden apreciar  algunas entradas que dan fe precisamente del cumplimiento de uno de los objetivos  propuestos con la creaci&oacute;n de esta base de datos: el de detectar y clasificar  microsat&eacute;lites polim&oacute;rficos. Se puede observar como las entradas  para los genes hemX y kpsE presentan microsat&eacute;lites polim&oacute;rficos  que var&iacute;an en longitud siendo las mismas unidades repetidas y estando presente  en diferentes genomas de la misma especie, en este caso <em>Escherichia coli</em>.  Esta especie es una de las m&aacute;s estudiadas debido al desempe&ntilde;o que  ha tenido en el desarrollo de la biolog&iacute;a molecular y por tener varios  serotipos reconocidos como agentes pat&oacute;genos en humanos, por ejemplo: <em>E.  coli O157:H7, E. coli O121 y E. coli O104:H21</em>. En nuestra base existen m&aacute;s  de 30 secuencias gen&oacute;micas de esta especie lo cual la hace una magn&iacute;fica  candidata para el estudio del polimorfismo presente en microsat&eacute;lites bacterianos.  </font>     <P><font size="2" face="Verdana">El sitio cuenta con un men&uacute; de  primer nivel que da entrada a cinco p&aacute;ginas principales: Inicio, MSB_Select,  MSB_Update, Foro y Encuesta. En la p&aacute;gina Inicio encontramos documentaci&oacute;n  sobre el sitio y enlaces a otras documentaciones relacionadas con la metodolog&iacute;a  del trabajo. Cuenta adem&aacute;s con un sistema de autenticaci&oacute;n que permite  clasificar a los usuarios de acuerdo a determinados privilegios. Por ejemplo,  los usuarios con el rol de administrador pueden realizar consultas de modificaci&oacute;n  sobre la bases de datos, funcionalidad que est&aacute; vedada para el resto de  los usuarios. Los usuarios an&oacute;nimos tienen una navegaci&oacute;n limitada  sin poder hacer consultas de selecci&oacute;n ni participar en los temas de foros.  </font>     <P>     ]]></body>
<body><![CDATA[<P>&nbsp;     <P><font size="3" face="Verdana"><strong>CONCLUSIONES </strong></font>      <P><font size="2" face="Verdana">La herramienta presentada cumple con el prop&oacute;sito  original que nos planteamos, que fue el de crear un recurso bioinform&aacute;tico  que permitiera la clasificaci&oacute;n de los microsat&eacute;lites presentes  en genomas bacterianos. La base de datos MSB_DB permite la clasificaci&oacute;n  de estas secuencias y adem&aacute;s relacionarlas directamente con las anotaciones  presentes en los bancos de secuencia primarios. Esto nos permite tener un primer  acercamiento a la funci&oacute;n de los microsat&eacute;lites en el contexto de  la estructura del genoma en sus niveles g&eacute;nico y subg&eacute;nico. El esquema  de la base de datos nos permite detectar y clasificar, dentro del contexto de  rasgos y anotaciones, microsat&eacute;lites polim&oacute;rficos presentes en variantes  de las mismas especies y en los mismos locus gen&eacute;ticos. Al estar basada  en tecnolog&iacute;a web garantiza mayores niveles de acceso a la misma por parte  de la comunidad cient&iacute;fica. El sitio fue creado en su totalidad con herramientas  de software libre, es intuitivo, de f&aacute;cil navegaci&oacute;n y puede ser  enriquecido a partir de las encuestas, comentarios y temas de foro. En este momento  se encuentra p&uacute;blico en la intranet de nuestra instituci&oacute;n en espera  de ser hospedado en una red de mayor acceso. Como trabajo futuro nos proponemos  ampliar la base de datos creando nuevas relaciones con otros repositorios que  brinden informaci&oacute;n m&aacute;s espec&iacute;fica sobre los procesos biol&oacute;gicos  y las funciones moleculares en que participan los genes anotados en los bancos  primarios de genomas. </font>     <P>&nbsp;     <P><font size="3" face="Verdana"><strong>REFERENCIAS  BIBLIOGR&Aacute;FICAS </strong></font>     <!-- ref --><P><font size="2" face="Verdana">1. Kit  S. Equilibrium sedimentation in density gradients of DNA preparations from animal  tissues. J. Mol. Biol. 1961; 3: 711-716.     </font>     <!-- ref --><P><font size="2" face="Verdana">2.  Gelfand Y, Rodriguez A, Benson G. TRDB-The Tandem Repeats Database. Nucleic Acids  Research. 2007; 35, Database issue doi:10.1093/nar/gkl1013.     </font>     <!-- ref --><P><font size="2" face="Verdana">3.  van Belkum. High-throughput epidemiologic typing in clinical microbiology. Clin  Microbiol Infect A. 2003; 9:86-100.     </font>     <P><font size="2" face="Verdana">4.  Radomski N, Thibault VC, Karoui C, de Cruz K, Cochard T, Gutierrez C, Supply P,  Biet F, Boschiroli ML. Determination of genotypic diversity of Mycobacterium avium  subspecies from human and animal origins by mycobacterial interspersed repetitive-unit-variable-number  tandem-repeat and IS1311 restriction fragment length polymorphism typing methods.  J Clin Microbiol. 2010 Abr;48(4):1026-34. </font>     <P><font size="2" face="Verdana">5.  Guo C, Liao Y, Li Y, Duan J, Guo Y, Wu Y, Cui Y, Sun H, Zhang J, Chen B, Zou Q,  Guo G. Genotyping analysis of Helicobacter pylori using multiple-locus variable-number  tandem-repeats analysis in five regions of China and Japan. BMC Microbiol. 2011  Sep 3;11:197. </font>     <!-- ref --><P><font size="2" face="Verdana">6. Vergnaud G, Pourcel  C. Multiple locus variable number of tandem repeats analysis. Methods Mol Biol.  2009;551:141-58.     </font>     <!-- ref --><P><font size="2" face="Verdana">7. Bichara M, Wagner  J, Lambert IB. Mechanisms of tandem repeat instability in bacteria. Mutation Research.  2006; 598: 144-163.     </font>     <P><font size="2" face="Verdana">8. Le Fiache P, Hauck  Y, Onteniente L, Prieur A, Denoeud F, Ramisse V, Sylvestre P, Benson G, Ramisse  F, Vergnaud G. A tandem repeats database for bacterial genomes: application to  the genotyping of Yersinia pestis and Bacillus anthracis. BMC Microbiol. 2001;1:2.  </font>     <!-- ref --><P><font size="2" face="Verdana">9. Chang CH, Chang YC, Underwood A, Chiou  CS, Kao CY. VNTRDB: a bacterial variable number tandem repeat locus database.  Nucleic Acids Res. 2007 Ene;35 (Database issue):D416-21 </font>     <!-- ref --><P><font size="2" face="Verdana">10.  Benson G. Tandem repeats finder: a program to analyzed DNA sequences. Nucleic  Acids Res. 1999;27:573-580.     </font>     <!-- ref --><P><font size="2" face="Verdana">11. Kolpakov  R, Bana G, Kucherov G. mreps: efficient and flexible detection of tandem repeats  in DNA. Nucleic Acids Res. 2003;31:3672-3678.     </font>     <!-- ref --><P><font size="2" face="Verdana">12.  Wexler Y, Yakhini Z, Kashi Y, Geiger D. Finding approximate tandem repeats in  genomic sequences. J. Comp. Biol. 2005;12:928-942.     </font>     <!-- ref --><P><font size="2" face="Verdana">13.  Denoeud F, Vergnaud G. Identification of polymorphic tandem repeats by direct  comparison of genome sequence from different bacterial strains: a Web-based resource.  BMC Bioinformatics. 2004;5:4.     </font>     <P>&nbsp;     <P>&nbsp;     <P><font size="2" face="Verdana">Recibido:  25 de mayo de 2013.    ]]></body>
<body><![CDATA[<br> Aprobado: 5 de junio de 2013.</font>       ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kit]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Equilibrium sedimentation in density gradients of DNA preparations from animal tissues]]></article-title>
<source><![CDATA[J. Mol. Biol]]></source>
<year>1961</year>
<volume>3</volume>
<page-range>711-716</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gelfand]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Rodriguez]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Benson]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[TRDB-The Tandem Repeats Database]]></article-title>
<source><![CDATA[Nucleic Acids Research]]></source>
<year>2007</year>
<volume>35</volume>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[van]]></surname>
<given-names><![CDATA[Belkum]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[High-throughput epidemiologic typing in clinical microbiology]]></article-title>
<source><![CDATA[Clin Microbiol Infect A]]></source>
<year>2003</year>
<volume>9</volume>
<page-range>86-100</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Radomski]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Thibault]]></surname>
<given-names><![CDATA[VC]]></given-names>
</name>
<name>
<surname><![CDATA[Karoui]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[de Cruz]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Cochard]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Gutierrez]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Determination of genotypic diversity of Mycobacterium avium subspecies from human and animal origins by mycobacterial interspersed repetitive-unit-variable-number tandem-repeat and IS1311 restriction fragment length polymorphism typing methods]]></article-title>
<source><![CDATA[J Clin Microbiol]]></source>
<year>2010</year>
<month> A</month>
<day>br</day>
<volume>48</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>1026-34</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Guo]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Liao]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Duan]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Guo]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Wu]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Genotyping analysis of Helicobacter pylori using multiple-locus variable-number tandem-repeats analysis in five regions of China and Japan]]></article-title>
<source><![CDATA[BMC Microbiol]]></source>
<year>2011</year>
<month> S</month>
<day>ep</day>
<volume>11</volume>
<page-range>197</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vergnaud]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Pourcel]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multiple locus variable number of tandem repeats analysis]]></article-title>
<source><![CDATA[Methods Mol Biol]]></source>
<year>2009</year>
<volume>551</volume>
<page-range>141-58</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bichara]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Wagner]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Lambert]]></surname>
<given-names><![CDATA[IB]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mechanisms of tandem repeat instability in bacteria]]></article-title>
<source><![CDATA[Mutation Research]]></source>
<year>2006</year>
<volume>598</volume>
<page-range>144-163</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Le Fiache]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Hauck]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Onteniente]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Prieur]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Denoeud]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Ramisse]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A tandem repeats database for bacterial genomes: application to the genotyping of Yersinia pestis and Bacillus anthracis]]></article-title>
<source><![CDATA[BMC Microbiol]]></source>
<year>2001</year>
<volume>1</volume>
<page-range>2</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chang]]></surname>
<given-names><![CDATA[CH]]></given-names>
</name>
<name>
<surname><![CDATA[Chang]]></surname>
<given-names><![CDATA[YC]]></given-names>
</name>
<name>
<surname><![CDATA[Underwood]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Chiou]]></surname>
<given-names><![CDATA[CS]]></given-names>
</name>
<name>
<surname><![CDATA[Kao]]></surname>
<given-names><![CDATA[CY]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[VNTRDB: a bacterial variable number tandem repeat locus database]]></article-title>
<source><![CDATA[Nucleic Acids Res]]></source>
<year>2007</year>
<month> E</month>
<day>ne</day>
<volume>35</volume>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Benson]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Tandem repeats finder: a program to analyzed DNA sequences]]></article-title>
<source><![CDATA[Nucleic Acids Res]]></source>
<year>1999</year>
<volume>27</volume>
<page-range>573-580</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kolpakov]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Bana]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Kucherov]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[mreps: efficient and flexible detection of tandem repeats in DNA]]></article-title>
<source><![CDATA[Nucleic Acids Res]]></source>
<year>2003</year>
<volume>31</volume>
<page-range>3672-3678</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wexler]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Yakhini]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[Kashi]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Geiger]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Finding approximate tandem repeats in genomic sequences]]></article-title>
<source><![CDATA[J. Comp. Biol]]></source>
<year>2005</year>
<volume>12</volume>
<page-range>928-942</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Denoeud]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Vergnaud]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Identification of polymorphic tandem repeats by direct comparison of genome sequence from different bacterial strains: a Web-based resource]]></article-title>
<source><![CDATA[BMC Bioinformatics]]></source>
<year>2004</year>
<volume>5</volume>
<numero>4</numero>
<issue>4</issue>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
