PROYECTOS DE SECUENCIACIÓN Y COMPARACIÓN DE GENOMAS

 

 


Javier Tamames, ALMA Bioinformática

Juan Carlos Sánchez, CNB/CSIC

 

 

                                                   ÍNDICE

 

Proyectos de secuenciación

         Utilidad de los proyectos

            Desarrollo de la secuenciación

            Análisis funcional

 

Sistemas de análisis masivo de genomas

            Pedant

            GeneQuiz      

 

Servidores y bases de datos de información genómica

            NCBI

            TIGR

            ENSEMBL

            WIT

 

Servidores y sistemas para la comparación de genomas

            Co-ocurrencia en genomas

            Fusión génica

            Conservación del orden génico

            Reconstrucción del metabolismo

 

Resumen de servidores visitados

 

Otros servicios

 

 

                          PROYECTOS DE SECUENCIACIÓN

 

 

Gracias al avance en las técnicas de secuenciación y el desarrollo del soporte bioinformático, el primer genoma microbiano completo fue secuenciado en el año 1995, por el equipo de Craig Venter en TIGR (The Institute for Genomic Research). Este genoma era el de la bacteria H.influenzae. Desde entonces numerosos proyectos de secuenciación han sido completados. Los hitos mas relevantes en este proceso han sido la secuenciación del primer eucariota (Saccharomyces cerevisiae, 1997), la mosca Drosophila melanogaster (2000), la primera planta (Arabidopsis thaliana, 2000), y por supuesto el draft del genoma humano (2001).

 

Pulsa en la figura para ampliarla

 

 

El número de genomas completos disponibles actualmente (entre procariotas y eucariotas) es de 78. Existen además alrededor de 400 nuevos proyectos de secuenciación en marcha. Entre estos se encuentran proyectos tan importantes como la secuenciación del genoma del ratón, de varios cereales y de numerosos microorganismos patógenos. El servidor GOLD (Genomes OnLine Database) recopila información sobre los proyectos en marcha, el lugar donde se desarrollan y el estado actual.

 

                        GOLD

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Genomas completos

            Genomas eucariotas en desarrollo

 

 

· Utilidad de los proyectos

 

En un primer paso, la secuenciación de genomas nos provee con el conjunto de genes que el organismo posee. De aquí se pasa al proteoma, el conjunto de proteínas codificadas por los genes. Junto a ellos podemos hablar del transcriptoma, el estudio de la expresión génica con el tiempo. A un nivel superior, los datos de genoma y proteoma se pueden integrar en el conjunto del metabolismo del organismo (metaboloma), para obtener una visión de la integración y conexión de los procesos en el conjunto. Esto se facilita si se posee información sobre la interacción entre las proteínas, lo que se empieza a llamar “interactoma”. Por tanto, la obtención del genoma del organismo es el primer y fundamental paso en una larga cadena de obtención de información. Sin el genoma, es casi imposible el estudio del resto.

 

El genoma ofrece una gran cantidad de datos sobre el estilo de vida del organismo. El repertorio de funciones y procesos celulares presentes indican las características comunes con otras especies y las adaptaciones particulares al medio ambiente. Esto se puede traducir directamente en la identificación de nuevas dianas terapéuticas o biotecnológicas, además de la comprensión de los procesos fundamentales para la vida en general o para la adaptación a diferentes ambientes en particular.

 

Pulsa en la figura para ampliarla

 

La obtención y comparación de genomas ha constituido un gran avance en el estudio de la evolución de los microorganismos, permitiendo una nueva visión de las relaciones entre las especies y de la cantidad y cualidad de los intercambios entre ellos mediados por eventos de transferencia horizontal de genes. El estudio de la evolución de la función de las proteínas y la creación de nuevas funciones también se ha visto muy facilitado.

 

Pulsa en la figura para ampliarla

 

En cuanto al genoma humano, la obtención del genoma posibilita la creación de nuevos y mas densos mapas físicos de marcadores, facilitando asi la búsqueda de genes asociados a enfermedades o a determinados fenotipos. Uno de los mas útiles tipos de marcadores son los SNPs (Single Nucleotide Polymorphisms), con varios proyectos que avanzan en su determinación. Se espera que los SNPs hagan posible un gran desarrollo de la farmacogenómica, con el objetivo de encontrar correlaciones entre determinados genotipos y la respuesta del paciente a medicamentos o terapias.

 

La comparación de genomas eucariotas es de importancia fundamental para ayudar en la anotación funcional del genoma humano, ya que asiste en la determinación de la correcta estructura de los genes y en la asignación de posibles funciones a las proteínas. A destacar también el gran avance que constituye la identificación de proteínas homólogas en otros organismos a aquellas causantes de enfermedades en humanos, allanando el camino en el estudio de la enfermedad.

 

Pulsa en la figura para ampliarla

 

 

Por último, como ya se ha comentado, la obtención del genoma completo y de su contenido es casi imprescindible para progresar en el uso de las nuevas técnicas de estudio de los sistemas biológicos, tales como la tecnología de microarray, las técnicas de estudio del proteoma, o el estudio de interacciones entre proteínas mediante los sistemas de two-hybrid o protein chips.

 

 

· Desarrollo de la secuenciación

 

Prácticamente todos los grandes proyectos de secuenciación de genomas han sido realizados por el método de shotgun. Este proceso de secuenciación que comienza con la construcción de una librería de fragmentos de DNA a secuenciar. Para ello el DNA a secuenciar se corta, generalmente al azar, y los fragmentos (cuyo tamaño usualmente es de 0.5 a 2 Kb) se clonan en plásmidos de E.coli. A partir de ahí comienza la secuenciación. Esta se realiza de modo aleatorio ya que no existe modo de saber la posición del fragmento que se secuencia en cada momento, ni si dicho fragmento ha sido secuenciado ya anteriormente. Es por ello que se produce una gran redundancia que ayuda a obtener mejores resultados. Asimismo, cuantos mas clones se secuencian, el número de gaps o huecos sin secuenciar va disminuyendo progresivamente. Es posible calcular el número de clones que se deben ser secuenciar. Por ejemplo, si se quiere secuenciar un genoma de 1000 Kb en fragmentos de 0.5 Kb, secuenciando 10000 clones (redundancia = 5) tendríamos cubierto el 99.3% del genoma, restando aprox. 70 huecos de 100 Kb de media por secuenciar. Si secuenciamos 15000 clones (redundancia = 7.5), estadísticamente tendríamos 8 huecos de 75 kb de media.

 

Un aspecto fundamental en este tipo de estrategia de secuenciación es el ensamblado de los fragmentos secuenciados. Este fue el paso limitante durante mucho tiempo, hasta que el desarrollo de nuevos algoritmos y el avance en el poder de computación de los ordenadores permitió escalarlo hasta las dimensiones de los genomas microbianos primero, y eucariotas posteriormente. El ensamblaje se basa en unir los fragmentos (que debido al corte aleatorio, son solapantes) como las piezas de un puzzle. El mayor problema lo plantean las zonas de DNA repetitivo, especialmente abundantes y largas en eucariotas. El resultado de este proceso es una o varias secuencias ensambladas separadas por gaps. Si estos gaps son pocos, pueden ser secuenciados mediante técnicas de secuenciación dirigida. Una vez los gaps han sido cubiertos, se obtiene la secuencia final de DNA sobre la cual comienza el análisis funcional.

 

 

· Análisis funcional

 

El objetivo común de todos los proyectos es proveer una lista de los ORFs (secuencias génicas que pueden ser transcritas, RNAs o proteínas) que contiene el genoma, junto con una posible asignación funcional para cada uno de ellos.

 

El primer paso consiste en la predicción de ORFs. En procariotas esto suele hacerse identificando los codones de inicio y terminación de los posibles ORFs, y analizando la posible secuencia resultante mediante:

 

1)      Búsquedas de homología en las bases de datos (alineamientos). El hallazgo de homólogos es una señal casi definitiva de que el gen existe.

2)      Presencia de secuencias promotoras en la zona 5’ del gen

3)      Las secuencias codificantes tienen propiedades que las distinguen de aquellas no codificantes. Entre estas propiedades se pueden citar el uso distintivo de códones, la composición aminoacídica, periodicidades de tercer orden en la secuencia, la frecuencia de hexanucleótidos, etc.

 

Estas últimas propiedades son aprovechadas por los programas de predicción de genes para hacer su trabajo. El acierto de este tipo de programas es alto si son utilizados correctamente.

 

El problema es mucho mas complicado para eucariotas, debido a la mayor complejidad de su estructura génica. Un gen en eucariotas está compuesto por exones (codificantes) e intrones (no codificantes). Diferentes combinaciones de exones pueden dar lugar a diferentes genes. Por tanto el problema en eucariotas es tanto la correcta predicción de la estructura intrón/exón como el ensamblaje de exones. Actualmente existen programas de predicción de genes en eucariotas, que serán el objeto de otra clase.

 

Una vez que los ORFs han sido predichos, el siguiente paso consiste en la asignación funcional. El modo usual de asignar las funciones a los ORFs es mediante la búsqueda de homología con otras proteínas, ya que si la similitud entre dos proteínas es alta, en la gran mayoría de los casos van a desempeñar la misma función y se puede transferir la anotación funcional de una a otra.

 

 


Información adicional sobre otras propiedades de la secuencia (predicciones de estructura, dominios conocidos, predicciones de localización subcelular, etc.) es de gran ayuda a la hora de asignar función o confirmar la asignación hecha por homología.

 


Pulsa en la figura para ampliarla

 

 

En la parte comparativa, se examinan las relaciones de los ORFs entre si y con los ORFs de otros genomas. Estas relaciones pueden ser de homología, ortología y paralogía. Dos ORFs son homólogos cuando poseen similitud entre si. Son ortólogos cuando esta similitud deriva de una ascendencia común (relación vertical) , y son parálogos cuando la similitud se produce dentro del mismo genoma por duplicación de un gen (relación horizontal). La siguiente figura pretende ilustrar estas relaciones.

 

Pulsa en la figura para ampliarla

 

La información de estas relaciones entre los ORFs de los genomas es el punto de partida para el estudio comparativo.

 

              SISTEMAS DE ANÁLISIS MASIVO DE GENOMAS

 

Supongamos que hemos secuenciado un genoma y conocemos ya los genes que contiene. ¿Como analizar nuestras secuencias?

La principal fuente de información para el análisis procede de búsquedas de homología frente a otras secuencias depositadas en las bases de datos. Otro tipo de información también puede ser de importancia: predicciones de estructura secundaria, de regiones transmembrana, presencia de motivos comunes a otras proteínas, etc.
Esta información la obtenemos usando herramientas de predicción. Pero cada herramienta tiene su propio servidor, utiliza un formato propio de los datos de entrada y salida, y en muchos casos no funcionan a través de Internet, sino que  se deben instalar localmente, con la complicación que esto puede representar.

Los sistemas de análisis de genomas están diseñados para eliminar esos problemas: poseen copias locales tanto de las herramientas como de las bases de datos, y agrupan el acceso a todas ellas, de modo que el usuario simplemente tiene que facilitarles la secuencia o secuencias que quiere analizar. El sistema se encarga de correr todos los programas y dar el formato adecuado a los datos para la presentación al usuario.
Como se puede suponer, los requerimientos de este tipo de sistemas son grandes: gran capacidad de almacenamiento y gran poder de cálculo (muchas secuencias pueden ser analizadas simultáneamente). Por ello, no han sido muchos los sistemas de este tipo que han sido desarrollados para el uso público.

 

· PEDANT

 

 

PEDANT es un completo sistema de análisis de genomas. Es un muy buen ejemplo de la información importante en todo análisis. Podemos explorar la anotación de varios genomas, tanto procariotas como eucariotas.

 

SI EL ACCESO ES LENTO:

 

Homepage

Vista de un genoma

Vista de un ORF

Parálogos

 

Por desgracia, PEDANT ni nos permite analizar nuestras propias secuencias, es decir, no es de uso público. El sistema de análisis mas completo de uso público es, sin duda, GeneQuiz en el European Bioinformatics Institute (EBI)

 

· GeneQuiz

 

 

 

GeneQuiz ofrece gran cantidad de genomas ya analizados, y que además son actualizados frecuentemente.

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Selección de un genoma

            Actualización de resultados

            Tabla de resultados

            Resultados para un ORF

            Alineamiento para un ORF

            New findings

            Entrada de datos

 

GeneQuiz nos ofrece la posibilidad de analizar nuestras propias secuencias. Para ello solo tenemos que introducir los datos en el formulario

 

 

 SERVIDORES Y BASES DE DATOS DE INFORMACIÓN GENÓMICA

 

 

Tras el análisis, la información de los genomas es almacenada en grandes bases de datos. Si el proyecto es público, estas bases de datos pueden ser consultadas a través de servidores web. A continuación realizaremos una visita a alguna de las mas relevantes.

 

 

· NCBI Genomes

 

 

 

El National Center for Biotechnology Information (NCBI) es uno de los sitios de referencia en cuanto al acceso a los datos de proyectos genoma, tanto los completados como los que están actualmente en desarrollo. Poseen información sobre genomas virales, procariotas y eucariotas, incluyendo el genoma humano, junto a gran número de herramientas y software de genómica. Haremos una breve visita a los genomas disponibles y a los datos almacenados para cada uno de ellos.

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Lista de proyectos

            Genomas microbianos completos

            Características del genoma

            Tabla de contenidos del genoma

            Distribución taxonómica de los ORFs

 

 

· TIGR Genomes

 

 

TIGR es el instituto que en 1995, bajo la dirección de Craig Venter, secuenció el primer genoma microbiano completo, el genoma de H.influenzae. Desde entonces han proseguido muy activamente la secuenciación, completando actualmente la cifra de 19 genomas microbianos, lo que les convierte en el principal contribuyente a la lista de genomas completos.

Han creado una base de datos con el nombre de CMR (Comprehensive Microbial Resource), donde almacenan no solo sus genomas sino también aquellos secuenciados por otras instituciones. Podemos ahora dar un breve vistazo a este servidor, mas tarde volveremos para conocer sus capacidades en genómica comparativa.

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Lista de genomas

            Selección de un genoma

            Visualización del genoma

            Información del ORF

            Alineamiento para el ORF

            Características del ORF

 

 

· ENSEMBL

 

 

A diferencia de las anteriores, esta base de datos no contiene diferentes genomas. Ensembl es un proyecto conjunto del EBI y del Sanger Center para almacenar y dar acceso a la información del proyecto público de secuenciación del genoma humano. El acceso a los datos del genoma humano presenta bastantes dificultades, debido en parte a la propia complejidad del genoma y en parte a la gran diversidad de fuentes de datos existentes, que son a menudo complementarias, muchas veces redundantes y en ocasiones contradictorias. Ensembl consigue organizar los datos en un esquema que permite la búsqueda de los datos de modo sencillo, con el complemento de una excelente guía del servidor para despejar dudas.

 

SI EL ACCESO ES LENTO:

 

            SiteMap

Homepage

            Vista de un cromosoma

            Detalle de una zona cromosómica

            Mapeo de enfermedades en el cromosoma

 

 

· WIT

 

 

WIT es el último servidor de genomas del que hablaremos. Aunque almacena información genómica similar a la ya vista, esta orientado a trabajar con datos de metabolismo. Desgraciadamente esta parte es mucho menos “visual”.

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Selección de datos

            Resultados de la selección

            Definición de la familia de un ORF (ortólogos+parálogos+homólogos)

            Alineamiento múltiple y filogenia

Características del ORF

 

 

SERVIDORES Y SISTEMAS PARA LA COMPARACIÓN DE GENOMAS

 

 

En esta parte de la clase accederemos a los servidores que nos permitirán comparar los datos que hemos visto hasta ahora, con el fin de obtener información diferente y nueva. Mientras que hasta ahora todos los datos que poseíamos han sido obtenidos a nivel genético (genes individuales), en este momento es posible obtener las primeras informaciones a nivel genómico (comparación de genomas completos). Si bien los hallazgos por estos métodos son aun limitados, esta es un área que multiplica su potencial con la disponibilidad creciente de nuevos datos.

 

La comparación de genomas puede utilizarse con éxito para descubrir funciones para orphans (ORFs de función desconocida), asi como para predecir relaciones e interacciones entre las proteínas codificadas por estos genes. Esto se lleva a cabo mediante el estudio de propiedades genómicas tales como la co-ocurrencia en genomas, sintenia o conservación del orden génico, fusión de genes, etc.

 

 Pulsa en la imagen para ampliar

 

Revisaremos ahora alguna de estas propiedades genómicas.

 

· Co-ocurrencia en genomas (phylogenetic profiling)

 

La idea aquí es que genes presentes en los mismos genomas tienen una alta probabilidad de estar relacionados.

Para examinar esta propiedad accederemos a los datos de COGs (Clusters of orthologous groups) en el NCBI.

 

COGs

 

Vamos a buscar relaciones para un gen microbiano determinado. Seleccionamos como ejemplo el gen dxr (1-deoxy-D-xylulose 5-phosphate reductoisomerase). Buscamos su patrón filogenético (genomas en los que está presente) e intentamos hallar aquellos genes que están presentes exactamente en los mismos genomas. Hallaremos asi algunos genes que son candidatos a tener una estrecha relación con dxr. Debemos estudiar si existe constancia de esta relación, por ejemplo en Ecocyc

 

SI EL ACCESO ES LENTO:

           

            COGs homepage

            Información sobre dxr

            Búsqueda con el perfil de dxr

            Genes candidatos a relación con dxr

            Estudio en Ecocyc

 

Podemos buscar el caso contrario, ejemplos de patrones filogenéticos opuestos, en los cuales los genes nunca aparecen juntos en el mismo genoma. Estos casos también pueden indicar relaciones entre los genes, la mayoría de las veces de complementación. Podemos hacer este ejercicio buscando el gen LysU (Lysyl-tRNA synthetase) en COGs. Si buscamos un patrón filogenético complementario, encontramos el gen LysS, otra Lysil-tRNA sintetasa presente solo en arqueas. Estamos ante un caso de desplazamiento no-ortólogo de genes.

 

SI EL ACCESO ES LENTO:

 

            Perfil de LysU

            Perfil de LysS

 

 

· Fusión génica (gene fusion)

 

Un evento de fusión génica (genes que están separados en un genoma pero que se funden en otro) significa casi invariablemente la existencia de una relación funcional directa entre las proteínas codificadas por dichos genes. Por desgracia no hay un modo directo de hacer este tipo de preguntas con las herramientas disponibles actualmente. Quizá la mejor forma de ver este tipo de casos es consultar Pfam, la base de datos de familias y dominios de proteínas. En ella podemos encontrar ejemplos de fusión de genes.

 

 

 

Ejemplos de fusión génica los vemos en la fusión de murC (udp-n-acetylmuramate--alanine ligase) con ddl (d-alanine--d-alanine ligase), genes separados en la mayoría de las especies. Una  consulta en Ecocyc nos ilustra la pertenencia de ambos genes a la misma ruta metabólica. El segundo ejemplo lo tenemos en la fusión de dhbp sintasa (ribB) con una GTP ciclohidrolasa (ribA).

 

SI EL ACCESO ES LENTO:

 

            Análisis de murC

            Análisis de ddl

            Pathway en Ecocyc

 

            Análisis de dhbp sintasa

            Análisis de GTP ciclohidrolasa

Pathway en Ecocyc

 

El grupo de C.Ouzounis en el EBI ha computado una lista de los casos conocidos de fusión génica. Podemos inspeccionarla aquí

 

SI EL ACCESO ES LENTO:

 

            Datos de fusión génica

 

 

· Conservación del orden génico (sintenia)

 

La conservación del orden de un grupo de genes entre varios genomas es una de las propiedades mas informativas para establecer relaciones entre las proteínas codificadas por los genes. Aunque la sintenia es una propiedad que se pierde con rapidez, entre genomas microbianos aparecen zonas conservadas que ponen de relevancia la existencia de relaciones funcionales entre las proteínas.

 

          

Pulsar en las figuras para ampliar

 

Existen herramientas que permiten alinear genomas entre si y ofrecer una visión de la sintenia entre los genomas. Un ejemplo es MUMmer, una herramienta de TIGR.

 

SI EL ACCESO ES LENTO:

           

            Resultados del alineamiento

 

Podemos encontrar herramientas que nos ofrecen el entorno local de un gen dado, y por tanto podemos hallar asi otros genes que aparecen sistemáticamente en su vecindad. Esto indica la posibilidad de una relación entre ambos. Esto lo podemos hacer en MGDB

 

 

Aquí podemos seleccionar un gen de interés en la lista de nombres e inspeccionar su entorno local en todos los genomas. Como esta base de datos (en Japón) suele ser muy lenta de consultar, los resultados de la búsqueda para el gen ftsA (división celular) se ofrecen a continuación:

 

            Búsqueda ftsA

            Cluster ftsA

 

Esta información puede encontrarla también en COGs, que además nos ofrece un cálculo de las funciones encontradas en el contexto del gen dado.

 

SI EL ACCESO ES LENTO:

 

            Resultados de la búsqueda en COGs del contexto de ftsA

 

 

· Reconstrucción del metabolismo

 

La información genómica de la que disponemos permite realizar un análisis de las capacidades metabólicas del organismo. Para facilitar esta tarea existen algunos servidores de reconstrucción del metabolismo, que almacenan las rutas metabólicas y reguladoras junto con las proteínas implicadas en cada una que han sido identificadas en diferentes organismos. Ya hemos visitado dos de ellos, ecocyc y WIT. Pero sin duda el servidor mas completo es el japonés KEGG.

 

 

 

En KEGG podemos hacer una gran cantidad de cosas: consultar la información sobre genomas individuales, examinar el metabolismo de una especie o un conjunto de ellas, introducir nuestros propios datos metabólicos o conocer si existe una ruta metabólica que una dos compuestos de interés para nosotros. El único problema de este servidor es que a veces es lento.

 

SI EL ACCESO ES LENTO:

 

            Homepage

            Selección de rutas metabólicas

            Glicólisis

            Entrada para una enzima glicolítica

            Entrada para un producto glicolítico

            La glicólisis en Pyrococcus abysii

            Enfermedades genéticas

            Sistemas de transporte en E.coli

            Secreción de proteínas

            Cálculo de rutas metabólicas: de glucosa a ribosa

 

 

 

RESUMEN DE SERVIDORES VISITADOS

 

 

 

GeneQuiz

 

 

 

 

 

 

COGs

 

 

 

 

GOLD

Ecocyc

 

 

 

 

OTROS SERVICIOS

 

 

 

BLAST, NCBI

ENTREZ, NCBI

 

 

SRS, EBI

EUCLID, ALMA

 

 

ORFFINDER, NCBI

Secuencia DNA problema

 

 

 

© ALMA Bioinformática, 2001                                                                                                                                 http://almabioinfo.com/