Download varios programas para el análisis de datos de secuenciación

Document related concepts

BLAST wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

Clustal wikipedia , lookup

Transcript
1
GUÍA RÁPIDA
DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS
FILOGENÉTICO DE RECURSOS GENÉTICOS,
BASADO EN LA COMPARACIÓN DE SECUENCIAS
DE ADN.
CASO PARTICULAR DE BACTERIAS.
Programas CHROMAS, DNA Star, EZ-TAXON, MEGA y CLUSTAL.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
2
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
3
I. LIMPIEZA DE LA SECUENCIA EN EL PROGRAMA CHROMAS.
1. ABRIR EL CROMATROGRAMA .
Pg. 5
Pg. 5
2. ELIMINAR LOS EXTREMOS EN LOS QUE LA IDENTIFICACIÓN DE
BASES NO ES FIABLE.
Pg. 6
3. VOLTEAR LA SECUENCIA “R” (REVERSA) Y OBTENER LA
COMPLEMENTARIA.
Pg. 8
II. OBTENCIÓN DE LA SECUENCIA CONSENSO O “CONTIG” CON EL
PROGRAMA DNASTAR
Pg. 9
1. OBTENER AUTOMÁTICAMENTE LA SECUENCIA CONSENSO CON EL
SUBPROGRAMA SEQMAN .
Pg. 9
2. ABRIR LA SECUENCIA CON EL PROGRAMA Edit Seq .
Pg. 16
III. IDENTIFICACIÓN DE LA BACTERIA PROBLEMA POR COMPARACIÓN DE
LA SECUENCIA DEL GEN 16S rRNA CON LA BASE DE DATOS EN LA QUE
FIGURA ESTA SECUENCIA PARA TODAS LAS BACERIAS TIPO,
DENOMINADA EZ-TAXON.
Pg. 18
IV. ANÁLISIS DE LAS RELACIONES FILOGENÉTICAS ENTRE UBC.
Pg. 20
1. REALIZAR EL ALINEAMIENTO MÚLTIPLE UTILIZANDO EL PROGRAMA
MEGA.
Pg. 21
2. CONSTRUIR EL ÁRBOL FILOGÉNÉTICO CON EL PROGRAMA MEGA.
Pg. 29
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
4
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
5
Básicamente la técnica consiste en comparar la secuencia de un determinado gen o espacio
intergénico, entre diferentes accesiones (UBC). Normalmente se compara la secuencia de una
o varias UBC problema contra la misma secuencia de accesiones depositadas en las bases de
datos.
En primer lugar hay que limpiar la secuencia, a continuación hacer el “contig” y finalmente
comparar la secuencia con las que están depositadas en las bases de datos, que es lo que se
denomina alineación.
Esta alineación puede tener una doble finalidad: (i) Por una parte puede tener como objetivo
identificar la UBC en estudio por comparación, dos a dos, con las secuencias depositadas en
las bases de datos. (ii) El segundo objetivo es realizar un estudio filogenético de la UBC. En
este caso se realizarán comparaciones múltiples (lo que se denomina alineamiento múltiple) de
la secuencia correspondiente a la UBC problema, con la misma secuencia en otras accesiones
que estén filogenéticamente próximas
El ejemplo que se presenta corresponde a la secuencia del gen 16S ADN de bacterias de suelo
I. LIMPIEZA DE LA SECUENCIA EN EL PROGRAMA CHROMAS.
1. ABRIR EL CROMATROGRAMA .
La extensión del cromatograma debe ser *.abi, *.ab1, *.scf, o *.esd.
Para observar el cromatograma, no solamente la secuencia en forma de texto, debe pulsarse
el icono señalado en la figura.

Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
6
2. ELIMINAR LOS EXTREMOS EN LOS QUE LA IDENTIFICACIÓN DE BASES NO
ES FIABLE.
Es necesario realizar este proceso en ambos extremos.
En el extremo izquierdo se selecciona con el ratón, la base a partir de la cual la secuencia es
aceptable (leyendo de izquierda a derecha), y en el menú “Edit” se elige la opción “Set Left
Cutoff”, con lo que la secuencia situada a la izquierda de dicha base queda resaltada en
amarillo para su posterior eliminación.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
7
En el extremo derecho se selecciona con el ratón, la base a partir de la cual la secuencia
NO es aceptable (leyendo de izquierda a derecha), y en el menú “Edit” se elige la opción
“Set Right Cutoff”, con lo que la secuencia situada a la derecha de dicha base queda
resaltada en amarillo para su posterior eliminación.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
8
Para hacer efectivo el corte, dentro del menú “Edit” se pulsa “Delete Cutoff Sequences”, con
lo que desaparece la secuencia pero no el cromatograma.
A continuación se graba la secuencia con el mismo nombre que tenía, pero añadiendo algún
sufijo para identificar que corresponde a la secuencia corregida.
IMPORTANTE: Esta tarea debe realizarse con las secuencias “F” y “R” de cada gen
amplificado en cada UBC.
3. VOLTEAR LA SECUENCIA “R” (REVERSA) Y OBTENER LA COMPLEMENTARIA.
¡¡Importante!! Esto solo se hace con la secuencia R.
Una vez realizado el paso 2 para la secuencia R, antes de guardarla, es necesario voltear esta
secuencia y obtener la complementaria, para poder unirla a la anterior y obtener la secuencia
consenso o “contig” en un paso posterior.
Para ello, en el apartado “Edit” se pulsa “Reverse+Complement” y posteriormente se procede a
guardar el archivo, mediante el mismo proceso explicado en el paso 2.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
9
II. OBTENCIÓN DE LA SECUENCIA CONSENSO O “CONTIG” CON EL
PROGRAMA DNASTAR
En el apartado I se ha explicado como limpiar y acondicionar las secuencias “F” y “R” de cada
gen amplificado para cada UBC. En este apartado se va a explicar como unirlas (mediante la zona
de solape) para obtener la secuencia consenso o “Contig”.
1. OBTENER AUTOMÁTICAMENTE LA SECUENCIA CONSENSO CON EL
SUBPROGRAMA SEQMAN .
Abrir el programa SEQMAN y en el menú “File” seleccionar “New”, lo que abre un nuevo
proyecto.
Inmediatamente se abre una ventana, que debe cerrarse con la opción “Skip”. Al cerrar esta nueva
ventana se abre otra en la que se empieza a trabajar.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
10
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
11
En esta nueva ventana se pulsa la “Add Sequences”
Alternativa: otra manera de llegar a la pantalla anterior es, desde la pantalla de inicio, pulsar en el
menú principal “Sequence” y luego “Add”
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
Para poder recuperar los archivos corregidos con el programa Chormas es necesario señalar
como “Tipo” de archivos: “Abi Trace Files w/o Extension(*.*,*.abi,*.ab1)
Se seleccionan los dos archivos “F” y “R” de una misma accesión, se añaden con “Add” y luego se
pulsa “Done”
1º
2º
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
12
Antes de realizar el análisis es preciso cambiar algunos parámetros. Para acceder a ellos se
pulsa “Project” en el menú principal y luego en “Parameters”
En la siguiente figura se indican los
parámetros a modificar:
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
13
14
Posteriormente se presiona “Assemble” y se obtiene en la ventan de la derecha la secuencia
consenso o “Contig”.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
Pulsando dos veces en “Contig” en la ventana de la derecha, aparece una nueva ventana con la
secuencia consenso o contig.
15
Pulsando la opción “Find conflict” del menú desplegable “Edit” el programa resalta en rojo los
conflictos detectados en la zona de solape del “contig”. Luego se corrigen a mano cada uno de ellos,
tomando la decisión que parezca la más adecuada.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
16
El último paso es guardar la secuencia consenso o “contig”, lo que se hace desde la opción
“Contig” del menú principal, en la opción “Save Consensus” y “Single File”.
Debe guardarse con dos extensiones diferentes:
• Como el archivo propio del programa (Lasergene DNA file (*.seq)
• Como archivo FastA (*.fas), para trabajar posteriormente en MEGA





2. ABRIR LA SECUENCIA CON EL PROGRAMA Edit Seq .
Para abrir la secuencia, hay que hacerlo en otro subprograma del programa “DNA Star” que es
Edit Seq.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
17
En el menú principal, se pulsa “File” y a continuación en el desplegable que se abre “Open”.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
18
Para seguir trabajando con una nueva secuencia, primero se cierra con doble click del botón
izquierdo del ratón ese “contig”, para empezar a trabajar en uno nuevo. Luego se siguen los pasos
indicados en recuadro de la página 11.
cerrado
abierto
III. IDENTIFICACIÓN DE LA BACTERIA PROBLEMA POR
COMPARACIÓN DE LA SECUENCIA DEL GEN 16S rRNA CON LA BASE
DE DATOS EN LA QUE FIGURA ESTA SECUENCIA PARA TODAS LAS
BACERIAS TIPO, DENOMINADA EZ-TAXON.
En el caso de haber trabajado con bacterias, lo más probable es que se haya secuenciado el gen 16S
rRNA, en el que se basa la taxonomía. La identificación consiste en la comparación de dicha
secuencia en la bacteria problema, con la secuencia de esa mismo gen para otras bacterias incluidas
en la base de datos ez-taxon, que aloja la secuencia del gen 16S rRNA para todas las cepas tipo.
Se trabaja online, en la dirección web www.ezbiocloud.net/
Para tener acceso es necesario registrarse como usuario.
Una vez realizado el registro y el acceso, para proceder a identificar la UBC problema se accede en
el menú de la izquierda a la opción “Identify”.
A continuación se introduce el nombre asignado a la UBC en estudio y la secuencia consenso o
“contig” que se ha obtenido con el programa Seq Man, para lo que es suficiente copiarla del Edit
Seq (página 17) y pegarla en la casilla correspondiente del ez-taxon. Para proceder a la
identificación se pulsa el botón “Identify”.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
19
1º
2º
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
20
El resultado informa sobre la identidad de la bacteria depositada en la base de datos, que mayor
similitud presenta con la bacteria problema, indicando el porcentaje de dicha similitud y el % de la
secuencia que ha sido comparada.
La página de resultados conserva la información de todas las identificaciones realizadas
IV. ANÁLISIS DE LAS RELACIONES FILOGENÉTICAS ENTRE UBC.
Se trabaja normalmente con varios programas.
BLAST (Basic Local Alignment Search Tool) es una base de datos del NCBI (National Center for
Biotechnology Information – USA), que permite comparar en tiempo real una determinada
secuencia con todas las depositadas en dicha base de datos, indicando al mismo tiempo el grado de
similitud. Por tanto realiza una tarea similar a la de EzTaxon
MEGA. Se trata de un programa para realizar alineamiento múltiples y árboles filogenéticos. Para
los alineamientos múltiples recurre a otro programa que es el de mayor difusión para realizar esta
tarea, que es CLUSTAL, concretamente la versión CLUSTALW que es la versión que opera online.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
21
1. REALIZAR EL ALINEAMIENTO MÚLTIPLE UTILIZANDO EL PROGRAMA
MEGA.
En primer lugar hay que abrir un nuevo archivo pulsando la techa “Align” y luego en el
desplegable que se abre “Edit/Build Alignment”.
Sucesivamente aparecen dos avisos a los que hay que responder, según se indica en las
siguientes figuras, y a continuación se abre una nueva pantalla, en la que se añaden las
secuencias que vayan a ser sometidas a un alineamiento múltiple.


Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
22
1.1. En primer lugar se añaden las secuencias consenso o “contig” de las UBC problema (en el
apartado II se ha explicado como se obtiene el “contig”) , presionado la tecla que se señala en la
figura. Lo que se añade son archivos en formato FASTA, pues este fue uno de los formatos en
los que se guardó la secuencia consenso o “contig” en el SeqMan, para poder incorporarlos al
MEGA.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
23
Se pueden añadir todas las secuencias a la vez o de una en una. Es posible que el programa
no traslade correctamente el nombre de la UBC, por lo que habrá que corregirla a mano. Esto
es especialmente importante, si se añaden todas las secuencias a la vez.
1.2. A continuación se añadirán las secuencias correspondientes a las UBC procedentes de las
bases de datos. Una opción es importarlas de la base de datos BLAST.
Presionando en la tecla que se señala en la figura, el programa redirecciona a dicha base de
datos, abriéndose una nueva ventana.


En esa nueva ventana se incluye el número de Locus en el Genebank de la secuencia que
queramos recuperar y señalamos que se trata de una base de datos de nucleótidos (ver
figura). Para ejecutar la búsqueda se pulsa la tecla BLAST que aparece al final de la pantalla.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
24
El proceso de búsqueda se realiza online y tarda un cierto tiempo, al final se obtiene una pantalla como
la que aparece en la figura.
En esta pantalla aparece toda la información que guarda la base de datos BLAST sobre la UBC de la
que se ha solicitado información, e indica cuales son los organismos más similares en lo que respecta a
la secuencia del gen analizado (para verlo desplazar hacia abajo la ventana que se ha abierto).
Para obtener la secuencia es preciso presionar sobre “Query ID”, obteniéndose la información que se
observa en la figura siguiente, en la que como puede apreciarse está la secuencia del gen 16S rRNA tal
como se depositó en la base de datos BLAST.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
25
A continuación se incorpora esta información en el programa MEGA. Para ello primero se
presiona en “Display Settings” y se señala como tipo de formato “FASTA (text)” y luego se
presiona “Add To Alignment” con lo que automáticamente se incorpora a MEGA:
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
26
Nota: Si se está trabajando con ez-taxon, otra manera de incorporar las secuencias de las
bacterias procedentes de dicha base de datos, es guardar la información de la accesión y la
secuencia en formato FASTA (existe una opción que así lo permite en el ez-taxon). Una vez
que se dispone de las secuencias en formato FASTA, la introducción en el MEGA se realizará
por el mismo procedimiento indicado en la pág. 22.
Una vez que se dispone de todas las secuencias que se quieren alinear en el “Alignment
Explorer” (ver Figura), el siguiente paso es seleccionarlas, lo que se ejecuta entrando en el
menú desplegable “Edit” y seleccionado la opción “Select All” si se quieren utilizar todas
ellas en el alineamiento.
El alineamiento se realiza con Clustal W, pero esto puede hacerse directamente desde el
programa MEGA, para lo que se entra en el menú desplegable “Aligment” y se selecciona la
opción “Align by ClustalW”.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
27
Aparece una pantalla en la que se pueden seleccionar algunos parámetros

Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
28
De esta manera se obtiene el resultado del alineamiento múltiple.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
Es necesario guardar el archivo resultante del alineamiento múltiple para posteriormente poder 29
realizar un árbol filogenético. Para ello hay que recurrir a exportarlo, opción que se encuentra
dentro del menú desplegable “Data”, y dentro de él “Export Alignment”. Es necesario elegir el
formato. Si se va a seguir trabajando en el programa MEGA, la opción mejor es “MEGA Format”
2. CONSTRUIR EL ÁRBOL FILOGÉNÉTICO CON EL PROGRAMA MEGA.
En la página de inicio del programa MEGA se pulsa en la tecla “Phylogeny” con lo que se abre un
menú desplegable, en el que debe elegirse el procedimiento para el cálculo de árbol filogenético.

Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
30
Se abre una nueva ventana en la que el programa pide que introduzcamos el archivo a
analizar, que es el de alineamiento múltiple obtenido según se ha explicado en el apartado
anterior
Una vez recuperado dicho archivo, se abra una nueva ventana, en la que hay que pulsar el botón
“Compute” para realizar el análisis.
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.
31
El resultado se presenta en una nueva ventana, en la que existen varias opciones para
trabajar con este árbol
Curso Intensivo de Postgrado. UACH. México. 2014.
Fernando González Andrés.