Download Desarrollo_Bioinformatica y Secuenciacion

Document related concepts

Marcador de secuencia expresada wikipedia , lookup

Método de Sanger wikipedia , lookup

Secuenciación del ADN wikipedia , lookup

Partidor wikipedia , lookup

BLAST wikipedia , lookup

Transcript
Universidad de Puerto Rico en Aguadilla
Departamento de Ciencias Narturales
Biol. 3030 – Lab. Biología del Desarrollo
Ejercicio 9 – Bioinformática y Secuenciación
Bioinformática
Bioinformactica es un nuevo campo de la biotecnología que se ocupa en el almacenamiento y la manipulación de
secuencias de información de DNA de las cuales se puede obtener información biológica útil. Casi rutinariamente,
datos del análisis de secuencias de DNA son sometidos a una base de datos usando la internet (WWW) para identificar
genes o productos de genes.
Secuenciación
Para el análisis de una secuencia se realizan cuatro reacciones enzimáticas por separado, una por cada nucleótido.
Cada reacción contiene la DNA polimerasa, el templado de cadena sencilla que se quiere secuenciar, un iniciador
(primer) que se le unirá, los cuatro nucleótidos trifosfatados, y alguno de os deoxinucleotidos marcado radioactivamente
como [32]P-ATP y el amortiguador apropiado. Las reacciones contienen los dideoxitrifosfatados como sigue: la de G
contiene dideoxiGTP, la de C dideoxiCTP, la de A dideoxiATP y la de G dideoxiGTP. Las concentraciones de estos son
ajustadas para que sean incorporadas a la cadena creciente al azar y con baja frecuencia.
Una vez el dideoxi es incorporado, la Síntesis de DNA
detiene porque esta base esta modificada de manera
tiene el 3’OH necesario para la adición del próximo
nucleótido a la azúcar. La incorporación de este
dideoxinucloeotido facilita la generación de fragmentos
de fragmentos y asi determinar la ubicación de los
nucleótidos en el DNA. Una reacción contendrá millones
cadenas crecientes y por lo tanto grupos de fragmentos
de fragmentos. Cada fragmento terminado en una
posición distinta correspondiente al la incorporación al
dideoxiNTP.
Como un ejemplo de estos fragmentos dentro de
fragmentos producidos por una reacción hipotética de G
pedazo de DNA contiene:
- dATP, dTTP, dCTP, dGTP y [32]P-ddGTP
- DNA pol y amortiguador
- Templado de DNA,
La reacción generara fragmentos todos terminados en
radioactivo de distintos tamaños, (Figura 1) unos dentro
que son complementarios a la secuencia que usted
secuenciar. Fragmentos similares se obtendrán para
ddNTP en sus respectivas reacciones.
se
que no
dentro
de
dentro
azar del
Figura 1. Ejemplo de reacción dideoxyGTP con
fragmentos generados
de
un
ddGTP
de otros
quiere
cada
Es obvio que juntos todos los fragmentos generados por las reacciones dideoxi G, A, T , C agrupados contendrán
fragmentos
de
todos
los
tamaños sucesivos de todos los
nucleótidos para la secuencia
de la figura 2
Figura 2 – Representación
grafica de una autoradio-grafía
electroforesis separando los
fragmentos generados. La figura
muestra la reacción G que
contiene los fragmentos de 21,
23, 25, 29, 31nucleotidos de
longitud. Diez y siete de ellos
son parte del primer y el resto
son añadidos durante la síntesis
de novo.
1
Los productos de las reacciones G, A, T, y C son separados en una gel de PAGE vertical. En el carril 1 esta la reacción
G y en el 2 la de A y así sucesivamente. Es importante notar que la cadena siendo secuenciada tendrá las bases
opuestas a las que se leen. Por ejemplo la reacción G en el tubo identificara las C en el templado siendo secuenciado.
Luego de la electroforesis se realiza una autoradiografia colocando la gel sobre una película de rayos X. Como los
fragmentos emiten radioactividad su posición se podrá detectar como bandas oscuras en la película. Además de
isotopos de fosforo también se pueden usar métodos no isotópicos sino fluorescentes y secuenciadores automatizados
que ya reemplazan los isotópicos.
Una gel tendrá varios grupos de reacciones de secuenciación GATC. En la figura 2 las bandas oscuras representan las
bandas producidas por la radioactividad emitida por cada fragmento que donde termina la síntesis con la base dideoxi
correspondiente. La secuencia deducida del autoradiograma es la complementaria al DNA usado como templado. Este
método de secuenciación se conoce como Sanger.
Los datos de la secuenciación de DNA tiene usos limitado a menos que se pueda convertir en información biológica
útil. Bioinformática es el componente critico de la secuenciación porque se involucra en unir la tecnología
computacional con la biotecnología. El uso diseminado del internet ha hecho posible la adquisición con relativa facilidad
de información de distintos proyectos de genomas. En un análisis típico, como primer paso, luego de obtener la data de
secuenciación de DNA, el biólogo molecular buscara similaridades de DNA usando varias bases de datos en el WWW.
Esta búsqueda lo dirigirá a la identificación de DNA secuenciado o a identificar su relación con genes relacionados.
Las regiones codificantes para proteínas pueden ser identificadas fácilmente por la composición de nucleótidos. Asi
mismo las regiones no codificantes se pueden identificar por la interrupción debido a codones de terminación. El
significado funcional de las nuevas secuencias de DNA seguirá en aumento y será cada vez mas importante según se
continúe generando mas y mas información y generándose mas y mejores motores de búsqueda.
Ejercicio practico:
Introducción
En este momentos varios grupos de investigación alrededor del mundo están inmersos en la determinación de la
secuencia del genoma humano. Avances en la secuenciación del DNA y en la bioinformática hace y hará posible que
esta información se pueda usar como una herramienta de diagnostico clínico. Es de notar que varios genomas mas
pequeños como el de Sacharomyces cerevisiae y Helicobacter pilori ya están completos.
El propósito de este ejercicio es introducir al estudiante a la bioinformática. Para que se obtenga experiencia en la
búsqueda en bases de datos, los estudiantes utilizaran servicios gratuitos ya ofrecidos por el NCBI y que se puede
acceder a través del WWW. Al presente ya hay varios de estos como GenBank, secuencias de nucleótidos en EMBL,
las traducciones de los CDS no redundantes de GenBank (secuencias de proteínas). Los estudiantes pueden usar
cualquiera de estas bases de datos asi como otras disponibles en el internet para este ejercicio. Para simplificar se
ilustrara el uso del NCBI. Estos ejercicios involucran el uso de BLASTN para comparar secuencias de nucleótidos y
BLASTP para secuencias de aminoácidos en las bases de datos.
1. Google  NCBI  National Center for Biotechnology
2. Aparece lo siguiente - esta es la pagina de entrada del NCBI.
3.
4. Escoges sequence analysis y en la pagina que aparece bajas y escoges Basic Local Aligment Search Tool
(BLAST).
2
5. Al llegar a la siguiente escoges nucleotide blast. Además de este hay otras opciones pero son para nosotros lo
que nos interesa es para secuencias de nucleótidos.
6. bajo nucleotide blast, click en el standard nucleotide-nucleotide BLAST (blastn). Las otras opciones son mas
complicadas para aplicaciones especificas. Aquí hay tres secciones:
- enter query sequence
- choose search set
- program selection
7. Para comenzar a entrar la secuencia escribe lo siguiente exactamente: atgcccggccccccaggggggcagaggcgccgc.
Puede ser minúscula o mayúsculas. Una vez escrita la secuencia, click en el Blast .
3
8. A veces el servidor esta ocupado y los resultados tardan, solo hay que tratar de nuevo. A continuación hay un
ejemplo de cómo se pueden esperar los resultados>
Al observar el reporte del Blastn nuestra secuencia presenta un pareo mejor con la proteína efectora CD42 humana.
Esta fue la que obtuvo la mayor puntuación. Revisión de las dos secuencias alineadas muestra que nuestra secuencia
de 32 nucleótidos es idéntica al segmento de nucleótido de CDC42. Como regla general, una identidad de nucleótidos
de mas de 21 pb entre dos muestras indica usualmente que las secuencias están relacionadas. Excepción los poli A.
Ejercicio 1:
Para familiarizarse con las autoradiografias lea la secuencia #1.
comience en la flecha y léala desde abajo por los primeros 20 nucleótidos. Regístrela y sométala al
NCBI con blastn.
Comiéncela de nuevo pero léala hasta cubrir 30 nucleótidos. Registre, sométala usando blastn.
La secuencia se puede introducir directamente o leer, pasarla a un papel y luego al programa.
Es critico que usted no confunda los carriles mientras lee. La gel contiene carriles para A, C, G T
de izquierda a derecha.
Leer secuencias implica leer desde 53, esto se consigue de abajo hacia arriba.
Note que la mayor parte del espacio entre nucleótidos y la intensidad de las bandas es
básicamente similar. Ignore las bandas pálidas y escoja las oscuras.
Resultados para muestra 1:
cuales son los nombres de los genes?
A cuales especies pertenecen los genes?
Ejercicio 2
Ahora que estas familiarizado con la búsqueda por blast, lea la secuencia para la autoradiografia 2. Si hay duda en
cuales bandas escoger, use su juicio.
Ahora Lea la secuencia, comenzando unos 6 cm mas arriba del comienzo. Debe leer como sigue
4
5’…ggacgacggtatggaatagagaggaagttcct..3’
-
Someta la secuencia usando blasn
Recuerde que la secuencia se introduce 53
El DNA es DS y contiene hebra superior 53 y la inferior 35. Algunas veces estas corresponden
a la hebra codificante y no codificante.
Si hay duda de las posiciones exactas con bandas exactas, use una N que significa que puede ser
cualquier nucleótido.
Una vez se reciba los resultados, baje y busque
Cual es el nombre del gen?
Compárela con la secuencia del genbank, cual hebra usted leyó?
Ejercicio 3.
Las secuencias se pueden acceder buscando en el GenBank por su numero de acceso.
La información mostrada describe la secuencia del DNA y o el gen, los científicos que
contribuyeron y cierta información como la proteína y la secuencia de aminoácido para el cual codifica.
Resultados para la muestra 3:
Cual es el nombre del gen?
Aproximadamente cuantos aminoácidos tiene este gen?
Ejercicio 4
Esta sección demuestra la interacción de dos proteínas codificadas por dos genes. Las
interacciones proteína a proteína juegan un rol importante en virtualmente todos los procesos celulares.:
Transducción de señal
Lea la secuencia de DNA de la muestra 4. Comience desde abajo y registre la secuencia
Luego comience 1/3 de la secuencia mas arriba y lea la secuencia desde ahí.
Someta cada secuencia por separado usando Blastn
Resultados de la muestra 4:
esta muestra contiene dos secuencias de DNA, Cuales son los nombres de los genes?
Cuales son las funciones de las dos proteínas codificadas?
Como estas proteínas interactúan en una célula?
Parte II – Secuenciación:
Aunque la secuenciación del DNA existe desde los tempranos 1970, no fue hasta los 90s que el proceso completo fue
automatizado. En particular la automatización por secuenciadores de DNA analiza rápida y eficientemente reacciones
de secuenciación en un secuenciador de un solo carril donde corren todas las reacciones dideoxi con fluorocromos
fluorescentes. De esta forma se pensaba secuenciar el genoma humano para el 2002, pero se logro terminar para el
2006.
El proyecto del genoma human pretendía determinar la localización de los 80-100000 genes del genoma humano. La
combinación de la secuenciación y la bioinformática crearía una herramienta muy útil para el diagnostico clínico.
La revolución genética continuara generando nuevos descubrimientos. Mientras los científicos siguen identificando
genes que causan enfermedades o diferencias fenotípicas hay un peligro creciente de ver los seres humanos como
meramente un conjunto de genes. Entendiendo lo ético, legal, y social con sus implicaciones en el conocimiento
genético y en el desarrollo de pólizas y opciones para la consideración publica. Por ejemplo los desordenes
psiquiátricos que se están tratando de caracterizar científicamente como esquizofrenia, la inteligencia y la conducta
criminal en términos de genes. La ética detrás del monitoreo prenatal para enfermedades en embriones humanos
Los datos determinados por el lector laser es enviados a la por los robots es impresa a colores con picos para cada
color:
Ejercicio 1:
Ahora que estas familiarizados en la entrada de datos, lea el análisis de la secuencia del secuenciador automático 1, 2,
3, (cualquier carril).
5
Se le proveerán ejemplos de los reportes de un secuenciador automático. Note los colores de los picos que son verdes,
azules, negros y rojos, cada uno especificando un nucleótido, (A, C, G, y T, respectivamente). Para la secuencia que se
le proveyó:
lea la secuencia de DNA de uno de las hojas impresas
Identifique la secuencia de nucleótidos de este análisis de gel (100-200)
Escriba aproximadamente 70 bases en la caja de búsqueda usand blastn de NCBI.
Usando blastn busque la base de datos NR, identifique el gen que esta secuencia identifica
Pueden variar los nombres
La secuencia es siempre entrada 53
DNA es cadena doble, y pueden ser codificante o no codificante la cadena que se lee.
Cual es el nombre del gen?
Comparado al genBank, cual es la cadena que usted leyó?
Ejercicio # 2
-
Las secuencias se pueden acceder usando el numero de acceso de GenBank
La información mostrada describe la secuencia de DNA y el gene, los científicos e información de
la proteína y los aminoácidos para los cuales codifica
Intercambien el documento del secuenciador con otro grupo
Someta la secuencia a un análisis blast.
Referencias:
NCBI – National Center for Biotechnology Information
CSHL – Cold Spring Harbor Laboratory – Animations
6