Download Genes of class II
Document related concepts
no text concepts found
Transcript
Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos y aproximaciones estadísticas para su análisis Descripción de programas existentes BLAST (Comparación apareada de secuencias) MEME/MAST (Identificación de motivos sobre-representados) Planteamiento de problemas para resolver 1. 2. 3. 4. 5. 6. Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis Predicción de operones bacterianos En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes. Predicción de operones bacterianos Los métodos más comúnmente utilizados para predecir operones se basan en: Dirección de la transcripción de los genes Distancias intergénicas. Otros parámetros importantes en la predicción de operones bacterianos son: 1. 2. 3. 4. Relación funcional de los genes Co-ocurrencia de genes en genomas Vecindad genómica Co-expresividad The STRING database http://string.embl.de/ Fusión de genes y predicción de operones Vecindad genómica y predicción de operones Co-ocurrencia de genes proteicos y predicción de operones Conocimiento publicado y predicción de operones Datos de complejos proteicos y predicción de operones T Coeficientes de interacción von Mering et al., Nucleic Acids Research, 2005 COG0147Anthranilate/para-aminobenzoate synthases component I Saccharomyces cerevisiae exosome complex Coeficientes de interacción COG.links.v7.1.txt COG0001 COG0002 296 COG0001 COG0006 217 COG0001 COG0007 770 COG0001 COG0008 168 COG0001 COG0009 168 COG0001 COG0012 168 COG0001 COG0013 168 COG0001 COG0014 209 COG0001 COG0016 168 COG0001 COG0017 173 COG0001 COG0020 317 COG0001 COG0026 175 COG0001 COG0028 278 COG0001 COG0029 165 COG0001 COG0035 173 COG0001 COG0037 217 COG0001 COG0038 524 Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK OrganismoB Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN OrganismoA dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK OrganismoB Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN OrganismoA dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK OrganismoB Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño. COGs. Cluster of Orthologous Groups of Proteins SCIENCE. VOL. 278: 631-637 COGs. Cluster of Orthologous Groups of Proteins No hay línea porque son parálogos Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - Predicción de operones bacterianos Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST Subrutina de lectura de datos COG.links campos <- split(registro de archivo) COG1 <- campo 0 COG2 <- campo 1 indice <- campo 2 ¿Es indice > 500? SI indice_COGs {COG1} {COG2} <- indice Para cada renglon del archivo COG.links Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - Subrutina Distancias intergenicas # gene CDS CDS CDS CDS CDS CDS CDS CDS CDS CDS CDS 190 thrL strand F F F F F R R F F R R GI 16127995 16127996 16127997 16127998 16127999 16128000 16128001 16128002 16128003 16128004 16128005 common thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 2801 3733 thrA 337 255 position 190..255 337..2799 2801..3733 3734..5020 5234..5530 5683..6459 6529..7959 8238..9191 9306..9893 9928..10494 10643..11356 thrB 2799 337 Distancia intergenica 337-255=82 pb thrC 3734 yaaX 5020 yaaA yaaJ talB mog yaaH yaaW Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) gi <- campo 3 (inicio{gi},final{gi}) <- split(campo 2) cog{gi} <- campo 9 strand{gi} <- campo 2 gene{gi} <- campo 4 Lectura del primer registro (condición borde inicial) gi_anterior <- gi Proceso cíclico de lectura y análisis de los demás registros Subrutina de lectura de datos SUPERLIST gi <- campo 3 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} cog{gi} <- campo 9 indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} strand{gi} <- campo 2 gene{gi} <- campo 4 strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 or dist_inter{gi} < 100 SI gi_anterior <- gi Para cada renglon del archivo SUPERLIST campos <- split(registro de archivo) gi and gi_anterior pertenecen al mismo operon Predicción de operones bacterianos http://www.microbesonline.org/operons/OperonList.html Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ? G_1 14146 14147 14148 14149 14151 14153 14155 14159 14160 G_2 14147 14148 14149 14150 14152 14154 14156 14160 14161 Bnum1 Bnum2 b0001 b0002 b0002 b0003 b0003 b0004 b0004 b0005 b0006 b0007 b0008 b0009 b0010 b0011 b0014 b0015 b0015 b0016 Ge1 Ge2 thrL thrA thrA thrB thrB thrC thrC yaaX yaaA yaaJ talB mog yaaH yaaW dnaK dnaJ dnaJ insL-1 Bop FALSE TRUE TRUE FALSE TRUE FALSE FALSE TRUE FALSE pOp 0.115 0.998 0.999 0.088 0.675 0.31 0.309 0.989 0.139 CAI and the most biased genes Zinovyev Andrei Institut des Hautes Études Scientifiques El código genético estándar exhibe redundancia Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. Los patrones del uso de codones varían extensamente en y entre la especie El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción Uso Preferencial de Codones en E. coli Overall codon usage Highly expressed genes Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos Relación de CAI y traducibilidad Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos Relación de CAI y el contenido de GC en la tercera posición del codon Estudio cuantitativo del Uso Preferencial de Codones Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento I III II IV Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento: Bacillus subtilis Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote complejo: Caenorhabditis elegans Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) UPC en Organismo bacteriano de lento crecimiento: Helicobacter pylori Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) UPC en Organismo bacteriano de lento crecimiento: Borrelia burgdorferi Leading strand Lagging strand Bias dominante dependiente de la cadena de replicación Fuentes de heterogenicidad de secuenicia Hidrofobicidad Presión evolutiva (bias traduccional) Transferencia horizontal de genes Diferentes contenidos GC(AT) Dirección de cadena Métricas del uso preferencial de codones Relative Synonymous Codon Usage RSCU i fi 1 Nj f k 1.. N j k Relative Codon Adaptiveness [0..1] fi wi max{ f j , all synonyms for i } Grupo de referencia de proteínas altamente expresadas Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana … Codon Adaptaion Index (CAI) Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia fi fi – frequency of codon i, wi max{ f j , all synonyms for i } calculated over reference set S L L – number of all codons CAI ( gene ) L wi in a gene i 1 gi – frequency of codon i 64 in a gene ln CAI ( gene ) g ln w ln w i 1 i i i gene CAI = exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687 6+3+3+2+8 Codon Codon_Nu RSCU W Gene X UUU(Phe) 78743 1.1636839 1.0000000 6 UUC(Phe) 56591 0.8363161 0.7186798 3 UUA(Leu) 51320 0.8561943 0.2698037 0 UUG(Leu) 45581 0.760448 0.2696937 0 CUU(Leu) 42704 0.7124497 0.2528585 3 CUC(Leu) 35873 0.5984851 0.2124108 2 CUA(Leu) 15275 0.2548396 0.0904462 0 CUG(Leu) 16885 2.8175832 1.0000000 8 Valores de CAI para E. coli y levadura Distribución de valores de CAI en genes de E. coli y levadura Algoritmo para detectar genes con Bias en su CAI 1. 2. 3. 4. Calcular wi considerando el 100% genes, y el CAI para todos los genes Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs Repetir hasta seleccionar el 1% de los genes Ejemplo: Bacillus subtilis Desempeño del algoritmo en organismos de rápido crecimiento Reference set Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio Identificación de genes transferidos horizontalmente 2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds Identificación de genes transferidos horizontalmente 3.- Buscar la intersección de genes seleccionados por CAI y GC Genes Genes Genes transferidos identificados identificados horizontalmente por GC% por CAI Planteamiento de problemas para resolver 1. 2. 3. 4. 5. 6. Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis