Download 2º Seminario
Document related concepts
Transcript
19/04/2013 Mapeo genético de enfermedades complejas 2º Seminario Análisis Genético 3º Grado en Biología Polimorfismos de un sólo nucleótido: SNPs (del inglés Single Nucleotide Polymorphisms) Sitios del genoma donde existen al menos dos bases alternativas (A, G, C, T) SNP bialélico TT TG GG Es el tipo más común de variación en el genoma (aprox. 40 millones)‐ media de 1 cada 10‐30 pb Inserciones/deleciones bialélicas de cualquier índole (n bases) = SNPs ≠ STRs Frecuencia del alelo raro (MAF) = 1‐freq. alelo común (en bialélicos) 1 19/04/2013 SNPs, eventos únicos evento de mutación t n generaciones Frecuencia actual Repeticiones cortas en tándem o microsatélites (STRs, del inglés Short Tandem Repeats) Secuencias cortas de 2‐5 bp/ Menos frecuentes en el genoma (unos 30K) Más variables que los SNPs (multialélicos); diversidad número de repeticiones (AATG)n 7 repeticiones 8 repeticiones Heterocigoto: 7/8 (los alelos pueden distinguirse por el tamaño del fragmento amplificado) Homocigoto: 8/8; 7/7;….. (ambos alelos son de la misma longitud) ….3 alelos = 6 genotipos ….4 alelos = 10 genotipos X+2‐1 CRx,2 = = 2 (x+2‐1)! 2!(x‐1)! X = número de alelos 2 19/04/2013 Los conceptos Polimorfismos de un solo nucleótido (SNP) como unidad básica para el mapeo de enfermedades comunes Estructuración de caracteres en las poblaciones humanas Haplotipos, desequilibrio de ligamiento y recombinación Estrategias de mapeo génico en enfermedades mendelianas y complejas Asociando nuestro genoma al completo: tagging SNPs, el proyecto HapMap y genotipado masivo Estructuración de caracteres en poblaciones 3 19/04/2013 Estructuración poblacional de la variación génica La variación génica está estructurada en nuestras poblaciones: 377 STRs en 52 poblaciones humanas 4‐5 grupos de población (continentes) Oceania Africa Europe Central Asia East Asia Middle East America 300.000 SNPs en poblaciones europeas: asignación de individuos a aprox. 700 km del origen Combinaciones alélicas: haplotipos 27 = 128 posibilidades 5 observadas! Haplotipos Existe redundancia en la región Se dice que los 3 SNPs están asociados (en desequilibrio de ligamiento) 4 19/04/2013 Estimación de haplotipos Al genotipar: SNP 1 CT / SNP 2 AG... SNP 1 ? SNP 2 SNP 1 C : 50% A : 50% Materno C T : 50% G : 50% Paterno T SNP 2 A G Extra info. Posibilidades SNP 1 C C T T SNP 2 A G A G Esperado 0.5 X 0.5 = 0.25 0.5 X 0.5 = 0.25 0.5 X 0.5 = 0.25 0.5 X 0.5 = 0.25 Observado 0.50 0.00 0.00 0.50 Desequilibrio de ligamiento (LD) como medida de asociación entre SNPs Genotipo de SNP1 predice el genotipo del SNP2 En una región ejemplo: Reordenando los SNPs por parecido del patrón 5 19/04/2013 Estimación de haplotipos Reconstrucción estadística (normalmente)‐ asociada a incertidumbre Diversos métodos: Problema es exclusivo de dobles heterocigóticos, así que se aprende de las combinaciones que aparecen en el resto de individuos (observaciones) Minimizar el número de haplotipos nuevos buscando minimizar el número de mutaciones y las recombinaciones en la genealogía LD: Generación por mutación Cromosoma ancestral 6 19/04/2013 LD: Reducción por recombinación Recombinación y distancia Cromosoma ancestral Recombinación/n generaciones El desequilibrio de ligamiento generalmente decrecerá con la distancia parcialmente debido a procesos de recombinación. 7 19/04/2013 Modelo simple de la estructura del LD Los patrones se simplifican si no se modela con recombinación (p.ej. región pequeña) - Mutación como único factor - Sin recombinación, las correlaciones entre SNPs están determinadas por la genealogía, no por la distancia física Medidas de LD (entre 2 loci) a (fa) D’ de Lewontin 0 ≤ D' ≤ 1 D' = 0 LE D' = 1 no indica LD perfecto (en una tabla de 2x2, si una de las combinaciones es 0, D’=1) B (fB) b (fb) AB (fAfB) Ab (fAfb) aB (fafB) ab (fafb) D = f -f f =-D =-D = D A,B A,B A B aB ' if ( D 0) DAB Ab ab DAB DAB else min( f A f b , f a f B , ) min( f a f b , f A f B , ) Coeficiente de correlación (r2) 2 rAB 2 DAB 2 AB f A fa f B fb 0 ≤ r2 ≤ ( D’)2 ≤ 1 r2 = 0 LE r2 = 1 indica LD perfecto 8 19/04/2013 Desequilibrio de ligamiento (LD) 0.6 PTPLB 0.5 MYLK CCDC14 r2 0.4 ROPN1 100 kb 0.3 0.2 0.1 0 0 50 100 150 200 250 300 Distance (kb) Enfermedades simples y complejas Simples Complejas Un solo gen causante de la enfermedad Múltiples genes causan la enfermedad De herencia mendeliana (con relaciones matemáticas consistentes y simples; tipo de herencia fácilmente reconocible) Interacción gen‐ambiente: enfermedad complejas Comunes (prevalencias de >1%) Normalmente raras (prevalencia de fibrosis quística es de 1 en 2.500) Ejemplo: Fibrosis quística (transporte de Cl defectuoso en epitelios) por mutaciones en el gen CFTR Ejemplos: Poligénica‐Retinitis pigmentosa (degeneración progresiva de la retina), con al menos 28 genes causantes. Compleja‐Cáncer de mama por mutaciones en los genes BRCA1, BRCA2, otros… 9 19/04/2013 Grados de penetrancia Variantes con alta penetrancia (>70%)‐mutaciones de baja frecuencia en la población (de reciente aparición y por tanto en alto LD con el entorno): ‐ Mutaciones en el gen APC y poliposis familiar adenomatosa (1%) ‐ Mutaciones en los genes BRCA1 y BRCA2 y cáncer de mama (5%) ‐ Mutaciones en CFTR y ausencia bilateral congénita de vasos deferentes Variantes con baja penetrancia (<25%)‐variantes de susceptibilidad de mayores frecuencias en la población: ‐ Variantes nulas en los genes GSTT1 y GSTM1 y cáncer de pulmón o vejiga. ‐ Variante ‐4 en el gen APOE y Alzheimer ‐ Variantes de NAT2 y cáncer colorrectal Metodologías de mapeo Asociación: Ligamiento: P r E P r E Pedigrí conocido Pocas meiosis (max 100s) Resolución: cMorgans (Mbases) Pedigrí desconocido Gran número de meiosis (>104) Resolución: 10‐5 Morgans (Kbases) 10 19/04/2013 Fundamento de la asociación Estudios de asociación Asociación no es más que una relación estadística entre la variación en uno‐ varios sitios del genoma y la variación fenotípica (presencia‐ausencia de enfermedad, niveles de un carácter relacionado…) Comúnmente mediante el análisis de las diferencias en frecuencias o la transmisión de alelos en casos‐control/trios (afecto‐padre‐madre) GA AA AA AA GA GG AA AA GA GA GA GG GG GA AA GG AA GA casos control G/A G/A A/A 11 19/04/2013 Análisis de ligamiento Estudio de 300‐700 marcadores genéticos Ventajas: Se estudia todo el genoma; se identifican genes previamente no relacionados con la enfermedad Limitaciones: Poca resolución; regiones normalmente extensas Detección de genes con efectos considerables Regiones candidatas Mapeo de enfermedades complejas: Alternativas al análisis de ligamiento? Nótese que los análisis de ligamiento nacen en el contexto del mapeo de enfermedades de herencia mendeliana Su aplicación a enfermedades complejas origina, cuanto menos, ligamientos discutibles. Como resultado el nº de genes y su efecto no puede estudiarse con certeza en enfermedades complejas con ligamiento Varios cientos, si no miles, de variantes raras serían necesarias para explicar la susceptibilidad incluso si estas aumentaran el riesgo 10‐20 veces 12 19/04/2013 Formulación de CDCV Agrupamiento familiar + resultados de ligamiento Un modelo en el que cientos de variantes comunes, cada una incrementado el riesgo en un factor modesto de 1.2-1.8 veces, sería suficiente para explicar la prevalencia y herencia de muchas de estas enfermedades (importancia de las interacciones). Variante común enfermedad común (CDCV): Variantes comunes en las distintas poblaciones con efectos leves en la enfermedad, en contraposición a variantes raras (mutaciones), explicarían una proporción de la enfermedad Los estudios de asociación son la ÚNICA alternativa Risch & Merikangas. Science 1996 Ligamiento vs Asociación 13 19/04/2013 Estudios de asociación Optimo para: enfermedad genética compleja, con herencia multifactorial. Análisis de las diferencias en frecuencias o la transmisión de alelos en casos‐ control o núcleos familiares Necesario: Pedigrí desconocido: muchas más meiosis representadas en la población ‐ Muestras de individuos con y sin enfermedad (bien caracterizados), no relacionados o núcleos familiares padre‐madre‐hijo afecto ‐ Marcadores polimórficos (sin necesidad de alto grado de variación) ‐ Patrones de LD Estudios de asociación caso‐control Co-ocurrencia de alelos y enfermedad: el alelo de riesgo será más frecuente en individuos enfermos (casos) que en individuos sin enfermedad (controles) Necesario: - Genotipo en casos y controles sin relación familiar Mide: - Asociación no azarosa de alelos de un locus dado - Significación mediante aplicación de modelos de herencia sobre tablas de contingencia (g.l. dependiendo del modelo) (observados-esperados) esperados 2 = 2 Desventajas: - Aunque técnicamente fácil, necesita de distintos ajustes para asegurar resultados no sesgados - Influenciados por la presencia de estratificación poblacional 14 19/04/2013 Estimación de efectos Razón de ventaja (OR): surge del estimador clásico de epidemiología del riesgo de la enfermedad (no sesgado si la muestra es representativa de la población- estudios cohorte de seguimiento o prospectivos): “tasa de incidencia de la enfermedad en expuestos (genotipo riesgo) con respecto a la incidencia en los no expuestos (genotipo de referencia)” Exposición definida antes de la enfermedad Genotipo/alelo Muestra Enfermos No enfermos Riesgo EnR SaR Ref. Enr Sar Estimación de efectos Asociación genética Genotipo/alelo Muestra Casos Controles Riesgo CaR CoR Ref. Car Cor OR = CaR CoR Car Cor = CaR.Cor Car.CoR 15 19/04/2013 Estimación de efectos Si no existen sesgos (si el estudio de caso-control cohorte), el OR proporciona una estima valida del RR OR = 1, las personas expuestas no tienen riesgo aumentado en comparación con no expuestos OR > 1, aumento del riesgo con la exposición (factor de riesgo) 0 < OR < 1, disminuye el riesgo con la exposición (factor protector) Error estándar (s) = √ 1/CaR 1/CoR 1/Car 1/Cor Intervalo de confianza al 95% del OR con los valores reales [elog(OR)-1,96s; elog(OR)+1,96s] [si no incluye 1 entonces la asociación es estadísticamente significativa] (Significación la obtenemos de los totales mediante 2) Estudios de asociación Aprox. 40 millones de variantes en nuestro genoma (10 comunes con frecuencia >5%) Como media hay unos 126 SNPs/gen (datos de SeattleSNPs) El estudio de TODAS las variantes de nuestro genoma en asociación es impracticable en la actualidad ¿Podemos reducir la lista de variantes sin pérdida de poder estadístico? SNPs de regiones codificantes (cambios de amino ácido) Mediante desequilibrio de ligamiento y análisis de haplotipos ¿Genes candidatos con funciones biológicas relevantes en la enfermedad o todo el genoma? 16 19/04/2013 Propiedades del genoma: Proyecto HapMap Fase I (Nature 2005, 437:1299-1320) análisis 1 millón de SNPs (1,3 genotipados) 1 SNP/ 5 Kbases del genoma (87% con MAF5%) Fase II (Nature 2007, 449:851-862) análisis 2,1 millón de SNPs (1/4-1/3 de los SNPs con MAF>5% del genoma) 1 SNP/Kbase del genoma 1.Haplotipos compartidos entre poblaciones (identidad, no frecuencia) 2.LD correlacionado (aunque no completamente) con la distancia física 3.La variación de la tasa local de recombinación es el principal factor de influencia en el LD 4.La mayoría de la recombinación ocurre en puntos calientes, el genoma se estructura en bloques de LD 5.Normalmente un SNP está altamente correlacionado con muchos otros (perfectamente con cercanos y parcialmente con otros) (en menor medida en africanos); Con r2 > 0,8 YRI 50%, en CHB+JPT y CEU 75% (Fase I) Bloques de LD en el genoma Regiones de tamaño variable donde se observa poca diversidad de haplotipos (el nivel de LD entre los SNPs de la región es alto) Gabriel et al. (Science 2002, 296:2225-2229): El 50% del genoma en africanos se presenta en bloques de 22 Kbases y de 44 Kbases en europeos y asiáticos En cada bloque, un número reducido de haplotipos comunes captura 90% de la diversidad del bloque Límites de bloques y haplotipos se conservan entre poblaciones 17 19/04/2013 Tagging SNPs Objetivo: Utilizar la redundancia del genoma para reducir costes sin perdida considerable de poder de detección. Una fracción pequeña de SNPs captura una gran fracción de la variación. Una proporción de SNPs no tiene correlación con otros SNPs (1% de SNPs comunes en fase II del HapMap; 90% cerca de puntos calientes de recombinación) La reducción de SNPs necesarios pude llegar a ser de hasta un 80% Genotipado masivo Chips de ADN para la detección de variantes (de 10k a 1000K) PM MM PM MM 18 19/04/2013 Asociación del genoma completo Ensayo de 100.000‐1.000.000 SNPs Casos: Controles Asociación: Identificación de la vía de actuación Ventajas: Identificación del gen que origina la señal Nuevos genes/vías implicadas Detecta efectos leves Acotación de la región de interés Asociaciones del genoma completo Más de 190 estudios y 410 SNPs asociados con enfermedades y caracteres complejos 19 19/04/2013 Beneficios potenciales de la identificación de los genes que subyacen a la enfermedad 1. Nuevas perspectivas de la patogénesis de la enfermedad 2. Genes como dianas terapéuticas 3. La caracterización del riesgo a la enfermedad o la respuesta a la intervención relacionada con la variabilidad genética mejoraría la diagnosis y la prognosis (medicina personalizada). 4. Conocer estos genes mejorará nuestra habilidad para identificar y caracterizar nuevos genes de susceptibilidad, otros factores de riesgo, interacciones gen‐ gen, e interacciones de los genes con el ambiente. 20