Download 2º Seminario

Document related concepts

Polimorfismo de nucleótido único wikipedia , lookup

Haplotipo wikipedia , lookup

Ligamiento wikipedia , lookup

Estudio de asociación del genoma completo wikipedia , lookup

HapMap wikipedia , lookup

Transcript
19/04/2013
Mapeo genético de enfermedades complejas
2º Seminario
Análisis Genético
3º Grado en Biología
Polimorfismos de un sólo nucleótido: SNPs
(del inglés Single Nucleotide Polymorphisms)
Sitios del genoma donde existen al menos dos bases alternativas (A, G, C, T)
SNP bialélico
TT
TG
GG
Es el tipo más común de variación en el genoma (aprox. 40 millones)‐ media de 1 cada 10‐30 pb
Inserciones/deleciones bialélicas de cualquier índole (n bases) = SNPs ≠ STRs
Frecuencia del alelo raro (MAF) = 1‐freq. alelo común (en bialélicos)
1
19/04/2013
SNPs, eventos únicos
evento de mutación
t
n generaciones
Frecuencia actual
Repeticiones cortas en tándem o microsatélites
(STRs, del inglés Short Tandem Repeats)
Secuencias cortas de 2‐5 bp/ Menos frecuentes en el genoma (unos 30K)
Más variables que los SNPs (multialélicos); diversidad  número de repeticiones
(AATG)n
7 repeticiones
8 repeticiones
Heterocigoto: 7/8 (los alelos pueden distinguirse por el tamaño del fragmento amplificado)
Homocigoto: 8/8; 7/7;….. (ambos alelos son de la misma longitud)
….3 alelos = 6 genotipos
….4 alelos = 10 genotipos
X+2‐1
CRx,2 = =
2
(x+2‐1)!
2!(x‐1)!
X = número de alelos
2
19/04/2013
Los conceptos
Polimorfismos de un solo nucleótido (SNP) como unidad
básica para el mapeo de enfermedades comunes
Estructuración de caracteres en las poblaciones humanas
Haplotipos, desequilibrio de ligamiento y recombinación
Estrategias de mapeo génico en enfermedades mendelianas y
complejas
Asociando nuestro genoma al completo: tagging SNPs, el
proyecto HapMap y genotipado masivo
Estructuración de caracteres en poblaciones
3
19/04/2013
Estructuración poblacional de la variación génica
La variación génica está estructurada en nuestras poblaciones:
377 STRs en 52 poblaciones humanas  4‐5 grupos de población (continentes)
Oceania
Africa
Europe
Central Asia
East Asia
Middle East
America
300.000 SNPs en poblaciones europeas:
asignación de individuos a aprox. 700 km del origen
Combinaciones alélicas: haplotipos
27 = 128 posibilidades
5 observadas!
Haplotipos
Existe redundancia en la región
Se dice que los 3 SNPs están asociados (en desequilibrio de ligamiento)
4
19/04/2013
Estimación de haplotipos
Al genotipar: SNP 1 CT / SNP 2 AG...
SNP 1
?
SNP 2
SNP 1
C : 50%
A : 50%
Materno
C
T : 50%
G : 50%
Paterno
T
SNP 2
A
G
Extra info.
Posibilidades
SNP 1
C
C
T
T
SNP 2
A
G
A
G
Esperado
0.5 X 0.5 = 0.25
0.5 X 0.5 = 0.25
0.5 X 0.5 = 0.25
0.5 X 0.5 = 0.25
Observado
0.50
0.00
0.00
0.50
Desequilibrio de ligamiento (LD) como medida de asociación entre SNPs
Genotipo de SNP1 predice el genotipo del SNP2
En una región ejemplo:
Reordenando los
SNPs por parecido
del patrón
5
19/04/2013
Estimación de haplotipos
Reconstrucción estadística (normalmente)‐ asociada a incertidumbre
Diversos métodos:
Problema es exclusivo de dobles heterocigóticos, así que se aprende de las
combinaciones que aparecen en el resto de individuos (observaciones)
Minimizar el número de haplotipos nuevos buscando minimizar el número de
mutaciones y las recombinaciones en la genealogía
LD: Generación por mutación
Cromosoma ancestral
6
19/04/2013
LD: Reducción por recombinación
Recombinación y distancia
Cromosoma ancestral
Recombinación/n generaciones
El desequilibrio de ligamiento generalmente
decrecerá con la distancia parcialmente debido a
procesos de recombinación.
7
19/04/2013
Modelo simple de la estructura del LD
Los patrones se simplifican si no se modela con recombinación (p.ej. región
pequeña)
- Mutación como único factor
- Sin recombinación, las correlaciones entre SNPs están determinadas por la
genealogía, no por la distancia física
Medidas de LD (entre 2 loci)
a (fa)
D’ de Lewontin
0 ≤ D' ≤ 1
D' = 0  LE
D' = 1 no indica LD perfecto
(en una tabla de 2x2, si una de las combinaciones es 0, D’=1)
B (fB)
b (fb)
AB
(fAfB)
Ab
(fAfb)
aB
(fafB)
ab
(fafb)
D = f -f f =-D =-D = D
A,B
A,B
A
B
aB
'
 if ( D  0)
DAB
Ab
ab
 DAB
DAB
else
min( f A f b , f a f B , )
min( f a f b , f A f B , )
Coeficiente de correlación (r2)
2

rAB
2
DAB
2
  AB
f A fa f B fb
0 ≤ r2 ≤ ( D’)2 ≤ 1
r2 = 0  LE
r2 = 1 indica LD perfecto
8
19/04/2013
Desequilibrio de ligamiento (LD)
0.6
PTPLB
0.5
MYLK
CCDC14
r2
0.4
ROPN1
100 kb
0.3
0.2
0.1
0
0
50
100
150
200
250
300
Distance (kb)
Enfermedades simples y complejas
Simples
Complejas
Un solo gen causante de la enfermedad
Múltiples genes causan la enfermedad
De herencia mendeliana (con relaciones matemáticas consistentes y simples; tipo de herencia fácilmente reconocible)
Interacción gen‐ambiente: enfermedad complejas
Comunes (prevalencias de >1%)
Normalmente raras (prevalencia de fibrosis quística es de 1 en 2.500)
Ejemplo:
Fibrosis quística (transporte de Cl defectuoso en epitelios) por mutaciones en el gen CFTR
Ejemplos:
Poligénica‐Retinitis pigmentosa (degeneración progresiva de la retina), con al menos 28 genes causantes.
Compleja‐Cáncer de mama por mutaciones en los genes BRCA1, BRCA2, otros…
9
19/04/2013
Grados de penetrancia
Variantes con alta penetrancia (>70%)‐mutaciones de baja frecuencia en la población (de reciente aparición y por tanto en alto LD con el entorno):
‐ Mutaciones en el gen APC y poliposis familiar adenomatosa (1%)
‐ Mutaciones en los genes BRCA1 y BRCA2 y cáncer de mama (5%)
‐ Mutaciones en CFTR y ausencia bilateral congénita de vasos deferentes
Variantes con baja penetrancia (<25%)‐variantes de susceptibilidad de mayores frecuencias en la población:
‐ Variantes nulas en los genes GSTT1 y GSTM1 y cáncer de pulmón o vejiga.
‐ Variante ‐4 en el gen APOE y Alzheimer
‐ Variantes de NAT2 y cáncer colorrectal
Metodologías de mapeo
Asociación:
Ligamiento:
P
r
E
P
r
E Pedigrí conocido
Pocas meiosis (max 100s)
Resolución: cMorgans (Mbases)
Pedigrí desconocido
Gran número de meiosis (>104)
Resolución: 10‐5 Morgans (Kbases)
10
19/04/2013
Fundamento de la asociación
Estudios de asociación
Asociación no es más que una relación estadística entre la variación en uno‐
varios sitios del genoma y la variación fenotípica (presencia‐ausencia de enfermedad, niveles de un carácter relacionado…)
Comúnmente mediante el análisis de las diferencias en frecuencias o la transmisión de alelos en casos‐control/trios (afecto‐padre‐madre)
GA AA
AA AA GA
GG
AA
AA
GA
GA GA
GG GG GA
AA
GG
AA
GA
casos
control
G/A
G/A
A/A
11
19/04/2013
Análisis de ligamiento
Estudio de
300‐700 marcadores genéticos
Ventajas:
Se estudia todo el genoma; se identifican genes previamente no relacionados con la enfermedad
Limitaciones:
Poca resolución; regiones normalmente extensas
Detección de genes con efectos considerables
Regiones candidatas
Mapeo de enfermedades complejas: Alternativas al análisis de ligamiento?
Nótese que los análisis de ligamiento nacen en el contexto del mapeo de
enfermedades de herencia mendeliana
Su aplicación a enfermedades complejas origina, cuanto menos, ligamientos
discutibles.
Como resultado el nº de genes y su efecto no puede estudiarse con certeza en
enfermedades complejas con ligamiento
Varios cientos, si no miles, de variantes raras serían necesarias para explicar la
susceptibilidad incluso si estas aumentaran el riesgo 10‐20 veces
12
19/04/2013
Formulación de CDCV
Agrupamiento familiar + resultados de ligamiento
Un modelo en el que cientos de variantes comunes, cada una incrementado
el riesgo en un factor modesto de 1.2-1.8 veces, sería suficiente para
explicar la prevalencia y herencia de muchas de estas enfermedades
(importancia de las interacciones).
Variante común enfermedad común (CDCV):
Variantes comunes en las distintas poblaciones con efectos leves en la enfermedad, en contraposición a variantes raras (mutaciones), explicarían una proporción de la enfermedad Los estudios de asociación son la ÚNICA alternativa
Risch & Merikangas. Science 1996
Ligamiento vs Asociación
13
19/04/2013
Estudios de asociación
Optimo para: enfermedad genética compleja, con herencia multifactorial.
Análisis de las diferencias en frecuencias o la transmisión de alelos en casos‐
control o núcleos familiares
Necesario:
Pedigrí desconocido: muchas más meiosis representadas en la población
‐ Muestras de individuos con y sin enfermedad (bien caracterizados), no relacionados o núcleos familiares padre‐madre‐hijo afecto
‐ Marcadores polimórficos (sin necesidad de alto grado de variación)
‐ Patrones de LD
Estudios de asociación caso‐control
Co-ocurrencia de alelos y enfermedad: el alelo de riesgo será más
frecuente en individuos enfermos (casos) que en individuos sin
enfermedad (controles)
Necesario:
- Genotipo en casos y controles sin relación familiar
Mide:
- Asociación no azarosa de alelos de un locus dado
- Significación mediante aplicación de modelos de herencia sobre
tablas de contingencia (g.l. dependiendo del modelo)
 (observados-esperados)
esperados
2 =
2
Desventajas:
- Aunque técnicamente fácil, necesita de distintos ajustes para
asegurar resultados no sesgados
- Influenciados por la presencia de estratificación poblacional
14
19/04/2013
Estimación de efectos
Razón de ventaja (OR): surge del estimador clásico de epidemiología
del riesgo de la enfermedad (no sesgado si la muestra es
representativa de la población- estudios cohorte de seguimiento o
prospectivos):
“tasa de incidencia de la enfermedad en expuestos (genotipo riesgo)
con respecto a la incidencia en los no expuestos (genotipo de
referencia)”
Exposición definida antes de la enfermedad
Genotipo/alelo
Muestra
Enfermos
No enfermos
Riesgo
EnR
SaR
Ref.
Enr
Sar
Estimación de efectos
Asociación genética
Genotipo/alelo
Muestra
Casos
Controles
Riesgo
CaR
CoR
Ref.
Car
Cor
OR =
CaR
CoR
Car
Cor
=
CaR.Cor
Car.CoR
15
19/04/2013
Estimación de efectos
Si no existen sesgos (si el estudio de caso-control  cohorte), el OR
proporciona una estima valida del RR
OR = 1, las personas expuestas no tienen riesgo aumentado en
comparación con no expuestos
OR > 1, aumento del riesgo con la exposición (factor de riesgo)
0 < OR < 1, disminuye el riesgo con la exposición (factor protector)
Error estándar (s) = √ 1/CaR 1/CoR 1/Car 1/Cor
Intervalo de confianza al 95% del OR con los valores reales  [elog(OR)-1,96s; elog(OR)+1,96s]
[si no incluye 1 entonces la asociación es estadísticamente significativa]
(Significación la obtenemos de los totales mediante 2)
Estudios de asociación
 Aprox. 40 millones de variantes en nuestro genoma (10 comunes con
frecuencia >5%)
Como media hay unos 126 SNPs/gen (datos de SeattleSNPs)
El estudio de TODAS las variantes de nuestro genoma en asociación es
impracticable en la actualidad
 ¿Podemos reducir la lista de variantes sin pérdida de poder estadístico?
SNPs de regiones codificantes (cambios de amino ácido)
Mediante desequilibrio de ligamiento y análisis de haplotipos
 ¿Genes candidatos con funciones biológicas relevantes en la enfermedad
o todo el genoma?
16
19/04/2013
Propiedades del genoma: Proyecto HapMap
Fase I (Nature 2005, 437:1299-1320) análisis 1 millón de SNPs (1,3
genotipados) 1 SNP/ 5 Kbases del genoma (87% con MAF5%)
Fase II (Nature 2007, 449:851-862) análisis 2,1 millón de SNPs (1/4-1/3
de los SNPs con MAF>5% del genoma) 1 SNP/Kbase del genoma
1.Haplotipos compartidos entre poblaciones (identidad, no frecuencia)
2.LD correlacionado (aunque no completamente) con la distancia física
3.La variación de la tasa local de recombinación es el principal factor de influencia
en el LD
4.La mayoría de la recombinación ocurre en puntos calientes, el genoma se
estructura en bloques de LD
5.Normalmente un SNP está altamente correlacionado con muchos otros
(perfectamente con cercanos y parcialmente con otros) (en menor medida en
africanos); Con r2 > 0,8 YRI 50%, en CHB+JPT y CEU 75% (Fase I)
Bloques de LD en el genoma
Regiones de tamaño variable donde se observa poca diversidad de
haplotipos (el nivel de LD entre los SNPs de la región es alto)
Gabriel et al. (Science 2002, 296:2225-2229):
El 50% del genoma en africanos se presenta en bloques de  22 Kbases
y de  44 Kbases en europeos y asiáticos
En cada bloque, un número reducido de haplotipos comunes captura
90% de la diversidad del bloque
Límites de bloques y haplotipos se conservan entre poblaciones
17
19/04/2013
Tagging SNPs
Objetivo: Utilizar la redundancia del genoma para reducir costes sin perdida considerable de poder de detección.
Una fracción pequeña de SNPs captura una gran fracción de la variación.
Una proporción de SNPs no tiene correlación con otros SNPs (1% de SNPs comunes en fase II del HapMap; 90% cerca de puntos calientes de recombinación)
La reducción de SNPs necesarios pude llegar a ser de hasta un 80%
Genotipado masivo
Chips de ADN para la detección de variantes (de 10k a 1000K)
PM
MM
PM
MM
18
19/04/2013
Asociación del genoma completo
Ensayo de 100.000‐1.000.000 SNPs
Casos: Controles
Asociación:
Identificación de la vía de actuación
Ventajas:
Identificación del gen que origina la señal
Nuevos genes/vías implicadas
Detecta efectos leves
Acotación de la región de interés
Asociaciones del genoma completo
Más de 190 estudios
y 410 SNPs
asociados con
enfermedades y
caracteres complejos
19
19/04/2013
Beneficios potenciales de la identificación de los genes que subyacen a la enfermedad
1. Nuevas perspectivas de la patogénesis de la enfermedad
2. Genes como dianas terapéuticas
3. La caracterización del riesgo a la enfermedad o la respuesta a la intervención
relacionada con la variabilidad genética mejoraría la diagnosis y la prognosis
(medicina personalizada).
4. Conocer estos genes mejorará nuestra habilidad para identificar y caracterizar
nuevos genes de susceptibilidad, otros factores de riesgo, interacciones gen‐
gen, e interacciones de los genes con el ambiente.
20