Download Análisis de Datos de Microarrays de Expresión

Document related concepts

ARN mensajero wikipedia , lookup

Chip de ADN wikipedia , lookup

Genómica computacional wikipedia , lookup

Transcript
Análisis de Datos
de
Microarrays de Expresión
Ejemplo para un set de
3 muestras CONTROLES normales
frente a 3 muestras ALTERADAS
3 CO vs 3 ALT
1. Cálculo de la señal de expresión de cada muestra con
corrección de background y normalización robusta.
2. Cálculo de la expresión diferencial significativa para
múltiples réplicas biológicas en 2 estados:
control y alterado.
PERSONA DE CONTACTO: Dr. José García García
e-mail: [email protected]
ENTIDAD: Centro de Investigación …
FICHEROS DE DATOS CRUDOS
Control1.CEL
DE LOS MICROARRAYS:
Control2.CEL
Control3.CEL
Alterado1.CEL
Alterado2.CEL
Alterado3.CEL
TIPO DE ANÁLISIS: Señal y Expresión Diferencial
FECHA: XX.Mar.07
Análisis de datos de microarrays de expresión
2/9
1. Cálculo de la señal de expresión de cada muestra
con corrección de background y normalización
robusta.
1.1. Introducción a la técnica de microarrays.
Los microarrays de expresión de alta densidad de oligonucleótidos
miden la señal de expresión a nivel genómico-transcriptómico de miles de genes
expresados en una muestra dada. Para ello son dispositivos capaces de medir a la
vez la cantidad de mRNA correspondiente a miles de genes presentes en la muestra
analizada utilizando la técnica de hibridación específica RNA-DNA (técnica
equivalente a los northern blot de biología molecular).
A continuación explicamos brevemente la arquitectura de los microarrays de
genoma completo de Affymetrix de última generación (por ejemplo GeneChip U133
plus2 para genoma humano) que son los utilizados en todo este estudio-informe.
Como se ha dicho, son microarrays de oligonucleótidos de alta densidad que
incluyen entre 40 y 60.000 conjuntos de sondas de oligonucleótidos (llamados
probesets) con secuencias de todo el transcriptoma de la especie estudiada,
representando para humano unos 25.000 genes. Cada conjunto de sondas
(probeset) es una serie de 11-16 oligos distintos que corresponden a distintas
regiones codificantes del gen que representan. A su vez, cada sonda es un oligo (de
25 nucleótidos, 25mer) del que hay miles de copias en cada microcelda del
microarray, que en conjunto tiene miles de microceldas, una por cada tipo de oligo.
Figura 1. En la figura se muestra un microarray de Affymetrix, un dibujo con las microceldas con los
oligos de 25 nucleótidos mostrando las miles de copias incluidas en cada celda, y un esquema de los
conjuntos de sondas (probesets) que corresponden a un gen dado. Los probesets están
distribuidas de manera aleatoria en micro-celdas y debajo de cada celda con el oligo original (llamado
Perfect Match, PM), hay otra celda con un oligo mutado en el nucleótido 13 central (llamado Mis
Match, MM) que se puede usar para medir la hibridación inespecífica.
Miles de fragmentos de cRNA marcados, obtenidos como copias del mRNA
total extraído de las muestras analizadas se hibrídan sobre las sondas oligos del
microarray. La medida en un solo microarray de todas las sondas hibridadas permite
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
3/9
cuantificar la expresión de miles de genes simultáneamente. Esta cuantificación
debe ser proporcional a la cantidad de mRNA transcrito de cada gen, es decir,
proporcional a su nivel de expresión en la muestra analizada. Para incrementar
esta complejidad sucede que algunos locus génicos son grandes y pueden tener
varios tipos de transcritos y por ello Affymetrix suele representarlos con varios
conjuntos de sondas distintos (distintos probesets para un mismo gen). Finalmente,
para obtener datos fiables es necesario hacer varias replicas biológicas de cada
muestra, lo cual de nuevo supone un aumento importante del número de datos por
experimento.
El manejo, tratamiento y análisis de los miles de datos de expresión génica
derivados de microarrays de alta densidad no es trivial y sólo se puede abordar
computacionalmente siguiendo criterios robustos y sistemáticos que tengan
significación y sentido tanto matemático-estadístico como biológico-funcional.
1.2. Controles de calidad y cálculo de señal.
1.2.1. Control de la imagen global de datos de cada microarray
Microarray
CO1.CEL
CO2.CEL
CO3.CEL
ALT1.CEL
ALT2.CEL
ALT3.CEL
Control
9
9
9
9
9
9
Antes de realizar ningún análisis se estudian las imágenes de expresión de
cada uno de los microarrays a partir de los datos crudos obtenidos del scanner, para
ver si los microarrays han funcionado bien de modo global. Se realiza una
exploración visual de cada imagen para detectar si hay algún posible defecto
observable como manchas o zonas de hibridación desigual. En la tabla superior se
indica si se encontró algún defecto en alguno de los microarrays.
1.2.2. Cálculo de señal por probeset (gen) y por microarray
(muestra) control de las distribuciones de datos.
A continuación se hace el cálculo de la señal de expresión por probeset de
cada uno de los microarrays de modo global multi-muestra con el algoritmo RMA
(Robust Microarray Analysis) [1-3] que incluye 3 pasos: (i) corrección de
background, (ii) normalización por cuantiles y (iii) calculo sumarizado de la señal
por probeset utilizando una mediana pulida. Los resultados de este algoritmo dan
lugar a valores de expresión absolutos en escala logarítmica (log2) que oscilan
aproximadamente entre 2 para las intensidades menores y 14 para las intensidades
mayores.
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
4/9
La figura 2 incluye las curvas de densidad o frecuencia de expresión (eje
Y) frente a la intensidad de señal (eje X). En la grafica se comparan los
microarrays de muestras controles (en azul) con los microarrays de muestras
alteradas (en rojo). Las distribuciones son bastante parecidas indicando la eficacia
de la normalización realizada. En general, los microarrays muestran una gran
cantidad de probesets con valores de expresión bajos y menos datos en la mitad
derecha. Esto refleja el hecho de que la mayoría de los genes para una muestra
dada no están expresados. Por otro lado, es muy importante darse cuenta que la
señal de expresión dada por los microarrays de Affymetrix es expresión absoluta y
no relativa. No es un “ratio” como dan los microarrays de cDNA de dos colores,
sino una señal absoluta que cuantifica la cantidad de mRNA presente en cada
muestra.
Finalmente, también hay que dejar claro que, por las características de los
microarrays de Affymetrix, en todos los análisis se identifica gen con probeset,
sabiendo que bastantes genes, sobre todo en humano, tienen más de un probeset.
Por el momento, casi todos los algoritmos de análisis de expresión a partir de datos
de microarrays de Affymetrix asumen esta pseudo-identificación gen=probeset,
aunque biológicamente la entidad que deberíamos considerar sería gen expresado.
Figura 2. Distribuciones de la señal de expresión en los microarrays controles (en azul) y los
microarrays alterados (en rojo).
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
5/9
A continuación, también como control de la señal de expresión, se presenta
un resumen de los valores de expresión que caracterizan las distribuciones de
cada microarray. Cada columna en las tablas adjuntas corresponde a un microarray
e incluye el valor mínimo y el máximo de su distribución, así como los valores de
centralidad: mediana, media, primer cuartil (25%) y tercer cuartil (75%). Con
estos valores numéricos nos hacemos una buena idea de los márgenes de cambio
de la distribución de datos de expresión dentro de cada microarray.
Valor Mínimo
CO1.CEL
CO2.CEL
CO3.CEL
2.235
2.235
2.235
er
1 . cuartil
3.300
3.300
3.300
Mediana
4.153
4.153
4.153
Media
4.567
4.567
4.567
3er. cuartil
5.448
5.448
5.448
Valor máximo
13.579
13.579
13.579
ALT1.CEL
ALT2.CEL
ALT3.CEL
Valor Mínimo
2.235
2.235
2.235
1er. cuartil
3.300
3.300
3.300
Mediana
4.153
4.153
4.153
Media
4.567
4.567
4.567
3er. cuartil
5.448
5.448
5.448
Valor máximo
13.579
13.579
13.579
2. Cálculo de la expresión diferencial significativa
para múltiples réplicas biológicas en 2 estados:
control y alterado.
2.1. Visualización del contraste crudo entre muestras
control y alterado.
Tras el cálculo de la señal para cada probeset en cada microarray
procedemos a realizar la búsqueda e identificación de genes que tienen una
expresión diferencial significativa entre los microarrays de los 2 estados
estudiados: control versus alterado. Este cálculo se va a realizar con el algoritmo
SAM (Significance Analysis of Microarrays) [4] que es un test de contraste
diferencial tipo t-test modificado, que incluye discriminación de los p-valores
mediante permutaciones y que además tiene ajuste de los p-valores para tests
múltiples utilizando el cálculo de FDR (False Discovery Rate) [5] para una correcta
estimación de la significación estadística de los contrastes.
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
6/9
Antes de aplicar el algoritmo SAM, realizamos una visualización de la
variabilidad de los datos mediante la representación llamada MvA plot que permite
hacer una comparación de las señales de varios microarrays mostrando como se
comporta entre microarrays la relación o ratio de cambio (fold change) a lo largo
del rango de intensidades (intensity range) en escala logaritmica (log2). La figura
3 presenta dicho MvA plot e incluye tres comparaciones: (i) en rojo los puntos que
resultan de comparar el promedio de los microarrays controles frente al promedio
de los microarrays alterados (es decir, presenta la variabilidad entre controles y
alterados); (ii) en negro los puntos que resultan de comparar unos microarrays
controles frente a otros controles (es decir, presenta la variabilidad biológica de las
muestras control); (iii) en azul los puntos correspondientes a la comparación de un
microarray control contra si mismo (es decir, indica el rango de amplitud de
intensidad sin cambio en ratio o fold). La gráfica ayuda a saber el grado de diferencia
que hay entre las muestras alteradas y control, ya que hemos de esperar que los
gene-probesets que estén diferencialmente sobreexpresados o reprimidos
caigan en la zona de los puntos rojos.
Figura 3. MvA plot que representa la relación de cambio (FOLD.change) a lo largo de todo el rango
de intensidades (INTENSITY.range, en escala log2) para todas las señales de expresión de varios
microarrays comparados.
2.2. Cálculo de los genes de expresión diferencial.
Como se ha indicado, calculamos expresión diferencial significativa entre
los microarrays de los dos estados estudiados (control versus alterado) utilizando
el algoritmo SAM. Este algoritmo permite obtener un determinado número de
genes significativos para un determinado umbral de FDR (False Discovery Rate)
que indica el número máximo estimado de falsos positivos que admitimos en la
lista de genes estadísticamente significativos. El FDR se corta usando el valor delta
(∆ ó d(i)) del algoritmo. Cada delta se corresponde con un determinado FDR y con
un determinado número de genes significativos, como se muestra en las graficas
de la figura 4 y en la tabla adjunta debajo.
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
7/9
Figura 4. Gráficas que muestran la correlación entre el valor de delta (∆) y el FDR o entre el delta (∆)
y el número de genes significativos. Estas graficas ayudan a elegir el punto de corte adecuado..
Delta ∆ ó d(i)
Nº Falsos
Nº Llamados
FDR
0.1
9737.85
12663
0.769
1.5
58.65
488
0.120
2.2
20.09
203
0.099
2.9
9.94
108
0.092
4.2
3.78
43
0.088
5.6
2.20
25
0.083
7.0
0.75
9
0.072
En el caso estudiado para los microarrays de los 2 estados (control versus
alterado) seleccionamos un delta de 2.2 que da 203 genes significativos con un
FDR = 0.099, que corresponde a admitir aproximadamente un 10% de falsos
positivos. Esta selección es buena ya que nos proporciona a la vez un número de
genes suficientes para un posible estudio y caracterización biológico-funcional
posterior y también para la posible validación experimental de lo encontrado.
En la figura 5 se muestran los 203 genes que han sido seleccionados con el
delta de 2.2 en un grafico que evalúa las permutaciones del algoritmo SAM y coloca
en la diagonal de observados frente a esperados los genes que no varían (en
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
8/9
negro) y separados de la diagonal los genes que si varían entre los 2 estados
contrastados (en verde): por arriba los sobreexpresados y por debajo los reprimidos.
La lista completa de los genes significativos se proporciona en un archivo
adjunto (en formato EXCEL, .xls) que incluye los identificadores de cada gen y sus
parámetros de significación: p-value, q-value equivalente al p-value con corrección
para test múltiple por FDR y R-fold. Además, el archivo incluye los nombres y
descripción de cada gen. En la lista se diferencian dos grupos de genes: los genes
que se sobreexpresan (en ROJO) y los que se reprimen (en VERDE) respecto a
los controles.
A modo ilustrativo se presenta debajo una tabla que corresponde a la
cabecera del archivo de genes con los 20 primeros genes más significativos
ordenados por p-valor. En la tabla completa la significación de cada gen es dada
por este p-valor, y toda la lista esta ordenada de menor (más significativo) a mayor
(menos significativo). Este orden puede ayudar luego a seleccionar genes concretos
y a evaluar el significado biológico combinado con el significado estadístico.
An‡lisis de Expresion Diferencial: 3 ma CONTROLES vs 3 ma ALTERADOS
n¼ probeset ID
d.value
p.value
q.value
R.fold
Genename
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1419703_at
1448254_at
1426851_a_at
1422688_a_at
1422912_at
1454060_a_at
1417063_at
1421267_a_at
1448891_at
1448823_at
1434089_at
1421365_at
1417381_at
1454838_s_at
1448748_at
1452141_a_at
1449578_at
1426852_x_at
1418835_at
1418296_at
-18.2295639
12.9655857
12.7774303
-12.3438645
12.2766874
-11.9724743
11.8966285
-11.7688394
11.3284739
10.8150183
10.6655765
10.6379121
10.5320282
10.4644643
10.3930057
9.86485248
-9.79480231
9.7223807
-9.71442924
-9.62159968
4.41E-06
8.81E-06
1.32E-05
1.76E-05
2.20E-05
2.64E-05
3.09E-05
3.53E-05
3.97E-05
4.41E-05
4.85E-05
5.29E-05
5.73E-05
6.17E-05
6.61E-05
7.05E-05
7.49E-05
7.93E-05
8.37E-05
8.81E-05
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.09033542
0.22826857
2.84497614
5.48164708
0.16689154
3.26053935
0.21333524
4.68701788
0.3704521
3.98733953
3.44856521
3.51262111
2.37526784
4.40438653
3.26440072
2.00674027
7.06236083
0.18625183
6.29421727
0.43397714
0.53331852
Col5a3
Ptn
Nov
Nras
Bmp4
Nras
C1qb
Cited2
Msr2
Cxcl12
Synpo
Fst
C1qa
AW548124
Plek
Sepp1
Supt16h
Nov
Phlda1
Fxyd5
203 gene-probesets con FDR = 0.10 (10% falsos positivos)
Description
procollagen, type V, alpha 3
pleiotrophin
nephroblastoma overexpressed gene
neuroblastoma ras oncogene
bone morphogenetic protein 4
neuroblastoma ras oncogene
complement component 1, q subcomponent, beta polypeptide
Cbp/p300-interacting transactivator, with Glu/Asp-rich carboxy-terminal domain,
macrophage scavenger receptor 2
chemokine (C-X-C motif) ligand 12
synaptopodin
follistatin
complement component 1, q subcomponent, alpha polypeptide
expressed sequence AW548124
pleckstrin
selenoprotein P, plasma, 1
suppressor of Ty 16 homolog (S. cerevisiae)
nephroblastoma overexpressed gene
pleckstrin homology-like domain, family A, member 1
FXYD domain-containing ion transport regulator 5
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)
Análisis de datos de microarrays de expresión
9/9
APÉNDICE I
Bibliografía sobre los métodos usados
[1] Irizarry, R.A., et al. (2003). Summaries of Affymetrix GeneChip probe level data.
Nucleic Acids Res. 31(4): p. e15.
[2] Bolstad, B.M., et al. (2003). A comparison of normalization methods for high
density oligonucleotide array data based on variance and bias. Bioinformatics. 19(2):
p. 185-93.
[3] Irizarry, R.A., et al. (2003). Exploration, normalization, and summaries of high
density oligonucleotide array probe level data. Biostatistics. 4(2): p. 249-64.
[4] Tusher, V.G., R. Tibshirani, and G. Chu (2001). Significance analysis of
microarrays applied to the ionizing radiation response. Proc. Natl. Acad. Sci. USA.
98(9): p. 5116-21.
[5] Benjamini, Y. and Y. Hochberg (1995). Controlling the False Discovery Rate: A
Practical and Powerful Approach to Multiple Testing. J Roy Stat. Soc. (Ser B) 57: p.
289-300.
APÉNDICE II
Posibles análisis posteriores: análisis funcional
La lista de genes con expresión diferencial significativa proporcionada
debe servir de base sólida para un posterior estudio biológico-funcional de los
genes que se han obtenido. El análisis funcional no entra dentro del servicio
proporcionado en este informe, pero para ayudar al mismo hemos desarrollado en
la Unidad de Bioinformática del CIC (http://ubioinfo.cicancer.org) una página web
con información sobre enlaces útiles a diferentes herramientas bioinformáticas que
pueden facilitar dicho análisis biológico-funcional.
Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)