Download Análisis de Expresión en R

Document related concepts
no text concepts found
Transcript
Análisis de
Expresión en R
Rodrigo Santamaría
S
Matriz de expresión
S  Una matriz de expresión A de orden n x m contiene la
expresión de n genes en m condiciones experimentales
S  En R, se representa mediante una variable matrix
S  A[3,4] – expresión del gen 3 bajo la condición 4
S  A[55, ] – perfil de expresión del gen 55
S  A[ , 1] – expresión de todos los genes para la condición 1
S  rownames(A) – nombres de todos los genes
S  colnames(A) – nombres de todas las condiciones
Matriz de expresión
A[, j]
A[i, ]
A[i, j]
A
Clase AffyBatch
S  Tipo de variable que obtenemos al leer datos en crudo (raw)
de Affymetrix mediante la función de R ReadAffy o
similares
S  Affy à porque se trata de fiheros .CEL de Affymetrix
S  Batch (lotes) à porque se trata de varios de ellos (uno por
condición experimental)
S  En el fondo es una extensión del tipo de variable eSet
(expressionSet), para matrices de expresión
AffyBatch
S  AffyBatch (y eSet) incluyen la matriz de expresión pero
también información adicional:
S  Sea una variable de tipo AffyBatch llamada ab:
S  exprs(ab) – devuelve la matriz de expresión
S  dim(exprs(ab)) nos da la dimensión de la matriz de expresión
S  dim(ab) nos da la dimensión del chip, que es distinto
S  annotation(ab) – devuelve información sobre el tipo de chip de
Affymetrix (por ejemplo ”hgu133a”)
AffyBatch
S  Sea una variable de tipo AffyBatch llamada ab:
S  sampleNames(ab) – devuelve los nombres de las condiciones
S  equivalente a colnames(exprs(ab))
S  featureNames(ab) – devuelve los nombres de las filas de la
matriz de expresión
S  serán nombres de sondas o de genes dependiendo de los datos que
carguemos. Si es un objeto AffyBatch, generalmente sondas
S  NO es equivalente a rownames(exprs(ab))
S  annotation(ab) – devuelve información sobre el tipo de chip de
Affymetrix (por ejemplo ”hgu133a”)
AffyBatch
S  Sea una variable de tipo AffyBatch llamada ab:
S  experimentData(ab) – devuelve información sobre el
experimento (laboratorio, información de contacto, paper
relacionado, etc.)
S  equivalente a description(ab)
S  phenoData(ab) – información fenotípica sobre cada condición
experimental, en forma de un tipo especial de data.frame,
AnnotatedDataFrame
S  Si lo queremos directamente como data.frame, podemos usar
pData(ab)
AffyBatch à ab
nombres y
anotaciones de
los genes o
sondas
experimentData(ab)
annotation(ab)
[ anotaciones
mediante el
paquete
adecuado ]
vector à featureNames(ab)
detalles del
experimento
y
del chip
data.frameà pData(ab)
vector à sampleNames(ab)
matrix à exprs(ab)
características
y
nombres de
condiciones
matriz de
expresión
Anotaciones a las sondas
S  Para cada chip (de Affymetrix o no), existe un paquete de
annotación que contiene un mapeo de cada sonda del chip:
S  Al gen al que se corresponde
S  Nombre, ID en GenBank, Ensembl, UniGene, UniProt etc.
S  A su cromosoma y localización
S  A términos GO relacionados con dicho gen
S  A pathways relacionadas con dicho gen
S  A Publicaciones relacionadas (PMIDs)
S  RECORDAD: para saber cuál es el chip de nuestro
AffyBatch o eSet, usamos annotation()
Anotaciones
S  http://www.bioconductor.org/packages/2.6/data/annotation/
Anotaciones a las sondas
S  Se instalan como cualquier otro paquete de BioConductor
S  source(“http://bioconductor.org/biocLite.R”)
S  biocLite(nombrePaquete)
S  Y se cargan igual (por ejemplo, el paquete para el chip de
humano de Affymetrix 133 A – hgu133a):
S  library(hgu133a.db)
Anotaciones
S  Cada biblioteca contiene un mapeo (o entorno –
environment) de las sondas de ese chip a la información
sobre los genes
S  Podemos explorar todos los mapeos con nombrePaquete()
S  hgu133a()
S  Podemos extraer mapeos para cada sonda con get() y mget()
S  get("1007_s_at", hgu133aGENENAME)
> hgu133a()
Quality control information for hgu133a:
This package has the following mappings:
hgu133aACCNUM has 22283 mapped keys (of 22283 keys)
hgu133aALIAS2PROBE has 53991 mapped keys (of 112379 keys)
hgu133aCHR has 20351 mapped keys (of 22283 keys)
hgu133aCHRLENGTHS has 93 mapped keys (of 93 keys)
hgu133aCHRLOC has 20134 mapped keys (of 22283 keys)
hgu133aCHRLOCEND has 20134 mapped keys (of 22283 keys)
hgu133aENSEMBL has 19810 mapped keys (of 22283 keys)
hgu133aENSEMBL2PROBE has 12942 mapped keys (of 19948 keys)
hgu133aENTREZID has 20357 mapped keys (of 22283 keys)
hgu133aENZYME has 3108 mapped keys (of 22283 keys)
hgu133aENZYME2PROBE has 906 mapped keys (of 975 keys)
hgu133aGENENAME has 20357 mapped keys (of 22283 keys)
hgu133aGO has 19348 mapped keys (of 22283 keys)
…
> get("1007_s_at", hgu133aGENENAME)
[1] "discoidin domain receptor tyrosine kinase 1"
> get("1007_s_at", hgu133aENTREZID)
[1] "780"
> get(featureNames(ab)[1], hgu133aENTREZID)
[1] "780"
> mget(featureNames(ab)[1:3],
hgu133aENTREZID)
$`1007_s_at`
[1] "780"
$`1053_at`
[1] "5982"
$`117_at`
[1] "3310"