Download Análisis de Expresión en R
Document related concepts
no text concepts found
Transcript
Análisis de Expresión en R Rodrigo Santamaría S Matriz de expresión S Una matriz de expresión A de orden n x m contiene la expresión de n genes en m condiciones experimentales S En R, se representa mediante una variable matrix S A[3,4] – expresión del gen 3 bajo la condición 4 S A[55, ] – perfil de expresión del gen 55 S A[ , 1] – expresión de todos los genes para la condición 1 S rownames(A) – nombres de todos los genes S colnames(A) – nombres de todas las condiciones Matriz de expresión A[, j] A[i, ] A[i, j] A Clase AffyBatch S Tipo de variable que obtenemos al leer datos en crudo (raw) de Affymetrix mediante la función de R ReadAffy o similares S Affy à porque se trata de fiheros .CEL de Affymetrix S Batch (lotes) à porque se trata de varios de ellos (uno por condición experimental) S En el fondo es una extensión del tipo de variable eSet (expressionSet), para matrices de expresión AffyBatch S AffyBatch (y eSet) incluyen la matriz de expresión pero también información adicional: S Sea una variable de tipo AffyBatch llamada ab: S exprs(ab) – devuelve la matriz de expresión S dim(exprs(ab)) nos da la dimensión de la matriz de expresión S dim(ab) nos da la dimensión del chip, que es distinto S annotation(ab) – devuelve información sobre el tipo de chip de Affymetrix (por ejemplo ”hgu133a”) AffyBatch S Sea una variable de tipo AffyBatch llamada ab: S sampleNames(ab) – devuelve los nombres de las condiciones S equivalente a colnames(exprs(ab)) S featureNames(ab) – devuelve los nombres de las filas de la matriz de expresión S serán nombres de sondas o de genes dependiendo de los datos que carguemos. Si es un objeto AffyBatch, generalmente sondas S NO es equivalente a rownames(exprs(ab)) S annotation(ab) – devuelve información sobre el tipo de chip de Affymetrix (por ejemplo ”hgu133a”) AffyBatch S Sea una variable de tipo AffyBatch llamada ab: S experimentData(ab) – devuelve información sobre el experimento (laboratorio, información de contacto, paper relacionado, etc.) S equivalente a description(ab) S phenoData(ab) – información fenotípica sobre cada condición experimental, en forma de un tipo especial de data.frame, AnnotatedDataFrame S Si lo queremos directamente como data.frame, podemos usar pData(ab) AffyBatch à ab nombres y anotaciones de los genes o sondas experimentData(ab) annotation(ab) [ anotaciones mediante el paquete adecuado ] vector à featureNames(ab) detalles del experimento y del chip data.frameà pData(ab) vector à sampleNames(ab) matrix à exprs(ab) características y nombres de condiciones matriz de expresión Anotaciones a las sondas S Para cada chip (de Affymetrix o no), existe un paquete de annotación que contiene un mapeo de cada sonda del chip: S Al gen al que se corresponde S Nombre, ID en GenBank, Ensembl, UniGene, UniProt etc. S A su cromosoma y localización S A términos GO relacionados con dicho gen S A pathways relacionadas con dicho gen S A Publicaciones relacionadas (PMIDs) S RECORDAD: para saber cuál es el chip de nuestro AffyBatch o eSet, usamos annotation() Anotaciones S http://www.bioconductor.org/packages/2.6/data/annotation/ Anotaciones a las sondas S Se instalan como cualquier otro paquete de BioConductor S source(“http://bioconductor.org/biocLite.R”) S biocLite(nombrePaquete) S Y se cargan igual (por ejemplo, el paquete para el chip de humano de Affymetrix 133 A – hgu133a): S library(hgu133a.db) Anotaciones S Cada biblioteca contiene un mapeo (o entorno – environment) de las sondas de ese chip a la información sobre los genes S Podemos explorar todos los mapeos con nombrePaquete() S hgu133a() S Podemos extraer mapeos para cada sonda con get() y mget() S get("1007_s_at", hgu133aGENENAME) > hgu133a() Quality control information for hgu133a: This package has the following mappings: hgu133aACCNUM has 22283 mapped keys (of 22283 keys) hgu133aALIAS2PROBE has 53991 mapped keys (of 112379 keys) hgu133aCHR has 20351 mapped keys (of 22283 keys) hgu133aCHRLENGTHS has 93 mapped keys (of 93 keys) hgu133aCHRLOC has 20134 mapped keys (of 22283 keys) hgu133aCHRLOCEND has 20134 mapped keys (of 22283 keys) hgu133aENSEMBL has 19810 mapped keys (of 22283 keys) hgu133aENSEMBL2PROBE has 12942 mapped keys (of 19948 keys) hgu133aENTREZID has 20357 mapped keys (of 22283 keys) hgu133aENZYME has 3108 mapped keys (of 22283 keys) hgu133aENZYME2PROBE has 906 mapped keys (of 975 keys) hgu133aGENENAME has 20357 mapped keys (of 22283 keys) hgu133aGO has 19348 mapped keys (of 22283 keys) … > get("1007_s_at", hgu133aGENENAME) [1] "discoidin domain receptor tyrosine kinase 1" > get("1007_s_at", hgu133aENTREZID) [1] "780" > get(featureNames(ab)[1], hgu133aENTREZID) [1] "780" > mget(featureNames(ab)[1:3], hgu133aENTREZID) $`1007_s_at` [1] "780" $`1053_at` [1] "5982" $`117_at` [1] "3310"