Download Slide 1
Document related concepts
no text concepts found
Transcript
Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB) Objetivos Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles. Análisis de datos de microarrays El proceso de análisis Estudios de expresión diferencial con Partek GS Otros tipos de estudios High troughput data Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: High-troughput o de “alto rendimiento” Por ejemplo Microarrays (expresión, SNPs, exones,…). Proteómica (Mass-Spectormetry). Next Generation Sequencing … Análisis de datos de A.R. Los datos de alto rendimiento, con las herramientas y los métodos apropiados, permiten llevar a cabo estudios que habrían sido impensables sin ellos. Por ejemplo Selección de genes Busqueda de biomarcadores Estudios de asociación genética Detección de variantes víricas, etc. Análisis de microarrays Caso más conocido, “prototípico” de datos de A.R. Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….) Con algunas limitaciones que las nuevas tecnologías podrán superar EMPEZAREMOS por ellos. Tipos de estudios que se realizan usando microarrays de DNA (1): Class comparison (2): Class discovery (3): Class prediction Y muchos más tipos … Time Course Perfiles de expresión a lo largo del tiempo Pathway Analysis-(Systems Biology) Reconstrucción de redes metabólicas a partir de datos de expressión Whole Genome, CGH, Alternative Splicing Estudios con datos de distintos tipos Fusión o Integración de datos Herramientas para el análisis Programas de análisis de datos de genómica y protómica Multitud de herramientas Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] Descargables / En-linea [R, BRB, MeV…] / [Gepas,…] Aísladas / Parte de “suites” o de sitios [BRB, dChip] / [MeV (TM4), OntoTools] A survey of free microarray data analysis tools: http://chagall.med.cornell.edu/I2MT/MA-tools.pdf Programas de análisis libres Programa R/Bioconductor BRB tools dChip GEPAS Potente, flexible, actualizado, Consola, difícil de dominar Unix/Windows/Mac Basado en Excel, Si falla, falla User-friendly Expresión & SNP’s Difícil de extender Solo Windows User-friedly Web-based, Pocas opciones Web-based Multiples opciones, Manejo algo rígido Buen material … Programas de análisis comerciales Programa geneSpring Muy extendido Partek Extensible (R) ANOVA muy potente Ingenuity … Graficos potentes Modelos de ANOVA limitados CARO Mult. tipos de datos Sólo estadística “clásica” Visualización 3D BD de anotaciónes Análisis de significación biológica Centrada mayormente en datos de cáncer Difícil de extender Experimentos con microarrays Visión general del proceso (Affy) @Affymetrix Otra perspectiva general El proceso de análisis Workflow for a typical microarray experiment (1) Imágenes (Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica (1) Obtención de la imagen • Entra: Microarrays • Salen: … – Imágenes (1/chip) – Ficheros (.CEL, .CHP) • Información para cada sonda individual • Datos para el análisis de bajo nivel … 1.cel, 1.chp 2.cel, 2.chp – Control de calidad – Preprocesado – Sumarización (2) Control de calidad de bajo nivel … • Entra: – Imágenes (.CEL) 1.cel, 1.chp 2.cel, 2.chp • Proceso – Diagnósticos y Control de calidad – Análisis basado en modelos (PLM) • Salen: – Gráficos – Estadísticos de Affymetrix (3) Preprocesado … 1.cel, 1.chp 2.cel, 2.chp C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra: – Fichero de Imagenes • Proceso – – – – Eliminación de ruido Normalización Sumarización Filtrado • Sale: – Matriz de expresión (4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra – Matriz de expresión • Proceso – PCA, Cluster, MDS – Representaciones en 2D/3D – Agrupaciones • Sale – Detectado efectos batch – Verificación calidad (5) Análisis estadístico C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra: – Matriz expresión – Modelo de análisis • Proceso – t-tests, ANOVA • Ajustes de p-valores • Sale ProbeSet 1450826_a_at 1457644_s_at 1415904_at 1449450_at 1419209_at 1416576_at 1450330_at 1455899_x_at 1419681_a_at 1436555_at gene Saa3 Cxcl1 Lpl Ptges Cxcl1 Socs3 Il10 Socs3 Prok2 Slc7a2 ID 1450826_a_at 1457644_s_at 1415904_at 1449450_at 1419209_at 1416576_at 1450330_at 1455899_x_at 1419681_a_at 1436555_at logFC 4.911 4.286 -4.132 5.164 5.037 3.372 4.519 3.648 3.709 3.724 t 63.544 53.015 -50.455 49.483 47.175 42.107 42.056 40.821 40.645 40.081 P.Value 6.21E-14 3.52E-13 5.66E-13 6.82E-13 1.08E-12 3.19E-12 3.23E-12 4.29E-12 4.48E-12 5.12E-12 adj.P.Val 2.80E-10 7.69E-10 7.69E-10 7.69E-10 9.71E-10 2.08E-09 2.08E-09 2.12E-09 2.12E-09 2.12E-09 B 22.244 20.791 20.373 20.207 19.794 18.784 18.773 18.502 18.463 18.335 – Listas de genes • Fold change, p.values – Gráficos – Perfiles de expresión (6) Significación biologica ProbeSet 1450826_a_at 1457644_s_at 1415904_at 1449450_at 1419209_at 1416576_at 1450330_at 1455899_x_at 1419681_a_at 1436555_at gene Saa3 Cxcl1 Lpl Ptges Cxcl1 Socs3 Il10 Socs3 Prok2 Slc7a2 ID 1450826_a_at 1457644_s_at 1415904_at 1449450_at 1419209_at 1416576_at 1450330_at 1455899_x_at 1419681_a_at 1436555_at logFC 4.911 4.286 -4.132 5.164 5.037 3.372 4.519 3.648 3.709 3.724 • Entra – Listas de genes • Proceso – GEA, GSEA, … • Sale: – Clases GO / Grupos de Genes Pathways especialmente representados Estudio de casos Caso 1 Comparación de perfiles de expresión en AML con trisomía 8 o citogenética normal Descripción PNAS, January 30, 2001 vol. 98 (3) Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. No se dispone de información sobre el diseño experimental Esquema del análisis 1. Datos para el análisis 1. 2. 3. 4. 5. 6. 15 archivos .CEL (5 por grupo) Control de calidad [Expression console] Preprocesado [Partek] Exploración [Partek] ANOVA y selección de genes [Partek] Significación Biológica [Partek] 2. Control de calidad (1) • • • • • Descargar Expression Console de la web de Affymetrix affymetrix.com Instalarlo Iniciar Seleccionar archivos .CEL – Create New Study – Download library files – Add Intensity Files 2. Control de Calidad (2) • Probe cell intensity view: Examen de las imágenes • Una por chip • Box plot – Absolute intensity – Relative intensity 2. Control de Calidad (3) • Correlation plots – Pearson/Spearman – Signal/detection-p • Box plot – Absolute intensity – Relative intensity Control de Calidad (y 4): Métricas de CdC % Presence Scale Factor Análisis de los datos con Partek La suite genómica de Partek permite analizar datos de expresión Leer datos (.CELs o matriz de expresión) Explorar los datos (PCA/Cluster/MDS) Seleccionar los genes DE (ANOVA) Construccion de predictores Análisis de otros tipos de datos Exon arrays, SNP arrays, Tiling, CGH … Instalación de Partek El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez. Instalar el archivo setupPGS.6.08.0623-64Release.exe disponible en: \\servir3\recerca$Partek Ejecutar el archivo Se instala el programa Al iniciar el programa por 1ª vez pide El tipo de licencia “Floating License” Nombre del servidor “servir1” Lectura/Importación de los datos (1) Seleccionar archivos .CEL Seleccionar .CEL a importar Pulsar (2) Definir parámetros importación (3) Definir grupos y covariables (1) A cada hoja de datos se le ha de asociar una lista de covariables Grupo al que pertenece cada muestra Informaciones clínicas, biométricas, etc Puede prepararse a parte e importarlo o crearlo tras leer los datos. http://www.partek.com/Tutorials/micr oarray/User_Guides/CreatingSampleI nfoFile.pdf (3) Definir covariables (y 2) Tras llenar todas las columnas Save file (.txt) Combinar datos y covariables Merge Spreadsheets Grabar archivo resultante Save (format file, .fmt) Tools Create Sample Info File Seleccionar archivos CEL/CHP Añadir las columnas necesarias Definir el tipo de cada una Análisis de datos Para facilitar el proceso de análisis Workflows Itinerario sugerido desde los datos hasta los resultados finales Permite guardar y continuar en otro momento Existe un workflow para cada tipo de datos Workflow (WF) de análisis de datos de expresión WF (2.1): QA/QC. PCA PCA • Visualizacion de los datos en 2D/3D • Permite detectar efectos “fuera del diseño o del modelo” • Cada eje explica un mayor % que el siguiente Atención a la variabilidad total!!! WF (2.2): QA/QC. Histogram WF (3) Detect differentially expressed genes (DEG) 1. Seleccionar la(s) variable(s) para las que se desea realizar la comparación [Los factores del ANOVA] 2. Definir las comparaciones entre grupos [Los contrastes a efectuar] 3. Ejecutar el análisis WF (3.1) Selección de factores • Los factores representan las distintas fuentes de variación en los datos. • Deben definirse como variables categoricas o “factor” al crear el archivo de covariables WF (3.2) Contrastes • • • Opción “Advanced” del dialogo ANOVA Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo. Comparaciones individuales (Grupo 1-Grupo 2) o más complejas (Tr1+Tr2+Tr3)/3-Ctl WF (3.3) Resultados • Para cada gen se obtiene los resultados de – Significación global – Significaciónn de cada contraste deseado • De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…) WF (3.3) Sources of variation • Como en todo ANOVA la variabilidad explicada debe ser mayor que el error. • Muy útil si hay más de 2 factores y uno es un efecto Batch. WF (3.4) Multiple testing • Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR). – Stat Multiple Test False Discovery Rate (FDR) • El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR. WF (3.5) Create Gene Lists • Para cada comparación realizada puede obtenerse una lista de genes seleccionados. • A partir de las listas pueden hacerse gráficos diversos – Venn – Heatmaps WF (4): Visualización • Dada una lista de genes un heatmap permite visualizar patrones de expresión que pueden sugerir que ciertos grupos de genes se encuentran coregulados. WF (5) Biological significance El programa permite realizar diversos tipos de análisis para ayudar a entender los procesos biológicos implicados Análisis de enriquecimiento sobre categorías de la Gene Ontology. Deteccion de categorias diferencialmente enriquecidas entre grupos experimentales. Enviar las listas de genes a Ingenuity. WF (5.1) GO Enrichment Resumen y Conclusiones El análisis de microarrays puede visualizarse como un proceso. Es importante conocer Los parámetros El significado, Las limitaciones de cada paso. Una herramienta como Partek puede ayudar a seguir este proceso con relativa confianza.