Download inzamicroarrays

Document related concepts

Chip de ADN wikipedia , lookup

Programación de expresiones de genes wikipedia , lookup

Transcript
Trabajo del grupo ISG UPV-EHU en
clasificación supervisada para DNA
microarrays (mayo’00-junio’02)
Proyecto Elvira II
Albacete, Junio
2002
DNA microarray
Filas  genes; Columnas  casos, muestras,
biopsias, ejemplos, ‘cell-lines’...
¿Selección de genes en DNA microarray
‘supervisados’?








Area ‘pequeña’ dentro de la Bioinformática.
Dimensionalidad altísima (> 1,000).
Problemas supervisados: existe la variables clase.
Literatura: Brazma & Vilo’00, CAMDA’00-01, Golub’99,
Beibel’00...
En CAMDA  se cita la ‘selección de variables’ (Feature
Subset Selection = FSS) como un ‘topic’.
Coincidencias: pocos genes... ¿soprendente? No tanto... Y
buen porcentaje de bien clasificados.
Técnicas de clasificación supervisada utilizadas: SVM,
Discriminant Analysis,..., K-NN, Naive-Bayes, Arboles de
decision, Reglas de decisión (IF-THEN).
Explicatividad & comprensibilidad: árboles, reglas.
Varios ejemplos de DNA microarrays
DOMINIO
CLASE
GENES
Colon
Biopsia: ‘tumor’ vs. ‘normal’
2,000
Leukemia
Tipos leucemia: AML, ALL
7,129
NCI-60
9 tipos de tumores
1,376
Alizadeh’00
2 tipos de linfomas: ‘center Blike’, ‘activates B-like’
2,984
Chen’02
Hepato celular carcinoma vs.
Ausencia de tumor en hígado
17,400
Garber’01
Subtipos de cáncer de pulmón
24,000
Nuestras líneas de trabajo





Algoritmo de búsqueda: búsqueda secuencial, algoritmos
EDAs.
Función de evaluación: wrapper más que filter  son
posibles los tiempos de cómputo  búsqueda en el ‘areas’
de pocos genes.
Algoritmos de clasificación: K-NN, Naive-Bayes, árboles
de clasificación, reglas IF-THEN...
Software: propio y MLC++ (Stanford – SGI).
Nuestro ‘Talón de Aquiles’:


Interpretación ‘biológica’ de los resultados (modelos
clasificatorios, genes escogidos, porcentajes de error...).
‘Formación’ & ‘creación’ de las matrices de datos desde SMD.
Trabajos desarrollados


R. Blanco, P. Larrañaga, I. Inza, B. Sierra (2001).
“Selection of highly accurate genes for cancer
classification by estimation of distribution algorithms”.
Workshop of Bayesian Models in Medicine (AIME).
I. Inza, B. Sierra, R. Blanco, P. Larrañaga (2002). “Gene
selection by sequential search wrapper approaches in
microarray cancer class prediction”. Journal of Intelligent
and Fuzzy Systems.
Otras líneas aparte de la selección de genes

Algoritmo K-NN: pesado de atributos, búsqueda de los
pesos óptimos.


3 estados de relevancia en genes: underexpressed, baseline,
overexpressed.
Redes Genéticas:



Dimensionalidades ingentes  ¿Red Bayesiana?
Red Bayesiana “con simplificaciones”: número máximo de
padres... Aproximaciones por bootstrap.
CAUSALIDAD  en vez de “atacarlo” directamente, se
plantea estudiar las propiedades de las relaciones:




Relaciones de padre hijo o “esposos” “fuertes”.
Gen que “media” la relación directa entre otros dos: CI(X,Y|Z)
Activar / Inhibir: influencia directa de uno de los padres al
mantener los valores de los demás “fijos”.
Detección de “subredes funcionales”.
Referencias de interés

Congresos:




CAMDA: Critical Assesment of Microarray Data Analysis
ISMB: International Symposium on Molecular Biology
Revista: “Bioinformatics”
Lugares web:





Stanford Genomic Resources  Stanford Microarray Database
http://www.gene-chips.com/
Hebrew University (N. Friedman, D. Pe’er, I. Nachman...)
Tel Aviv University (R. Shamir)
Human Genome Working Draft: http://genome.ucsc.edu