Download ETSE_microarrays(1)

Document related concepts

Genómica nutricional wikipedia , lookup

EQTL wikipedia , lookup

Programación de expresiones de genes wikipedia , lookup

Perfil de expresión génica wikipedia , lookup

Chip de ADN wikipedia , lookup

Transcript
Biocomputación aplicada al análisis
de microarrays.
http://ibb.uab.es/revresearch
Dogma de la biología molecular
DNA->RNA->Proteínas->Fenotipo
DNA - GEN
Expresión Gen ->... Proteína->...
Función celular.
Traducción RNA -> Proteína::
4 bases nitrogenadas -> 20 aminoácidos
RNA
Proteina
Proteínas :: Estructura espacial
funcional
Regulación génica :: El sistema se
retroalimenta
. Las proteínas sintetizadas propician o
inhiben la expresión de nuevos genes.
. Además lo hacen interactuando entre ellas
y con señales externas.
Problemas que afronta la biología
computacional.
Similarity search
Proble ms in Biological Science
Pairwise sequence alignment
Database search for similar
sequences
Mult iple sequence alignment
Phylogenetic tree
reconstruction
Prot ein 3D structure
alignment
Structure/func tion ab initio prediction
prediction
Knowledge based
prediction
Mole cular classifi cation
RNA seconda ry struc ture
prediction
RNA 3D structure prediction
Protein 3D structure prediction
Motif extraction
Func tiona l sit e prediction
Cellular locali zation p rediction
Coding region p rediction
Transmembrane domain
prediction
Protein seconda ry structure
prediction
Protein 3D structure prediction
Supe rfamil y classification
Ortholog/p aralog grouping of
gene s
3D fold classification
Math/Stat/CompSci method
Optimi zation algorithms
 Dynamic progra mmi ng
(DP)
 Simulated annealing (SA)
 Genetic algorithms (GA)
 Markov Chain Monte
Carlo (MCMC:
Metropolis and Gibbs
sampl ers)
 Hopfield neural networ k
Pattern recogn iti on and
learning algo rit hms
 Discrimi nan t ana lysis
 Neural networks
 Suppor t vec tor machin es
 Hidden Markov models
(HMM)
 Forma l gramm ar
 CART
Clustering algorithms
 Hierarchical, k-means , etc
 PCA, MDS, etc
 Self -organ izing maps, etc
Genómica :: Genes-DNA
Genómica :: alineamiento de
secuencias.
GAP
Proteómica:: Determinar la funcionallidad,
interactividad y posibilidades de la proteína.
La Estructura espacial es
clave en la operativilidad de
la proteína.
Problemas NP complejos -> Métodos
heurísticos y aproximación polinomial
Utilizan principios matemáticos, sobretodo el análisis probabilístico,
para encontrar resultados cercanos al óptimo.
Fixed-parameter tractability : an approach to attacking NP-hard
problems with multiple inputs. Abordaje de un problema NP-complejo
usando múltiples parámetros o entradas que acaban reduciendo el
problema.
Regulación génica :: el
comportamiento celular.

Tecnología de Microarrays.
–
Permiten estudiar en qué grado y bajo qué
circunstancias se van expresando los genes.


Ventajas : Tenemos el nivel de expresión de miles de
genes bajo las mismas circunstancias.
Limitación : No tenemos la interacción de las proteínas
producto de esa expresión.
Micrarray technology :: miles de genes bajo
las mismas condiciones experimentales
Condiciones muestrales
Genes
Por qué varía el grado de expressión
de los genes.
Promoter
Enhancer
Microarrays para la comparación de
tejidos.
Aplicando drogas,
sustancias, o
cambiando las
condiciones
experimentales.
Stimulus
Signal Transduction
Transcription
mRNA
Downward, Nature, 411, 759, 2001
La tecnología de microarrays produce
mucho ruido.
Affimetrix
Incyte
660
206
58
47
3
50
34
Agilent
Cicatiello et al. Napoli, It; NETTAB Workshop Nov. 2003
Análisis básicos de Microarrays


Encontrar genes marcadores.
Agrupar genes y condiciones muestrales.
–
clustering
Gene clustering

Los genes co-regulados se expresarán igual
bajo las mismas circunstancias.

Estudio de similitud entre las expresiones de genes.
Estudio de las distancias entre la expresión de
dos genes
Minkowski distance
d (i, j)  q (| x  x |q  | x  x |q ... | x  x |q )
i1
j1
i2
j2
ip
jp
If q = 1, d is Manhattan distance (semi-metric distance)
d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1
i2 j 2
ip j p
If q = 2, d is Euclidean distance (metric distance)
d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1 j1
i2 j 2
ip
jp
Pearson correlation coefficient (semi-metric distance)
n
( x  x )( x  x )
i 1 i1 1 i2 2
d (i, j) 
n
2 n ( x  x ) 2
 (x  x )
i 1 i1 1
i 1 i 2 2


aij | cor ( xi , x j ) |
Genes
X
Genes
-0.2
0.2
-0.1 0.2
-0.1 0.2
-2.0
0.0
Martingale.Res
0.2
ME.blue
-0.2
0.08
0.22
-0.2
0.19
0.2
ME.brow n
-0.1 0.2
ME.green
0.14
0.42
0.27
0.09
0.78
0.09
-0.2 0.1
ME.grey
0.55
-0.1 0.2
ME.turquoise
0.12
0.41
0.39
0.67
0.72
0.01
-2.0
0.0
0.07
0.13
-0.2
0.2
0.08
0.04
-0.2 0.1
-0.3 0.0
ME.yellow
0.34
-0.3 0.0
Agrupar los genes por similitud
(clustering).

Para agrupar los genes
usaremos técnicas de
clustering.
Microarray con los genes
agrupados por similitud
Calcular la distancia entre Clusters




Single-linkage
clustering :: nearestneighbour
Complete-linkage ::
furthest-neighbour
Average-linkage ::
unweighted pair-group
method average
(UPGMA)
...
Aglomerative clustering.
0
1
a
b
c
d
e
genes
a,b
2
3
4
Aglomerative clustering.
0
1
2
a
b
a,b
c
d
e
genes
d,e
3
4
Aglomerative clustering.
0
1
2
3
a
b
a,b
c
d
e
genes
c,d,e
d,e
4
Aglomerative clustering.
0
1
2
3
4
a
b
a,b
a,b,c,d,e
c
d
e
c,d,e
d,e
…y tenemos el hierchical clustering
genes
Hierarchical clustering
Two-way
clustering
of genes (y-axis)
and cell lines
(x-axis)
(Alizadeh et al.,
2000)
We can extract
conclusions!
K-means clustering
Step 4 – Points re-assigned to nearest centroid
Step 5 – New centroids calculated
Iterates until
centroids don’t
move
K=3
Self-organizing maps (SOM)
Principal components analysis (PCA)
An exploratory technique used to reduce the
dimensionality of the data set to 2D or 3D
For a matrix of m genes x n samples, create a new
matrix of size n x n
Thus transform some large number of variables into
a smaller number of uncorrelated variables called
principal components (PCs).
Page 211
PCA: objectives
• to reduce dimensionality
• to determine the linear combination of variables
• to choose the most useful variables (features)
• to visualize multidimensional data
• to identify groups of objects (e.g. genes/samples)
• to identify outliers
Page 211
PCA examples
Support Vector Machines (SVM)


Linear classifiers
Attempt to avoid overfitting by finding the optimal hyperplane
that separates the data
HOW???
By maximizing the Margin..
Support Vectors
Introduced by V.Vapnic and co-workers in 1995
Support Vector Machines (SVM)
And what about datasets that are not linearly separable??
Map the data into higher dimensional space and make linear
classification there (theorem!!)

Support Vector Machines (SVM)
SVM: More experiments…
T.furey, N.Cristianini, N. Duffy, D. Bednarski, M. Schummer and D Haussler, “Support Vector Machine Classification and Validation of
Cancer Tissue Samples Using Microarray Expressioin Data”, Bioinformatics, 2000.
Gene expression data on tissue
97,802 DNA clones
31 tissue samples
Genes
Experiment
ex-1
ex-2
…….
g-1
g-2
……
g-n
Cancer ovarian
Normal ovarian
Normal non-ovarian
Cancer
Not Cancer
...
…….
...
Tissue
ex-m
Cancer
Classification
Herramientas para el análisis de
microarrays


Software específico
Software stadístico
–
–
–
–
–
–
–
–
Excel
MATLAB
Octave
SAS
SPSS
S-PLUS
Statistica
R
Free Software for microarray analysis GEPAS
Free Software for microarray analysis TM4
Geo – Una base de datos de
microarrays.
Geo – Buscando genes marcadores
Geo – Buscando genes marcadores
Number of probesets
Geo – Buscando genes marcadores
Genes
marcadores
GEO – Expresión de los genes marcadores

Example: Breast cancer
• Left y-axis is (supposed to
be) log two based (must
check to verify) expression
level.
• Right y-axis is the percentile
of this expression level in
the entire chip.
• All the chips are normalized.
Geo – Buscando de qué patologías es
marcador un gen
Geo – Buscando de qué
patologías/procesos es marcador un
gen
Data mining software and
knowledge discovery

Main purposes
1.
Filtering and normalization
2.
Statistical inference of differentially expressed genes
3.
Identification of biologically meaningful patterns, i.e.
expression profile; expression fingerprint/ signature
4.
Visualization
5.
Other analysis like pathway reconstruction etcs.
Cruzar la información extraída de la
microarray con otras bases de datos
con información biomédica.
Microarray
analysis pipeline
Gene markers and
Global analyisis
Data mining and
knowledge discovery
IBB-UAB :: Nuestro objetivo principal
en el microarray analysis


Extraer la máxima información útil al gran
número de genes y condiciones muestrales.
A partir de microarrays con largo número de
condiciones muestrales, modelar el
comportamiento holístco de la célula/tejido
analizado.
Estrategias para obtener el
comportamiento holístico de la célula.




Estudio de las relaciones LINEALES entre las
expresiones de genes.
Estudio de las relaciones NO LINEALES entre las
expresiones de genes.
Estudio de las relaciones NO CONTÍNUAS entre las
expresiones de genes.
Facilitar la navegación a través de la información
generada.
–
Ampliar el análisis progresivamente incluyendo más genes
y agrupando las muestras en clases de muestras.

aij | cor ( xi , x j ) |
Genes
X
Genes
-0.2
0.2
-0.1 0.2
-0.1 0.2
-2.0
0.0
Martingale.Res
0.2
ME.blue
-0.2
0.08
0.22
-0.2
0.19
0.2
ME.brow n
-0.1 0.2
ME.green
0.14
0.42
0.27
0.09
0.78
0.09
-0.2 0.1
ME.grey
0.55
-0.1 0.2
ME.turquoise
0.12
0.41
0.39
0.67
0.72
0.01
-2.0
0.0
0.07
0.13
-0.2
0.2
0.08
0.04
-0.2 0.1
-0.3 0.0
ME.yellow
0.34
-0.3 0.0
Análisis no lineal de las relaciones
entre la expresión de los genes


Hay genes que están relacionados no
linealmente.
Usaremos las Principal Curve of Oriented
Points.
The PCOP is a very suitable analysis
for recognising non-lineal patterns
among independent variables.
POPj
POPi
The PCOP is a very suitable analysis
for recognising non-linear patterns
among independent variables.
POPj
POPi
Gene-expression relationships
detectable by PCOP analysis.



Positively co-expressed genes.
Negatively co-expressed genes.
Genes mutually excluding in their
expression.


genes which are dependent in their expression only
because one of the genes must be over-expressed or
under-expressed to activate the expression fluctuations
of the other gene.
Non-linear correlated genes.
One of the main keys of the PCOP is
the calculus of the correlation factor.




The Variance explained by the curve: Permits one
to know if the Principal Curve is able to follow the
sample-cloud tendency. Goes up when the sample
cloud has a regular behaviour being well identified
by the Principal Curve.
Residual Variance: The degree of dispersion of the
samples around the Principal Curve.
The Generalized Total Variance: The sum of these
two dispersion parameters.
f factor: RV divided by the GTV
Correlations graph and minimum-spanning-tree among the
same microarray gene-expressions using R2 correletion or
the f value provided by the PCOP calculus.
( PCOP )
Minimum spanning tree among the same microarray genes
using R2 and the f value provided by the PCOP calculus.
Only co-expressed
Not only co-coexpressed
Ampliar el análisis en función de las
relaciones contínuas
1.
2.
El usuario introduce n genes marcadores
El sistema proporciona los genes que
relacionan esos genes marcadores en
términos de expresión génica.
Ampliar el análisis en función de las relaciones contínuas.
Query genes
Selected genes
Ampliar el análisis en función de las relaciones contínuas.
Query genes
Selected genes
A medida que nos alejamos de
los genes marcadores los genes
seleccionados tienen una mayor
correlación entre sí.
Ampliar el análisis en función de las
relaciones no contínuas.

Hay genes que no están correlacionados
para toda su expresión sino sólo para parte
de ella.
Definición de clases

Por conocimientos previos
–
–


Biomédico (clases del Geo)
Estadístico (PC, Biclustering, etc..)
Por rango de expresión.
Por describir una parte concreta de la
relación entre unos genes.
Seleccionando un POP son seleccionadas
las muestras que pertenecen al hypercluster del POP
POPj
Hyper-clusteri
POPi
Hyper-clusterj
Definición de clases

Cada clase representará un estado celular
concreto en el cual los genes se comportan
de determinada manera.
Búsqueda de genes que sigan
determinada distribución de las clases
en su expressión.


Ej. Las muestras de la clase A se
sobrexpresan respecto a las muestras de la
clase C.
El sistema nos proporciona los genes
marcadores.
–
Analizando dichos genes podemos seguir
perfilando el estado celular que representa la
clase.
Redefinir las clases
Redefinir las clases
Clase orignial:
Remodelación de tejido
Nueva subclase A:
Remodelación de tejido Sin
diferenciación celular
Nueva subclase B:
Remodelación de tejido Con
diferenciación celular
Redefinir las
clases
Redefinir las clases
progresivamente según
los intereses del
usuario.
Cruzar la información con Bases de
datos remotas


Buscar si los genes marcadores de nuestras
clases son genes marcadores en las BD
Geo.
Buscar nueva información sobre los genes
marcadores.
–
–
–
–
Si sus proteínas interactúan
Si pertenecen a una vía de activación conocida.
Si hay artículos científicos que los relacionan.
...
Cruzar la información con Bases de
datos remotas
Objetivo :: caracterizar el estado
celular que representa cada clase de
muestras

Abarcar el máximo nº
de genes
pertenecientes al
máximo nº de procesos
diferentes
–
Obtener el
comportamiento holístico
de la célula.
Estudio de los tumores desde una
perspectiva holística
Estrés celular; proliferación celular;
diferenciación celular; Inferencia del sist.
nervioso; actividad mitocondrial; niveles de
pH; potencial de membrana; canales de
iones; ROS; PPARs; ritmos circadianos;
respuesta inmunológica; actividad
bacteriana; apoptosis; metástasis.
Nuestra línea de investigación :: Revertir
el dogma de la biología molecular
¿La evolución no es
producto del azar?
Las mutaciones forman parte de
un proceso adaptativo
(aprendizaje no supervisado).
Gran parte de las enfermedades que
hombres y animales sufren son
producto de este proceso adaptativo.
Estrés celular y cáncer.
Mutaciones