Download Tema 6: Expresión Génica (4)

Document related concepts

Perfil de expresión génica wikipedia , lookup

Clúster de genes wikipedia , lookup

Bloqueo de genes wikipedia , lookup

Terapia génica wikipedia , lookup

Producto génico wikipedia , lookup

Transcript
Bioinformática Clásica
Bioinformática Clásica
Tema 6: Expresión Génica (4)
Aglomeración y Clasificación
Dr. Oswaldo Trelles
Universidad de Málaga
En la sección anterior se explicó la
identificación de genes con expresión
diferencial y se introdujeron las dos
aplicaciones de mayor uso en el dominio
de la expresión génica: la aglomeración o
clustering y la clasificación.
El primero busca identificar grupos de
genes con patrón de comportamiento
similar, mientras que la segunda se basa
en la identificación de genes que
diferencian entre clases.
Veamos ahora en detalle estos conceptos
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Matriz de Datos
Análisis de expresión:
n vectores de p variables, donde:
n: número de genes (spots en el chip)
p: número de muestras (número de chips)
Análisis fenotípico:
n vectores de p variables
n: número de muestras (número de chips)
p: número de genes (spots en el chip)
Nota: Además de la identificación y los valores de
expresión, los genes pueden incluir otra información
(anotaciones o metadatos), como términos GO, EC, etc.
Lo mismo es válido para las muestras que pueden
incluir edad, sexo, etc. dependiendo del experimento
Tema 6: Expresión Génica (4)
La matriz de datos de expresión génica
contiene en las filas los genes y los
experimentos en las columnas. En algunas
aplicaciones –i.e. análisis fenotípico- la matriz
se trabaja transpuesta.
Los valores se trabajan como:
log2( ratio (diana / control ) )
Los valores negativos indican ratio menor que
uno, por tanto la diana se expresa menos que
el control; y logaritmos positivos indican ratio
mayor que uno (la expresión en la diana es
mayor que en el control).
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Aglomeración
o Clustering
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
La aglomeración o clustering
Bioinformática Clásica
El “perfil de expresión” de un gen está formado por los niveles de
expresión de dicho gen en cada uno de los experimentos.
Cada gen tiene su perfil de expresión particular, que puede ser
muy similar al de otros genes
Clustering: busca formar grupos de genes con comportamiento
similar (perfil de expresión) en la hipótesis que su co-expresión es
indicador de participar en el mismo proceso biológico.
Para agrupar es necesario definir una medida de distancia o de
semejanza (Euclídea, correlación,...), el método de agrupamiento
(jerárquico, particional, ...), etc
Arriba, los valores (perfil) de
expresión de un gen en 4
slides. En medio, el perfil de
3 genes y debajo un cluster
jerárquico de la matriz.
Eje X: muestras
Eje Y: nivel de expresión
Cada línea: Un gen
Tema 6: Expresión Génica (4)
A la izquierda se muestra un grupo
de genes (45 de un total de 18000)
que han sido agrupados usando
un algoritmo jerárquico (el árbol a
la derecha). De este resultado se
han elegido los grupos o clusters
(mostrados en el centro como una
matriz de rojos y verdes) y a la
izquierda los “perfiles de
expresión” respectivos de dos de
los grupos. Claramente el
comportamiento es similar.
Campus Virtual Andaluz, 2007
Resultados esperados
Bioinformática Clásica
¿ Qué genes se expresan diferencialmente ?
– En distintas células
– En condiciones externas diferentes
– En diferentes estados de enfermedades
¿ En cuánto han cambiado sus niveles de expresión?
¿ El cambio en la expresión se correlaciona con otros parámetros externos?
Técnica de elección: Estadística descriptiva
¿Se pueden utilizar los datos de expresión génica para “predecir” la función de genes
con función “desconocida” ?
Técnica de elección: Métodos de clasificación supervisados
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Resultados esperados
•
¿ Se pueden usar los patrones de expresión de los genes para agrupar genes cuya
función se desconoce?
– Clasificación funcional de genes de función desconocida.
– Identificación de grupos de genes con expresión similar
– Identificación de patrones de expresión de genes “diagnóstico” (cuya función se
conoce)
•
•
Los procesos biológicos usualmente involucran genes de muchas categorías funcionales.
El conocimiento de que genes actúan coordinadamente ayudaría enormemente en el
desarrollo de nuevos fármacos más específicos.
Técnica de elección: Agrupamiento o clustering
Objetivo: Encontrar grupos o “clusters” naturales. Los datos en un mismo grupo o cluster
deben ser “más similares”
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Medida de Semejanza o de Distancia:
Euclídea vs. Correlación
Euclidea: Tiende a agrupar perfiles de
acuerdo al valor absoluto de las diferencias
entre los niveles de expresión. Rojo y Azul
Correlación: Tiende a agrupar perfiles de
acuerdo a la tendencia de los mismos.
Verde y Azul
En expresión génica la correlación suele
reproducir mejor el modelo biológico de
relación entre genes.
Euclidea:
d x, y =
p
∑(x − y )
i
2
i
i =1
Correlación:
Tema 6: Expresión Génica (4)
d x, y
(
1 p  xi − x
= ∑
p i =1  δ x

)   ( y − y ) 
i


δy


Campus Virtual Andaluz, 2007
Bioinformática Clásica
Distancia entre grupos
Para
Paracalcular
calcularlaladistancia
distanciaentre
entregrupos:
grupos:
Single
entre
SingleLinkage:
Linkage:
entreelelpar
parde
depuntos
puntosmás
máscercano.
cercano.
Complete
Linkage:
entre
el
par
de
puntos
más
alejado.
Complete Linkage: entre el par de puntos más alejado.
Average
Linkage:
promedio
entre
todos
los
Average
Linkage:entre
promedio
entre
todos
lospares
paresde
depuntos.
puntos.
Distancia
los
grupos
que
se
unen
Centroids:
distancia
entre
los
centros
de
los
clusters.
Centroids:
distancia entre los centros de los clusters.
4
2
5
3
1
1
3
2
4
5
El
ElDendrograma
Dendrogramaexplicita
explicitaelelorden
ordende
deaglomeración
aglomeración
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Métodos de aglomeración
Bioinformática Clásica
El clustering es uno de los temas de estudio más activos y con mayor diversidad de
propuestas (revisar la literatura disponible).
Sin embargo no hay una solución final. Hay muchos aspectos que influyen en los
resultados; por ejemplo el método de distancia escogido (el ‘single linkage’ produce grupos
alargados mientras que el ‘complete linkage’ los hace esféricos); no todos los métodos son
robustos en presencia de ruido o dependen de los valores aleatorios iniciales o del número
de grupos a crear.
Por otra parte, al trabajar con gran cantidad de genes (cerca de 20 mil actualmente) se
necesita una buena potencia de cálculo para poder iterar sobre distintos conjuntos de
parámetros o para combinar métodos (algunas veces se puede recurrir a la eliminación de
genes con perfiles planos que indica que no cambian de expresión en los diferentes
experimentos).
Exp.1
Exp.2
Exp. 3
Exp.4
Vamos a presentar ahora los tres grandes métodos´: Jerárquico, particionado y mapas
auto-organizados. A partir de ellos hay multitud de ligeras variantes que refinan las
propuestas para casos específicos.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Clustering Jerárquico
Al igual que hicimos para alinear progresivamente varias secuencias (ver tema 4) una de
las aproximaciones más atractiva es el llamado clustering jjerárquico, o progresivo que
justamente consiste en ir agrupando los perfiles que más se parecen entre sí.
Dadas n secuencias a alinear:
1.- Se calcula la matriz de semejanzas M(i,,j) entre cada par de perfiles
2.- Se calcula el orden o topología del alineamiento a partir de M(i,j)
3.- Se procede a alinear parejas en el orden sugerido por la topología
Estas parejas pueden estar formadas por: (a) dos perfiles, (b) un perfil y un
grupo o (c) entre dos grupos (aquí se usan las diferentes distancias, simple,
completa, media, etc)
M(i,j) represente el parecido o la distancia entre el perfil del gen i y el del gen j
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Clustering particional : K-means
Inicia con K-centros en
posición aleatoria
Asigna cada uno de los
puntos a su centroide
más cercano).
Mueve los centroides
hacia los “centros“ de los
puntos asignados.
Bioinformática Clásica
Itera hasta que los
centroides se
estabilicen.
K-means (o K-medias)
•
•
•
Los resultados dependen de las posiciones iniciales de los centroides.
Algoritmo rápido: solo calcula las distancias de los puntos de datos a los centroides.
El número de grupos (K) hay que decidirlo de antemano (gran desventaja!)
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Redes Neuronales
Los Mapas Auto-organizados (Self Organizing
Maps: SOM) son modelos de redes neuronales
de diversa topología que buscan organizar los
datos según el estímulo que producen.
A diferencia de los métodos cuyos centroides no
guardan relación (i.e. k-means), en los mapas,
cada dato no solo afecta (acerca) a su neurona
“ganadora” sino también a sus vecinas.
Existen muchos modelos de redes SOM, siendo las más usadas las de topología rectangular y las
hexagonales. Cada “perfil de expresión” (dato de entrada) se compara con el valor actual de cada
neurona (en forma de perfil de expresión) para encontrar la más parecida a él. Al finalizar las
comparaciones, cada neurona ha identificado sus genes parecidos y ellos modifican el perfil de su
neurona y de la de arriba, abajo, izquierda, etc, dependiendo de la topología.
Al final, cada neurona o el “Mapa” se ha auto-organizado,
estando los perfiles parecidos cercanos entre sí.
Actividad: Buscar definición y funcionamiento
de las redes neuronales y SOM en particular.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Redes Neuronales: SOM
Bioinformática Clásica
SOM no es precisamente un método de
aglomeración, porque no define clusters.
Es necesario post-procesar los datos
para identificar los grupos marcados y
sus transiciones.
En el ejemplo un mapa de 20x10. Arriba
los centroides de las 200 neuronas,
observe el parecido entre neuronas
cercanas. Debajo se han sombreado
neuronas con perfiles similares para
finalmente decidirse por 15 grupos.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Comentarios finales
•
Paso final: Búsqueda de función de los genes
Una vez creados los clusters, el paso final sería la
búsqueda de la función de los genes en cada uno
de los clusters.
Para ello hay que recurrir a las anotaciones en las
bases de datos, como GenBank, UniGen, ONIM,
GeneCards, SwissProt, EMBL, etc; o a ontologías
biológicas como los GO-terms etc.
Table 1: Description and biological function of the
genes found in subcluster 14a.
Gene
Biological
Function
M28130
Interleukin 8
Inflammatory
response
M60278
Heparin-binding EGFlike growth factor
Signal
Transduction
M69043
MAD-3 encoding IKBlike activity
Transcription
Factor
Aunque los microarrays se han consolidado como una de las
alternativas más utilizadas, aun tiene ciertas limitaciones:
U18062
TFIID subunit TAFII55
Transcription
Factor
El análisis del DNA no permite predecir si las proteínas están
en un estado activo.
U65093
Msg1-related 1 (mrg1)
Transcription
Factor
U89505
Hlark
Transcription
Factor
X78687
Neuraminidase 1
Lisosomal
Hidrolase
Z34974
Plakophilin
Adhesion
•
Limitaciones
A pesar de la correlación existente entre la cantidad de mRNA
producido en la célula y la cantidad de proteína sintetizada, su
cuantificación no es directa, por lo que no siempre refleja los
niveles correspondientes de proteínas.
Un mismo gen puede producir múltiples proteínas si se tiene
en cuenta la postraducción y el splicing alternativo.
Gene
Bank
ID
Por lo tanto la técnicas de microarray solo permiten una
estimación cualitativa del proteoma y aún se requieren
técnicas mas avanzadas para su estudio .
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Lecturas recomendadas
Bioinformática Clásica
Referencias
•
Alizadeh A.A., Eisen M.B., Davis R.E., Ma C., et.al. (2000) Distinct types of diffuse large
B-cell lymphoma identified by gene expression profiling. Nature 403: 503-11.
Brazma A., Vilo, J. (2000). Gene expression data analysis. FEBS Lett.. 14 (1), 17-24.
Eisen, M., Spellman, P.T., Botstein, D. & Brown, P.O. (1998). Cluster Analysis and
display of genome-wide expression patterns. Proc. Nat. Acad. Sci. USA 95, 14863-14867
Kohonen T. (1997) Self-Organizing maps, Second Edition, Springer-Verlag.
Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Dmitrovsky, E., Lander, E.S. & Golub, T.R.
(1999) Interpreting patterns of gene expression with self-organizing maps: methods and
application to hematopoietic differentiation. Proc. Natl. Acad. Sci USA 96, 2907-2912.
Törönen, P., Kolehmainen, M., Wong, G. and Castrén, E. (1999). Analysis of gene
expression data using self-organizing maps. FEBS Lett., 451, 142-146.
•
•
•
•
•
Recursos Web
•
•
•
•
•
•
Affymetrix: www.affymetrix.com
Stanford Microarray Database: http://genome-www5.stanford.edu/MicroArray/SMD/
Microarray Informatics at the EBI: http://www.ebi.ac.uk/microarray/
Gene expression links: http://industry.ebi.ac.uk/~alan/MicroArray/
http://www.microarrays.org/
Other links: http://www.mpiz-koeln.mpg.de/~weisshaa/Adis/DNA-array-links.html
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
engene: The gene-expression processing tool
Bioinformática Clásica
Visualization
Visualization
Clustering
Clustering
••DNA
DNAarrays
arrays
••Cluster
Clusterprofiles
profiles
••Maps
Maps
••Silhouettes
Silhouettes
••Trees
Trees
••U-Matrix
U-Matrix
••Histograms
Histograms
••KKMeans
Means
Distances
Distances
••Fuzzy
FuzzyKKMeans
Means
• Euclidean
••Double
DoubleThreshold
Threshold • Euclidean
••Correlation
••Hierarchical
Correlation
Hierarchical
••Absolute
••SOM
AbsoluteCorrelation
Correlation
SOM
••Manhattan
••Batch
Manhattan
BatchSOM
SOM
••Weighted
••Fuzzy
Weighted
FuzzySOM
SOM
Pre-processing
Pre-processing
••KerDenSOM
KerDenSOM
••Data
Datafilling
filling
••Fuzzy
Kohonen
Clustering
Fuzzy Kohonen Clustering
••Mean/Median
Mean/MedianCentering
Centering
••Threshold
Threshold
Post-processing
••Logarithmic
Post-processing
LogarithmicTransform
Transform
••Silhouette
••Normalization
Silhouettevalue
valueoptimisation
optimisation
Normalization
••KDD,
••Sammon
KDD,association
associationrules
rules
Sammon
••Statistical
StatisticalSignificance
Significance
Nuestra cosecha en:
••Weighted
WeightedSchema
Schema(GA)
(GA)
http://chirimoyo.ac.uma.es/bitlab
••PC
PCAnalysis
Analysis
www.bitlab.es
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Trabajos en el área (1)
Alizadeh A.A., Eisen M.B., Davis R.E., Ma C., et.al. (2000); “Distinct types of diffuse large B-cell
lymphoma identified by gene expression profiling”; Nature 403: 503-11.
Depicted
Depictedare
arethe
the~1.8
~1.8million
millionmeasurements
measurementsofof
gene
geneexpression
expressionmade
madeon
on128
128microarray
microarray
analyses
of
96
samples
of
normal
analyses of 96 samples of normaland
and
malignant
lymphocytes.
The
dendrogram
malignant lymphocytes. The dendrogramatatthe
the
left
lists
the
samples
studied
and
provides
a
left lists the samples studied and provides a
measure
measureofofrelatedness
relatednessofofgene
geneexpression
expressioninin
each
eachsamples.
samples.The
Thedendrogram
dendrogramisiscolor
colorcoded
coded
based
on
the
category
of
mRNA
sample
based on the category of mRNA sample
studied
studied(see
(seeupper
upperright
rightkey).
key).Each
Eachrow
row
represents
a
separate
cDNA
clone
on
represents a separate cDNA clone onthe
the
microarray
and
each
column
a
separate
microarray and each column a separatemRNA
mRNA
sample.
The
scale
extends
from
fluorescence
sample. The scale extends from fluorescence
ratios
ratiosofof0.25
0.25toto44(-2
(-2toto+2
+2ininlog
logbase
base22units).
units).
Grey
indicates
missing
or
excluded
data.
Grey indicates missing or excluded data.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Trabajos en el área (2)
Bioinformática Clásica
Eisen, M., Spellman, P.T., Botstein, D. & Brown, P.O. (1998).
Cluster Analysis and display of genome-wide expression
patterns. Proc. Natl. Acad. Sci. USA 95, 14863-14867.
Single
Singletime
timecourse
coursedata
dataofofaacanonical
canonicalmodel
modelofofthe
thegrowth
growth
response
in
human
cells:
clustered
data
from
serum
response in human cells: clustered data from serum
simulation
simulationofofprimary
primaryhuman
humanfibroblasts.
fibroblasts.Briefly,
Briefly,foreskin
foreskin
fibroblasts
were
grown
in
culture
and
were
deprived
fibroblasts were grown in culture and were deprivedofof
serum
serumfor
for48
48hours.
hours.Serum
Serumwas
wasadded
addedback
backand
andsamples
samples
taken
at
time
,
0,
15
min,
30
min,
1h,
2h,
3h,
4h,
8h,
taken at time , 0, 15 min, 30 min, 1h, 2h, 3h, 4h, 8h,12h,
12h,
16h,
20h
and
24h.
Five
clusters
were
identify
containing
16h, 20h and 24h. Five clusters were identify containing
known
knowngenes
genesinvolved
involvedin:
in:
(A)
(A)cholesterol
cholesterolbiosynthesis
biosynthesis
(B)
The
cell
cycle
(B) The cell cycle
(C)
(C)The
Theimmediate-early
immediate-earlyresponse
response
(D)
(D)Signaling
Signalingand
andAngiogenesis
Angiogenesis
(E)
(E)Wound
Woundhealing
healingand
andtissue
tissueremodeling.
remodeling.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Clasificación
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Uso de los datos de expresión génica: Clasificación
Selección de los genes con
comportamiento diferente entre
clases para ser usados como un
predictor de clases.
Permite realizar
el diagnóstico
con solo unas
pocas varibales
La clasificación busca diferenciar entre clases. Conociendo la procedencia de los datos (i.e clase “A”
pacientes enfermos y clase “B” personas sanas), podemos analizar los datos búscando aquellos
elementos (en este caso: genes) que mejor permitan diferenciar entre clases, a fin de se usados como
medio de ayuda en el diagnóstico.
Así por ejemplo, de los ≈ 40 mil genes humanos nos gustaría poder elegir unos 50 genes que nos
permitieran diagnosticar si una persona padece la enfermedad o no.
Observe en la figura que esta vez miramos los genes en horizontal, mientras que en vertical están las
muestras. Las líneas amarillas en medio de la matriz representan el “perfil de expresión” de cada clase,
debajo los genes que se expresan de forma diferente en las dos clases y finalmente, la comparación de
los genes de un nuevo paciente contra el “clasificador”.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Clasificación (2)
Clasificación: Consiste en asignar una muestra
a una determinada (a priori) clase.
Bioinformática Clásica
El problema de asignar una clase a una muestra se
resuelve mediante la creación de un clasificador.
Por ejemplo, tomemos el perfil de expresión “medio”
observado en un conjunto de muestras “sanas” y en
otro “enfermo” (observe que se conoce a priori a que
clase pertenecen estas muestras de “entrenamiento”.
Cuando se tiene una muestra nueva, se usa el
clasificador para decidir a que clase pertenece (i.e. a
aquella a cuyo perfil de expresión se parezca más).
El problema es que hay muchos genes (variables) y
pocos experimentos (casos) con lo que hay mucho
ruido. Por ello, seleccionar aquellos genes que tienen
comportamiento diferente en cada clase puede ser
apropiado
Es necesario elegir aquellos genes con mayor capacidad discriminante (e.g. los que muestren
un patrón de expresión diferente en cada clase) para ser usados como clasificador.
Ello permite disponer de pocas variables
(o genes) para hacer un diagnóstico a la
vez que permite centrarse en aquellos
genes que han modificado su
comportamiento para corregirlo
Objetivo: predicción de patologías a
partir de la expresión de unos pocos
componente informativos (genes).
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
El problema de la Clasificación
Bioinformática Clásica
AApartir
partirde
deun
unconjunto
conjuntode
demuestras
muestrasde
de
procedencia
procedenciaconocida
conocida(i.e.
(i.e.peras
perasyymanzanas)
manzanas)
se
recopilan
las
características
de
cada
se recopilan las características de cadaclase
clase
(ancho
y
peso
en
este
caso).
Con
ellas
se
(ancho y peso en este caso). Con ellas se
elabora
elaboraelelclasificador
clasificadorque
quesepara
separalas
lasclases
clases
(línea
verde)
de
forma
tal
que,
dado
un
(línea verde) de forma tal que, dado unnuevo
nuevo
elemento
elementose
seevalúan
evalúansus
suscaracterísticas
característicasyyse
se
decide
a
qué
clase
pertenece.
decide a qué clase pertenece.
Observe
Observeque
queno
nosiempre
siemprees
esposible
posibleobtener
obtenerun
unclasificador
clasificadorperfecto
perfectoyyque
quealgunos
algunoselementos
elementospueden
puedenser
ser
ubicados
fuera
de
su
clase
(falsos
negativos)
y
otros
pueden
ser
asignados
a
clases
que
no
le
corresponden
ubicados fuera de su clase (falsos negativos) y otros pueden ser asignados a clases que no le corresponden
(falsos
(falsospositivos).
positivos).Esto
Estoestá
estámuy
muyrelacionado
relacionadoaalas
lascaracterísticas
característicasque
quese
seeligen
eligenpara
paraelelclasificador,
clasificador, alal
número
númerode
demuestras
muestrasdisponibles,
disponibles,aalalaseparación
separaciónentre
entreclases,
clases,etc.
etc.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Clasificación: conceptos
?
C1
C2
Muestra
desconocida
Bioinformática Clásica
Clase: conjunto de elementos con características similares.
Vector de características: la medida de las características
de cada elemento
Conjunto de Entrenamiento / Prueba: conjuntos de los que
se conoce la clase de cada elemento.
Objetivo: Producir una función que clasifique un elemento
de procedencia desconocida en una y solo una de las
clases pre-definidas
Supongamos
Supongamosque
quetenemos
tenemoslos
losratios
ratiosde
deexpresión
expresiónde
de44genes
genes(gen1
(gen1...... gen4
gen4en
enlalafigura)
figura)en
en44muestras
muestras
diferentes
que
pertenecen
a
dos
clases:
C1
y
C2.
Podemos
calcular
el
“centroide”
de
cada
clase
diferentes que pertenecen a dos clases: C1 y C2. Podemos calcular el “centroide” de cada clasecomo
comolala
semisuma
semisumade
delos
losratios
ratiosde
deexpresión
expresión(a(alaladerecha
derechalalarepresentación
representaciónde
delos
losperfiles
perfiles–línea
–líneacontínuacontínua-yyelel
centroide
centroide-línea
-líneapunteada-).
punteada-).Los
Losdos
doscentroides
centroidesson
sonlos
losrepresentantes
representantesmedios
mediosde
decada
cadaclase,
clase,yyen
eneste
este
ejemplo,
podemos
usarlos
como
clasificador
para
decidir
a
que
clase
pertenece
la
nueva
muestra
(en
ejemplo, podemos usarlos como clasificador para decidir a que clase pertenece la nueva muestra (enamarillo)
amarillo)
en
la
que
se
han
medido
los
niveles
de
expresión
de
los
4
genes
clasificadores.
en la que se han medido los niveles de expresión de los 4 genes clasificadores.
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
El vecino más cercano
Bioinformática Clásica
El método Nearest Neighbour resuelve el problema asignando la muestra desconocida a la
clase más cercana, usando una medida de distancia con respecto al centroide.
2.5
6
2
1.5
d1 = sqrt[(2.5 - 2)2 + … + (1.5 - 1)2] = 1.2
2
2.5
1.5
2.5
7.5
6
3
1
d1/(d1+d2) = 0.13
d2/(d1+d2) = 0.87
d2 = sqrt[(2.5 - 2)2 + … + (7.5 - 1)2] = 7.9
Siguiendo
Siguiendoelelejemplo
ejemploanterior
anterioryyusando
usandouna
unadistancia
distanciaEuclídea
Euclídeaencontramos
encontramosque
quelalamuestra
muestradesconocida
desconocidase
se
encuentra
a
1,2
y
7,9
de
distancia
de
las
clases
C1
y
C2
respectivamente
(o
a
un
13%
de
la
clase
C1
y
a
un
encuentra a 1,2 y 7,9 de distancia de las clases C1 y C2 respectivamente (o a un 13% de la clase C1 y a un
87%
87%de
delalaclase
claseC2),
C2),con
conlolocual
cualpodríamos
podríamosafirmar
afirmarque
quelalamuestra
muestrapertenece
perteneceaalalaclase
claseC1
C1
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007
Selección de características
Bioinformática Clásica
Entendemos por ‘feature selection’ la identificación de aquellas características que mejor
separen las clases a fin de evitar problemas de ruido.
Para
Paraello
elloes
esnecesario:
necesario:
• •Eliminar
características
Eliminar característicasirrelevantes
irrelevantes(reduce
(reduceelelruido)
ruido)
• •Eliminar
características
correlacionadas
(agiliza
Eliminar características correlacionadas (agilizacálculos)
cálculos)
• •Elegir
las
mejores
características
(mejora
la
predicción)
Elegir las mejores características (mejora la predicción)
Usar
Usarsolo
sologenes
genescon
conexpresión
expresión
diferencial
reduce
el
ruido,
diferencial reduce el ruido,agiliza
agiliza
los
cálculos
y
mejora
la
precisión
los cálculos y mejora la precisión
en
enlalaasignación
asignaciónde
declase.
clase.
Tema 6: Expresión Génica (4)
AAlalaizquierda
izquierdase
seilustra
ilustracomo
como
lalacaracterística
“longitud
característica “longituddel
del
cabello”
puede
no
resultar
cabello” puede no resultar
apropiada
apropiadapara
paraseparar
separarlas
las
clases
mujer
/
hombre.
clases mujer / hombre.
Todos
Todoslos
loselementos
elementosque
quese
seusan
usan
para
entrenar
los
clasificadores
para entrenar los clasificadores
deben
debenpertenecer
perteneceraaclases
clases
conocidas.
Se
ilustra
conocidas. Se ilustracomo
comoelel
último
últimoelemento
elementono
nopertenece
perteneceaalala
clase
clase‘fresa’
‘fresa’
Campus Virtual Andaluz, 2007
Bioinformática Clásica
La versión ampliada de este tema se encuentra en los apuntes del Módulo IIC: Expresión
Génica, accesibles a través de la plataforma de aprendizaje virtual de la UNIA.
Consulta estos materiales para completar tus conocimientos
Tema 6: Expresión Génica (4)
Campus Virtual Andaluz, 2007