Download Tema 6: Expresión Génica (4)
Document related concepts
Transcript
Bioinformática Clásica Bioinformática Clásica Tema 6: Expresión Génica (4) Aglomeración y Clasificación Dr. Oswaldo Trelles Universidad de Málaga En la sección anterior se explicó la identificación de genes con expresión diferencial y se introdujeron las dos aplicaciones de mayor uso en el dominio de la expresión génica: la aglomeración o clustering y la clasificación. El primero busca identificar grupos de genes con patrón de comportamiento similar, mientras que la segunda se basa en la identificación de genes que diferencian entre clases. Veamos ahora en detalle estos conceptos Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Matriz de Datos Análisis de expresión: n vectores de p variables, donde: n: número de genes (spots en el chip) p: número de muestras (número de chips) Análisis fenotípico: n vectores de p variables n: número de muestras (número de chips) p: número de genes (spots en el chip) Nota: Además de la identificación y los valores de expresión, los genes pueden incluir otra información (anotaciones o metadatos), como términos GO, EC, etc. Lo mismo es válido para las muestras que pueden incluir edad, sexo, etc. dependiendo del experimento Tema 6: Expresión Génica (4) La matriz de datos de expresión génica contiene en las filas los genes y los experimentos en las columnas. En algunas aplicaciones –i.e. análisis fenotípico- la matriz se trabaja transpuesta. Los valores se trabajan como: log2( ratio (diana / control ) ) Los valores negativos indican ratio menor que uno, por tanto la diana se expresa menos que el control; y logaritmos positivos indican ratio mayor que uno (la expresión en la diana es mayor que en el control). Campus Virtual Andaluz, 2007 Bioinformática Clásica Aglomeración o Clustering Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 La aglomeración o clustering Bioinformática Clásica El “perfil de expresión” de un gen está formado por los niveles de expresión de dicho gen en cada uno de los experimentos. Cada gen tiene su perfil de expresión particular, que puede ser muy similar al de otros genes Clustering: busca formar grupos de genes con comportamiento similar (perfil de expresión) en la hipótesis que su co-expresión es indicador de participar en el mismo proceso biológico. Para agrupar es necesario definir una medida de distancia o de semejanza (Euclídea, correlación,...), el método de agrupamiento (jerárquico, particional, ...), etc Arriba, los valores (perfil) de expresión de un gen en 4 slides. En medio, el perfil de 3 genes y debajo un cluster jerárquico de la matriz. Eje X: muestras Eje Y: nivel de expresión Cada línea: Un gen Tema 6: Expresión Génica (4) A la izquierda se muestra un grupo de genes (45 de un total de 18000) que han sido agrupados usando un algoritmo jerárquico (el árbol a la derecha). De este resultado se han elegido los grupos o clusters (mostrados en el centro como una matriz de rojos y verdes) y a la izquierda los “perfiles de expresión” respectivos de dos de los grupos. Claramente el comportamiento es similar. Campus Virtual Andaluz, 2007 Resultados esperados Bioinformática Clásica ¿ Qué genes se expresan diferencialmente ? – En distintas células – En condiciones externas diferentes – En diferentes estados de enfermedades ¿ En cuánto han cambiado sus niveles de expresión? ¿ El cambio en la expresión se correlaciona con otros parámetros externos? Técnica de elección: Estadística descriptiva ¿Se pueden utilizar los datos de expresión génica para “predecir” la función de genes con función “desconocida” ? Técnica de elección: Métodos de clasificación supervisados Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Resultados esperados • ¿ Se pueden usar los patrones de expresión de los genes para agrupar genes cuya función se desconoce? – Clasificación funcional de genes de función desconocida. – Identificación de grupos de genes con expresión similar – Identificación de patrones de expresión de genes “diagnóstico” (cuya función se conoce) • • Los procesos biológicos usualmente involucran genes de muchas categorías funcionales. El conocimiento de que genes actúan coordinadamente ayudaría enormemente en el desarrollo de nuevos fármacos más específicos. Técnica de elección: Agrupamiento o clustering Objetivo: Encontrar grupos o “clusters” naturales. Los datos en un mismo grupo o cluster deben ser “más similares” Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Medida de Semejanza o de Distancia: Euclídea vs. Correlación Euclidea: Tiende a agrupar perfiles de acuerdo al valor absoluto de las diferencias entre los niveles de expresión. Rojo y Azul Correlación: Tiende a agrupar perfiles de acuerdo a la tendencia de los mismos. Verde y Azul En expresión génica la correlación suele reproducir mejor el modelo biológico de relación entre genes. Euclidea: d x, y = p ∑(x − y ) i 2 i i =1 Correlación: Tema 6: Expresión Génica (4) d x, y ( 1 p xi − x = ∑ p i =1 δ x ) ( y − y ) i δy Campus Virtual Andaluz, 2007 Bioinformática Clásica Distancia entre grupos Para Paracalcular calcularlaladistancia distanciaentre entregrupos: grupos: Single entre SingleLinkage: Linkage: entreelelpar parde depuntos puntosmás máscercano. cercano. Complete Linkage: entre el par de puntos más alejado. Complete Linkage: entre el par de puntos más alejado. Average Linkage: promedio entre todos los Average Linkage:entre promedio entre todos lospares paresde depuntos. puntos. Distancia los grupos que se unen Centroids: distancia entre los centros de los clusters. Centroids: distancia entre los centros de los clusters. 4 2 5 3 1 1 3 2 4 5 El ElDendrograma Dendrogramaexplicita explicitaelelorden ordende deaglomeración aglomeración Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Métodos de aglomeración Bioinformática Clásica El clustering es uno de los temas de estudio más activos y con mayor diversidad de propuestas (revisar la literatura disponible). Sin embargo no hay una solución final. Hay muchos aspectos que influyen en los resultados; por ejemplo el método de distancia escogido (el ‘single linkage’ produce grupos alargados mientras que el ‘complete linkage’ los hace esféricos); no todos los métodos son robustos en presencia de ruido o dependen de los valores aleatorios iniciales o del número de grupos a crear. Por otra parte, al trabajar con gran cantidad de genes (cerca de 20 mil actualmente) se necesita una buena potencia de cálculo para poder iterar sobre distintos conjuntos de parámetros o para combinar métodos (algunas veces se puede recurrir a la eliminación de genes con perfiles planos que indica que no cambian de expresión en los diferentes experimentos). Exp.1 Exp.2 Exp. 3 Exp.4 Vamos a presentar ahora los tres grandes métodos´: Jerárquico, particionado y mapas auto-organizados. A partir de ellos hay multitud de ligeras variantes que refinan las propuestas para casos específicos. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Clustering Jerárquico Al igual que hicimos para alinear progresivamente varias secuencias (ver tema 4) una de las aproximaciones más atractiva es el llamado clustering jjerárquico, o progresivo que justamente consiste en ir agrupando los perfiles que más se parecen entre sí. Dadas n secuencias a alinear: 1.- Se calcula la matriz de semejanzas M(i,,j) entre cada par de perfiles 2.- Se calcula el orden o topología del alineamiento a partir de M(i,j) 3.- Se procede a alinear parejas en el orden sugerido por la topología Estas parejas pueden estar formadas por: (a) dos perfiles, (b) un perfil y un grupo o (c) entre dos grupos (aquí se usan las diferentes distancias, simple, completa, media, etc) M(i,j) represente el parecido o la distancia entre el perfil del gen i y el del gen j Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Clustering particional : K-means Inicia con K-centros en posición aleatoria Asigna cada uno de los puntos a su centroide más cercano). Mueve los centroides hacia los “centros“ de los puntos asignados. Bioinformática Clásica Itera hasta que los centroides se estabilicen. K-means (o K-medias) • • • Los resultados dependen de las posiciones iniciales de los centroides. Algoritmo rápido: solo calcula las distancias de los puntos de datos a los centroides. El número de grupos (K) hay que decidirlo de antemano (gran desventaja!) Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Redes Neuronales Los Mapas Auto-organizados (Self Organizing Maps: SOM) son modelos de redes neuronales de diversa topología que buscan organizar los datos según el estímulo que producen. A diferencia de los métodos cuyos centroides no guardan relación (i.e. k-means), en los mapas, cada dato no solo afecta (acerca) a su neurona “ganadora” sino también a sus vecinas. Existen muchos modelos de redes SOM, siendo las más usadas las de topología rectangular y las hexagonales. Cada “perfil de expresión” (dato de entrada) se compara con el valor actual de cada neurona (en forma de perfil de expresión) para encontrar la más parecida a él. Al finalizar las comparaciones, cada neurona ha identificado sus genes parecidos y ellos modifican el perfil de su neurona y de la de arriba, abajo, izquierda, etc, dependiendo de la topología. Al final, cada neurona o el “Mapa” se ha auto-organizado, estando los perfiles parecidos cercanos entre sí. Actividad: Buscar definición y funcionamiento de las redes neuronales y SOM en particular. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Redes Neuronales: SOM Bioinformática Clásica SOM no es precisamente un método de aglomeración, porque no define clusters. Es necesario post-procesar los datos para identificar los grupos marcados y sus transiciones. En el ejemplo un mapa de 20x10. Arriba los centroides de las 200 neuronas, observe el parecido entre neuronas cercanas. Debajo se han sombreado neuronas con perfiles similares para finalmente decidirse por 15 grupos. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Comentarios finales • Paso final: Búsqueda de función de los genes Una vez creados los clusters, el paso final sería la búsqueda de la función de los genes en cada uno de los clusters. Para ello hay que recurrir a las anotaciones en las bases de datos, como GenBank, UniGen, ONIM, GeneCards, SwissProt, EMBL, etc; o a ontologías biológicas como los GO-terms etc. Table 1: Description and biological function of the genes found in subcluster 14a. Gene Biological Function M28130 Interleukin 8 Inflammatory response M60278 Heparin-binding EGFlike growth factor Signal Transduction M69043 MAD-3 encoding IKBlike activity Transcription Factor Aunque los microarrays se han consolidado como una de las alternativas más utilizadas, aun tiene ciertas limitaciones: U18062 TFIID subunit TAFII55 Transcription Factor El análisis del DNA no permite predecir si las proteínas están en un estado activo. U65093 Msg1-related 1 (mrg1) Transcription Factor U89505 Hlark Transcription Factor X78687 Neuraminidase 1 Lisosomal Hidrolase Z34974 Plakophilin Adhesion • Limitaciones A pesar de la correlación existente entre la cantidad de mRNA producido en la célula y la cantidad de proteína sintetizada, su cuantificación no es directa, por lo que no siempre refleja los niveles correspondientes de proteínas. Un mismo gen puede producir múltiples proteínas si se tiene en cuenta la postraducción y el splicing alternativo. Gene Bank ID Por lo tanto la técnicas de microarray solo permiten una estimación cualitativa del proteoma y aún se requieren técnicas mas avanzadas para su estudio . Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Lecturas recomendadas Bioinformática Clásica Referencias • Alizadeh A.A., Eisen M.B., Davis R.E., Ma C., et.al. (2000) Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 403: 503-11. Brazma A., Vilo, J. (2000). Gene expression data analysis. FEBS Lett.. 14 (1), 17-24. Eisen, M., Spellman, P.T., Botstein, D. & Brown, P.O. (1998). Cluster Analysis and display of genome-wide expression patterns. Proc. Nat. Acad. Sci. USA 95, 14863-14867 Kohonen T. (1997) Self-Organizing maps, Second Edition, Springer-Verlag. Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Dmitrovsky, E., Lander, E.S. & Golub, T.R. (1999) Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc. Natl. Acad. Sci USA 96, 2907-2912. Törönen, P., Kolehmainen, M., Wong, G. and Castrén, E. (1999). Analysis of gene expression data using self-organizing maps. FEBS Lett., 451, 142-146. • • • • • Recursos Web • • • • • • Affymetrix: www.affymetrix.com Stanford Microarray Database: http://genome-www5.stanford.edu/MicroArray/SMD/ Microarray Informatics at the EBI: http://www.ebi.ac.uk/microarray/ Gene expression links: http://industry.ebi.ac.uk/~alan/MicroArray/ http://www.microarrays.org/ Other links: http://www.mpiz-koeln.mpg.de/~weisshaa/Adis/DNA-array-links.html Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 engene: The gene-expression processing tool Bioinformática Clásica Visualization Visualization Clustering Clustering ••DNA DNAarrays arrays ••Cluster Clusterprofiles profiles ••Maps Maps ••Silhouettes Silhouettes ••Trees Trees ••U-Matrix U-Matrix ••Histograms Histograms ••KKMeans Means Distances Distances ••Fuzzy FuzzyKKMeans Means • Euclidean ••Double DoubleThreshold Threshold • Euclidean ••Correlation ••Hierarchical Correlation Hierarchical ••Absolute ••SOM AbsoluteCorrelation Correlation SOM ••Manhattan ••Batch Manhattan BatchSOM SOM ••Weighted ••Fuzzy Weighted FuzzySOM SOM Pre-processing Pre-processing ••KerDenSOM KerDenSOM ••Data Datafilling filling ••Fuzzy Kohonen Clustering Fuzzy Kohonen Clustering ••Mean/Median Mean/MedianCentering Centering ••Threshold Threshold Post-processing ••Logarithmic Post-processing LogarithmicTransform Transform ••Silhouette ••Normalization Silhouettevalue valueoptimisation optimisation Normalization ••KDD, ••Sammon KDD,association associationrules rules Sammon ••Statistical StatisticalSignificance Significance Nuestra cosecha en: ••Weighted WeightedSchema Schema(GA) (GA) http://chirimoyo.ac.uma.es/bitlab ••PC PCAnalysis Analysis www.bitlab.es Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Trabajos en el área (1) Alizadeh A.A., Eisen M.B., Davis R.E., Ma C., et.al. (2000); “Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling”; Nature 403: 503-11. Depicted Depictedare arethe the~1.8 ~1.8million millionmeasurements measurementsofof gene geneexpression expressionmade madeon on128 128microarray microarray analyses of 96 samples of normal analyses of 96 samples of normaland and malignant lymphocytes. The dendrogram malignant lymphocytes. The dendrogramatatthe the left lists the samples studied and provides a left lists the samples studied and provides a measure measureofofrelatedness relatednessofofgene geneexpression expressioninin each eachsamples. samples.The Thedendrogram dendrogramisiscolor colorcoded coded based on the category of mRNA sample based on the category of mRNA sample studied studied(see (seeupper upperright rightkey). key).Each Eachrow row represents a separate cDNA clone on represents a separate cDNA clone onthe the microarray and each column a separate microarray and each column a separatemRNA mRNA sample. The scale extends from fluorescence sample. The scale extends from fluorescence ratios ratiosofof0.25 0.25toto44(-2 (-2toto+2 +2ininlog logbase base22units). units). Grey indicates missing or excluded data. Grey indicates missing or excluded data. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Trabajos en el área (2) Bioinformática Clásica Eisen, M., Spellman, P.T., Botstein, D. & Brown, P.O. (1998). Cluster Analysis and display of genome-wide expression patterns. Proc. Natl. Acad. Sci. USA 95, 14863-14867. Single Singletime timecourse coursedata dataofofaacanonical canonicalmodel modelofofthe thegrowth growth response in human cells: clustered data from serum response in human cells: clustered data from serum simulation simulationofofprimary primaryhuman humanfibroblasts. fibroblasts.Briefly, Briefly,foreskin foreskin fibroblasts were grown in culture and were deprived fibroblasts were grown in culture and were deprivedofof serum serumfor for48 48hours. hours.Serum Serumwas wasadded addedback backand andsamples samples taken at time , 0, 15 min, 30 min, 1h, 2h, 3h, 4h, 8h, taken at time , 0, 15 min, 30 min, 1h, 2h, 3h, 4h, 8h,12h, 12h, 16h, 20h and 24h. Five clusters were identify containing 16h, 20h and 24h. Five clusters were identify containing known knowngenes genesinvolved involvedin: in: (A) (A)cholesterol cholesterolbiosynthesis biosynthesis (B) The cell cycle (B) The cell cycle (C) (C)The Theimmediate-early immediate-earlyresponse response (D) (D)Signaling Signalingand andAngiogenesis Angiogenesis (E) (E)Wound Woundhealing healingand andtissue tissueremodeling. remodeling. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Clasificación Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Bioinformática Clásica Uso de los datos de expresión génica: Clasificación Selección de los genes con comportamiento diferente entre clases para ser usados como un predictor de clases. Permite realizar el diagnóstico con solo unas pocas varibales La clasificación busca diferenciar entre clases. Conociendo la procedencia de los datos (i.e clase “A” pacientes enfermos y clase “B” personas sanas), podemos analizar los datos búscando aquellos elementos (en este caso: genes) que mejor permitan diferenciar entre clases, a fin de se usados como medio de ayuda en el diagnóstico. Así por ejemplo, de los ≈ 40 mil genes humanos nos gustaría poder elegir unos 50 genes que nos permitieran diagnosticar si una persona padece la enfermedad o no. Observe en la figura que esta vez miramos los genes en horizontal, mientras que en vertical están las muestras. Las líneas amarillas en medio de la matriz representan el “perfil de expresión” de cada clase, debajo los genes que se expresan de forma diferente en las dos clases y finalmente, la comparación de los genes de un nuevo paciente contra el “clasificador”. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Clasificación (2) Clasificación: Consiste en asignar una muestra a una determinada (a priori) clase. Bioinformática Clásica El problema de asignar una clase a una muestra se resuelve mediante la creación de un clasificador. Por ejemplo, tomemos el perfil de expresión “medio” observado en un conjunto de muestras “sanas” y en otro “enfermo” (observe que se conoce a priori a que clase pertenecen estas muestras de “entrenamiento”. Cuando se tiene una muestra nueva, se usa el clasificador para decidir a que clase pertenece (i.e. a aquella a cuyo perfil de expresión se parezca más). El problema es que hay muchos genes (variables) y pocos experimentos (casos) con lo que hay mucho ruido. Por ello, seleccionar aquellos genes que tienen comportamiento diferente en cada clase puede ser apropiado Es necesario elegir aquellos genes con mayor capacidad discriminante (e.g. los que muestren un patrón de expresión diferente en cada clase) para ser usados como clasificador. Ello permite disponer de pocas variables (o genes) para hacer un diagnóstico a la vez que permite centrarse en aquellos genes que han modificado su comportamiento para corregirlo Objetivo: predicción de patologías a partir de la expresión de unos pocos componente informativos (genes). Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 El problema de la Clasificación Bioinformática Clásica AApartir partirde deun unconjunto conjuntode demuestras muestrasde de procedencia procedenciaconocida conocida(i.e. (i.e.peras perasyymanzanas) manzanas) se recopilan las características de cada se recopilan las características de cadaclase clase (ancho y peso en este caso). Con ellas se (ancho y peso en este caso). Con ellas se elabora elaboraelelclasificador clasificadorque quesepara separalas lasclases clases (línea verde) de forma tal que, dado un (línea verde) de forma tal que, dado unnuevo nuevo elemento elementose seevalúan evalúansus suscaracterísticas característicasyyse se decide a qué clase pertenece. decide a qué clase pertenece. Observe Observeque queno nosiempre siemprees esposible posibleobtener obtenerun unclasificador clasificadorperfecto perfectoyyque quealgunos algunoselementos elementospueden puedenser ser ubicados fuera de su clase (falsos negativos) y otros pueden ser asignados a clases que no le corresponden ubicados fuera de su clase (falsos negativos) y otros pueden ser asignados a clases que no le corresponden (falsos (falsospositivos). positivos).Esto Estoestá estámuy muyrelacionado relacionadoaalas lascaracterísticas característicasque quese seeligen eligenpara paraelelclasificador, clasificador, alal número númerode demuestras muestrasdisponibles, disponibles,aalalaseparación separaciónentre entreclases, clases,etc. etc. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Clasificación: conceptos ? C1 C2 Muestra desconocida Bioinformática Clásica Clase: conjunto de elementos con características similares. Vector de características: la medida de las características de cada elemento Conjunto de Entrenamiento / Prueba: conjuntos de los que se conoce la clase de cada elemento. Objetivo: Producir una función que clasifique un elemento de procedencia desconocida en una y solo una de las clases pre-definidas Supongamos Supongamosque quetenemos tenemoslos losratios ratiosde deexpresión expresiónde de44genes genes(gen1 (gen1...... gen4 gen4en enlalafigura) figura)en en44muestras muestras diferentes que pertenecen a dos clases: C1 y C2. Podemos calcular el “centroide” de cada clase diferentes que pertenecen a dos clases: C1 y C2. Podemos calcular el “centroide” de cada clasecomo comolala semisuma semisumade delos losratios ratiosde deexpresión expresión(a(alaladerecha derechalalarepresentación representaciónde delos losperfiles perfiles–línea –líneacontínuacontínua-yyelel centroide centroide-línea -líneapunteada-). punteada-).Los Losdos doscentroides centroidesson sonlos losrepresentantes representantesmedios mediosde decada cadaclase, clase,yyen eneste este ejemplo, podemos usarlos como clasificador para decidir a que clase pertenece la nueva muestra (en ejemplo, podemos usarlos como clasificador para decidir a que clase pertenece la nueva muestra (enamarillo) amarillo) en la que se han medido los niveles de expresión de los 4 genes clasificadores. en la que se han medido los niveles de expresión de los 4 genes clasificadores. Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 El vecino más cercano Bioinformática Clásica El método Nearest Neighbour resuelve el problema asignando la muestra desconocida a la clase más cercana, usando una medida de distancia con respecto al centroide. 2.5 6 2 1.5 d1 = sqrt[(2.5 - 2)2 + … + (1.5 - 1)2] = 1.2 2 2.5 1.5 2.5 7.5 6 3 1 d1/(d1+d2) = 0.13 d2/(d1+d2) = 0.87 d2 = sqrt[(2.5 - 2)2 + … + (7.5 - 1)2] = 7.9 Siguiendo Siguiendoelelejemplo ejemploanterior anterioryyusando usandouna unadistancia distanciaEuclídea Euclídeaencontramos encontramosque quelalamuestra muestradesconocida desconocidase se encuentra a 1,2 y 7,9 de distancia de las clases C1 y C2 respectivamente (o a un 13% de la clase C1 y a un encuentra a 1,2 y 7,9 de distancia de las clases C1 y C2 respectivamente (o a un 13% de la clase C1 y a un 87% 87%de delalaclase claseC2), C2),con conlolocual cualpodríamos podríamosafirmar afirmarque quelalamuestra muestrapertenece perteneceaalalaclase claseC1 C1 Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007 Selección de características Bioinformática Clásica Entendemos por ‘feature selection’ la identificación de aquellas características que mejor separen las clases a fin de evitar problemas de ruido. Para Paraello elloes esnecesario: necesario: • •Eliminar características Eliminar característicasirrelevantes irrelevantes(reduce (reduceelelruido) ruido) • •Eliminar características correlacionadas (agiliza Eliminar características correlacionadas (agilizacálculos) cálculos) • •Elegir las mejores características (mejora la predicción) Elegir las mejores características (mejora la predicción) Usar Usarsolo sologenes genescon conexpresión expresión diferencial reduce el ruido, diferencial reduce el ruido,agiliza agiliza los cálculos y mejora la precisión los cálculos y mejora la precisión en enlalaasignación asignaciónde declase. clase. Tema 6: Expresión Génica (4) AAlalaizquierda izquierdase seilustra ilustracomo como lalacaracterística “longitud característica “longituddel del cabello” puede no resultar cabello” puede no resultar apropiada apropiadapara paraseparar separarlas las clases mujer / hombre. clases mujer / hombre. Todos Todoslos loselementos elementosque quese seusan usan para entrenar los clasificadores para entrenar los clasificadores deben debenpertenecer perteneceraaclases clases conocidas. Se ilustra conocidas. Se ilustracomo comoelel último últimoelemento elementono nopertenece perteneceaalala clase clase‘fresa’ ‘fresa’ Campus Virtual Andaluz, 2007 Bioinformática Clásica La versión ampliada de este tema se encuentra en los apuntes del Módulo IIC: Expresión Génica, accesibles a través de la plataforma de aprendizaje virtual de la UNIA. Consulta estos materiales para completar tus conocimientos Tema 6: Expresión Génica (4) Campus Virtual Andaluz, 2007