Download Pre-procesado de datos de matrices de expresión genética

Document related concepts

Perfil de expresión génica wikipedia , lookup

Genómica computacional wikipedia , lookup

Chip de ADN wikipedia , lookup

Modelado de redes metabólicas wikipedia , lookup

Programación de expresiones de genes wikipedia , lookup

Transcript
Resumen
El preprocesado de datos de matrices de expresión genética, se ha vuelto un factor determinante
en el análisis de datos generados a partir de experimentos de microarrays, ya que estos experimentos
arrojan una cantidad importante de ruido, valores nulos y variaciones sistemáticas. Para tratar con
estos problemas, se han desarrollado diversas técnicas de preprocesado de datos, que se pueden
agrupar como: normalización de los datos, sustitución de valores nulos y eliminación de ruido en las
imágenes de los microarrays. Esta investigación se enfocó al tratamiento de valores nulos. Algunos
de los métodos más relevantes de sustitución de valores nulos se reportan en (
y (
Bo et al.,
2004). En (
Celton et al.,
Celton et al.,
2010)
2010) presentan 12 métodos de tratamiento de valores nulos,
los cuales evaluaron para diferentes casos de prueba, y compararon entre sí. De estos métodos
el que arrojó los mejores resultados es el EM_Array (
Bo et al.,
2004), el cual elegimos para un
Bo et al.,
análisis más profundo y, posteriormente, realizar una implementación basados en (
Johnson y Winchern ,
y (
2004)
2007). Como parte de esta investigación, se diseñaron e implementaron
nuevos métodos de estimación y reemplazo de valores nulos: los métodos de Estimación Normalizada
y Estimación de Máxima Similitud, basados en la generación de submatrices y en la normalización
de los datos. Aunado a esto, se implementó una modicación del EM_Array combinada con la
generación de submatrices lo que condujo a obtener mejoras en su desempeño en cuanto al tiempo de
ejecución, manteniendo estimaciones aceptables. En base a los experimentos realizados, concluimos
que los métodos propuestos en esta investigación son muy competitivos, ya que arrojan resultados
aproximados a los publicados en el trabajo de
Celton et al.,
mejor evaluados en (
Bo et al. (2004), los cuales corresponden a los métodos
2010), en tiempos signicativamente mejores. Finalmente, se
exponen recomendaciones que pueden ayudar a mejorar los resultados obtenidos.
i
A mis padres
ii
Agradecimientos
A mis abuelos Eduardo y Marcela por haberme cuidado, por sus consejos y enseñanzas,
y sobre todo, por su amor incondicional.
A mi hermana Cristina por todo su cariño y por todos aquellos invaluables recuerdos que
compartimos.
A mis primos Servando, Marcela, Eduin, Wanda, Citlaly, Daniela y Naydelin por su
apoyo, comprensión, ánimos, amor y buenos deseos.
A mi hermano Plinio por su invaluable amistad, arduo trabajo, y por sus importantes
aportaciones a esta investigación.
Muy especialmente a mi asesor M. C. Jorge Enrique Luna Taylor por sus valiosas enseñanzas, por su paciencia y disponibilidad para asistirme en todo momento y resolver
atentamente cualquier duda, y por brindar siempre un ambiente de conanza.
También de manera muy especial al M. T. I. Luis Armando Cárdenas Florido por las
ideas brindadas durante la investigación, ya que fueron clave en el desarrollo de la misma.
A mis hermanos Paul, Luis Carlos, Aarón, Juan Luis y Erick por estar conmigo cuando
más los necesito.
A mi novia Hilda por creer en mí y brindarme todo su apoyo, cariño y atención.
A mis profesores Ing. Juan Antonio Cañedo, Ing. Jorge Bravo Espinoza, M. C. Jorge
Enrique Luna Taylor, M. T. I. Luis Armando Cárdenas Florido y Dr. Marco Antonio
Castro Liera por sus valiosas enseñanzas durante mi carrera.
A la Lic. Gabriela Sánchez Martínez por sus sabios consejos y por su gran apoyo.
De manera muy especial al M. C. Antonio Hernández Sánchez por su amistad y por darle
siempre agilidad a todos mis trámites de residencias.
A mis compañeros y amigos Luis Fernando Ríos, Carla Alejandra Tiznado, Carlos Gabriel Jiménez, Adrián Núñez, Oscar Barba, Sergio Albarrán, Antonio Mercado, Alfredo
Hernández, Alejandra Velazquez del Valle y Johana Villela por su valiosa amistad y todas
las vivencias compartidas a lo largo de estos cinco años.
A Lucía González por darme tantos ánimos.
iii
Tabla de Contenido
i
Resumen
Agradecimientos
iii
Tabla de Contenido
iv
Lista de Figuras
vi
viii
Lista de Tablas
ix
Lista de Algoritmos
1. Introducción
1
1.1.
Antecedentes
1.2.
Objetivos
1.3.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2.1.
Objetivo general
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2.2.
Objetivos especícos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Organización de la tesis
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Planteamiento del Problema
2
3
2.1.
Expresión genética
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2.
Microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.3.
Clusters
5
2.4.
Biclusters
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.5.
Preprocesado de datos de matrices de expresión genética . . . . . . . . . . . . . . . .
8
2.6.
Denición formal del problema
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.7.
Trabajo previo realizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.7.1.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Análisis comparativo de métodos de estimación y reemplazo de valores nulos,
Celton et al., 2010)
(
2.7.2.
2.7.3.
2.7.4.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
LSImpute: estimación exacta de valores nulos en microarrays, (
Troyanskaya et al., 2001)
EM_array, (Johnson y Winchern , 2007)
KNNimpute, (
iv
Bo et al., 2004)
12
17
. . . . . . . . . . . . . . . . . . . . .
20
. . . . . . . . . . . . . . . . . . . . .
21
2.7.5.
Implementación de EM_Array
. . . . . . . . . . . . . . . . . . . . . . . . . .
3. Metodología Propuesta
24
25
3.1.
Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.2.
Método de estimación normalizada
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.3.
Estimación de máxima similitud
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.4.
EM_Array modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4. Experimentos y Resultados
43
4.1.
Conjuntos de datos de expresión genética utilizados . . . . . . . . . . . . . . . . . . .
43
4.2.
Normalización del REMC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.3.
Experimentos realizados con algoritmo genético . . . . . . . . . . . . . . . . . . . . .
45
4.4.
Sustitución de valores nulos por valores aleatorios . . . . . . . . . . . . . . . . . . . .
46
4.5.
Experimentos realizados con EM_Array . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.6.
Experimentos realizados con estimación normalizada
49
4.7.
Experimentos realizados con estimación de máxima similitud
4.8.
Experimentos realizados con EM_Array modicado
4.9.
Discusión sobre resultados obtenidos
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
51
. . . . . . . . . . . . . . . . . .
52
. . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5. Conclusiones y Traba jo Futuro
57
5.1.
Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2.
Conclusiones
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.3.
Trabajo futuro
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
Bibliografía
59
v
Lista de Figuras
2.1.
a) Matriz de datos de expresión genética con valores nulos. b) Matriz de datos de
expresión genética después de un proceso de reemplazo de valores nulos.
3.1.
. . . . . . .
10
a) Matriz de datos de expresión con valores nulos. b) Matriz de datos de expresión
después de remover todos los genes con valores nulos. c) Matriz de datos de expresión
después de remover todas las condiciones con valores nulos.
3.2.
. . . . . . . . . . . . . .
Los biclusters son arreglos de ceros y unos. Estos indican cuáles genes y condiciones
de la matriz de datos se encuentran incluidos en él. . . . . . . . . . . . . . . . . . . .
3.3.
27
Cruza de dos individuos. Solo aquellos elementos incluidos en alguno de los padres
son pasados al individuo hijo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.
26
Población de ocho individuos los cuales están compitiendo por parejas para ser seleccionados, de cada par de individuos se selecciona aquel cuya aptitud es mayor. . . . .
3.5.
26
Identicación del individuo con mayor aptitud, para aplicar elitismo en el algoritmo
genético. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.
25
27
Proceso de mutación de un individuo. Se escoge un elemento de forma aleatoria, ya
sea un gen o una condición, y se modica su valor. Si el elemento contenía un cero,
su valor cambia a uno y viceversa.
3.7.
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
El concepto de costo para un gen con valores nulos considera que si es menos costoso
remover un gen que una condición, o un conjunto de condiciones, se remueve el gen
y se conservan las condiciones. Esto tiene la intensión de preservar la mayor cantidad
de datos posibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.
28
a) Conjunto de genes con comportamiento es similar. b) Valores de expresión normalizados. Se puede apreciar con mayor claridad que los cinco genes se comportan de
manera similar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9.
Submatriz de
k
genes, obtenida a partir de la matriz completa de datos de expresión.
3.10. Apartir de una matriz de
k
33
genes cuyo comportamiento es similar. b) Valores de expresión nor-
malizados. Se observa más claramente la similitud en el comportamiento de los
genes.
32
k genes, se obtiene una matriz de k genes con las l condiciones
más correlacionadas con la condición que contiene el valor nulo por estimar. . . . . .
3.11. a) Matriz de
31
k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
36
3.12. a) Matriz de
k
genes por
l
condiciones antes de estimar los valores nulos. Dichos
valores nulos están representados por ceros. b) Valores de expresión y comportamiento
normalizado de los
k
genes y
l
condiciones antes de la estimación. . . . . . . . . . . .
37
3.13. a) Matriz de datos de expresión cuyos genes presentan un comportamiento similar.
b) Comportamiento de los genes seleccionados.
. . . . . . . . . . . . . . . . . . . . .
39
3.14. a) Submatriz formada a partir de la primera submatriz. Para el primer gen, toma
primero la condición en donde se presenta el valor nulo, y despues las condiciones no
nulas restantes. b) El comportamiento de los genes seguirá siendo similar sin importar
el reacomodo una o más condiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.15. a) La tercera submatriz se compone solo de los genes y las condiciones más correlacionadas. A partir de la segunda submatriz se seleccionan las condiciones que conforman
a la matriz denitiva para realizar la estimación. b) Comportamiento de los genes de
la tercera submatriz de datos antes de la estimación.
. . . . . . . . . . . . . . . . . .
41
4.1.
La media como criterio de normalización del REMC. . . . . . . . . . . . . . . . . . .
44
4.2.
Diferencia entre el valor máximo y mínimo como criterio de normalización del REMC.
45
4.3.
La desviación estándar como criterio de normalización del REMC.
45
4.4.
Resultados del algoritmo genético en las 100 pruebas realizadas para los tres conjuntos
. . . . . . . . . .
de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.5.
Valores de REMC para el reemplazo de valores nulos con valores aleatorios.
47
4.6.
a) Conjunto de genes cuyo comportamiento es similar, considerarémos la primer con-
. . . . .
dición del Gen 1 como valor nulo. b) Reemplazo del valor nulo del Gen 1 por un valor
aleatorio, dentro del rango de valores de la matriz. Este reemplazo puede llevar la
expresión de dicha condición al valor máximo del rango de valores de la matriz. c)
La estimación del valor nulo puede llegar a un resultado aproximado al valor real de
dicha condición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.7.
Valores de REMC obtenidos en las pruebas con EM_Array.
. . . . . . . . . . . . . .
49
4.8.
Valores de REMC obtenidos por el método de estimación normalizada. . . . . . . . .
50
4.9.
Valores de REMC obtenidos por el método de máxima similitud.
. . . . . . . . . . .
52
4.10. Valores de REMC obtenidos por el método EM_Array Modicado. . . . . . . . . . .
53
4.11. Resultados generales del REMC obtenido para cada método con la matriz de datos
Lymphoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.12. Resultados generales del REMC obtenido para cada método con la matriz de datos
NCI60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.13. Resultados generales del REMC obtenido para cada método con la matriz de datos
TimeSeries.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
55
Lista de Tablas
2.2.
Métodos utilizados en el análisis comparativo de métodos de estimación y reemplazo
de valores nulos.
2.4.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Conjuntos de datos originales, a partir de los cuales, se generaron los conjuntos de
datos utilizados en el análisis comparativo de métodos de estimación y reemplazo de
valores nulos.
2.6.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Subconjuntos de datos creados, a partir de sus respectivas matrices originales, para
el análisis comparativo de métodos de estimación y reemplazo de valores nulos en
Celton et al., 2010).
(
2.8.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Valores de REMC promedio de algunos métodos aplicados sobre algunos de los conjuntos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2.
Matrices de datos utilizadas en los experimentos.
43
4.4.
Resultados del algoritmo genético mostrando el número de elementos de los biclusters
obtenidos sin valores nulos.
4.6.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Resultado del cálculo de REMC utilizando valores aleatorios como reemplazo de valores nulos.
4.8.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Resultados de EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.10. Comparativa del REMC obtenido por el método de estimación normalizada y el
EM_Array.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.12. Comparación de tiempo de ejecución de EM_Array y el método de estimación normalizada.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.14. Comparativa del REMC obtenido por el método de estimación de máxima similitud
y EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.16. Comparación de tiempo de ejecución de estimación normalizada y la implementación
de EM_Array.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.18. Comparativa del REMC obtenido con EM_Array Modicado y EM_Array original.
52
4.20. Comparación de tiempo de ejecución de EM_Array y EM_Array Modicado. . . . .
53
4.22. Resultados generales de los métodos de estimación y reemplazo de valores nulos. . . .
54
4.24. Comparación general del tiempo de ejecución de los métodos de estimación y reemplazo de valores nulos.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
56
Índice de algoritmos
Bo et al., 2004).
2.1.
EM_Array (
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.1.
Algoritmo Genético.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2.
Algoritmo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.3.
Estimación Normalizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.4.
Estimación de Máxima Similitud
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.5.
EM_Array Modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
ix
Capítulo 1
Introducción
1.1. Antecedentes
El análisis de datos de matrices de expresión genética es uno de los problemas más interesantes
de la bioinformática. Dicho análisis pretende identicar relaciones existentes entre grupos de genes y
diferentes condiciones biológicas. Estas condiciones incluyen tanto estados normales de un organismo,
como el padecimiento de alguna enfermedad, o la respuesta del organismo bajo un tratamiento
especíco.
Las bases de datos que contienen estas matrices son muy grandes. Una matriz de expresión
genética puede contener miles de genes, incluso el genoma completo de un organismo. Este es un
problema muy complejo, que para afrontarlo se han utilizado métodos estadísticos y computacionales
muy variados.
Las diferentes técnicas experimentales para la obtención de datos de expresión genética, son
propensas a la generación de ruido, entrada de valores nulos y a variaciones sistemáticas. Por lo que
el preprocesado de estos datos ayuda a que el análisis de las matrices sea más conable.
Entre las técnicas de tratamiento de los datos se encuentran: la sustitución de valores nulos, normalización de los datos, ltrado de genes cuya expresión no cambia signicativamente, discretización
de la información, entre otras.
A pesar de los esfuerzos realizados, el problema del preprocesamiento sigue representando un
reto muy importante, incluso, es considerado un área de investigación por sí misma.
1.2. Objetivos
1.2.1. Objetivo general
Desarrollar un nuevo método computacional para el preprocesamiento de datos de matrices de
expresión genética.
1
1.2.2. Objetivos especícos
Analizar y documentar los métodos actuales de preprocesamiento de datos de expresión genética.
Desarrollar un método computacional para sustitución de valores nulos en matrices de datos
de expresión genética.
Documentar y presentar el trabajo como tesis profesional.
1.3. Organización de la tesis
Este documento se compone de cinco capítulos organizados de la siguiente manera:
En el Capítulo 2 Planteamiento del Problema se denen los conceptos básicos necesarios para
la comprensión del problema, se describe el problema del preprocesado de datos de matrices de
expresión genética, se expone la denición formal del problema del tratamiento de valores nulos
desde el punto de vista computacional, y se presenta una revisión general del trabajo previo realizado
sobre el tratamiento de valores nulos en las matrices de datos de expresión genética. Por último,
se expone la implementación algoritmica del método de estimación y reemplazo de valores nulos
EM_Array, el cual fue el mejor calicado en la literatura.
En el Capítulo 3 Metodología Propuesta se presenta el desarrollo de un algoritmo genético
diseñado con la intención de buscar, a partir de una matriz de datos de expresión, la submatriz de
mayor tamaño posible sin valores nulos. Posteriormente, se exponen dos propuestas generadas para el
tratamiento de valores nulos, basadas en la generación de submatrices, y estimación de valores nulos,
por medio de la normalización de los valores de expresión de los genes de dichas submatrices. Por
último, se describe un método de estimación y reemplazo de valores nulos, basado en la generación
de submatrices, y en el método de estimación EM_Array.
En el Capítulo 4 Experimentos y Resultados se describen los experimentos realizados con los
métodos propuestos, se presentan los resultados obtenidos, y nalmente se realiza una comparativa
de los resultados.
En el Capítulo 5 Conclusiones y Trabajo Futuro se presenta una discusión sobre los resultados
obtenidos, se presentan las conclusiones nales del trabajo, y se exponen algunas propuestas para la
continuación de este trabajo de investigación.
2
Capítulo 2
Planteamiento del Problema
2.1. Expresión genética
Los genes funcionan expresándose en forma de proteínas. Esta expresión es un proceso que consta
de dos fases: la transcripción y la traducción. La transcripción es la fase en donde, a partir de una
secuencia de ADN, se genera una cadena simple de ARN mensajero (Abreviado ARNm) (
Lewin ,
1996). El ARNm es una molécula muy similar a una de las dos cadenas del ADN, encargada de
Lewin , 1996; Kreuzer y Massey ,
transportar la información genética del cromosoma a los ribosomas (
2001). En la fase de traducción, se convierte el ARN en la secuencia de aminoácidos que forman una
proteína (
Tamarin , 1996). De la gran cantidad de genes dentro de una célula dada, solo un conjunto
de ellos se expresa en un momento dado, y esta expresión selectiva depende del tipo de célula, de la
fase de crecimiento del ser vivo, actividad celular, enfermedades, entre otros factores (
2004;
Song y Wyse ,
Baena , 2006).
Un perl de expresión es una caracterización de la cantidad relativa de cada transcripción que
Song y Wyse ,
es producida en cualquier tipo de célula (
2004). Los perles de expresión se utilizan
para identicar cuestiones biológicas, como la identicación de los genes que se activan durante un
ciclo celular para un organismo dado, descubrir fenotipos, detección de biomarcadores, clasicación
Baena , 2006; Califano et al., 2000; Bhattacharya y
y sub clasicación de enfermedades, entre otras (
Mariani , 2009). Los perles de expresión son ampliamente utilizados en áreas como la biotecnología,
agricultura, alimentación, creación de cosméticos, medicina, entre otras (Korol , 2003).
En el campo de la medicina, el análisis de los perles de expresión ayuda al descubrimiento y clasicación de patologías. Utilizando únicamente patrones de expresión, automática y acertadamente,
Cobb ,
pacientes con leucemia fueron clasicados en los dos principales subtipos de esta enfermedad (
2006). Según
Madeira y Oliveira
(2004), los objetivos comúnmente perseguidos cuando se analizan
datos de expresión genética incluyen:
Agrupamiento de genes de acuerdo a su expresión bajo múltiples condiciones.
Clasicación de un nuevo gen, dada su expresión, y la expresión de otros genes con una clasi-
3
cación conocida.
Agrupación de condiciones basadas en la expresión de un número de genes.
Clasicación de una nueva condición, dada la expresión de los genes bajo cierta condición
experimental.
El análisis masivo de datos de expresión facilita la identicación de genes individuales que son expresados de manera desmesurada en alguna condición dada. El análisis simultáneo de un conjunto
de genes permite revelar patrones similares de comportamiento en determinadas condiciones experimentales, al igual que encontrar grupos de genes que reaccionen de forma inversa ante determinados
estímulos (
Baena , 2006).
Una de las tecnologías, más utilizadas hoy en día, para la generación masiva de datos de expresión,
es la creación de Microarrays.
2.2. Microarrays
Los microarrays, también llamados ADN Chips o Biochips, son una matriz de miles de genes
inmovilizados y expresados en distintas condiciones. Donde cada la corresponde a un gen diferente
y las columnas corresponden a las condiciones que se expone cada gen. La intensidad de expresión
Baena ,
de un gen es comúnmente representada por una variación de colores (
2006). La tecnología
de microarrays de ADN representa una gran oportunidad de estudiar la información genómica de
manera global, de forma que podemos analizar relaciones entre miles de genes simultáneamente
(
Baena et al., 2007).
La matriz de genes es almacenada en un soporte sólido, el cual está formado por una gran
cantidad de compartimientos microscópicos que sirven para contener a cada gen. Para la construcción
de microarrays, se sigue el siguiente proceso: se seleccionan partes de ADN conocido y se colocan
en el soporte sólido. Se selecciona el tipo de célula que se utiliza para estudiar algún gen, dicha
célula se deposita en un contenedor, y se seleccionan los genes que se utilizarán para el estudio. Una
vez adquirido el número de genes, se prosigue a obtener las moléculas de ARN mensajero (ARNm),
realizando una transcripción inversa, para formar el ADN complementario (ADNc). Previamente,
el ARNm se marca para ayudar a identicar el emparejamiento de genes. Una de las técnicas para
realizar el marcaje de los ARNm es mediante uidos uorescentes, los cuales se adhieren al ARNm.
El ADNc, se utiliza para realizar la hibridación, es decir, el emparejamiento del ADNc con las
partes de ADN ubicadas en el soporte sólido. Las hebras de ADN que no se hibridaron, se eliminan
mediante un lavado del chip. A continuación, se realiza un escaneo para hacer reaccionar el uido,
Kreuzer y Massey ,
capturando una imagen de los genes expresados de dicho chip (
2006;
2001;
Baena ,
de Paz Santana , 2010; Lopez et al., 2002).
El objetivo de la tecnología de microarrays de expresión consiste en cuanticar la abundancia de
miles de secuencias de ARNm (asociadas a los genes y fragmentos de genes -ESTs-) de una muestra
4
biológica (
Gutierrez , 2010). Otro objetivo es el estudio de la funcionalidad especíca de los genes, y
su participación en procesos biológicos, hasta la reconstrucción de las condiciones de una enfermedad
Baena et al., 2007).
para su posterior prognosis (
El análisis de microarrays se utiliza ampliamente en el campo de la medicina, donde su aplicación ayuda al descubrimiento, predicción, clasicación y tratamiento de enfermedades, detección
de biomarcadores, entre otras aplicaciones. Inicialmente, los experimentos basados en microarrays
los enfocaron al descubrimiento, estudio y clasicación de los tipos de cáncer humano, en muchos
casos, con la nalidad de encontrar nuevas herramientas de diagnóstico, tratamiento de carcinomas
Bhattacharya y Mariani ,
e identicación de nuevas dianas terapéuticas (
2006;
2009;
Korol ,
2003;
Cobb ,
Sorlie et al., 2001).
En la industria farmacéutica, el análisis de microarrays ayuda al descubrimiento, evaluación de
la toxicidad, seguridad y efectividad de tratamientos para un objetivo (enfermedad) previamente
denido. Inclusive, tratamientos que son efectivos para un paciente, pueden causar reacciones nulas
o indeseables en otros; abriendo las puertas al diseño de tratamientos individuales más ecientes,
para perles únicos de expresión genética (
Korol , 2003).
Los microarrays son una tecnología para generar datos masivos de expresión. Esta gran cantidad
de datos ha atraído la atención de muchos investigadores debido a que la extracción de información
útil representa un gran reto. Para afrontarlo se han aplicado diferentes técnicas estadísticas y de
minería de datos. El clustering es la técnica más popular en este área de investigación (
Baena et al.,
2007).
2.3. Clusters
El clustering tiene como objetivo formar grupos o clases de datos, llamados clusters, de tal forma
que los datos de un mismo grupo comparten una serie de características y similitudes, mientras que
Baena , 2006).
los datos de grupos distintos tienen mayores diferencias (
El clustering, es una técnica usada para el tratamiento de datos, basada en el agrupamiento de
los mismos, con el n de facilitar su análisis. Una característica importante del agrupamiento de
datos es la creación de un conjunto de grupos tales que sus elementos internos tengan la máxima
similitud posible, de tal manera que la similitud intergrupal se minimice. La importancia de la formación de grupos de datos para su análisis, recae en identicar el comportamiento de una población,
clasicación de objetos, extracción y/o selección de características similares. El agrupamiento de los
datos es realizado por medio de algún algoritmo que trata los datos dependiendo de un criterio,
ya sea de distancia o similitud. Éste criterio se establece dependiendo del tipo de datos, en otras
palabras, depende de los datos la selección del algoritmo a utilizar. Durante la ejecución de un método de agrupamiento, puede existir la unión de dos clusters cuyos elementos compartan los criterios
Pascual et al., 2007).
establecidos (
Existen dos tipos de algoritmos de clustering básicos: algoritmos de particionamiento y algoritmos
5
jerárquicos. El primero, consiste en obtener una muestra de una base de datos con un número variable
de objetos, para ser representada por un conjunto de clusters. El número de clusters es un parámetro
de entrada en estos algoritmos, por lo tanto, se debe tener conocimiento de dominio, lo que diculta
su uso en muchas aplicaciones. Este tipo de algoritmos comienzan con una muestra de la base de
datos, después usan un conjunto de pasos repetitivos para ir minimizando el criterio utilizado. El
cluster queda representado por un objeto o punto central, o por un objeto-medio, localizado lo
más cercano al centro. El proceso de los algoritmos de particionamiento consta de dos pasos: el
primero, determinar los objetos representativos de cada cluster, y el segundo, consta de asignar
los demás objetos a los cluster, basándose en el criterio utilizado y comparándolos con los objetos
representativos. Los algoritmos jerárquicos se basan en la creación de grupos jerárquicos de la base de
datos de manera iterativa, hasta formar un árbol de subconjuntos en donde cada nivel contiene menos
objetos. Cada nivel del árbol es considerado un cluster de la base de datos. Dentro de estos tipos de
algoritmos, existe el enfoque aglomerativo, que consiste en mezclar clusters en cada iteración; y el
enfoque divisivo, por el contrario, consiste en dividir la base de datos en clusters. Una gran diferencia
respecto a los algoritmos de particionamiento viene siendo la necesidad de una condición de parada,
ante la ausencia de especicar parámetros de entrada (cantidad de clusters) (
Ester et al., 1996).
2.4. Biclusters
El término biclustering se reere al agrupamiento simultáneo de conjuntos de renglones y columnas en una matriz dada. Los métodos de biclustering, realizan agrupamiento simultáneo de dos
Cheng y Church ,
dimensiones (
2000). Esto signica que los métodos de clustering obtienen un mo-
delo global, mientras que los algoritmos de biclustering producen un modelo local. Una gran fracción
de aplicaciones de algoritmos de biclusters lidian con matrices de expresión genética. Sin embargo,
existen muchas otras aplicaciones para el biclustering. Por esta razón, el caso general es una matriz
de datos,
A,
con un conjunto de las
X
y columnas
valor representando la relación entre la la
A,
Tal matriz
{x1 , . . . , xm },
y
J ⊆ Y,
submatriz
de las
I
con
y columnas
Aij
de
n
y la columna
Y = {y1 , . . . , yn }.
y un conjunto de columnas
Aij = (I, J)
s ≤ n).
(I ⊆ X
Un bicluster
Se utiliza
(X, Y )
para denotar la matriz
matriz de datos
A.
Aij = (I, J)
Si
X =
I ⊆X
denota la
pertenecientes a la submatriz con un conjunto
J.
k ≤ m),
(I, J)
corresponden a un
j.
I = {i1 , . . . , ik }
es un
es un subconjunto de columnas
(J ⊆
es un subconjunto de las y columnas donde
y
aij
columnas, está denida por su propio conjunto de las
A que contiene solo los elementos aij
subconjunto de las
y
las y
donde los elementos
son subconjuntos de las las y las columnas, respectivamente,
El bicluster
Y
m
i
Y,
y
J = {j1 , . . . , js }
puede entonces ser denido como una submatriz
K
por
S
de la
A.
El problema especíco que atienden los algoritmos de biclusters, puede ser denido como: dada
una matriz
A,
se requiere identicar un conjunto de biclusters
6
Bk = (Ik , Jk ),
tal que cada biclus-
ter
Bk
satisfaga alguna característica especíca de homogeneidad. Las características exactas de
homogeneidad que un bicluster debe de obedecer varía de una propuesta a otra.
Dentro del análisis de datos de expresión genética, el objetivo de las técnicas de biclustering es
identicar subgrupos de genes y subgrupos de condiciones, para realizar un agrupamiento simultáneo
Madeira y Oliveira , 2004).
entre las y columnas de una matriz de expresión de genes (
Los algoritmos de biclustering identican grupos de genes que muestran patrones de actividad
similar bajo un subconjunto especíco de las condiciones experimentales. Por lo tanto, la propuesta
de biclustering es una técnica clave de uso cuando una o más de las siguientes situaciones se aplica:
Un grupo de genes debe ser denido con respecto a solo un subconjunto de las condiciones.
Un grupo de condiciones debe ser denido con respecto a solo un subconjunto de genes.
Los grupos no deben ser exclusivos y/o exhaustivos: un gen o una condición debe ser capaz de
pertenecer a más de un grupo o ningún grupo en absoluto, y se agrupan usando un subconjunto
de condiciones o genes, respectivamente.
Además, la robustez de los algoritmos biclustering, es especialmente relevante debido a dos características adicionales de los sistemas en estudio. La primera, es la complejidad de los procesos de
regulación genética, que requieren de potentes herramientas de análisis. La segunda, es el nivel de ruido en los actuales experimentos de expresión genética, que hace indispensable el uso de herramientas
Madeira y Oliveira , 2004).
inteligentes de estadística (
Una de las razones por las cuales se utilizan biclusters para el análisis de los datos de expresión,
es que un gen puede ser agrupado en uno o más biclusters, comportarse de manera similar bajo una
o más condiciones que permitan la formación de biclusters traslapados. El problema de encontrar
un conjunto mínimo de biclusters, ya sea mutuamente excluyentes o traslapados, para cubrir todos
los elementos de la matriz, es una generalización del problema de cubrir un grafo bipartito por un
conjunto mínimo de subgrupos, el cual ha sido demostrado ser un problema NP-Complejo.
Más interesante, es el encontrar un conjunto de genes que muestren altos y bajos niveles de
expresión bajo un conjunto de condiciones (
Cheng y Church , 2000).
Los algoritmos de biclustering se pueden clasicar dentro de 4 aspectos:
El tipo de biclusters que pueden encontrar. Esto se determina por las funciones de mérito que
denen el tipo de homogeneidad que se busca en cada bicluster.
La manera en que múltiples biclusters son tratados y su estructura es producida.
Algunos algoritmos encuentran solo un bicluster, otros encuentran biclusters que no se traslapan, otros, de manera más general, extraen múltiples biclusters traslapados.
El algoritmo especíco utilizado para encontrar cada bicluster. Algunas propuestas usan algoritmos voraces, mientras que otras utilizan propuestas globales más costosas o enumeraciones
exhaustivas.
7
El dominio de aplicación de cada algoritmo. Las aplicaciones de biclustering oscilan de un
número de tareas de análisis de microarrays, a aplicaciones más exóticas, como análisis de
sistemas, mercadotecnia y análisis de elecciones.
El análisis de vastos conjuntos de datos de muestras clínicas es uno de los principales objetivos
de los métodos de biclustering. Muchas aplicaciones son desarrolladas para el análisis de datos de
expresión genética obtenidos mediante tecnologías de microarrays, esta tecnología de microarrays
permite medir el nivel de expresión de miles de genes bajo un conjunto de condiciones experimentales
objetivo. En este dominio de aplicación, entre un gran número de aplicaciones, se pueden utilizar
biclusters para asociar genes con clases clínicas especícas, clasicar muestras, detectar mutaciones,
diagnosticar enfermedades, descubrir nuevos tratamientos.
2.5. Preprocesado de datos de matrices de expresión genética
Una matriz de expresión genética es una matriz de números reales, donde cada uno de estos
elementos es el logaritmo de la abundancia relativa (nivel de expresión) de ARNm de un gen bajo una condición especíca. La razón de esta transformación logarítmica es para convertir saltos
Cheng y Church ,
exponenciales en los valores de la abundancia relativa, a incrementos aditivos (
2000).
Los experimentos de microarrays generan conjuntos de datos con información acerca de los
Bo et al.,
niveles de expresión de miles de genes en un conjunto de muestras biológicas (
2004). La
imagen capturada del microarray, que contiene los datos de expresión genética, es propensa a ruido,
valores nulos y variaciones sistemáticas producidas durante la ejecución de los experimentos. Por
este motivo, es necesario un preprocesado de los datos antes de empezar a aplicar cualquier técnica
Baena , 2006).
trabajo de Schuchhardt et al.
de biclustering (
En el
(2000), se listan las fuentes más comunes de pérdidas de
delidad en los experimentos de microarrays. Dentro de estas fuentes se encuentran las pérdidas de
sondas, errores en la preparación del microarray, fallos en el proceso de hibridación, efectos de fondo
y brillo excesivo resultantes del procesamiento de las imágenes.
En el caso de la aparición de valores nulos, debido a un gran número de razones, no siempre es
posible obtener una cuanticación de todos los puntos de un microarray; las razones típicas para
la ocurrencia de esto incluyen problemas de manchas, rayones en la lámina, polvo, o hibridaciones
fallidas, ocasionando que la matriz de expresión contenga éstos valores nulos.
Los puntos y/o submatrices, pueden ser removidos hasta que no quede ningún valor nulo en
el microarray, pero esta técnica ocaciona una perdida de muchos datos existentes en la matriz.
En microarrays con un bajo porcentaje de valores nulos, es preferible estimar y reemplazar dichos
valores, de tal manera, que el análisis subsecuente resulte lo más informativo posible. Es esencial que
el método utilizado para la estimación de estos valores nulos sea preciso, debido a que una mínima
porción de valores mal estimados, puede ocasionar que los algoritmos de clustering o biclustering
8
produzcan resultados inexactos (
Bo et al., 2004).
La aparición de ruido en los escaneos de microarrays, es otro de los problemas a tratar del
procesamiento de imágenes de Microarrays de ADN, debido a que seguido presentan ruido de fondo
no homogéneos. En una lámina de microarray, la intensidad uorescente medida en un punto, es una
combinación de la intensidad del fondo de la imagen alrededor del punto, y la intensidad determinada
por el nivel de hibridación de las muestras. Para esto, es necesario implementar una corrección del
fondo, lo que ayuda a estimar el verdadero nivel de hibridación de las muestras.
Dentro de la comunidad cientíca, se han desarrollado métodos para corregir el ruido de fondo
de las imágenes de microarrays. Los métodos que han sido publicados se han clasicado en tres categorías: (I) corrección de fondo constante, (II) corrección local de fondo y (III) apertura morfológica.
Los métodos de corrección constante utilizan la intensidad media o mediana de todo el fondo de
la imagen como la intensidad de fondo estimada, en algunas ocasiones son aplicados en imágenes
con ruido de fondo no homogéneo. Los métodos de corrección local de fondo, calculan la intensidad
local del fondo utilizando los pixeles cercanos al punto de la muestra. Estos métodos devuelven las
imágenes corregidas por medio de la substracción y normalización del fondo local utilizando el nivel
de la intensidad media o mediana de los pixeles del fondo original. Un problema de estos métodos
es que el nivel de intensidad de los valores de la media o mediana calculada, a partir de los pixeles
alrededor de una muestra en una región local, puede ser más alto que la intensidad de la muestra en
sí. Esto sucede cuando el ruido de fondo provoca grandes cambios de variación de intensidad cerca
de la muestra. Consecuentemente, la corrección local de ruido de fondo, puede ocasionar que se produzcan valores de intensidad negativos en las muestras, lo cual, es erróneo. Los métodos de apertura
morfológica, estiman la intensidad del fondo utilizando un ltro no lineal. Este ltro, en esencia,
suaviza de manera no uniforme la imagen entera, remueve los picos locales y devuelve una imagen
suavizada. En concreto, los métodos de apertura morfológica aplican un proceso de erosión, seguido
de un proceso de dilatación de la imagen, los cuales consisten en un ltrado de pixeles mínimo local
y máximo local respectivamente.
La normalización de los datos de expresión genética es un proceso aplicado a los microarrays
para remover las fuentes de variación, de origen no biológico, de las matrices. Al trabajar con
experimentos de microarrays que involucran múltiples matrices, se presentan dos tipos generales de
caracterizaciones en las que los tipos de variación pueden ser clasicados. El primer tipo, denominado
variación interesante, clasica diferencias biológicas, por ejemplo, los niveles de expresión de genes
de tejido enfermo contra tejido normal. Sin embargo, en algunas ocasiones, los niveles de expresión
presentan o incluyen variaciones que se introducen durante el proceso del experimento. A este tipo
de variación se le denomina como variación oscurecida. El propósito de la normalización es trabajar
con la variación oscurecida (
Bolstad et al., 2003; Harteminka et al., 2001).
Otras maneras de afrontar el problema del preprocesamiento de los datos, según
Baena
(2006),
es la normalización de los datos de expresión, realizando ltrado de aquellos genes cuyo valor de
expresión no cambie signicativamente a lo largo de las condiciones experimentales, estandarizar cada
9
la de la matriz con una media de cero y una varianza de uno, o discretización de la información,
entre otras propuestas.
La mayoría de los métodos de análisis de datos de expresión genética suponen que las matrices
sobre las que trabajan contienen sólo datos reales y válidos. Mientras las técnicas experimentales
para la obtención de los datos no garanticen este hecho, el preprocesado de las matrices seguirá
siendo un paso muy importante y crucial en el análisis de expresión genética.
2.6. Denición formal del problema
Debido a la complejidad del problema del preprocesado de datos de matrices de expresión genética, la investigación toma el curso de enfocarse solo en el tratamiento de valores nulos.
Como se menciona en la Sección 2.5, una matriz de datos de expresión genética, es una matriz
de números reales
A [m, n],
valor de expresión del gen
compuesta de
i
m
genes y
bajo la condición
j.
n
condiciones, en donde cada elemento
Frecuentemente se tienen elementos
aij
aij
es el
cuyo valor
es desconocido, y se consideran como valores nulos (vn) (Ver Figura 2.1a).
Una matriz de datos de expresión genética con valores nulos estimados, se puede representar
como
à [m, n],
como
ãij
dentro de la cual, todo elemento
aij
considerado como valor nulo, esta representado
después de su estimación (ver Figura 2.1b).
(a)
(b)
Figura 2.1: a) Matriz de datos de expresión genética con valores nulos. b) Matriz de datos de
expresión genética después de un proceso de reemplazo de valores nulos.
El cálculo de la raíz del error medio cuadrático (REMC), es adoptado para evaluar la efectividad
de los métodos de estimación y reemplazo de los valores nulos en las matrices de datos de expresión
genética. Para evaluar esta efectividad en cualquier modelo de predicción de valores, mediante el
cálculo del REMC, se toma la matriz
A [m, n]
con los valores reales, y se compara con la matriz
à [m, n], que contiene los valores estimados. El valor devuelto por este cálculo indica que tan cercanos
resultaron los valores obtenidos por el modelo. Entre más pequeño sea el valor de REMC, mayor
similitud existe entre los valores estimados y los valores reales de la matriz.
10
El cálculo del REMC se realiza mediante la siguiente fórmula:
s
REM C A [m, n] , Ã [m, n] =
donde
k
Pk
1
(|ãij − aij |)2
k
(2.1)
es el número de observaciones evaluadas.
Desde el punto de vista computacional, el problema del tratamiento de valores nulos en las
matrices de datos de expresión genética, se puede plantear de la siguiente manera:
Entrada: Una matriz de números reales
A [m, n]
en la que se reemplaza un porcentaje
τ
a partir de la cual se crea una matriz
de elementos
aij ,
Avn [m, n],
por valores nulos (vn), en posiciones
conocidas.
= vn), fueron reem
plazados por elementos estimados ãij , de manera que se minimice REM C A [m, n] , Ã [m, n] .
Salida: Una matriz de números reales
à [m, n]
donde los elementos nulos (aij
2.7. Trabajo previo realizado
Se han realizado varias propuestas de sustitución de valores nulos, para su utilización dentro de
métodos de biclustering. Por ejemplo, el trabajo de
Cheng y Church
(2000), en el cual, propusie-
ron un conjunto de algoritmos heurísticos para encontrar conjuntos de biclusters. Los algoritmos
consisten en iteraciones que detectan y enmascaran los valores nulos, descubren biclusters, realizan una supresión na y gruesa de nodos, añaden nodos e incluyen datos inversos. La complejidad
computacional es del orden de
O (M N ∗ (M + N ) ∗ k)
para descubrir
k
biclusters, siendo
M
y
N
el
número de condiciones y el número de genes, respectivamente. Aunque su trabajo arrojó resultados
Yang et al. (2010), que el enmascaramiento de
valores nulos y el descubrimiento de biclusters propuesto por (Cheng y Church , 2000), fue mejorado
satisfactorios, sufre de algunas desventajas. Menciona
al reemplazar celdas relevantes con valores aleatorios. Argumentando que los valores aleatorios tienen una oportunidad matemática de formar algún patrón reconocible y, por lo tanto, no resultaría
un bicluster distorsionado. De igual manera,
Yang et al. (2010) comenta que la intención original de
enmascarar los bicluster descubiertos, es para asegurar que de cada corrida sucesiva del algoritmo
determinístico, surja un bicluster diferente en el caso donde múltiples biclusters sean preferidos. En
ambos casos, incluso los datos aleatorios improbablemente formen patrones cticios. Existe un riesgo
substancial de que dichos números aleatorios, intervengan con el descubrimiento futuro de biclusters,
especialmente, aquellos que se han superpuesto con los ya descubiertos. Llaman a este fenómeno,
Yang et al., 2010), conrma que la
interferencia aleatoria. El resultado del estudio experimental de (
interferencia aleatoria impacta en el resultado del biclustering.
A continuación, se presentan algunos trabajos que tratan directamente el problema de sustitución
de valores nulos en las matrices de datos de expresión genética. En estos trabajos se proponen
métodos de estimación y reemplazo de valores nulos, se analizan y comparan los resultados obtenidos
por dichos métodos para distintos casos de pruebas.
11
2.7.1. Análisis comparativo de métodos de estimación y reemplazo de valores
nulos, (Celton et al., 2010)
Las tecnologías de microarrays permiten la caracterización de un genoma de expresión completo,
al medir los niveles de transcripción relativa de miles de genes en un experimento. Sin embargo,
limitaciones técnicas o deciencias en el equipo, al realizar el escaneo del microarray (polvo, marcas)
llevan a la generación de valores nulos en la imagen del microarray. Durante la fase de análisis de la
imagen, se ltran puntos dañados o manchas que generan valores nulos. Estos valores nulos (MVs)
alteran el agrupamiento de genes obtenido por medio de métodos clásicos de clustering.
El tratamiento de valores nulos en datos de microarrays es un campo de investigación reciente,
para el cual han sido, y se siguen desarrollando una gran diversidad de metodologías innovadoras.
Por lo regular, las nuevas propuestas son comparadas con el método k-Nearest Neighbors (kNN)
(
Troyanskaya et al.,
2001). En este estudio de
Celton et al.
(2010), se decidió evaluar la calidad de
la estimación y reemplazo de valores nulos de todos los métodos disponibles a la fecha (Ver Cuadro
2.2), y su inuencia en la calidad de agrupamiento de genes.
Método
Autor
Año
K-Nearest Neighbors (KNN)
Troyanskaya O.
2001
Bayesian Principal Componen Analysis (BPCA)
Oba S.
2003
Row Mean
Bo T. H.
2004
EM_gene
Bo T. H.
2004
EM_array
Bo T. H.
2004
LSI_gene
Bo T. H.
2004
LSI_array
Bo T. H.
2004
LSI_combined
Bo T. H.
2004
LSI_adaptative
Bo T. H.
2004
Sequential KNN (SkNN)
Kim K.
2004
Local Least Square Impute (LLSI)
Kim H.
2005
Row Average
Kim H.
2005
Cuadro 2.2: Métodos utilizados en el análisis comparativo de métodos de estimación y reemplazo de
valores nulos.
A continuación se presenta una breve descripción de los métodos revisados por
Celton et al.
(2010).
El método kNN selecciona genes con perles de expresión similares a un gen de interés, para
estimar y añadir los valores que reemplazarán los valores nulos. Si se considera un gen
un valor nulo en el experimento uno, este método encuentra otros
k
Y
que tiene
genes, los cuales, tengan un
valor presente en el experimento uno, con niveles de expresión similares al gen
Y
en los demás
Troyanskaya et al., 2001).
experimentos (
Bayesian Principal Component Analysis (BPCA), es un método de estimación de valores nulos
que consiste de tres procesos elementales. Estos son la regresión del componente principal (PC
12
Regression), en la cual se considera una situación donde no existen valores nulos. PCA representa
la variación de vectores de genes de expresión D-dimensionales y como una combinación lineal de
vectores principales.
El segundo proceso es una estimación bayesiana, consiste en un modelo probabilístico bajo la
suposición de que el error residual
ε y el factor de puntuación xi
cual calcula el PCA, obedece distribuciones normales
en la ecuación
y=
p (x) = Nk (x|0, Ik ), p (ε) =
Pk
l=1 xi wi + ε, la
ND ε|0, τ1 ID .
Y un tercer proceso, repetitivo, similar al algoritmo Expectation Maximization, en donde, si se
conoce un parámetro
θ,
se obtienen estimaciones acerca de los valores nulos posteriores mediante la
Oba et al., 2003).
probabilidad marginal con respecto a las variables observadas (
Los métodos LSI_gene, LSI_array, LSI_combined, LSI_adaptative, son métodos de estimación
y reemplazo de valores nulos basados en el principio de mínimos cuadrados. Este principio está
basado en la minimización de la suma de los errores cuadrados de un modelo de regresión. LSI_gene
se basa en la correlación entre los genes, mientras que LSI_array se basa en la correlación entre las
submatrices de los microarrays, como base para la estimación de los valores nulos. LSI_combined y
LSI_adaptative son una combinación y una variación, respectivamente, de estos dos algoritmos.
EM_gene y EM_array, son métodos que se basan en la implementación del algoritmo ExpectationMaximization de
Johnson y Winchern (2007). Este algoritmo, es similar a los LSI en cuanto al modelo
de estimación, pero a diferencia de estos, utiliza una matriz de covarianza de los valores estimados
más probables. EM itera actualizando las estimaciones de valores nulos hasta que los valores de dicha
matriz se estabilicen. EM_gene y EM_array se comportan de la misma manera que LSI_gene y
LSI_array, respectivamente, pero su diferencia es la actualización iterativa de los valores estimados
Bo et al., 2004).
(
SkNN es un método de estimación y reemplazo de valores nulos, que utiliza los valores promedio
de los genes más similares para estimar sus valores nulos. SkNN puede ser considerado como un método basado en clustering, ya que los valores nulos son estimados mediante la selección de secuencias
Kim et al., 2004).
de genes similares (
LLSI es un método que selecciona genes similares, esto mediante el kNN, con la intención de
obtener una secuencia de genes con coecientes absolutos de correlación de pearson. Utiliza un
estimador
k
Kim et al., 2005).
para generar estimaciones no paramétricas de valores nulos (
Para llevar a cabo las evaluaciones,
Celton et al. (2010), mencionan que a partir de los conjuntos
iniciales de datos de expresión genética, son eliminadas las series de apariciones de valores nulos,
para crear una matriz de referencia. Después, se generan valores nulos simulados para un porcentaje
establecido
τ
(donde
τ
es el porcentaje de genes con valores nulos en los datos), y son incluidos en la
matriz de referencia. En un segundo paso, estos valores nulos simulados son estimados y reemplazados
utilizando los diferentes métodos disponibles. La diferencia entre los valores reemplazados y los
valores originales son nalmente evaluados utilizando la Raíz del Error Medio Cuadrático (REMC).
Sea
T
T
cualquier estimador de un parámetro desconocido
θ.
como el valor esperado del cuadrado de la diferencia entre
13
Se dene el error cuadrático medio de
T
y
θ.
Para cualquier estadística
T,
se
denotará el error cuadrático medio por
ECM (T );
de esta forma:
ECM (T ) = E(T − θ)2 (Canavos ,
1988).
Se seleccionaron 12 métodos de reemplazamiento disponibles, los cuales fueron de alto rendimiento computacional. Las propuestas kNN y EM_gene exhiben una alta dispersión entre los valores
esperados y verdaderos; las correlaciones
se dene el coeciente de correlación
variables aleatorias
X
y
Y.
ρ
R
Canavos ,
son respectivamente 0.23 y 0.32. En (
1988),
como una medida de la asociación lineal que existe entre las
En el análisis de regresión, se asume la disponibilidad de una muestra
aleatoria de la variable respuesta
Y1 , Y2 , . . . , Yn ,
correspondientes a n valores jos
x1 , x2 , . . . , xn
de
una variable de predicción. Para denir el coeciente de correlación de la muestra, se supondrá que
tanto
X
como
Y
son variables aleatorias. El estimador de máxima verosimilitud de
ρ
(denominado
coeciente de correlación de la muestra), está dado por:
P
P
Xi Yi − ( Xin)( Yi )
r (X, Y ) = h
P 2 (P Xi )2 i 12 hP 2 (P Y i)2 i 12
Xi −
Yi −
n
n
P
(2.2)
Para este análisis de métodos, se evalúa el desempeño de cada método por su valor de REMC,
siendo entre más pequeño, mejor desempeño.
La evolución de los valores de REMC para un rango
τ
entre 0.5 y 50 %, usando los conjuntos
de datos, ilustran bien las diferencias de comportamiento observadas con los diferentes métodos de
reemplazamiento. Algunos tienen valores iniciales altos de REMC y continúan siendo consistentes,
mientras que otros tienen valores de REMC bajos inicialmente, pero son muy sensibles al incrementar
la frecuencia de aparición de valores nulos. Además, el comportamiento de los diferentes métodos
parece depender del conjunto de datos usados. En los Cuadros 2.4 y 2.6 se muestran los conjuntos de
datos utilizados por
Celton et al. (2010), para evaluar los métodos de sustitución de valores nulos..
Autor
Ogawa et al., 2000
Gasch et al., 2000
Bohen S. P. et al., 2002
Lelandais et al., 2005
Organismo
Saccharomyces
Saccharomyces
Humano
Saccharomyces
cerevisiae
cerevisiae
6013
6153
Número inicial de condiciones
8
178
16
6
Valores Nulos ( %)
0.8
3
7.6
11.4
Genes con valores nulos ( %)
3,8
87,7
63,6
88.29
Genes borrados del estudio
230
NA
NA
616
Condiciones borradas del estudio
0
136
0
0
Número inicial de genes
cerevisiae
16523
5261
Cuadro 2.4: Conjuntos de datos originales, a partir de los cuales, se generaron los conjuntos de datos
utilizados en el análisis comparativo de métodos de estimación y reemplazo de valores nulos.
14
Conjunto
Ogawa_Complet
Ogawa_subset
Gasch Heat
Gasch H2O2
Bohen
Lelandais
de datos
(OC)
(OS)
(GHeat)
(GH2 O2 )
(B)
(L)
Cinética
N
N
Y
N
N
Y
Genes
5783
827
523
717
861
4645
Condiciones
8
8
8
10
16
6
Cuadro 2.6: Subconjuntos de datos creados, a partir de sus respectivas matrices originales, para el
Celton et al., 2010).
análisis comparativo de métodos de estimación y reemplazo de valores nulos en (
A continuación, se describen los resultados del análisis de los métodos previamente mencionados
(Ver Cuadro 2.8).
EM_gene: Este método siempre está asociado con valores muy altos de REMC, cuyo rango es
un intervalo de 0.6 a 0.7 para una frecuencia
valores
y
τ
τ
que va de 0.5 a 3.0 %, y decrementando para
de 0.30 a 0.40. Un perl curveado tal es observado para los conjuntos de datos OS
GH2 O2 .
Para los otros conjuntos de datos, los valores de REMC se incrementan de manera
esperada, pero el crecimiento siempre es asociado con valores muy altos.
kNN: Sus valores de REMC para los seis conjuntos de datos oscila entre 0.3 y 0.4. El incremento
de
τ
solo afecta ligeramente el resultado del kNN, en su mayoría 0.05 para los conjuntos de
datos B y OS. Esta constancia de valores de REMC implica que para altas tazas de valores
nulos (más de 20 % de valores nulos), los valores de REMC continúan aceptables.
SkNN: A pesar del hecho de que el SkNN es una mejora del kNN, sus valores de REMC
siempre son más altos que los del kNN. Solamente con el conjunto de datos B, SkNN trabaja
ligeramente mejor que el kNN.
LLSI: Los valores promedio de REMC oscilan principalmente entre 0.34 a 0.41 para la mayoría
de los conjuntos de datos. Su comportamiento puede ser considerado promedio y su efectividad
es cercana a la del método LSI_gene. Este es el método menos eciente sobre regresiones
mínimas cuadradas. Sin embargo, para el conjunto de datos L, este método trabaja mejor
después de los métodos LSIs.
LSI_gene: La efectividad de este método es ligeramente afectada por el incremento de porcentaje de valores nulos. Para cada conjunto de datos, los valores de REMC oscilan entre 0.3
y 0.4. Estos resultados son cercanos a aquellos observados por los métodos LLSI y kNN, por
ejemplo, métodos que han dado resultados que oscilan entre el mejor (LSI_array) y el método
menos eciente (EM_gene).
Row Mean y Row Average: Se observan valores bajos de REMC para los conjuntos de datos L
(0.23) y B (0.28). Solamente para el conjunto de datos GHeat, el valor de REMC es alto (0.54).
Este método muestra mejores y/o equivalentes resultados que las propuestas más elaboradas.
15
BPCA: Para los conjuntos de datos OC, OS y
GH2 O2 ,
y para valores de
τ
que comprenden el
rango de 0.5 a 10 ó 15 % de valores nulos, BPCA parece tener uno de los valores más bajos de
REMC. Este método es robusto para tazas bajas de valores nulos. Sin embargo, la eciencia
del BPCA es fuertemente reducida cuando la taza de valores nulos se incrementa. Esto es
particularmente notable en el caso del conjunto de datos GHeat, donde los valores de REMC
incrementan de 0.2 a 1.1. Para un valor
τ
mayor que 30 %, BPCA trabaja peor que la mayoría
de los métodos de estimación y reemplazo. Para los conjuntos de datos B y OS, los valores de
τ
REMC tienen un incremento máximo de 0.1 para los valores de
cuando incrementa de 0.5 a
50 %.
LSI_array, LSI_combined, LSI_adaptative y EM_array: Sus valores de REMC son siempre
menores que 0.1. Son dedignos incluso para tazas de valores nulos que llegan al 50 %. El
promedio de valores REMC para EM_array son ligeramente menores que los de los otros tres
métodos y es más efectivo cuando la taza de valores nulos excede el 20 %. Una comparación por
pares muestra que EM_array es mejor que los otros tres métodos; su aproximación es mejor
dos terceras partes de las veces. Si
τ
es más alto que el 33 %, este método, continua siendo el
mejor el 80 % de las veces.
Datos\Método
EM_gene
SkNN
kNN
LLSI
LSi_gene
RowMean
BPCA
LSI_array
EM_array
Promedio
B
0.334
0.390
0.445
0.344
0.320
0.283
0.194
0.098
0.053
0.227
GH2 O2
0.586
0.445
0.431
0.452
0.358
0.319
0.334
0.068
0.028
0.336
OS
0.444
0.369
0.383
0.379
0.377
0.263
0.257
0.077
0.036
0.287
L
0.388
0.292
0.300
0.078
0.261
0.215
0.250
0.028
0.020
0.204
GHeat
0.703
0.426
0.350
0.412
0.403
0.541
0.690
0.091
0.054
0.408
Promedio
0.491
0.384
0.384
0.333
0.344
0.324
0.345
0.072
0.038
0.302
Cuadro 2.8: Valores de REMC promedio de algunos métodos aplicados sobre algunos de los conjuntos
de datos.
Los valores promedios de REMC calculados por
Celton et al.
(2010), son dados como el pro-
medio de todas las simulaciones llevadas a cabo, oscilando de una
τ
igual a 0.5 a una t de 50 %
(50000 simulaciones independientes por método de estimación y reemplazo). Esto permitió categorizar los métodos en tres grupos de acuerdo a su eciencia: el primer grupo incluye cuatro métodos
(EM_array, LSI_array, LSI_combined y LSI_adaptative), para los cuales siempre se observaron
valores bajos de REMC (EM_array siempre exhibió mejor rendimiento); el segundo grupo incluye
cuatro métodos, BPCA, Row Mean, LSI_gene y LLSI; y nalmente, el tercer grupo, comprende tres
métodos, kNN, SkNN y EM_gene.
Este orden depende del conjunto de datos, pero aun así, los cambios en el orden son limitados.
Por ejemplo, EM_gene se comporta mejor que kNN y SkNN para el conjunto de datos B, pero no
para los demás.
16
Para el conjunto de datos L, LLSI se comporta bien y continua mejor que LSIs y EM_array. El
conjunto de datos GHeat, el cual está asociado con los valores más altos de REMC, tiene fuertes
particularidades como: (i) kNN se comporta mejor que BPCA, Row Mean, LSI_gene y LLSI, y (ii)
BPCA y Row Mean tienen desempeño pobre comparado con los demás métodos, siendo ligeramente
mejor que EM_gene. Por lo tanto, parece que GHeat es un conjunto de datos más complicado para
estimar y reemplazar valores.
La misma metodología fue seguida para analizar valores extremos, por ejemplo, el 1 % de las
medidas de microarray con los valores absolutos más altos. Estos tienen un rol biológico mayor ya
que representan variaciones más altas con respecto a la expresión de referencia.
Por lo tanto, el porcentaje de valores nulos
τ
τ
se puede percibir de forma diferente, por ejemplo,
=10 % corresponde al 10 % de los valores nulos extremos, es decir, el 0.1 % de los valores del
conjunto de datos. Como excepción, todos los métodos de reemplazamiento reducen su efectividad
por la estimación de los valores extremos. El rendimiento de los métodos depende en gran parte
del conjunto de datos utilizado y especialmente en el caso del GHeat. kNN es el método de menor
desempeño en la mayoría de los casos. Su mayor promedio de REMC es a menudo más alto en
0.5 que el segundo método más pobre. Row Mean y Row Average tienen valores incrementados de
REMC de 0.2 a 0.4 para los conjuntos de datos de levadura, los cuales son aceptables con respecto a
los otros métodos. BPCA tiene un comportamiento aceptable. Pero contrario a los demás métodos
es muy sensible al conjunto de datos utilizado. LSI_gene tiene los más bajos valores de REMC
después de EM_array, LSI_array, LSI_combined y LSI_adaptative. Este resultado muestra que
los LSIs, cualquiera que sea la especicación de su implementación, son efectivos para estimar y
reemplazar valores nulos. El método EM_array es una vez más el de mayor rendimiento. LSI_array,
LSI_combined y LSI_adaptative son ligeramente menos ecientes que el método EM_array.
Algunos métodos resultaron ser mejores con respecto a la computación del REMC. En particular,
EM_array es claramente el más eciente de los métodos probados. Para
τ
mejor método de estimación y reemplazo para el 60 % de los valores, y para
menor que 35 %, es el
τ
mayor que 35 %, en
el 80 %.
LSI_array, LSI_combined y LSI_adaptative siguen cercanamente la eciencia del EM_array.
Infructuosamente se ha tratado de combinar estos cuatro métodos diferentes para mejorar los valores
de REMC. Ninguna combinación funciona mejor que el EM_array.
2.7.2. LSImpute: estimación exacta de valores nulos en microarrays, (Bo
2004)
,
et al.
LSI_gene, es un algoritmo enfocado en la correlación entre genes, para la estimación y reemplazo
de datos nulos, basado en el principio de mínimos cuadrados. Para el principio de mínimos cuadrados,
es común utilizar un modelo de regresión lineal para
y
dada
y = α + βx + e
17
x,
como
(2.3)
dónde
e
es el término erróneo para el cual la varianza es minimizada cuando se estima el modelo
(parámetros
a
y
β)
con mínimos cuadrados. En regresiones simples, el estimado de
a
y
β
es
α̂ = y − β̂x
y
β̂ =
dónde
(2.4)
sxy
sxx
(2.5)
n
sxy =
1 X
(xj − x) (yj − y)
n−1
(2.6)
j=1
es la covarianza empírica entre
x
y
y,
n
1 X
(xj − x)2
n−1
sxx =
(2.7)
j=1
es la varianza empírica de
x,
y
sido observados juntos). Aquí
x
n,
y
es el número de observaciones (número de veces que
y
son los promedios sobre
mínimo cuadrado estimado de una varianza
y
x1 , ..., xn
dada una variable
ŷ = y +
x
y
y1 , ..., yn .
x
y
y
han
Por lo tanto, el
puede ser escrito como
sxy
(x − x)
sxx
(2.8)
El modelo correspondiente para regresiones múltiples, (y1 , ..., yl dados
yi = αi + βi1 x1 + βi2 x2 + ... + βik xk + e
x1 , ..., xk )
es
(2.9)
Se puede mostrar que la estimación mínima cuadrada para este modelo, puede ser formulada como
−1
ŷi = y i + Syi x Sxx
(x − x)
(2.10)
x = [x1 , x2 , . . . , xk ]T ,
(2.11)
x = [x1 , x2 , . . . , xk ]T ,
(2.12)
Syi x = [syi x1 , syi x2 , . . . , syi xk ] ,
(2.13)
dónde
y
sx1 x1
Sxx =
sx1 x2
···
sx1 xk
.
.
.
.
.
.
.
.
.
.
.
.
sxk x1
sxk x2 · · ·
18
sxk xk
(2.14)
El modelo singular de regresión tiene dos parámetros para ser estimados, mientras que el modelo
múltiple de regresión tiene
l (k + 1)
parámetros. Es esencial para una buena estimación de paráme-
tros, que muchas observaciones esten disponibles. El número de parámetros en un modelo debería
de ser solamente una fracción del número de observaciones y, como regla general, debería haber al
menos 5-10 veces tantas observaciones como parámetros. Cuando se trata de datos de microarrays,
es común tener medidas de miles de genes y un limitado conjunto de condiciones, normalmente entre
20 y 100. Dado que queremos usar correlación entre genes como la base para la estimación de valores
nulos, las observaciones serán las condiciones.
Ya que la regresión múltiple para la correlación de los genes no es factible para más de unos
cuantos genes, se propone usar una media ponderada de varias estimaciones singulares de regresión
del mismo valor nulo. Dado un valor nulo en la matriz de datos para el gen
genes
x1 , . . . , x k
ninguno de los
más correlacionados con
x1 , . . . , x k
y,
y,
solamente los
k
son incluidos en el modelo de predicción. Además,
tiene permitido contener un valor nulo en la misma condición que el valor
a ser estimado. Cuando se determinan cuales son los genes mas correlacionados, se utilizan los
valores absolutos de correlación, dado que ambas correlaciones, positivas y negativas, entre genes, es
equitativamente bien adecuada para la regresión. La correlación entre los genes
xi
y
y
se determina
solo al incluir arreglos donde ambos genes tengan ningún valor nulo en su computación.
Dados los
k
genes correlacionados mas cercanos,
son computadas por una sola regresión de cada
los parámetros
αi
y
βi
k
estimaciones
x1 , . . . xk .
ŷ1 , . . . , ŷk
de los valores nulos,
Para cada regresión sencilla se estima
estan basados solamente en arreglos donde ni
y
ni
xi
ŷi ,
tienen valores nulos.
Finalmente, una media ponderada de las estimaciones es computada. La ponderación esta diseñada
para dar los genes más correlacionados con
y
y las más grandes ponderaciones, dado que se espera
que den las mejores estimaciones para los valores nulos. Dada la correlacion estimada
genes
y
y
xi ,
la ponderación
wi
asignada a la estimación
wi =
dónde
ε = 10−6 .
ŷ
2
ryx
i
2 +ε
1 − ryx
i
ryx
entre los
es
!2
(2.15)
En esta formula, el numerador se aproxima a 1 con una correlación incremental
absoluta, mientras que el denominador tiende a
ε.
La constante
ε
(arbitrariamente establecida a
10−6 ), es sumada al denominador para evitar la división por cero. Las ponderaciones son escaladas
de tal manera que todas sumen 1.
Resultados
Celton et al., 2010), se evaluó la efectividad de LSI_gene, mencionando que el método reduce
desempeño entre más existan valores nulos en el conjunto de datos. Celton et al. (2010), ejecutó
En (
su
LSI_gene para los conjuntos de datos Ogawa_Complet (OC), Ogawa_subset (OS), Gasch Heat
(GHeat), Gasch
H2 O2 (GH2 O2 ),
Bohen (B) y Lelandais (L), para los cuales, los valores de REMC
oscilaron entre el 0.3 y 0.4.
19
2.7.3. KNNimpute, (Troyanskaya
, 2001)
et al.
El método basado en KNN, selecciona genes con perles de expresión similares al gen cuyo valor
se requiere estimar. Si consideramos un gen
método encuentra otros
k
Y
que tiene un valor nulo en la condición uno, este
genes, los cuales tienen un valor presente en la condición uno, con nivel
de expresión similar al gen
Y
en los experimentos del dos al
Un promedio de valores en el experimento uno de los
estimado para el valor nulo en el gen
Y.
En KNN, los
k
k
n
(siendo
n
el total de condiciones).
genes más cercanos, es utilizado como un
genes vecinos más cercanos son tomados de
la matriz completa sin incluir los genes que tienen valores nulos en la misma posición que el gen cuyo
valor nulo requiere ser estimado y reemplazado. Se utiliza la distancia euclidiana como métrica para
estimar la similitud, considerando la misma dimensión y posición de los valores. A continuación, el
valor es estimado y reemplazado con el promedio de los valores de los
k
genes vecinos más cercanos,
dicho promedio se obtiene calculando el peso de la contribución de cada gen con la ecuación:
Wi =
1
Di
k
P
i=1
donde
k
es el número de genes seleccionados y
Di
(2.16)
1
Di
es la distancia entre el i-esimo gen y el gen en
cuestión.
Resultados
Troyanskaya et al., 2001), se evaluó el comportamiento del KNNimpute, el cual, fue juzgado
En (
sobre conjuntos de datos con rangos de valores nulos del 1 al 20 %. El método resultó ser muy preciso,
con una estimación que mostró solamente un promedio que va del 6 al 26 % de desviación con respecto
a los verdaderos valores que fueron estimados, lo cual dependió del tipo de datos y porcentaje de
valores nulos del conjunto utilizado. KNN estimó de manera más precisa cuando los valores nulos se
encontraban en pequeños clusters. Bajo aparentes niveles bajos de ruido, aproximadamente el 94 %
de los valores fueron estimados dentro del 0.25 del valor original. Sin embargo, un menor porcentaje
de datos nulos, hace que la estimación y reemplazamiento de los valores nulos sea más precisa. KNN
es robusto para porcentajes de valores nulos que incrementan un máximo de 10 %, y su precisión
decrementa cuando existe un 20 % de valores nulos. Además, el método no toma en cuenta el valor
exacto de
k
en el rango de 10-20 vecinos. El comportamiento del algoritmo, en nivel de precisión,
declina cuando se utilizan pocos vecinos para la estimación. Los resultados de
Troyanskaya et al.
(2001), mostraron que en 60 ejecuciones del algoritmo con 5 % de valores nulos y
k = 123 vecinos, el
promedio de REMC fue de 0.203 con una varianza de 0.001. KNNimpute puede estimar y reemplazar
valores nulos para matrices con al menos seis columnas y no se recomienda aplicar KNN cuando el
número de columnas es inferior a este.
20
2.7.4. EM_array, (Johnson
y Winchern
, 2007)
Un método de propósito general para calcular las estimaciones más aproximadas cuando se
dan valores nulos en los datos, es llamado algoritmo EM, el cual, consiste de un cálculo iterativo
abarcando dos pasos, llamados paso de predicción y de estimación.
Paso de Predicción. Dada una estimada
Θ̃ de parámetros desconocidos, predice la contribución
de cualquier observación faltante al conjunto completo de datos.
Paso de Estimación. Utilizando los valores calculados anteriormente, se realiza una estimación
revisada de los parámetros.
El método itera de un paso al otro, hasta que las estimaciones revisadas no dieran apreciablemente
X1 , X2 , . . . , Xn
de la estimación obtenida en las iteraciones anteriores. Cuando las observaciones
son
muestras aleatorias de una población normal, el algoritmo EM se basa en completar los datos.
En este caso, el algoritmo procede de la siguiente manera: se asume que la media de la población
y la varianza (µ y
P
, respectivamente) son desconocidas y deben de ser estimadas.
Paso de Predicción. Para cada vector
xj
con valores nulos, se utiliza
(1)
xj
para denotar los valores
(2)
nulos, y xj
para denotar aquellos valores que si estan disponibles. Por lo tanto
h
i
(1)0
(2)0
x0j = xj , xj
Dados los estimados
condicional de
x(1) ,
µ̃
y
dado
x˜j
(1)
P
˜
del paso de estimación, se usa la media de la distribución normal
x(2) ,
para estimar los valores nulos. Esto es,
X
X
˜
˜ X
˜ −1 (2)
(1) (2)
= E Xj |xj ; µ̃,
= µ̃(1) +
xj − µ̃(2)
12
estima la contribución de
(1)
xj
a
=E
22
(2.18)
T1 .
A continuación, la contribución prevista de
g(1)0
(1)
xj xj
(2.17)
(1) (1)0 (2)
xj xj |xj ; µ̃,
(1)
xj
X
˜
=
a
T2
X
˜
11
es
−
X
˜ X
˜ −1 X
˜
12
22
21
(1) (1)0
+ xj xj
(2.19)
y
g(2)0
(1)
xj xj
X
˜
(1) (2)0
(1) (2)0 (2)
= E xj xj |xj ; µ̃,
= x̃j xj
Las contribuciones anteriores son sumadas para todas las
son combinados con la muesta de datos
T̃1
y
Ti =
T̃2
xj
(2.20)
con valores nulos. Los resultados
(Ver Ecuación 2.21 y Ecuación 2.22).
m
X
Xj = mX
j=1
21
(2.21)
y
T2 =
m
X
0
Xj Xj = (n − 1) S + mXX
0
(2.22)
j=1
Por último, el paso de Estimación. Computa las estimaciones revisadas de máxima probabilidad
(Ver Ecuación 2.23 y Ecuación 2.24).
µ̃ =
y
X
˜
=
T̃1
m
1
T̃2 − µ̃µ̃0
m
22
(2.23)
(2.24)
Bo et al., 2004).
Algoritmo 2.1 EM_Array (
Entrada: Matriz de datos con valores nulos
Salida: Matriz de datos estimados
X [m, n].
X̃ [m, n].
Inicialización:
1. Establecer
m
igual al número de las y
2. Calcular las medias iniciales
µ̃i
n
igual al número de columnas.
para cada condición.
3. Calcular las desviaciones estándar iniciales
P
˜
i para cada condición.
4. Calcular para cada condición de la matriz, las covarianzas iniciales con todas las demás condiciones, considerando que
condición, y
k
xij
es un elemento de la matriz
X , µ̃j
es la media inicial de cada
un índice auxiliar entre condiciones, tenemos que cada covarianza inicial es
calculada por medio de la fórmula:
j=n
P i=m
P
σ̃ =
5. Formar la matriz de covarianzas
(xij − µ̃j )2 (xij+k − µ̃j )2
j=1 i=1
(2.25)
m
P
˜
de
p
por
p,
la cual contiene en cada posición
P
˜
ij la cova-
rianza de las columnas apuntadas por dichos índices.
Iteración:
1. Mientras que
a)
Para
µ̃
y
P
˜
genY = 0
varien de una iteración a otra
hasta que
(1)
genY = m.
xgenY j
(2)
xgenY j los valores que si estan disponibles,
P
y dados los estimados µ̃ y ˜ , para cada vector xj con valores nulos se usa la media de
1) Estimar, siendo
los valores nulos, y
la distribución normal condicional de
(1)
Esto es, la contribución de xgenY j a
2) Calcular la contribución prevista de
b)
c)
d)
x(1) ,
dado
x(2) ,
para estimar los valores nulos.
T1 .
(1)
xgenY j
a
T2 .
Fin Para.
Formar el vector
T˜1
y la matriz
T˜2
Calcular las nuevas medias, y las nuevas covarianzas.
2. Fin Mientras.
Resultados
Celton et al.,
En (
2010), se realizó una evaluación de métodos de estimación y reemplazo de
valores nulos, en donde destacadamente, EM_array mostró el mejor comportamiento con respecto
23
a los otros 11 métodos evaluados. En dicho estudio, se evaluó cada método en base a la raíz del
error cuadrático medio (REMC), cuyo valor, entre más cercano a cero, indica mayor delidad de
estimación. EM_array mostró valores de REMC menores que 0.1 en la mayoría de los casos, incluso
para tazas de valores nulos que llegan al 50 %. Dentro de los resultados expuestos por el autor,
el promedio de valores REMC para EM_array son ligeramente menores que los de los otros tres
mejores métodos, incluso cuando la taza de valores nulos excede el 20 %. Expone también, que una
comparación por parejas reveló que EM_array es mejor el 80 % de las veces cuando el porcentaje
de valores nulos excede del 33 % de los datos.
2.7.5. Implementación de EM_Array
Con el objetivo de entender mejor el funcionamiento del método EM_Array, realizamos la implementación basados en (
Johnson y Winchern , 2007) y (Bo et al., 2004).
La implementación utiliza una clase denominada Matriz. Dicha clase está compuesta por una
matriz de datos y dos valores numéricos que indican las dimensiones de la matriz. Cada objeto de
la clase Matriz, cuenta con métodos que se encargan de las operaciones de matrices utilizadas por
el método, de tal manera que cada matriz es responsable de sus cálculos. Un objeto Matriz puede
inicializarse recibiendo sus dimensiones y por medio de otra matriz, en dicho caso, se realiza una
copia de la misma.
La implementación del EM_Array comienza capturando los valores de la matriz en un objeto
Matriz. Debido a que EM_Array es un método de regresión múltiple que reemplaza y actualiza sus
valores estimados en cada iteración, es necesario saber en todo momento la coordenada, dentro de
la matriz, de cada valor nulo. Esto fue resuelto utilizando un segundo objeto Matriz en el cual se
almacenan ceros y unos; donde cero es un valor existente y uno es un valor nulo.
Posteriormente, y como fue realizado en (
Bo et al.,
2004), los valores nulos de cada gen son
reemplazados inicialmente con la media del gen. Esto ayuda a que los valores estimados converjan
más rápido con el valor estimado nal. A partir de este punto, se continúa con el proceso descrito en
(
Johnson y Winchern , 2007) hasta que el vector de medias y la matriz de covarianzas se mantengan
en esencia sin cambios de una iteración a otra. La tendencia que siguen los valores del vector de
medias y de la matriz de covarianzas, reejan un renamiento en cada iteración. Una diferencia
directa entre los valores de estas dos estructuras de datos, nos muestra que conforme van avanzando
las iteraciones, se van haciendo más parecidas hasta el punto en que dejan de cambiar.
Una vez terminado el proceso de estimación de los valores nulos, procedemos a almacenar la
matriz estimada.
El desempeño de la implementación de EM_Array se describe más a detalle en la sección 4.5.
24
Capítulo 3
Metodología Propuesta
3.1. Algoritmo genético
Debido a que las matrices de datos reales contienen valores nulos, no es posible evaluar la efectividad de estimación de la implementación de los métodos, por esta razón, es necesario remover
dichos valores nulos para conseguir una matriz de datos con solo valores conocidos, en la cual se
insertan valores nulos de manera arbitraria, y en posiciones conocidas.
Uno de los métodos utilizados para resolver este sub problema, fue implementar un método
que toma la matriz de datos original (Ver Figura 3.1a), y elimina directamente todos los genes
o condiciones con algún valor nulo (Ver Figura 3.1b y Figura 3.1c). Esta solución resuelve este
subproblema, sin embargo, las matrices resultan muy pequeñas, y se desperdician muchos datos.
(a)
(b)
(c)
Figura 3.1: a) Matriz de datos de expresión con valores nulos. b) Matriz de datos de expresión
después de remover todos los genes con valores nulos. c) Matriz de datos de expresión después de
remover todas las condiciones con valores nulos.
La hipótesis fue que un mejor seccionamiento lleva a un mayor número de datos en la matriz
resultante, lo cual la hace más informativa para la estimación y, por lo tanto, el método de estimación
arroja mejores valores de REMC.
La propuesta para la solución de este sub problema fue implementar un algoritmo genético, en
conjunto con un algoritmo tipo Monte Carlo, usando el concepto de bicluster para conseguir la
submatriz más grande libre de valores nulos.
El algoritmo genético consta de una población de biclusters. Cada bicluster es un individuo de
25
la población, y se representa mediante un arreglo de ceros y unos, donde para cada elemento el uno
indica que dicho gen o condición está incluido en el bicluster (Ver Figura 3.2). El tamaño del arreglo
es la suma del número de genes y el número de condiciones. Cada bicluster se inicializa asignando
de manera aleatoria ceros y unos a sus elementos.
Figura 3.2: Los biclusters son arreglos de ceros y unos. Estos indican cuáles genes y condiciones de
la matriz de datos se encuentran incluidos en él.
La función de aptitud del algoritmo genético, está dada por la cantidad de datos de expresión
que contiene cada individuo. Entre más datos de expresión tenga un individuo, se considera más
apto.
El algoritmo genético se inicializa con la matriz de datos original, el número de individuos de
la población, el número de generaciones, y las probabilidades de selección, cruza y mutación. Para
preservar el mejor individuo de cada generación, se aplica elitismo, que permite que dicho individuo
sea respetado, y no se reemplace por uno de menor tamaño (Ver Figura 3.3).
Figura 3.3: Identicación del individuo con mayor aptitud, para aplicar elitismo en el algoritmo
genético.
La selección de los individuos se realiza por torneo. Inicialmente se barajea el total de individuos
y se toman de dos en dos, y para cada par de individuos se compara el número total de datos
de expresión que contiene cada uno, el individuo más apto es seleccionado. Este proceso se realiza
dos veces para garantizar que se ha considerado el 100 % de los individuos a la hora de realizar la
selección (Ver Figura 3.4).
26
Figura 3.4: Población de ocho individuos los cuales están compitiendo por parejas para ser seleccionados, de cada par de individuos se selecciona aquel cuya aptitud es mayor.
La cruza toma los individuos de la población en parejas, recorre los elementos que representan a
los genes y condiciones de ambos individuos, evaluando si alguno de los individuos incluye al gen o
condición que representa dicho elemento, de ser así, el nuevo individuo lo incluirá también. Aquellos
genes o condiciones que no se incluyen en ninguno de los individuos de la pareja, tampoco se incluyen
en el nuevo individuo (Ver Figura 3.5).
Figura 3.5: Cruza de dos individuos. Solo aquellos elementos incluidos en alguno de los padres son
pasados al individuo hijo.
La mutación consiste en tomar un individuo, y aleatoriamente eliminar o incluir un gen o condición (Ver Figura 3.6).
Al nalizar estos procesos, se ejecuta el algoritmo tipo Monte Carlo para asegurar que los individuos resultantes no tengan ningún valor nulo.
Figura 3.6: Proceso de mutación de un individuo. Se escoge un elemento de forma aleatoria, ya sea
un gen o una condición, y se modica su valor. Si el elemento contenía un cero, su valor cambia a
uno y viceversa.
27
El algoritmo tipo Monte Carlo analiza cada individuo de la población. Dicho análisis utiliza
el concepto de costo, el cual se reere al número de valores de expresión no nulos que se pueden
perder al eliminar un gen o una condición. El análisis consiste en tomar cada gen incluido en el
individuo, y si dicho gen tiene valores nulos en alguna de las condiciones incluidas, calcula el costo
de removerlo de la matriz y el costo de remover las condiciones para las cuales el gen tiene valores
nulos. La intención del algoritmo es preservar la mayor cantidad de datos removiendo aquellos genes
o condiciones menos costosos (Ver Figura 3.7).
Figura 3.7: El concepto de costo para un gen con valores nulos considera que si es menos costoso
remover un gen que una condición, o un conjunto de condiciones, se remueve el gen y se conservan
las condiciones. Esto tiene la intensión de preservar la mayor cantidad de datos posibles.
28
Algoritmo 3.1 Algoritmo Genético.
Entrada: Matriz de datos de expresión genética con valores nulos
Salida: Matriz de datos sin valores nulos
Y [i, j] ⊂ X [m, n],
X [m, n].
donde
i≤m
y
j ≤ n.
Inicialización:
1. Inicializar el algoritmo genético con la matriz, el número de individuos, número de genera-
ciones, probabilidad de selección, cruza y mutación.
2. Crear la población inicial.
3. Ejecutar el algoritmo tipo Monte Carlo.
4. Inicializar a cero el contador de generaciones sin cambios.
Iteración:
1. Mientras el contador de generaciones sea menor al número de generaciones.
1.1 Marcar como bicluster élite al mejor bicluster de toda la población.
1.2 Ejecutar método de selección.
1.3 Ejecutar método de cruza.
1.4 Ejecuta método de mutación.
1.5 Ejecutar algoritmo tipo Monte Carlo.
2. Fin Mientras.
3. Devolver la matriz resultante en base al mejor bicluster de la población.
29
Algoritmo 3.2 Algoritmo Monte Carlo
Entrada: Matriz de datos de expresión genética con valores nulos
X [m, n], Bicluster B [m + n] que
incluye genes y condiciones con valores nulos.
Salida: Bicluster
B [m + n]
sin genes ni condiciones con valores nulos.
Inicialización:
Iteración:
1. Para
genY = 1
1.1 Si el gen
hasta
m
genY
está incluido en el bicluster (B
[genY ] = 1)
genY (B [genY ] = 0)
m+n
1.1.1 Calcular costo de quitar el gen
1.1.2 Para
conY = m + 1
hasta
[conY ] = 1)
1.1.2.1.1 Si el valor de expresión del gen genY bajo la condición conY es nulo
(X [genY, ConY ] = vn)
1.1.2.1.1.1 Calcular costo de quitar todas las condiciones del gen genY
1.1.2.1 Si la condición
conY
está incluida en el bicluster (B
donde el valor de expresión es nulo.
1.1.2.1.2 Fin Si
1.1.2.2 Fin Si
1.1.3 Fin Para
1.1.4 Si quitar el gen
genY
es más costoso
1.1.4.1 Quitar todas las condiciones nulas
1.1.5 En caso contrario
1.1.5.1 Quitar el gen
genY
1.1.6 Fin Si
1.2 Fin Si
2. Fin Para
3.2. Método de estimación normalizada
Una alternativa propuesta para el tratamiento de los valores nulos en las matrices de expresión
genética, es el método que llamamos Estimación Normalizada, el cual, es un método basado en la
obtención de submatrices y los conceptos de correlación, normalización y regresión.
El método de estimación normalizada y los métodos KNN y SKNN comparten características
similares, pero de igual manera, tienen diferencias signicativas. Para cada gen con valores nulos,
los métodos KNN y SKNN utilizan a los
k
vecinos más cercanos (k genes más similares) para la
estimación (Ver Subsección 2.7.1 y Subsección 2.7.3). Los
k
vecinos más cercanos para cada gen, se
obtienen por medio del cálculo de la distancia Euclideana. Por otro lado, el método de estimación
normalizada forma submatrices que contienen a los
30
k
genes más correlacionados, y las
l
condiciones
más correlacionadas. Esto se consigue mediante el cálculo del coeciente de correlación de Pearson.
La forma en que el KNN y el SKNN obtienen el valor estimado de un valor nulo, se basa en calcular
el promedio ponderado de los valores de expresión de los
k
genes bajo la condición en donde se
encuentra el valor nulo. La ponderación aplicada a este cálculo se realiza mediante la Ecuación
2.16. El proceso de estimación empleado por el método de estimación normalizada, calcula el valor
estimado de los valores nulos por medio de la normalización de los valores de expresión de los
genes y
l
k
condiciones. Posteriormente, se emplea un proceso de regresión.
La idea central de este método es tomar cada gen que contenga al menos un valor nulo y encontrar,
en la matriz completa, el conjunto de genes cuyo comportamiento es más similar al gen en cuestión.
Dicho conjunto de genes, si bien se comportan de una manera parecida, sus valores pueden estar
escalados y/o trasladados, es decir, que la proporción de cada gen, con respecto a su media, no sea la
misma, e incluso la media de sus niveles de expresión ser diferentes (Ver Figura 3.8a). Por esta razón,
para estimar cada valor nulo del gen, se normalizan todos los valores de cada gen del conjunto (Ver
Figura 3.8b), de tal manera que un simple promedio de la condición en donde se encuentra el nulo,
nos dé un valor estimado al valor real en la matriz de datos completa. Una vez realizado éste cálculo,
se procede a realizar el proceso inverso a la normalización, con lo cual, los valores normalizados
toman su valor original.
(a)
(b)
Figura 3.8: a) Conjunto de genes con comportamiento es similar. b) Valores de expresión normalizados. Se puede apreciar con mayor claridad que los cinco genes se comportan de manera similar.
Antes de iniciar el proceso de estimación, se obtiene una submatriz por cada gen a estimar, a
partir de la matriz de datos completa. Este seccionamiento se hace creando matrices cuyas dimensiones son de
k
genes por el número total de condiciones en la matriz de datos. Cada submatriz
de k genes se llena tomando para cada gen a estimar, los
k−1
genes más correlacionados con este
(Ver Figura 3.9). El cálculo de la correlación entre dos genes se basa en la fórmula del cálculo del
coeciente de correlación de Pearson (Ver Ecuación 3.1).
31
N
P
(xi − x) ∗ (yi − y)
s
C=s
N
N
P
P
2
(xi − x) ∗
(yi − y)2
i=1
i=1
(3.1)
i=1
dónde:
xi
es el valor de expresión del gen
x
bajo la condición
i.
yi
es el valor de expresión del gen
y
bajo la condición
i.
x̄
es la media de los valores de expresión del gen
x.
ȳ
es la media de los valores de expresión del gen
y.
n
es el total de condiciones consideradas para la correlación.
Figura 3.9: Submatriz de
k
genes, obtenida a partir de la matriz completa de datos de expresión.
El método de Estimación Normalizada recorre todos los genes. Para un gen
k−1
y
se seleccionan los
genes más correlacionados con dicho gen. Para esta selección, el método considera todos los
genes restantes de la matriz. Los valores de correlación que se calculan son absolutos y se encuentran
entre cero y uno.
Una vez terminado el proceso de selección de los
seleccionan las
l−1
k − 1 genes más correlacionados con el gen y , se
condiciones más correlacionadas con la condición a la que corresponde el valor
nulo por estimar. De esta manera obtenemos para un gen
las
l−1
y,
condiciones más correlacionadas (Ver Figura 3.10).
32
los
k−1
genes más correlacionados, y
Figura 3.10: Apartir de una matriz de
k
genes, se obtiene una matriz de
k
genes con las
l condiciones
más correlacionadas con la condición que contiene el valor nulo por estimar.
k
El proceso de normalización consiste en recorrer los
recorrer las
genes, calcular el valor de su media, y
l condiciones para obtener la proporción de cada nivel de expresión en relación a la suma
de niveles de expresión de todo el gen (Ver Ecuación 3.2 y Ecuación 3.3). El cálculo de la media
y de la proporción solo considera a aquellos valores de expresión del gen que no son nulos o en su
defecto, que ya han sido estimados.
Pl
i=1 xi
media =
(3.2)
l
normalizado = Pl
x − media
(3.3)
i=1 |xi − media|
dónde:
xi
x
l
es el valor de expresión del gen bajo la condición
i.
es el valor de expresión por normalizar.
es el total de condiciones no nulas.
Para obtener el valor estimado normalizado de un valor nulo del gen
y,
se obtiene el promedio
ponderado de los valores normalizados del nivel de expresión bajo la misma condición que el valor
nulo por estimar, de los
k−1
genes más relacionados con el gen
y
(Ver Ecuación 3.4 y Ecuación
3.5).
sumaCorrelaciones =
k−1
X
correlacioni
(3.4)
i=1
estimacionN ormalizada =
k−1
X
normalizadoi ∗
i=1
correlacioni
sumaCorrealciones
(3.5)
donde:
k−1
es el número de genes más correlacionados con el gen y que intervienen en la estimación
de un valor nulo.
33
correlacioni
es el valor de correlación del gen
normalizadoi
i
es el valor normalizado del gen
con el gen
i
y.
en la condición donde se encuentra el valor
nulo por estimar.
Posteriormente, al valor estimado normalizado se le aplica la normalización inversa, para llevar el
valor a su proporción original. Este cálculo se muestra en la Ecuación 3.6.
estimado =
estimacionN ormalizada ∗
l
X
!
|xi − media|
+ media
(3.6)
i=1
Finalmente, se realiza un proceso de regresión, donde se considera el valor recién estimado para
calcular una nueva media del gen, y nuevos valores normalizados. Con estos nuevos valores, se
actualiza el valor estimado según la Ecuación 3.6. Este proceso se repite hasta que la diferencia del
valor estimado de una iteración a otra sea menor a una constante
ε.
Algoritmo 3.3 Estimación Normalizada.
Entrada: Matriz de datos de expresión genética con valores nulos
Salida: Matriz de datos estimados
X [m, n].
X̃ [m, n].
Inicialización:
Iteración:
1. Para
genY = 1
hasta
1.1 Seleccionar los
1.2 Para
conY = 1
m.
k−1
hasta
genes más correlacionados con el gen
genY .
n.
1.2.1 Si el valor de expresión del gen
1.2.1.1 Seleccionar las
l−1
genY
en la condición
conY
es nulo.
condiciones más correlacionadas con la condición
conY .
1.2.1.2 Normalizar según los
1.2.1.3 Estimar según los
k
k
genes y
genes y
l
l
condiciones seleccionados.
condiciones seleccionados.
1.2.2 Fin Si.
1.3 Fin Para.
2. Fin Para.
3. Devolver la matriz estimada.
3.3. Estimación de máxima similitud
El método de estimación de máxima similitud, es una variante del método de estimación normalizada. Este método, al igual que el de estimación normalizada, es una propuesta para el tratamiento
34
de los valores nulos en las matrices de datos de expresión, y se basa en la obtención de submatrices
y los conceptos de regresión y normalización.
En esencia, realiza los mismos pasos que el método de estimación normalizada. Primero, se
normalizan todos los valores de expresión de la matriz, y para cada gen, se obtienen los
k−1
genes
más similares por medio de un cálculo de similitud (Ver Figura 3.11). Para este cálculo, dado un gen
y , se toma cada uno de los genes restantes en la matriz, y para cada par de genes formado con el gen
y,
se realiza una sumatoria de las diferencias de los vaores de expresión normalizados de todas las
condiciones de ambos genes, dividida entre el total de condiciones, y ponderada dependiendo de la
cantidad de diferencias que no pudieron ser calculadas a causa de los valores nulos en los genes. Este
cálculo, a diferencia del cálculo de correlación, tiende a obtener valores más pequeños, que intentan
también ser una medida del grado de similitud en el comportamiento de estos genes. Entre más
pequeño sea el valor obtenido por este cálculo, existe mayor similitud entre el comportamiento de
los genes tomados.
35
(a)
(b)
Figura 3.11: a) Matriz de
k
genes cuyo comportamiento es similar. b) Valores de expresión norma-
lizados. Se observa más claramente la similitud en el comportamiento de los
Posteriormente, utilizando la submatriz de
una submatriz de
k
genes por
l
k
k
genes.
genes, para cada condición nula del gen
y,
se crea
condiciones (Ver Figura 3.12), aplicando el cálculo de similitud para
seleccionar solo aquellas condiciones que sean más parecidas a la condición nula que se desea estimar.
36
(a)
(b)
Figura 3.12: a) Matriz de
k
genes por
l
condiciones antes de estimar los valores nulos. Dichos valores
nulos están representados por ceros. b) Valores de expresión y comportamiento normalizado de los
k
genes y
l
condiciones antes de la estimación.
Una vez creada la matriz de
k
genes por
l
condiciones, se procede al paso de estimación, en el
cuál, se realiza una sumatoria del valor normalizado de todas las condiciones del gen
y , y se cuentan
todas las condiciones no nulas que contribuyeron a esta. Posteriormente se pondera el resultado de
la sumatoria con respecto a la cantidad de condiciones no nulas. De igual manera, se realiza una
sumatoria del valor normalizado de todos los valores de expresión de la condición donde se encuentra
el valor nulo, y se cuentan todos los genes cuyos valores de expresión fueron sumados. Este resultado
se pondera respecto a la cantidad de valores de expresión no nulos utilizados. Si alguno de estos
dos cálculos no pudo llevarse a cabo debido a los valores nulos presentes, se asigna el otro cálculo al
valor normalizado del valor nulo que se desea estimar. En caso contrario, si ambos cálculos pudieron
37
realizarse, el valor nulo normalizado será el promedio de ambos.
Finalmente, se realiza un proceso de regresión, en el cual, se actualiza el valor normalizado del
valor nulo en cuestión, recalculando los valores normalizados tomando en cuenta el valor estimado,
hasta que la diferencia de una iteración a otra sea cercano a constante
ε.
Algoritmo 3.4 Estimación de Máxima Similitud
Entrada: Matriz de datos de expresión genética con valores nulos
Salida: Matriz de datos estimados
X [m, n].
X̃ [m, n].
Inicialización:
1. Normalizar los datos de la matriz completa.
Iteración:
1. Para
genY = 0
hasta
1.1 Seleccionar los
1.2 Para
conY = 0
m.
k−1
hasta
genes más similares con
genY .
n.
1.2.1 Si el valor de expresión de
1.2.1.1 Seleccionar las
1.2.1.2 Estimar según
genY
en la
conY
es nulo.
l − 1 condiciones más similares a conY .
k genes y l condiciones seleccionados.
1.2.2 Fin Si.
1.3 Fin Para.
2. Fin Para.
3. Devolver la matriz estimada.
3.4. EM_Array modicado
Ésta propuesta está basada en el método EM_Array. Inicialmente, toma la matriz de datos y, de
igual manera que el método de estimación normalizada, va tomando cada gen y creando la primera
submatriz con solo los genes más correlacionados a él (Ver Figura 3.13a y Figura 3.13b).
38
(a)
(b)
Figura 3.13: a) Matriz de datos de expresión cuyos genes presentan un comportamiento similar. b)
Comportamiento de los genes seleccionados.
Posteriormente, recorre todas las condiciones del gen actual hasta encontrar la primera condición
con valor nulo, cuenta el total de condiciones no nulas restantes y crea la segunda submatriz (Ver
Figura 3.14a), la cual, en el primer gen y primera condición, contiene el valor nulo a estimar (Ver
Figura 3.14b).
39
(a)
(b)
Figura 3.14: a) Submatriz formada a partir de la primera submatriz. Para el primer gen, toma
primero la condición en donde se presenta el valor nulo, y despues las condiciones no nulas restantes.
b) El comportamiento de los genes seguirá siendo similar sin importar el reacomodo una o más
condiciones.
Una vez creada la segunda submatriz, se procede a crear una tercera submatriz que contiene a las
condiciones más correlacionadas a la primera condición (Ver Figura 3.15a). Al concluir este proceso,
la tercera submatriz contendrá los genes más correlacionados con el gen que contiene al valor nulo,
y además, las condiciones de dichos genes, más correlacionadas con la condición del gen en donde se
encuentra el valor nulo (Ver Figura 3.15b).
40
(a)
(b)
Figura 3.15: a) La tercera submatriz se compone solo de los genes y las condiciones más correlacionadas. A partir de la segunda submatriz se seleccionan las condiciones que conforman a la matriz
denitiva para realizar la estimación. b) Comportamiento de los genes de la tercera submatriz de
datos antes de la estimación.
Finalmente, se alimenta al EM_Array con la tercera submatriz como si se tratara de la matriz
completa, y este se encarga de estimar el valor nulo. El proceso de seccionamiento de la matriz
original se realiza una vez para cada valor nulo dentro de la matriz.
El EM_Array original toma la matriz de datos completa y comienza un recorrido de todos los
genes de la matriz, y para cada gen con valor nulo, realiza una estimación completa. En cambio, el
EM_Array modicado, inicia un recorrido de la matriz, gen por gen, toma en orden las condiciones
nulas de cada gen, y para cada una de ellas crea una submatriz de
resulta más rápida de estimar.
41
k
genes por
l
condiciones, la cual,
Algoritmo 3.5 EM_Array Modicado
Entrada: Matriz de datos de expresión genética con valores nulos
Salida: Matriz de datos estimados
X [m, n].
X̃ [m, n].
Inicialización:
Iteración:
1. Para
genY = 0
hasta
1.1 Seleccionar los
1.2 Para
conY = 0
m.
k−1
hasta
genes más correlacionados con el gen
genY .
n.
1.2.1 Si el valor de expresión del gen
genY
bajo la condición
conY
es nulo.
1.2.1.1 Contar las condiciones no nulas.
l−1 condiciones más correlacionadas a la condición conY .
EM_Array según los k genes y l condiciones seleccionados.
1.2.1.2 Seleccionar las
1.2.1.3 Estimar con
1.2.1 Fin Si.
1.3 Fin Para.
2. Fin Para.
3. Devolver la matriz estimada.
42
Capítulo 4
Experimentos y Resultados
4.1. Conjuntos de datos de expresión genética utilizados
Para la fase de experimentación y prueba de los métodos, se utilizaron tres conjuntos de datos
reportados en (
Bo et al.
Bo et al.,
2004). Estos conjuntos de datos fueron seleccionados en el trabajo de
(2004) con la intención de evaluar los métodos con una muestra de los experimentos
comúnmente realizados con microarrays. Debido a que estos conjuntos de datos contienen valores
nulos, aplicaron dos métodos diferentes para removerlos. El primer conjunto de datos reportado es
nombrado Lymphoma , el cual es un estudio de cáncer. El conjunto de datos Lymphoma consta
de 4,026 genes por 96 condiciones, al cual, se le removieron, en primera instancia, todas aquellas
condiciones que tuvieran al menos 5 % de valores nulos, y posteriormente, se removieron todos los
genes con valores nulos, resultando una matriz de 2,317 genes por 65 condiciones. El segundo conjunto
de datos reportado corresponde al estudio de distintos tipos de cáncer, llamado NCI60 , y consta
de 6,830 genes por 64 condiciones, al cual, se le removieron todos aquellos genes con valores nulos
resultando en 2,069 genes por 64 condiciones. Por último, el tercer conjunto de datos corresponde
a un estudio de series de tiempo de una infección, llamado TimeSeries , el cual cuenta con 16,838
genes y 39 condiciones. De igual manera que con el estudio de NCI60, a esta matriz también se le
dejaron solo los genes que no tuvieran valores nulos, resultando de 6,850 genes por 39 condiciones
(Ver Cuadro 4.2).
Original
Resultante
Genes
Condiciones
Genes
Condiciones
Lymphoma
4,026
96
2,317
65
NCI60
6,830
64
2,026
64
TimeSeries
16,838
39
6,850
39
Cuadro 4.2: Matrices de datos utilizadas en los experimentos.
Para ejecutar experimentos de cada una de las implementaciones propuestas, se crearon 10 ver-
43
siones con 10 % de valores nulos de cada una de las tres matrices. Con la intención de tener variedad
en los experimentos y poder comparar resultados.
4.2. Normalización del REMC
Cuando se trata de comparar la estimación en matrices de datos diferentes, debido a que dichas
matrices tienen distinto número de datos, y por lo tanto, una cantidad diferente de valores nulos,
rango de valores, etc., es necesario normalizar el valor de REMC obtenido en cada estimación para
poder ser comparado con el resultado de las demás matrices. El criterio de normalización utilizado
en esta investigación, es dividir el REMC entre la desviación estándar de los valores estimados (Ver
Bo et al.,
Ecuación 4.1). El criterio de normalización del REMC utilizado en (
Celton
2004) y en (
et al., 2010) no es mencionado en los artículos correspondientes.
q Pn
2
1 (|x̃ij −xij |)
REM Cnormalizado =
n
σ
(4.1)
De los criterios de normalización encontrados en otras fuentes para el REMC, se utiliza la división
entre la media de valores, como primer caso, y la división entre la diferencia del valor máximo menos
el mínimo en otro. Dichos criterios parecieron inapropiados, ya que en el primer caso, una matriz de
datos de expresión puede contener genes que se expresen de manera positiva y genes que se expresen
de manera negativa, que al calcular su media, nos aproxime a un valor cercano a cero (Ver Figura
4.1). Dicho valor ocasionaría que el REMC resultara por encima de 1, y muy por encima de los
valores reportados en el trabajo de
Bo et al.
(2004). En el peor de los casos, la media puede tomar
el valor de cero, llevándonos a un cálculo imposible de realizar.
Figura 4.1: La media como criterio de normalización del REMC.
El segundo criterio de normalización encontrado, fue dividir el REMC entre la diferencia del valor
máximo y mínimo encontrado en la matriz. Este criterio también resultó inadecuado, debido a que
puede ocurrir para una matriz, que todos los genes se encuentren siguiendo una distribución denida,
pero que un valor o un pequeño conjunto de valores, se expresen desmesuradamente, haciendo que el
44
resultado de la diferencia del máximo menos el mínimo sea un valor irreal a la verdadera distribución
de los datos (Ver Figura 4.2).
Figura 4.2: Diferencia entre el valor máximo y mínimo como criterio de normalización del REMC.
Debido a este análisis, decidimos normalizar utilizando la desviación estándar de los valores, la
cual, nos da un valor más cercano a la verdadera distribución de los datos (Ver Figura 4.3).
Figura 4.3: La desviación estándar como criterio de normalización del REMC.
4.3. Experimentos realizados con algoritmo genético
Para realizar las pruebas del algoritmo genético, el cual tiene como objetivo encontrar la subma-
Bo et al.,
triz más grande sin valores nulos, se utilizaron las tres matrices originales reportadas en (
2004). Para cada versión con valores nulos de estas matrices, realizamos 10 ejecuciones del algoritmo
genético, dando como resultado un conjunto de 100 pruebas por matriz. Esto con la intención de
apreciar la generalidad del método propuesto.
Mediante experimentación, se establecieron los valores del número de individuos a 400, número de
generaciones a 200, la probabilidad de selección, cruza y mutación a 90, 30 y 10 % respectivamente.
El número de generaciones indica cuantas generaciones seguidas se permiten realizar sin obtener
un mejor bicluster.
45
Figura 4.4: Resultados del algoritmo genético en las 100 pruebas realizadas para los tres conjuntos
de datos.
Como se puede apreciar en la Figura 4.4, los biclusters tienden a variar notablemente en su
tamaño. Esta variación se debe, en primera instancia, a la generación de la población inicial, ya que
esta se genera a partir de valores aleatorios.
A continuación se muestran los resultados de las pruebas del algoritmo genético (Ver Cuadro
4.4)
Peor Bicluster
Mejor Bicluster
Promedio
2,448
3,510
2,808
Lymphoma
NCI60
2,304
3,094
2,605
TimeSeries
10,507
14,547
12,141
Cuadro 4.4: Resultados del algoritmo genético mostrando el número de elementos de los biclusters
obtenidos sin valores nulos.
Otros métodos pueden dar un mayor número de datos de expresión después de remover los valores
nulos, pero en base a la experimentación, el algoritmo genético que proponemos busca el bicluster más
grande con el mayor número de condiciones incluidas, no obstante, se han encontrado submatrices
más grandes que las obtenidas mediante la eliminación de solo los genes o las condiciones con valores
nulos. Aun así, no se garantiza que el algoritmo genético siempre obtenga el mejor resultado.
4.4. Sustitución de valores nulos por valores aleatorios
En el trabajo de
Cheng y Church
(2000), proponen que los valores nulos sean reemplazados por
valores aleatorios. Este reemplazo se realiza con la nalidad de obtener matrices de datos completas
que son utilizadas para evaluar los métodos de clustering. Si tomamos las tres matrices de datos de
prueba, y reemplazamos sus valores nulos por valores aleatorios, dentro del rango de valores propio
46
de cada matriz, podemos calcular y utilizar su REMC como punto de referencia para apreciar las
bondades de los métodos de estimación revisados y propuestos en este trabajo.
En el Cuadro 4.6, se muestra el promedio del REMC calculado para las tres matrices con sustitución aleatoria. La Figura 4.5 presenta la gráca del REMC para las 10 corridas .
Figura 4.5: Valores de REMC para el reemplazo de valores nulos con valores aleatorios.
REMC
Lymphoma
4.7984
NCI60
4.5304
TimeSeries
5.4658
Cuadro 4.6: Resultado del cálculo de REMC utilizando valores aleatorios como reemplazo de valores
nulos.
Estos resultados indican que un reemplazo de valores nulos con números aleatorios dentro del
rango de valores de la matriz, generan valores alejados de los valores reales. En la siguiente sección, se
presentan los resultados de las pruebas obtenidas con la implementación de EM_Array y los métodos
propuestos. Estos resultados muestran siempre un REMC menor a 1, por lo tanto, se asume que son
estimaciones cercanas a los valores reales, cuyo alejamiento siempre es menor al rango de valores
de la matriz. Esto es importante debido a que una buena estimación de valores nulos incrementa el
desempeño de los algoritmos de agrupamiento (
Bo et al., 2004).
47
(a)
(b)
(c)
Figura 4.6: a) Conjunto de genes cuyo comportamiento es similar, considerarémos la primer condición
del Gen 1 como valor nulo. b) Reemplazo del valor nulo del Gen 1 por un valor aleatorio, dentro
del rango de valores de la matriz. Este reemplazo puede llevar la expresión de dicha condición al
valor máximo del rango de valores de la matriz. c) La estimación del valor nulo puede llegar a un
resultado aproximado al valor real de dicha condición.
En un escenario extremo, un valor nulo reemplazado por un valor aleatorio, puede tomar tanto
el valor máximo de la matriz, como el mínimo. Como se muestra en la Figura 4.6, si tenemos tres
genes cuyo comportamiento es similar, pero uno de ellos presenta un valor nulo, una estimación de
dicho valor puede encontrar un acercamiento al valor real del gen, mientras que un reemplazo por un
valor aleatorio puede ocasionar que los métodos de agrupamiento aplicados lo remuevan o lo ignoren
de ese conjunto.
4.5. Experimentos realizados con EM_Array
Las pruebas realizadas con el EM_Array consistieron en tomar cada una de las versiones con
valores nulos de las tres matrices de datos, y estimar sus valores, dando 20 iteraciones por matriz. Este
número de iteraciones se estableció para que todas las pruebas realizadas pudieran compararse con
mayor precisión y, por otro lado, por medio de experimentación notamos que nuestra implementación,
a partir de la iteración número 20, comenzaba a variar insignicativamente.
Para cada matriz, el REMC obtenido en cada estimación, se mantuvo en esencia sin cambios
para cada versión con valores nulos (Ver Figura 4.7).
48
Figura 4.7: Valores de REMC obtenidos en las pruebas con EM_Array.
REMC
Bo et al., 2004)
EM_Array (
EM_Array
Lymphoma
0.46
0.6108
NCI60
0.49
0.6814
TimeSeries
0.259
0.2602
Cuadro 4.8: Resultados de EM_Array.
Como se puede observar en el Cuadro 4.8, los valores de REMC del EM_Array de
Bo et al. (2004)
son mejores que los obtenidos por la implementación del EM_Array. Esto puede ser ocasionado
debido al criterio de normalización del REMC utilizado en su trabajo.
4.6. Experimentos realizados con estimación normalizada
De igual manera que con el EM_Array, se realizaron las pruebas con las matrices correspondientes utilizando el método de estimación normalizada. Aunque los valores de REMC arrojados por
este método (Ver Cuadro 4.10), no superaron al REMC del EM_Array, el método de estimación
normalizada consigue valores estimados cercanos al EM_Array, y en menor tiempo de ejecución
(Ver Cuadro 4.12), mostrando un comportamiento constante para cada versión con valores nulos de
las matrices utilizadas (Ver Figura 4.8).
49
REMC
EM_Array
Estimación Normalizada
Lymphoma
0.6108
0.7706
NCI60
0.6814
0.9287
TimeSeries
0.2602
0.3124
Cuadro 4.10: Comparativa del REMC obtenido por el método de estimación normalizada y el
EM_Array.
Estos resultados, al igual que los del EM_Array, son mayores que los reportados en el trabajo de
Bo et al. (2004), pero para la matriz Lymphoma y TimeSeries, los valores estimados del EM_Array
y de éste método, dieren mínimamente entre sí. Por otro lado, hemos comprobado, por medio
de la sustitución de valores aleatorios, que incluso el 0.9287 conseguido para la matriz NCI60 es un
resultado aceptable. Este valor de REMC indica que todos los valores estimados se encuentran dentro
del rango de valores propio de la matriz, y mejor aún, sus valores están acercados a los originales,
ya que una sustitución por aleatorios en esta matriz dio un REMC de 4.5304.
Tiempo de Ejecución (Minutos)
EM_Array
Estimación Normalizada
Lymphoma
59
3
NCI60
49
3
TimeSeries
39
15
Cuadro 4.12: Comparación de tiempo de ejecución de EM_Array y el método de estimación normalizada.
Éste método tiene la naturaleza que sus operaciones no requieren mucho esfuerzo computacional.
Por esta razón, el tiempo de ejecución es mínimo con respecto a la implementación de EM_Array.
Figura 4.8: Valores de REMC obtenidos por el método de estimación normalizada.
50
4.7. Experimentos realizados con estimación de máxima similitud
Se realizó un conjunto de experimentos con el método de estimación de máxima similitud, para
comparar los valores de REMC con los demás métodos. Los resultados de las pruebas mostraron
que éste método encuentra genes más parecidos entre sí, que los obtenidos al aplicar el coeciente
de correlación de Pearson. Esto se ve reejado en la estimación, ya que para las mismas matrices,
éste método arrojó valores de REMC más pequeños (Ver Cuadro 4.14), y debido a la naturaleza del
método, esto solo puede ser logrado mediante genes más similares entre sí a la hora de estimar.
REMC
EM_Array
Estimación de Máxima Similitud
Lymphoma
0.6108
0.6181
NCI60
0.6814
0.7966
TimeSeries
0.2602
0.3065
Cuadro 4.14: Comparativa del REMC obtenido por el método de estimación de máxima similitud y
EM_Array.
Otra característica mostrada por éste método, es el tiempo de ejecución utilizado para la estimación (Ver Cuadro 4.16). En esencia, éste método y el de estimación normalizada, realizan operaciones
similares, pero el método de estimación normalizada, para cada valor nulo, crea 3 submatrices para
conseguir la matriz denitiva para la estimación, en cambio, éste método solo utiliza dos submatrices para cada valor nulo, lo cual reduce el tiempo computacional. Por otro lado, el coeciente de
correlación de Pearson es una fórmula más compleja de calcular que la de similitud.
Tiempo de Ejecución (Minutos)
EM_Array
Estimación de Máxima Similitud
Lymphoma
59
2
NCI60
49
1
TimeSeries
39
10
Cuadro 4.16: Comparación de tiempo de ejecución de estimación normalizada y la implementación
de EM_Array.
51
Figura 4.9: Valores de REMC obtenidos por el método de máxima similitud.
Éste método es consistente ya que su comportamiento ha sido el mismo que el mostrado por los
otros dos métodos (Ver Figura 4.9). La diferencia es que ha conseguido valores muy similares y en
menor tiempo.
4.8. Experimentos realizados con EM_Array modicado
Con el n de conocer el comportamiento del EM_Array basado en los genes más correlacionados, se realizó esta implementación y se compararon los resultados. Éste método en esencia es
el EM_Array, ya que la parte de estimación no fue modicada. Lo interesante del método es ver
cómo cambia su desempeño al trabajar con matrices de menor tamaño, y mejor correlación entre
sus genes.
Los experimentos realizados mostraron resultados muy similares a los del EM_Array original (Ver
Cuadro 4.18). Estos resultados dieren de manera mínima y la ventaja con respecto al EM_Array,
es la reducción del tiempo de ejecución .
REMC
EM_Array
EM_Array Modicado
Lymphoma
0.6108
0.6500
NCI60
0.6814
0.7923
TimeSeries
0.2602
0.2821
Cuadro 4.18: Comparativa del REMC obtenido con EM_Array Modicado y EM_Array original.
Por las caracteristicas del método EM_Array, se pronosticaba que el tiempo de ejecución sería
menor con el EM_Array modicado (Ver Cuadro 4.20). Esto se debe a que el EM_Array utiliza
múltiples cálculos de matrices para cada estimación de valores nulos. Las dimensiones de las matrices
involucradas en los cálculos, corresponden al número de condiciones que tenga la matriz, y en cada
iteración, los valores de todas estas matrices se actualizan para seguir el proceso de regresión. De
52
tal manera que el tiempo de ejecución total del EM_Array crece por cada condición contenida en
la matriz original.
Por medio de experimentación, se denieron las dimensiones de la tercer submatriz a 70 genes y
10 condiciones. Esto se debe a que en 70 genes encontramos la información suciente para estimar
el valor nulo y obtener resultados cercanos a los que arroja nuestra implementación del EM_Array.
La ventaja del EM_Array modicado con respecto al EM_Array, es el tiempo de ejecución del
algoritmo. Esto es posible debido a la naturaleza de los cálculos que realiza el método, entre más
condiciones tenga la matriz, el tiempo de ejecución incrementa.
Para el EM_Array modicado, se aligera el esfuerzo computacional y aunado a esto, en promedio,
en la segunda iteración de estimación se obtienen los mejores resultados, ya que el REMC empieza
a incrementarse de manera insignicativa para cada iteración posterior.
Tiempo de Ejecución (Minutos)
EM_Array
EM_Array Modicado
Lymphoma
59
11
NCI60
49
9
TimeSeries
39
28
Cuadro 4.20: Comparación de tiempo de ejecución de EM_Array y EM_Array Modicado.
Por los resultados de los experimentos podemos concluir que el seccionamiento de las matrices de
datos no afecta el comportamiento del EM_Array (Ver Figura 4.10), mientras este seccionamiento
involucre solamente a los genes y condiciones más correlacionados con el gen y condición de cada
valor nulo a estimar.
Figura 4.10: Valores de REMC obtenidos por el método EM_Array Modicado.
4.9. Discusión sobre resultados obtenidos
Todos los métodos revisados y propuestos en éste trabajo ofrecen una alternativa al tratamiento
de los valores nulos en las matrices de expresión genética, y algunos de ellos, en principio, pueden
53
ser aplicados en distintas áreas que requieran estimación de valores. Estos métodos han arrojado
resultados similares en general, y garantizan que los valores estimados son, en efecto, un acercamiento
al valor original.
La referencia original, para los valores de REMC, fueron los resultados del trabajo de
Bo et al.
(2004), ya que utilizamos y reproducimos las matrices de datos utilizadas en sus experimentos e
implementamos nuestra propia versión del EM_Array siguiendo todas las indicaciones y referencias
expuestas en dicho trabajo.
Debido a que se desconoce el criterio de normalización del REMC utilizado en (
Bo et al., 2004),
propusimos una normalización basada en la desviación estándar de los valores de cada matriz.
Bo et al.,
Esta normalización nos arroja valores parecidos a los de (
2004), pero aun así, estos
resultados no fueron obtenidos con exactitud (Ver Cuadro 4.22). Por esta razón, nuestra referencia
para evaluar el comportamiento de los métodos propuestos, fueron los resultados obtenidos por
nuestra implementación del EM_Array tanto para los valores de REMC como para el tiempo de
ejecución (Ver Cuadro 4.24) .
REMC
EM_Array
(Bo
Lymphoma
EM_Array
, 2004)
et al.
Estimación
Estimación de
Normalizada
Máxima Similitud
EM_Array Modicado
0.46
0.6108
0.7706
0.6181
0.6500
NCI60
0.49
0.6814
0.9287
0.7966
0.7923
TimeSeries
0.259
0.2602
0.3124
0.3065
0.2821
Cuadro 4.22: Resultados generales de los métodos de estimación y reemplazo de valores nulos.
Como se puede observar en los resultados, para el conjunto de datos Lymphoma (Ver Figura
4.11), el método de estimación normalizada fue el que tuvo un desempeño menos exitoso, pero en
cuestión de tiempo, fue el segundo método más rápido en concluir la estimación.
Figura 4.11: Resultados generales del REMC obtenido para cada método con la matriz de datos
Lymphoma.
54
Para la matriz de NCI60, podemos notar que todos los métodos propuestos tuvieron un resultado
notablemente mayor al del EM_Array (Ver Figura 4.12). Incluso en el trabajo de
Bo et al.
(2004)
(Ver Cuadro 4.22), los resultados registrados indican que esta matriz tuvo un REMC mayor al de
la matriz Lymphoma, y la diferencia en proporción entre el REMC de Lymphoma y NCI60, son
similares para el EM_Array de
Bo et al. (2004) y nuestra implementación de EM_Array.
Figura 4.12: Resultados generales del REMC obtenido para cada método con la matriz de datos
NCI60.
Para la matriz TimeSeries, los resultados estuvieron cercanos entre ellos, y los valores de REMC
no varían más de 0.2 entre sí (Ver Figura 4.12).
Figura 4.13: Resultados generales del REMC obtenido para cada método con la matriz de datos
TimeSeries.
En esta matriz, para cada gen, cada valor de expresión es una muestra del mismo gen bajo la
misma condición después de un intervalo de tiempo diferente. Esto ayuda a que los métodos estimen
valores más cercanos a la realidad.
Los tiempos de ejecución de todos los métodos propuestos, superan signicativamente a la imple-
55
mentación del EM_Array (Ver Cuadro 4.24). Como ha sido mencionado anteriormente, el EM_Array
es sensible a la cantidad de condiciones que tenga la matriz, ya que cada condición aumenta el tiempo
de ejecución. Esta característica no la comparten el método de estimación normalizada y el método
de estimación de máxima similitud, ya que sus operaciones no se basan en cálculos de matrices (Ver
Ecuación 2.18, Ecuación 2.19, Ecuación 2.20), y en caso del EM_Array modicado, las matrices de
datos con las que trabaja son signicativamente más pequeñas.
El mejor tiempo de estimación fue obtenido con el método de estimación de máxima similitud,
que para el conjunto de datos Lymphoma, realizó la estimación en 2 minutos, NCI60 en 1 minuto y
TimeSeries 10 minutos.
Tiempo de Ejecución (Minutos)
EM_Array
Estimación
Estimación de
Normalizada
Máxima Similitud
EM_Array Modicado
Lymphoma
59
3
2
11
NCI60
49
3
1
9
TimeSeries
39
15
10
28
Cuadro 4.24: Comparación general del tiempo de ejecución de los métodos de estimación y reemplazo
de valores nulos.
En general, estos resultados nos muestran que los métodos propuestos en este trabajo realizan
estimaciones conables, cercanas a la realidad y con poco esfuerzo computacional. Estos métodos
Bo et al.,
si bien no superan los resultados de implementaciones publicadas en (
2004), ofrecen un
camino diferente para atacar el problema del tratamiento de valores nulos en las matrices de datos
de expresión genética.
56
Capítulo 5
Conclusiones y Trabajo Futuro
5.1. Sumario
Este trabajo de investigación trata acerca del problema del preprocesado de datos de matrices
de expresión genética, y se centra en el tratamiento de valores nulos. El objetivo es reemplazar
los valores nulos contenidos en una matriz de datos de expresión, por valores estimados lo más
aproximado a los valores reales. Actualmente existen diversos métodos de estimación y reemplazo
de valores nulos, que han aportado una buena aproximación a la solución del problema.
Celton et al. (2010), el mejor método de estimación y reemplazo de valores nulos es el
EM_Array (Bo et al., 2004). Este método se basa en un modelo de regresión múltiple que maneja
Según
matrices de covarianzas y actualiza los valores estimados en cada iteración. En nuestro trabajo de
investigación se implementó este método, se evaluó con diferentes conjuntos de datos, y se utilizó
como referencia para evaluar nuestros métodos propuestos.
En esta tesis se presentan también dos nuevos métodos de estimación y reemplazo de valores
nulos, basados en la obtención de submatrices de genes mejor correlacionados, y la normalización de
los valores de expresión de los genes. Además, se presenta un método basado en el EM_Array que
estima los valores nulos basado también en submatrices.
Los experimentos realizados con los métodos propuestos, arrojan resultados con estimaciones
competentes con respecto a la implementación del EM_Array, en tiempos signicativamente menores. Si bien estos nuevos métodos no superaron las estimaciones del EM_Array, si representan una
nueva estrategia para el tratamiento de valores nulos, lo cual abre un nuevo camino en la búsqueda
de la solución de este problema.
Por último, se exponen algunas ideas de mejora de los métodos propuestos, que pueden contribuir
a obtener mejores estimaciones, manteniendo buenos tiempos de ejecución.
57
5.2. Conclusiones
En base a los resultados de los experimentos, se concluye que los métodos propuestos ofrecen una
alternativa diferente para el tratamiento de los valores nulos en las matrices de expresión genética.
Todos los métodos propuestos, para las matrices de datos utilizadas en este trabajo, obtienen un
valor de REMC menor a 1, por lo cual concluimos que las estimaciones son aceptables y cercanas a
los valores reales de las matrices.
Los tiempos de ejecución de los métodos propuestos son signicativamente menores a los tiempos
de ejecución de la implementación de EM_Array. Además, las estimaciones de los métodos propuestos no dieren de manera excesiva con respecto a las estimaciones del EM_Array. Consideramos
que los métodos propuestos en esta investigación arrojan resultados competentes.
Como parte de los objetivos del proyecto, se logró implementar dos métodos que se encargan del
tratamiento de valores nulos en las matrices de expresión genética. Estos métodos son propuestas
nuevas para contribuir a la solución del problema del preprocesado de datos de dichas matrices.
Por otro lado, se realizó la implementación del EM_Array, y de una versión modicada del
mismo, con el objetivo de obtener un conocimiento más amplio del método, de tener un punto de
referencia de las evaluaciones de los nuevos métodos, y de ser posible, obtener mejores resultados,
tanto en la estimación como en la reducción del tiempo de ejecución.
5.3. Trabajo futuro
Es necesario realizar más pruebas con distintas matrices de datos, para ir anando los métodos
propuestos, y puedan competir estos de manera más clara, con los mejores trabajos encontrados en
la literatura.
Diseñar un método que sea capaz de descubrir genes y condiciones con comportamiento más
similar que los encontrados mediante el coeciente de correlación de Pearson y el método de similitud
propuesto.
Encontrar el criterio de normalización del REMC utilizado por
Bo et al. (2004),
para comparar
de manera directa nuestros resultados con los resultados publicados en su trabajo, incluyendo el
algoritmo de EM_Array implementado por ellos.
58
Bibliografía
Baena, D. S. R. (2006), Análisis de datos de expresión genética mediante técnicas de biclustering,
Master's thesis, Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla.
Baena, D. S. R., J. S. A. Ruiz, y J. G. Gutiérrez (2007), Análisis de datos de expresión genética para
BIGS Bioinformatics Group Seville Universidad Pablo de Olavide
Escuela Politécnica Superior 41013 Sevilla, 265272 p. p.
la obtención de patrones alfa,
Bhattacharya, S., y T. J. Mariani (2009), Array of hope: Expression proling identies disease biomarkers and mechanism,
Division of Neonatology and Center for Pediatric Biomedical Research,
University of Rochester, 855862 p. p.
Bo, T. H., B. Dysvik, y I. Jonassen (2004), Lsimpute: accurate estimation of missing values in
microarray data with least squares methods,
Nucleic Acids Res, 3441 p. p.
Bolstad, B. M., R. A. Irizarry, y et al. (2003), A comparison of normalization methods for high
density oligonucleotide array data based on variance and bias,
Bioinformatics, 185193 p. p.
Califano, A., G. Stolovitzky, y Y. Tu (2000), Analysis of gene expression microarrays for phenotyoe
classication,
Canavos,
G.
IBM Computional Biology Center., 7585 p. p.
C.
(1988),
Probabilidad y Estadistica. Aplicaciones y Metodos,
McGraw-
Hill/Interamericana de México.
Celton, M., A. Malpertuy, y et. al. (2010), Comparative analysis of missing value imputation methods
to improve clustering and interpretation of microarray experiments,
Cheng, Y., y G. M. Church (2000), Biclustering of expression data,
BMC Genomics, 116 p. p.
AAAI, 93103 p. p.
Cobb, K. (2006), Microarrays: The search for meaning in a vast sea of data,
Biomedical Computation
Review, 1623 p. p.
de Paz Santana, J. F. (2010), Modelo de planicación dinámica para la extracción de conocimiento
en expresiones genéticas, Ph.D. thesis, Universidad de Salamanca.
59
Ester, M., H.-P. Kriegel, y et. al. (1996), A density-based algorithm for discovering clusters in large
spatial databases with noise,
2nd International Conference on Knowledge Discovery and Data
Mining (KDD-96), 226231 p. p.
Gutierrez, C. C. (2010), Extraccion de conocimiento de microarrays y literatura biomedica para el
estudio de la regulacion genetica, Ph.D. thesis, Universidad de Granada.
Harteminka, A. J., D. K. Giord, y et al. (2001), Maximum likelihood estimation of optimal scaling
factors for expression array normalization,
Johnson, R. A., y D. W. Winchern (2007),
SPIE BiOS, 19 p. p.
Applied Multivariate Statistical Analysis,
252257 p.,
Pearson Prentice Hall.
Kim, H., G. H. Golub, y H. Park (2005), Missing value estimation for dna microarray gene expression
data: local least squares imputation,
Bioinformatics. Oxford University Press, 262265 p. p.
Kim, K.-Y., B.-J. Kim, y G.-S. Yi (2004), Reuse of imputed data in microarray analysis increases
imputation eciency,
BMC Bioinformatics, 160169 p. p.
Korol, A. B. (2003), Microarray cluster analysis and applications,
Institute of Evolution, University
of Haifa, 144 p. p.
Kreuzer, H., y A. Massey (2001),
Lewin, B. (1996),
ADN Recombinante y Biotecnología, Editorial Acribia.
Genes, Editorial Reverté.
Lopez, M., P. Mallorquin, y M. Vega (2002), Microarrays y biochips de adn. informe de vigilancia
Fundacion Española para el Desarrollo de la Investigacion en Genomica y Proteomica/Fundacion General de la Universidad Autonoma de Madrid, 158 p. p.
tecnologica,
Madeira, S. C., y A. L. Oliveira (2004), Biclustering algorithms for biological data analysis: A survey,
IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 1, no. 1,,
2445 p.
p.
Oba, S., M. aki Sato, y et al. (2003), A bayesian missing value estimation method for gene expression
prole data,
Bioinformatics. Oxford University Press, 20882096 p. p.
Pascual, D., F. Pla, y S. Sánchez (2007), Algoritmos de agrupamiento,
Departamento de Compu-
tación, Universidad de Oriente., 163175 p. p.
Schuchhardt, J., D. Beule, y et. al. (2000), Normalization strategies for cdna microarrays,
Oxford
University Press, 4751 p. p.
Song, C. H., y M. Wyse (2004), Painless gene expression proling: Sage (serial analysis of gene
expression), 816823 p. p.
60
Sorlie, T., C. M. Perou, y et. al. (2001), Gene expression patterns of breast carcinomas distinguish
Proceedings of the National Academy of Sciences of
the United States of America. National Academy of Sciences., 1086910874 p. p.
tumor subclasses with clinical implications,
Tamarin, R. H. (1996),
Principios de Genética, Editorial Reverté.
Troyanskaya, O., M. Cantor, y et. al. (2001), Missing value estimation methods for dna microarrays,
Bioinformatics, 520525 p. p.
Yang, J., H. Wang, y et. al. (2010), Enhanced biclustering on expression data,
Society, 321327 p. p.
61
IEEE Computer