Download [Diseo de sondas de un chip de DNA para identificar la huella

Document related concepts
no text concepts found
Transcript
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
Clave: 1584168
DISEÑO DE SONDAS DE UN CHIP DE DNA PARA
IDENTIFICAR LA HUELLA GENÓMICA DE
ORGANISMOS EUCARIÓTICOS
Violeta Larios Serrato; Rogelio Maldonado Rodríguez; Alfonso
Méndez Tenorio.
DIRECCIÓN DE LOS AUTORES
Laboratorio de Biotecnología y Bioinformática Genómica, Escuela Nacional de ciencias
Biológicas, Prol. Carpio y Plan de Ayala, IPN, México, 11340.
CORREO ELECTRÓNICO
[email protected]
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
INTRODUCCIÓN
Los sensores, genochip o chip de ADN son dispositivos que funcionan a partir de la técnica
de biología molecular llamada microarreglos de ADN. El fundamento de la técnica es la
capacidad de una cadena sencilla de ADN para buscar y unirse a una segunda cadena de
secuencia complementaria. Al resultado de esta unión se le denomina híbrido de ADN y a
la forma en la que sucede se le conoce como hibridación. Los microarreglos de ADN
funcionan a través de hibridaciones.
De manera que un chip es simplemente un medio de llevar a cabo un amplio número de
experimentos de análisis de DNA en paralelo y en miniatura. En esencia, esta tecnología
implica inmovilizar (manual o automatizadamente) un conjunto ordenado de sondas (un
microarreglo) en una pequeña superficie.
Recientemente se ha logrado el diseño de las sondas que integraran un microarreglo
encaminado a la identificación “Universal” de los genomas bacterianos y virales.
El microarreglo esta integrado por un conjunto de sondas de un numero N de longitud en
forma ordenada, en el microarreglo, según su estabilidad constituyendo lo que se ha
denominado el “Sensor Universal de Huella Genómica” o “Universal Fingerprinting Chip”
(UFC).
Las características más sobresalientes del microarreglo son:
•
•
•
Las sondas son una selección representativa de todas las 4n posibles combinaciones
de oligonucleótidos.
Las sondas tienen intervalos de estabilidad de hibridación y de composición para
garantizar una alta especificidad.
Se ha maximizado el número de diferencias entre todas ellas para lograr la óptima
capacidad de discriminación.
En la estrategia propuesta en este trabajo se parte de todas las secuencias posibles de
nucleótidos de una longitud de N-mer. Donde el número total de combinaciones se da por
4n, donde n es el número de nucleótidos en la sonda, sustituyendo en la ecuación ( N =17):
4n = 417 ( 1.177986918x1017)
(1)
Basado en el tamaño del genoma a ser analizado, se hacen estimaciones estadísticas que
pueden conducir a la predicción del tamaño apropiado de la sonda (Ewens et al. 2001). Si
se considera ∆L como el promedio del intervalo de la secuencia blanco (en numero de
bases) entre los sucesos esperados de una secuencia de una sonda de un largo N con un
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
acido nucleico blanco que contenga las bases A, C, G y T iguales y distribuidas de forma
aleatoria, entonces ∆L puede ser evaluado por la ecuación 2 (Méndez et al.2005).
∆L = 4n
(2)
La ecuación anterior puede ser utilizada para calcular el largo de la sonda que puede tener
un sitio de hibridación, en promedio, dentro de un genoma. El largo de la sonda, puede ser
calculado por la ecuación 3.
n = log ∆L/ log 4
(3)
Para evaluar las locaciones de las ocurrencias de las palabras (sondas) que aparecen de
forma aleatoria a lo largo de la secuencia de DNA existen ecuaciones que nos ayudan a
evaluar la frecuencia de las palabras a partir de su composición o bien a evaluar la distancia
en la que se pueden encontrar esta palabra, de manera que podemos evaluar cualquier
palabra de interés en un genoma cualquiera. La siguientes ecuaciones se utilizaron para
calcula el parámetro DesEst (para mayor detalle consultar Ewens y Grant, 2001) .
Se define a w (t,k) como un parámetro de composición de una palabra cualquiera (Y) en la
ecuación (4), y j es la posición de dada letra en una palabra .
n
w (t,k) = Σ wj 4j t n-j
(4)
j=1
La varianza (Var(Y)) de la distancia entre una ocurrencia y la siguiente de una palabra se
describe en la ecuación (5) pero el parámetro mas útil es la desviación estándar de la
ecuación (6).
Var (Y) = 2 x 4n w (1, n) – (2n-1) 4n - 42n
DesEst (Y) = (Var)1/2
(5)
(6)
El largo de la sonda para el UFC será el promedio del cálculo de la ecuación (3) de cada
genoma de los organismos de interés. El cálculo de la longitud de la sonda se ve afectado
por la longitud de los genomas eucarióticos, lo que nos hace pensar si esta longitud
promedio es la apropiada, considerando la diversidad de tamaños de los organismos
eucarióticos. De manera que el objetivo de este trabajo es evaluar la longitud de sondas,
para determinar el tamaño mas apropiado para su diseño.
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
MATERIALES Y MÉTODOS
Recursos informáticos
Para la realización de este trabajo se utilizó ActiveState Komodo 3.5, ActivePerl 5.8.8 y
Microsoft Office Excel 2003.
Banco de datos de organismos eucarióticos
Las secuencias genómicas de organismos eucarióticos se obtuvieron de NCBI GenBank.
RESULTADOS
Base de datos de organismos eucarióticos
De la base de datos del GenBank (NCBI), se realizo una búsqueda de las secuencias de los
cromosomas de los organismos eucarióticos totalmente secuenciados hasta el momento,
encontrándose 23 genomas completos de organismos eucarióticos. Se creo una base de
datos para estos organismos mediante la descarga de las secuencias reportadas.
De forma manual se creo un archivo (archivo números_de_acceso) con los números de
acceso de cada cromosoma de los genomas de interés, esta información se obtuvo del
NCBI, además se crearon tablas con información de los genomas, que contienen el tamaño
de la secuencia en pares de bases, el contenido de G + C, etc.
Para esta descarga se utilizó un programa desarrollado en lenguaje Perl (retrive_seq.pl), y la
función de este programa es acceder de forma remota a Internet y de forma automática de
descargan las secuencias utilizando como referencia el archivo numeros_de acceso, el
programa retrive_seq.pl tienen la flexibilidad de descargar los archivos con diferentes
extensiones, seleccionándose el formato fasta, que consiste en una línea inicial que
contienen información general del organismo y la secuencia, este formato contienen la
secuencia completa de DNA, en este caso es un cromosoma completo de un organismo de
interés, esta secuencia no tienen un formato especial.
Se tiene una base de datos actualizada de 23 organismos secuenciados totalmente
ordenados en carpetas por reino y cada organismo tiene una carpeta individual que contiene
el genoma completo dividido en archivos por cada cromosoma.
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
Se puede observar en la figura 1 hay 4 carpetas que corresponde a cada uno de los reinos y
por ejemplo en la carpeta de fungi existe una carpeta para cada organismo y en la carpeta
que corresponde a saccharomyces cerevisae se encuentran los archivos con nombre de los
números de acceso de cada uno de sus cromosomas.
Figura 2: Banco de datos de 23 organismos eucarióticos totalmente secuenciados.
De la base de datos de GenBank también se obtuvo la longitud de 217 genomas reportados
de proyectos de secuenciación de organismos eucarióticos (figura 2), estas longitudes de
genomas son las que se utilizaron para los cálculos de tamaño de las sondas.
Se puede observar que es muy amplio el rango de los tamaños, ya que el genoma más
pequeño corresponde a un protistas que es Emiliania huxleyi con 0.03 Megapares de bases
(Mpb) y el más grande a Macropus eugenii con 3080 Mpb que pertenece a reino de los
animales.
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
4000
3500
Longitud de genomas (Mpb)
3000
2500
2000
1500
1000
500
0
1
14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209
Organismos eucarióticos
Figura 2: Longitud de genomas de organismos eucarióticos. Se puede observar los
proyectos de secuenciación de organismos eucarióticos reportados en el NCBI.
Desarrollo de herramientas para cálculo de la longitud de la sonda
Para calcular la desviación estándar se desarrollaron dos programas en lenguaje Perl, el
primero llamado RandomWord.pl, que genera una lista aleatoria de sondas de un tamaño
definido (figura 3), y segundo programa se llama DesEstan.pl que calcula la desviación
estándar de cada una de las sondas de la lista que s genero RandomWord.pl (figura 4).
El resultado de utilizar esto programas se resume en la tabla I, el parámetro de desviación
estándar de la ecuación (6) se incorpora en el cálculo de la longitud de sonda en la
ecuación (3).
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
Figura 3: Programa RandoWord.pl. En esta imagen se ejemplifica la generación de
sondas de forma aleatoria para un tamaño de 14 mer.
Figura 4: Programa DesEstan.pl. En esta imagen se ejemplifica el cálculo del parámetro
DesEstan para un tamaño de 16 mer.
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
Tabla I: Parámetro DesEstan para un tamaño de sonda. Se describe la desviación
estándar mínima (Demin) y máxima (Demax) para tamaños de sondade 12 a 17.
12
13
14
15
16
17
Demin
16777200 67108900 268435000 1073740000 4294970000 17179900000
Demax
21659100 86620500 346545000 1385920000 5543710000 22178200000
Calculo de la longitud de la sonda
Se realizo el cálculo de la longitud de la sonda utilizando 3 criterios
I.
Utilizando todos los organismos eucarióticos reportados
En la tabla II, se reportan el cálculo de la longitud de la sonda utilizando todos los
proyectos de secuenciación de los organismos eucarióticos reportados en el NCBI. Se
puede observar una muestra de organismos, utilizando este criterio se encontró que le
promedio de la longitud de la sonda es de 14 mer para todos los organismos e
integrando el parámetros DesEstan el tamaño de la sonda pude ampliarse hasta un
tamaño de 15 mer por el redondeo de 14.65.
Tabla II: Calculo del tamaño de sonda utilizando el criterio I.
Reino
Genoma
Tamaño de Tamaño de
genoma
genoma (pb)
(Mpb)
Menos
Demin
Menos
Demax
Tamaño
sonda
Mas
Demin
Mas
Demax
Leishmania major cepa Friedlin
Protozoa
5.44
5440000
10.92
8.10
11.98
12.39
12.48
Trichophyton rubrum
Saccharomyces cerevisiae
Fungi
Fungi
22
12.07
22000000
12070000
11.95
-
9.98
-
12.99
12.55
13.40
13.18
13.48
13.30
Drosophila novamexicana
Animalia
150
150000000
14.23
14.18
14.37
14.49
14.52
Oryza sativa Japonica Group
Plantae
389
389000000
-
-
15.06
16.02
16.16
Zea mays
Plantae
2365
2365000000
-
-
16.36
17.11
17.23
Canis lupus familiaris
Animalia
2400
2400000000
-
-
16.37
17.11
17.24
Macropus eugenii
Animalia
3800
3800000000
-
-
16.70
17.25
17.35
14
14.54
14.65
Promedio
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
II.
Considerando un valor de corte dependiendo de la longitud de genoma.
Se puede observar en la figura 2 que el rango del tamaño de genomas es muy amplio, de
manera que se utilizo un valor de corte para el calculo del tamaño de sonda promedio,
este valor de corte es de 1000 Mpb, ya que la variable que impacta mas en el tamaño de
la sonda es la longitud de genoma. En la tabla III se observan los resultados utilizando
el criterio II.
Tabla III: Calculo del tamaño de sonda utilizando el criterio II.
Valor de
corte
Menor a
1000
Mayor a
1000
III.
Tamaño
sonda
Mas
Demin
Mas
Demax
13.54
14.13
14.23
16.44
17.13
17.25
Considerando organismos unicelulares y pluricelulares
El tamaño de genoma también esta relacionado con los cuatro reinos y con los
organismos unicelulares y pluricelulares y este criterio se utilizo y los resultados están
en la tabla IV.
Tabla IV: Calculo del tamaño de sonda utilizando el criterio III.
Reino
Animalia
Plantae
Fungi
Protozoa
Tamaño
sonda
15.34
14.83
12.97
12.90
Mas
Demin
17.15
15.49
13.66
13.66
Mas
Demax
17.82
15.60
13.78
13.78
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
DISCUSIÓN
Se puede observar que el rango de genomas reportados hasta el momento para los
proyectos de secuenciación de organismos eucarióticos en muy amplio y el factor más
importante para calcular el tamaño de la sonda es el tamaño de genoma. Esto propone, que
obtener un solo tamaño de sonda integrado en un UFC para identificar a todos los
organismos podría funcionar con una baja precisión.
Se ha descrito una estrategia para poder determinar el tamaño más apropiado para el largo
de una sonda para un chip de DNA (UFC) que pueda identificar organismos eucarióticos.
Se ha incluido parámetros como la desviación estándar en el cálculo de largo de la sonda
para hacer más robusto el análisis y saber bajo que rango se puede utilizar el tamaño de la
sonda, este parámetro incorpora datos composicionales de cada sonda y la frecuencia con la
que esta se puede encontrar en un genoma determinado. Este ultimo parámetro se podría
incluir nuevamente en la selección final de sondas, ya que una ves determinado el tamaño
de las sonda y hará una selección del universo de 4n de todas las posibles sondas.
Se crearon herramientas en utilizando para facilitar la determinación del tamaño de la
sonda con los programas RandomWord.pl y DesEstan.pl.
Se aplicaron distintos criterios para calcular el tamaño de la sonda: (i) Utilizando todos los
organismos eucarióticos reportados; (ii) considerando un valor de corte dependiendo de la
longitud de genoma y (iii) considerando organismos unicelulares y pluricelulares. Con estos
datos se puede observar que en efecto se pueden obtener distintos tamaños de sonda dentro
de un rango de 12 a 18 mer, con una tendencia de sondas de mayor tamaño (16 a 18 mer)
para organismos pluricelulares, del reino animalia y plantae, y con una longitud de mayor a
1000 Mpb.
Finalmente, es importante hacer pruebas in silico utilizando el banco de datos de los
genomas organismos eucarióticos y sondas con los tamaños encontrados, para evaluar la
sensibilidad del tamaño de sonda.
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]
V Congreso Internacional de Ingeniería Bioquímica
XVI Congreso Nacional de Ingeniería Bioquímica
VI Jornadas Científicas de Biomedicina y
Biotecnología Molecular
REFERENCIAS BIBLIOGRÁFICAS
1. Beattie, K.L.(1997)genomic fingerptinting using oligonucleotid4 arrays.In CaetanoAnollés, G. and Gresshoff, P.M. (eds), DNA Markers. Protocols, Applications, and
Overvies.Wiley-Liss, New York, pp. 213-224.
2. Ewens W.J. and Grant G.R. (2001). Statistical Methods in Bioinformatics. En
Introduction. Springer – Verlag, New York, USA.
3. Méndez Tenorio, A., Reyes rosales E., Guerra Trejo A., Maldonado Rodríguez R.,
Espinosa Lara J., Santiago Herná, J. and Beattie K. (2005): Universal Fingerprinting
chips I: Design Strategies, Validation, and Applications.
REFERENCIAS INFORMÁTICAS
I. NCBI; url: http://www.ncbi.nlm.nih.gov/; 27 de Febrero del 2008
Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F.
Tel. y Fax: 5623 3088 email: [email protected], [email protected]