Download ALINEAMIENTO MÚLTIPLE DE SECUENCIAS

Document related concepts

Bioinformática wikipedia , lookup

Genómica computacional wikipedia , lookup

Alineamiento múltiple de secuencias wikipedia , lookup

Homología de secuencias wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

Transcript
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS (AMS) DE ADN MEDIANTE
ALGORITMOS EN EL GENOMA DEL Helicobacter pylori
(De cómo la Bioinformática se comporta como un campo de aplicación de la
Responsabilidad Social y Ambiental)
Por: Sonia Milena Torres Gallego
[email protected]
ABSTRACT
To speak of MSA should be aware of
the tools of NCBI Blast and Clustal W,
the latter has been one of the most
recognized and able to perform
alignments and phylogenetic trees to
estimate but has errors in each of its
versions, after nearly 20 years is the
latest version Clustal W 2.0 program is
within a programmed group of folders
in C and this has a great competition as
they are or MUSCLE T-Coffee that are
a little faster. Currently Rande Patterson
and assistant professor of biology at
Penn State is part of a group of
researchers in which they plan to trace
the evolutionary history and solve the
debate of what became a way of life that
gesture, it was referenced in MSA for a
single comparison between all the
sequences of genes / proteins, this in
order to obtain
more precise
information about relationships between
sequences.
KEYWORDS:
Bioinformatics,
Molecular Biology, Helicobacter pylori,
Genetic
Programming,
Genetic
Algorithms,
Alignment.
Multiple
Sequence
RESUMEN
Para hablar de AMS se debe tener
conocimiento de las herramientas NCBI
Blast y Clustal W, este último ha sido
uno de los más reconocidos y es capaz
de realizar alineamientos y de calcular
árboles filogenéticos no obstante tiene
errores puntuales en cada una de sus
versiones, después de casi 20 años se
tiene la última versión Clustal W 2.0
este programa se encuentra dentro de un
grupo de carpetas programado en C y
este posee una gran competencia como
lo son T-Coffee o MUSCLE que son un
poco más rápidos. Actualmente el
profesor Patterson Randen y asistente
de biología de Penn State hace parte de
un grupo de investigadores en la cual
planean rastrear la historia evolutiva y
solucionar el debate de cuál fue la
forma de vida que se gesto, se
referenciarán en AMS solo para realizar
una comparación entre todas las
secuencias de genes/proteínas, esto con
el fin de obtener información más
precisa acerca de las relaciones entre
secuencias.
PALABRAS
CLAVES:
Bioinformática, Biología Molecular,
Helicobacter pylori, Programación
Genética,
Algoritmos
Genéticos,
Alineamiento Múltiple de Secuencias.
matemáticas y las estadísticas para
organizar, analizar y poder entender
problemas que involucren secuencias de
nucleótidos
y
aminoácidos.
La
Bioinformática
surge
por
el
impresionante aumento de secuencias
genéticas que se han obtenido a través
del proyecto Genoma.
INTRODUCCIÓN
A través del tiempo las tecnologías
informáticas han permeado todos los
campos del conocimiento aportando
soluciones para el avance de la ciencia y
la comprensión de los diferentes
fenómenos que han acompañado el
origen y filogenia de la vida. Estos se
han convertido en una herramienta
indispensable para la optimización de
los procesos de construcción del
conocimiento, ahorrando tiempo dada la
facilidad con que se organiza la
información necesaria y los recursos de
la simulación virtual que permiten
minimizar los errores a la hora de su
implementación.
En el campo de la Bioinformática, la
aplicación del método de alineamiento
múltiple de secuencias de ADN
mediante algoritmos genéticos, permite
avanzar en la comprensión y
desciframiento del código genético,
posibilitando el mejoramiento de la
calidad de vida humana.
1. Conceptos básicos aplicados a la
Bioinformática
1.1.
Bioinformática
La Bioinformática está definida como la
aplicación de la informática, las
En la actualidad la Bioinformática
posee varias subdisciplinas como lo son
el alineamiento de secuencias, bases de
datos, identificación y clasificación de
patrones,
biología
computacional,
biología de sistemas y árboles
filogenéticos. Algunos investigadores
manifiestan que la Bioinformática solo
está relacionada con el manejo,
organización y uso computacional de la
información biológica particularmente
la genética.
1.2.
Biología Molecular
La biología molecular tiene como
objetivo fundamental comprender todos
aquellos
procesos
celulares
contribuyendo así a la información
genética, permitiendo cruzar barreras
entre especies y colocar genes de
cualquier organismo, en un organismo
hospedador mediante las técnicas de la
ingeniería genética.
La historia de su conocimiento se
relaciona desde el año 1866 cuando
Mendel realiza sus publicaciones que
daban el principio de la segregación y la
clasificación independiente de los
genes. En 1869 aparece el suizo
Frederick Miescher quien descubre en
el núcleo de las células una sustancia
acida la cual fue llamada nucleina, para
los años 20 el químico alemán Robert
Feulgen descubre que el DNA estaba
situado en los cromosomas. En 1944
Avery,
McCleod
y
McCarty
comprueban que el DNA es el que lleva
la información genética. En 1953
Watson Crick revela la estructura del
DNA, a partir de entonces y de forma
exponencial se dan los descubrimientos
de las enzimas de restricción,
polimerasas entre otras que llegarían a
lo que hoy se conoce como tecnología
del DNA recombinante.
Se
considera
que
el
ácido
desoxirribonucleico (DNA) es el que
regula el número y la naturaleza de cada
tipo de estructuras y composición
celular, transmitiendo así la información
hereditaria y determinando la estructura
de las proteínas.
1.3.
Helicobacter pylori
El Helicobacter pylori es una
preocupante bacteria desde el punto de
vista de la salud humana, cuyo hábitat
es la mucosa gástrica. Suele colonizar
aproximadamente la mitad de la
población mundial y es considerada hoy
como el factor patogénico primario en
las enfermedades benignas y malignas
del estómago y del duodeno (gastritis
crónica, úlceras gástricas y duodenales
y cáncer de estómago).
En sus comienzos esta bacteria se le
llamo Campylobacter pyloridis, después
de secuenciar su ADN se vio que no
pertenecía a este género y se le
reemplazo
dentro
del
género
Helicobacter; su estructura es Gram
negativa de forma de espiral, alrededor
de 3 micras de largo y con un diámetro
aproximado de unas 0,5 micras, tiene de
4 a 6 flagelos, es además microaerófila
es decir que necesita oxigeno pero en
bajas concentraciones de las que se
encuentran en la atmósfera, usa
hidrógeno y metanogénesis como fuente
de energía además es oxidada y catalasa
positiva.
1.4.
Programación Genética
La Programación Genética consiste en
la filogenia automática de programas
usando ideas basadas en la selección
natural (Darwin). En programación
genética se busca que poblaciones de
programas evolucionen, transmitiendo
su herencia de manera que se adapten
mejor al medio. Los mejores individuos
tienen mayores probabilidades de
reproducirse. La medida de calidad del
individuo dependerá del tipo de
problema.
Figura 1. Demostración de programación genética en forma de árbol.
La estructura de la programación
genética se realiza a través de un árbol
donde sus nodos son símbolos que se
encuentran representados por funciones
y símbolos terminales; para iniciar este
proceso se debe de contar con una
población inicial donde tome como
referencia los operadores genéticos de
cruce, reproducción, mutación, no
obstante se deben de manejar unos
parámetros que van a controlar este
proceso como lo son el tamaño de la
población, la probabilidad que van a
manejar los operadores y la técnica que
se va usar para crear la población
inicial.
1.5.
Algoritmos Genéticos
Podemos decir que los Algoritmos
Genéticos son algoritmos de búsqueda
basados en los mecanismos de selección
natural y genética natural. Combinan la
supervivencia de los más compatibles
entre las estructuras de cadenas, con una
estructura
de
información
ya
aleatorizada,
intercambiada
para
construir un algoritmo de búsqueda con
algunas de las capacidades de
innovación de la búsqueda humana.
Un algoritmo genético debe de tener en
cuenta también una serie de parámetros
como son el tamaño de la población que
debe garantizar una gran diversidad de
soluciones,
una
condición
de
terminación donde generalmente al
algoritmo se le especifica hasta que
numero de generación es que debe de
trabajar, y por ultimo una evaluación y
una selección donde en la evaluación es
codificado el gen asignándole una
puntuación
para
determinar
el
cromosoma que se va a reproducir,
luego de evaluar las puntuaciones se
crea una nueva población con los
mejores rasgos y luego se hace una
selección la cual se va a llevar a la
reproducción, esta puede realizarse de
tres formas primero basado en el rango
que es donde se toma toda la población
y se ordena según su puntaje, se
mantiene las mejores puntuaciones y se
eliminan las de menor puntuación,
segundo rueda de ruleta este consiste en
sumar todos los alelos de la población,
seguidamente
se
toman
parejas
aleatorias de cromosomas y se
emparejan sin importar que sean del
mismo padre y tercero selección de
torneo es aquella se escoge un numero
aleatorio de individuos dentro de la
población y el individuo que posea
mayor puntación re reproduce.
Figura 2. Seudocódigo de algoritmo genético.
2. El
Alineamiento
Múltiple
Secuencias (AMS) de ADN
de
Un AMS se puede definir como el
resultado de un proceso de alineamiento
de 3 o más secuencias unas respecto a
otras para lograr alcanzar la máxima
similitud entre ellas. El propósito de los
AMS es colocar los residuos (bases) que
derivan de un ancestro común en
columnas. Esto se logra introduciendo
gaps
(huecos)
que
representan
inserciones ocurridas durante el proceso
filogenético. Por tanto, el alineamiento
resultante tras el proceso de AMS es un
modelo hipotético para explicar las
mutaciones ocurridas durante la
filogenia. Los mejores alineamientos
son aquellos que representan la
hipótesis de filogenia más probable.
Un AMS puede tener varias finalidades
como lo son descubrir un patrón común
dentro de la secuencia, poder decidir
sobre su proceso evolutivo, entre otras;
este AMS es obtenido mediante una
inserción para cada secuencia con un
número determinado de huecos de tal
forma que las secuencias posean una
misma longitud y tengan como mínimo
un carácter diferente de huecos.
Figura 3. Ejemplo de cruce de un alineamiento de secuencias.
Figura 4. Ejemplo de un alineamiento múltiple de secuencias.
El alineamiento de múltiples
secuencias (AMS) de un conjunto
de secuencias de ADN puede
también ser visto como la historia
filogenética de las secuencias. Así,
si las secuencias en el AMS se
alinean muy bien, parecería que han
sido recientemente derivadas de un
ancestro común. En contraste, un
grupo de secuencias de ADN
pobremente alineadas comparten
una relación filogenética distante y
compleja. La tarea de alinear un
conjunto de secuencias de ADN,
algunas más relacionadas que otras,
es idéntica a descubrir las relaciones
filogenéticas entre las secuencias.
Dentro de este enfoque se
encuentran
algoritmos
como
MultAlin,
DIALIGN,
HMM
(Hidden Markov Models) y los
Algoritmos Genéticos, que son los
que acaparan el interés de este
trabajo.
3. La ética y el avance del conocimiento
en el campo de la Bioinformática
3.1.
Código Ético en Biología
El código ético se basa en el desarrollo
científico, esto implica manipular
directamente
todas
aquellas
herramientas que pueden transmitir la
vida y manipular la filogenia de nuestra
especie. Es por esto que la UNESCO se
ha comprometido a promover y
desarrollar una reflexión ética a los
avances científicos en el área de la
biología y la genética.
Por medio de este código ético se
reconocen varios adelantos científicos y
tecnológicos, donde se reportan nuevos
beneficios para la especie humana como
lo son aumentando las expectativas y
esperanzas de vida, mejorando la
calidad de vida, reconociendo la
dignidad humana y el respeto de los
derechos humanos, teniendo en cuenta
además que el área de la salud no
depende
totalmente
de
las
investigaciones
científicas
y
tecnológicas, sino también de ambientes
como lo son los culturales y los
psicosociales, teniendo presente que
todo individuo debe de gozar de las
mismas
normas
éticas
en
la
investigación relativa a la medicina y
las ciencias de la vida.
3.2.
Código Ético en Sistemas
El código ético para los ingenieros
consiste en comprometerse con uno
mismo en convertir el análisis, las
especificaciones,
el
diseño,
el
desarrollo,
las
pruebas
y
el
mantenimiento de software en algo
respetable y beneficioso para todos.
Teniendo
como
principio
un
compromiso con la salud, la seguridad y
el bienestar del público.
Estos principios van muy relacionados
con el aspecto del comportamiento y la
toma de decisiones, también se
identifican plenamente las relaciones
que mantienen dentro de un grupo de
trabajo que participan en dicha
elaboración del proyecto, no obstante
cabe resaltar que estos principios están
muy ligados a la ética que maneja como
individuo el ingeniero de sistemas.
BIBLIOGRAFÍA
Libros
3.3.
La Bioinformática desde la
óptica de la responsabilidad social
La Bioinformática es un campo de la
ciencia en el cual intervienen varias
disciplinas tales como: biología,
computación y tecnología de la
información. Su finalidad es facilitar el
descubrimiento de nuevas ideas
biológicas así como crear perspectivas
globales a partir de las cuales se puedan
discernir principios unificadores en
biología. La Bioinformática tiene como
papel fundamental la aplicación de los
desarrollos tecnológicos en el campo de
la genética a la práctica médica. La
aplicación de los conocimientos en
genética molecular y las nuevas
tecnologías son necesarias para el
mantenimiento y eficiencia del sistema
de información.
La identificación de las causas
moleculares de las enfermedades junto
con el desarrollo de la industria
biotecnológica en general y de la
farmacéutica en particular, permitirán el
desarrollo de mejores métodos de
diagnóstico, desarrollo de fármacos
personalizados y una mejor medicina
preventiva, a fin de mejorar la calidad
de vida humana.
• RICH Elaine– KNIGHT Kevin,
Inteligencia Artificial, McGraw
Hill 2004.
• ROLSTON David W.,
Principios de Inteligencia
Artificial y Sistemas Expertos,
McGraw Hill 1997.
• RUSELL Stuart y NORVING
Peter, Inteligencia Artificial un
Enfoque Moderno, Pretice Hall
2003.
Web
• KROGH Anders y BROWN
Michael,
http://www.cbse.ucsc.edu/staff/h
aussler_pubs/hmm.part1.pdf,
1993.
• MARCZYK Adam,
http://www.Algoritmos
genéticos y computación
evolutiva.html, 2004.
• PAVA Roberto A.,
http://www.Método para la
detección de secuencias
repetidas en tandem en genomas
completos y su interpretación
biológica, Pdf 2006.
• RABINER Lawrence R.,
http://www.cs.ubc.ca/~murphyk/
Bayes/rabiner.pdf, 1989.
• SAGA: sequence alignment by
genetic algorithm, 1996 Oxford
University Press Nucleic Acids
Research, 1996, Vol. 24, No. 8.
Pdf.
• SHOKHIREV Nikolai V.,
http://www.shokhirev.com/nikol
ai/abc/alg/hmm/hmm.html,
2006.
• http://www.Alineamiento de
secuencias.html, 2009.
• http://www.cs.brown.edu/researc
h/ai/dynamics/tutorial/Document
s/HiddenMarkovModels.html,
2009.
• http://www.Programación
Genética, Pdf 2004.
Sonia
Milena
Torres Gallego, es
Estudiante
de
noveno semestre
ingeniería
en
sistemas
y
computación. De la
Corporación
Universitaria
Centro
Superior.
Tecnóloga en sistemas y computación
de la Corporación Universitaria Centro
Superior. Diplomado “Formación en
Investigación con Enfoque en RSE”
2009, de la Corporación Universitaria
Centro Superior. Curso “English
Discoveries - Intermedio II” 2009,
SENA, Curso “HTML y Java Script”
2008, SENA, Curso "Photoshop” 2008,
SENA, Curso “Flash” 2008