Download proyecto de tesis

Document related concepts

Traducción automática mediante transferencia wikipedia , lookup

Traducción automática mediante lengua intermedia wikipedia , lookup

Traducción automática wikipedia , lookup

Traducción automática estadística wikipedia , lookup

Traductor de Google wikipedia , lookup

Transcript
Pág. 1
INDICE
I.
EL PROBLEMA ……………………………………………………………… 02
1.1. Análisis de la situación problemática ……………………………….. 02
1.2. Definición del problema ………………………………………………. 03
1.3. planteamiento del problema ………………………………………….. 04
1.4. Justificación del problema …………………………………………….. 04
II.
OBJETIVOS …………………………………………………………………. 06
2.1. Objetivo general ………………………………………………………. 06
2.2. Objetivos específicos …………………………………………………. 06
III.
MARCO REFENCIAL ………………………………………………………. 07
3.1. Marco teórico …………………………………………………………… 07
3.2. Marco conceptual ……………………………………………………… 17
IV.
HIPÓTESIS Y VARIABLES ………………………………………………… 18
4.1. Hipótesis general ……………………………………………………… 18
4.2. Hipótesis específicas …………………………………………………. 18
4.3. Análisis de variables e indicadores …………………………………. 19
V.
DISEÑO DE LA INVESTIGACIÓN ………………………………………… 19
5.1. Tipo y nivel de investigación …………………………………………. 19
5.2. Diseño de la Investigación …………………………………………… 19
5.3. Matriz de consistencia ………………………………………………… 21
5.4. Diseño de prueba de hipótesis ……………………………………… 22
5.5. Población y muestra ………………………………………………… 23
5.6. Diseño de recopilación de información …………………………… 23
VI.
PRESUPUESTO Y FINANCIAMIENTO…………………………………. 24
6.1. Prepuesto básico ……………………………………………………… 24
6.2. Cronograma …………………………………………………………… 25
VII. ESTRUCTURA BÁSICA DEL INFORME ……………………………….. 25
VIII. BIBLIOGRAFIA CONSULTADA…………………………………………. 26
Pág. 2
PROYECTO DE TESIS
TRANSFERENCIA
SINTÁCTICA
SUPERFICIAL
PARA
TRADUCTOR
AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA
I.
EL PROBLEMA
1.1. Análisis de la situación problemática
En este mundo, de múltiples culturas, idiomas, y globalizado, los traductores
automáticos como aplicación del procesamiento de lenguaje natural ha
aportado significativamente en la interacción de culturas en esta macro
sociedad permitiendo al hombre interrelacionarse con sus semejantes,
mediante la traducción de textos o habla de un lenguaje natural a otro un claro
ejemplo es google, con su traductor automático para diferentes idiomas.
Sin embargo resalta los aportes de estas tecnologías para lenguas nativas
como el aymara y el quechua en nuestro país han sido pocos, no existiendo
ningún traductor automático para estas lenguas y se tiene como consecuencia
en nuestro medio la incomprensión de culturas y conocimientos relegados que
podrían aportar al desarrollo de nuestro país.
Asimismo en la Constitución Política del Estado Peruano menciona que toda
persona tiene derecho a usar su propio idioma, y son idiomas oficiales el
castellano y también lo son el quechua y el aymara en las zonas donde
predominen [PRES93 Art. 2º enciso 19 y Art. 48º]. El problema una vez más
resalta
porque
no
hay
herramientas
tecnológicas
como
traductores
automáticos que conlleven esta moción y que apoyen a la interacción entre
los individuos de diferentes idiomas y lenguas.
También se sabe que el Perú es un país pluricultural, porque en el espacio
social y geográfico conviven diversas culturas, entonces se habla de
interculturalidad, que es la relación entre varias culturas. Para ello, una vez
más se ve que los aportes científico tecnológicos, no han trascendido en su
Pág. 3
magnitud para apoyar este intercambio intercultural en comunidades de habla
aymara, que requieren insertarse a la modernidad o a los cambios
tecnológicos, además considerando que dos culturas diferentes tienen
idiomas distintos cabe señalar que la interculturalidad empieza su acción en
comprender y traducir sus idiomas, viéndose la necesidad álgida que invoca
la urgencia de desarrollo e implementación de herramientas como los
traductores automáticos para estas lenguas de la región andina.
Los actuales aymaras se denominan a sí mismos: “la nacionalidad qulla” y se
estima que los hablantes oscilan entre dos millones y medio de personas
quienes viven principalmente en Bolivia y Perú, sobre todo en el altiplano del
Titicaca. Quienes realizan estudios e investigaciones con respecto a esta
cultura se encuentra con limitaciones en cuanto al acceso a la información,
por lo que un traductor automático será una puerta abierta en traducción a
otros idiomas.
1.2. Definición del problema
La inexistencia de un traductor automático para la lengua aymara es un
problema de desarrollo e implementación tecnológica, como tal es una
aplicación del Procesamiento de la Lengua Natural y esta es una subdisciplina
de la Inteligencia Artificial, los traductores automáticos también son
considerados como una rama de la Lingüística Computacional, la misma que
investiga el uso de software para traducir textos de un lenguaje natural a otro.
Por otro lado, a pesar de que la mayor parte de la producción de software se
hace como software privativo, también el desarrollo de software en código
abierto (open source o software libre), las cuales están alcanzando su
importancia actualmente, evidentemente se ve como un símbolo de esta línea
al Sistema Operativo Linux, bajo está denominación “Código Abierto”, de la
misma forma existe el software OpenTrad Apertium software de traducción
automática basado en código abierto, cuyo código fuente se reutilizará para la
implementación del traductor automático motivo de la presente investigación.
Pág. 4
La investigación sobre el “Transferencia Sintáctica Superficial para Traductor
Automático de Textos del Idioma Español a
la Lengua Aymara”
está
enmarcada como tipo de investigación Aplicada o tecnológica y el nivel de
investigación es experimental.
1.3. Planteamiento del Problema
Dada la gran explosión de información que vive la sociedad del siglo XX, la
traducción automática es una aplicación que ayudará a superar la barrera del
idioma, permitiendo traducir textos del idioma español a la lengua aymara, el
aporte que se logrará es relevante por que conllevará a la comunicación entre
individuos de diferentes culturas.
El traductor automático antes de su implantación será evaluada por los
“métodos de evaluación de traducción automática” de esta manera se medirá
la eficiencia del traductor automático.
Por tanto: ¿Será eficiente la calidad del traductor automático del idioma
español a la lengua aymara basado en la transferencia sintáctica
superficial?
1.4. Justificación de la Investigación
El aporte fundamental de este proyecto es la de complementar la
comunicación entre varias, como resultado final el traductor automático
beneficiará a los estudiantes, profesionales e investigadores de la lengua
aymara, quienes tendrán la posibilidad de traducir información en esta lengua.
Asimismo la investigación busca la reivindicación de esta lengua que cumple
un papel trascendental como vehículo de expresión y pensamiento.
Por otro lado la situación problemática actual de las lenguas andinas como el
aymara se ha desarrollado más en su forma oral que escrita y más aún
notándose la inexistencia de herramientas para el apoyo en lecto escritura de
Pág. 5
esta lengua, por lo que el aporte del traductor automático coadyuvará en el
desarrollo del conocimiento de la lingüística andina.
Además la cultura aymara esta cobrando cada vez mayor importancia por los
investigadores en sus diferentes áreas, pero frente a esta importancia existe
una brecha, la lengua, entre la cultura y los investigadores, razones que
hacen que se limite los trabajos de investigación en este campo, como
alternativa para romper esta brecha se propone contribuir con un traductor
automático para impulsar el conocimiento de la cultura aymara.
La sociedad moderna ha desarrollado la idea que las lenguas como el
quechua y el aymara pertenecen al pasado, los jóvenes en las ciudades no
quieren hablar el aymara no valoran por que les parece anticuado, poco
utilizable, al navegar en los sitios web confirman su pensamiento porque no
hay herramientas en Internet que se identifiquen con la lengua aymara, con la
implantación de un traductor automático se impulsará el aprendizaje de esta
lengua y por ende el crecimiento del conocimiento.
La Ley de Educación en su Artículo 20, establece que la Educación
Intercultural se debe ofrecer en todo el sistema educativo nacional [PRES04
Art. 20]. Sin embargo no existen herramientas atractivas orientadas a Internet
para conllevar esa direccionalidad del Ministerio de Educación.
Finalmente, el aymara hablante no encuentra textos o bibliografía en su
lengua en las bibliotecas locales mucho menos en las bibliotecas nacionales
y/o internacionales, de modo que se siente limitado para desarrollar
conocimiento en su lengua y cultura, situaciones que le llevan a contar con
una herramienta como traductores automáticos.
Actualmente no hay investigaciones con la idea de contribuir con un traductor
automático del idioma español a la lengua aymara, es evidente que en los
sitios Web se ofrecen traductores de palabras más no de frases.
1.5. Antecedentes de la investigación
Pág. 6
En el ámbito regional no existe investigaciones con respecto a traductores
automáticos de textos del idioma español a la lengua aymara. En el ámbito
nacional tampoco hay investigaciones emprendidas con respecto a este tema.
Sin embargo existen implementaciones como el opentrad apertium (Traductor
automático por transferencia sintáctica de español a euskera) y maxin para
traducción automática profunda, ambas desarrolladas en España.
Considerando que la lengua aymara mas hablada en Bolivia y Perú, aún no
existen investigaciones para implementar la herramienta como el traductor
autómatico.
II.
OBJETIVOS
2.1. Objetivos general
Medir la calidad del traductor automático de textos del idioma español a la
lengua aymara basado en la transferencia sintáctica superficial.
2.2. Objetivos específicos

Implementar el traductor automático de textos del idioma español a la
lengua aymara basado en la transferencia sintáctica superficial.

Evaluar el traductor automático de textos del idioma español a la lengua
aymara basado en la transferencia sintáctica superficial con las métricas
de evaluación de traductores automáticos
III.
MARCO REFERENCIAL
Pág. 7
3.1. Marco teórico
3.1.1. Idioma Español
El idioma español o el castellano es la segunda lengua más hablada del
mundo por el número de hablantes que la tienen como lengua materna (1)
(tras el chino mandarín), es uno de los seis idiomas oficiales de acuerdo
la Organización de las Naciones Unidas, se habla como primera y
segunda lengua entre 450 y 500 millones de personas a nivel mundial. Por
otro lado, el idioma español es el segundo idioma más estudiado en el
mundo tras el inglés de acuerdo al Instituto Cervantes (dedicada a la
promoción y enseñanza de la lengua española).
Gramática del idioma Español
Conjunto finito de reglas que especifican el idioma español basado en la
idea de estructura de la frase donde las cadenas están compuestas de
subcadenas llamadas frases, las cuales pueden pertenecer a distintas
categorías como frase nominal (FN) frase verbal (FV), considerando queel
idioma español es una lengua flexiva de tipo fusional, es decir, en las
oraciones se usa preferentemente la flexión para indicar las relaciones
entre sus elementos. En el idioma español como en otros idiomas los
lingüistas se afanan en descubrir propiedades del lenguaje por medio de
un proceso de investigación científica y entonces codificar sus
descubrimientos en una gramática.(2)
Oración (frase)
Es la mínima unidad de lenguaje con sentido completo. Por sentido
completo se entiende que se está expresando asume una determinada
actitud ante lo que dice, es decir, que pregunta, afirma, niega, etc. La
oración gramatical se divide en dos miembros: Predicado y sujeto.
El
núcleo es un elemento clave que nos ayuda a identificar fácilmente tanto
1
SUMMER INSTITUTE of LINGUISTICS.- Instituto que realiza estudios de las lenguas minoritarias y las
culturas de todo el mundo, como dominios académicos incluye Lingüística, Traducción, Computación y
otros.
2
. Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial.
Pearson Educación S.A. Madrid 2004 , Pág. 899.
Pág. 8
al sujeto como al predicado. El núcleo del predicado es siempre el verbo,
ya que este es indispensable para que exista un predicado. Lo mismo
sucede con el sujeto, la palabra básica en la mayoría de los casos y
núcleo del sujeto es el sustantivo. Sin embargo existe en el español tantas
variaciones, que existen otros casos de núcleos del sujeto como:
pronombres personales, un infinitivo, un participio sustantivado, un
adjetivo sustantivado, etc. Los demás elementos que acompañan al
sustantivo o al verbo se les llama modificadores del núcleo.
Categoría gramatical
Categoría gramatical (o parte de la oración o categoría morfológica o
clasificación sintáctica) es una antigua clasificación de las palabras según
su tipo La gramática tradicional distingue nueve partes de la oración:
Sustantivo o nombre, Pronombre, Verbo, Adjetivo, participio, Adverbio,
Preposición, Conjunción e Interjección.
Morfología
Como idioma flexivo las palabras del español se forman mediante lexemas
o raíces a los que se agregan morfemas gramaticales o gramemas (como
el género masculino o femenino y el número singular o plural para los
sustantivos y adjetivos, y el modo, tiempo, voz, aspecto y persona y
número para el verbo), más todo tipo de afijos que sirven para formar
palabras derivadas. La derivación marca la afectividad con sufijos
apreciativos-valorativos
tales
como:
diminutivos,
aumentativos,
despectivos, y otros, se tiene en cuenta las siguientes definiciones:

Palabra es la mínima unidad de significado.

Lexema es el elemento que contiene la significación de la palabra.
Tradicionalmente se le ha llamado raíz.

Morfemas son las letras que van pospuestas al lexema. Indican los
accidentes del vocablo. Estos accidentes son: género, número, tiempo
y persona.

Palabras primitivas son las que originan otros vocablos.
Pág. 9

Palabras derivadas son las que han sido originadas por las palabras
primitivas, a las que se les ha añadido uno o más sufijos.

Prefijos son elementos que se preceden a las palabras, y que les
añaden significación.

Sufijos son ls elementos que posponen a las palabras y que les añaden
significación.

Incremento es la letra o letras que van entre el lexema y el sufijo. Esta
letra o letras se han añadido por eufonía. Los sufijos sirven para formar
sustantivos y adjetivos principalmente.
Composición
La composición consiste en la suma de lexemas. Para componer palabras
en español se recurre a ocho procedimientos:

Sustantivo + preposición + sustantivo: agua de borrajas.

Sustantivo + adjetivo: arma blanca, aguardiente, aguamarina.

Adjetivo + sustantivo: mala pata, media naranja, ricohombre.

Sustantivo + sustantivo: cartón piedra, coche cama, varapalo.

Verbo + complemento: buscavidas, chupatintas, correcalles.

Verbo + verbo: duermevela, ganapierde, picapica, tejemaneje, vaivén.

Sustantivo + i + adjetivo: alicaído, boquiabierto, cabizbajo, pelicano.

Adjetivo + adjetivo: agridulce, anchicorto, grecorromano, todopoderoso.

Adverbio + adjetivo: bien hablado, bienaventurado, malcontento.
3.1.2. Lengua aymara y su gramática
Es una lengua andina hablada por dos millones y medio de personas
aproximadamente, recibe su nombre de la nación colla y es co-oficial con
el castellano en Perú y Bolivia. La lengua aymara se extiende en Perú en
los departamentos de Puno, Moquegua, Tacna, Arequipa (migrantes) Lima
(Yauyos, Tupe, Cachuy); en Bolivia en los departamentos de Oruro, La
Paz, Potosí, Cochabamba, Chuquisaca, Beni, Pando, Santa Cruz, y Tarija;
Pág. 10
en Chile se habla en las regiones de Tarapacá y Antofagasta; en
Argentina (migrantes en Jujuy, Salta).(3)
Los aymaras se asocian a sí mismos como la civilización centrada en
Tiwanaku, territorio que fue fundado aproximadamente en 200 adC. El
cronista español Pedro Cieza de León (escritor de crónicas de los Incas,
1540) refirió que cuando los españoles llegaron, todos los habitantes de
los alrededores del lago Titicaca hablaban la lengua Aymara, pero esta era
solo una lengua hablada ya que no tenía alfabeto.
El 1603 en la ciudad de Juli, se estableció una imprenta donde fueron
publicados los trabajos de Ludovico Bertonio. Estos libros son todavía la
más importante fuente de información de la lengua Aymara. Bertonio fue el
primero en proponer un alfabeto Aymara basado en el alfabeto español de
la época. Sin embargo, debido a las variaciones de la pronunciación, este
era imperfecto y a través del tiempo más de 30 diferentes alfabetos fueron
propuestos para la lengua Aymara.
Los ochos más importantes alfabetos fueron: Bertonio en 1612;
Middendorf en 1891; Cala, literatura Aymara y comisión de alfabetización
en 1968; Ebbing en 1965; Maryknoll en 1975; Yapita en 1968; IGR (Ivan
Guzmán de Rojas en 1984). Después de muchas propuestas y
encuentros, el Decreto Supremo de Bolivia 22227-DS de mayo 9 de 1984
y la Resolución Ministerial Peruana 1218 -R.M de noviembre 18 de 1958,
aprobó por ley el alfabeto Aymara, conocido como el alfabeto unificado.
Gramática de la lengua aymara
Tomando como unidad de análisis una oración simple y declarativa (es
decir, ni interrogativa ni imperativa), el aymara presenta un orden favorito
de los elementos constitutivos mayores de aquella en virtud del cual el
sujeto (S) va delante, siguiéndole el objeto (O) y luego cerrando el
enunciado el verbo (V) entonces se trata de orden SOV, sin embargo son
3
“Morfología Contrastiva Quechua/Aymara/Castellano”, Escuela de Postgrado de la Universidad Andina
Néstor Cáceres Velásquez, Segunda Especialización en Educación Biligue Intercultural.
Pág. 11
perfectamente posibles otras desviaciones a partir de ella tales como
OSV, OVS, SVO, VOS y VSO, pero esto atendiendo a factores
pragmáticos que dependen de la intencionalidad del hablante y de su afán
por impactar mejor a su oyente.(4)
Estructura de la frase
La frase es una construcción sintáctica menor que la oración, constituida
por un núcleo o cabeza con o sin modificaciones. Tomando dos de las
categorías mayores básicas del aymara Nombre y Verbo en torno a las
cuales se nuclean otras categorías menores, se puede distinguir
fundamentalmente dos tipos de frases: frase nominal (FN) y frase verbal
(FV), donde los núcleos son respectivamente, un nombre y un verbo,
Morfología
El
Aymara
lengua
aglutinante
expresa
conceptos
y
relaciones
gramaticales mediante la adición de sufijos a los temas radicales y
siempre y cuando a cada sufijo corresponda unívocamente un significado
y viceversa. La lengua aymara al ser aglutinante pertenece al subtipo
específico llamado sufijante; dicho apelativo significa que a muchos
morfemas raíces se añaden sufijos para formar palabras cada vez más
extensas. En estas lenguas no hay prefijos, de modo que la expansión de
una palabra implica crecimiento hacia la derecha mediante la adición de
sufijos, razón por la cual se puede afirmar que el aymara es una lengua de
morfología derechista.
3.1.3. Inteligencia Artificial (IA)
Se denomina inteligencia artificial a la ciencia que desarrolla procesos que
imitan a la inteligencia de los seres vivos. La principal aplicación de esta
ciencia es la creación de máquinas para la automatización de tareas que
requieran un comportamiento inteligente. La IA estudia cómo lograr que
las máquinas realicen tareas que normalmente lo realiza el ser humano (5).
4
5
Rodofo Cerrón Palomino “Quechumara Estructuras Paralelas de las lenguas Qhuachua y Aymara” Pág. 146
Elaine Rich y Kevin Knight “Inteligencia Artificial” Pág. 1.
Pág. 12
Son áreas o ramas clásicas de IA: Sistemas Expertos (Sistemas basados
en Conocimiento), Aprendizaje y Razonamiento Automático, Robótica,
Procesamiento de Lenguaje Natural, entre otros.
3.1.4. Procesamiento de lenguaje natural (PLN)
Es una rama de la Inteligencia Artificial, que se ocupa de la formulación e
investigación de mecanismos eficaces computacionalmente para la
comunicación entre personas o entre personas y máquinas por medio de
programas que ejecuten o simulen la comunicación. Los modelos
aplicados se enfocan no sólo a la comprensión del lenguaje, sino a
aspectos generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve como medio para estudiar estos
fenómenos.
Las aplicaciones de Procesamiento de Lenguaje natural son: Síntesis del
discurso,
Análisis
del
lenguaje,
Comprensión
del
lenguaje,
Reconocimiento del habla, Síntesis de voz, Generación de lenguajes
naturales, Traducción automática, Recuperación de la información,
Dictado Automático (6). Teniendo múltiples aplicaciones el Procesamiento
del Lenguaje Natural contempla elementos como: Análisis morfológico,
análisis sintáctico, análisis semántico y análisis pragmático.
3.1.5. Lingüística Computacional
La lingüística computacional es un campo multidisciplinar de la lingüística
y la informática que utiliza la informática para estudiar y tratar el lenguaje
humano. Para lograrlo, intenta modelar de forma lógica el lenguaje natural
desde un punto de vista computacional. Dicho modelado no se centra en
ninguna de las áreas de la lingüística en particular, sino que es un campo
interdisciplinaria,
en
el
que
participan
lingüistas,
informáticos
especializados en inteligencia artificial, psicólogos cognoscitivos y
expertos en lógica, entre otros.
6
Nilsson Nils “Inteligencia Artificial” Primera Edición Pág. 344.
Pág. 13
Algunas de las áreas de estudio de la lingüística computacional son:
Corpus lingüístico asistido por ordenador, Diseño de analizadores
sintácticos (en inglés: parser), para lenguajes naturales, Diseño de
etiquetadores o lematizadores (en inglés: tagger), tales como el POStagger, Definición de lógicas especializadas que sirvan como fuente para
el Procesamiento de Lenguajes Naturales, y Traducción automática.
3.1.6. Traducción automática
Es una aplicación de Procesamiento de Lenguaje Natural, también
considerada como área de la lingüística computacional que investiga el
uso de software para traducir texto o habla de un lenguaje natural a otro.
En un nivel básico, la traducción por computadora realiza una substitución
simple de las palabras atómicas de un lenguaje natural por las de otro.
El traductor automático debe analizar el texto original, interrelacionar con
la situación referida y como resultado debe encontrar el
texto
correspondiente en el lenguaje destino. (7). Los tipos de traducción
automática son: Traducción automática basada en reglas, Traducción
automática basada en corpus lingüístico y la traducción automática
basado en contexto.
La traducción automática basada en reglas
Asume varios grados en su fundamento: a) traducción directa o por
diccionario como modelo diccionarios bilingües. La traducción de un texto
se obtiene a partir de la traducción palabra por palabra, sin tener en
cuenta ni la relación entre ellas ni el contexto en que se encuentran; b)
Traducción automática por transferencia en donde el análisis del texto
original juega un papel más importante, y da paso a una representación
interna que es la que se utiliza como enlace para traducir entre idiomas
distintos finalmente recomponiendo para el idioma meta; y c) Traducción
por Lenguaje Intermedio conocida también Traducción Automática
Mediante Lengua Intermedia (interlingua), en donde el lenguaje original,
7
Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial.
Pearson Educación S.A. Madrid 2004 , Pág. 965.
Pág. 14
por ejemplo un texto que debe ser traducido, es transformado a un
lenguaje intermedio, cuya estructura es independiente a la del lenguaje
original y a la del lenguaje final. El texto en el lenguaje final se obtiene a
partir de la representación del texto en el lenguaje intermedio.
Traducción automática basada en corpus lingüísticos se basa en el
análisis de muestras reales con sus respectivas traducciones, entre los
mecanismos que utilizan corpus se incluyen los métodos estadísticos y los
basados en ejemplo; finalmente
la traducción automática
basado en
contexto, utiliza técnicas para hallar la mejor traducción, para una palabra
fijándose en el resto de palabras que la rodean, básicamente este método
se esmera en tratar el texto en unidades de entre 4 y 8 palabras, de
manera que se traduce cada una de ellas por su traducción al idioma
destino y se eliminan las traducciones que han generado una "frase" sin
sentido.
3.1.7. Traducción automática por transferencia
En la traducción automática basado en el modelo de transferencia, el texto
original se analiza primero morfológica y sintácticamente, obteniendo
como
resultado
una
representación
sintáctica
superficial.
Esta
representación se transforma a continuación en otra más abstracta que
hace especial énfasis en aspectos relevantes para el proceso de
traducción e ignora otro tipo de información. El proceso de transferencia
convierte esta última representación (ligada aún al idioma original) a una
Pág. 15
representación al mismo nivel de abstracción pero ligada al lenguaje
objetivo. Estas dos representaciones son las llamadas normalizadas o
intermedias. A partir de aquí el proceso se invierte: los componentes
sintácticos generan una representación del texto y finalmente se genera la
traducción en la lengua meta.
Tipos de transferencia
La principal característica de los sistemas de transferencia es la existencia
de una fase que proyecta representaciones intermedias del texto original
sobre representaciones del texto objetivo. Éste componente puede
trabajar en distintos niveles de análisis lingüístico, por lo que se pueden
distinguir
dos
tipos
de
transferencia:
Transferencia
superficial
y
Transferencia profunda.
Transferencia superficial (sintáctica)
Se caracteriza por hacer un análisis sintáctico mediante el que se
transfieren las estructuras sintácticas del lenguaje origen a las estructuras
sintácticas del lenguaje objetivo. Este tipo de transferencia resulta muy
apropiado para traducciones entre idiomas de una misma rama (p.ej. entre
lenguas romance como el castellano, el catalán, el francés, el italiano, o el
portugués).
Transferencia profunda (semántica)
Construye una representación semántica que es dependiente del lenguaje
original. Esta representación puede consistir en una serie de estructuras
que representen el significado. En estos sistemas la transferencia se
realiza principalmente sobre predicados. La traducción de palabras
normalmente también requiere una transferencia estructural previa. Este
tipo es más común entre idiomas de ramas diferentes (p.ej. castellanoinglés, castellano-euskera, etc.).
.
3.1.8. Métricas de ingeniería de software
El concepto de métrica es el término que describe variados casos de
medición. Siendo una métrica una medida estadística (no cuantitativa
Pág. 16
como en otras disciplinas ejemplo física) que se aplica a todos los
aspectos de calidad de software, los cuales deben ser medidos desde
diferentes puntos de vista como el análisis, construcción, funcional,
documentación, métodos, proceso, usuario, entre otros.
Las mediciones de ingeniería de software pueden ser: Medidas Directas
que mide el costo, y el esfuerzo aplicado, las líneas de código producidas,
velocidad de ejecución, el tamaño de memoria y los defectos observados
en un determinado periodo de tiempo; y Medidas Indirectas que mide la
funcionalidad, calidad, complejidad, eficiencia, fiabilidad, facilidad de
mantenimiento, etc.
3.1.9. Métricas de evaluación de traductores automáticos
Permite comprobar la calidad de traductores automáticos, dependiendo de
la finalidad a la que esta dirigida la traducción, será necesario un nivel de
calidad distinto.
Los métodos objetivos de traductores automáticos, no es necesaria la
valoración de la traducción por un ser humano tales como: WER (word
error rate), PER (position-independent word error rate), mejora de WER
para que sea independiente de la posición de las palabras dentro de la
frase, mWER (multi-reference word error rate), BLEU mide la precisión de
los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto
a un conjunto de traducciones de referencia y NIST.
En los métodos subjetivos, los humanos intervienen en la valoración de la
traducción los métodos son: SSER (subjective sentence error rate), un
humano califica la traducción de una frase de 0 a 1. Una calificación de 0
se le da una traducción perfecta, mientras que una de 1 se corresponde
una traducción sintáctica y semánticamente incorrecta. IER (information
item error rate) las frases de prueba se dividen en items. Un humano
examina si la información de cada uno de los items se encuentra presente
en la traducción. De esta manera se puede comprobar si siendo la
Pág. 17
traducción de la frase incorrecta, existen partes de ésta que en cambio sí
son correctas.
3.2. Marco conceptual
3.2.1. Texto de la lengua original
Bloques de texto escritos en el idioma español que requieren la traducción
a la lengua aymara.
3.2.2. Análisis morfológico
Consiste en identificar los elementos del texto y clasificarlos en función de
lo que son: nombres, verbos, adjetivos, etc. Además, también deben
reconocerse abreviaturas y otras expresiones o palabras compuestas.
3.2.3. Categorización léxica
Algunas de las palabras que aparecen en un texto pueden tener más de
un significado, causando así ambigüedad a la hora de hacer su análisis.
La categorización léxica analiza el contexto, es decir, los elementos
vecinos al actual, y escoge el significado que mejor encaja.
3.2.4. Transferencia léxica
La transferencia léxica es equivalente a lo que comúnmente se conoce
como traducción por diccionario. A partir de la forma léxica de la palabra
original, se trata de derivar su equivalente en el nuevo idioma.
3.2.5. Transferencia estructural
Una transferencia estructural analiza el texto desde un punto de vista más
amplio. En vez de centrarse en palabras, amplia su objetivo a fragmentos
mayores. De esta manera se pueden encontrar expresiones que puedan
requerir un tratamiento especial (p.ej. refranes, dichos, etc.).
3.2.6. Generador morfológico
En el momento en que ya se ha realizado el análisis, el generador
morfológico es el encargado de asociar cada elemento identificado en
Pág. 18
fases anteriores con su equivalente en la lengua objetivo, procurando que
la interpretación sea lo más fiel posible.
3.2.7. Texto de la lengua meta
Bloques de texto traducidos del idioma español a la lengua aymara.
3.2.8. Código Abierto (open source)
Es el término con el que se conoce al software distribuido y desarrollado
libremente. Fue utilizado por primera vez en 1998 por algunos usuarios de
la comunidad del software libre, tratando de usarlo como reemplazo al
ambiguo nombre original en inglés del software libre (free software).
IV.
HIPOTESIS Y VARIABLES
3.3. Hipótesis general
La calidad del traductor automático de textos del idioma español a la lengua
aymara basado en la transferencia sintáctica es eficiente.
3.4. Hipótesis específicas

El traductor automático de textos del idioma español a la lengua aymara
basado en la transferencia sintáctica superficial cumple los estándares de
las métricas de ingeniería de software.

La evaluación del traductor automático de textos del idioma español a la
lengua aymara basado en la transferencia sintáctica superficial es
aceptable.
Pág. 19
3.5. Análisis de variables e indicadores
VARIABLES
Independiente:
INDICES
1.1.1. Análisis morfológico
- Nombres
1. Transferencia
1.1.
Estructura
sintáctica
- Verbos
sintáctica superficial
superficial
- Adjetivos
1.1.2. Categorización léxica
1.1.3. Transferencia léxica
1.1.4. Transferencia estructural
1.1.5. Generador morfológico
Dependiente:
2.1. Métricas de Ingeniería de 2.1.1. Valoración de Calidad
Software
2.1.2. Valoración de Funcionalidad
2.
Traductor
2.1.3. Valoración de Utilidad
automático de textos
del idioma español a 2.2. Métricas de evaluación de 2.2.1. Nivel de Calidad de traducción
la lengua aymara
traductores automáticos
2.2.2. Grado de precisión de
traducción
2.2.3.
Nivel
de
errores
y
sustituciones
V.
INDICADORES
DISEÑO DE LA INVESTIGACION
5.1. Tipo y nivel de investigación
Área de Investigación: Ciencias de la Computación
Tipo de Investigación: Investigación Aplicada o tecnológica
Nivel de investigación: Experimental
Línea de Investigación: Inteligencia Artificial
Campo de investigación: Procesamiento de Lenguaje Natural
Tema de Investigación: Traductor automático
5.2. Diseño de la investigación
5.1.1. Etapas de la investigación

Ingeniería de traducción automática por transferencia sintáctica

Desarrollo del traductor automático

Implementación de diccionarios y construcción de reglas gramaticales

Evaluación del traductor automático
Pág. 20
5.1.2. Método de la investigación
Para el desarrollo e implementación del traductor automático de textos del
idioma español a la lengua aymara se utilizará el modelo de desarrollo de
Software.

Definición de Requerimiento

Análisis y diseño del sistema

Codificación del sistema

Integración del sistema

Pruebas del sistema

Evaluación del sistema
Para evaluación del traductor automático de textos del idioma español a la
lengua aymara se utilizará las métricas de evaluación de traductores
automáticos:
WER (word error rate),
Donde:

S es el número de sustituciones,

B es el número de borrados,

I es el número de inserciones,

N es el número de palabras que tiene la frase de referencia.
BLEU mide la precisión de los ngramas (unigramas, bigramas, trigramas
y cuatrigramas)
Pág. 21
5.3. Matriz de consistencia
Problemas
Objetivos
Hipótesis
Problema Principal:
Objetivo Principal
Hipótesis Principal
La inexistencia de un
traductor
automático
para comprensión de
textos
del
idioma
español en la lengua
aymara
Medir
la
calidad
del
traductor automático de
textos del idioma español a
la lengua aymara basado
en
la
transferencia
sintáctica superficial.
La calidad del traductor
automático de textos del
idioma español a la lengua
aymara basado en la
transferencia sintáctica es
eficiente.
Problema Específico
Nro. 1:
Objetivo Específico Nro. 1
Hipótesis específica Nro. 1
Implementar el traductor
automático de textos del
idioma español a la lengua
aymara basado en la
transferencia sintáctica
superficial.
El traductor automático de
textos del idioma español a
la lengua aymara basado en
la transferencia sintáctica
superficial cumple los
estándares de las métricas
de ingeniería de software.
Perú un país
pluricultural que no
cuenta con
herramientas como
traductores automáticos
para interrelacionar
culturas.
Problema Específico
Nro. 2:
Objetivo Específico Nro. 2
Evaluar el traductor
Dos millones y medio de automático de textos del
personas ayamara
idioma español a la lengua
hablantes que no tienen aymara basado en la
acceso a la información transferencia sintáctica
en su propia lengua.
superficial con las métricas de
evaluación de traductores
automáticos
Hipótesis específica Nro. 2
La evaluación del traductor
automático de textos del
idioma español a la lengua
aymara basado en la
transferencia sintáctica
superficial es aceptable.
Variables Indicadore
s
Indepen- De la VI:
diente:
1.
Transferenci
a sintáctica
superficial
Índices
1.1.1. Análisis morfológico
- Nombres
1.1. Estructura
- Verbos
sintáctica
- Adjetivos
superficial
1.1.2. Categorización léxica
1.1.3. Transferencia léxica
1.1.4. Transferencia estructural
1.1.5. Generador morfológico
Método
-Población: Representada por
300 personas hablantes la
lengua aymara y/o que tengan
estudios de lingüística andina
- Muestra: No probabilística ha
seleccionado por el investigador
50 personas
- Tipo de Investigación:
Investigación Tecnológica /
Experimental
Dependien
2.1.
te
Métricas 2.1.1. Valoración de Calidad
- Estrategia:
de
Ingeniería 2.1.2.
Valoración
de
de Software
Funcionalidad
1) Recolección de bibliografía
2.1.3. Valoración de Utilidad
especializada y planificación del
2. Traductor
automático
de textos del
idioma
español a la
lengua
aymara
2.2. Métricas
de evaluación
de traductor
automático
2.2.1. Nivel de Calidad de proyecto.
traducción
2.2.2. Grado de precisión de 2) Ingeniería de traducción
traducción
automática por transferencia
2.2.3. Nivel de errores y
sintáctica
sustituciones
3) Implementación del traductor
automático
5) Evaluación del traductor
automático.
Pág. 22
5.4. Diseño de prueba de hipótesis
Prueba de hipótesis para la media
Se usará esta prueba para métricas de ingeniería de software y métricas
de evaluación de traductores automáticos con el procedimiento es el
siguiente:
b) Planteamiento de hipótesis
Ho (hipótesis nula): µ= µo
H1 (hipótesis alterna): µ> µo
c) Estadístico de prueba: Se usará la distribución normal (Z)
d) Nivel de significancia, alfa: 1%, 5% y 10%
e) Regla de decisión
Dibujo
Si Zc > Zα entonces se rechazará Ho
f) Calcular Zc
Zc 
x
 / n 1
g) Conclusión
5.5. Población y muestra
POBLACION: La población será representada por las personas hablan,
que investigan la lengua aymara, quienes comprenden textos en la lengua
aymara además su gramática, así como su escritura y su lectura.
MUESTRA: El método de muestreo es no probabilística a selección por
criterio de investigador, para lo cual se seleccionarán 50 personas que
hablan o que investigan la lengua aymara.
Pág. 23
5.6. Diseño de recopilación de información

Recopilación de información con respecto a la estructura gramatical del
idioma español y de la lengua aymara.

Fichas de observación de métricas de ingeniería de software

Fichas de observación de métricas de evaluación de traductor
automático

VI.
Ficha de entrevistas
PRESUPUESTO Y FINANCIAMIENTO
6.1. Presupuesto básico
D E S C R I P C I ON
UND.
MATERIAL DE ESCRITORIO
Papel Bond 80 g
Cds Simples
CAN PRECIO
T
UNIT.
TOTAL
S./
Millar
Unid.
02
10
25.20
0.80
50.40
8.00
Fólder Manila T /A4
Cuaderno cuadriculado 100 h T/A4
Unid.
Unid.
25
02
0.15
2.80
3.75
5.60
Archivador de palanca lomo ancho T /oficio
Unid.
01
2.92
2.92
Unidad de Almacenamiento (2 Gigas)
Gigas
01
92.50
92.50
Unid.
01
460.00
460.00
Días
02
223.5
447.00
persona
01
170.00
170.00
01
30.00
30.00
BIENES DE CONSUMO
Toner para impresora ML-225 1N Sansumg
VIÁTICOS Y ASIGNACIONES
Viáticos a nivel Nacional
PASAJES
Abancay-Puno-Cusco- Abancay
SERVICIOS
Compra de Dominio (Anual)
www.aymaramarka.com
Proveedor de Dominios
Alquiler de Hosting (Anual)
1000 Megas PHP, SSL, MySql, proveedor de
servicios de Internet
01
2000.0 2000.00
Pág. 24
Servicio
de
Posicionamiento
en
Internet
(Indexadores, Directorios, Buscadores) proveedor
de servicios de Internet
Elaboración de material de Material de
Recopilación
Servicio de:
- Diseño de encuestas
- Impresión de encuestas
Ejecución de encuestas
Servicio de Internet
Unid.
Impresión de materiales de investigación
Unid.
Bibliografía
IMPREVISTOS
Movilidad local y otros
Costo Total
Unid.
01
450.00
450.00
01
400.00
400.00
4
300
150.00
1.00
600.00
300.00
10
50.00
500.00
150.00
S/.
5,670.17
6.2. Financiamiento
El presupuesto básico calculado se presenta en su forma estimada para la
realización de la investigación el cual asciende a S/. 5670.17 (Cinco mil
seiscientos setenta nuevos soles con 17/100 céntimos) la cual será
autofinanciado por el investigador.
VII. CRONOGRAMA
Diciembre
N
1
2
3
4
5
6
7
8
Actividades
Elaboración y aprobación del
Proyecto
Diseño de ingeniería de traducción
por transferencia sintáctica
Desarrollo del traductor automático
por transferencia sintáctica
Implementación de diccionarios y
reglas gramaticales
Evaluación del traductor automático
por transferencia sintáctica
Implementación en el sitio web del
traductor automático
Test de comprensión de textos del
idioma español en la lengua aymara
Informe y publicación
1
2
X
X
Enero
3
4
1
X
X
X
Febrero
2
3
4
X
X
X
1
2
3
X
X
X
X
Marzo
4
1
X
X
X
2
3
4
X
X
X
X
Pág. 25
VIII. ESTRUCTURA TENTATIVA DEL INFORME FINAL
I.
INTRODUCCIÓN
II.
EL PROBLEMA
2.1. Análisis de la situación problemática
2.2. Definición del problema
2.3. Planteamiento del problema
2.4. Justificación del problema
III.
OBJETIVOS
3.1. Objetivo general
3.2. Objetivos específicos
IV.
MARCO REFENCIAL
4.1. Marco teórico
4.2. Marco conceptual
V.
HIPÓTESIS Y VARIABLES
5.1. Hipótesis general
5.2. Hipótesis específicas
5.3. Análisis de variables e indicadores
VI.
DISEÑO DE LA INVESTIGACIÓN
6.1. Diseño de la investigación
6.2. Matriz de consistencia
6.3. Diseño de prueba de hipótesis
6.4. Población y muestra
6.5. Métodos de discusión
VII. RESULTADOS Y DISCUSIÓN
VIII. CONCLUSIONES
IX.
SUGERENCIAS
X.
BIBLIOGRAFIA CONSULTADA
XI.
ANEXOS
Pág. 26
IX.
BIBLIOGRAFIA DE CONSULTADA
[ALVA81]
ALVARADO, MAITE y otros. Teoría y práctica de un taller de
escritura. Madrid, Altalena 1981.
[RICH94] Elaine RICH y Kevin Knight. Inteligencia Artificial. Segunda Edición.
España. McGraw-Hill/Interamericana S.A. 1994.
[ESPE94] Elvira, ESPEJO AYKA. Jichha nä Parlt'ä (Ahora les voy a Narrar).
Bolivia Ediciones ILCA, 1994.
[LAYME]
Felix, LAYME PAIRUMANI. Diccionario Bilingü: Aymara Castellano.
Tercera Edición. Bolivia Consejo Educativo Aymara (CEA) 2004.
[GATT01] GATTI MURIEL, Carlos. Elementos de Gramática Española.
Segunda Edición. Lima Universidad del Pacífico. 2001.
[MEND91] José
MENDOZA,
Donato
GOMEZ
etc.
Yatichañ
Arunaka
(Diccionario Especializado Aymara). Bolivia 1991.
[KOLM97] KOLMAN, BUSBY y ROSS. Estructuras de Matemáticas Discretas
para la Computación, Prentice Hall, 1997.
[SOMM02] Lan, SOMMERVILLE. Ingeniería de Software. Sexta Edición.
México Pearson Educación. 2002.
[LOUD04] Louden, K. C. Construccion de Compiladores Principios y Practica.
Thomson. 2004.
[THER93] Lucy, THERINA BRIGGS. El Idioma Aymara: Variantes Regionales
y Sociales. La Paz, Bolivia Ediciones ILCA. 1993.
[PRES03] Presidente de la República del Perú. Ley General de Educación
28044. Lima 2003.
[PRES93] Presidente del Congreso Constituyente Democrático del Perú.
Constitución Política del Perú. Lima 1993.
[GRON99] Marcelo, GRONDIN N. Método de Aymara: Qullajaqin Arupa. La
Paz, Cochabamba (Bolivia), Editorial Los Amigos del Libro. 1999.
[MEDI03]
MEDINA G., Antonia. Lexicografía española. Barcelona Editorial
Ariel. 2003.
Pág. 27
[NILS04]
Nilsson NILS. Inteligencia Artificial. Madrid. McGraw Madrid.
Hill/Interamericana S.A. 2004.
[ALVA06]
Octavio, ÁLVAREZ MAURICIO. Método para optar el Título
Profesional y los grados de Magíster y Doctor. Lima, Grupo Editorial
Megabyte S.A.C. 2006.
[CORP84] CORPUNO.
Diccionario
Aymara-Castellano.
Puno,
Proyecto
Experimental Educación Bilingüe Puno-Perú. 1984.
[BREÑ03] Ramón BREÑA. Autómatas y Lenguajes. México. 2003.
[CERR87] Rodofo, CERRÓN PALOMINO. Quechumara Estructuras Paralelas
de las lenguas Quechua y Aymara. Perú: Puno. 1987.
[CERR00] Rodolfo CERRÓN PALOMINO. Lingüística Aimara. Lima, 2000.
[PRES02] Roger S. PRESSMAN. Ingeniería de Software: Un Enfoque
Práctico.
Quinta
Edicción.
Madrid,
etc.
McGraw
Madrid.
Hill/Interamericana S.A. 2002.
[RUSE04] RUSELL, Stuart y NORVIG Meter. Inteligencia Artificial un enfoque
moderno. Segunda Edición. Madrid. Pearson Educación S.A. 2004.
[PRAT98] T. PRATT y V. ZELKOWITZ. Lenguajes de Programación Diseño e
Implementación. Prentice-Hall Hispanoamericana S.A. 1998.
[UANC03] UANCV
(Universidad
Andina
Néstor
Cáceres
Velásquez).
Morfología Contrastiva Quechua/Aymara/Castellano. Escuela de
Postgrado de la, Segunda Especialización en Educación Bilingüe
Intercultural. Perú: Juliaca. 2003.
UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ”
ESCUELA DE POSTGRADO
MAESTRIA EN INGENIERIA DE SISTEMAS
“TRANSFERENCIA
SINTÁCTICA
SUPERFICIAL
PARA
TRADUCTOR
AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA”
Presentado por: Ing. Hugo David Calderon Vilca
PARA OPTAR EL GRADO DE
MAGISTER EN INGENIERA DE SISTEMAS
JULIACA – PERU
2007
UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ”
ESCUELA DE POSTGRADO
MAESTRIA EN INGENIERIA DE SISTEMAS
“TRANSFERENCIA
SINTÁCTICA
SUPERFICIAL
PARA
TRADUCTOR
AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA”.
PROYECTO DE TESIS
Presentado para optar el grado de:
MAGISTER EN INGENIERIA DE SISTEMAS
Mención: Ingeniería del Software
APROBADA POR
PRESIDENTE DE JURADO
:________________________________
MIEMBRO DEL JURADO
:________________________________
MIEMBRO DEL JURADO
:________________________________
ASESOR DE TESIS
:________________________________
M.Cs. Daniel Yucra Sotomayor
ASESOR DE TESIS
:________________________________
M.Cs. Juan Reynaldo Paredes Quispe