Download proyecto de tesis
Document related concepts
Transcript
Pág. 1 INDICE I. EL PROBLEMA ……………………………………………………………… 02 1.1. Análisis de la situación problemática ……………………………….. 02 1.2. Definición del problema ………………………………………………. 03 1.3. planteamiento del problema ………………………………………….. 04 1.4. Justificación del problema …………………………………………….. 04 II. OBJETIVOS …………………………………………………………………. 06 2.1. Objetivo general ………………………………………………………. 06 2.2. Objetivos específicos …………………………………………………. 06 III. MARCO REFENCIAL ………………………………………………………. 07 3.1. Marco teórico …………………………………………………………… 07 3.2. Marco conceptual ……………………………………………………… 17 IV. HIPÓTESIS Y VARIABLES ………………………………………………… 18 4.1. Hipótesis general ……………………………………………………… 18 4.2. Hipótesis específicas …………………………………………………. 18 4.3. Análisis de variables e indicadores …………………………………. 19 V. DISEÑO DE LA INVESTIGACIÓN ………………………………………… 19 5.1. Tipo y nivel de investigación …………………………………………. 19 5.2. Diseño de la Investigación …………………………………………… 19 5.3. Matriz de consistencia ………………………………………………… 21 5.4. Diseño de prueba de hipótesis ……………………………………… 22 5.5. Población y muestra ………………………………………………… 23 5.6. Diseño de recopilación de información …………………………… 23 VI. PRESUPUESTO Y FINANCIAMIENTO…………………………………. 24 6.1. Prepuesto básico ……………………………………………………… 24 6.2. Cronograma …………………………………………………………… 25 VII. ESTRUCTURA BÁSICA DEL INFORME ……………………………….. 25 VIII. BIBLIOGRAFIA CONSULTADA…………………………………………. 26 Pág. 2 PROYECTO DE TESIS TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA I. EL PROBLEMA 1.1. Análisis de la situación problemática En este mundo, de múltiples culturas, idiomas, y globalizado, los traductores automáticos como aplicación del procesamiento de lenguaje natural ha aportado significativamente en la interacción de culturas en esta macro sociedad permitiendo al hombre interrelacionarse con sus semejantes, mediante la traducción de textos o habla de un lenguaje natural a otro un claro ejemplo es google, con su traductor automático para diferentes idiomas. Sin embargo resalta los aportes de estas tecnologías para lenguas nativas como el aymara y el quechua en nuestro país han sido pocos, no existiendo ningún traductor automático para estas lenguas y se tiene como consecuencia en nuestro medio la incomprensión de culturas y conocimientos relegados que podrían aportar al desarrollo de nuestro país. Asimismo en la Constitución Política del Estado Peruano menciona que toda persona tiene derecho a usar su propio idioma, y son idiomas oficiales el castellano y también lo son el quechua y el aymara en las zonas donde predominen [PRES93 Art. 2º enciso 19 y Art. 48º]. El problema una vez más resalta porque no hay herramientas tecnológicas como traductores automáticos que conlleven esta moción y que apoyen a la interacción entre los individuos de diferentes idiomas y lenguas. También se sabe que el Perú es un país pluricultural, porque en el espacio social y geográfico conviven diversas culturas, entonces se habla de interculturalidad, que es la relación entre varias culturas. Para ello, una vez más se ve que los aportes científico tecnológicos, no han trascendido en su Pág. 3 magnitud para apoyar este intercambio intercultural en comunidades de habla aymara, que requieren insertarse a la modernidad o a los cambios tecnológicos, además considerando que dos culturas diferentes tienen idiomas distintos cabe señalar que la interculturalidad empieza su acción en comprender y traducir sus idiomas, viéndose la necesidad álgida que invoca la urgencia de desarrollo e implementación de herramientas como los traductores automáticos para estas lenguas de la región andina. Los actuales aymaras se denominan a sí mismos: “la nacionalidad qulla” y se estima que los hablantes oscilan entre dos millones y medio de personas quienes viven principalmente en Bolivia y Perú, sobre todo en el altiplano del Titicaca. Quienes realizan estudios e investigaciones con respecto a esta cultura se encuentra con limitaciones en cuanto al acceso a la información, por lo que un traductor automático será una puerta abierta en traducción a otros idiomas. 1.2. Definición del problema La inexistencia de un traductor automático para la lengua aymara es un problema de desarrollo e implementación tecnológica, como tal es una aplicación del Procesamiento de la Lengua Natural y esta es una subdisciplina de la Inteligencia Artificial, los traductores automáticos también son considerados como una rama de la Lingüística Computacional, la misma que investiga el uso de software para traducir textos de un lenguaje natural a otro. Por otro lado, a pesar de que la mayor parte de la producción de software se hace como software privativo, también el desarrollo de software en código abierto (open source o software libre), las cuales están alcanzando su importancia actualmente, evidentemente se ve como un símbolo de esta línea al Sistema Operativo Linux, bajo está denominación “Código Abierto”, de la misma forma existe el software OpenTrad Apertium software de traducción automática basado en código abierto, cuyo código fuente se reutilizará para la implementación del traductor automático motivo de la presente investigación. Pág. 4 La investigación sobre el “Transferencia Sintáctica Superficial para Traductor Automático de Textos del Idioma Español a la Lengua Aymara” está enmarcada como tipo de investigación Aplicada o tecnológica y el nivel de investigación es experimental. 1.3. Planteamiento del Problema Dada la gran explosión de información que vive la sociedad del siglo XX, la traducción automática es una aplicación que ayudará a superar la barrera del idioma, permitiendo traducir textos del idioma español a la lengua aymara, el aporte que se logrará es relevante por que conllevará a la comunicación entre individuos de diferentes culturas. El traductor automático antes de su implantación será evaluada por los “métodos de evaluación de traducción automática” de esta manera se medirá la eficiencia del traductor automático. Por tanto: ¿Será eficiente la calidad del traductor automático del idioma español a la lengua aymara basado en la transferencia sintáctica superficial? 1.4. Justificación de la Investigación El aporte fundamental de este proyecto es la de complementar la comunicación entre varias, como resultado final el traductor automático beneficiará a los estudiantes, profesionales e investigadores de la lengua aymara, quienes tendrán la posibilidad de traducir información en esta lengua. Asimismo la investigación busca la reivindicación de esta lengua que cumple un papel trascendental como vehículo de expresión y pensamiento. Por otro lado la situación problemática actual de las lenguas andinas como el aymara se ha desarrollado más en su forma oral que escrita y más aún notándose la inexistencia de herramientas para el apoyo en lecto escritura de Pág. 5 esta lengua, por lo que el aporte del traductor automático coadyuvará en el desarrollo del conocimiento de la lingüística andina. Además la cultura aymara esta cobrando cada vez mayor importancia por los investigadores en sus diferentes áreas, pero frente a esta importancia existe una brecha, la lengua, entre la cultura y los investigadores, razones que hacen que se limite los trabajos de investigación en este campo, como alternativa para romper esta brecha se propone contribuir con un traductor automático para impulsar el conocimiento de la cultura aymara. La sociedad moderna ha desarrollado la idea que las lenguas como el quechua y el aymara pertenecen al pasado, los jóvenes en las ciudades no quieren hablar el aymara no valoran por que les parece anticuado, poco utilizable, al navegar en los sitios web confirman su pensamiento porque no hay herramientas en Internet que se identifiquen con la lengua aymara, con la implantación de un traductor automático se impulsará el aprendizaje de esta lengua y por ende el crecimiento del conocimiento. La Ley de Educación en su Artículo 20, establece que la Educación Intercultural se debe ofrecer en todo el sistema educativo nacional [PRES04 Art. 20]. Sin embargo no existen herramientas atractivas orientadas a Internet para conllevar esa direccionalidad del Ministerio de Educación. Finalmente, el aymara hablante no encuentra textos o bibliografía en su lengua en las bibliotecas locales mucho menos en las bibliotecas nacionales y/o internacionales, de modo que se siente limitado para desarrollar conocimiento en su lengua y cultura, situaciones que le llevan a contar con una herramienta como traductores automáticos. Actualmente no hay investigaciones con la idea de contribuir con un traductor automático del idioma español a la lengua aymara, es evidente que en los sitios Web se ofrecen traductores de palabras más no de frases. 1.5. Antecedentes de la investigación Pág. 6 En el ámbito regional no existe investigaciones con respecto a traductores automáticos de textos del idioma español a la lengua aymara. En el ámbito nacional tampoco hay investigaciones emprendidas con respecto a este tema. Sin embargo existen implementaciones como el opentrad apertium (Traductor automático por transferencia sintáctica de español a euskera) y maxin para traducción automática profunda, ambas desarrolladas en España. Considerando que la lengua aymara mas hablada en Bolivia y Perú, aún no existen investigaciones para implementar la herramienta como el traductor autómatico. II. OBJETIVOS 2.1. Objetivos general Medir la calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial. 2.2. Objetivos específicos Implementar el traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial. Evaluar el traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial con las métricas de evaluación de traductores automáticos III. MARCO REFERENCIAL Pág. 7 3.1. Marco teórico 3.1.1. Idioma Español El idioma español o el castellano es la segunda lengua más hablada del mundo por el número de hablantes que la tienen como lengua materna (1) (tras el chino mandarín), es uno de los seis idiomas oficiales de acuerdo la Organización de las Naciones Unidas, se habla como primera y segunda lengua entre 450 y 500 millones de personas a nivel mundial. Por otro lado, el idioma español es el segundo idioma más estudiado en el mundo tras el inglés de acuerdo al Instituto Cervantes (dedicada a la promoción y enseñanza de la lengua española). Gramática del idioma Español Conjunto finito de reglas que especifican el idioma español basado en la idea de estructura de la frase donde las cadenas están compuestas de subcadenas llamadas frases, las cuales pueden pertenecer a distintas categorías como frase nominal (FN) frase verbal (FV), considerando queel idioma español es una lengua flexiva de tipo fusional, es decir, en las oraciones se usa preferentemente la flexión para indicar las relaciones entre sus elementos. En el idioma español como en otros idiomas los lingüistas se afanan en descubrir propiedades del lenguaje por medio de un proceso de investigación científica y entonces codificar sus descubrimientos en una gramática.(2) Oración (frase) Es la mínima unidad de lenguaje con sentido completo. Por sentido completo se entiende que se está expresando asume una determinada actitud ante lo que dice, es decir, que pregunta, afirma, niega, etc. La oración gramatical se divide en dos miembros: Predicado y sujeto. El núcleo es un elemento clave que nos ayuda a identificar fácilmente tanto 1 SUMMER INSTITUTE of LINGUISTICS.- Instituto que realiza estudios de las lenguas minoritarias y las culturas de todo el mundo, como dominios académicos incluye Lingüística, Traducción, Computación y otros. 2 . Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial. Pearson Educación S.A. Madrid 2004 , Pág. 899. Pág. 8 al sujeto como al predicado. El núcleo del predicado es siempre el verbo, ya que este es indispensable para que exista un predicado. Lo mismo sucede con el sujeto, la palabra básica en la mayoría de los casos y núcleo del sujeto es el sustantivo. Sin embargo existe en el español tantas variaciones, que existen otros casos de núcleos del sujeto como: pronombres personales, un infinitivo, un participio sustantivado, un adjetivo sustantivado, etc. Los demás elementos que acompañan al sustantivo o al verbo se les llama modificadores del núcleo. Categoría gramatical Categoría gramatical (o parte de la oración o categoría morfológica o clasificación sintáctica) es una antigua clasificación de las palabras según su tipo La gramática tradicional distingue nueve partes de la oración: Sustantivo o nombre, Pronombre, Verbo, Adjetivo, participio, Adverbio, Preposición, Conjunción e Interjección. Morfología Como idioma flexivo las palabras del español se forman mediante lexemas o raíces a los que se agregan morfemas gramaticales o gramemas (como el género masculino o femenino y el número singular o plural para los sustantivos y adjetivos, y el modo, tiempo, voz, aspecto y persona y número para el verbo), más todo tipo de afijos que sirven para formar palabras derivadas. La derivación marca la afectividad con sufijos apreciativos-valorativos tales como: diminutivos, aumentativos, despectivos, y otros, se tiene en cuenta las siguientes definiciones: Palabra es la mínima unidad de significado. Lexema es el elemento que contiene la significación de la palabra. Tradicionalmente se le ha llamado raíz. Morfemas son las letras que van pospuestas al lexema. Indican los accidentes del vocablo. Estos accidentes son: género, número, tiempo y persona. Palabras primitivas son las que originan otros vocablos. Pág. 9 Palabras derivadas son las que han sido originadas por las palabras primitivas, a las que se les ha añadido uno o más sufijos. Prefijos son elementos que se preceden a las palabras, y que les añaden significación. Sufijos son ls elementos que posponen a las palabras y que les añaden significación. Incremento es la letra o letras que van entre el lexema y el sufijo. Esta letra o letras se han añadido por eufonía. Los sufijos sirven para formar sustantivos y adjetivos principalmente. Composición La composición consiste en la suma de lexemas. Para componer palabras en español se recurre a ocho procedimientos: Sustantivo + preposición + sustantivo: agua de borrajas. Sustantivo + adjetivo: arma blanca, aguardiente, aguamarina. Adjetivo + sustantivo: mala pata, media naranja, ricohombre. Sustantivo + sustantivo: cartón piedra, coche cama, varapalo. Verbo + complemento: buscavidas, chupatintas, correcalles. Verbo + verbo: duermevela, ganapierde, picapica, tejemaneje, vaivén. Sustantivo + i + adjetivo: alicaído, boquiabierto, cabizbajo, pelicano. Adjetivo + adjetivo: agridulce, anchicorto, grecorromano, todopoderoso. Adverbio + adjetivo: bien hablado, bienaventurado, malcontento. 3.1.2. Lengua aymara y su gramática Es una lengua andina hablada por dos millones y medio de personas aproximadamente, recibe su nombre de la nación colla y es co-oficial con el castellano en Perú y Bolivia. La lengua aymara se extiende en Perú en los departamentos de Puno, Moquegua, Tacna, Arequipa (migrantes) Lima (Yauyos, Tupe, Cachuy); en Bolivia en los departamentos de Oruro, La Paz, Potosí, Cochabamba, Chuquisaca, Beni, Pando, Santa Cruz, y Tarija; Pág. 10 en Chile se habla en las regiones de Tarapacá y Antofagasta; en Argentina (migrantes en Jujuy, Salta).(3) Los aymaras se asocian a sí mismos como la civilización centrada en Tiwanaku, territorio que fue fundado aproximadamente en 200 adC. El cronista español Pedro Cieza de León (escritor de crónicas de los Incas, 1540) refirió que cuando los españoles llegaron, todos los habitantes de los alrededores del lago Titicaca hablaban la lengua Aymara, pero esta era solo una lengua hablada ya que no tenía alfabeto. El 1603 en la ciudad de Juli, se estableció una imprenta donde fueron publicados los trabajos de Ludovico Bertonio. Estos libros son todavía la más importante fuente de información de la lengua Aymara. Bertonio fue el primero en proponer un alfabeto Aymara basado en el alfabeto español de la época. Sin embargo, debido a las variaciones de la pronunciación, este era imperfecto y a través del tiempo más de 30 diferentes alfabetos fueron propuestos para la lengua Aymara. Los ochos más importantes alfabetos fueron: Bertonio en 1612; Middendorf en 1891; Cala, literatura Aymara y comisión de alfabetización en 1968; Ebbing en 1965; Maryknoll en 1975; Yapita en 1968; IGR (Ivan Guzmán de Rojas en 1984). Después de muchas propuestas y encuentros, el Decreto Supremo de Bolivia 22227-DS de mayo 9 de 1984 y la Resolución Ministerial Peruana 1218 -R.M de noviembre 18 de 1958, aprobó por ley el alfabeto Aymara, conocido como el alfabeto unificado. Gramática de la lengua aymara Tomando como unidad de análisis una oración simple y declarativa (es decir, ni interrogativa ni imperativa), el aymara presenta un orden favorito de los elementos constitutivos mayores de aquella en virtud del cual el sujeto (S) va delante, siguiéndole el objeto (O) y luego cerrando el enunciado el verbo (V) entonces se trata de orden SOV, sin embargo son 3 “Morfología Contrastiva Quechua/Aymara/Castellano”, Escuela de Postgrado de la Universidad Andina Néstor Cáceres Velásquez, Segunda Especialización en Educación Biligue Intercultural. Pág. 11 perfectamente posibles otras desviaciones a partir de ella tales como OSV, OVS, SVO, VOS y VSO, pero esto atendiendo a factores pragmáticos que dependen de la intencionalidad del hablante y de su afán por impactar mejor a su oyente.(4) Estructura de la frase La frase es una construcción sintáctica menor que la oración, constituida por un núcleo o cabeza con o sin modificaciones. Tomando dos de las categorías mayores básicas del aymara Nombre y Verbo en torno a las cuales se nuclean otras categorías menores, se puede distinguir fundamentalmente dos tipos de frases: frase nominal (FN) y frase verbal (FV), donde los núcleos son respectivamente, un nombre y un verbo, Morfología El Aymara lengua aglutinante expresa conceptos y relaciones gramaticales mediante la adición de sufijos a los temas radicales y siempre y cuando a cada sufijo corresponda unívocamente un significado y viceversa. La lengua aymara al ser aglutinante pertenece al subtipo específico llamado sufijante; dicho apelativo significa que a muchos morfemas raíces se añaden sufijos para formar palabras cada vez más extensas. En estas lenguas no hay prefijos, de modo que la expansión de una palabra implica crecimiento hacia la derecha mediante la adición de sufijos, razón por la cual se puede afirmar que el aymara es una lengua de morfología derechista. 3.1.3. Inteligencia Artificial (IA) Se denomina inteligencia artificial a la ciencia que desarrolla procesos que imitan a la inteligencia de los seres vivos. La principal aplicación de esta ciencia es la creación de máquinas para la automatización de tareas que requieran un comportamiento inteligente. La IA estudia cómo lograr que las máquinas realicen tareas que normalmente lo realiza el ser humano (5). 4 5 Rodofo Cerrón Palomino “Quechumara Estructuras Paralelas de las lenguas Qhuachua y Aymara” Pág. 146 Elaine Rich y Kevin Knight “Inteligencia Artificial” Pág. 1. Pág. 12 Son áreas o ramas clásicas de IA: Sistemas Expertos (Sistemas basados en Conocimiento), Aprendizaje y Razonamiento Automático, Robótica, Procesamiento de Lenguaje Natural, entre otros. 3.1.4. Procesamiento de lenguaje natural (PLN) Es una rama de la Inteligencia Artificial, que se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de programas que ejecuten o simulen la comunicación. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve como medio para estudiar estos fenómenos. Las aplicaciones de Procesamiento de Lenguaje natural son: Síntesis del discurso, Análisis del lenguaje, Comprensión del lenguaje, Reconocimiento del habla, Síntesis de voz, Generación de lenguajes naturales, Traducción automática, Recuperación de la información, Dictado Automático (6). Teniendo múltiples aplicaciones el Procesamiento del Lenguaje Natural contempla elementos como: Análisis morfológico, análisis sintáctico, análisis semántico y análisis pragmático. 3.1.5. Lingüística Computacional La lingüística computacional es un campo multidisciplinar de la lingüística y la informática que utiliza la informática para estudiar y tratar el lenguaje humano. Para lograrlo, intenta modelar de forma lógica el lenguaje natural desde un punto de vista computacional. Dicho modelado no se centra en ninguna de las áreas de la lingüística en particular, sino que es un campo interdisciplinaria, en el que participan lingüistas, informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros. 6 Nilsson Nils “Inteligencia Artificial” Primera Edición Pág. 344. Pág. 13 Algunas de las áreas de estudio de la lingüística computacional son: Corpus lingüístico asistido por ordenador, Diseño de analizadores sintácticos (en inglés: parser), para lenguajes naturales, Diseño de etiquetadores o lematizadores (en inglés: tagger), tales como el POStagger, Definición de lógicas especializadas que sirvan como fuente para el Procesamiento de Lenguajes Naturales, y Traducción automática. 3.1.6. Traducción automática Es una aplicación de Procesamiento de Lenguaje Natural, también considerada como área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una substitución simple de las palabras atómicas de un lenguaje natural por las de otro. El traductor automático debe analizar el texto original, interrelacionar con la situación referida y como resultado debe encontrar el texto correspondiente en el lenguaje destino. (7). Los tipos de traducción automática son: Traducción automática basada en reglas, Traducción automática basada en corpus lingüístico y la traducción automática basado en contexto. La traducción automática basada en reglas Asume varios grados en su fundamento: a) traducción directa o por diccionario como modelo diccionarios bilingües. La traducción de un texto se obtiene a partir de la traducción palabra por palabra, sin tener en cuenta ni la relación entre ellas ni el contexto en que se encuentran; b) Traducción automática por transferencia en donde el análisis del texto original juega un papel más importante, y da paso a una representación interna que es la que se utiliza como enlace para traducir entre idiomas distintos finalmente recomponiendo para el idioma meta; y c) Traducción por Lenguaje Intermedio conocida también Traducción Automática Mediante Lengua Intermedia (interlingua), en donde el lenguaje original, 7 Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial. Pearson Educación S.A. Madrid 2004 , Pág. 965. Pág. 14 por ejemplo un texto que debe ser traducido, es transformado a un lenguaje intermedio, cuya estructura es independiente a la del lenguaje original y a la del lenguaje final. El texto en el lenguaje final se obtiene a partir de la representación del texto en el lenguaje intermedio. Traducción automática basada en corpus lingüísticos se basa en el análisis de muestras reales con sus respectivas traducciones, entre los mecanismos que utilizan corpus se incluyen los métodos estadísticos y los basados en ejemplo; finalmente la traducción automática basado en contexto, utiliza técnicas para hallar la mejor traducción, para una palabra fijándose en el resto de palabras que la rodean, básicamente este método se esmera en tratar el texto en unidades de entre 4 y 8 palabras, de manera que se traduce cada una de ellas por su traducción al idioma destino y se eliminan las traducciones que han generado una "frase" sin sentido. 3.1.7. Traducción automática por transferencia En la traducción automática basado en el modelo de transferencia, el texto original se analiza primero morfológica y sintácticamente, obteniendo como resultado una representación sintáctica superficial. Esta representación se transforma a continuación en otra más abstracta que hace especial énfasis en aspectos relevantes para el proceso de traducción e ignora otro tipo de información. El proceso de transferencia convierte esta última representación (ligada aún al idioma original) a una Pág. 15 representación al mismo nivel de abstracción pero ligada al lenguaje objetivo. Estas dos representaciones son las llamadas normalizadas o intermedias. A partir de aquí el proceso se invierte: los componentes sintácticos generan una representación del texto y finalmente se genera la traducción en la lengua meta. Tipos de transferencia La principal característica de los sistemas de transferencia es la existencia de una fase que proyecta representaciones intermedias del texto original sobre representaciones del texto objetivo. Éste componente puede trabajar en distintos niveles de análisis lingüístico, por lo que se pueden distinguir dos tipos de transferencia: Transferencia superficial y Transferencia profunda. Transferencia superficial (sintáctica) Se caracteriza por hacer un análisis sintáctico mediante el que se transfieren las estructuras sintácticas del lenguaje origen a las estructuras sintácticas del lenguaje objetivo. Este tipo de transferencia resulta muy apropiado para traducciones entre idiomas de una misma rama (p.ej. entre lenguas romance como el castellano, el catalán, el francés, el italiano, o el portugués). Transferencia profunda (semántica) Construye una representación semántica que es dependiente del lenguaje original. Esta representación puede consistir en una serie de estructuras que representen el significado. En estos sistemas la transferencia se realiza principalmente sobre predicados. La traducción de palabras normalmente también requiere una transferencia estructural previa. Este tipo es más común entre idiomas de ramas diferentes (p.ej. castellanoinglés, castellano-euskera, etc.). . 3.1.8. Métricas de ingeniería de software El concepto de métrica es el término que describe variados casos de medición. Siendo una métrica una medida estadística (no cuantitativa Pág. 16 como en otras disciplinas ejemplo física) que se aplica a todos los aspectos de calidad de software, los cuales deben ser medidos desde diferentes puntos de vista como el análisis, construcción, funcional, documentación, métodos, proceso, usuario, entre otros. Las mediciones de ingeniería de software pueden ser: Medidas Directas que mide el costo, y el esfuerzo aplicado, las líneas de código producidas, velocidad de ejecución, el tamaño de memoria y los defectos observados en un determinado periodo de tiempo; y Medidas Indirectas que mide la funcionalidad, calidad, complejidad, eficiencia, fiabilidad, facilidad de mantenimiento, etc. 3.1.9. Métricas de evaluación de traductores automáticos Permite comprobar la calidad de traductores automáticos, dependiendo de la finalidad a la que esta dirigida la traducción, será necesario un nivel de calidad distinto. Los métodos objetivos de traductores automáticos, no es necesaria la valoración de la traducción por un ser humano tales como: WER (word error rate), PER (position-independent word error rate), mejora de WER para que sea independiente de la posición de las palabras dentro de la frase, mWER (multi-reference word error rate), BLEU mide la precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a un conjunto de traducciones de referencia y NIST. En los métodos subjetivos, los humanos intervienen en la valoración de la traducción los métodos son: SSER (subjective sentence error rate), un humano califica la traducción de una frase de 0 a 1. Una calificación de 0 se le da una traducción perfecta, mientras que una de 1 se corresponde una traducción sintáctica y semánticamente incorrecta. IER (information item error rate) las frases de prueba se dividen en items. Un humano examina si la información de cada uno de los items se encuentra presente en la traducción. De esta manera se puede comprobar si siendo la Pág. 17 traducción de la frase incorrecta, existen partes de ésta que en cambio sí son correctas. 3.2. Marco conceptual 3.2.1. Texto de la lengua original Bloques de texto escritos en el idioma español que requieren la traducción a la lengua aymara. 3.2.2. Análisis morfológico Consiste en identificar los elementos del texto y clasificarlos en función de lo que son: nombres, verbos, adjetivos, etc. Además, también deben reconocerse abreviaturas y otras expresiones o palabras compuestas. 3.2.3. Categorización léxica Algunas de las palabras que aparecen en un texto pueden tener más de un significado, causando así ambigüedad a la hora de hacer su análisis. La categorización léxica analiza el contexto, es decir, los elementos vecinos al actual, y escoge el significado que mejor encaja. 3.2.4. Transferencia léxica La transferencia léxica es equivalente a lo que comúnmente se conoce como traducción por diccionario. A partir de la forma léxica de la palabra original, se trata de derivar su equivalente en el nuevo idioma. 3.2.5. Transferencia estructural Una transferencia estructural analiza el texto desde un punto de vista más amplio. En vez de centrarse en palabras, amplia su objetivo a fragmentos mayores. De esta manera se pueden encontrar expresiones que puedan requerir un tratamiento especial (p.ej. refranes, dichos, etc.). 3.2.6. Generador morfológico En el momento en que ya se ha realizado el análisis, el generador morfológico es el encargado de asociar cada elemento identificado en Pág. 18 fases anteriores con su equivalente en la lengua objetivo, procurando que la interpretación sea lo más fiel posible. 3.2.7. Texto de la lengua meta Bloques de texto traducidos del idioma español a la lengua aymara. 3.2.8. Código Abierto (open source) Es el término con el que se conoce al software distribuido y desarrollado libremente. Fue utilizado por primera vez en 1998 por algunos usuarios de la comunidad del software libre, tratando de usarlo como reemplazo al ambiguo nombre original en inglés del software libre (free software). IV. HIPOTESIS Y VARIABLES 3.3. Hipótesis general La calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica es eficiente. 3.4. Hipótesis específicas El traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial cumple los estándares de las métricas de ingeniería de software. La evaluación del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial es aceptable. Pág. 19 3.5. Análisis de variables e indicadores VARIABLES Independiente: INDICES 1.1.1. Análisis morfológico - Nombres 1. Transferencia 1.1. Estructura sintáctica - Verbos sintáctica superficial superficial - Adjetivos 1.1.2. Categorización léxica 1.1.3. Transferencia léxica 1.1.4. Transferencia estructural 1.1.5. Generador morfológico Dependiente: 2.1. Métricas de Ingeniería de 2.1.1. Valoración de Calidad Software 2.1.2. Valoración de Funcionalidad 2. Traductor 2.1.3. Valoración de Utilidad automático de textos del idioma español a 2.2. Métricas de evaluación de 2.2.1. Nivel de Calidad de traducción la lengua aymara traductores automáticos 2.2.2. Grado de precisión de traducción 2.2.3. Nivel de errores y sustituciones V. INDICADORES DISEÑO DE LA INVESTIGACION 5.1. Tipo y nivel de investigación Área de Investigación: Ciencias de la Computación Tipo de Investigación: Investigación Aplicada o tecnológica Nivel de investigación: Experimental Línea de Investigación: Inteligencia Artificial Campo de investigación: Procesamiento de Lenguaje Natural Tema de Investigación: Traductor automático 5.2. Diseño de la investigación 5.1.1. Etapas de la investigación Ingeniería de traducción automática por transferencia sintáctica Desarrollo del traductor automático Implementación de diccionarios y construcción de reglas gramaticales Evaluación del traductor automático Pág. 20 5.1.2. Método de la investigación Para el desarrollo e implementación del traductor automático de textos del idioma español a la lengua aymara se utilizará el modelo de desarrollo de Software. Definición de Requerimiento Análisis y diseño del sistema Codificación del sistema Integración del sistema Pruebas del sistema Evaluación del sistema Para evaluación del traductor automático de textos del idioma español a la lengua aymara se utilizará las métricas de evaluación de traductores automáticos: WER (word error rate), Donde: S es el número de sustituciones, B es el número de borrados, I es el número de inserciones, N es el número de palabras que tiene la frase de referencia. BLEU mide la precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) Pág. 21 5.3. Matriz de consistencia Problemas Objetivos Hipótesis Problema Principal: Objetivo Principal Hipótesis Principal La inexistencia de un traductor automático para comprensión de textos del idioma español en la lengua aymara Medir la calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial. La calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica es eficiente. Problema Específico Nro. 1: Objetivo Específico Nro. 1 Hipótesis específica Nro. 1 Implementar el traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial. El traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial cumple los estándares de las métricas de ingeniería de software. Perú un país pluricultural que no cuenta con herramientas como traductores automáticos para interrelacionar culturas. Problema Específico Nro. 2: Objetivo Específico Nro. 2 Evaluar el traductor Dos millones y medio de automático de textos del personas ayamara idioma español a la lengua hablantes que no tienen aymara basado en la acceso a la información transferencia sintáctica en su propia lengua. superficial con las métricas de evaluación de traductores automáticos Hipótesis específica Nro. 2 La evaluación del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial es aceptable. Variables Indicadore s Indepen- De la VI: diente: 1. Transferenci a sintáctica superficial Índices 1.1.1. Análisis morfológico - Nombres 1.1. Estructura - Verbos sintáctica - Adjetivos superficial 1.1.2. Categorización léxica 1.1.3. Transferencia léxica 1.1.4. Transferencia estructural 1.1.5. Generador morfológico Método -Población: Representada por 300 personas hablantes la lengua aymara y/o que tengan estudios de lingüística andina - Muestra: No probabilística ha seleccionado por el investigador 50 personas - Tipo de Investigación: Investigación Tecnológica / Experimental Dependien 2.1. te Métricas 2.1.1. Valoración de Calidad - Estrategia: de Ingeniería 2.1.2. Valoración de de Software Funcionalidad 1) Recolección de bibliografía 2.1.3. Valoración de Utilidad especializada y planificación del 2. Traductor automático de textos del idioma español a la lengua aymara 2.2. Métricas de evaluación de traductor automático 2.2.1. Nivel de Calidad de proyecto. traducción 2.2.2. Grado de precisión de 2) Ingeniería de traducción traducción automática por transferencia 2.2.3. Nivel de errores y sintáctica sustituciones 3) Implementación del traductor automático 5) Evaluación del traductor automático. Pág. 22 5.4. Diseño de prueba de hipótesis Prueba de hipótesis para la media Se usará esta prueba para métricas de ingeniería de software y métricas de evaluación de traductores automáticos con el procedimiento es el siguiente: b) Planteamiento de hipótesis Ho (hipótesis nula): µ= µo H1 (hipótesis alterna): µ> µo c) Estadístico de prueba: Se usará la distribución normal (Z) d) Nivel de significancia, alfa: 1%, 5% y 10% e) Regla de decisión Dibujo Si Zc > Zα entonces se rechazará Ho f) Calcular Zc Zc x / n 1 g) Conclusión 5.5. Población y muestra POBLACION: La población será representada por las personas hablan, que investigan la lengua aymara, quienes comprenden textos en la lengua aymara además su gramática, así como su escritura y su lectura. MUESTRA: El método de muestreo es no probabilística a selección por criterio de investigador, para lo cual se seleccionarán 50 personas que hablan o que investigan la lengua aymara. Pág. 23 5.6. Diseño de recopilación de información Recopilación de información con respecto a la estructura gramatical del idioma español y de la lengua aymara. Fichas de observación de métricas de ingeniería de software Fichas de observación de métricas de evaluación de traductor automático VI. Ficha de entrevistas PRESUPUESTO Y FINANCIAMIENTO 6.1. Presupuesto básico D E S C R I P C I ON UND. MATERIAL DE ESCRITORIO Papel Bond 80 g Cds Simples CAN PRECIO T UNIT. TOTAL S./ Millar Unid. 02 10 25.20 0.80 50.40 8.00 Fólder Manila T /A4 Cuaderno cuadriculado 100 h T/A4 Unid. Unid. 25 02 0.15 2.80 3.75 5.60 Archivador de palanca lomo ancho T /oficio Unid. 01 2.92 2.92 Unidad de Almacenamiento (2 Gigas) Gigas 01 92.50 92.50 Unid. 01 460.00 460.00 Días 02 223.5 447.00 persona 01 170.00 170.00 01 30.00 30.00 BIENES DE CONSUMO Toner para impresora ML-225 1N Sansumg VIÁTICOS Y ASIGNACIONES Viáticos a nivel Nacional PASAJES Abancay-Puno-Cusco- Abancay SERVICIOS Compra de Dominio (Anual) www.aymaramarka.com Proveedor de Dominios Alquiler de Hosting (Anual) 1000 Megas PHP, SSL, MySql, proveedor de servicios de Internet 01 2000.0 2000.00 Pág. 24 Servicio de Posicionamiento en Internet (Indexadores, Directorios, Buscadores) proveedor de servicios de Internet Elaboración de material de Material de Recopilación Servicio de: - Diseño de encuestas - Impresión de encuestas Ejecución de encuestas Servicio de Internet Unid. Impresión de materiales de investigación Unid. Bibliografía IMPREVISTOS Movilidad local y otros Costo Total Unid. 01 450.00 450.00 01 400.00 400.00 4 300 150.00 1.00 600.00 300.00 10 50.00 500.00 150.00 S/. 5,670.17 6.2. Financiamiento El presupuesto básico calculado se presenta en su forma estimada para la realización de la investigación el cual asciende a S/. 5670.17 (Cinco mil seiscientos setenta nuevos soles con 17/100 céntimos) la cual será autofinanciado por el investigador. VII. CRONOGRAMA Diciembre N 1 2 3 4 5 6 7 8 Actividades Elaboración y aprobación del Proyecto Diseño de ingeniería de traducción por transferencia sintáctica Desarrollo del traductor automático por transferencia sintáctica Implementación de diccionarios y reglas gramaticales Evaluación del traductor automático por transferencia sintáctica Implementación en el sitio web del traductor automático Test de comprensión de textos del idioma español en la lengua aymara Informe y publicación 1 2 X X Enero 3 4 1 X X X Febrero 2 3 4 X X X 1 2 3 X X X X Marzo 4 1 X X X 2 3 4 X X X X Pág. 25 VIII. ESTRUCTURA TENTATIVA DEL INFORME FINAL I. INTRODUCCIÓN II. EL PROBLEMA 2.1. Análisis de la situación problemática 2.2. Definición del problema 2.3. Planteamiento del problema 2.4. Justificación del problema III. OBJETIVOS 3.1. Objetivo general 3.2. Objetivos específicos IV. MARCO REFENCIAL 4.1. Marco teórico 4.2. Marco conceptual V. HIPÓTESIS Y VARIABLES 5.1. Hipótesis general 5.2. Hipótesis específicas 5.3. Análisis de variables e indicadores VI. DISEÑO DE LA INVESTIGACIÓN 6.1. Diseño de la investigación 6.2. Matriz de consistencia 6.3. Diseño de prueba de hipótesis 6.4. Población y muestra 6.5. Métodos de discusión VII. RESULTADOS Y DISCUSIÓN VIII. CONCLUSIONES IX. SUGERENCIAS X. BIBLIOGRAFIA CONSULTADA XI. ANEXOS Pág. 26 IX. BIBLIOGRAFIA DE CONSULTADA [ALVA81] ALVARADO, MAITE y otros. Teoría y práctica de un taller de escritura. Madrid, Altalena 1981. [RICH94] Elaine RICH y Kevin Knight. Inteligencia Artificial. Segunda Edición. España. McGraw-Hill/Interamericana S.A. 1994. [ESPE94] Elvira, ESPEJO AYKA. Jichha nä Parlt'ä (Ahora les voy a Narrar). Bolivia Ediciones ILCA, 1994. [LAYME] Felix, LAYME PAIRUMANI. Diccionario Bilingü: Aymara Castellano. Tercera Edición. Bolivia Consejo Educativo Aymara (CEA) 2004. [GATT01] GATTI MURIEL, Carlos. Elementos de Gramática Española. Segunda Edición. Lima Universidad del Pacífico. 2001. [MEND91] José MENDOZA, Donato GOMEZ etc. Yatichañ Arunaka (Diccionario Especializado Aymara). Bolivia 1991. [KOLM97] KOLMAN, BUSBY y ROSS. Estructuras de Matemáticas Discretas para la Computación, Prentice Hall, 1997. [SOMM02] Lan, SOMMERVILLE. Ingeniería de Software. Sexta Edición. México Pearson Educación. 2002. [LOUD04] Louden, K. C. Construccion de Compiladores Principios y Practica. Thomson. 2004. [THER93] Lucy, THERINA BRIGGS. El Idioma Aymara: Variantes Regionales y Sociales. La Paz, Bolivia Ediciones ILCA. 1993. [PRES03] Presidente de la República del Perú. Ley General de Educación 28044. Lima 2003. [PRES93] Presidente del Congreso Constituyente Democrático del Perú. Constitución Política del Perú. Lima 1993. [GRON99] Marcelo, GRONDIN N. Método de Aymara: Qullajaqin Arupa. La Paz, Cochabamba (Bolivia), Editorial Los Amigos del Libro. 1999. [MEDI03] MEDINA G., Antonia. Lexicografía española. Barcelona Editorial Ariel. 2003. Pág. 27 [NILS04] Nilsson NILS. Inteligencia Artificial. Madrid. McGraw Madrid. Hill/Interamericana S.A. 2004. [ALVA06] Octavio, ÁLVAREZ MAURICIO. Método para optar el Título Profesional y los grados de Magíster y Doctor. Lima, Grupo Editorial Megabyte S.A.C. 2006. [CORP84] CORPUNO. Diccionario Aymara-Castellano. Puno, Proyecto Experimental Educación Bilingüe Puno-Perú. 1984. [BREÑ03] Ramón BREÑA. Autómatas y Lenguajes. México. 2003. [CERR87] Rodofo, CERRÓN PALOMINO. Quechumara Estructuras Paralelas de las lenguas Quechua y Aymara. Perú: Puno. 1987. [CERR00] Rodolfo CERRÓN PALOMINO. Lingüística Aimara. Lima, 2000. [PRES02] Roger S. PRESSMAN. Ingeniería de Software: Un Enfoque Práctico. Quinta Edicción. Madrid, etc. McGraw Madrid. Hill/Interamericana S.A. 2002. [RUSE04] RUSELL, Stuart y NORVIG Meter. Inteligencia Artificial un enfoque moderno. Segunda Edición. Madrid. Pearson Educación S.A. 2004. [PRAT98] T. PRATT y V. ZELKOWITZ. Lenguajes de Programación Diseño e Implementación. Prentice-Hall Hispanoamericana S.A. 1998. [UANC03] UANCV (Universidad Andina Néstor Cáceres Velásquez). Morfología Contrastiva Quechua/Aymara/Castellano. Escuela de Postgrado de la, Segunda Especialización en Educación Bilingüe Intercultural. Perú: Juliaca. 2003. UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ” ESCUELA DE POSTGRADO MAESTRIA EN INGENIERIA DE SISTEMAS “TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA” Presentado por: Ing. Hugo David Calderon Vilca PARA OPTAR EL GRADO DE MAGISTER EN INGENIERA DE SISTEMAS JULIACA – PERU 2007 UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ” ESCUELA DE POSTGRADO MAESTRIA EN INGENIERIA DE SISTEMAS “TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA”. PROYECTO DE TESIS Presentado para optar el grado de: MAGISTER EN INGENIERIA DE SISTEMAS Mención: Ingeniería del Software APROBADA POR PRESIDENTE DE JURADO :________________________________ MIEMBRO DEL JURADO :________________________________ MIEMBRO DEL JURADO :________________________________ ASESOR DE TESIS :________________________________ M.Cs. Daniel Yucra Sotomayor ASESOR DE TESIS :________________________________ M.Cs. Juan Reynaldo Paredes Quispe