Download Traductor morfológico del castellano y quechua

Document related concepts

Traducción automática mediante transferencia wikipedia , lookup

Quechua sureño wikipedia , lookup

Traductor de Google wikipedia , lookup

Quechua ancashino wikipedia , lookup

Lenguas quechuas wikipedia , lookup

Transcript
Traductor morfológico del castellano y quechua
Indhira Castro Cavero
Jaime Farfán Madariaga
RESUMEN
El presente proyecto se orientó a desarrollar un sistema
automático de traducción inteligente entre los idiomas
castellano y quechua, el cual nace a raíz del Proyecto de Titulación presentado por Indhira Mayra Castro Cavero, egresada de la especialidad de Redes y Comunicación de Datos
– Promoción 2004 – II (becaria de la Unión Europea).
44
Este sistema de traducción supone la automatización del
proceso de traducción de palabras del castellano al quechua y viceversa, basado en la transferencia, que opera
en tres fases (análisis, transferencia y generación) usando
representaciones morfológicas para las palabras. Al traducir una palabra, el sistema no sólo devuelve la palabra convertida al otro idioma, sino también, muestra información
lingüística de los componentes de la palabra.
Es importante destacar que para el desarrollo del sistema se
usó herramientas tecnológicas de código abierto como es
Java, MySql y Apache. Así también este trabajo cumple un
eminente rol informativo, que trae como consecuencia el
enriquecimiento lingüístico del idioma quechua, que resulta más explicativo que un simple inventario de términos; y,
sobre todo, la difusión de una lengua que se debe conocer y
desarrollar. En la actualidad, el quechua es lengua materna
de un 17% de la población en el Perú, lo que representa el
53% de los quechua hablantes en Sudamérica.
ción no es una excepción. La traducción automática (TA)
es una disciplina que ha contribuido de manera determinante al desarrollo de la tecnología lingüística. Existe
actualmente un gran abanico de herramientas de ayuda
a la traducción: programas de interpretación asistida por
ordenador, herramientas de gestión de terminología, sistemas de traducción automática, etc.
Si bien estas aplicaciones son empleadas habitualmente
por un gran número de usuarios en todo el mundo, en la
actualidad, no existe un traductor automático morfológico que utilice el idioma quechua, a pesar de ser este el
mayor idioma indígena de América Latina, con cerca de
10 millones de usuarios.
Asimismo, en años recientes, y como consecuencia de
la globalización, se percibe un creciente interés por el
rescate, el mantenimiento y la revaloración de nuestras
lenguas nativas, especialmente el quechua. A pesar de
que esta lengua junto al aymara y el castellano, es lengua oficial en el Perú y Bolivia, ello sólo queda “en el
papel”, pues aún no se da al quechua el estatuto oficial
que por ley, merece; más aún, si existe la gran necesidad de conocimiento y aprendizaje del quechua para
la comunicación con personas que tienen este idioma
como lengua nativa.
INTRODUCCIÓN
Desde esta perspectiva este trabajo busca ser un aporte
para nuestra sociedad a través de la difusión del idioma
quechua. Es muy probable ahorrar tiempo y esfuerzo empleando este tipo de sistemas si tenemos que traducir del
castellano al quechua, o viceversa, un informe técnico o
administrativo. La traducción automática es hoy en día
tema de trabajo de investigación de lingüistas, ingenieros
y científicos de la información. Queda entonces, en nosotros profesionales, profundizar acerca del tema y más aún,
si se trata del idioma quechua.
Durante los últimos años, la informática ha revolucionado la mayoría de las actividades profesionales y la traduc-
Este documento presenta los alcances más importantes
del proyecto. En primer lugar se fundamentan los moti-
La red mundial de la Web representa, hoy en día, el modo
de comunicación más utilizado, lo cual permitirá publicar
la aplicación para que pueda ser fácilmente accedida. Esto
indudablemente abre la posibilidad de incrementar el material lingüístico disponible para el aprendizaje del idioma
y es, además, una buena herramienta para llegar a un grupo más amplio de individuos. El sistema puede ser utilizado desde cualquier parte y por cualquier persona.
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
vos que llevaron al desarrollo del sistema traductor para
el idioma quechua. A continuación se exponen los factores o dimensiones que condicionan la viabilidad del desarrollo del sistema. Luego, se presentan las principales características del idioma, como también su estructuración
lingüística. De esta manera se podrá comprobar cómo se
ha adecuado una metodología, que permite desarrollar
un motor automático que traduce cada componente de
una palabra de una lengua a la otra. Finalmente, se analiza con algo más de detalle las principales funcionalidades
del sistema, poniendo un énfasis especial en cada una de
sus facilidades como en sus limitaciones.
FUNDAMENTACIÓN
• Existe gran necesidad de conocimiento y aprendizaje
del quechua para la comunicación con personas que
tienen el quechua como idioma nativo.
• Las fuerzas armadas y policiales, jueces, periodistas, médicos y otros profesionales tienen dificultades para dirigirse y comprender las necesidades y propuestas de la
población quechua-hablante; que merece ser atendida
en su propia lengua, por respeto a la diversidad cultural
que existe en nuestro país.
• Programa de alfabetización (http://alfa.minedu.gob.
pe/alfa/).
• Programa Huascarán (http://www.huascarán.edu.
pe/).
• Escuela del Aire (http://www.minedu.gob.pe/ocder/
escueladelaire/).
• DENEBI (Dirección Nacional de Educación Bilingüe Intercultural).
(http://www.minedu.gob.pe/gestion_pedagogica/
dir_edubilingue/presentacion_bilingue.htm).
• Proyecto Microsoft: Traducción del Windows XP y Office 2003 al quechua.
(http://www.microsoft.com/latam/prensa/2004/noviembre/quechua.asp).
• Quechua Network: Diccionario quechua.
(http://www.quechuanetwork.org/dictionar y.
cfm?lang=s).
• Intervida (Asoc. Solaris Perú): Proyecto “Escuela Andina Intercultural” en el que participan 775 niños de 13
escuelas andinas.
(http://www.intervida.org/).
LOS SISTEMAS DE TRADUCCIÓN
45
• Un tercio de los niños indígenas peruanos abandonan
la escuela, principalmente porque la educación no se
adapta a su lengua materna.
(http://www.servindi.org/sp/noticias/Noticias_2005/
actualidad_74.htm)
• Carencia de traductores: Actualmente no se cuenta
con un sistema de traducción para el quechua, solamente existen diccionarios y glosarios bilingües.
• La necesidad de una nueva herramienta que resulte más explicativa que un simple inventario de términos quechuas.
• Incremento del material a traducir.
• La comisión europea ha puesto un énfasis especial en
el estímulo a las llamadas “industrias de la lengua” y a
la tecnología necesaria para su desarrollo.
(http://www.foreignword.com/es/Technology/
art/Abaitua/Abaitua_3.htm#sociedad)
ANTECEDENTES
• Actualmente los proyectos y programas educativos
están trabajando en el rescate y difusión de la práctica
de la lengua quechua.
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
Existen dos tipos de sistemas de traducción:
• Manual: Uso de medios físicos (diccionarios y traductores humanos).
• Automática: Sistemas informáticos.
• La TA sin participación humana: es la realizada
por un computador.
• La TA con participación humana: el programa es
el que lleva a cabo la traducción, pero el traductor
interviene cuando es necesario.
Traducción automática (TA)
Son sistemas informáticos que llevan a cabo traducciones
de una lengua a otra con o sin intervención humana.
Podemos clasificar los sistemas de TA atendiendo a diferentes criterios:
• Número de lenguas: sistemas bilingües y sistemas multilingües.
• Dirección de la traducción: unidireccionales y bidireccionales.
• Enfoque: sistemas directos, sistemas de transferencia
y sistemas de interlingua.
Traducción quechua
A través de la web podemos encontrar actualmente
diferentes herramientas que ayudan a la traducción,
pero no existe un traductor automático morfológico
quechua:
• Diccionarios on-line.
(http://www.quechuanetwork.org/dictionary.cfm?lang=s)
• Glosarios terminológicos.
(http://www.folkloredelnorte.com.ar/diccionario.htm#j)
(http://www.serindigena.cl/territorios/recursos/biblioteca/diccionarios/espa_quechu/)
(http://www.prodiversitas.bioetica.org/quecl-o.htm)
• Diccionarios en la Web (diccionarios bilingües): sistemas que hacen uso de una base de datos, en donde
almacenan las palabras asociadas a su respectiva traducción.
- Se ingresa la palabra.
- El sistema consulta a la base de datos por su equivalente.
- El sistema muestra la traducción.
Traducción automática de palabras
46
• Traductores morfológicos: estos tienen tres componentes básicos:
- El diccionario, donde se almacena el contenido.
- El motor morfológico, que permite aceptar palabras derivadas.
- La interfaz gráfica del usuario, mediante la cual
este interactúa con el diccionario.
Necesidades básicas de un sistema de
traducción
• Conocimiento de la lengua origen (LO).
• Conocimiento de la lengua meta (LM).
• Conocimiento de las distintas correspondencias entre
LO y LM: en el más básico de los niveles, es el conocimiento de los equivalentes de traducción de las distintas palabras individuales.
• Conocimiento del dominio sobre el que se traduce:
análisis y diseño del sistema, desarrollo del sistema y
la implementación del sistema
• Conocimiento del entorno cultural: convenciones sociales, costumbres, etc., de los hablantes de LO y LM.
Niveles de conocimiento lingüístico
• Conocimiento fonológico (conocimiento sobre el sistema de sonidos de un lenguaje).
• Conocimiento morfológico (conocimiento de la manera en que las formas de un determinado lema son
construidas, así como de las posibles producciones de
una determinada raíz).
• Conocimiento sintáctico (cómo las distintas palabras se
combinan de forma lineal para construir frases y oraciones aceptables de una lengua. Por lo que respecta al
tratamiento automático de una lengua es, básicamente,
un problema de ordenación de cadenas de caracteres).
• Conocimiento semántico (el conocimiento del significado de palabras y frases y de las relaciones de significado entre una frase y sus unidades constituyentes).
EL IDIOMA QUECHUA
Es la lengua nativa americana más extendida en todo el
mundo y la cuarta más extendida en el continente, le si-
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
guen el aymara y el guaraní, se habla en la zona occidental
de Sudamérica y es idioma oficial en Ecuador, Perú y Bolivia, junto con el castellano y el aymara. A continuación se
presenta las características más relevantes del idioma.
• Palabra Verbo: PV >Rverb + (deriv) + flex + (disc)
Características del quechua
• Palabra nominal: PN >Rnom + (deriv) + (flex) + (disc)
•
•
•
•
Es aglutinante, es decir, reúne varias palabras en una:
wasinmanta => de su casa
Ausencia de prefijos y abundancia de sufijos.
Ausencia de artículo y género gramatical.
Conjugación muy perfeccionada (tiempos y modos
completos).
• Estoy cantando => takichkani.
• Estoy comiendo => mikuchkani.
• Poseedor antes de cosa poseída:
• wasipa punkun => de la casa su puerta.
• Topología SOV (sujeto + objeto + verbo).
• Ubicación del elemento modificador antes del núcleo.
• Adjetivo antes del sustantivo: yuraq wasi
• Adjetivo antes del verbo: kunanmi hamunqa
Sufijos derivativos
• Sufijos de derivación:
Castellano
• Diminutivos: ito, ita, cico, cica, cillo, ecilla, uelo, cica => “cha”.
• piedrita rumicha
• perrito
allqucha
• Aumentativos: oso, osa => ”sapa”
ote, ota => ”su”
• musculoso challwansapa
• perrote
allqusu Quechua
•
•
•
•
•
•
•
Estudio morfológico:
El morfema: unidad mínima portadora de significado.
Palabra: es el resultado de la unión de uno o más morfemas. La palabra está compuesta por raíz o por raíz más
afijos.
• Castellano
* Quechua
• Adjetivo
* Palabra Partícula
• Adverbio
* Palabra Partícula
• Posesivo * Palabra Cualificante
(adjetivos y adverbios)
• Preposición
• Pronombre
* Palabra pronombre
• Sustantivo
* Palabra nominal
• Verbo
* Palabra verbo
cha
yuq
naq
sapa
su
ntin
lla
diminutivo
posesivo
desposesivo
aumentativo
aumentativo
incorporante
limitativo
ito/ita
con
sin
oso/osa
ote/ota
todos/los
solo
(wasicha - casita)
(usayuq - con piojo)
(usanaq - sin piojo)
(usapa – piojoso(a))
(wasisu - casota)
(laqtantin-todo el pueblo)
(atuqlla – solo zorro)
• Sufijos de Flexión:
• Persona
1ra_s
-y
2da_s
-yki
3ra_s
-n
1ra_p
-nchik/nchis
1ra_p
-yku
2da_p
-ykichik/ykichis
3ra_p
-nku
• Número : kuna
• Ejemplos:
Sufijo
Función
- ta
ACU acusativo
- man
ALA dativo (alativo)
- paq
BEN benefactivo
- pa
GEN genitivo
- manta ABL ablativo
- pi
LOC locativo
- wan
ASO asociativo/conminativo - kama
TER ilativo
- pura
INT interactivo (palabra)
Significado
a (deter. al objeto)
a/hacia (prep)
para
agente poseedor
de/desde (prep)
en (prep.)
con (prep.)
hasta (prep.)
entre (prep.)
La palabra quechua
Citamos a continuación dos ejemplos de clases de palabras y su sintaxis de composición en el idioma quechua.
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
- rayku
CAU causal
por / a causa de
47
EL SISTEMA TRADUCTOR MORFOLÓGICO
DE CASTELLANO Y QUECHUA
• Sistema público de fácil accesibilidad vía Web.
• Internet
Tecnologías utilizadas en el sistema:
• Java
• Lenguaje de programación orientado a objetos,
desarrollado por la empresa Sun Microsystems en
• Bajo costo de implementación.
• Uso de software libre (Freeware).
1995, y que se ha extendido ampliamente en World
Wide Web.
• Sistema Multiplataforma:
• Gracias a la portabilidad que brinda Java.
• Robustez al verificar errores en tiempo de ejecución
como en tiempo de compilación.
• El principal aporte de Java a la Comunidad de Usuarios y Programadores es la portabilidad, que permite que los usuarios se puedan mover fácilmente
entre sistemas operativos y plataformas diferentes.
Codificación
• MySql
• Base de datos que consume pocos recursos, tanto de
CPU como de memoria.
Se realizó una clasificación de las palabras según el criterio semántico-sintáctico, para su uso codificado dentro
48
del sistema. Cabe mencionar la importancia que tiene la
• Utilidades de administración (backups) y Control de
siguiente tabla debido a su original y particular elabora-
acceso (qué usuarios tienen acceso a qué tablas y
ción, de acuerdo con las reglas de correspondencia entre
con qué permisos).
ambos idiomas. A continuación se muestra una fracción
de la tabla de codificación.
Requerimientos del sistema:
• Servidor
• Hardware
• Procesador:
Pentium IV 2GHz
• RAM: 512 Mb
• Disco Duro:
10MB
• Software
• Sistema Operativo: Windows 200X / XP / Linux
• Servidor Web:
Tomcat (jakarta-tomcat-4.1.30)
• Base de datos: MySql 4.1.7
• Java: j2sdk1.4.2
• Cliente
• Hardware
• Procesador:
Pentium
• RAM:
128 Mb o superior
Funcionamiento del sistema
• Software
• Sistema Operativo: Windows95/98 o superior
En principio, el sistema recibe del cliente la palabra que
• Acceso a Internet.
se quiere traducir y el método de traducción (castellano
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
a quechua o viceversa). Luego, el servidor realiza el proceso de traducción en tres fases e interactuando con la
base de datos.
• Quechua - Castellano: la palabra se analiza en función
a las reglas del quechua.
Proceso de traducción
El sistema de traducción realiza tres procesos principales:
Proceso de análisis.- En primer lugar, la palabra origen
se compara con las diferentes clases de palabras existentes en la base de datos. Para este proceso el sistema rea-
Proceso de transferencia.- Esta es la fase verdadera-
liza un detallado análisis morfológico (descomposición
mente bilingüe del sistema. Primero se recibe la estruc-
de la palabra: “raíz y sufijo(s)”), que se hace en función a
tura de la palabra que envía el proceso de análisis. Luego
las reglas gramaticales de la lengua en cuestión. Luego
se realiza la transferencia de significados de raíces y sufi-
se les asigna el correspondiente tipo de palabra a cada
jos, es decir, se traduce cada componente de la palabra
componente de la palabra de origen (según codificación
de acuerdo con su codificación de tipos, utilizando el
de raíces y sufijos). Finalmente esta estructura pasa al si-
diccionario bilingüe. Este subproceso devuelve el equi-
guiente proceso. Se resalta la importancia de que la fase
valente del idioma origen en el idioma destino de cada
de análisis se diseñó de tal manera que sólo precisa de in-
componente. Finalmente se forma una nueva estructura
formación de la lengua origen. A continuación se muestra
con su correspondiente codificación, pero ya en el idio-
un ejemplo del proceso de análisis para la traducción de
ma destino. A continuación se citan dos ejemplos de este
una de las lenguas a la otra y viceversa.
proceso.
• Castellano – Quechua: se realiza la traducción de cada
componente de la palabra en función al código de palabra asociado (en base al sistema de codificación).
• Castellano – Quechua: la palabra se analiza en función
a las reglas del castellano.
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
49
• Quechua - Castellano: se realiza la traducción de cada
componente de la palabra en función al código de palabra asociado (en base al sistema de codificación).
• Descripción de la composición morfológica de la palabra, además de mostrar la palabra traducida el sistema es capaz describir cómo está compuesta la palabra
origen y las equivalencias de estos componentes en la
lengua destino.
Proceso de generación.- En esta fase básicamente se
realiza la composición de cada componente de la pala-
• Sinónimos, el sistema también muestra los sinó-
bra:“raíz + sufijo(s)”, formando la nueva palabra en lengua
nimos (en lengua destino) de la palabra traducida.
destino. En esta fase se realiza la comparación de acuerdo
con las reglas morfológicas de la lengua destino.
• Castellano – Quechua: se realiza la generación (concatenación) de la palabra de acuerdo con las reglas
morfológicas del quechua.
Características funcionales del sistema
• Reconoce y especifica la clase de palabra.
• Sustantivo común, adjetivo calificativo, etc.
50
• Realiza la traducción de palabras en plural.
• ríos => mayukuna
• urqukuna => cerros
• Traduce palabras con sufijos derivativos.
• Quechua - Castellano: se realiza la concatenación de
• perrito
=> allqucha
la palabra de acuerdo con las reglas morfológicas del
• florcita
=> tikacha
castellano.
• Traduce palabras con sufijos derivativos y flexivos.
• Mallki-cha-kuna
=> arbol-ito-s
• Reconoce los artículos del castellano que no existen
en el quechua.
• Realiza la traducción de verbos en infinitivo.
• Barrer
=> pichay
• mirar
=> jhaway
• abrir
=> qhaway
• Realiza la traducción de verbos en participio.
Componentes del sistema
• Traducción de palabras, principal funcionalidad del
sistema.
• amado
=> munasqa
• temido
=> manchasqa
• Realiza la traducción de verbos en presente progresivo y gerundio.
• rompiendo
=> pakichka
• Realiza la conjugación de los verbos regulares (terminados en “ar”, “er” o “ir”) y en Modo Indicativo.
• Tiempo Simple: Presente.
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
• tem-en
=> mancha-niku
• cant-an
=> taki-niku
• abr-en
=> picha-niku
• Tiempo Simple: Pretérito Perfecto Simple.
• Tem-ieron => mancha-rqaku
• cant-aron => taki-rqaku
• abr-ieron
=> kicha-rqaku
perfectas.
• La traducción automática se genera de forma instantánea y, por lo tanto, es ideal para situaciones en las
que no es posible que una persona haga la traducción.
• Este sistema servirá como prototipo para la optimización del sistema y el desarrollo de un sistema de traducción de frases, oraciones y posteriormente textos.
• Tiempo Simple: Pretérito Imperfecto.
• tem-ían
=> mancha-rqaku
REFERENCIAS BIBLIOGRÁFICAS
• cant-aban => taki-rqaku
• abr-ían
=> kicha-rqaku
• Tiempo Simple: Futuro Imperfecto.
• tem-erán
=> mancha-nqaku
• cant-arán
=> taki-nqaku
• abr-irán
=> kicha-nqaku
CONCLUSIONES
• Es importante considerar la complejidad de las lenguas y, especialmente, los principios que rigen la lengua quechua, que no tiene por qué ser compartidos
por el castellano y viceversa.
• Este proyecto estudió las posibilidades de explotación de
un sistema de traducción automática para el quechua, el
cual podría ser de gran repercusión, por la utilidad como
herramienta de ayuda al conocimiento del quechua, gracias a la información morfológica que nos brinda.
• Al tratar de la traducción automática estamos hablando de una tecnología muy desarrollada, pero que
trabaja con algo tan complejo como la lengua; por lo
cual es importante tener en cuenta que las computadoras no poseen el bagaje cultural que suele tener un
traductor y, por este motivo, sus traducciones no son
TRADUCTOR MORFOLÓGICO DEL CASTELLANO Y QUECHUA
1 Gustavo Solis Fonseca, Jorge Chacón Sihuay. Lingüistica y Gramática Runasimi-Chanka.
2 Nilda Velarde de Grgicevic, Universidad Tecnológica
de los Andes. Quechua.
3 Mabel Tarazona Espíritu. Lecciones Básicas para aprender Quechua.
4 Demetrio Tupaq Yupanqui. Curso de Quechua Red
Cientifica Peruana. Se consigue en URL:
(www.quechuanetwork.com)
5 El lexicón en la Traducción Automática. Se consigue
en URL:
(http://elies.rediris.es/)
6 La Linterna del Traductor. Se consigue en URL:
(http://traduccion.rediris.es/)
7 Joseba Abaitua. Universidad de Deusto. Traducción
automática: Presente y Futuro. Se encuentra en URL:
(http://foreignword.com/es/technology/art/Abaitua/
Abaitua_4.htm)
8 Jesús Valdés. La traducción automática. Se encuentra
en URL:
(http://www.dgbiblio.unam.mx/servicios/dgb/publicdgb/bole/fulltext/volIV3/traduccion.htm)
9 Arturo Trujillo. Estrategias de traducción automática/
Machine translation strategies. Se encuentra en URL:
(http://www.prbb.org/Quark/19/019053.htm)
51