Download Análisis Morfológico
Document related concepts
Transcript
ANÁLISIS MORFOLÓGICO Carlos Mario Zapata J. 8/9/2017 Lingüística Computacional 1 GENERALIDADES • Identificación de mecanismos para crear palabras y formas de palabras de manera sistemática. • Procesamiento de las palabras de manera tanto escrita como hablada. • Usos: corrección de palabras (spelling), separación de palabras (hyphenation), conjugadores de verbos, etiquetación de corpus (tagging), traducción automática, etc. • Es más fácil para humanos que para computadores. • Existen diferencias sustanciales entre los morfemas para diferentes idiomas. – I speak – hablo; I will speak – hablaré; book – hon – libro; books – hon – libros. 8/9/2017 Lingüística Computacional 2 DEFINICIONES • Morfema: unidad más pequeña a la que se puede asignar un significado. Unidad mínima para el análisis gramatical. – Flexivos: indican número, tiempo, género y persona (a, -s, etc.) – Derivativos o Afijos: elementos que acompañan a la raíz y que suelen aportar significados adicionales. Pueden ser prefijos, sufijos e infijos. • • • • 8/9/2017 Diminutivos Aumentativos Despectivos Gentilicios Lingüística Computacional 3 DEFINICIONES • Lexema: unidad fundamental del léxico de una lengua, el cual aporta el significado básico de la palabra. • Lema: la entrada en un diccionario. • Raíz: Formante común al conjunto de formas léxicas o palabras que pertenecen al mismo lexema. • Palabra: unidad que sirve para construir frases u oraciones (frases con sentido gramatical completo). – Sencilla: un solo morfema. Ej: de, dos, y, que, no. – Varios morfemas: otr-a-s (una raíz y dos afijos). 8/9/2017 Lingüística Computacional 4 DEFINICIONES • Morfo: la realización de parte de una palabra. – El atlas, los atlas – El mejor, la mejor • Alomorfo: variación en la forma de los morfemas como consecuencia del contexto fonológico. – Ej: in: • i- ante /l/ o /r/: ilegal, irreal. • Im- ante /p/ o /b/: imposible, imborrable. • In- en los casos restantes. – Caber, cupo y quepo 8/9/2017 Lingüística Computacional 5 TIPOS DE LENGUAJES • Tipos de Lenguajes: – Aislados (Chino mandarín): no hay afijos. La única operación morfológica es la composición (unión de dos lexemas para producir una palabra nueva). • junzi 'señor, caballero' que deriva de jun 'señor, noble' y zi 'niño' – Aglutinadores (Turco, Finlandés): característica se expresa con un afijo. cada • evlerinizden o "de sus casas", se compone de los morfemas, ev-ler-INIZ-den con los significados casa-plural-su-de. 8/9/2017 Lingüística Computacional 6 TIPOS DE LENGUAJES • Tipos de Lenguajes: – Inflexionales (Indo-Europeos, Castellano): Se basan en la inflexión (modificación de un lexema mediante sufijos sin dar lugar a un lexema nuevo) • Inflexiones verbales: pens-ar, pens-ó, pens-ará • Inflexiones nominales: gat-o, gat-a, gat-a-s • Inflexiones radicales: niñ-o, niñ-era, niñ-ería – Polisintéticos (Lenguajes Inuit): Mucha más información morfológica. 'qanik', quiere decir "copos de nieve en el aire", y 'aput', "la nieve en el suelo“ • Derivación: modificación de un lexema mediante prefijos y sufijos para dar un nuevo lexema. Ej.: cuchillo-cuchillada 8/9/2017 Lingüística Computacional 7 IMPORTANCIA DEL ANÁLISIS MORFOLÓGICO • Complejidad de los lenguajes que se van usando para PLN. Ej: Finlandés, Español. • Reducción del volumen del diccionario. • Prerrequisito para el análisis sintáctico. 8/9/2017 Lingüística Computacional 8 MORFOLOGÍA COMPUTACIONAL IDENTIFICACIÓN: PALABRAS ENTRADA CONCATENACIÓN: RELACIÓN MEDIANTE REGLAS MORFOSINTÁCTICAS 8/9/2017 SEGMENTACIÓN: LEXEMAS Y AFIJOS CATEGORIZACIÓN: ASIGNACIÓN CATEGORÍA GRAMATICAL Lingüística Computacional LEMATIZACIÓN: COMO APARECE EN DICCIONARIO ETIQUETADO: INFORMACIÓN RELEVANTE 9 ANÁLISIS MORFOLÓGICO • Texto de entrada: “El asistente liquida las facturas” PALABRA LEMA INFORMACIÓN MORFOLÓGICA El El Det Art Masc Sing Asistente Asistir Nombre común Masc Sing Liquida Liquidar Las El Verbo presente 3a. Persona singular Det Art Fem Plural Facturas Factura Nombre común Femenino Plural 8/9/2017 Lingüística Computacional 10