Download Extracción automática de patrones - DLSI
Document related concepts
Transcript
Propuesta para la extracción automática de patrones sintáctico-semánticos y su alineación multilingüe Borja Navarro Colorado [email protected] Dto. Lenguajes y Sistemas Informáticos Universidad de Alicante Índice Motivación Objetivos del proyecto Breve estado de la cuestión Extracción de patrones sintácticosemánticos Alineación multilingüe de patrones Descripción del sistema Desarrollo actual del proyecto Índice Motivación Objetivos del proyecto Breve estado de la cuestión Extracción de patrones sintácticosemánticos – – – Planteamiento teórico Método de extracción Problemas y propuestas de solución Alineación multilingüe de patrones Descripción del sistema Desarrollo actual del proyecto Índice Motivación Objetivos del proyecto Breve estado de la cuestión Extracción de patrones sintácticosemánticos Alineación multilingüe de patrones – Planteamiento teórico – Método de alineación – Problemas y propuestas de solución Descripción del sistema Desarrollo actual del proyecto Índice Motivación Objetivos del proyecto Breve estado de la cuestión Extracción de patrones sintácticosemánticos Alineación multilingüe de patrones Descripción del sistema Desarrollo actual del proyecto Motivación Importancia del módulo léxico (Vázquez et al. 2000, 2002): – GB (Chomsky 81), Fillmore 1968, Jackendoff 1990, Grimshaw 1990, Pustejovsky 1995. – LFG, GPSG, HPSG, etc. Lingüística computacional: necesidad de crear léxicos con más información lingüística. – Información sintáctica: subcategorización verbal, – Información semántica: rasgos de selección semántica, papeles temáticos, alternancias de diátesis verbales, etc. Dificultad de crear el módulo léxico manualmente (Briscoe y Carrol 1994). Objetivos Crear un sistema automático que: 1. extraiga patrones sintáctico-semánticos de corpus no etiquetados, 2. alinee los patrones entre distintas lenguas (español e inglés). Resultado: una BD con patrones sintáctico-semánticos asociados a sentidos verbales y alineados entre el español y el inglés. Estado de la cuestión Proyectos de creación de léxicos computacionales: – – – – – – – Comlex Multilex Genelex Acquilex Eurotra Unitran (TA) MEANING Estado de la cuestión Extracción de patrones: – Extracción automática/semi-automática de patrones de subcategorización sintáctica: Brent 1993, Ushioda et al. 1993, Manning 1993, Briscoe y Carroll 1994, etc. – Extracción y uso de información semántica: Boguraev y Pustejovsky (eds.) 1996, Dorr et al. 1995, McCarthy 2000, Vázquez et al. 2000, etc. Extracción de patrones sintácticosemánticos: Planteamiento teórico Verbo: componente central de la oración. – Organiza la estructura sintáctica de la oración. – Especifica la organización semántica de los complementos. En el verbo se muestra la relación entre sintaxis y semántica. Extracción de patrones sintácticosemánticos: Planteamiento teórico Verbo: – Información sintáctica: Especifica los complementos subcategorizados. – Qué tipo de complementos son: SN, SP, SA, etc. – Con qué función actúan en la oración. – Información semántica de los argumentos: Papeles temáticos: “agente”, “paciente”, “beneficiario”, “instrumento”, etc. Rasgos de selección semántica: “humano”, “objeto”, etc. Estructura eventiva (Pustejovsky 1995) y la alternancia de diátesis (Vázquez 2000). Extracción de información sintáctica Método Objetivo: extraer de cada sentido de un verbo los complementos argumentales a él asociados. – Los patrones de subcategorización están relacionados con el sentido del verbo. – El comportamiento sintáctico y semántico del verbo están relacionados (Fillmore 1968, Grimshaw 1990, Jackendoff 1990). Ejemplo: “Mi hermano pegó los adhesivos en el libro” SN pegar (sentidoSWN_2) SN SP(en) “Mi hermano pegó a su amigo” SN pegar (sentidoSWN_1) SP(a) “Esta chaqueta no pega con los pantalones” SN pegar (sentidoSWN_1) SP(con) Extracción de información sintáctica Método Herramientas – POS-tagger Æ análisis léxico-morfológico. – WSD Æ análisis léxico-semántico de los verbos y núcleos de los complementos. – Analizador sintáctico superficial Æ especificación de patrones. Proceso: – Cada vez que aparece un verbo se extrae su patrón argumental. – Se unifican todos los patrones extraídos para un sentido verbal. – Se rechazan los que tengan un índice de frecuencia bajo. Extracción de información sintáctica Problemas y soluciones 1. Diferenciar entre complementos argumentales y adjuntos: — Técnicas estadísticas (Briscoe y Carrol 1994). 2. Problemas con el sistema de WSD: — Trabajar por dominios de Internet — Rechazar las ambigüedades sin solución. 3. Funciones sintácticas. Extracción de información semántica. Método Objetivo: Extraer las restricciones semánticas de cada argumento del verbo. – Para cada núcleo del complemento verbal, se crea un vector de componentes con toda la cadena de hiperónimos de EuroWordNet. – Se comparan todos los vectores de componentes extraídos para el mismo sentido verbal/patrón. – Se eliminan los synsets más específicos que no coincidan y se mantienen los hiperónimos en que coincidan todos los vectores para un mismo argumento. – Estos hiperónimos se toman como restricciones semánticas. Extracción de información semántica. Método Ejemplo: “Mi hermano pegó a su amigo” Hermano: pariente > humano > ser vivo Amigo: humano > ser vivo “Muchos profesores pegan a sus alumnos” Profesor: pedagogo > profesional > adulto > humano > ser vivo Alumno: aprendiz > humano > ser vivo SN [Humano/ser vivo] pegar_SentX SP(a) [humano/ser vivo] Extracción de información semántica. Problemas y soluciones Ambigüedad semántica (WSD) – No se consideran los ambiguos no resueltos Falta de información sobre: – Papeles temáticos: No hay lista consensuada Falta de recurso – Alternancia de diátesis Æ Patrones semánticos no restrictivos Alineación de patrones: Planteamiento teórico En un nivel suficientemente abstracto, los patrones semánticos son interlingüísticos – Cada lengua especifica ese patrón con una estructura sintáctica determinada. Si un patrón semántico es común a dos lenguas, se pueden alinear sus patrones sintácticos asociados. Alineación de patrones: Método Los verbos ya están alineados a través del ILI de EWN. Si éstos tienen un patrón semántico igual, alinea el patrón sintáctico asociado. Alineación de patrones Método Synset EWN Psemántico_ESP Psintac_ESP Psemántico_ING Psintac_ING Alineación de patrones Método Synset EWN Psemántico_ESP = Psemántico_ING Psintac_ESP Psintac_ING Alineación de patrones Método Synset EWN Psemántico_ESP = Psemántico_ING Psintac_ESP Psintac_ING Alineación de patrones: Problemas y soluciones Problemas de ambigüedad no resueltos por el sistema de WSD. Abstracción del patrón semántico: comprobar si se alcanza un grado suficiente de abstracción para considerarlo independiente de las lenguas: – – – Se extraen por separado para cada lengua. Posición de los constituyentes. Diferentes rasgos de selección semántica entre lenguas. Descripción del sistema Captura Capturatextos textos Motor búsqueda Internet Internet POS tagger Análisis Análisisléxico léxico Extracción Extracciónde de patrón patrónsintáctico sintáctico WSD Analizador sintáctico EWN Extracción Extracciónde de patrón patrónsemántico semántico Analizador semántico Patronaje sintáctico Patrones Patronaje semántico Desarrollo actual del proyecto Experimento con 13 verbos desambiguados (Suárez y Palomar 2002) – Comprobar la eficacia del sistema sin los errores del WSD. – A partir de los resultados, redefinir y mejorar el sistema de extracción. Aparición de problemas no considerados. Propuesta para la extracción automática de patrones sintáctico-semánticos y su alineación multilingüe Borja Navarro Colorado [email protected] Dto. Lenguajes y Sistemas Informáticos Universidad de Alicante