Download Extracción automática de patrones - DLSI

Document related concepts

Rección (sintaxis) wikipedia , lookup

Complemento del verbo wikipedia , lookup

Semántica lingüística wikipedia , lookup

Verbo auxiliar wikipedia , lookup

Núcleo sintáctico wikipedia , lookup

Transcript
Propuesta para la extracción
automática de patrones
sintáctico-semánticos y su
alineación multilingüe
Borja Navarro Colorado
[email protected]
Dto. Lenguajes y Sistemas Informáticos
Universidad de Alicante
Índice
„
„
„
„
„
„
„
Motivación
Objetivos del proyecto
Breve estado de la cuestión
Extracción de patrones sintácticosemánticos
Alineación multilingüe de patrones
Descripción del sistema
Desarrollo actual del proyecto
Índice
„ Motivación
„ Objetivos del proyecto
„ Breve estado de la cuestión
„ Extracción de patrones sintácticosemánticos
–
–
–
Planteamiento teórico
Método de extracción
Problemas y propuestas de solución
„ Alineación multilingüe de patrones
„ Descripción del sistema
„ Desarrollo actual del proyecto
Índice
„ Motivación
„ Objetivos del proyecto
„ Breve estado de la cuestión
„ Extracción de patrones sintácticosemánticos
„ Alineación multilingüe de patrones
– Planteamiento teórico
– Método de alineación
– Problemas y propuestas de solución
„ Descripción del sistema
„ Desarrollo actual del proyecto
Índice
„
„
„
„
„
„
„
Motivación
Objetivos del proyecto
Breve estado de la cuestión
Extracción de patrones sintácticosemánticos
Alineación multilingüe de patrones
Descripción del sistema
Desarrollo actual del proyecto
Motivación
„ Importancia del módulo léxico (Vázquez et al. 2000,
2002):
– GB (Chomsky 81), Fillmore 1968, Jackendoff 1990,
Grimshaw 1990, Pustejovsky 1995.
– LFG, GPSG, HPSG, etc.
„ Lingüística computacional: necesidad de crear
léxicos con más información lingüística.
– Información sintáctica: subcategorización verbal,
– Información semántica: rasgos de selección
semántica, papeles temáticos, alternancias de
diátesis verbales, etc.
„ Dificultad de crear el módulo léxico
manualmente (Briscoe y Carrol 1994).
Objetivos
„ Crear un sistema automático que:
1. extraiga patrones sintáctico-semánticos de
corpus no etiquetados,
2. alinee los patrones entre distintas lenguas
(español e inglés).
„ Resultado: una BD con patrones
sintáctico-semánticos asociados a sentidos
verbales y alineados entre el español y el
inglés.
Estado de la cuestión
„ Proyectos de creación de léxicos
computacionales:
–
–
–
–
–
–
–
Comlex
Multilex
Genelex
Acquilex
Eurotra
Unitran (TA)
MEANING
Estado de la cuestión
„ Extracción de patrones:
– Extracción automática/semi-automática de
patrones de subcategorización sintáctica: Brent
1993, Ushioda et al. 1993, Manning 1993, Briscoe
y Carroll 1994, etc.
– Extracción y uso de información semántica:
Boguraev y Pustejovsky (eds.) 1996, Dorr et al.
1995, McCarthy 2000, Vázquez et al. 2000, etc.
Extracción de patrones sintácticosemánticos: Planteamiento teórico
„ Verbo: componente central de la oración.
– Organiza la estructura sintáctica de la oración.
– Especifica la organización semántica de los
complementos.
„ En el verbo se muestra la relación entre
sintaxis y semántica.
Extracción de patrones sintácticosemánticos: Planteamiento teórico
„ Verbo:
– Información sintáctica:
„ Especifica los complementos subcategorizados.
– Qué tipo de complementos son: SN, SP, SA, etc.
– Con qué función actúan en la oración.
– Información semántica de los argumentos:
„ Papeles temáticos: “agente”, “paciente”, “beneficiario”,
“instrumento”, etc.
„ Rasgos de selección semántica: “humano”, “objeto”, etc.
„ Estructura eventiva (Pustejovsky 1995) y la alternancia de
diátesis (Vázquez 2000).
Extracción de información sintáctica
Método
„ Objetivo: extraer de cada sentido de un verbo los
complementos argumentales a él asociados.
– Los patrones de subcategorización están relacionados con el
sentido del verbo.
– El comportamiento sintáctico y semántico del verbo están
relacionados (Fillmore 1968, Grimshaw 1990, Jackendoff 1990).
„ Ejemplo:
“Mi hermano pegó los adhesivos en el libro”
SN pegar (sentidoSWN_2) SN SP(en)
“Mi hermano pegó a su amigo”
SN pegar (sentidoSWN_1) SP(a)
“Esta chaqueta no pega con los pantalones”
SN pegar (sentidoSWN_1) SP(con)
Extracción de información sintáctica
Método
„ Herramientas
– POS-tagger Æ análisis léxico-morfológico.
– WSD Æ análisis léxico-semántico de los verbos y
núcleos de los complementos.
– Analizador sintáctico superficial Æ especificación de
patrones.
„ Proceso:
– Cada vez que aparece un verbo se extrae su patrón
argumental.
– Se unifican todos los patrones extraídos para un sentido
verbal.
– Se rechazan los que tengan un índice de frecuencia bajo.
Extracción de información sintáctica
Problemas y soluciones
1.
Diferenciar entre complementos
argumentales y adjuntos:
— Técnicas estadísticas (Briscoe y Carrol 1994).
2.
Problemas con el sistema de WSD:
— Trabajar por dominios de Internet
— Rechazar las ambigüedades sin solución.
3.
Funciones sintácticas.
Extracción de información
semántica. Método
„
Objetivo: Extraer las restricciones semánticas de
cada argumento del verbo.
– Para cada núcleo del complemento verbal, se crea un
vector de componentes con toda la cadena de
hiperónimos de EuroWordNet.
– Se comparan todos los vectores de componentes
extraídos para el mismo sentido verbal/patrón.
– Se eliminan los synsets más específicos que no coincidan
y se mantienen los hiperónimos en que coincidan todos
los vectores para un mismo argumento.
– Estos hiperónimos se toman como restricciones
semánticas.
Extracción de información
semántica. Método
„
Ejemplo:
“Mi hermano pegó a su amigo”
Hermano: pariente > humano > ser vivo
Amigo: humano > ser vivo
“Muchos profesores pegan a sus alumnos”
Profesor: pedagogo > profesional > adulto > humano > ser vivo
Alumno: aprendiz > humano > ser vivo
SN [Humano/ser vivo] pegar_SentX SP(a) [humano/ser vivo]
Extracción de información
semántica. Problemas y soluciones
„ Ambigüedad semántica (WSD)
– No se consideran los ambiguos no resueltos
„ Falta de información sobre:
– Papeles temáticos:
„ No hay lista consensuada
„ Falta de recurso
– Alternancia de diátesis
Æ Patrones semánticos no restrictivos
Alineación de patrones:
Planteamiento teórico
„ En un nivel suficientemente abstracto, los
patrones semánticos son interlingüísticos
– Cada lengua especifica ese patrón con una
estructura sintáctica determinada.
„ Si un patrón semántico es común a dos
lenguas, se pueden alinear sus patrones
sintácticos asociados.
Alineación de patrones:
Método
„
„
Los verbos ya están alineados a través del ILI
de EWN.
Si éstos tienen un patrón semántico igual,
alinea el patrón sintáctico asociado.
Alineación de patrones
Método
Synset EWN
Psemántico_ESP
Psintac_ESP
Psemántico_ING
Psintac_ING
Alineación de patrones
Método
Synset EWN
Psemántico_ESP = Psemántico_ING
Psintac_ESP
Psintac_ING
Alineación de patrones
Método
Synset EWN
Psemántico_ESP = Psemántico_ING
Psintac_ESP
Psintac_ING
Alineación de patrones:
Problemas y soluciones
„ Problemas de ambigüedad no resueltos por el
sistema de WSD.
„ Abstracción del patrón semántico: comprobar
si se alcanza un grado suficiente de
abstracción para considerarlo independiente
de las lenguas:
–
–
–
Se extraen por separado para cada lengua.
Posición de los constituyentes.
Diferentes rasgos de selección semántica entre
lenguas.
Descripción del sistema
Captura
Capturatextos
textos
Motor
búsqueda
Internet
Internet
POS tagger
Análisis
Análisisléxico
léxico
Extracción
Extracciónde
de
patrón
patrónsintáctico
sintáctico
WSD
Analizador
sintáctico
EWN
Extracción
Extracciónde
de
patrón
patrónsemántico
semántico
Analizador
semántico
Patronaje
sintáctico
Patrones
Patronaje
semántico
Desarrollo actual del proyecto
„
Experimento con 13 verbos
desambiguados (Suárez y Palomar 2002)
– Comprobar la eficacia del sistema sin los
errores del WSD.
– A partir de los resultados, redefinir y
mejorar el sistema de extracción.
„
Aparición de problemas no considerados.
Propuesta para la extracción
automática de patrones
sintáctico-semánticos y su
alineación multilingüe
Borja Navarro Colorado
[email protected]
Dto. Lenguajes y Sistemas Informáticos
Universidad de Alicante