Download Extracción automática de contextos definitorios en corpus

Document related concepts
no text concepts found
Transcript
Índice
Seminari Lèxic, Terminologia i Discurs Especialitzat
Introducción
Extracción automática de
contextos definitorios
en corpus anotados
Antecedentes
Metodología para la extracción automática
Evaluación de la metodología
Conclusiones
Rodrigo Alarcón Martínez
Instituto Universitario de Lingüística Aplicada
Universidad Pompeu Fabra
26 05 2006
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Terminografía
Elaborar diccionarios especializados:
Identificar los términos representativos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Elaborar herramientas que faciliten el
trabajo lingüístico
Extracción automática de términos
Identificar el significado de los términos
Consultar especialistas del área de
conocimiento en cuestión
Extracción automática de información
sobre términos
Consultar textos especializados
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Objetivos
Desarrollar un sistema para la extracción
automática de términos y definiciones
Extracción automática de contextos
definitorios
Ingeniería Lingüística
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Contexto Definitorio
Fragmento textual de un documento
especializado donde se aporta información útil
para entender un término
Spencer, en sus Principles of Psychology, publicados en
1855 , entiende la " evolución " como algo que tiene las
mismas características de la sucesión , tal como en estas
páginas se presenta.
Autor
verbo definitorio
Marcadores tipográficos
Término
Definición
1
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Contexto Definitorio
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Antecedentes
- Punto de inicio
Estudios Teórico - Descriptivos
diccionarios
glosarios
ontologías
Aplicaciones
redes conceptuales
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Estudios Teórico - Descriptivos
Jennifer Pearson Terms in Context
Ingrid Meyer Knowledge-rich Contexts
Judit Feliu Relacions Conceptuals
Carme Bach Marcadores de Reformulación
Carlos Rodríguez OME’s
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Terms in Context
- Patrones Metalingüísticos
- Sintácticos y Tipográficos
I hereby define X as Y
- Defining Performatives
- Actos definitorios iniciales
- Actos definitorios explicativos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Terms in Context
- Patrones Metalingüísticos
- Sintácticos y Tipográficos
- Defining Performatives
- Actos definitorios iniciales
- Actos definitorios explicativos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Knowledge-rich Contexts
- Definitorio
- Definición aristotélica (X = Y + características
distintivas)
- Explicativo
- (X = Y + características distintivas)
Is/are defined as | consists(s) of
2
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Relaciones Conceptuales
- Marcadores de relaciones conceptuales
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Marcadores de Reformulación
- Verbos
verbos
definir, designar, entender por, referirse a
- Sintagmas verbales
- Excepciones
negación, posibilidad, anáfora, etc.
querer decir, recibir el nombre de
- Conectores
es decir, esto es
- Búsqueda de unidades terminológicas
- Elementos tipográficos
Mercedes
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Marcadores de Reformulación
- Búsqueda de los marcadores de reformulación
BwanaNet
comillas, paréntesis
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Operaciones Metalingüísticas Explícitas
- Operación – no oración porque los elementos constitutivos
pueden funcionar tanto en frases como en oraciones incompletas
- Búsqueda de unidades terminológicas
Mercedes
- Relación existente entre marcadores de reformulación
y términos detectados
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Operaciones Metalingüísticas Explícitas
- Explícitas – el autor introduce indicaciones sobre la forma
en que debe entenderse el término
– Metalingüísticas
propio lenguaje
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
– se utiliza el lenguaje para hablar del
Operaciones Metalingüísticas Explícitas
- Elementos Mínimos Constitutivos
- Término
- Información Semántica – Pragmática
- Informativas
X es llamado Y | X se define como Y
- Marcadores – Operadores
- Verbos Metalingüísticos
- Directivas o Instruccionales
- Marcadores Tipográficos
Aquí se entenderá a X como Y
3
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Aplicaciones
Muresans & Klavans - DEFINDER
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Definder
- Método para la extracción automática de
definiciones
Módulo 1
Saigon Identifying definitions for QA
“cue-phrases” (is the term of, is called)
“marcadores de texto” (e.g - - ,())
Malaisé et. al. Mining defining contexts
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Definder
- Método para la extracción automática de
definiciones
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Identifying definitions for QA
“Búsqueda de respuestas textuales para
preguntas de dominio abierto”
Módulo 2
“frases sustantivas simples”
Patrones definitorios
+ Términos más frecuentes
Identificación de términos secundarios
X = Y + (características distintivas)
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Mining Defining Contexts
“Búsqueda de contextos definitorios para la
elaboración de ontologías”
Verbos metalingüísticos (definir, entender)
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Mining Defining Contexts
“Identificación del término”
- contextual
- categoría del marcador
Sustantivos metalingüísticos (definición, término)
Marcadores lingüísticos (es decir, en otros términos)
Marcadores tipográficos (comillas, paréntesis)
4
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Mining Defining Contexts
“Identificación del término”
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Mining Defining Contexts
“Identificación del término”
- contextual
- contextual
- categoría del marcador
- categoría del marcador
Derecha
X : Y | El término X
X significa Y
Izquierda
Sujeto
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Mining Defining Contexts
“Identificación de la relación semántica”
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
- relaciones transversales (meronimia)
Puntos en común
Búsqueda de patrones
léxicos, sintácticos, metalingüísticos
- relaciones lingüísticas (sinónimos)
- relaciones jerárquicas (hiperónimos)
Objeto
Identificación de elementos constitutivos
términos, definiciones, relaciones
conceptuales, información semántico pragmática
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Metodología
Análisis lingüístico de contextos definitorios
en español
Identificación de patrones definitorios
recurrentes
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Tipología de contexto definitorios
- Tipográficos
(“X”) [ , | : | = ] (“Y”)
Implementación de reglas para su extracción
automática
5
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Tipología de contexto definitorios
Sintácticos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Tipología de contexto definitorios
Sintácticos
(criterio contextual)
Simples
patrones verbales definitorios
definir, concebir, ser + determinante
Compuestos
patrones pragmáticos
en términos generales, en nuestra opinión
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Tipología de contexto definitorios
Sintácticos
Término
Tipología de contexto definitorios
Sintácticos
(criterio contextual)
Simples
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Compuestos
Definición
X significa Y
X se define como Y
se define a X como Y
se define como X a Y
Y es definido como X
X es (determinante | especificador) Y
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Tipología de definiciones
- (Genus) + Diferencia
definir, consistir en
- Funcional
(criterio contextual)
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Input
corpus
etiquetado
Módulo 2
Módulo 1
servir para, usar para
- Extensional
Reconocimiento
de
patrones definitorios
Etiquetado
de
candidatos
Reglas
de excepciones
Módulo 3
Identificación
de elementos
constitutivos
constar de, consistir de
Output
contextos
definitorios
-Sinonímica
llamar también
6
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Input
corpus
etiquetado
Corpus Técnico del IULA
Extracción automática
Búsqueda de patrones verbales definitorios
Criterios de búsqueda
Módulo 1
- Español
- Informática, Medio ambiente, Derecho,
Medicina, Genoma, Economía, General
(Lingüística y Física)
Concordancia compleja
Reconocimiento
de
patrones definitorios
definir, concebir, identificar, entender
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Extracción automática
Etiquetado
de
candidatos
Scripts en PERL
<izq></izq> <pv-…></pv-…> (<nexo><nexo>) <der></der>
Módulo 3
Módulo 2
Etiquetado
de
candidatos
Reglas
de excepciones
Identificación
de elementos
constitutivos
Output
contextos
definitorios
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Módulo 2
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Módulo 3
Reglas
de excepciones
Filtro
<s><izq>Inicialmente, Rosch </izq> <pv-con>definió </pv-con>
<nexo>el prototipo como </nexo> <der>el ejemplar que mejor se
reconoce, el más representativo y distintivo de una categoría, puesto
que es el que comparte más características con el resto de miembros de
la categoría y menos con los miembros de otras categorías.</der></s>
Identificación
de elementos
constitutivos
no
en ningún caso
se define como
Buscar términos, patrones pragmáticos y definiciones
en posiciones <izq> , <nexo> y <der>
tampoco
.* así
se define
.* ya
vbo_ conjugado .*
como
antes
se define como
cuan
si
7
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Extracción automática
IF
Módulo 3
Árbol de decisiones
Identificación
de elementos
constitutivos
Término y PP dentro de <nexo></nexo>
ELSIF
NEXO
PP dentro de <izq></izq> y Término dentro de <nexo></nexo>
ELSIF
Término dentro de <nexo></nexo>
IF
ELSIF
Término dentro de <izq></izq> y PP dentro de <nexo></nexo>
Posiciones <izq> <nexo> = vbo_conjugado Î Con_Verbo
ELSIF
IZQUIERDA
Término y PP dentro de <izq></izq>
ELSIF
ELSIF
Término dentro de <izq></izq>
Posiciones <izq> <nexo> <der>
Î Sin_Verbo
ELSIF
PP dentro de <izq></izq> y Término dentro de <der></der>
DERECHA
ELSIF
Término dentro de <der></der>
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Expresiones regulares
PP dentro de <izq></izq> y Término dentro de <nexo></nexo>
NEXO
IF Sin_Verbo = <izq>(preposicion.+|adverbio.*)signo?.*<\/izq>
<pv....>(.+)<\/pv....> <nexo>a?determinante(nombre.+)como<\/nexo>
<der>(.+)<\/der>
Completo
= <s><izq>En sus comienzos, a veces
</izq> <pv-con>se definió</pv-con> <nexo>a la
psicología como </nexo> <der>"la descripción y la
explicación de los estados de conciencia" (Ladd,
1887).</der></s>
Then
Término
Definición
P. Verbal
P. Pramgático
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
NEXO
=3
=4
=2
=1
Extracción automática
Término
= psicología
Definición
= " la descripción y la explicación de
los estados de conciencia " ( Ladd , 1887 ).
P. Verbal
= se definió como
P. Pragmático = En sus comienzos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
NEXO
Extracción automática
Término
= genes
Definición
= las unidades biológicas de la herencia y
comprobaron que estaban alineados en los cromosomas .
P. Verbal
= definieron como
Autor
= Los genetistas clásicos desde Mendel a
Morgan
Completo
= <s><izq>Los genetistas clásicos desde
Mendel a Morgan</izq> <pv-con>definieron</pv-con>
<nexo>los genes como</nexo> <der>las unidades biológicas
de la herencia y comprobaron que estaban alineados en los
cromosomas.</der></s>
8
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
IZQUIERDA
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Término
= redes de colectores
Definición
= parte de un sistema que incluye elementos de
control y cierta capacidad de almacenamiento , de manera que es
posible la laminación de las avenidas y […].
P. Verbal
= se conciben como
P. Pragmático
= desde un punto de vista cuantitativo ,
Anti-Definición
= meros receptores pasivos de la escorrentía urbana
Completo
= <s><izq>Asimismo , desde un punto de vista
cuantitativo , las redes de colectores no </izq> <pv-con>se
conciben</pv-con> <nexo> como </nexo> <der>meros receptores
pasivos de la escorrentía urbana sino como parte de un sistema que
incluye elementos de control y cierta capacidad de almacenamiento , de
manera que es posible la laminación de las avenidas y […]</der></s>
Extracción automática
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
DERECHA
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Referencias Anafóricas
R. Anafórica
= Dicha función
Definición
= el " locus " de referencia para el estudio
de la eficiencia con la que se utilizan los recursos sanitarios .
P. Verbal
= se define como
Completo
= <s><izq>Dicha función </izq> <pvcon>se define</pv-con> <nexo> como </nexo> <der>el " locus
" de referencia para el estudio de la eficiencia con la que se
utilizan los recursos sanitarios .</der></s>
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Extracción automática
Término
= velocidad de reacción
Definición
= La velocidad a la que una sustancia
desaparece o se forma en una reacción estequiométrica dada ,
P. Verbal
= se define como
Completo
= <s><izq>La velocidad a la que una
sustancia desaparece o se forma en una reacción
estequiométrica dada , </izq> <pv-con>se define</pv-con>
<nexo> como </nexo> <der>velocidad de reacción .</der></s>
Extracción automática
Sin Término
Término
= NULL
Definición
= un cuerpo de doctrina autocontenido que
abarcaba , además , todas o casi todas las nociones esenciales .
P. Verbal
= Se entendía como
Completo
= <s><izq>NULL</izq> <pv-con>Se
entendía</pv-con> <nexo> como </nexo> <der>un cuerpo de
doctrina autocontenido que abarcaba , además , todas o casi
todas las nociones esenciales .</der></s>
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
Con_Verbo
No Clasificable
IF
<izq> .+ determinante (nombre .+) y | que </izq>
ELSIF
Izquierda
= La fiebre
P. Verbal
= se entiende
Nexo
= mejor a nivel hipotalámico; el termostato
casero se puede considerar como
Derecha
= un dispositivo que efectúa un control de la
temperatura corporal semejante ; que lleva a cabo el
hipotálamo .
<izq> .+ vbo_conjugado determinante (nombre .+) signo </izq>
IZQUIERDA
ELSIF
<izq> .+ determinante (nombre .+) signo </izq>
ELSIF
<izq> determinante (nombre .+) verbo_conjugado </izq>
9
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Extracción automática
IZQUIERDA
Término
= bioclimatología , que
Definición
= « el conjunto de los factores de l clima
que regulan , mediante su acción sobre el conjunto de toda la
comunidad ( acción holocéntrica ), la distribución de los
grandes tipos de biocenosis ».
P. Verbal
= definió como
Completo
= <s><izq>La bioclimatología , que fue
creada a principios de siglo por Köpen, la</izq> <pvcon>definió</pv-con> <nexo> como </nexo> <der>« el
conjunto de los factores del clima que regulan , mediante su
acción sobre el conjunto de toda la comunidad ( acción
holocéntrica), la distribución de los grandes tipos de
biocenosis ».</der></s>
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Resultados
INPUT concebir = 120
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Resultados
Total CD
Total de NOCD
76
188
Total CD aut.
210
Total de NOCD aut.
54
INPUT identificar = 250
Total CD
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Total de NOCD
62
188
Total CD aut.
186
Total de NOCD aut.
64
Precision, Recall & Fallout
Total CD aut.
104
Total de NOCD aut.
16
INPUT definir = 250
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Total de NOCD
194
56
Total CD aut.
226
Total de NOCD aut.
24
Evaluación
Precision , Recall & Fallout
Precision – Cuánta información extraída
automáticamente es correcta
Recall – Cuánta información relevante se ha
extraído automáticamente
Fallout – Cuánta información irrelevante se
ha extraído automáticamente
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Precision , Recall & Fallout
Precision, Recall & Fallout
Precision , Recall & Fallout
# total de CDs aut.
Precision
71
49
Total CD
INPUT entender = 264
Total CD
Total de NOCD
# total de CDs aut.
Recall
# total de candidatos aut.
# total de CDs
10
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Precision, Recall & Fallout
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Precision, Recall & Fallout
Precision
Recall
Fallout
Concebir
0.6730
0.9859
0.3265
Definir
0.8495
0.9896
0.4285
Entender
0.3428
0.9473
0.2872
Identificar
0.3010
0.9032
0.3404
Precision , Recall & Fallout
# total de No CDs aut.
Fallout
# total de No CDs
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Porcentaje de Recuperación
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Porcentaje de Recuperación
PR = 2
PR = 1
PR = 0
NC
Concebir
68.5%
15.7%
11.4%
4.2%
Definir
65.1%
18.2%
10.41%
6.25%
Entender
54.1%
20.8%
8.3%
16.6%
Identificar
53.5%
5.3%
35.7%
5.3%
PR = 2 Î Término exactamente igual
PR = 1 Î Término en posición correcta + ruido
PR = 0 Î Término en otra posición
PR = NC Î No Clasificable
PR
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Î No Candidatos
Resultados
Sin_Verbo
Término en <izq>
Término en <nexo>
Término en <nexo> y PP en <izq>
Término en <izq> y PP en <nexo>
Término en <der>
Con_Verbo
Término en <nexo>
Término en <izq>
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Extracción automática de contextos definitorios
Extracción de contextos con patrones definitorios
Identificación de no candidatos
Identificación de términos
Identificación de definiciones
Identificación de información semántica - pragmática
11
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Ventajas
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Módulos
Utilización de herramientas
disponibles
Î Corpus etiquetados
Extracción de
elementos constitutivos
Î Proceso económico
Etiquetas
Reglas discriminatorias
Expresiones regulares
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Problemas
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Î patrones complejos
Conclusiones
Problemas
MAS Definitorio
Î mayor Cobertura y Precisión
MENOS Definitorio
Î
menor Precisión
MAS Definitorio
Î mayor Cobertura y Precisión
MENOS Definitorio
Î
menor Precisión
[lema “entender”] (infinitivo, participio, conjugado) 15 [word=“como”]
[word=“se”] [lemma=“entender”] Conjugado 5 [word=“como”]
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Problemas
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Conclusiones
Problemas ajenos
Con_Verbo
Î
Términos
Î
Menor Precision
INPUT
Î
Mal etiquetado original
El haz/hacer/VRR2S- piramidal
Verbo_Infinitivo + determinante
+ nombre
gastrulación como un proceso/procesar/VDR1S-
“clonar un gen”
12
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Trabajo Futuro
Trabajo Futuro
Paradigma de Patrones definitorios
Interfaz de consulta “amigable”
Paradigma de Reglas discriminatorias
Corpus de contextos definitorios
Aprendizaje asistido
Patrones pragmáticos
Posiciones recurrentes de elementos constitutivos
Introducción
Antecedentes
Metodología
Evaluación
Conclusiones
Referencias 1
Texto plano
Aguilar, C., Alarcón, R., et. al. (2004) “Reconocimiento y clasificación de patrones
verbales definitorios en corpus especializados”. En memorias del IX Simposio
Iberoamericano de Terminología. RITerm, Barcelona.
Etiquetado
POS
Texto
Plano
Alarcón, R., Sierra, G. (2003) “The role of verbal predications for definitional
contexts extraction”. En actas del 5th Meeting of Terminology & Artificial Intelligence.
Reconocimiento
de
patrones definitorios
Módulo 3
Módulo 2
Módulo 1
Etiquetado
de
candidatos
Reglas
de excepciones
Identificación
de elementos
constitutivos
Output
contextos
definitorios
Bach, C. (2005) Los marcadores de reformulación como localizadores de zonas discursivas
relevantes en el discurso especializado. RITerm, Revista Debate Terminológico. N.1
Feliu, J. (2004) Relaciones conceptuals I terminologia: anàlisi i proposta de detecció
semiautomàtica. Tesis de doctorado. IULA, Universidad Pompeu Fabra. Barcelona.
Malaisé, V., et. al. (2005) Mining defining contexts to help structuring differential
ontologies. Anne Condamines & Teresa Cabré Castellví (eds.) Application-Driven
Terminology Engineering. Terminology, 11:1. John Benjamin’s, Amsterdam, pp. 2153
Meyer, Ingrid. (2001) Extracting Knowledge-rich contexts for Terminography. Didier
Bourigault (ed.) Recent Advances in Computational Terminology. John Benjamin’s,
Amsterdam, pp. 279-302.
Referencias 2
Pearson, Jennifer. (1998) Terms in Context. . John Benjamin’s, Ámsterdam.
Rodríguez, Carlos (2004) Metalinguistic Information Extraction for Terminology.
International Workshop on Computational Terminology (CompuTerm) Coling.
Geneve.
Saggion, Horacio (2004) Identifying Definitions in Text Collections for Question
Answering. En International Conference on Language Resources and Evaluation.
Proceedings.
13