Download Microsoft Word - Text

Document related concepts

TreeBank wikipedia , lookup

Lingüística de corpus wikipedia , lookup

Predicado (gramática) wikipedia , lookup

Semántica lingüística wikipedia , lookup

Núcleo sintáctico wikipedia , lookup

Transcript
1
CESS-ECE: corpus anotados del español y catalán
M. Antonia Martí, , MarionaTaulé
CLiC-UB (Centre de Llenguatge i Computació, Universitat de Barcelona)
{amarti, mtaule}@ub.edu
Los corpus anotados constituyen en sí mismos una fuente de información valiosa tanto para el
análisis lingüístico como para el desarrollo de una amplia gama de aplicaciones. En el marco de la
Lingüística Computacional se utilizan para contrastar y validar módulos de procesamiento del lenguaje así
como para extraer información de cara a la construcción de recursos de ingeniería lingüística. Los corpus
anotados con información lingüística representan, en este contexto, una herramienta imprescindible para
cualquier aplicación de la Lingüística Computacional ya que permiten extraer información mucho más
adecuada y próxima a la lengua que se pretende procesar. Desde la perspectiva de la Lingüística
constituyen una fuente de información sobre el uso real de la lengua que permite contrastar hipótesis e
inferir conocimiento.
Actualmente, no sólo es importante disponer de corpus anotados a diferentes niveles de análisis
lingüístico (morfológico, sintáctico, semántico y pragmático) sino que es fundamental garantizar la
calidad de estas anotaciones. De ello depende, en gran medida, la efectividad de los sistemas de
procesamiento del lenguaje basados en técnicas de aprendizaje automático (Márquez et. al 2004), que
toman los corpus anotados como fuente de información. Alcanzar los objetivos de calidad requeridos
exige definir una metodología estricta en el proceso de anotación y establecer los fundamentos lingüísticos
sobre los que basar dicha anotación. Sólo así se garantiza la coherencia y consistencia de los datos.
Es en este marco teórico y metodológico se han desarrollado dos corpora, uno para el catalán
(CESS-CAT) y otro para el español (CESS-ESP) de 500.000 palabras cada uno.1 Estos corpora están
1
Estos corpora se han elaborado gracias a los proyectos X-TRACT (BFF2002-04226-C03-03), 3LB (FIT-150-5002002-244) y CESS-ECE (HUM-2004-21127-E).
El objetivo principal del proyecto CESS-ECE es la construcción de un Banco de Árboles Sintácticos (TreeBank)
multilingüe con anotación semántica: uno para la lengua catalana (CESS-CAT) y otro para la lengua española
(CESS-ESP).
2
anotados a diferentes niveles de descripción lingüística, con información morfológica, sintáctica y
semántica. El proceso de anotación se ha llevado a cabo de manera automática, manual o semiautomática
dependiendo de la información lingüística tratada.2
En este trabajo se describe la metodología y los criterios generales que se han establecido con el
objetivo de sistematizar el proceso de anotación, a cada nivel lingüístico, para la creación de los corpora
CESS-ECE.
Después de esta introducción, en el apartado 1, se describen las características de los corpus
CESS-ECE, atendiendo a su origen y composición. En el apartado 2, se presenta como se ha llevado a
cabo el proceso de anotación en cada nivel de análisis. Este apartado se ha enfocado desde la perspectiva
de la autonomía del proceso, es decir, si se ha realizado de manera automática, manual o semiautomática.
En el apartado 3, se presentan los fundamentos lingüísticos y las decisiones metodológicas que se han
adoptado en cada nivel de anotación. Finalmente, en el apartado 4, se presentan consideraciones generales
sobre el resultado del trabajo realizado y líneas futuras de actuación.
1 Los corpus: CESS-ESP y CESS-CAT
CESS-ECE es un corpus multilingüe formado por textos en lengua catalana (CESS-CAT) y textos
en lengua española (CESS-ESP), ambos de 500.000 palabras. Dichos corpus se han elaborado de manera
incremental a partir de los corpora previos CLiC-TALP (Civit y Martí 2004a) y 3LB (Civit y Martí
2004b).
El corpus español CLiC-TALP consta de 100.000 palabras seleccionadas de Lexesp, un corpus
equilibrado del español de seis millones de palabras (Sebastián, N. et al. 2000). El corpus catalán CLiCTALP consta de 100.000 palabras, 75.000 procedentes de la agencia de noticias EFE y 25.000 procedentes
de ACN (Agencia Catalana de Noticias). Ambos corpora se han etiquetado automáticamente con
información morfosintáctica (part of speech, POS) y se han revisado manualmente. El objetivo era
2 Actualmente existe ya una versión
(http://www.lsi.upc.edu/~mbertran/cess-ece/).
de
prueba
de
estos
corpus
consultable
por
Internet:
3
disponer de un corpus de referencia para estas dos lenguas con un nivel de calidad óptimo en la anotación
morfosintáctica para ser utilizados como corpora de aprendizaje (gold standard) para sistemas de
etiquetado morfosintáctico basados en técnicas de aprendizaje automático.
Los corpora 3LB-CAT y 3LB-CAST,3 son dos bancos de árboles sintácticos de 100.000 palabras
cada uno etiquetados a nivel de constituyentes y funciones y anotados semánticamente con papeles
temáticos. También se han etiquetado de manera parcial (nombres y verbos), con synsets de WordNet. 4
3LB-CAST se ha creado a partir de 75.000 palabras del corpus español CLiC-TALP y de 25.000 palabras
del corpus español de la agencia de noticias EFE. 3LB-CAT es el corpus CLiC-TALP catalán enriquecido
con constituyentes y funciones.
Los corpora CESS-ECE son, en definitiva, el resultado de ampliar 3LB-CAT y 3LB-CAST hasta
500.000 palabras, por lo tanto se han añadido 400.000 palabras a cada corpus, procedentes de diferentes
fuentes periodísticas. CESS-ESP se ha incrementado con 200.000 palabras extraídas de EFE y 200.000
palabras del diario ‘El Periódico’. CESS-CAT se ha incrementado con 200.000 palabras de ACN y
200.000 palabras procedentes de la versión catalana del mismo diario ‘El Periódico’.5 Toda esta
información se resume en la Tabla 1 para los corpora del español y en la Tabla 2 para los corpora del
catalán.
Español
Cantidad
CLiC-TALP
100.000
Fuentes
Lexesp
3LB-CAST
3
Anotación
Procedimiento
etiqueta
Automático y
morfosintáctica
validación manual
etiqueta
Automático y
morfosintáctica
validación manual
EFE (25.000)
sintaxis
Automático
Lexesp (75.000)
superficial
100.000
Los corpora 3LB-CAT y 3LB-CAST se desarrollaron en el marco del proyecto 3LB (FIT-150-500-2002-244), cuyo
objetivo principal era establecer la metodología y los criterios básicos para el etiquetado sintáctico profundo a nivel
de constituyentes y funciones.
4
La versión de WordNet utilizada es la 1.6.
5
El subconjunto de 200.000 palabras procedentes del ‘El Periódico’ son las mismas noticias en catalán y español
desde enero a diciembre de 2000.
4
CESS-ESP
500.000
sintaxis profunda
Manual
papeles temáticos
Semiautomático
WordNet
Manual
etiqueta
Automático
EFE (225.000)
morfosintáctica
Lexesp (75.000)
sintaxis
El Periódico
superficial
(200.000)
sintaxis profunda
Manual
papeles temáticos
Automático
WordNet
Manual
Automático
Tabla 1: Corpora del español
El proceso de anotación se ha llevado a cabo de manera incremental, desde los niveles más
básicos de análisis, es decir por el etiquetado morfosintáctico y el análisis sintáctico superficial
(chunking), hasta los niveles más complejos, sintáctico profundo y semántico.
Catalán
Cantidad
CLiC-TALP
100.000
3LB-CAT
CESS-CAT
100.000
500.000
Fuentes
Anotación
Procedimiento
EFE (75.000)
etiqueta
Automático y
ACN (25.000)
morfosintáctica
validación manual
etiqueta
Automático y
morfosintáctica
validación manual
EFE (75.000)
sintaxis
Automático
ACN (25.000)
superficial
sintaxis profunda
Manual
papeles temáticos
Semiautomático
WordNet
Manual
etiqueta
Automático
5
EFE (75.000)
morfosintáctica
ACN (225.000)
sintaxis
El Periódico
superficial
(200.000)
sintaxis profunda
Manual
papeles temáticos
Automático
WordNet
Manual
Automático
Tabla 2: Corpora del catalán
El proceso morfológico y el análisis sintáctico superficial se ha realizado de manera automática,
porque la calidad del resultado en estos niveles de procesamiento se encuentra alrededor del 96% para el
análisis morfosintáctico y del 98% en el análisis sintáctico superficial. La asignación semántica de synsets
de WordNet, para nombres y verbos, así como el etiquetado sintáctico profundo –constituyentes y
funciones– se realiza manualmente a partir del resultado del proceso de análisis sintáctico superficial. La
anotación con papeles temáticos se realiza semiautomáticamente. Para ello, en primer lugar, se ha
construido un léxico verbal -a partir del corpus anotado sintácticamente- con información sobre las
funciones sintácticas de cada verbo. Para cada verbo, se ha definido el papel temático correspondiente a
cada función y, finalmente, ya de manera automática, se ha enriquecido el corpus con la anotación de
papeles temáticos.
Este procedimiento de anotación secuencial por niveles presenta importantes ventajas. Por un
lado, permite gestionar la información de manera independiente, de manera que una modificación en un
nivel no requiere modificar el conjunto. Por otro lado, cada proceso de anotación implica la revisión del
proceso anterior, de manera que mejora la consistencia interna de los datos.
Para garantizar la calidad del etiquetado, se han elaborado diferentes guías de anotación6 y se han
aplicado diferentes pruebas de acuerdo entre anotadores en aquellos procesos de anotación que requieren
Todas las guías de anotación están disponibles en el apartado correspondiente a “investigación” de la página web
de CLiC: http://clic.fil.ub.es.
6
6
intervención humana, es decir, en sintaxis profunda y análisis semántico, tanto a nivel de semántica léxica
como de semántica de la oración.
Hasta el momento se encuentran ya disponibles las 500.000 palabras del corpus CESS-ECE
anotado a nivel sintáctico superficial, 300.000 a nivel sintáctico profundo (constituyentes y funciones) y
una muestra de 2.000 oraciones con información semántica.
2 Proceso de anotación
Si se tiene en cuenta que se ha realizado un proceso de anotación secuencial que ha implicado,
para cada nivel de anotación, la revisión de los procesos anteriores, desde una perspectiva global, puede
decirse que el corpus CESS-ECE se ha anotado de manera semiautomática. Considerados cada uno de los
niveles de análisis de manera independiente, se han aplicado estrategias automáticas, manuales y
semiautomáticas. A continuación, presentamos con mayor detalle los diferentes procesos de anotación.
2.1 Procesos automáticos
En el contexto de la Lingüística de Corpus se entiende por proceso automático aquel que se aplica
sobre un corpus dando como resultado el texto anotado en su totalidad con un nivel de calidad que permite
considerar la anotación como finalizada. En el caso que nos ocupa y para las lenguas catalana y española,
son dos los procesos que satisfacen estas características: la anotación morfosintáctica y la anotación
sintáctica superficial (o chunking).
2.1.1 Anotación morfosintáctica
La anotación morfosintáctica consiste en asociar a cada una de las palabras de un texto su
descripción morfológica y su lema.7 La descripción morfológica contiene la categoría morfosintáctica y
los atributos morfológicos asociados. En nuestro caso, la anotación se lleva a cabo de modo automático
7
El lema de cada palabra es su forma canónica o entrada de diccionario.
7
con el analizador MACO (Carmona et al. 98; Civit et al. 2001), que da como resultado todas las
interpretaciones posibles de una palabra. El resultado del análisis es el siguiente:
<palabra><lema1 etiqueta1 lema2 etiqueta2 ... leman etiquetan>.
Es decir, cada palabra tiene asociadas una o más interpretaciones morfológicas, donde cada interpretación
morfológica es un lema y una etiqueta descriptiva. En la Figura 1, se muestra un ejemplo del resultado que
proporciona el analizador.
Pese a que pese a que CS
es e NCFP000 ser VSIP3S0
rentable rentable AQ0CS0
publicitariamente publicitariamente RG
, , Fc
el el DA0MS0
ciclismo ciclismo NCMS000
español español AQ0MS0 español NCMS000
tiene tener VMIP3S0
un uno DI0MS00 uno DN0MS0 uno PN0MS000
gran gran AQ0CS0
problema problema NCMS000
. . Fp
Figura 1: Análisis morfológico
Las etiquetas que se utilizan están formadas por dígitos alfanuméricos, que codifican toda la
información morfosintáctica de la palabra, siguiendo la propuesta EAGLES (Monachini et al. 96). Como
se puede observar, en la oración del ejemplo hay tres palabras que son ambiguas (“es”, “español”, “un”),
por lo que reciben más de una interpretación morfosintáctica.
Una vez analizado el texto y obtenidas todas las interpretaciones posibles, se aplica el
desambiguador morfosintáctico RELAX (Padró 97) que selecciona la interpretación correcta para cada
palabra en función del contexto en que aparece. RELAX combina técnicas de aprendizaje automático
junto con reglas elaboradas manualmente (Civit et al. 2003b). El corpus CLiC-TALP del catalán y del
castellano se utilizó para que RELAX adquiriera el conocimiento necesario para llevar a cabo el proceso
de desambiguación. Para ello, estos corpus se analizaron automáticamente con MACO y se
desambiguaron a mano. Con ello quedó constituido el corpus de referencia (gold standard) para la
8
desambiguación morfosintáctica de estas lenguas. Una vez aplicados los algoritmos de aprendizaje
autumático sobre estos corpus anotados manualmente -y, por lo tanto, con un nivel de calidad óptimo-, el
desambiguador RELAX estuvo ya en condiciones de ser utilizado para la desambiguación morfosintáctica
automática de corpora.
En el análisis del español y del catalán hemos definido diferentes tipos de ambigüedad
morfosintáctica: (a) ambigüedad debida a la categoría, como en el caso de la forma “es” del ejemplo, que
puede ser nombre o verbo, o bien la palabra “español”, que puede ser adjetivo o nombre; (b) ambigüedad
en la subcategoría, como es el caso de “un” que puede ser determinante numeral o indefinido; (c)
ambigüedad debida a los atributos morfológicos, como sería el caso de la palabra “cólera” que tiene
significados distintos según sea masculina o femenina; (d) finalmente, tenemos la ambigüedad en el lema,
cuando una palabra, como “fui” puede corresponder tanto al verbo “ir” como al verbo “ser”.
Las técnicas de aprendizaje automático resuelven preferentemente las ambigüedades categoriales,
mientras que las reglas manuales resuelven los casos de ambigüedad de lemas, subcategorías y flexión. La
calidad del proceso de desambiguación automático es de un 96% de acierto.
A continuación se muestra la frase del ejemplo una vez aplicado el proceso de desambiguación:
Pese a que pes_ a_que CS
es ser VSIP3S0
rentable rentable AQ0CS0
publicitariamente publicitariamente RG
, , Fc
el el DA0MS0
ciclismo ciclismo NCMS000
español español AQ0MS0
tiene tener VMIP3S0
un uno DI0MS0
gran gran AQ0CS0
problema problema NCMS000
. . Fp
Figura 2: Análisis morfosintáctico desambiguado
2.1.2
Análisis sintáctico superficial (chunking)
9
Los objetivos de un sistema de análisis sintáctico son, fundamentalmente, agrupar las palabras en
unidades de nivel superior (sintagmas y cláusulas) que identifiquen los constituyentes principales de una
oración y etiquetar estos constituyentes. Para el español y el catalán no existen actualmente sistemas de
análisis sintáctico que realicen esta tarea de manera automática. Es por ello que el análisis sintáctico del
corpus CESS-ECE se ha realizado en dos etapas. En una primera etapa se ha realizado un análisis
sintáctico superficial (chunking) del corpus de manera totalmente automática y, posteriormente, se ha
llevado a cabo un proceso de anotación manual a nivel sintáctico profundo a partir de los resultados
obtenidos en el análisis superficial.
El análisis sintáctico superficial es un proceso intermedio entre la morfología i la sintaxis, en el
que se resuelven cuestiones que han quedado pendientes en al análisis morfológico, como por ejemplo las
formas compuestas de los verbos, las perífrasis verbales, pero también se tratan aspectos puramente
sintácticos como la identificación de constituyentes a un nivel superficial.
El analizador utilizado para el análisis sintáctico superficiales TACAT (Atserias et al. 1998). Se
trata de un analizador basado en charts que funciona izquierda-derecha y de abajo a arriba (bottom–up).
Este analizador da como resultado, junto con una gramática de contexto libre, el análisis del texto. Las
gramáticas utilizadas, GramCat para el catalán y GramEsp para el español (Civit y Martí 2005), se han
elaborado a mano y constan de unas 1.500 reglas. A continuación se ejemplifican con algunas reglas
correspondientes al sintagma nominal:
sn ==> espec−ms, grup−nom−ms.
sn ==> espec−mp, grup−nom−mp.
sn ==> espec−fs, grup−nom−fs.
sn ==> espec−fp, grup−nom−fp.
En la figura 3 se muestra el resultado del análisis superficial del fragmento oracional
‘Evidenciando la sintonía entre formaciones nacionalistas (…)’.
(S
10
( S.NF.A8
(gerundio
(vmg0000 Evidenciando evidenciar) )
(sn
(espec.fs
(da0fs0 la el))
(grup.nom.fs
(ncfs000 sintonía sintonía)))
(sp
(prep
(sps00 entre entre))
(sn
(espec.fp
(dn0fp0 ambas ambas))
(grup.nom.fp
(ncfp000 formaciones formación))
(s.a.fp
(aq0cp0 nacionalistas nacionalista))))
Figura 3: Análisis sintáctico superficial
Como puede observarse en el ejemplo, se trata de un análisis en el que no se expresan relaciones
jerárquicas entre constituyentes: el sintagma preposicional introducido por la preposición ‘entre’ debería
complementar al sustantivo ‘sintonía’, sin embargo ambos constituyentes se encuentran al mismo nivel.
No encontramos tampoco reflejadas las funciones de los constituyentes respecto del verbo. En este nivel
de análisis el índice de error es muy bajo – alrededor del 4%- dado el carácter superficial del proceso.
2.2 Anotación manual
Se ha llevado a cabo un proceso de anotación manual de los corpus CESS-ECE en el etiquetado
sintáctico profundo y en la desambiguación semántica léxica. No se dispone en la actualidad de sistemas
que realicen estas tareas de manera automática con un índice de calidad suficiente. Si se tiene en cuenta
que los objetivos de la creación de los corpus anotados CESS-ECE es que sirvan de fuente de información
para los estudios lingüísticos y que se puedan utilizar para el entrenamiento de los sistemas de anotación
automáticos basados en técnicas de aprendizaje automático, se justifica plenamente que se haya optado
por un etiquetado manual para garantizar la calidad de los resultados.
8
S.NF.A introduce una oración subordinada de gerundio.
11
2.2.1. Anotación sintáctica profunda
La anotación sintáctica profunda se realiza sobre el resultado del proceso automático de chunking.
Los lingüistas disponen de una interfaz gráfica, AGTK (Cotton et al. 2002), para la edición de árboles
sintácticos que permite unir y separar oraciones y texto, añadir trazas y nodos, modificar la anotación
morfológica, etc. En definitiva, todas aquellas operaciones necesarias para modificar los árboles
sintácticos y establecer relaciones de dependencia entre los nodos.
Debido a la complejidad de esta tarea, la anotación sintáctica profunda se ha realizado en dos fases
diferenciadas. En la primera, se han anotado los constituyentes y en la segunda fase, las funciones. Esta
subdivisión de procesos se justifica por el hecho de que la definición de los constituyentes es una tarea
mucho más compleja que la asociación de funciones a los mismos.
Tanto la anotación de constituyentes como la de funciones se han realizado siguiendo una
metodología de proceso en paralelo con pruebas de acuerdo entre anotadores para garantizar la coherencia
interna de la anotación. Cinco lingüistas anotaron en paralelo un total de 1000 oraciones en diferentes
etapas. En la primera etapa se etiquetaron 100 oraciones con el objetivo de detectar los problemas que esta
tarea planteaba y determinar los principios básicos del proceso de anotación. En una segunda etapa se
etiquetaron 220 oraciones y, después de analizar los desacuerdos se elaboró la primera versión de la guía
de anotación.9 En tres fases posteriores se anotaron 320, 670 y 30 oraciones respectivamente. Después de
cada fase de anotación se discutieron los resultados y los acuerdos se incorporaron en la guía. Al finalizar
el experimento se había alcanzado un 96% de acuerdo entre anotadores (Civit et al. 2003a).
2.2.2. Anotación con WordNet
Para la anotación con WordNet se ha utilizado una versión fija de WordNet 1.6 del catalán y del
español. Hasta el momento sólo se etiquetan los verbos y los nombres ya que constituyen los elementos
9
Todas las guias de anotación de constituyentes y funciones se encuentran disponibles en el apartado Publicaciones
de la web de CLiC: http://clic.fil.ub.es
12
fundamentales sobre los que se construye el significado. No se descarta en fases posteriores proceder a la
anotación completa del corpus.
La anotación se realiza manualmente mediante una interfaz que muestra al lingüista los diferentes
sentidos de cada palabra y la frase en la que ésta se encuentra. La anotación se realiza por lemas para
facilitar la tarea del anotador y garantizar una mayor consistencia en los resultados ya que se tratan
conjuntamente todas las apariciones de un mismo lema.
2.3 Procesos semiautomáticos
La anotación semántica con papeles temáticos de los corpora CESS-ECE se lleva a cabo en dos
etapas: en una primera fase, el etiquetado se realiza de manera semiautomática para un subconjunto de
100.000 palabras de cada corpus (Civit et al. 2005a) y, en una segunda fase, se etiquetan las 400.000
palabras restantes de manera automática, aplicando técnicas de aprendizaje automático (Surdeanu 2006) y
de etiquetado automático incremental (Busser y Morante 2005). En este apartado, se presenta la
metodología semiautomática (Taulé et al. 2005) aplicada en el etiquetado de semántica oracional.
Básicamente, se parte de la información sintáctica expresada en los corpus de 100.000 palabras de 3LB y
se deriva de forma automática un léxico verbal que contiene para cada sentido del verbo todos los
esquemas sintácticos en los que aparece. A partir de esta información se crea manualmente CESS-LEX
(Taulé y Castellví 2006), un léxico verbal en el que se establece la correspondencia entre información
sintáctica (constituyentes y funciones) e información semántica (estructuras léxico-semánticas con sus
argumentos y papeles temáticos correspondientes). Es a partir de este léxico, CESS-LEX, que se etiqueta
semánticamente y de manera automática el subconjunto de 100.000 palabras (Véase el apartado 3.4). Una
vez revisado manualmente este subconjunto, de manera que se garantice la calidad del mismo y el éxito de
las técnicas automáticas, se procederá al etiquetado automático de las 400.000 palabras restantes.
La estrategia seguida para el proceso automático de anotación semántica a partir de la información
especificada en CESS-LEX se ha realizado de manera progresiva. Es decir, primero se han asignado
automáticamente aquellas posiciones argumentales y papeles temáticos que se corresponden de manera
13
inequívoca con una función sintáctica concreta, por ejemplo, el atributo (ATR) y el complemento agente
(CAG) que siempre se realizan como un Arg2-ATR y un Arg0-AGT respectivamente. Después, se han
asignado aquellas etiquetas que implican algún tipo de condición morfosintáctica, en concreto, para anotar
los sujetos pacientes de construcciones pasivas. Es decir, si en el árbol de análisis aparecen en la etiqueta
morfológica los atributos ‘vs’10 o en la etiqueta sintáctica el morfema verbal ‘PASS’,11 entonces se asigna
directamente a la función sintáctica de sujeto (SUJ) el papel temático Paciente (Arg1-PAT). En estos
casos se trata de una información válida para cualquier verbo con esas determinadas funciones o
especificaciones morfosintácticas. A continuación, a partir de la información especificada en CESS-LEX,
se efectúa de manera totalmente automática la correspondencia entre información sintáctica y semántica
de aquellas entradas léxicas que sólo ocurren una vez en el corpus (un total de 633 verbos para el español
y 727 para el catalán) y la de aquellos verbos en los que sólo se ha encontrado, en el corpus, un único
sentido (aproximadamente unos 394 verbos para el español y 278 para el catalán). Para el resto de verbos,
más polisémicos, se ha partido de la información especificada en CESS-LEX y, especialmente, teniendo
en cuenta los ejemplos incluidos en las entradas (extraídos directamente del corpus). Evidentemente, la
revisión manual de las oraciones correspondientes a estos predicados verbales es más necesaria. El
proceso de validación manual se realiza para todas las oraciones y utilizando el léxico CESS-LEX como
guía de anotación.
Para garantizar la consistencia en el proceso de elaboración del lexicón CESS-LEX
y, en
definitiva, en la anotación semántica general del corpus, además de la guía de anotación correspondiente
(Taulé et al. 2006), se han realizado pruebas de acuerdo entre anotadores. En la guía se describen
detalladamente los fundamentos teóricos y metodológicos, así como los criterios de anotación seguidos
(Véase apartado 3.4). El proceso de anotación se ha dividido en cinco partes. En la primera, básicamente
destinada al aprendizaje, se elaboraron las entradas léxicas de 10 verbos, de diversa
frecuencia y
complejidad, que sirvieron para asimilar la metodología y los criterios de anotación. A continuación, los
10
11
Los dígitos ‘vs’ de la categoría morfosintáctica indican que se trata del verbo ‘ser’ en una construcción pasiva.
PASS indica que el verbo está en pasiva.
14
cuatro anotadores etiquetaron en paralelo 30 verbos, de frecuencia media-alta,12 a partir de los cuales se
realizó la primera prueba de acuerdo entre anotadores y el resultado en la asignación fue un acuerdo de
entre un 65% y 70%. La revisión de estos primeros 30 verbos supuso la ampliación y mejora,
especialmente con la incorporación de nuevos ejemplos, de la guía de anotación.13 Una vez revisada la
guía se procedió a etiquetar 70 verbos más de frecuencia media alta por el mismo grupo de cuatro
anotadores. Esta vez el acuerdo de anotación fue aproximadamente del 85%. A partir de aquí, se formaron
dos equipos de anotadores, de dos personas cada uno, que elaboraron las entradas léxicas de 100 verbos
por equipo, en los que se incluían verbos de frecuencia alta14 y verbos de frecuencia media-baja.15 Las
entradas léxicas que presentaban acuerdo total se daban por buenas y en las que se producía algún tipo de
desacuerdo eran revisadas por todo el equipo de anotadores. Los resultados mejoraron considerablemente
y se alcanzó un acuerdo global de entre el 93% i 95%. Finalmente, los 1.000 verbos restantes, de
frecuencia baja,16 se dividieron entre los cuatro anotadores, es decir 250 verbos por anotador, y sólo se
revisaron aquellos que planteaban problemas.
3 Fundamentos lingüísticos del sistema de anotación
A continuación presentamos los criterios lingüísticos aplicados en los diferentes niveles de
análisis lingüístico.
3.1 Anotación morfosintáctica
Como ya se ha indicado más arriba, la anotación morfosintáctica consiste en la asociación de
información sobre el lema, la categoría y los atributos morfológicos a cada una de las palabras del texto.
El sistema de anotación utilizado se ha basado en los estándares propuestos por EAGLES (Monachini et
12
Se entiende por frecuencia media alta los verbos que presentan en el corpus entre 20 y 10 ocurrencias.
De hecho, la guía de anotación se ha ido mejorando progresivamente en función de los problemas que han surgido
en la elaboración de las distintas entradas léxicas.
14
Se entiende por frecuencia alta verbos que presentan en el corpus desde 1.437 ocurrencias (el verbo ser, el más
frecuente) hasta 21 ocurrencias.
15
Se entiende por frecuencia media baja los verbos que presentan en el corpus entre 9 y 4 ocurrencias.
16
Se entiende por frecuencia baja verbos que presentan en el corpus entre 3 y 1 ocurrencias.
13
15
al. 1996). El sistema de categorías que proponemos trata de compatibilizar el análisis de corpus con la
tradición lingüística, para que el resultado pueda ser aceptable para uno y otro campo.
El sistema de categorías que se ha adoptado incluye las categorías tradicionales como son el adjetivo, el
adverbio, el artículo, el determinante, el nombre, el verbo, la preposición, el pronombre, la conjunción y la
interjección, así como categorías propias de los corpora, como las abreviaturas, las cifras, las fechas y los
signos de puntuación. Se ha reservado también una etiqueta para los elementos desconocidos.
Existe acuerdo generalizado sobre las categorías del primer grupo, a pesar de que en ocasiones el
estatus del artículo, los determinantes y los pronombres como categorías independientes se haya puesto en
duda y de que las interjecciones no siempre se han considerado clases de palabra porque son elementos
típicos del discurso. Sobre las restantes categorías pueden hacerse varias observaciones:
a) las cifras suelen verse como la representación numérica de los cuantificadores;
b) las abreviaturas son sustitutos de palabras de la lengua que pueden pertenecer a diversas categorías;
c) la fechas no se consideran unidades, sino elementos complejos formados por unidades menores;
d) la puntuación nunca ha sido considerada como una "clase de palabra", sino como marcas gráficas que
reflejan fenómenos orales tales como las pausas o la entonación.
Se trata en todos estos casos de categorías especiales que hay que tratar en el análisis de corpora.
El número total de etiquetas morfosintácticas utilizadas es de 285. Cada etiqueta consta de un número
determinado de dígitos y cada dígito expresa de manera sistemática una determinada información. Así, en
las etiquetas correspondientes a los nombres el primer dígito expresa la categoría (N, nombre), el segundo
la subcategoría (C o P, común o propio respectivamente), el tercero el género (M, F o C, correspondientes
a masculino, femenino o no especificado) y, finalmente el cuarto expresa el número (S o F, singular o
plural). Así, para la palabra “niño”, la etiqueta correspondiente sería NCMS y para “joven”, NCCS. En
Civit (2003) se encuentra una relación detallada de todo el sistema de etiquetado.
3.2 Análisis sintáctico superficial
16
El análisis sintáctico superficial aplicado se basa en la agrupación de palabras en constituyentes
simples ( o chunks). El concepto de chunk que se ha adoptado (Civit y Martí 2005) difiere en cierto modo
del propuesto por Abney, debido a las características específicas del español y del catalán. La definición
de chunk en Abney (1991) es la siguiente:
‘ major heads are all content words except those that appear between a function word f and
the content word that f selects. For example, proud is a major head in a man proud of his son,
but proud is not a major head in the proud man, because it appears between the function word
the and the content word man selected by the.’
De acuerdo con esta definición ‘a proud man’ sería un chunk, mientras que ‘a man proud of his
son’ serían tres chunks: [a man] [proud] [of his son]. Esta formulación de chunk no se adapta bien a
nuestras lenguas ya que “un hombre orgulloso” se analizaría como dos chunks [un hombre] y [orgulloso],
cuando sería mucho más interesante que fuera solamente uno.
La reformulación posterior de Abney (1996) en términos de islands of certainty es más flexible y
es aplicable a un mayor número de lenguas: ‘a chunk is a intra-clausal constituent including pre-head as
well as post-head modifiers, but not pp-attachment or sentential elements’. En nuestro caso, hemos
adoptado esta definición de chunk, con la salvedad que admitimos adjunción de sintagmas preposicionales
bajo condiciones restringidas: la adyacencia del sintagma preposicional respecto del núcleo al que
complementa siempre que el sintagma preposicional esté introducido por la preposición “de”. Así “un
personaje de cine” sería un chunk, pero “un personaje fabuloso de cine” serían dos: [un personaje
fabuloso] y [de cine].
Los chunks que se tratan son: sintagma nominal (sn), sintagma preposicional (sp) , sintagma
adjetivo (sa), sintagma adverbial (sadv), y grupo verbal (gv), que incluyen formas simples y complejas
como ‘es’, ‘ha sido’, ‘debería haber sido’, ‘tiene que ser’, etc. en todas sus variantes flexivas. Los clíticos
y otras partículas, como la negación, no se incluyen en el grupo verbal.
Otros elementos reconocidos por la gramática como los pronombres relativos y las conjunciones
subordinantes se han dejado como nodos unarios en el árbol de análisis. En lo que se refiere a la
coordinación, sólo se han tratado aquellos casos en que ésta se produce entre dos ítems léxicos sin ningún
17
tipo de complementos. Por ejemplo, el sistema de análisis construye un chunk de coordinación en el caso
del sintagma ‘una lección de poderío y clase’, pero no lo construye en el caso de ‘la debilidad sentimental,
la resignación y el miedo’ a causa de la presencia de artículos y adjetivos.
Finalmente, hay que señalar que no se analizan las cláusulas. La razón estriba en el hecho de que
si bien es fácil identificar donde empiezan, ya que el elemento introductor es obligatorio en ambas
lenguas, no es posible determinar donde terminan. Es por ello que el tratamiento de las cláusulas
subordinadas se realiza en el proceso manual posterior, es decir en el análisis sintáctico profundo.
3.3 Anotación sintáctica completa
Para llevar a cabo la anotación sintáctica profunda se consultaron y analizaron los criterios de
anotación de los bancos de árboles existentes más significativos (Marcus et al. 1993; Sampson 1995;
Hajic 1998; Bemova et al. 1999; Brants et al. 2001; Boguslavsky et al. 2002; Abeillé et al. 2001;
Montemagni et al . 2001; Afonso et al. 2002; Tadic 2002; etc.). A partir de estos trabajos, se definieron
una serie de principios de carácter teórico y metodológico para la anotación sintáctica del corpus que
exponemos a continuación.
Existe un debate abierto sobre el esquema de anotación más apropiado para los bancos de datos
sintácticos. Los defensores de la anotación de dependencias consideran que este sistema es el más
apropiado para lenguas de orden libre (Brants et al. 2001; Boguslavsky et al. 2002), y facilita la aplicación
de medidas de error y comparaciones entre diferentes bancos de datos sintácticos. La anotación con
constituyentes suele utilizarse para lenguas de orden fijo de constituyentes, dándose además un encaje casi
total entre funciones y las posiciones de los constituyentes. Así, en las oraciones declarativas, el sintagma
nominal que precede al verbo suele ser el sujeto. En nuestra aproximación hemos adoptado la anotación
con constituyentes puesto que era la más compatible con la anotación resultante del análisis sintáctico
superficial. Además, siendo posible el paso automático de un tipo de anotación a otra, siempre es más
sencillo el paso de constituyentes a dependencias que a la inversa (Civit et al. 2006).
18
Una de las cuestiones fundamentales a la hora de anotar sintácticamente un corpus es determinar
si se va a seguir o no un determinado marco teórico. Se ha constatado que las teorías lingüísticas
proporcionan soluciones a problemas específicos de las lenguas naturales, pero suelen presentar problemas
de cobertura cuando hay que tratar los problemas que plantea el análisis de corpora, que no quedan
contemplados en un modelo hipotético de lenguaje. Por otro lado, las teorías suelen tratar fenómenos muy
específicos que raramemte aparecen en los corpora (véase Sampson 1987). En la anotación sintáctica de
corpora existen dos tendencias: aquellos que defienden una anotación con base teórica y los que prefieren
una anotación teóricamente neutra y fundamentalmente descriptiva. Entre los primeros destacan los
bancos de datos sintácticos basados en la teoría de la X-barra, como el PennTreeBank, (Marcus et al.
1993; Taylor et al. 2001) y aquellos que se han anotado siguiendo la teoría HPSG (Head-driven Phrase
Structure Grammar). Resolver la distinción entre argumentos y adjuntos o la adjunción de sintagmas
preposicionales son algunos de los problemas más frecuentes y que no tienen una fácil solución en un
determinado marco teórico.
Entre los sistemas de anotación que no siguen ninguna teoría en particular, Abeillé et al. (2001)
justifican esta opción en la medida en que se pueden adoptar soluciones de anotación que hacen que el
corpus sea de interés no solo para los lingüistas, sinó también para informáticos, psicolingüistas, etc. En
el desarrollo de los corpus de CESS-ECE hemos seguido esta propuesta ya que nuestro objetivo no es
tanto demostrar la viabilidad de una determinada teoría, sino fijar un estándar para la anotación de
constituyentes y funciones suficientemente neutro para ser utilizado tanto para procesamiento del lenguaje
como para la investigación lingüística.
A continuación en la Figura 4 presentamos un ejemplo de análisis profundo según la aproximación
seguida en CESS-ECE:
(S
(sn SUJ
(espec.fp
(da0fp0 Las el))
(grup.nom.fp
(ncfp000 reservas reserva)))
(sp
(prep
19
(sps00 de de))
(sn
(grup.nom.co
(grup.nom.ms
(ncms000 oro oro)))
coord
(cc y y)
(grup.nom.fp
( ncfp000 divisas divisa)))
(gv
(vmis3p0 subieron subir))
(sn CC
(grup.nom
(Zm 800_millones_de_dólares 800_millones_de_dólares))))
Figura 4 Análisis sintáctico completo
Como puede observarse en el ejemplo, en nuestra aproximación, no se hace ninguna distinción
entre adjuntos y argumentos, de manera que el nodo que contiene el sujeto, el verbo, los complementos
del verbo y los adjuntos son todos nodos hermanos a un mismo nivel que dependen directamente del nodo
oración. Esta decisión implica también que no hemos incluido el nodo correspondiente al sintagma verbal,
de manera que se evita el problema del tratamiento de los constituyentes discontinuos, como es el caso del
nodo sujeto en posición postverbal, las topicalizaciones, las dislocaciones, etc. Respecto a los elementos
elípticos, teniendo en cuenta que tanto el español como el catalán son lenguas pro-drop, se ha optado por
tratar sólo el caso del sujeto.
El orden superficial se ha mantenido, respetando el texto original. Cuando hay alteraciones del
orden secuencial, como en el caso de los elementos discontinuos de las oraciones comparativas,
interrogativas, etc., se identifican estos elementos mediante índices que permiten relacionarlos aunque no
sean correlativos.
3.4 Anotación semántica
Los corpus CESS-ECE contienen dos niveles de anotación semántica: la anotación a nivel de
semántica léxica con WordNet, por un lado, y la anotación a nivel de semántica oracional con la
asignación de papeles temáticos, por el otro. Tal como se ha indicado en los apartados anteriores, la
20
metodología seguida ha sido totalmente manual para el etiquetado con synsets de WordNet
y
semiautomática para la anotación con papeles temáticos.
Para la anotación con papeles temáticos se parte de la hipótesis de que el análisis de la estructura
léxico-semántica (ELS) de los predicados verbales es el punto de partida para la descripción semántica de
la oración. La estructura argumental expresa la aridad del verbo y de la ELS se deriva la relación entre el
predicado y sus argumentos, expresada mediante papeles temáticos. La caracterización semántica de los
predicados se fundamenta desde un punto de vista teórico en la propuesta de descomposición léxica de
Rappaport-Hovav y Levin (1998), de donde se toma el concepto de estructura léxico-semántica.
Consideramos que se trata de una propuesta adecuada a nuestro propósito por diferentes razones. En
primer lugar, porque cohesiona en un mismo modelo la información léxico-semántica y la información
eventiva con la información argumental y las alternancias de diátesis. En segundo lugar, porque en el área
de la lingüística de corpus y la lingüística computacional se han realizado ya para el inglés experiencias
similares siguiendo esta aproximación, como en el caso de PropBank (Palmer et al. 1995). Para la
caracterización de los predicados verbales se parte de un conjunto relativamente restringido de ELSs
(Véase Figura 5), que corresponden a las cuatro clases básicas de eventos (Dowty 1991): estados (1),
actividades (2), realizaciones (3) y logros (4).
(1)
[x <ESTADO>]
(2)
[x ACTUAR <MANERA/ INSTRUMENTO> y]
(3)
[x CAUSAR [DEVENIR [y <ESTADO/COSA/LUGAR>]]]
(4)
[DEVENIR [y <ESTADO>]]]
Figura 5: Estructuras Léxico-Semánticas
Los papeles temáticos vienen determinados fundamentalmente por la pertenencia de los predicados
a una de estas clases, a partir básicamente de su posición en la ELS, y por el tipo de alternancia de
21
diátesis en que participan.17 De este modo, no sólo especificamos los papeles temáticos sino que
caracterizamos semánticamente el predicado tanto desde el punto de vista aspectual como argumental.
En nuestra propuesta se asume la clasificación de diátesis de Vázquez et. al (2000), aunque
extendemos el modelo relacionando cada una de las diátesis con las ELSs. De hecho, se parte de la
hipótesis de que las diátesis admitidas por un determinado predicado derivan directamente de su ELS. Por
lo tanto, consideramos que todas las realizaciones diatéticas de un mismo predicado corresponden a una
misma ELS, aunque cada una de ellas focaliza en determinados componentes de la misma. En definitiva,
las diátesis son estructuras superficiales que resultan de focalizar de un modo u otro los predicados de la
ELS.
Para la anotación de los argumentos hemos seguido la propuesta de PropBank (Palmer et al. 2005)
donde se distingue entre los argumentos obligatorios (Arg0, Arg1, Arg2, Arg3, Arg4)18 y los adjuntos
expresados como argumentos opcionales (ArgM). Para cada argumento y dependiendo del tipo de ELS del
verbo resultan una serie de papeles temáticos que presentamos a continuación:
Arg0:
Arg1:
Arg0-AGT (Agente), Arg0-CAU (Causa) Arg0- EXP (Experimentador)
Arg1-PAT (Paciente), Arg1-TEM (Tema),
Arg1-ATR (Atributo),
Arg1-EXT
(Extensión)
Arg2:
Arg2-ATR (Atributo), Arg2-BEN (Beneficiario), Arg2-INS (Instrumento), Arg2-EXT
(Extensión), Arg2-EFI (Estado Final)
Arg3:
Arg3-ATR (Atributo), Arg3-BEN (Beneficiario), Arg3-INS (Instrumento),
Arg3-ORI (Origen)
Arg4: Arg4-DES (Destino)
ArgM: ArgM-LOC (Locativo), ArgM-TMP (Temporal), ArgM-EXT (Extensión), ArgM-FIN
(Finalidad), ArgM-CAU (Causa), ArgM-MNR (Manera), ArgM-DIR (Dirección),
ArgM-ADV (Adverbial)
Este sistema de anotación permite que un mismo papel temático pueda ocupar posiciones argumentales
diferentes en función del verbo que se analice.
17
De hecho, estas clases se subespecifican en función de la estructura argumental, los papeles temáticos y las
diátesis admitidas por el predicado verbal.
18
La enumeración refleja la proximidad del argumento respecto al verbo.
22
En la Figura 6 se muestra una frase analizada y etiquetada (‘El suizo difícilmente atacará a Rominger en la
montaña’) de modo completo con todos los niveles de anotación. Podemos observar que cada palabra
tiene asociada su categoría y su lema, que cada constituyente tiene asignada su función sintáctica, así
como el número de argumento y el papel temático correspondiente.
(S
(sn -SUJ-Arg0-AGT
(espec.ms
(da0ms0 El el ))
(grup.nom.ms
(ncms000 suizo suizo)))
(sadv
(rg difícilmente difícilmente ))
(gv
(vmif3s0 atacará atacar ))
(sp –CD-Arg1-PAT
(prep
(sps00 a a ))
(sn
(grup.nom.ms
(np00000 Rominger Rominger))))
(sp –CC-ArgM-LOC
(prep
(sps00 en en ))
(sn
(espec.fs
(da0fs0 la el ))
(grup.nom.fs
(ncfs000 montaña montaña )))))
Fp . .
Figura 6: Análisis completo con todos los niveles de anotación
4. Consideraciones finales
En este artículo se ha presentado la metodología y la base lingüística que se ha seguido en la
construcción de los corpora CESS-ECE del español y catalán. Como se ha podido apreciar, se ha tratado
de seguir criterios estándar y eminentemente descriptivos. Estos corpora, o partes de los mismos, se
utilizan como fuente de información para el entrenamiento de analizadores morfosintácticos y también
como recursos lingüísticos en competiciones internacionales como SenSeval (http://www.senseval.org/) y
ConLL (http://www.cnts.ua.ac.be/conll/).
23
En un inmediato futuro está previsto derivar de manera semiautomática gramáticas para el análisis de
ambas lenguas y desarrollar sistemas de etiquetado automático con papeles temáticos.
Actualmente se dispone ya de una interfaz de consulta en fase de pruebas donde se pueden realizar
búsquedas basadas en la correspondencia entre papeles temáticos y funciones sintácticas de los corpus
tratados hasta el momento (http://www.lsi.upc.edu/~mbertran/cess-ece/).
5. Referencias bibliográficas
Abeillé A., Clément L. y Kinyon A. “Building a Treebank for French.” Building and Using Syntactically
Annotated Corpora. Language and Speech, Dordrecht: Kluwer, 2001.
Abney, S. “Part-of-Speech Tagging and Partial Parsing. Proceedings of the ESSLL’96 Robust Parsing
Workshop, 1996.
Afonso S., Bick E., Haber R.. y Santos D. “Floresta Sintáctica: a Treebank for Portuguese.” Proceedings
of the Third Conference on Language Resources and Evaluation. Las Palmas: LREC (2002).
Atserias, J., Carmona, J., Castellón, I., Cervell, S., Civit, M., Màrquez, L., Martí, M.A., Padró, L., Placer,
R., Rodríguez, H., Taulé, M. y Turmo,J. “Morphosyntactic análisis and parking of Unrestricted
Spanish Text”. Proceedings of the First Conference on Language Resources and Avaluation 2.
Granada: LREC (1998): 1.267-1.272.
Bemova A., Hajic J., Hladka B. y Panevova J. “Morphological and Syntactic Tagging of The Prague
Dependency Treebank.” Journés Atala, Corpus annotés pour la syntaxe. Paris, 1999.
Brants T., Skut, W. y Uszkoreit H. “Syntactic Annotation of a German Newspaper Corpus.” Building and
Using syntactically annotated corpora, Kluwer: Kluwer, Language and Speech (2001).
Boguslavsky I., Chardin I., Grigorieva S., Grigoriev N., Iomdin L., Kreidlin L. y Frid N. (2002)
“Development of a Dependency Treebank for Russian and its possible Applications in NLP.”
Proceedings of the Third Conference on Language Resources and Evaluation. Las Palmas: LREC
(2002).
Busser, B. y Morante, R. “Designing an active learning based system for corpus annotation”.
Procesamiento del Lenguaje Natural 35, Granada: SEPLN (2005): 375-382.
Carmona, J., Atserias, J., Castellón, I., Cervell, S., Civit, M., Màrquez, L., Martí, M.A., Padró, L.,
Placer, R., Rodríguez, H., Taulé, M. y Turmo,J.
“Morphosyntactic Analysis and Parsing of
Unrestricted Spanish Text”. Proceedings of the First Conference on Language Resources and
Avaluation 2. Granada: LREC (1998): 915-922.
24
Civit, M., Castellón, I. y Martí, M.A. “Creación, etiquetación y desambiguación de un corpus de
referencia del español”. Procesamiento del Lenguaje Natural 27. Jaén: SEPLN (2001): 21-28.
Civit, M. Criterios de etiquetación y desambiguación morfosintáctica de corpus del español, Alicante:
Monografías de la Sociedad Española para el Procesamiento del Lenguaje Natural 3, 2003.
Civit, M., Ageno, A., Navarro, B., Bufí, N. y Martí, MA. “Qualitative and Quantitative Analysis of
Annotators Agreement in the Development of Cast3LB”. 2nd Workshop on Treebanks and
Linguistic Theories . Växjö: TLT03 (2003).
Civit, M., Martí, M.A. y Padró, L. “Using hybrid probabilistic-linguistic knowledge to improve postagging performance”. Proceedings of Corpus Linguistics. UK: Lancaster University (2003).
Civit, M. y Martí, M.A. “Estándares de anotación morfosintáctica para el español”. Proceedings of IX
Ibero-American Workshops on Artificial Intelligence. México: Iberamia (2004): 217-224.
Civit, M. y Martí, M.A. “Building Cast3LB: a Spanish Treebank”, Research on Language & Computation
2, Germany: Springer Science+Business Media B.V. (2004): 549-574.
Civit, M. y Martí, M.A. (2005) ‘GramCat and GramEsp : two Grammars for Chunking’, en Intelligent
Information processing and Word Mining, Gdansk, Poland. Springer Verlag. ISSN 1615-3871.
Civit, M., Aldezabal, I., Pociello, E., Taulé, M., Aparicio, J., Màrquez, L., Navarro, B., Castellví, J. y
Martí M.A. “3LB-LEX: léxico verbal con frames sintáctico-semánticos”. Procesamiento del
Lenguaje Natural 30. Granada: SEPLN (2005): 367-374.
Civit, M., Martí, M.A. y Bufí, N. “Cat3LB and Cast3LB: From Constituents to Dependencies”. Advances
in Natural Language Processing. Germany: Springer (2006): 141-152.
Cotton, S. y Bird, S. “An integrated framework for treebanks and multilayer annotations”. Proceedings of
the Second International Conference on Language and Evaluation. Greece: LREC (2000).
Dowty, D. “Thematic proto-roles and argument selection”. Language, 67 (1991): 547-619.
Hajic J. “Building a Syntactically Annotated Corpus: the Prague dependency Treebank.” Issues of
Valency and Meaning, 1998.
Kingsbury, P., Palmer, M. y Marcus M. “Adding semantic annotation to Penn TreeBank”. Proceedings of
the Conference on Human Language Technology, San Diego, CA. (2002).
Kipper, K., M. Palmer, O. Rambow (2002). “Extending PropBank with VerbNet Semantic Predicates”.
Workshop on Applied Interlinguas, held in conjunction with AMTA-2002. Tiburon, CA.
Marcus M., Santorini B., Marcinkiewicz, M. A. “Building a Large annotated corpus of English: the Penn
Treebank”. Computational Linguistics, MIT Press, 1993.
Márquez, L., Taulé, M., Martí, M.A., Artigas, N., García, M., Real F. y Ferrés, D. “Senseval-3: The
Spanish Lexical Sample Task”. Proceedings of Senseval-3, Barcelona: ACL (2004): 21-25.
25
Monachini M. y Calzolari N. “Synopsis and Comparision of Morphosyntactic Phenomena Encoded in
Lexicons and Corpora. A common Proposal and Applications to European Languages, EAGLES
(1996).
Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Lenci A., Zampolli, A., Fanciulli F.,
Massetani M., Raffaelli R., Basili R., Pazienza M. T., Saracino D., Zanzotto F., Mana N., Pianesi F.
y Delmonte R. “Building the Italian Syntactic-Semantic Treebank.” Building and Using
Syntactically Annotated Corpora, Language and Speech, Dordrecht : Kluwer, 2001.
Padró, L. “A Hybrib Environment for Syntax-Semantic Tagging”. Tesis Doctoral Universitat Politècnica
de Catalunya, Barcelona, 1997.
Palmer, M., Kingsbury, P. y Gildea, D. “The Proposition Bank: An Annotated Corpus of Semantic
Roles.” Computational Linguistics, 21 (1). USA: MIT Press, 2005.
Rappaport Hovav, M. y Levin, B. “Building Verb Meanings”. The Projection of Arguments: Lexical and
Compositional Factors, Stanford, CA: CSLI Publications, 1998: 97-134.
Sampson G. “Probabilistic Models of Analysis”. The Computational Analysis of English. New York:
Longman, 1987.
Sampson G. English for the Computer. The SUSANNE corpus and Analytic Scheme. Oxford: Clarendon
Press, 1995.
Sebastián, N., Martí, M.A., Carreiras, M.F. y Cuetos, F. LEXESP: Léxico Informatizado del Español.
Barcelona: Ediciones de la U. de Barcelona.
Surdeanu,
M.
Etiquetador
automático
de
roles
semánticos
de
software
libre,
2006.
<http://www.lsi.upc.edu/~surdeanu/swirl.html>
Tadic M. “Building the Croatian National Corpus.” Proceedings of the Third International Conference on
Language Resources and Evaluation (LREC02). Las Palmas: LREC (2002).
Taulé, M., Aparicio, J., Castellví, J. y Martí, M.A. “Mapping syntactic functions into semantic roles”,
Proceedings of the Fourth Workshop on Treebanks and Linguistic Theories (TLT05)”. Barcelona:
Universitat de Barcelona, 2005: 185-196.
Taulé, M., y Castellví, J. “La interfaz sintaxis-semántica: anotación de corpus con papeles temáticos”,
Actas del VII Congreso de Lingüística General. Barcelona: Universitat de Barcelona, 2006.
Taulé, M., Castellví, J. y Martí, M.A. “Semantic Classes in CESS-LEX: Semantic Annotation of CESSECE” presentado en el Fith Workshop on Treebanks and Linguistic Theories, 2006.
Taylor A., Marcus M. y Santorini B. “The Penn Treebank: an overview.” Building and Using
Syntactically Annotated Corpora. Language and Speech, Dordrecht: Kluwer, 2001.
Vàzquez, G., Fernández, A. y Martí, M.A. Clasificación verbal. Alternancias de diátesis. Lleida: Edicions
de la Universitat de Lleida, 2000.