Download Microsoft Word - Text
Document related concepts
Transcript
1 CESS-ECE: corpus anotados del español y catalán M. Antonia Martí, , MarionaTaulé CLiC-UB (Centre de Llenguatge i Computació, Universitat de Barcelona) {amarti, mtaule}@ub.edu Los corpus anotados constituyen en sí mismos una fuente de información valiosa tanto para el análisis lingüístico como para el desarrollo de una amplia gama de aplicaciones. En el marco de la Lingüística Computacional se utilizan para contrastar y validar módulos de procesamiento del lenguaje así como para extraer información de cara a la construcción de recursos de ingeniería lingüística. Los corpus anotados con información lingüística representan, en este contexto, una herramienta imprescindible para cualquier aplicación de la Lingüística Computacional ya que permiten extraer información mucho más adecuada y próxima a la lengua que se pretende procesar. Desde la perspectiva de la Lingüística constituyen una fuente de información sobre el uso real de la lengua que permite contrastar hipótesis e inferir conocimiento. Actualmente, no sólo es importante disponer de corpus anotados a diferentes niveles de análisis lingüístico (morfológico, sintáctico, semántico y pragmático) sino que es fundamental garantizar la calidad de estas anotaciones. De ello depende, en gran medida, la efectividad de los sistemas de procesamiento del lenguaje basados en técnicas de aprendizaje automático (Márquez et. al 2004), que toman los corpus anotados como fuente de información. Alcanzar los objetivos de calidad requeridos exige definir una metodología estricta en el proceso de anotación y establecer los fundamentos lingüísticos sobre los que basar dicha anotación. Sólo así se garantiza la coherencia y consistencia de los datos. Es en este marco teórico y metodológico se han desarrollado dos corpora, uno para el catalán (CESS-CAT) y otro para el español (CESS-ESP) de 500.000 palabras cada uno.1 Estos corpora están 1 Estos corpora se han elaborado gracias a los proyectos X-TRACT (BFF2002-04226-C03-03), 3LB (FIT-150-5002002-244) y CESS-ECE (HUM-2004-21127-E). El objetivo principal del proyecto CESS-ECE es la construcción de un Banco de Árboles Sintácticos (TreeBank) multilingüe con anotación semántica: uno para la lengua catalana (CESS-CAT) y otro para la lengua española (CESS-ESP). 2 anotados a diferentes niveles de descripción lingüística, con información morfológica, sintáctica y semántica. El proceso de anotación se ha llevado a cabo de manera automática, manual o semiautomática dependiendo de la información lingüística tratada.2 En este trabajo se describe la metodología y los criterios generales que se han establecido con el objetivo de sistematizar el proceso de anotación, a cada nivel lingüístico, para la creación de los corpora CESS-ECE. Después de esta introducción, en el apartado 1, se describen las características de los corpus CESS-ECE, atendiendo a su origen y composición. En el apartado 2, se presenta como se ha llevado a cabo el proceso de anotación en cada nivel de análisis. Este apartado se ha enfocado desde la perspectiva de la autonomía del proceso, es decir, si se ha realizado de manera automática, manual o semiautomática. En el apartado 3, se presentan los fundamentos lingüísticos y las decisiones metodológicas que se han adoptado en cada nivel de anotación. Finalmente, en el apartado 4, se presentan consideraciones generales sobre el resultado del trabajo realizado y líneas futuras de actuación. 1 Los corpus: CESS-ESP y CESS-CAT CESS-ECE es un corpus multilingüe formado por textos en lengua catalana (CESS-CAT) y textos en lengua española (CESS-ESP), ambos de 500.000 palabras. Dichos corpus se han elaborado de manera incremental a partir de los corpora previos CLiC-TALP (Civit y Martí 2004a) y 3LB (Civit y Martí 2004b). El corpus español CLiC-TALP consta de 100.000 palabras seleccionadas de Lexesp, un corpus equilibrado del español de seis millones de palabras (Sebastián, N. et al. 2000). El corpus catalán CLiCTALP consta de 100.000 palabras, 75.000 procedentes de la agencia de noticias EFE y 25.000 procedentes de ACN (Agencia Catalana de Noticias). Ambos corpora se han etiquetado automáticamente con información morfosintáctica (part of speech, POS) y se han revisado manualmente. El objetivo era 2 Actualmente existe ya una versión (http://www.lsi.upc.edu/~mbertran/cess-ece/). de prueba de estos corpus consultable por Internet: 3 disponer de un corpus de referencia para estas dos lenguas con un nivel de calidad óptimo en la anotación morfosintáctica para ser utilizados como corpora de aprendizaje (gold standard) para sistemas de etiquetado morfosintáctico basados en técnicas de aprendizaje automático. Los corpora 3LB-CAT y 3LB-CAST,3 son dos bancos de árboles sintácticos de 100.000 palabras cada uno etiquetados a nivel de constituyentes y funciones y anotados semánticamente con papeles temáticos. También se han etiquetado de manera parcial (nombres y verbos), con synsets de WordNet. 4 3LB-CAST se ha creado a partir de 75.000 palabras del corpus español CLiC-TALP y de 25.000 palabras del corpus español de la agencia de noticias EFE. 3LB-CAT es el corpus CLiC-TALP catalán enriquecido con constituyentes y funciones. Los corpora CESS-ECE son, en definitiva, el resultado de ampliar 3LB-CAT y 3LB-CAST hasta 500.000 palabras, por lo tanto se han añadido 400.000 palabras a cada corpus, procedentes de diferentes fuentes periodísticas. CESS-ESP se ha incrementado con 200.000 palabras extraídas de EFE y 200.000 palabras del diario ‘El Periódico’. CESS-CAT se ha incrementado con 200.000 palabras de ACN y 200.000 palabras procedentes de la versión catalana del mismo diario ‘El Periódico’.5 Toda esta información se resume en la Tabla 1 para los corpora del español y en la Tabla 2 para los corpora del catalán. Español Cantidad CLiC-TALP 100.000 Fuentes Lexesp 3LB-CAST 3 Anotación Procedimiento etiqueta Automático y morfosintáctica validación manual etiqueta Automático y morfosintáctica validación manual EFE (25.000) sintaxis Automático Lexesp (75.000) superficial 100.000 Los corpora 3LB-CAT y 3LB-CAST se desarrollaron en el marco del proyecto 3LB (FIT-150-500-2002-244), cuyo objetivo principal era establecer la metodología y los criterios básicos para el etiquetado sintáctico profundo a nivel de constituyentes y funciones. 4 La versión de WordNet utilizada es la 1.6. 5 El subconjunto de 200.000 palabras procedentes del ‘El Periódico’ son las mismas noticias en catalán y español desde enero a diciembre de 2000. 4 CESS-ESP 500.000 sintaxis profunda Manual papeles temáticos Semiautomático WordNet Manual etiqueta Automático EFE (225.000) morfosintáctica Lexesp (75.000) sintaxis El Periódico superficial (200.000) sintaxis profunda Manual papeles temáticos Automático WordNet Manual Automático Tabla 1: Corpora del español El proceso de anotación se ha llevado a cabo de manera incremental, desde los niveles más básicos de análisis, es decir por el etiquetado morfosintáctico y el análisis sintáctico superficial (chunking), hasta los niveles más complejos, sintáctico profundo y semántico. Catalán Cantidad CLiC-TALP 100.000 3LB-CAT CESS-CAT 100.000 500.000 Fuentes Anotación Procedimiento EFE (75.000) etiqueta Automático y ACN (25.000) morfosintáctica validación manual etiqueta Automático y morfosintáctica validación manual EFE (75.000) sintaxis Automático ACN (25.000) superficial sintaxis profunda Manual papeles temáticos Semiautomático WordNet Manual etiqueta Automático 5 EFE (75.000) morfosintáctica ACN (225.000) sintaxis El Periódico superficial (200.000) sintaxis profunda Manual papeles temáticos Automático WordNet Manual Automático Tabla 2: Corpora del catalán El proceso morfológico y el análisis sintáctico superficial se ha realizado de manera automática, porque la calidad del resultado en estos niveles de procesamiento se encuentra alrededor del 96% para el análisis morfosintáctico y del 98% en el análisis sintáctico superficial. La asignación semántica de synsets de WordNet, para nombres y verbos, así como el etiquetado sintáctico profundo –constituyentes y funciones– se realiza manualmente a partir del resultado del proceso de análisis sintáctico superficial. La anotación con papeles temáticos se realiza semiautomáticamente. Para ello, en primer lugar, se ha construido un léxico verbal -a partir del corpus anotado sintácticamente- con información sobre las funciones sintácticas de cada verbo. Para cada verbo, se ha definido el papel temático correspondiente a cada función y, finalmente, ya de manera automática, se ha enriquecido el corpus con la anotación de papeles temáticos. Este procedimiento de anotación secuencial por niveles presenta importantes ventajas. Por un lado, permite gestionar la información de manera independiente, de manera que una modificación en un nivel no requiere modificar el conjunto. Por otro lado, cada proceso de anotación implica la revisión del proceso anterior, de manera que mejora la consistencia interna de los datos. Para garantizar la calidad del etiquetado, se han elaborado diferentes guías de anotación6 y se han aplicado diferentes pruebas de acuerdo entre anotadores en aquellos procesos de anotación que requieren Todas las guías de anotación están disponibles en el apartado correspondiente a “investigación” de la página web de CLiC: http://clic.fil.ub.es. 6 6 intervención humana, es decir, en sintaxis profunda y análisis semántico, tanto a nivel de semántica léxica como de semántica de la oración. Hasta el momento se encuentran ya disponibles las 500.000 palabras del corpus CESS-ECE anotado a nivel sintáctico superficial, 300.000 a nivel sintáctico profundo (constituyentes y funciones) y una muestra de 2.000 oraciones con información semántica. 2 Proceso de anotación Si se tiene en cuenta que se ha realizado un proceso de anotación secuencial que ha implicado, para cada nivel de anotación, la revisión de los procesos anteriores, desde una perspectiva global, puede decirse que el corpus CESS-ECE se ha anotado de manera semiautomática. Considerados cada uno de los niveles de análisis de manera independiente, se han aplicado estrategias automáticas, manuales y semiautomáticas. A continuación, presentamos con mayor detalle los diferentes procesos de anotación. 2.1 Procesos automáticos En el contexto de la Lingüística de Corpus se entiende por proceso automático aquel que se aplica sobre un corpus dando como resultado el texto anotado en su totalidad con un nivel de calidad que permite considerar la anotación como finalizada. En el caso que nos ocupa y para las lenguas catalana y española, son dos los procesos que satisfacen estas características: la anotación morfosintáctica y la anotación sintáctica superficial (o chunking). 2.1.1 Anotación morfosintáctica La anotación morfosintáctica consiste en asociar a cada una de las palabras de un texto su descripción morfológica y su lema.7 La descripción morfológica contiene la categoría morfosintáctica y los atributos morfológicos asociados. En nuestro caso, la anotación se lleva a cabo de modo automático 7 El lema de cada palabra es su forma canónica o entrada de diccionario. 7 con el analizador MACO (Carmona et al. 98; Civit et al. 2001), que da como resultado todas las interpretaciones posibles de una palabra. El resultado del análisis es el siguiente: <palabra><lema1 etiqueta1 lema2 etiqueta2 ... leman etiquetan>. Es decir, cada palabra tiene asociadas una o más interpretaciones morfológicas, donde cada interpretación morfológica es un lema y una etiqueta descriptiva. En la Figura 1, se muestra un ejemplo del resultado que proporciona el analizador. Pese a que pese a que CS es e NCFP000 ser VSIP3S0 rentable rentable AQ0CS0 publicitariamente publicitariamente RG , , Fc el el DA0MS0 ciclismo ciclismo NCMS000 español español AQ0MS0 español NCMS000 tiene tener VMIP3S0 un uno DI0MS00 uno DN0MS0 uno PN0MS000 gran gran AQ0CS0 problema problema NCMS000 . . Fp Figura 1: Análisis morfológico Las etiquetas que se utilizan están formadas por dígitos alfanuméricos, que codifican toda la información morfosintáctica de la palabra, siguiendo la propuesta EAGLES (Monachini et al. 96). Como se puede observar, en la oración del ejemplo hay tres palabras que son ambiguas (“es”, “español”, “un”), por lo que reciben más de una interpretación morfosintáctica. Una vez analizado el texto y obtenidas todas las interpretaciones posibles, se aplica el desambiguador morfosintáctico RELAX (Padró 97) que selecciona la interpretación correcta para cada palabra en función del contexto en que aparece. RELAX combina técnicas de aprendizaje automático junto con reglas elaboradas manualmente (Civit et al. 2003b). El corpus CLiC-TALP del catalán y del castellano se utilizó para que RELAX adquiriera el conocimiento necesario para llevar a cabo el proceso de desambiguación. Para ello, estos corpus se analizaron automáticamente con MACO y se desambiguaron a mano. Con ello quedó constituido el corpus de referencia (gold standard) para la 8 desambiguación morfosintáctica de estas lenguas. Una vez aplicados los algoritmos de aprendizaje autumático sobre estos corpus anotados manualmente -y, por lo tanto, con un nivel de calidad óptimo-, el desambiguador RELAX estuvo ya en condiciones de ser utilizado para la desambiguación morfosintáctica automática de corpora. En el análisis del español y del catalán hemos definido diferentes tipos de ambigüedad morfosintáctica: (a) ambigüedad debida a la categoría, como en el caso de la forma “es” del ejemplo, que puede ser nombre o verbo, o bien la palabra “español”, que puede ser adjetivo o nombre; (b) ambigüedad en la subcategoría, como es el caso de “un” que puede ser determinante numeral o indefinido; (c) ambigüedad debida a los atributos morfológicos, como sería el caso de la palabra “cólera” que tiene significados distintos según sea masculina o femenina; (d) finalmente, tenemos la ambigüedad en el lema, cuando una palabra, como “fui” puede corresponder tanto al verbo “ir” como al verbo “ser”. Las técnicas de aprendizaje automático resuelven preferentemente las ambigüedades categoriales, mientras que las reglas manuales resuelven los casos de ambigüedad de lemas, subcategorías y flexión. La calidad del proceso de desambiguación automático es de un 96% de acierto. A continuación se muestra la frase del ejemplo una vez aplicado el proceso de desambiguación: Pese a que pes_ a_que CS es ser VSIP3S0 rentable rentable AQ0CS0 publicitariamente publicitariamente RG , , Fc el el DA0MS0 ciclismo ciclismo NCMS000 español español AQ0MS0 tiene tener VMIP3S0 un uno DI0MS0 gran gran AQ0CS0 problema problema NCMS000 . . Fp Figura 2: Análisis morfosintáctico desambiguado 2.1.2 Análisis sintáctico superficial (chunking) 9 Los objetivos de un sistema de análisis sintáctico son, fundamentalmente, agrupar las palabras en unidades de nivel superior (sintagmas y cláusulas) que identifiquen los constituyentes principales de una oración y etiquetar estos constituyentes. Para el español y el catalán no existen actualmente sistemas de análisis sintáctico que realicen esta tarea de manera automática. Es por ello que el análisis sintáctico del corpus CESS-ECE se ha realizado en dos etapas. En una primera etapa se ha realizado un análisis sintáctico superficial (chunking) del corpus de manera totalmente automática y, posteriormente, se ha llevado a cabo un proceso de anotación manual a nivel sintáctico profundo a partir de los resultados obtenidos en el análisis superficial. El análisis sintáctico superficial es un proceso intermedio entre la morfología i la sintaxis, en el que se resuelven cuestiones que han quedado pendientes en al análisis morfológico, como por ejemplo las formas compuestas de los verbos, las perífrasis verbales, pero también se tratan aspectos puramente sintácticos como la identificación de constituyentes a un nivel superficial. El analizador utilizado para el análisis sintáctico superficiales TACAT (Atserias et al. 1998). Se trata de un analizador basado en charts que funciona izquierda-derecha y de abajo a arriba (bottom–up). Este analizador da como resultado, junto con una gramática de contexto libre, el análisis del texto. Las gramáticas utilizadas, GramCat para el catalán y GramEsp para el español (Civit y Martí 2005), se han elaborado a mano y constan de unas 1.500 reglas. A continuación se ejemplifican con algunas reglas correspondientes al sintagma nominal: sn ==> espec−ms, grup−nom−ms. sn ==> espec−mp, grup−nom−mp. sn ==> espec−fs, grup−nom−fs. sn ==> espec−fp, grup−nom−fp. En la figura 3 se muestra el resultado del análisis superficial del fragmento oracional ‘Evidenciando la sintonía entre formaciones nacionalistas (…)’. (S 10 ( S.NF.A8 (gerundio (vmg0000 Evidenciando evidenciar) ) (sn (espec.fs (da0fs0 la el)) (grup.nom.fs (ncfs000 sintonía sintonía))) (sp (prep (sps00 entre entre)) (sn (espec.fp (dn0fp0 ambas ambas)) (grup.nom.fp (ncfp000 formaciones formación)) (s.a.fp (aq0cp0 nacionalistas nacionalista)))) Figura 3: Análisis sintáctico superficial Como puede observarse en el ejemplo, se trata de un análisis en el que no se expresan relaciones jerárquicas entre constituyentes: el sintagma preposicional introducido por la preposición ‘entre’ debería complementar al sustantivo ‘sintonía’, sin embargo ambos constituyentes se encuentran al mismo nivel. No encontramos tampoco reflejadas las funciones de los constituyentes respecto del verbo. En este nivel de análisis el índice de error es muy bajo – alrededor del 4%- dado el carácter superficial del proceso. 2.2 Anotación manual Se ha llevado a cabo un proceso de anotación manual de los corpus CESS-ECE en el etiquetado sintáctico profundo y en la desambiguación semántica léxica. No se dispone en la actualidad de sistemas que realicen estas tareas de manera automática con un índice de calidad suficiente. Si se tiene en cuenta que los objetivos de la creación de los corpus anotados CESS-ECE es que sirvan de fuente de información para los estudios lingüísticos y que se puedan utilizar para el entrenamiento de los sistemas de anotación automáticos basados en técnicas de aprendizaje automático, se justifica plenamente que se haya optado por un etiquetado manual para garantizar la calidad de los resultados. 8 S.NF.A introduce una oración subordinada de gerundio. 11 2.2.1. Anotación sintáctica profunda La anotación sintáctica profunda se realiza sobre el resultado del proceso automático de chunking. Los lingüistas disponen de una interfaz gráfica, AGTK (Cotton et al. 2002), para la edición de árboles sintácticos que permite unir y separar oraciones y texto, añadir trazas y nodos, modificar la anotación morfológica, etc. En definitiva, todas aquellas operaciones necesarias para modificar los árboles sintácticos y establecer relaciones de dependencia entre los nodos. Debido a la complejidad de esta tarea, la anotación sintáctica profunda se ha realizado en dos fases diferenciadas. En la primera, se han anotado los constituyentes y en la segunda fase, las funciones. Esta subdivisión de procesos se justifica por el hecho de que la definición de los constituyentes es una tarea mucho más compleja que la asociación de funciones a los mismos. Tanto la anotación de constituyentes como la de funciones se han realizado siguiendo una metodología de proceso en paralelo con pruebas de acuerdo entre anotadores para garantizar la coherencia interna de la anotación. Cinco lingüistas anotaron en paralelo un total de 1000 oraciones en diferentes etapas. En la primera etapa se etiquetaron 100 oraciones con el objetivo de detectar los problemas que esta tarea planteaba y determinar los principios básicos del proceso de anotación. En una segunda etapa se etiquetaron 220 oraciones y, después de analizar los desacuerdos se elaboró la primera versión de la guía de anotación.9 En tres fases posteriores se anotaron 320, 670 y 30 oraciones respectivamente. Después de cada fase de anotación se discutieron los resultados y los acuerdos se incorporaron en la guía. Al finalizar el experimento se había alcanzado un 96% de acuerdo entre anotadores (Civit et al. 2003a). 2.2.2. Anotación con WordNet Para la anotación con WordNet se ha utilizado una versión fija de WordNet 1.6 del catalán y del español. Hasta el momento sólo se etiquetan los verbos y los nombres ya que constituyen los elementos 9 Todas las guias de anotación de constituyentes y funciones se encuentran disponibles en el apartado Publicaciones de la web de CLiC: http://clic.fil.ub.es 12 fundamentales sobre los que se construye el significado. No se descarta en fases posteriores proceder a la anotación completa del corpus. La anotación se realiza manualmente mediante una interfaz que muestra al lingüista los diferentes sentidos de cada palabra y la frase en la que ésta se encuentra. La anotación se realiza por lemas para facilitar la tarea del anotador y garantizar una mayor consistencia en los resultados ya que se tratan conjuntamente todas las apariciones de un mismo lema. 2.3 Procesos semiautomáticos La anotación semántica con papeles temáticos de los corpora CESS-ECE se lleva a cabo en dos etapas: en una primera fase, el etiquetado se realiza de manera semiautomática para un subconjunto de 100.000 palabras de cada corpus (Civit et al. 2005a) y, en una segunda fase, se etiquetan las 400.000 palabras restantes de manera automática, aplicando técnicas de aprendizaje automático (Surdeanu 2006) y de etiquetado automático incremental (Busser y Morante 2005). En este apartado, se presenta la metodología semiautomática (Taulé et al. 2005) aplicada en el etiquetado de semántica oracional. Básicamente, se parte de la información sintáctica expresada en los corpus de 100.000 palabras de 3LB y se deriva de forma automática un léxico verbal que contiene para cada sentido del verbo todos los esquemas sintácticos en los que aparece. A partir de esta información se crea manualmente CESS-LEX (Taulé y Castellví 2006), un léxico verbal en el que se establece la correspondencia entre información sintáctica (constituyentes y funciones) e información semántica (estructuras léxico-semánticas con sus argumentos y papeles temáticos correspondientes). Es a partir de este léxico, CESS-LEX, que se etiqueta semánticamente y de manera automática el subconjunto de 100.000 palabras (Véase el apartado 3.4). Una vez revisado manualmente este subconjunto, de manera que se garantice la calidad del mismo y el éxito de las técnicas automáticas, se procederá al etiquetado automático de las 400.000 palabras restantes. La estrategia seguida para el proceso automático de anotación semántica a partir de la información especificada en CESS-LEX se ha realizado de manera progresiva. Es decir, primero se han asignado automáticamente aquellas posiciones argumentales y papeles temáticos que se corresponden de manera 13 inequívoca con una función sintáctica concreta, por ejemplo, el atributo (ATR) y el complemento agente (CAG) que siempre se realizan como un Arg2-ATR y un Arg0-AGT respectivamente. Después, se han asignado aquellas etiquetas que implican algún tipo de condición morfosintáctica, en concreto, para anotar los sujetos pacientes de construcciones pasivas. Es decir, si en el árbol de análisis aparecen en la etiqueta morfológica los atributos ‘vs’10 o en la etiqueta sintáctica el morfema verbal ‘PASS’,11 entonces se asigna directamente a la función sintáctica de sujeto (SUJ) el papel temático Paciente (Arg1-PAT). En estos casos se trata de una información válida para cualquier verbo con esas determinadas funciones o especificaciones morfosintácticas. A continuación, a partir de la información especificada en CESS-LEX, se efectúa de manera totalmente automática la correspondencia entre información sintáctica y semántica de aquellas entradas léxicas que sólo ocurren una vez en el corpus (un total de 633 verbos para el español y 727 para el catalán) y la de aquellos verbos en los que sólo se ha encontrado, en el corpus, un único sentido (aproximadamente unos 394 verbos para el español y 278 para el catalán). Para el resto de verbos, más polisémicos, se ha partido de la información especificada en CESS-LEX y, especialmente, teniendo en cuenta los ejemplos incluidos en las entradas (extraídos directamente del corpus). Evidentemente, la revisión manual de las oraciones correspondientes a estos predicados verbales es más necesaria. El proceso de validación manual se realiza para todas las oraciones y utilizando el léxico CESS-LEX como guía de anotación. Para garantizar la consistencia en el proceso de elaboración del lexicón CESS-LEX y, en definitiva, en la anotación semántica general del corpus, además de la guía de anotación correspondiente (Taulé et al. 2006), se han realizado pruebas de acuerdo entre anotadores. En la guía se describen detalladamente los fundamentos teóricos y metodológicos, así como los criterios de anotación seguidos (Véase apartado 3.4). El proceso de anotación se ha dividido en cinco partes. En la primera, básicamente destinada al aprendizaje, se elaboraron las entradas léxicas de 10 verbos, de diversa frecuencia y complejidad, que sirvieron para asimilar la metodología y los criterios de anotación. A continuación, los 10 11 Los dígitos ‘vs’ de la categoría morfosintáctica indican que se trata del verbo ‘ser’ en una construcción pasiva. PASS indica que el verbo está en pasiva. 14 cuatro anotadores etiquetaron en paralelo 30 verbos, de frecuencia media-alta,12 a partir de los cuales se realizó la primera prueba de acuerdo entre anotadores y el resultado en la asignación fue un acuerdo de entre un 65% y 70%. La revisión de estos primeros 30 verbos supuso la ampliación y mejora, especialmente con la incorporación de nuevos ejemplos, de la guía de anotación.13 Una vez revisada la guía se procedió a etiquetar 70 verbos más de frecuencia media alta por el mismo grupo de cuatro anotadores. Esta vez el acuerdo de anotación fue aproximadamente del 85%. A partir de aquí, se formaron dos equipos de anotadores, de dos personas cada uno, que elaboraron las entradas léxicas de 100 verbos por equipo, en los que se incluían verbos de frecuencia alta14 y verbos de frecuencia media-baja.15 Las entradas léxicas que presentaban acuerdo total se daban por buenas y en las que se producía algún tipo de desacuerdo eran revisadas por todo el equipo de anotadores. Los resultados mejoraron considerablemente y se alcanzó un acuerdo global de entre el 93% i 95%. Finalmente, los 1.000 verbos restantes, de frecuencia baja,16 se dividieron entre los cuatro anotadores, es decir 250 verbos por anotador, y sólo se revisaron aquellos que planteaban problemas. 3 Fundamentos lingüísticos del sistema de anotación A continuación presentamos los criterios lingüísticos aplicados en los diferentes niveles de análisis lingüístico. 3.1 Anotación morfosintáctica Como ya se ha indicado más arriba, la anotación morfosintáctica consiste en la asociación de información sobre el lema, la categoría y los atributos morfológicos a cada una de las palabras del texto. El sistema de anotación utilizado se ha basado en los estándares propuestos por EAGLES (Monachini et 12 Se entiende por frecuencia media alta los verbos que presentan en el corpus entre 20 y 10 ocurrencias. De hecho, la guía de anotación se ha ido mejorando progresivamente en función de los problemas que han surgido en la elaboración de las distintas entradas léxicas. 14 Se entiende por frecuencia alta verbos que presentan en el corpus desde 1.437 ocurrencias (el verbo ser, el más frecuente) hasta 21 ocurrencias. 15 Se entiende por frecuencia media baja los verbos que presentan en el corpus entre 9 y 4 ocurrencias. 16 Se entiende por frecuencia baja verbos que presentan en el corpus entre 3 y 1 ocurrencias. 13 15 al. 1996). El sistema de categorías que proponemos trata de compatibilizar el análisis de corpus con la tradición lingüística, para que el resultado pueda ser aceptable para uno y otro campo. El sistema de categorías que se ha adoptado incluye las categorías tradicionales como son el adjetivo, el adverbio, el artículo, el determinante, el nombre, el verbo, la preposición, el pronombre, la conjunción y la interjección, así como categorías propias de los corpora, como las abreviaturas, las cifras, las fechas y los signos de puntuación. Se ha reservado también una etiqueta para los elementos desconocidos. Existe acuerdo generalizado sobre las categorías del primer grupo, a pesar de que en ocasiones el estatus del artículo, los determinantes y los pronombres como categorías independientes se haya puesto en duda y de que las interjecciones no siempre se han considerado clases de palabra porque son elementos típicos del discurso. Sobre las restantes categorías pueden hacerse varias observaciones: a) las cifras suelen verse como la representación numérica de los cuantificadores; b) las abreviaturas son sustitutos de palabras de la lengua que pueden pertenecer a diversas categorías; c) la fechas no se consideran unidades, sino elementos complejos formados por unidades menores; d) la puntuación nunca ha sido considerada como una "clase de palabra", sino como marcas gráficas que reflejan fenómenos orales tales como las pausas o la entonación. Se trata en todos estos casos de categorías especiales que hay que tratar en el análisis de corpora. El número total de etiquetas morfosintácticas utilizadas es de 285. Cada etiqueta consta de un número determinado de dígitos y cada dígito expresa de manera sistemática una determinada información. Así, en las etiquetas correspondientes a los nombres el primer dígito expresa la categoría (N, nombre), el segundo la subcategoría (C o P, común o propio respectivamente), el tercero el género (M, F o C, correspondientes a masculino, femenino o no especificado) y, finalmente el cuarto expresa el número (S o F, singular o plural). Así, para la palabra “niño”, la etiqueta correspondiente sería NCMS y para “joven”, NCCS. En Civit (2003) se encuentra una relación detallada de todo el sistema de etiquetado. 3.2 Análisis sintáctico superficial 16 El análisis sintáctico superficial aplicado se basa en la agrupación de palabras en constituyentes simples ( o chunks). El concepto de chunk que se ha adoptado (Civit y Martí 2005) difiere en cierto modo del propuesto por Abney, debido a las características específicas del español y del catalán. La definición de chunk en Abney (1991) es la siguiente: ‘ major heads are all content words except those that appear between a function word f and the content word that f selects. For example, proud is a major head in a man proud of his son, but proud is not a major head in the proud man, because it appears between the function word the and the content word man selected by the.’ De acuerdo con esta definición ‘a proud man’ sería un chunk, mientras que ‘a man proud of his son’ serían tres chunks: [a man] [proud] [of his son]. Esta formulación de chunk no se adapta bien a nuestras lenguas ya que “un hombre orgulloso” se analizaría como dos chunks [un hombre] y [orgulloso], cuando sería mucho más interesante que fuera solamente uno. La reformulación posterior de Abney (1996) en términos de islands of certainty es más flexible y es aplicable a un mayor número de lenguas: ‘a chunk is a intra-clausal constituent including pre-head as well as post-head modifiers, but not pp-attachment or sentential elements’. En nuestro caso, hemos adoptado esta definición de chunk, con la salvedad que admitimos adjunción de sintagmas preposicionales bajo condiciones restringidas: la adyacencia del sintagma preposicional respecto del núcleo al que complementa siempre que el sintagma preposicional esté introducido por la preposición “de”. Así “un personaje de cine” sería un chunk, pero “un personaje fabuloso de cine” serían dos: [un personaje fabuloso] y [de cine]. Los chunks que se tratan son: sintagma nominal (sn), sintagma preposicional (sp) , sintagma adjetivo (sa), sintagma adverbial (sadv), y grupo verbal (gv), que incluyen formas simples y complejas como ‘es’, ‘ha sido’, ‘debería haber sido’, ‘tiene que ser’, etc. en todas sus variantes flexivas. Los clíticos y otras partículas, como la negación, no se incluyen en el grupo verbal. Otros elementos reconocidos por la gramática como los pronombres relativos y las conjunciones subordinantes se han dejado como nodos unarios en el árbol de análisis. En lo que se refiere a la coordinación, sólo se han tratado aquellos casos en que ésta se produce entre dos ítems léxicos sin ningún 17 tipo de complementos. Por ejemplo, el sistema de análisis construye un chunk de coordinación en el caso del sintagma ‘una lección de poderío y clase’, pero no lo construye en el caso de ‘la debilidad sentimental, la resignación y el miedo’ a causa de la presencia de artículos y adjetivos. Finalmente, hay que señalar que no se analizan las cláusulas. La razón estriba en el hecho de que si bien es fácil identificar donde empiezan, ya que el elemento introductor es obligatorio en ambas lenguas, no es posible determinar donde terminan. Es por ello que el tratamiento de las cláusulas subordinadas se realiza en el proceso manual posterior, es decir en el análisis sintáctico profundo. 3.3 Anotación sintáctica completa Para llevar a cabo la anotación sintáctica profunda se consultaron y analizaron los criterios de anotación de los bancos de árboles existentes más significativos (Marcus et al. 1993; Sampson 1995; Hajic 1998; Bemova et al. 1999; Brants et al. 2001; Boguslavsky et al. 2002; Abeillé et al. 2001; Montemagni et al . 2001; Afonso et al. 2002; Tadic 2002; etc.). A partir de estos trabajos, se definieron una serie de principios de carácter teórico y metodológico para la anotación sintáctica del corpus que exponemos a continuación. Existe un debate abierto sobre el esquema de anotación más apropiado para los bancos de datos sintácticos. Los defensores de la anotación de dependencias consideran que este sistema es el más apropiado para lenguas de orden libre (Brants et al. 2001; Boguslavsky et al. 2002), y facilita la aplicación de medidas de error y comparaciones entre diferentes bancos de datos sintácticos. La anotación con constituyentes suele utilizarse para lenguas de orden fijo de constituyentes, dándose además un encaje casi total entre funciones y las posiciones de los constituyentes. Así, en las oraciones declarativas, el sintagma nominal que precede al verbo suele ser el sujeto. En nuestra aproximación hemos adoptado la anotación con constituyentes puesto que era la más compatible con la anotación resultante del análisis sintáctico superficial. Además, siendo posible el paso automático de un tipo de anotación a otra, siempre es más sencillo el paso de constituyentes a dependencias que a la inversa (Civit et al. 2006). 18 Una de las cuestiones fundamentales a la hora de anotar sintácticamente un corpus es determinar si se va a seguir o no un determinado marco teórico. Se ha constatado que las teorías lingüísticas proporcionan soluciones a problemas específicos de las lenguas naturales, pero suelen presentar problemas de cobertura cuando hay que tratar los problemas que plantea el análisis de corpora, que no quedan contemplados en un modelo hipotético de lenguaje. Por otro lado, las teorías suelen tratar fenómenos muy específicos que raramemte aparecen en los corpora (véase Sampson 1987). En la anotación sintáctica de corpora existen dos tendencias: aquellos que defienden una anotación con base teórica y los que prefieren una anotación teóricamente neutra y fundamentalmente descriptiva. Entre los primeros destacan los bancos de datos sintácticos basados en la teoría de la X-barra, como el PennTreeBank, (Marcus et al. 1993; Taylor et al. 2001) y aquellos que se han anotado siguiendo la teoría HPSG (Head-driven Phrase Structure Grammar). Resolver la distinción entre argumentos y adjuntos o la adjunción de sintagmas preposicionales son algunos de los problemas más frecuentes y que no tienen una fácil solución en un determinado marco teórico. Entre los sistemas de anotación que no siguen ninguna teoría en particular, Abeillé et al. (2001) justifican esta opción en la medida en que se pueden adoptar soluciones de anotación que hacen que el corpus sea de interés no solo para los lingüistas, sinó también para informáticos, psicolingüistas, etc. En el desarrollo de los corpus de CESS-ECE hemos seguido esta propuesta ya que nuestro objetivo no es tanto demostrar la viabilidad de una determinada teoría, sino fijar un estándar para la anotación de constituyentes y funciones suficientemente neutro para ser utilizado tanto para procesamiento del lenguaje como para la investigación lingüística. A continuación en la Figura 4 presentamos un ejemplo de análisis profundo según la aproximación seguida en CESS-ECE: (S (sn SUJ (espec.fp (da0fp0 Las el)) (grup.nom.fp (ncfp000 reservas reserva))) (sp (prep 19 (sps00 de de)) (sn (grup.nom.co (grup.nom.ms (ncms000 oro oro))) coord (cc y y) (grup.nom.fp ( ncfp000 divisas divisa))) (gv (vmis3p0 subieron subir)) (sn CC (grup.nom (Zm 800_millones_de_dólares 800_millones_de_dólares)))) Figura 4 Análisis sintáctico completo Como puede observarse en el ejemplo, en nuestra aproximación, no se hace ninguna distinción entre adjuntos y argumentos, de manera que el nodo que contiene el sujeto, el verbo, los complementos del verbo y los adjuntos son todos nodos hermanos a un mismo nivel que dependen directamente del nodo oración. Esta decisión implica también que no hemos incluido el nodo correspondiente al sintagma verbal, de manera que se evita el problema del tratamiento de los constituyentes discontinuos, como es el caso del nodo sujeto en posición postverbal, las topicalizaciones, las dislocaciones, etc. Respecto a los elementos elípticos, teniendo en cuenta que tanto el español como el catalán son lenguas pro-drop, se ha optado por tratar sólo el caso del sujeto. El orden superficial se ha mantenido, respetando el texto original. Cuando hay alteraciones del orden secuencial, como en el caso de los elementos discontinuos de las oraciones comparativas, interrogativas, etc., se identifican estos elementos mediante índices que permiten relacionarlos aunque no sean correlativos. 3.4 Anotación semántica Los corpus CESS-ECE contienen dos niveles de anotación semántica: la anotación a nivel de semántica léxica con WordNet, por un lado, y la anotación a nivel de semántica oracional con la asignación de papeles temáticos, por el otro. Tal como se ha indicado en los apartados anteriores, la 20 metodología seguida ha sido totalmente manual para el etiquetado con synsets de WordNet y semiautomática para la anotación con papeles temáticos. Para la anotación con papeles temáticos se parte de la hipótesis de que el análisis de la estructura léxico-semántica (ELS) de los predicados verbales es el punto de partida para la descripción semántica de la oración. La estructura argumental expresa la aridad del verbo y de la ELS se deriva la relación entre el predicado y sus argumentos, expresada mediante papeles temáticos. La caracterización semántica de los predicados se fundamenta desde un punto de vista teórico en la propuesta de descomposición léxica de Rappaport-Hovav y Levin (1998), de donde se toma el concepto de estructura léxico-semántica. Consideramos que se trata de una propuesta adecuada a nuestro propósito por diferentes razones. En primer lugar, porque cohesiona en un mismo modelo la información léxico-semántica y la información eventiva con la información argumental y las alternancias de diátesis. En segundo lugar, porque en el área de la lingüística de corpus y la lingüística computacional se han realizado ya para el inglés experiencias similares siguiendo esta aproximación, como en el caso de PropBank (Palmer et al. 1995). Para la caracterización de los predicados verbales se parte de un conjunto relativamente restringido de ELSs (Véase Figura 5), que corresponden a las cuatro clases básicas de eventos (Dowty 1991): estados (1), actividades (2), realizaciones (3) y logros (4). (1) [x <ESTADO>] (2) [x ACTUAR <MANERA/ INSTRUMENTO> y] (3) [x CAUSAR [DEVENIR [y <ESTADO/COSA/LUGAR>]]] (4) [DEVENIR [y <ESTADO>]]] Figura 5: Estructuras Léxico-Semánticas Los papeles temáticos vienen determinados fundamentalmente por la pertenencia de los predicados a una de estas clases, a partir básicamente de su posición en la ELS, y por el tipo de alternancia de 21 diátesis en que participan.17 De este modo, no sólo especificamos los papeles temáticos sino que caracterizamos semánticamente el predicado tanto desde el punto de vista aspectual como argumental. En nuestra propuesta se asume la clasificación de diátesis de Vázquez et. al (2000), aunque extendemos el modelo relacionando cada una de las diátesis con las ELSs. De hecho, se parte de la hipótesis de que las diátesis admitidas por un determinado predicado derivan directamente de su ELS. Por lo tanto, consideramos que todas las realizaciones diatéticas de un mismo predicado corresponden a una misma ELS, aunque cada una de ellas focaliza en determinados componentes de la misma. En definitiva, las diátesis son estructuras superficiales que resultan de focalizar de un modo u otro los predicados de la ELS. Para la anotación de los argumentos hemos seguido la propuesta de PropBank (Palmer et al. 2005) donde se distingue entre los argumentos obligatorios (Arg0, Arg1, Arg2, Arg3, Arg4)18 y los adjuntos expresados como argumentos opcionales (ArgM). Para cada argumento y dependiendo del tipo de ELS del verbo resultan una serie de papeles temáticos que presentamos a continuación: Arg0: Arg1: Arg0-AGT (Agente), Arg0-CAU (Causa) Arg0- EXP (Experimentador) Arg1-PAT (Paciente), Arg1-TEM (Tema), Arg1-ATR (Atributo), Arg1-EXT (Extensión) Arg2: Arg2-ATR (Atributo), Arg2-BEN (Beneficiario), Arg2-INS (Instrumento), Arg2-EXT (Extensión), Arg2-EFI (Estado Final) Arg3: Arg3-ATR (Atributo), Arg3-BEN (Beneficiario), Arg3-INS (Instrumento), Arg3-ORI (Origen) Arg4: Arg4-DES (Destino) ArgM: ArgM-LOC (Locativo), ArgM-TMP (Temporal), ArgM-EXT (Extensión), ArgM-FIN (Finalidad), ArgM-CAU (Causa), ArgM-MNR (Manera), ArgM-DIR (Dirección), ArgM-ADV (Adverbial) Este sistema de anotación permite que un mismo papel temático pueda ocupar posiciones argumentales diferentes en función del verbo que se analice. 17 De hecho, estas clases se subespecifican en función de la estructura argumental, los papeles temáticos y las diátesis admitidas por el predicado verbal. 18 La enumeración refleja la proximidad del argumento respecto al verbo. 22 En la Figura 6 se muestra una frase analizada y etiquetada (‘El suizo difícilmente atacará a Rominger en la montaña’) de modo completo con todos los niveles de anotación. Podemos observar que cada palabra tiene asociada su categoría y su lema, que cada constituyente tiene asignada su función sintáctica, así como el número de argumento y el papel temático correspondiente. (S (sn -SUJ-Arg0-AGT (espec.ms (da0ms0 El el )) (grup.nom.ms (ncms000 suizo suizo))) (sadv (rg difícilmente difícilmente )) (gv (vmif3s0 atacará atacar )) (sp –CD-Arg1-PAT (prep (sps00 a a )) (sn (grup.nom.ms (np00000 Rominger Rominger)))) (sp –CC-ArgM-LOC (prep (sps00 en en )) (sn (espec.fs (da0fs0 la el )) (grup.nom.fs (ncfs000 montaña montaña ))))) Fp . . Figura 6: Análisis completo con todos los niveles de anotación 4. Consideraciones finales En este artículo se ha presentado la metodología y la base lingüística que se ha seguido en la construcción de los corpora CESS-ECE del español y catalán. Como se ha podido apreciar, se ha tratado de seguir criterios estándar y eminentemente descriptivos. Estos corpora, o partes de los mismos, se utilizan como fuente de información para el entrenamiento de analizadores morfosintácticos y también como recursos lingüísticos en competiciones internacionales como SenSeval (http://www.senseval.org/) y ConLL (http://www.cnts.ua.ac.be/conll/). 23 En un inmediato futuro está previsto derivar de manera semiautomática gramáticas para el análisis de ambas lenguas y desarrollar sistemas de etiquetado automático con papeles temáticos. Actualmente se dispone ya de una interfaz de consulta en fase de pruebas donde se pueden realizar búsquedas basadas en la correspondencia entre papeles temáticos y funciones sintácticas de los corpus tratados hasta el momento (http://www.lsi.upc.edu/~mbertran/cess-ece/). 5. Referencias bibliográficas Abeillé A., Clément L. y Kinyon A. “Building a Treebank for French.” Building and Using Syntactically Annotated Corpora. Language and Speech, Dordrecht: Kluwer, 2001. Abney, S. “Part-of-Speech Tagging and Partial Parsing. Proceedings of the ESSLL’96 Robust Parsing Workshop, 1996. Afonso S., Bick E., Haber R.. y Santos D. “Floresta Sintáctica: a Treebank for Portuguese.” Proceedings of the Third Conference on Language Resources and Evaluation. Las Palmas: LREC (2002). Atserias, J., Carmona, J., Castellón, I., Cervell, S., Civit, M., Màrquez, L., Martí, M.A., Padró, L., Placer, R., Rodríguez, H., Taulé, M. y Turmo,J. “Morphosyntactic análisis and parking of Unrestricted Spanish Text”. Proceedings of the First Conference on Language Resources and Avaluation 2. Granada: LREC (1998): 1.267-1.272. Bemova A., Hajic J., Hladka B. y Panevova J. “Morphological and Syntactic Tagging of The Prague Dependency Treebank.” Journés Atala, Corpus annotés pour la syntaxe. Paris, 1999. Brants T., Skut, W. y Uszkoreit H. “Syntactic Annotation of a German Newspaper Corpus.” Building and Using syntactically annotated corpora, Kluwer: Kluwer, Language and Speech (2001). Boguslavsky I., Chardin I., Grigorieva S., Grigoriev N., Iomdin L., Kreidlin L. y Frid N. (2002) “Development of a Dependency Treebank for Russian and its possible Applications in NLP.” Proceedings of the Third Conference on Language Resources and Evaluation. Las Palmas: LREC (2002). Busser, B. y Morante, R. “Designing an active learning based system for corpus annotation”. Procesamiento del Lenguaje Natural 35, Granada: SEPLN (2005): 375-382. Carmona, J., Atserias, J., Castellón, I., Cervell, S., Civit, M., Màrquez, L., Martí, M.A., Padró, L., Placer, R., Rodríguez, H., Taulé, M. y Turmo,J. “Morphosyntactic Analysis and Parsing of Unrestricted Spanish Text”. Proceedings of the First Conference on Language Resources and Avaluation 2. Granada: LREC (1998): 915-922. 24 Civit, M., Castellón, I. y Martí, M.A. “Creación, etiquetación y desambiguación de un corpus de referencia del español”. Procesamiento del Lenguaje Natural 27. Jaén: SEPLN (2001): 21-28. Civit, M. Criterios de etiquetación y desambiguación morfosintáctica de corpus del español, Alicante: Monografías de la Sociedad Española para el Procesamiento del Lenguaje Natural 3, 2003. Civit, M., Ageno, A., Navarro, B., Bufí, N. y Martí, MA. “Qualitative and Quantitative Analysis of Annotators Agreement in the Development of Cast3LB”. 2nd Workshop on Treebanks and Linguistic Theories . Växjö: TLT03 (2003). Civit, M., Martí, M.A. y Padró, L. “Using hybrid probabilistic-linguistic knowledge to improve postagging performance”. Proceedings of Corpus Linguistics. UK: Lancaster University (2003). Civit, M. y Martí, M.A. “Estándares de anotación morfosintáctica para el español”. Proceedings of IX Ibero-American Workshops on Artificial Intelligence. México: Iberamia (2004): 217-224. Civit, M. y Martí, M.A. “Building Cast3LB: a Spanish Treebank”, Research on Language & Computation 2, Germany: Springer Science+Business Media B.V. (2004): 549-574. Civit, M. y Martí, M.A. (2005) ‘GramCat and GramEsp : two Grammars for Chunking’, en Intelligent Information processing and Word Mining, Gdansk, Poland. Springer Verlag. ISSN 1615-3871. Civit, M., Aldezabal, I., Pociello, E., Taulé, M., Aparicio, J., Màrquez, L., Navarro, B., Castellví, J. y Martí M.A. “3LB-LEX: léxico verbal con frames sintáctico-semánticos”. Procesamiento del Lenguaje Natural 30. Granada: SEPLN (2005): 367-374. Civit, M., Martí, M.A. y Bufí, N. “Cat3LB and Cast3LB: From Constituents to Dependencies”. Advances in Natural Language Processing. Germany: Springer (2006): 141-152. Cotton, S. y Bird, S. “An integrated framework for treebanks and multilayer annotations”. Proceedings of the Second International Conference on Language and Evaluation. Greece: LREC (2000). Dowty, D. “Thematic proto-roles and argument selection”. Language, 67 (1991): 547-619. Hajic J. “Building a Syntactically Annotated Corpus: the Prague dependency Treebank.” Issues of Valency and Meaning, 1998. Kingsbury, P., Palmer, M. y Marcus M. “Adding semantic annotation to Penn TreeBank”. Proceedings of the Conference on Human Language Technology, San Diego, CA. (2002). Kipper, K., M. Palmer, O. Rambow (2002). “Extending PropBank with VerbNet Semantic Predicates”. Workshop on Applied Interlinguas, held in conjunction with AMTA-2002. Tiburon, CA. Marcus M., Santorini B., Marcinkiewicz, M. A. “Building a Large annotated corpus of English: the Penn Treebank”. Computational Linguistics, MIT Press, 1993. Márquez, L., Taulé, M., Martí, M.A., Artigas, N., García, M., Real F. y Ferrés, D. “Senseval-3: The Spanish Lexical Sample Task”. Proceedings of Senseval-3, Barcelona: ACL (2004): 21-25. 25 Monachini M. y Calzolari N. “Synopsis and Comparision of Morphosyntactic Phenomena Encoded in Lexicons and Corpora. A common Proposal and Applications to European Languages, EAGLES (1996). Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Lenci A., Zampolli, A., Fanciulli F., Massetani M., Raffaelli R., Basili R., Pazienza M. T., Saracino D., Zanzotto F., Mana N., Pianesi F. y Delmonte R. “Building the Italian Syntactic-Semantic Treebank.” Building and Using Syntactically Annotated Corpora, Language and Speech, Dordrecht : Kluwer, 2001. Padró, L. “A Hybrib Environment for Syntax-Semantic Tagging”. Tesis Doctoral Universitat Politècnica de Catalunya, Barcelona, 1997. Palmer, M., Kingsbury, P. y Gildea, D. “The Proposition Bank: An Annotated Corpus of Semantic Roles.” Computational Linguistics, 21 (1). USA: MIT Press, 2005. Rappaport Hovav, M. y Levin, B. “Building Verb Meanings”. The Projection of Arguments: Lexical and Compositional Factors, Stanford, CA: CSLI Publications, 1998: 97-134. Sampson G. “Probabilistic Models of Analysis”. The Computational Analysis of English. New York: Longman, 1987. Sampson G. English for the Computer. The SUSANNE corpus and Analytic Scheme. Oxford: Clarendon Press, 1995. Sebastián, N., Martí, M.A., Carreiras, M.F. y Cuetos, F. LEXESP: Léxico Informatizado del Español. Barcelona: Ediciones de la U. de Barcelona. Surdeanu, M. Etiquetador automático de roles semánticos de software libre, 2006. <http://www.lsi.upc.edu/~surdeanu/swirl.html> Tadic M. “Building the Croatian National Corpus.” Proceedings of the Third International Conference on Language Resources and Evaluation (LREC02). Las Palmas: LREC (2002). Taulé, M., Aparicio, J., Castellví, J. y Martí, M.A. “Mapping syntactic functions into semantic roles”, Proceedings of the Fourth Workshop on Treebanks and Linguistic Theories (TLT05)”. Barcelona: Universitat de Barcelona, 2005: 185-196. Taulé, M., y Castellví, J. “La interfaz sintaxis-semántica: anotación de corpus con papeles temáticos”, Actas del VII Congreso de Lingüística General. Barcelona: Universitat de Barcelona, 2006. Taulé, M., Castellví, J. y Martí, M.A. “Semantic Classes in CESS-LEX: Semantic Annotation of CESSECE” presentado en el Fith Workshop on Treebanks and Linguistic Theories, 2006. Taylor A., Marcus M. y Santorini B. “The Penn Treebank: an overview.” Building and Using Syntactically Annotated Corpora. Language and Speech, Dordrecht: Kluwer, 2001. Vàzquez, G., Fernández, A. y Martí, M.A. Clasificación verbal. Alternancias de diátesis. Lleida: Edicions de la Universitat de Lleida, 2000.