Download Análisis léxico funcional de la sintaxis: propuesta para el
Document related concepts
Transcript
UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO ANÁLISIS LÉXICO FUNCIONAL DE LA SINTAXIS: PROPUESTA PARA EL PROCESAMIENTO AUTOMÁTICO DEL ESPAÑOL Tesis sometida a la consideración de la Comisión del Programa de Estudios de Posgrado de Lingüística para optar al grado y título de Maestría Académica en Lingüística. SHARID LOÁICIGA SÁNCHEZ Ciudad Universitaria Rodrigo Facio 2012 “Esta tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Lingüística de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Lingüística.” Dra. Gabriela Barrantes Sliesarieva Representante de la Decana del Sistema de Estudios de Posgrado Dr. Jorge Antonio Leoni de León Director de Tesis MA. Ximena del Río Urrutia Asesora Dra. Carla Victoria Jara Murillo Asesora Dr. Carlos Villalobos Villalobos Representante del Director del Programa de Posgrado en Lingüística Sharid I. Loáiciga Sánchez Candidata ii Índice general Resumen VI Lista de cuadros VII Lista de figuras VIII List de abreviaturas X 1. Introducción 1.1. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . 1.3.2. Objetivos Específicos . . . . . . . . . . . . . . . 1.4. Estado de la cuestión . . . . . . . . . . . . . . . . . . . 1.4.1. Estudios formales del español basados en LFG 1.4.2. Parsers . . . . . . . . . . . . . . . . . . . . . . . 1.4.3. Los corpus no anotados . . . . . . . . . . . . . . 1.4.4. Los métodos estadísticos y los corpus anotados 1.5. Marco teórico . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1. La estructura de frase . . . . . . . . . . . . . . . 1.5.2. La unificación y las reglas libres de contexto . . 1.5.3. Principios de diseño de LFG . . . . . . . . . . . 1.5.4. Estructura-f . . . . . . . . . . . . . . . . . . . . . 1.5.5. Correspondencia entre las estructuras c y f . . . 1.5.6. Completud y coherencia . . . . . . . . . . . . . . 1.5.7. Plataforma de desarrollo de gramáticas XLE . . 1.6. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1. Obtención de los datos . . . . . . . . . . . . . . 1.6.2. Definición del lexicón . . . . . . . . . . . . . . . 1.6.3. Escritura de las reglas gramaticales . . . . . . . 1.6.4. Validación computacional: parser . . . . . . . . . 1.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 10 10 10 10 10 11 18 24 26 31 32 36 39 40 42 49 53 57 58 59 60 61 62 2. El lexicón y su tipología 2.1. ¿Qué es el lexicón? . . . . 2.2. Las tipologías gramaticales 2.2.1. Tipología verbal . . 2.2.2. Tipología nominal . 2.2.3. Determinantes . . . 2.2.4. Modificadores . . . 2.2.5. Preposiciones . . . 2.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Análisis sintáctico de la frase simple 3.1. La estructura de frase según LFG . . . . . . . . . 3.1.1. Sujeto nulo . . . . . . . . . . . . . . . . . . 3.1.2. Sobre la subcategorización verbal . . . . . 3.1.3. Ergatividad en español . . . . . . . . . . . 3.1.4. El orden libre de los constituyentes . . . . . 3.1.5. El orden libre de los constituyentes en LFG 3.1.6. Cópula . . . . . . . . . . . . . . . . . . . . 3.2. Otras construcciones sintácticas . . . . . . . . . . 3.2.1. Pronombres clíticos . . . . . . . . . . . . . 3.2.2. Oraciones con se . . . . . . . . . . . . . . 3.2.3. Coordinación . . . . . . . . . . . . . . . . . 3.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 . 85 . 92 . 95 . 101 . 105 . 108 . 109 . 113 . 116 . 123 . 128 . 134 . . . . . . . . . 136 . 137 . 137 . 143 . 154 . 156 . 156 . 160 . 162 . 165 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 65 66 66 76 79 80 82 82 . . . . . . . . 4. El modelo de gramática formal 4.1. Arquitectura de XLE . . . . . . . . 4.1.1. Analizar oraciones con XLE 4.1.2. El código de reglas . . . . . 4.1.3. Interfaz gráfica . . . . . . . 4.2. Ejemplos . . . . . . . . . . . . . . 4.2.1. El chico es alto . . . . . . . 4.2.2. Come una manzana . . . . 4.2.3. El chico publica un libro . . 4.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Conclusiones generales 167 Apéndices 173 A. Corpus de oraciones 173 B. Segundo corpus de oraciones 176 C. Test-set 177 iv D. Totalidad de rasgos propuestos por XLE v 179 Resumen En este trabajo se propone un análisis formal de la frase simple del español según los principios de la Gramática Léxico-Funcional o LFG (del inglés Lexical Functional Grammar). Este es un formalismo de unificación, de carácter lexicalista fuerte y matemáticamente robusto. LFG proporciona un análisis en tres estructuras: c, f y a. La estructura-c provee una representación arbórea de los constituyentes de la frase y su organización sintáctica. La estructura-f está diseñada para ser abstracta, pues a partir de ella no se puede extraer información sobre la configuración de la frase. Asimismo, declara las estructuras de rasgos de acuerdo a las especificaciones del lexicón. La estructura-a, por su parte, especifica la estructura argumental de acuerdo a la subcategorización verbal, asegurando la completud y la coherencia. La estructura de frase propuesta sigue de cerca los postulados del esquema X̄ con dos cambios fundamentales. Por un lado, no es estrictamente binaria, pues cuenta con una estructura terciaria para el análisis de la coordinación. Por otro lado, se usa la noción de TP en lugar de IP por no existir el movimiento dentro de este marco teórico. El lexicón incluye las categorías de verbos, sustantivos, las preposiciones a y para, artículos definidos e indefinidos, adjetivos y la conjunción y. La estructura de frase propuesta, también probó ser robusta para el análisis de la siguientes estructuras: oraciones con hasta tres argumentos, construidas con diferentes tipos de verbos como copulativos y ergativos, por citar un ejemplo, en construcciones con sujetos plenos y sujetos nulos, la clitización de objeto directo, la clitización y reduplicación de objeto indirecto, tres tipos de oraciones con se (reflexivo, inherente y medio), los sujetos posverbales y la coordinación. vi Índice de cuadros 2.1. Tipos de verbos clasificados de acuerdo con el número de argumentos que subcategorizan. . . . . . . . . . . . . . . . . . . . . . 2.2. Conjunto total de verbos considerados. . . . . . . . . . . . . . . . 2.3. Tipología nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Pronombres personales . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Determinantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Adjetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 73 78 79 79 81 3.1. Marcaje nominativo-acusativo y ergativo-absolutivo. . . . . . . . . . 101 3.2. Pronombres Clíticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.1. Equivalencia de comandos entre LFG y XLE. . . . . . . . . . . . . . 148 vii Índice de figuras 1.1. 1.2. 1.3. 1.4. Output del analizador FIPS. . . . . . . . . . . . . . . . . . . Output del analizador TXALA. . . . . . . . . . . . . . . . . . Estructura canónica de la frase simple. . . . . . . . . . . . Interfaz de la herramienta de desarrollo de gramáticas XLE. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. . . . . . . . . . . . . . . . . Estructura canónica de la frase simple. . . . . . . . . . . . . . . . Estructura canónica de la frase según GB. . . . . . . . . . . . . . Estructura canónica de la frase según LFG. . . . . . . . . . . . . . Estructura del sintagma determinante (DP). . . . . . . . . . . . . . Estructura-f de un verbo con argumento. . . . . . . . . . . . . . . . Estructura-f de un verbo sin argumentos. . . . . . . . . . . . . . . Estructura-f de un verbo ditransitivo. . . . . . . . . . . . . . . . . . Estructura-c de un verbo ditransitivo. . . . . . . . . . . . . . . . . . Estructura profunda propuesta por Belletti y Rizzi (1988) para los verbos sicológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10.Sujeto generado en posición interna . . . . . . . . . . . . . . . . . 3.11. Movimiento del sujeto generado en posición interna . . . . . . . . 3.12.Sujeto generado en posición externa . . . . . . . . . . . . . . . . . 3.13.Movimiento del sujeto posverbal . . . . . . . . . . . . . . . . . . . 3.14.Estructura-f de un verbo ergativo. . . . . . . . . . . . . . . . . . . . 3.15.Estructura-c de un verbo copulativo. . . . . . . . . . . . . . . . . . 3.16.Estructura-f de un verbo copulativo. . . . . . . . . . . . . . . . . . 3.17.Estructura-c de un verbo transitivo con un adjetivo atributivo. . . . 3.18.Estructura-f de un verbo transitivo con un adjetivo atributivo. . . . 3.19.Posición del DP objeto. . . . . . . . . . . . . . . . . . . . . . . . . 3.20.Posición del CL objeto. . . . . . . . . . . . . . . . . . . . . . . . . 3.21.Estadio intermedio del movimiento de los pronombres clíticos de objeto directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.22.Generación básica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.23.Duplicación de clítico por generación básica. . . . . . . . . . . . . 3.24.Estructura-f de un verbo transitivo con un pronombre clítico. . . . . 3.25.Estructura-f de un verbo transitivo con un pronombre clítico de objeto indirecto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii . . . . 21 22 36 56 . 87 . 87 . 89 . 89 . 93 . 93 . 99 . 100 . 104 . 105 . 106 . 106 . 107 . 110 . 112 . 113 . 114 . 115 . 117 . 117 . 118 . 119 . 119 . 121 . 122 3.26.Estructura-f de un verbo transitivo con duplicación de pronombre clítico de objeto indirecto. . . . . . . . . . . . . . . . . . . . . . . . 3.27.Estructura-f del verbo ver con uso reflexivo. . . . . . . . . . . . . . 3.28.Estructura-f del verbo quejarse. . . . . . . . . . . . . . . . . . . . . 3.29.Estructura-f del verbo morirse. . . . . . . . . . . . . . . . . . . . . 3.30.Estructura-f de una configuración de coordinación. . . . . . . . . . 3.31.Estructura-c de una configuración de coordinación. . . . . . . . . . 4.1. Arquitectura de XLE desde la perspectiva del sistema. . . . . . . . 4.2. Arquitectura de XLE desde la perspectiva del lingüista. . . . . . . 4.3. Línea de comandos UNIX. . . . . . . . . . . . . . . . . . . . . . . . 4.4. Invocación de XLE. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Línea de comandos XLE. . . . . . . . . . . . . . . . . . . . . . . . 4.6. Invocación del parser. . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Parser y gramática en curso de ejecución. . . . . . . . . . . . . . 4.8. Oración dada como input . . . . . . . . . . . . . . . . . . . . . . . 4.9. Oración dada analizada. . . . . . . . . . . . . . . . . . . . . . . . . 4.10.Análisis en estructuras de LFG. . . . . . . . . . . . . . . . . . . . . 4.11. Interfaz de la herramienta de desarrollo de gramáticas XLE. Ejemplo de una frase agramatical. . . . . . . . . . . . . . . . . . . . . . 4.12.Subestructura de rasgos para un artículo definido. . . . . . . . . . 4.13.Subestructura de rasgos para un sustantivo masculino. . . . . . . 4.14.Unificación de dos subestructuras de rasgos. . . . . . . . . . . . . 4.15.Estructura-c para la frase el chico es alto. . . . . . . . . . . . . . . 4.16.Estructura-f final para la oración el chico es alto. . . . . . . . . . . 4.17.Interfaz cuando no se reconoce la entrada. . . . . . . . . . . . . . 4.18.Análisis de un sujeto nulo ambiguo. . . . . . . . . . . . . . . . . . 4.19.Selección de entradas de acuerdo a la estructura-a. . . . . . . . . 4.20.Estructura-f de la frase el chico publica un libro. . . . . . . . . . . . 4.21.Estructura-c de la frase el chico publica un libro. . . . . . . . . . . ix . 124 . 126 . 128 . 129 . 132 . 133 . 138 . 138 . 139 . 139 . 139 . 140 . 140 . 141 . 141 . 142 . 155 . 158 . 158 . 158 . 159 . 160 . 161 . 161 . 162 . 164 . 166 Lista de abreviaturas A agr cat CD CI col COMP conjP coP CP DP ECM en FOC fr GB gend GF i. e. INIL IP LFG N NLP NP num obj p. ej. Adjetivo Concordancia (del inglés agreement) Categoría Complemento Directo Complemento Indirecto Colaboradores Complementizador Sintagma Conjuntivo (del inglés Conjunction Phrase) Sintagma Conjuntivo según De Vries (2005) (del inglés Conjunction Phrase) Sintagma Complementizador (del inglés Complementizer Phrase) Sintagma Determinante (del inglés Determinant Phrase) Verbos de marcaje excepcional (del inglés Exceptional Case Marking) Inglés. Abreviatura según código ISO 639-1 Foco Francés Rección y Ligamiento (del inglés Government and Binding) Género (del inglés gender) Función Gramatical (del inglés Grammatical Function) Esto es (del latín id est) Instituto de Investigaciones Lingüísticas de la Universidad de Costa Rica Sintagma de la Inflexión (del inglés Inflectional Phrase) Gramática Léxico Funcional (del inglés Lexical Functional Grammar) Nombre Natural Language Processing Sintagma Nominal (del inglés Nominal Phrase) Número (del inglés number) Objeto Por ejemplo x P&P PLN PP PRED sn Spec SUJ SVO TOP TopP TP VP XP Modelo de Principios y Parámetros Procesamiento del Lenguaje Natural Sintagma Preposicional (del inglés Prepositional Phrase) Predicación Sintagma Nominal Especificador (del inglés specifier) Sujeto Sujeto-Verbo-Objeto Tópico Sintagma Topical (del inglés Topic Phrase) Sintagma Temporal (del inglés Temporal Phrase) Sintagma Verbal (del inglés Verbal Phrase) Sintagma X (del inglés X Phrase) xi ”’Linguists who are aproaching a language for the first time will have to make their way as best they can; in any case, their findings will most likely be rewritten many times by those who come after them. With the pleasure of being the first goes the certainty of being wrong, which is the converse of the cumulative principle: the more that is known about a language, the more we can find out about it.” William Labov Some Principles of Linguistic Methodology, 1972 xii 1 Capítulo 1 Introducción El procesamiento del lenguaje natural (PLN o NLP como se conoce por sus siglas en inglés) se ocupa de implementar modelos computarizados de la información con el fin de realizar tareas específicas de análisis y generación por medio de algoritmos (Wehrli 1997). Es el objeto de estudio de la lingüística computacional, interesada en la creación de modelos del lenguaje para su implementación en aplicaciones diversas, tales como la traducción automática 1 o la respuesta automática2 , diseñado para explotar enormes bases de datos con el fin de responder a preguntas específicas hechas en lenguaje natural. Es, por lo tanto, un área de estudio interdisciplinaria que combina los procedimientos teóricos y empíricos provenientes de la informática con las diferentes aproximaciones teóricas y métodos de estudio de la lingüística (Wehrli 1997). Con el fin de efectuar operaciones computacionales en lenguaje natural, se 1 Un ejemplo concreto de implemantación de traducción automática lo consituye el conocido sistema de traducción estadística Google Translate (http://translate.google.com/; última visita: 07-07-2012), o el sistema de traducción híbrida Systran (http://www.systran.fr/; última visita: 07-07-2012). 2 Un ejemplo concreto es el sistema Start (http://start.csail.mit.edu/; última visita: 0707-2012) desarrollado por el Massachusetts Institute of Technology (MIT) (http://web.mit.edu/; última visita: 07-07-2012). 2 CAPÍTULO 1. INTRODUCCIÓN recurre a su representación por medio de formalismos. De acuerdo con Galicia y Gelbukh (2007), se han establecido dos métodos para describir formalmente la gramaticalidad de una lengua: las dependencias y los constituyentes. El primero establece relaciones semánticas entre pares de unidades léxicas, donde una es subordinada o dependiente de la otra hasta formar una estructura jerárquica o árbol de dependencias con todas las palabras de la oración. Nuestro trabajo se sitúa en el segundo método, es decir, bajo la aproximación por constituyentes, cuya corriente principal es la iniciada por N. Chomsky en 1957 con su libro Syntactic Structures. En ella, las oraciones se consideran compuestas por sintagmas3 definidos según las especificaciones contempladas en las reglas gramaticales. La descripción semántica no existe por no considerarse ligada a la privilegiada descripción sintáctica (Galicia y Gelbukh 2007). En particular, nuestro interés está en la descripción formal de nuestra unidad de análisis, la frase simple, entendida como aquella frase u oración que no tiene alteraciones en el orden canónico de los sintagmas. Nuestra definición se basa en la estructura de la frase propuesta por el esquema X̄ (Haegeman 1991) y se explica con detalle en la sección 1.5.1: La estructura de frase. En este sentido, los términos oración y frase serán utilizados indistintamente en las páginas que siguen. Bajo el enfoque por constituyentes, existe un número finito de palabras con el cual es posible generar un número infinito de oraciones mediante las reglas definidas en una gramática, concebida como un sistema formal. En otras palabras, por medio de un conjunto de reglas explícitas que transforman una cadena de símbolos de entrada (input) en una cadena de símbolos de salida (output) (Wehrli 1997). A lo largo del desarrollo de la lingüística computacional, han surgido nume3 Constituyentes que forman una unidad distribucional. El grupo nominal, el grupo preposicional, el grupo verbal, entre otros, son ejemplos de sintagmas (Laenzlinger 2003). 3 rosos formalismos y modelos diferentes, entre ellos la Gramática Léxico Funcional o LFG4 . Este formalismo fue iniciado por Bresnan y R. Kaplan (1982), como se explica con detalle en la sección 1.5: Marco teórico. En este capítulo nos proponemos introducir al lector en materia de análisis sintáctico desde el formalismo LFG. Primeramente, presentamos el panorama de la lingüística computacional en el contexto general del país (sección 1.1: Justificación), luego, la problemática que esto conlleva en términos de nuestra investigación (sección 1.2: Problema) y los objetivos que nos hemos trazado (sección: 1.3: Objetivos). Seguidamente, damos cuenta del estado de la investigación sintáctica del español desde el formalismo de nuestro interés. Al respecto, hemos encontrado que existen pocos estudios del español en el marco del formalismo LFG, tal como exponemos en la sección (1.4: Estado de la cuestión). Por último, explicamos con detalle los componentes de LFG (sección 1.5: Marco teórico). 4 La sigla LFG responde al nombre del formalismo en inglés . Por conveniencia en la utilización de los términos, en este trabajo usaremos las siglas correspondientes a la nomenclatura en inglés. La lista completa de equivalencias puede ser consultada en la Lista de Abreviaturas proporcionada al inicio de este documento. 4 CAPÍTULO 1. INTRODUCCIÓN 1.1. Justificación Los métodos simbólicos, una de las dos aproximaciones más importantes en el campo de la lingüística computacional, dominaron el panorama del procesamiento del lenguaje natural hasta hace aproximadamente 30 años. Luego, hacia finales de la década de 1980 y principios de 1990, gracias a la disponibilidad de grandes cantidades de texto electrónico, el desarrollo de computadoras de mayor capacidad y memoria y, por supuesto, el advenimiento de la internet, la lingüística computacional disfrutó de un crecimiento y progreso acelerados. Tal avance se produjo de la mano del empleo y refinamiento de los métodos estocásticos, pues se consolidaron como la segunda aproximación mayoritaria dentro del campo de la lingüística computacional. Los sistemas estocásticos probaron que podían resolver con éxito problemas genéricos como el etiquetado automático y la desambigüización de palabras -tareas que continúan vigentes- con menor necesidad de conocimiento experto. Esto significó una considerable reducción del trabajo lingüístico humano (Hutchins 1986). Los métodos estocásticos crean modelos estadísticos derivados de grandes conjuntos de textos o corpus usando diversas técnicas de aprendizaje automático. Se trata de verdaderos modelos estadístico-inferenciales, razón por la cual, a la vez que los sistemas de base estadística se asentaban, se desarrollaron múltiples corpus anotados necesarios para su entrenamiento5 Los corpus anotados se consiguen a través de etiquetas POS (Part-of-Speech tags por sus siglas en inglés). Se trata de etiquetas que incluyen información variada definida según el propósito de cada corpus. Generalmente, incluyen infor5 Por entrenamiento nos referimos a la exposición del algoritmo de aprendizaje a ejemplos, en forma de un corpus anotado, que ilustren las relaciones o características de las variables bajo estudio. El fin último, es lograr que el sistema pueda reconocer tales relaciones en datos desconocidos luego del entrenamiento. En otras palabras, que pueda inducir nuevo conocimiento a partir del entrenamiento. 1.1. JUSTIFICACIÓN 5 mación sobre la categoría gramatical, el género, el número o el rol semántico. El corpus Penn TreeBank 6 , por ejemplo, contiene 36 tipos diferentes de etiquetas con información léxica y sintáctica y 12 con los signos de puntuación y los símbolos de dinero (Marcus, Santorini y Marcinkiewicz 1993). A partir de un corpus anotado es posible inducir estadísticamente las reglas gramaticales de una lengua en particular.7 Este método, como acabamos de mencionar, necesariamente debe contar con una gran cantidad de datos en forma de corpus anotados para poder entrenar adecuadamente un sistema estadístico; de lo contrario, el resultado será más bien pobre (Mohri 2005). Sin embargo, en el caso del español, hemos constatado una insuficiencia de recursos, tal como lo exponemos con detenimiento en el Estado de la cuestión (sección 1.4). La cantidad tanto de corpus anotados como de sistemas capaces de procesar el español (tal como los analizadores sintácticos) es poca en sí, pero se reduce aún más cuando se considera que una buena parte no cuenta con versiones de libre acceso para su uso. El corpus CAST3LB, por mencionar un caso, está construido usando estructuras-f8 de LFG, pero actualmente no se encuentra disponible ni en línea ni bajo licencia (Chrupała y Genabith 2006). El análisis sintáctico constituye la base de numerosas aplicaciones en el campo, puesto que determina la estructura sintagmática de las oraciones. En otras palabras, descompone la oración en partes, de forma que sea posible calcular las diferentes interpretaciones semánticas y pragmáticas a partir de ellas. Por citar un 6 http://www.cis.upenn.edu/~treebank/; última visita: 01-06-2012 La inducción de reglas es una de las técnicas de aprendizaje automático más utilizadas. Consiste en la extracción de regularidades que satisfagan una definición formada por un grupo de condiciones. Estas condiciones generalmente tienen la forma: 7 si (atributo1, valor1) y (atributo2, valor2, y …y (atributo n, valor n) entonces (decisión, valor) (Langley y Simon 1995; Grzymala-Busse y J.Grzymala-Busse 2005). 8 Se trata de la estructura funcional, una de las tres estructuras pilares de LFG. 6 CAPÍTULO 1. INTRODUCCIÓN ejemplo, una primera fase de análisis léxico-sintáctico debe ser capaz de desambiguar los diferentes valores de verbo y conjunción de la palabra ”como”, con el fin de no propagar un error a otros niveles del sistema (Wehrli 1997). Con esto en cuenta, nos hemos inclinado por una aproximación simbólica para nuestro estudio por dos razones fundamentales. En primer lugar, porque el análisis sintáctico es necesario como fondo y soporte de un sistema de procesamiento del lenguaje natural con miras a desarrollar aplicaciones diversas. Segundo, porque permite la elaboración de gramáticas a base de reglas de reescritura o reglas libres de contexto con una fuerte motivación lingüística. Las gramáticas a base de reglas requieren de un formalismo matemáticamente válido para su desarrollo. Entre los diferentes formalismos disponibles tales como HPSG9 (Pollard y Sag 1994), formalismo de unificación de estructuras de rasgos, o TAG10 (Joshi, Levy y Takahashi 1975), formalismo de unificación de árboles sintácticos, entre muchos otros, LFG, desarrollado por Bresnan y R. Kaplan (1982), ha demostrado ser matemáticamente coherente y lingüísticamente sólido. Por sus propiedades distintivas, hemos decidido tomar a LFG como base de análisis de nuestro estudio. LFG es un formalismo de carácter fuertemente lexicalista, por lo que los rasgos contenidos en el lexicón son directamente generados a partir de las unidades léxicas (palabras), hecho que los convierte en entes fundamentales para dar cuenta del comportamiento sintáctico de las lenguas, tal como se explica con detalle en la sección 2: El lexicón y su tipología. Asimismo, las estructuras-f de LFG proporcionan un nivel de representación sintáctica que es lo suficientemente abstracto y uniforme para analizar lenguas tipológicamente disímiles entre sí. Aunado a esto, el programa XLE se escogió para el desarrollo del trabajo por9 10 Head-Driven Phrase Structure Grammar. Tree Adjoining Grammar. 1.1. JUSTIFICACIÓN 7 que es una plataforma concebida para la implementación de gramáticas escritas usando LFG de fácil aprendizaje y uso. Fue concebida como un proyecto conjunto entre el grupo NLTT en laboratorio PARC - XEROX y el grupo MLTT en la Universidad de Grenoble, comenzando su desarrollo a partir de octubre de 1993 (http://www2.parc.com/isl/groups/nltt/xle/). El hecho de permitir la producción de una gramática lingüísticamente robusta también se encuentra entre los beneficios de desarrollar el trabajo desde una aproximación simbólica. Efectivamente, tal como ha sido demostrado por Gulati (2011) para el caso de la traducción automática, las mejoras hechas por un sistema estadístico sobre un sistema a base de reglas resultan en mejores traducciones que lo inverso, esto es, un sistema de traducción estadístico con mejoras hechas por un sistema a base de reglas. Un ejemplo de este tipo de sistemas híbridos es el trabajo realizado por Russo, Loáiciga y Gulati (2012). En este se mejoró la traducción de los sujetos nulos del español y el italiano hecha por Its-2 –traductor simbólico (Wehrli, Nerima y Scherrer 2009)– usando un sistema estadístico como post-editing11 . Además de la falta de análisis desde el formalismo LFG, también hemos topado con una escasez de análisis formales del español que puedan ser utilizables computacionalmente. Existen algunos trabajos, como el de Estigarribia (2005) que proporcionan una descripción lingüística de un aspecto en particular, en este caso de los pronombres clíticos, pero que no cuentan con una verdadera formalización computacional. En la introducción a su libro Investigaciones para el análisis sintáctico del español, Galicia y Gelbukh (2007) también señalan esta carencia de recursos. 11 Este procedimiento se conoce como Statistical Post-Editing y su popularidad comenzó con los trabajos de Simard, Goutte e Isabelle (2007) y Simard, Ueffing y col. (2007) sobre el traductor automático comercial Systran (http://www.systran.fr/; última visita 07-07-2012). 8 CAPÍTULO 1. INTRODUCCIÓN En el contexto costarricense, el procesamiento del lenguaje natural se desa- rrolla en la Universidad de Costa Rica. Al respecto, Leoni de León (2010) solo encuentra dos trabajos en el área y ambos provienen de la Escuela de Computación e Informática. El primero es una tesis de maestría presentada por Berrocal Rojas (2009) sobre la automatización parcial de la revisión de software escrito en lenguaje natural. El segundo también se trata de una tesis de maestría presentada por Cedeño Baltodano (2009), quien hizo una comparación de dos aplicaciones de visualización de mapas conceptuales. Aparte de estos trabajos, en la Universidad de Costa Rica no disponemos de analizadores sintácticos, así como de ningún otro sistema de procesamiento del lenguaje natural. Actualmente, el proyecto IPROCOLDI –aún en desarrollo– del Instituto de Investigaciones Lingüísticas (INIL) se propone crear una interfaz para la explotación de corpus lingüísticos. En lo que a la Escuela de Filología, Lingüística y Literatura concierne, en el nivel de bachillerato se ofrece el curso de Tecnología y Producción Textual desde el año 2002. Su posgrado asociado, el Programa de Posgrado en Lingüística cuenta con variedad de subdisciplinas lingüísticas; sin embargo, no es sino hasta el 2009 que cursos sobre lingüística computacional son impartidos regularmente como parte de la oferta académica. El presente trabajo nace dentro del concluido proyecto 745-A8-188 del INIL: ”Modelización computacional del lenguaje: representaciones, métodos y aplicaciones”, el cual buscaba sentar las bases de la modelización computacional de las lenguas naturales habladas en Costa Rica, las cuales incluyen el español y otras lenguas minoritarias tales como el bribri y el guatuso. Nosotros nos dedicamos al español como lengua de estudio por dos razones principales. En primer lugar, se trata de la lengua mayoritaria hablada en nuestro país. Luego, en el ámbito del PLN, después de un recorrido por la fuentes, hemos 1.1. JUSTIFICACIÓN 9 confirmado que a pesar de tratarse de la segunda lengua más importante en el mundo, pues cuenta con aproximadamente 328 millones de hablantes nativos y con cerca de 60 mil millones de hablantes como L212 , los recursos formales e informáticos disponibles son más bien escasos. Nuestra propuesta se presenta como un proyecto de tipo exploratorio en su área. La falta de un análisis formal, coherente e integral para la sintaxis del español de libre acceso y explotable computacionalmente, nos ha llevado a trazarnos como objetivos el entendimiento y modelización de lo más fundamental para una gramática: la frase simple. Partiendo de nuestra selección del formalismo LFG como medio de análisis, nos hemos planteado varias preguntas: - ¿Cuáles son las reglas gramaticales de la frase simple en español en LFG? - ¿Cuáles son los rasgos pertinentes para la sintaxis española según el formalismo LFG? - ¿Qué beneficios se pueden obtener a partir del análisis de las particularidades del español? A partir de lo anterior, nos proponemos determinar cuál es la estructura de la frase simple en español con miras a una propuesta de procesamiento automático con el fin de determinar la eficacia del formalismo utilizado. 12 Según datos de http://www.ethnologue.com/show_language.asp?code=spa; última visita: 01-03-2012. 10 CAPÍTULO 1. INTRODUCCIÓN 1.2. Problema Dada una arquitectura gramatical fuertemente lexicalista como LFG, ¿cuál definición gramatical de la frase simple de la lengua española permite verificar su pertinencia? 1.3. Objetivos 1.3.1. Objetivo General Representar la frase simple del español a partir de un análisis formal según LFG. 1.3.2. Objetivos Específicos - Identificar los fenómenos característicos de la frase simple del español. - Describir la estructura de la frase simple del español con atención en sus características distintivas. - Formalizar los fenómenos sintácticos identificados. - Verificar la adecuación de la formalización en una aplicación computacional. 1.4. Estado de la cuestión En esta sección detallamos la investigación disponible sobre la sintaxis española en el marco del formalismo LFG. Se consideran otros estudios pertinentes 1.4. ESTADO DE LA CUESTIÓN 11 aunque no versen directamente sobre análisis sintáctico del español utilizando el formalismo de nuestro interés. Además, presentamos los analizadores sintácticos o parsers de diversos grupos de investigación que trabajan sobre el procesamiento del español. Nuestro trabajo se centra en el análisis automático de la sintaxis española, razón por la cual entender el funcionamiento de los parsers existentes resulta fundamental. Dentro del campo de la lingüística computacional, se pueden encontrar dos grandes líneas de investigación bien diferenciadas entre sí. Por un lado se encuentran los métodos simbólicos o lingüísticos. Como su nombre lo indica, se trata de una aproximación con una fuerte base lingüística que representa el lenguaje natural basada en los niveles del proceso lingüístico: morfología, sintaxis y semántica (Galicia y Gelbukh 2007). Los métodos estocásticos o estadísticos, por otro lado, obtienen los datos lingüísticos como resultado del análisis estadístico-inferencial de modelos probabilísticos y matemáticos aplicados a grandes conjuntos de corpus anotados. La robustez de los sistemas estadísticos ha propiciado un enorme desarrollo de los corpus anotados, pues son necesarios para su entrenamiento (Manning y Schütze 1999). Si bien nosotros situamos nuestro estudio desde la línea simbólica, en esta sección también hacemos un recorrido por las principales propuestas de análisis del español desde la aproximación estadística. Asimismo, nos referimos a los corpus anotados. 1.4.1. Estudios formales del español basados en LFG Un aspecto en particular que se ha estudiado ampliamente en diferentes lenguas romances lo constituyen los pronombres clíticos. El español, como parte de 12 CAPÍTULO 1. INTRODUCCIÓN esta familia de lenguas, ha sido objeto de varios análisis relativos a fenómenos tales como la duplicación de los clíticos en oraciones como (1), o la subida de los clíticos, como en el caso de (2). (1) Carmen lo vio al árbitro. (2) Carmen quiere dárselo. vrs. Carmen se lo quiere dar. Siguiendo a Kayne (1975), podemos definir los pronombres clíticos como pronombres débiles (3a), que no pueden ser coordinados (3b), y que deben ser adyacentes al verbo que les sirve de anfitrión (3c). (3) a. * Yo te hablo, no le. Te hablo, no a él. b. * Yo te y le hablo. Yo te hablo a ti y a él. c. Yo lo (*ahora) digo. Yo lo digo ahora. Dado que la naturaleza de los pronombres clíticos implica una compleja interrelación de la morfología, la sintaxis y la prosodia, de acuerdo con Holloway (2005), quedan todavía vacíos de información sobre la interacción de los componentes de la lengua para entender adecuadamente su funcionamiento. Su posición sintagmática se ha explicado desde la prosodia o bien desde la sintaxis, y también existen análisis que combinan ambos niveles (Halpern 1995). Particularmente sobre los clíticos en español, Estigarribia (2005) analiza el caso de la variedad rioplatense. Esta se caracteriza por el uso generalizado de la duplicación de los pronombres clíticos de objeto directo (la, lo, las, los) (4a), en oposición a la variedad estándar sin duplicación (4b). 1.4. ESTADO DE LA CUESTIÓN (4) 13 a. La vi a María. b. Vi a María. Con el fin de explicar la motivación de la duplicación y su función, el autor utiliza la teoría de la optimidad (OT-LFG). La teoría de la optimidad es una corriente dentro de LFG que versa sobre la interacción de restricciones -universales y violables- como causa de los diferentes fenómenos sintácticos (Bresnan 1998). El autor propone tres restricciones importantes como causantes de la duplicación de clíticos: la anaforicidad tópica, la recuperabilidad y la economía de la expresión. De modo que la duplicación de clíticos ocurre cuando la expresión tanto de un clítico como de una frase nominal es la respuesta óptima a las restricciones independientes de cada uno de ellos. Estigarribia (2005) trabaja con un corpus bastante extenso tomado de textos variados. Sus datos se componen de estructuras de LFG aumentadas con una lista de prominencia para codificar el estatus de los referentes. Esta se actualiza cada vez que se produce un enunciado para operacionalizar la topicalidad eficientemente. La lista de prominencia es una formalización en la que las entidades se enlistan jerárquicamente desde la más prominente hasta la menos prominente en un enunciado para asegurar su recuperabilidad por medio de anáforas. Es decir, si se tienen varios elementos, el sujeto, por ejemplo, al ser el argumento más prominente, va a encontrar su referente en la entidad más prominente de la lista. Por ejemplo, en la frase (5), el clítico aparece como la solución óptima, ya que su referente es prominente y recuperable en el enunciado inmediatamente anterior (Estigarribia 2005). (5) Uno se va con el problema. No lo dejás acá. 14 CAPÍTULO 1. INTRODUCCIÓN Este estudio evalúa su teoría con 6 lenguas hipotéticas que podrían tener refe- rente en las lenguas del mundo para probar que realmente responde a los requerimientos interlingüísticos de OT-LFG. Al tratarse de un estudio desde la Teoría de la Optimidad, este no ofrece ningún tipo de descripción estructural de la frase. Mayer (2008) presenta y discute la relación entre la concordancia de objeto de la duplicación de clítico y el marcaje de objeto directo con el marcaje de tópico en las variedades no estándares del español limeño13 . Una de las características de estas variedades es que utilizan mayormente un único clítico, lo, para marcar la concordancia anafórica en las construcciones con duplicación de clítico, en lugar de los otros pronombres correspondientes según el caso (la, las, los). Esto es una estrategia semántica y pragmática para hacer del objeto principal el acusativo, extendiendo así el marcaje de objeto directo a las entidades no animadas y usando un pronombre que no concuerda como marcador de tópico/transitividad, tal como se ve en el ejemplo (6) (Mayer 2008): (6) Loi /*lai frío a la cebollai Según este estudio, en (6), el objeto directo está marcado por la preposición a, usualmente reservada para las entidades animadas. Además, se reduplica por medio del clítico lo, en lugar del clítico femenino la, como en la variedad estándar, aún cuando este no concuerde con el objeto. Por otro lado, el dativo es un marcador de concordancia gramatical pronominal, mientras que el acusativo, al ser vaciado de sus propiedades referenciales, se reduce a un tópico (TOP) y se convierte en un pronombre tópico anafórico sin clasificaciones de concordancia, como se ve en el ejemplo (7). En este caso, el dativo concuerda tan solo en número con el objeto directo, pues los pronombres 13 Es decir, del español andino, español peruano ribereño o limeño, español andino-ribereño o neolimeño, español amazónico y ecuatorial. 1.4. ESTADO DE LA CUESTIÓN 15 de dativo se encuentran desprovistos de morfología de concordancia de género (Mayer 2008). (7) Pero ya no lei /*lai frito [sic.] a la yucai En otras palabras, existe una relación entre la concordancia de objeto, el marcaje de objeto directo y el marcaje de tópico secundario en las variedades en contacto del español limeño. El hecho de que los clíticos de objeto directo se hayan gramaticalizado sin sus valores de concordancia es atribuido por Mayer (2008) a la confluencia de múltiples factores, entre ellos el cambio diacrónico y la pragmática. Según su análisis, se trata de un nuevo caso acusativo, motivado por la competencia del dativo y del acusativo por el mismo espacio en las oraciones transitivas. En este estudio, el enfoque es desde los componentes semántico y pragmático. Por otra parte, Grimshaw (1999) presenta una investigación sobre los pronombres clíticos en las lenguas romances; específicamente, sobre el español, el italiano y el francés. Ella propone que los clíticos se pueden analizar mejor como una función de un conjunto de restricciones morfosintácticas, de fidelidad, marcaje y alineación. En otras palabras, también se trata de la interrelación de restricciones variadas, es decir, de un acercamiento desde la teoría de la optimidad, OT-LFG. Asimismo, Leoni de León (1999) estudia los pronombres clíticos del español desde la teoría de Rección y Ligamiento. Él expone el análisis sintáctico de los diferentes tipos de pronombres clíticos (acusativo, dativo, inherentes y éticos) incluyendo su posición sintagmática y la duplicación. También, aborda la sintaxis de otros fenómenos típicos del español, es decir, el leísmo, laísmo y loísmo, la transferencia de plural y la concordancia del plural en el dativo. Por último, explica cómo funciona el tratamiento automático de los fenómenos mencionados en el sistema IPS, precursor del analizador sintáctico FIPS (Wehrli 2007), el cual se 16 CAPÍTULO 1. INTRODUCCIÓN explica con detalle en la sección siguiente, Parsers. Posteriormente, Leoni de León y Michou (2006) retoman el análisis de los pronombres clíticos del español en FIPS con el propósito de mostrar que su estrategia de análisis es igualmente válida para el griego. El tratamiento en FIPS comprende dos etapas: la adjunción a la derecha o a la izquierda y la interpretación. Después de que el pronombre clítico es identificado, es decir leído por el analizador sintáctico, se adjunta a la cabeza de la estructura verbal y simultáneamente se inserta en una estructura temporal. Cuando el verbo es leído por el analizador sintáctico, el sistema llama a la estructura temporal e interpreta todos los clíticos en ella según el esquema de subcategorización del verbo del que se trate. Desde una perspectiva más semántica, otro tema analizado de manera aislada es el de los verbos psicológicos. Vanhoe (2002) expone, por medio de la Teoría del Mapeo Léxico14 , un análisis de los verbos sicológicos del tipo gustar, temer y preocupar. Estos verbos presentan diferencias en su forma de codificación de los roles temáticos y sus funciones gramaticales a nivel sintáctico, a pesar de ser temáticamente equivalentes. Se trata de una teoría interesada en las posibles correspondencias entre los roles temáticos y las funciones sintácticas. Vanhoe (2002), siguiendo a Dowty (1991), presenta otro estudio partiendo del hecho de que los verbos télicos (o completivos) se pueden dividir en dos subeventos distintos. Haciendo una modificación a las propuestas de proto-rol agente y proto-rol paciente desarrolladas por Dowty (1991), asigna un participante a cada subevento. De esta forma, el participante con el rol temático más prominente es asignado a un primer subevento (propiedad de proto-agente) y el participante con el segundo rol temático más prominente es asignado a un segundo subevento (propiedad de proto-paciente). Además jerarquiza las propiedades de tal manera 14 Lexical Mapping Theory. 1.4. ESTADO DE LA CUESTIÓN 17 que se haga una distinción entre sujeto, causa o experimentador. Las modificaciones que Vanhoe (2002) hizo a los proto-roles resultaron en un análisis más consistente de los objetos indirectos y un breve acercamiento al fenómeno del leísmo en las construcciones con verbos sicológicos. Por último, desde una aproximación lexicográfica, en su tesis doctoral, Leoni de León (2008) estudia el fenómeno de las unidades léxicas pluriverbales del español (multiword expressions) y propone una representación informática. Leoni de León (2008) empieza por desenmarañar el concepto palabra, de modo que define las unidades fraseológicas en vocablos, lexemas y morfolexemas. Luego, organiza estas unidades de acuerdo con una tipología de tres clases: colocaciones, fusiones temáticas y unidades léxicas plurimembres, centrándose sobre estas últimas para construir un diccionario sintáctico. Con base en la previa definición de las unidades fraseológicas, Leoni de León (2008) define un sistema de notación formal llamado Tsool que facilita su identificación. Este sistema explota tanto la base de datos, como el etiquetador del parser FIPS (Wehrli 2007). Tsool, en tanto que sistema de notación, permite reconocer las diferentes alternancias que una misma unidad fraseológica pueda presentar. Por ejemplo, una expresión idiomática puede aparecer tal cual (8a), o bien pasivizada (8b), o incluso cliticizada (8c). Esta representación está basada en rasgos, inspirada de las estructuras-f usadas en LFG. (8) a. Meter la pata. b. La pata fue metida. c. La metió hasta el fondo. 18 CAPÍTULO 1. INTRODUCCIÓN Luego, usando Tsool, a través de la notación en XML15 , el autor implementa Mulkin. Este es un sistema que funciona a modo de diccionario fraseológico (nótese que los términos de tal diccionario fueron definidos sintácticamente) y cuenta con una interfaz llamada Kaxan. 1.4.2. Parsers Un parser o analizador sintáctico16 es un sistema automático capaz de asignar a un texto de entrada (una frase por ejemplo) un conjunto de representaciones formales (Wehrli 1997). Estas representaciones son el resultado de un análisis determinado por el propósito del parser, de modo que existen parsers de diversas índoles, tales como morfológicos, sintácticos, semánticos, de colocaciones, etc. En el caso de un parser sintáctico, el tipo de representación varía según el formalismo que se utilice. En cuanto a los parsers, suele distinguirse entre el análisis sintáctico profundo y el análisis sintáctico superficial. Tal como sus nombres lo indican, la diferencia radica en cuánto se explora o analiza la relación entre los constituyentes de la oración. El análisis superficial se limita a identificar los constituyentes de frase (p. ej. NP, VP) pero no especifica su estructura interna o su función en la oración (p. ej. sujeto, objeto). Por el contrario, el análisis profundo se orienta a la elaboración de gramáticas, por lo que incluye información sintáctica (p. ej. subcategorización verbal, relación entre constituyentes) y semántica (p. ej. roles temáticos) detallada. Esta variante, sin embargo, implica gran cantidad de trabajo manual, pues requiere de conocimiento lingüístico experto o humano. 15 Lenguaje de etiquetado que permite la lectura de datos a través de diferentes aplicaciones. Fue desarrollado por W3C (http://www.w3schools.com/xml/; última visita 07-07-2012.). 16 De aquí en adelante estos dos términos serán usados indistintamente en el desarrollo del trabajo. 1.4. ESTADO DE LA CUESTIÓN 19 FIPS (Wehrli 2007) es un parser de tipo simbólico, desarrollado por el Laboratorio de Análisis y Tecnología del Lenguaje (LATL) de la Universidad de Ginebra17 . Se trata de un analizador sintáctico profundo, multilingüe, de inspiración chomskyana pero que también integra conceptos de corrientes tales como LFG (Bresnan 2001) y Simpler Syntax (Culicover y Jackendoff 2005). Como otros parsers, FIPS cuenta con un etiquetador morfológico el cual desambigua los diferentes valores léxicos de una misma palabra a la hora de un análisis. Además, su lexicón se divide en cuatro diferentes subgrupos, los cuales comprenden i) palabras, ii) lexemas, iii) colocaciones y iv) variantes ortográficas (Wehrli y Nerima 2009). Cada sintagma analizado por FIPS tiene una estructura de tres subconstituyentes: subconstituyente izquierdo, cabeza18 y subconstituyente derecho (9). A pesar de que la representación es horizontal por motivos de espacio (10), es equivalente a una representación arbórea (11). (9) (10) [XP constituyente-izquierdo X constituyente-derecho] Carmen escribe y publica mucho. [TP [TP [DP Carmen ] escribe [VP ]][ConjP y ] publica [VP [DP mucho ]]] (11) TP TP Dp VP ConjP VP DP El proceso de análisis ocurre de la siguiente manera. El input se lee de izquierda a derecha, cuando el analizador lee una cabeza léxica de tipo X, un estructura arborescente de tipo XP19 es proyectada. La estrategia de análisis utilizada es 17 http://www.latl.unige.ch/; última visita 07-07-2012. Véase 1.5.1: Algunas nociones de base. 19 Recordamos al lector que en este trabajo mantenemos el uso de los términos según su no18 20 CAPÍTULO 1. INTRODUCCIÓN de izquierda a derecha con tratamiento paralelo de las alternativas. Esta combina un procedimiento ascendente con un filtro descendente en su estrategia de adjunción de esquina derecha. Luego, cada proyección es combinada parcial o totalmente con cualquier nodo activo. Las adjunciones son validadas por medio de las propiedades léxicas descritas en el lexicón (Wehrli 2007; Leoni de León, Schwab y Wehrli 2008; Wehrli y Nerima 2009). En la figura 1.1 se presenta un ejemplo del tipo de output que FIPS produce. Se puede observar que produce estructuras de constituyentes (del tipo mostrado en el ejemplo (10)). TXALA (explicado en los párrafos siguientes), por el contrario, produce árboles de dependencias, como muestra la figura 1.2. Ambos muestran las relaciones de los constituyentes de la frase entre sí. Se diferencian en que los árboles de constituyentes son de base sintáctica, mientras que los árboles de dependencias son de base semántica (Kübler, McDonald y Nivre 2009). Para el 2007, FIPS contaba con un total de 22,500 lexemas, 260,000 vocablos y 320 colocaciones en su lexicón del español. Además, una evaluación con 40,000 oraciones aproximadamente, dio como resultado un 56.87 % de análisis correctos (Wehrli 2007). FREELING (Lluís Padró 2011) es una plataforma con múltiples herramientas para el análisis lingüístico también de acceso libre en internet. Cuenta con un parser sintáctico igualmente multilingüe, así como con un analizador morfológico y un etiquetador. La versión más reciente (3.0) cuenta con mejoras en su arquitectura general, incluyendo su interfaz, así como en los mecanismos de aprendizaje automático para extracción de reglas. Para el 2006, el lexicón de FREELING contaba con 6 500 lemas para el español. Su arquitectura interna cuenta con dos tipos de objetos: los de tipo linmenclatura en inglés. La lista completa de equivalencias puede ser consultada en la Lista de Abreviaturas proporcionada al inicio de este documento. 1.4. ESTADO DE LA CUESTIÓN Figura 1.1: Output del analizador FIPS. 21 22 CAPÍTULO 1. INTRODUCCIÓN Figura 1.2: Output del analizador TXALA. 1.4. ESTADO DE LA CUESTIÓN 23 güístico y los de procedimientos. Los lingüísticos incluyen análisis (lema, etiqueta POS, sentidos semánticos y probabilidad), palabra (una palabra con una lista de posibles análisis, y oración (con un árbol de dependencias). Los procedimientos que transforman esos datos son: tokenizador20 , separador de oraciones, anotador morfológico, etiquetador, clasificador de sustantivos, desambiguador y analizador de dependencias. Atserias, Casas y col. (2006) y Carrera y col. (2008) explican que el funcionamiento de FREELING se da en tres etapas: división de la oración, análisis morfológico y análisis superficial. TXALA es un parser de dependencias para el español desarrollado como una adaptación a partir de FREELING. TXALA es el último módulo dentro de FREELING, dedicado al análisis de dependencias basado en reglas. El procedimiento de TXALA se da como sigue. Primero, utilizando reglas definidas por lingüistas, se completan las secuencias parciales del análisis de FREELING para obtener un árbol completo. Luego, se transforma el árbol sintáctico en un árbol de dependencias. El último paso consiste en el etiquetado de las dependencias con su función sintáctica respectiva (Carrera y col. 2008). Posteriormente, Carrera y col. (2008) dan a conocer el proyecto KNOW, el cual desarrolla gramáticas de amplia cobertura para el desarrollo de un sistema de traducción para las lenguas oficiales de España. Este proyecto trabaja con los parsers TXALA y FREELING. En Atserias, Comelles y Mayor (2005), los autores mencionan otros dos parsers: DILUCT y CONNEXOR. Desafortunadamente, ninguno de estos últimos cuenta con una versión de libre acceso en internet. Sobre el parser DILUCT explican que incluye una tokenización de la cadena de entrada y la división de las palabras que forman compuestos. Es decir, se divide la oración en palabras in20 Separador de una cadena de símbolos en tokens o cadenas separadas de símbolos. 24 CAPÍTULO 1. INTRODUCCIÓN dividuales para su clasificación y luego se dividen compuestos del tipo del → de + el. Luego, estas palabras se pasan por un etiquetador para su clasificación y lematización. A partir de este punto es que se analiza el texto de acuerdo con las reglas gramaticales. Con fines de evaluación, se comparó su desempeño con los parsers TACAT y CONNEXOR, todos con el corpus anotado CAST3LB como Gold Standard 21 . DILUCT obtuvo una precisión de 0.47 y un recall de 0.5522 (Calvo y Gelbukh 2006). TACAT (Atserias, Carmona y col. 1998), por su lado, es un parser ascendente que analiza corpus previamente etiquetado (Moreno 1998). Es un instrumento intermedio en un proyecto mucho más grande que pretende integrar los recursos disponibles sobre PLN en España para el español y catalán. Su gramática fue desarrollada en tres partes dando como resultado tres subgramáticas de acuerdo con la función que se requiera: reconocer las diferentes categorías gramaticales, identificar la concordancia y para establecer los límites de la frase verbal y nominal. El output producido por cada parte constituye el input de la siguiente. Tal como lo indica la documentación, este parser data de finales de la década del 90, razón por la que quizás, no nos fue posible encontrar una versión accesible en internet. 1.4.3. Los corpus no anotados Otros recursos electrónicos para el español lo constituyen los corpus no anotados. Este tipo de corpus no cuenta con una anotación específica dirigida al entrenamiento de un sistema estadístico de aprendizaje automático. Se trata más bien 21 Es decir, como medida de idoneidad. Las medidas de precisión y exhaustividad (en. precision and recall) son medidas de relevancia. La exhaustividad se refiere al conjunto de los falsos positivos y los verdaderos positivos juntos, mientras que la precisión tan solo incluye los verdaderos positivos (Manning y Schütze 1999). 22 1.4. ESTADO DE LA CUESTIÓN 25 de colecciones de textos lingüísticos con una fuerte orientación lexicográfica, dirigidos a traductores y a un público generalizado. Son corpus útiles en tareas tal como las comparaciones de frecuencias, la consultas léxicas, la investigación de uso de contextos, por mencionar algunas. Kocjančič (2009) proporciona un muy breve descripción de aquellos disponibles gratuitamente o por un bajo costo. Como ejemplos concretos podemos citar el corpus CREA23 , el corpus Arthus24 , el corpus LexEsp25 o el corpus COLA26 del español oral. El corpus FrameNet27 es otro recurso cuantitativamente importante, pues cuenta con 937 millos de palabras en su base de datos. Su anotación proporciona una descripción semántica de cada unidad léxica, especificando cómo se interrelacionan los diferentes marcos semánticos que en conjunto definen cada unidad léxica particular (Subirats 2009) 28 . Por otro lado, debido a la creciente necesidad del procesamiento multilingüe del lenguaje, han surgido los corpus paralelos. Estos corpus se componen de un mismo texto disponible y alineado en diferentes lenguas; resultan particularmente útiles en las tareas concernientes a la traducción automática (Loáiciga 2011; Russo, Loáiciga y Gulati 2012). Algunos ejemplos son el corpus GRIAL29 para el español, el inglés y el catalán, y el corpus CLUVI30 de la Universidad de Vigo para el español y el gallego mayormente, además de otras lenguas como el inglés y el francés. Si bien estos corpus no son directamente explotables en nuestro trabajo, en 23 http://corpus.rae.es/creanet.html; última visita 07-07-2012. http://www.bds.usc.es/corpus.html; última visita 07-07-2012. 25 http://psico.uniovi.es/Dpto_Psicologia/metodos/soft/corpus/base; última visita 0707-2012. 26 http://colam.org/transkripsjoner-espannol.html; última visita 07-07-2012. 27 http://158.109.141.13:9080/SFN; última visita 09-06-2012. 28 http://sfn.uab.es:8080/SFN/corpus; última visita 04-09-2012. 29 http://grial.uab.es/recursos.php?idioma=es; última visita 07-07-2012. 30 http://sli.uvigo.es/CLUVI/corpus.html; última visita 02-04-2011. 24 26 CAPÍTULO 1. INTRODUCCIÓN un desarrollo posterior son fuentes ricas de datos para enriquecer nuestro propio lexicón. Por citar un ejemplo, se podría explotar el análisis de frecuencias que ofrecen muchos de ellos para extraer colocaciones y asimilarlas a nuestro lexicón. Asimismo, estos corpus constituyen herramientas valiosas en el desarrollo de pruebas y test de nuestro análisis. 1.4.4. Los métodos estadísticos y los corpus anotados Un treebank o corpus anotado31 consiste en un corpus en el que cada oración ha sido previamente analizada y anotada con la ayuda de un parser o analizador sintáctico32 . La anotación puede ser manual o automática, dependiendo de los objetivos del corpus y de las herramientas con las que se cuente. El primer corpus anotado o treebank para el español fue desarrollado por un equipo conjunto entre el Laboratorio de Lingüística Informática (LLI) de la Universidad Autónoma de Madrid y la Universidad de Nueva York. Este treebank no solo contiene la información de cada análisis de frase, sino que incluye información sobre la concordancia y las funciones sintácticas de los constituyentes. Documentación del año 2003 indica que el corpus cuenta con 1,500 oraciones, extraídas de dos periódicos españoles (Moreno, Grishman y col. 2000; Moreno, López y Sánchez 2003). Es posible encontrar ejemplos de anotaciones en http://www.lllf.uam.es/~sandoval/UAMTreebank.html (última visita 07-072012); sin embargo, actualmente el corpus no se encuentra disponible al público. El corpus se utilizó para entrenar una versión del Apple Pie Parser 33 . Este es 31 Dado que mucha de la terminología en el área nació en inglés y que su traducción puede resultar confusa, de aquí en adelante optamos por utilizar los constructos en inglés como señalamos anteriormente al respecto de las abreviaturas. 32 Un analizador sintáctico o en inglés parser es un sistema computacional que transforma una entrada de símbolos (oraciones) en un árbol de derivación. 33 http://www.lllf.uam.es/ESP/Treebank.html; última visita 07-07-2012. 1.4. ESTADO DE LA CUESTIÓN 27 un parser o analizador sintáctico de tipo estadístico, cuyo objetivo es la inducción automática de reglas de la gramática del español, sin mediación humana en forma total o parcial. De acuerdo a sus creadores, se trabaja en aumentar tanto el tamaño del treebank, como en mejorar su anotación, haciéndola más simple pero al mismo tiempo más rica, con el fin de mejorar la inducción de las reglas (Moreno, López y Sánchez 2003). Por otro lado, el proyecto CAST3LB también desarrolla un treebank que incluye una anotación semántica usando estructuras-f de LFG. Este proyecto busca obtener una gramática probabilística del español entre otros recursos léxicos. Una primera extracción automática de las reglas resultó en una gramática de 3,638 reglas. El alto número de reglas es debido a la gran cantidad de etiquetas (POS tags34 ) utilizadas para identificar todos los nodos oracionales (O’Donovan y col. 2005). Las pruebas de evaluación del corpus CAST3LB demuestran que a un 96.04 % de las oraciones les fue asignada una estructura-f, pero algunas recibieron más de una o ninguna, hecho que intentan mejorar. Por otro lado, también probaron su sistema con 336 oraciones de texto en bruto, logrando con éxito obtener las estructuras-f. En la extracción, se siguió el modelo y los procedimientos diseñados previamente para el inglés, sin modificaciones adecuadas al español (O’Donovan y col. 2005). Partiendo del trabajo anterior, Chrupała y Genabith (2006) encuentran ciertos problemas de análisis sintáctico en el corpus anotado del proyecto CAST3LB. A partir de ahí, dividen los problemas hallados en el corpus en tres grupos. En primer lugar, aquellos que ya han sido tratados exitosamente con LFG, estos son 34 Part-of-Speech tagging, por sus siglas en inglés. Consiste en el etiquetado de cada ítem en un corpus o lexicón. La información por anotar usualmente incluye la categoría gramatical del ítem y algunos rasgos tales como género, número, etc. 28 CAPÍTULO 1. INTRODUCCIÓN sujeto no explícito (12) y duplicación de clíticos (13)35 . Luego, los que han sido problemáticos dentro de LFG, como la subida de clíticos (14)36 . Por último, los problemas debido a las limitaciones relacionadas con abordajes distintos a LFG, tal como el orden flexible de los constituyentes (15). (12) Llegué temprano. vrs. Yo llegué temprano. (13) La vio a Carmen. vrs. La vio. (14) La puedo comer. vrs. Puedo comerla. (15) Llegó Carmen. vrs. Carmen llegó. Para el primer grupo de problemas proponen utilizar ecuaciones opcionales, como se muestra en (16), en lugar de marcos de subcategorización y el principio de completud como tradicionalmente se analizan en LFG. El principio de completud establece que todos los argumentos declarados en el marco de subcategorización verbal deben ser instanciados por una predicación. En la duplicación de clíticos por ejemplo, una ecuación opcional, como ((↑ PRED) = ’pro’ en (16)), es interpretada como una disyunción de la restricción existencial (f a) y la ecuación (f a) = v; la segunda disyunción solo se aplica si el valor PRED no ha sido proporcionado por otra ecuación (Chrupała y Genabith 2006).37 (16) le ((↑ PRED) = ’pro’) ((↑ PRON-TYPE) = PERS) ((↑ PRON-FORM) = el) (↑ CASE) = DAT (↑ NUM) = SG 35 Fenómeno conocido por su nombre en inglés Clitic Doubling. Fenómeno conocido en inglés como Clitic Climbing. 37 El paréntesis que encierra la ecuación indica precisamente la opcionalidad de esta. 36 1.4. ESTADO DE LA CUESTIÓN 29 (↑ PERS) = 3 Para el segundo grupo, en el caso de la subida de clíticos en las construcciones perifrásticas, se deciden por un análisis tradicional. De modo que los nodos hijos (gerundio e infinitvo) de un nodo con el rasgo de +light 38 introducen su propia estructura-f como valor XCOMP. De esta forma se asegura que los argumentos se adjunten al verbo sin el rasgo +light más bajo en el árbol. En cuanto a la flexibilidad del orden de constituyentes, el tercer problema, explican que contar solamente en la configuracionalidad y la información de categorías no ha resultado suficiente para determinar la función gramatical de los constituyentes. En inglés, esto funciona porque típicamente el nodo izquierdo a VP es el sujeto y el nodo derecho a V es el objeto. Por esto, agregan una etiqueta categorial, para disminuir la ambigüedad, por ejemplo sn-SUJ, sn-CD, sn-CI, etc. (O’Donovan y col. 2005). El trabajo de Chrupała y Genabith (2006) es el más directamente relacionado con el tema de nuestra investigación. Además, refleja la necesidad de análisis sintácticos profundos para ciertos fenómenos particulares de la lengua, incluso si se trabaja desde la aproximación estadística. Finalmente, corrobora que las herramientas empleadas en el análisis del inglés no son totalmente adecuadas para una descripción de la estructura del español. Posteriormente, en su tesis doctoral, Chrupała (2008) también trabaja con el treebank CAST3LB. Señala como una de sus tareas, llevar a cabo una adaptación del sistema usado en inglés para el español, con el fin de mejorar los temas de configuracionalidad y riqueza morfológica. El autor implementa una mejora del sistema de aprendizaje automático para obtener resultados más acertados que 38 Del inglés Light Verb. Verbos que permiten la subida de clíticos. 30 CAPÍTULO 1. INTRODUCCIÓN por medio de algoritmos de anotación manuales. Además, creó un anotador de lemas a partir del corpus. Otro de sus logros fue el desarrollo del sistema Morfette, un sistema de aprendizaje de etiquetado morfológico que funciona precisamente como analizador morfológico. Es de notar que las estructuras-f de LFG pueden ser pensadas como una representación intermedia entre las representaciones arbóreas y la estructura semántica. De modo que, a la vez que son abstractas como un árbol sintáctico, también proporcionan suficiente información sobre los argumentos y otras especificaciones de subcategorización verbal. Es esta característica precisamente la que explota Chrupała (2008) en su trabajo. Él genera automáticamente reglas de aprendizaje de análisis morfológico a partir de las estructuras-f. Éstas resultan más eficientes que otros sistemas (el autor cita FREELING39 y CLOG40 ) dado que fenómenos tales como el orden relativamente flexible de los constituyentes no presuponen una dificultad de análisis, como lo es dentro de corrientes como Rección y Ligamiento (GB) (Chrupała 2008). Por último, existe un corpus anotado del español con 500,000 palabras (4,000 oraciones), llamado AnCora41 . El corpus se anotó en diferentes niveles: morfológico, sintáctico y semántico, usando anotación manual, automática y semiautomática. El proceso automático se usó para producir el etiquetado morfológico y un análisis superficial. El proceso manual se empleó para obtener una anotación sintáctica profunda (constituyentes y funciones) y para asignar conjuntos de sinónimos (synsets tomados de WordNet42 ) destinados a definir los sustantivos. Por 39 http://nlp.lsi.upc.edu/freeling/; última visita 09-07-2012 No disponible en línea, probablemente se encuentra discontinuado. La única documentación que encontramos fue Manandhar, Dzeroski y Erjavec (1998), donde no se proporcionan mayores detalles. 41 http://clic.ub.edu/ancora/; última visita 07-07-2012. 42 Base de datos léxica para el inglés, disponible en http://wordnet.princeton.edu/; última visita 07-07-2012. 40 1.5. MARCO TEÓRICO 31 último, la anotación semiautomática sirvió para definir las predicaciones verbales, asociando automáticamente los roles temáticos a sus funciones sintácticas y luego asignándoles manualmente parte de la información sintáctica contenida en los lexicones (Martí y col. sf). Como mencionamos al introducir esta sección, una de las grandes líneas de investigación en lingüística computacional corresponde a los métodos estadísticos. Sin embargo, en nuestro trabajo, seguimos el enfoque simbólico o lingüístico, sin ningún tipo de procesamiento estadístico. Razón por la cual no hemos ahondado en materia de métodos estocásticos. 1.5. Marco teórico La totalidad sintáctico-teórica de este trabajo reposa sobre el formalismo LFG (Lexical Functional Grammar). Este formalismo de unificación fue desarrollado por Bresnan y R. Kaplan (1982) como una alternativa a la gramática generativotransformacional dominante en los años 70 y 80. Existen tres fenómenos lingüísticos primordiales que desencadenaron la propuesta altamente lexicalista de LFG: la falta de configuracionalidad de muchas lenguas, las paradojas de movimiento y la lexicalidad de los cambios relacionales, tales como la pasivización. Dentro del marco de la gramática generativa, las lenguas configuracionales presentan un orden jerárquico de los constituyentes (17a), así por ejemplo, el sujeto se encuentra fuera del VP43 , mientras que el objeto directo se encuentra dentro, porque este último es regido por el verbo. Esto implica, al mismo tiempo, una cierta rigidez en el orden sintagmático de la frase. En las lenguas no configuracionales, por el contrario, no hay tal diferencia, ya que todos los constituyentes 43 Sintagma verbal (del inglés Verbal Phrase). 32 CAPÍTULO 1. INTRODUCCIÓN se presentan a un mismo nivel (17b), es decir, los sintagmas tienen un orden sintáctico libre. el inglés es un ejemplo de lengua configuracional, mientras que el latín es un ejemplo de lengua no configuracional. (17) a. … … XP … b. … … … XP … … En la primera parte de esta sección (1.5.1) expondremos los principios de funcionamiento de las gramáticas de unificación. Luego, explicaremos los postulados primordiales de LFG. Cualquier referencia debe hacerse a su libro Lexical Functional Syntax (Bresnan 2001). Todo el contenido expuesto en esta sección se basa primordialmente en el desarrollo de la teoría que la autora presenta en su libro. Por último, expondremos las características principales de la aplicación XLE (http://www2.parc.com/isl/groups/nltt/xle/; última visita 08-05-2012.) utilizada para desarrollar la modelización computacional. 1.5.1. La estructura de frase Algunas nociones de base Con el propósito de tener un mejor entendimiento de las secciones que siguen, a continuación presentamos algunos conceptos clave dentro de la gramática generativa. En primer lugar, es necesario aclarar que LFG asume los postulados 1.5. MARCO TEÓRICO 33 básicos del esquema ””X̄” (léase equis barra) (Culicover y Jackendoff 2005). Se trata de una notación en capas y estrictamente binaria que representa los diferentes nodos y sus proyecciones. En este esquema, X o Xo constituye la cabeza de una proyección máxima XP. X’ es una proyección intermedia. Además, cada proyección hereda las características de su cabeza (Haegeman 1991; Haegeman 2001). Esta teoría define las relaciones locales de una cabeza X. La cabeza se relaciona localmente con su complemento (rama derecha) y con el especificador de su proyección (rama izquierda). Según el esquema de Rección y Ligamiento se dice que la cabeza gobierna a su complemento (Haegeman 1991; Haegeman 2001). Esto nos lleva a otra definición fundamental: la de sintagma. Un sintagma no es más que cada constituyente que forma una unidad distribucional, es decir, una proyección máxima. En otras palabras, DP, PP, VP son ejemplos de sintagmas (Laenzlinger 2003). La endocentricidad y la lexocentricidad Una de las características de LFG es su maleabilidad para adaptarse a lenguas con estructuras sintácticas muy diferentes entre sí. Esta propiedad es posible gracias a la manera en que LFG asume los principios de endocentricidad y lexocentridad. La endocentricidad se refiere a la organización de los constituyentes alrededor de su cabeza según los principios de localidad del esquema X̄. De hecho, es el fundamento básico del esquema X̄ (Haegeman 1991; Bresnan 2001; Haegeman 2001)44 . 44 Guevara (2006), hace un resumen de los principales trabajos que argumentan a favor de la estructura binaria. 34 CAPÍTULO 1. INTRODUCCIÓN La lexocentricidad, por otro lado, asocia directamente las funciones sintácti- cas con los rasgos contenidos en la información léxica de las palabras. En este sentido, es la relación opuesta a la endocentricidad. En lugar de asumir que cada constituyente porta las características de su cabeza, por lexocentricidad un nodo puede tener una estructura-f asociada diferente de su cabeza. De tal forma que un nodo (p.ej. AP) puede dominar múltiples categorías léxicas (p.ej. NP, VP). Dado que la información léxica es determinante de la estructura de frase, la ramificación binaria de la frase no es una condición única y necesaria (Bresnan 2001). De acuerdo con Bresnan (2001), las lenguas no siempre son categóricamente endocéntricas o lexocéntricas, sino que pueden presentar una combinación de ambas formas en la organización de los constituyentes. Como resultado, existe un continuum, una tipología de diferentes sintaxis potenciales. Esta va desde las lenguas de tipo más configuracional, es decir endocéntrico, como el inglés, hasta lenguas más lexocéntricas, tal como el dyirbal45 . La frase simple En vista del continuum entre el carácter endocéntrico y el carácter lexocéntrico de las lenguas, en lo relativo a la estructura de la frase, en este trabajo usaremos una estructura de representación mixta. El español tiene fundamentalmente un orden SVO; sin embargo, no tiene el mismo grado de endocentricidad que el inglés por ejemplo. Prueba de ello son los sujetos posverbales, tal como se ve en (18) y (19). (18) Carmen pagó en el restaurante. (19) Pagó Carmen en el restaurante. 45 Lengua del noreste de Queensland, Australia (http://www.ethnologue.com/show_language. asp?code=dbl; última visita 07-07-2012.). 1.5. MARCO TEÓRICO 35 Ahora bien, lenguas típicamente lexocéntricas como el latín o el alemán se caracterizan por una rica morfología de caso que permite discernir entre los diferentes constituyentes y sus funciones sintácticas. Este no es el caso del español tampoco. Tal como se vio en (18, 19), Carmen, no tiene ningún tipo de morfema identificando el constituyente como el sujeto de la oración. Esto contrasta con los ejemplos (20) y (21) del latín, en los cuales la morfología indica los casos nominativo y acusativo. (20) Titus anulum perdidit. Tito anillo perdió. ’Tito perdió el anillo’. (21) Perdidit anulum Titus. Perdió anillo Tito. ’Tito perdió el anillo’. Como mencionamos al principio de esta sección, nosotros usaremos una estructura mixta de representación. Si bien consideramos que el español no tiene el mismo grado de endocentricidad que el inglés, por citar un ejemplo, tampoco creemos que sea tan lexocéntrico, como el latín. Además, a partir de estudios como el de Zagona (2002) y D’Introno (2001) pensamos que se trata de una lengua altamente endocéntrica, razón por la cual usaremos fundamentalmente una estructura de representación binaria. Sin embargo, operaciones como la coordinación cuentan con un análisis estándar dentro de LFG que involucran una estructura de representación ternaria (R. M. Kaplan y Maxwell 1988). En términos de la configuración canónica de la frase, siguiendo a Laenzlinger (2003), consideramos que los nodos CP, IP y VP constituyen el esqueleto de la frase. Son las propiedades de selección funcional y categorial, las cuales aseguran que IP se adjunte a la derecha de Co y que VP sea el complemento de la cabeza Io . Es importante aclarar que aunque estos constituyen los nodos fun- 36 CAPÍTULO 1. INTRODUCCIÓN CP C’ Co IP DP Carmen I’ Io VP come V’ Vo DP una manzana Figura 1.3: Estructura canónica de la frase simple. damentales y mínimos necesarios para dar cuenta de la estructura interna de la frase, no necesariamente todos los nodos deben ser siempre activos. Derivado de todo lo anterior, definimos la frase simple como aquella frase u oración que no tiene alteraciones en el orden canónico de los sintagmas según se representan en la figura (1.3). Se trata de oraciones sin pronominalizaciones, desplazamiento de complementos o ningún fenómeno diferente a la completa expresión de los complementos verbales según lo establecen los marcos de subcategorización verbal. Además, no contempla subordinaciones ni frases relativas. 1.5.2. La unificación y las reglas libres de contexto Como se mencionó anteriormente, LFG es una gramática de unificación. Como tal, sus dos componentes principales son las estructuras de rasgos y la operación de unificación. Esta es la operación fundamental que permite probar, comparar o combinar las estructuras de rasgos. A modo de ejemplo, observemos las estruc- 1.5. MARCO TEÓRICO 37 turas en (22 - 24), creadas a partir de Wehrli (1997). (22) cat NP num: sing agr: gend: masc (23) cat NP num: sing agr: case: nom (24) cat NP num: sing agr: case: nom gend: masc Las estructuras en (22) y (23), son compatibles entre sí porque no contienen ningún atributo cuyo valor sea diferente en las dos estructuras. Por lo tanto se pueden unificar, dando como resultado (24). Por el contrario, en los ejemplos (25 26), las estructuras son incompatibles porque las dos contienen un mismo atributo con dos valores diferentes (<agr num>). (25) cat NP [ ] agr: num: sing (26) cat NP [ ] agr: num: plu Wehrli (1997) define la unificación tal como sigue: 38 CAPÍTULO 1. INTRODUCCIÓN Unificación: La unificación de dos estructuras de rasgos A1 y A2 da por resultado la estructura A más pequeña que constituya una extensión tanto de A1 como de A2 ; si tal estructura no existe, entonces la unificación es indefinida. La utilidad de un formalismo sintáctico radica en que correlaciona los sintagmas con las estructuras de rasgos que los especifican. Para ello se utilizan las reglas gramaticales. Éstas se componen de dos partes: izquierda y derecha. Una regla establece una relación de dominancia y jerarquización entre sus símbolos. El símbolo a la izquierda es especificado o reescrito por los símbolos a la derecha. Una regla tiene la forma que se muestra en (27) (Wehrli 1997). (27) X0 → X1 X2 , donde X0 , X1 y X2 son variables categoriales. Esta regla establece que la categoría X0 puede ser instanciada o reescrita como una categoría X1 seguida de una categoría X2 . La regla (27) corresponde a una regla libre de contexto. Las reglas libres de contexto satisfacen la condición dada en (28). (28) Para todas las producciones α → β en P, (i) α ∈ VN y (ii) β ̸= ∅. Donde P son las reglas de producción de la gramática o reglas de reescritura y VN corresponde a los elementos no terminales de la gramática. α y β son elementos terminales, en nuestro caso, palabras (Wehrli 1997; Moreno 1998). En el ejemplo (27) se presenta una abstracción de regla usando una representación lineal. Sin embargo, las representaciones arbóreas también muestran las relaciones de dominancia y reescritura de los constituyentes, de manera que (27) también puede ser representado tal como se presenta en (29). 1.5. MARCO TEÓRICO 39 (29) X0 X1 1.5.3. X2 Principios de diseño de LFG La arquitectura general de LFG reposa sobre tres principios: El principio de variabilidad establece que las estructuras externas varían de una lengua a otra. Por estructuras externas, nos referimos a la forma de organización de los constituyentes en la frase. Estas se pueden ordenar por posición, dominio y tipo estructural (es decir, si se trata de un sintagma nominal, sintagma determinante, etc.). Esta estructura es representada formalmente en LFG por medio de la estructura-c46 . Las palabras flexionadas constituyen los elementos terminales de la estructura-c. Esta correspondencia, de hecho, conforma una restricción fija llamada integridad léxica. El principio de universalidad se refiere a la estructura interna de la frase, específicamente a la asociación entre la estructura sintáctica y la semántica (relación argumento-predicado). El principio de universalidad establece que la estructura interna no cambia a través de las diferentes lenguas. El nombre formal que recibe esta estructura en LFG es estructura-f. Aunque la estructura-c y la estructura-f son paralelas, se ha probado que no siempre convergen. El principio de monotonicidad hace alusión a la facilidad con la cual un niño adquiere el lenguaje. A partir de ahí, se desprende la idea de que la estructura interna del lenguaje debe ser ”transparente”. Tal como explica Bresnan (2001), a primera impresión se podría pensar que existe entonces una correspondencia total entre la estructura interna y la estructura externa, tal como lo propone la 46 Estructura de constituyentes. Es una de las tres estructuras fundamentales de LFG. 40 CAPÍTULO 1. INTRODUCCIÓN gramática generativa tradicional (es decir, entre la estructura profunda y la estructura superficial). Sin embargo, tal cosa está en contradicción con el principio de variabilidad. Es por esto que el principio de monotonicidad establece que la información sobre la estructura interna se distribuye parcialmente a través de la expresión de la frase, de tal forma que la estructura interna global pueda ser inferida de las partes de la expresión en cualquiera que sea el orden, a través del algoritmo de la solución (véase 1.5.5). 1.5.4. Estructura-f Las estructura central de LFG es la estructura funcional o estructura-f como es conocida. Dado que se trata de un formalismo de unificación, esta no es más que una estructura de rasgos, es decir, un conjunto de pares de atributo-valor, que recoge la información léxica de la frase. Nótese que en la estructura-f, las palabras se encuentran totalmente flexionadas. Como se trata de una estructura de rasgos, el orden de los elementos no es importante y los axiomas aplicados en teoría de conjuntos de identidades son asimismo válidos. Una estructura de rasgos se representa como en (30): (30) atributo1 atributo2 . . . atributon valor1 valor2 ... valorn En términos lingüísticos, un par de atributo-valor se llama rasgo. Una estructuraf compuesta de pares de atributo-valor se llama función. 1.5. MARCO TEÓRICO 41 (31) pred ’Carmen’ suj num sg tiem pres pred ’come’ caso acc obj num plu pred ’palomitas’ En el ejemplo (31), NUM y CASO son los atributos de rasgos, mientras que SUJ y OBJ son los atributos de función. Dado que las estructuras de rasgos son verdaderas funciones matemáticas, están sujetas a la condición de unicidad. Esta dice que cada atributo tiene exactamente un valor, implicando que diferentes atributos pueden tener el mismo valor, pero un mismo atributo no puede tener valores diferentes. Además, puesto que se trata de una función, es posible describir cualquier estructura-f especificando los valores que se asocian con cada argumento (atributo). Para ello, es necesario identificar cada subconjunto de rasgos tal como se muestra en (32) por medio de los subíndices f (fx ): (32) pred ’Carmen’ suj f2 num sg tiem pres f1 pred ’come’ caso acc obj f3 num plu pred ’palomitas’ 42 CAPÍTULO 1. INTRODUCCIÓN Luego, con la identificación de cada conjunto de rasgos, es posible establecer las equivalencias en forma de ecuaciones, como se muestra en (33) a continuación: (f1 SU J) (33) = f2 (f1 T IEM ) = pres (f1 OBJ) = f3 De (32) se desprende que f1 corresponde a la predicación (PRED) ’come’. Además f1 incluye tres elementos diferentes de PRED: SUJ, TIEMP y OBJ. Esto nos permite tener la primera parte de las ecuaciones (f1 SU J), (f1 T IEM ) y (f1 OBJ). Finalmente se otorga un valor a cada una, sea este un subíndice ( f2 , f3 ) o un valor absoluto (pres). 1.5.5. Correspondencia entre las estructuras c y f (34) S VP DP Det NP V N come Carmen DP Det NP N palomitas En (34), se puede observar la estructura-c de la oración Carmen come palomitas. Las reglas libres de contexto de estructura de frase establecen las relaciones entre constituyentes en un nivel abstracto. De tal forma que, S → NP VP se refiere 1.5. MARCO TEÓRICO 43 a cualquier nodo S de cualquier árbol que domine cualesquiera nodos NP y VP, siempre y cuando el primero preceda al segundo. Los nombres f1 , f2 , f3 , mostrados en (32) y (33), se refieren a estructuras-f particulares que corresponden a una frase en particular. Para generalizar este tipo de descripción, al igual que las reglas de estructura de frase, se utilizan los símbolos de flechas ascendente y descendente (↑ ↓). Las ecuaciones funcionales escritas con los símbolos ↑ ↓ son variables y se llaman esquemas funcionales. Así por ejemplo, el ejemplo (35) muestra una descripción arbórea que es equivalente al esquema funcional en (36). (35) S (↑ SUJ)= ↓ ↑ = ↓ NP (36) S → NP VP VP (↑ SUJ) = ↓ ↑ = ↓ La flecha ascendente (↑) se refiere a la estructura-f del nodo madre. Se instancia (es decir, transforma el esquema funcional en una ecuación funcional) por medio el nodo inmediatamente dominando el constituyente debajo del cual se encuentra la flecha. La flecha descendente (↓) se refiere a la estructura-f del nodo actual. De forma que la ecuación en (37) declara que NP es el sujeto del nodo que lo domina, es decir S. La ecuación ↑ = ↓ bajo el nodo VP indica que todos los rasgos de ese nodo son compartidos por los nodos superiores, por lo que toda la información funcional que tiene este nodo es también información directa sobre la estructura-f madre o principal (Grantson 2002). Recapitulando, tenemos que primero se genera un conjunto de ecuaciones funcionales que describen los rasgos del verbo y de los demás constituyentes. 44 CAPÍTULO 1. INTRODUCCIÓN Luego, cuando el verbo se inserta en la estructura-c, es este el momento cuando se genera la descripción funcional de la estructura-f, es decir, las estructuras del tipo visto en (35). Con esta descripción funcional, entonces se puede establecer la correspondencia entre las dos estructuras, la c y la f. Esto se logra por medio del algoritmo de la solución que se explica a continuación. El algoritmo de solución Dada una gramática léxico funcional para un lenguaje L, existe un algoritmo para derivar la estructura-c y la estructura-f de cualquier oración de L. La estructura-c de cualquier secuencia de palabras puede obtenerse por medio de cualquier tipo de algoritmo de análisis sintáctico que utilice reglas libres de contexto. Para ilustrar la derivación de la estructura-f a partir de la estructura-c, vamos a partir del fragmento de la gramática dado en (37), (38) y (39). (37) (38) (39) S → NP VP (↑ SUJ) = ↓ ↑=↓ NP → Det NP (↑ SUJ) = ↓ ↑ = ↓ VP → V NP ↑=↓ ↑=↓ El proceso para establecer esta correspondencia se da en tres pasos. Primero, se anota la estructura-c con los esquemas funcionales apropiados. Después, se instancian los esquemas para generar una descripción funcional. Finalmente, se solucionan las ecuaciones simultáneas de la descripción funcional construyendo la estructura-f mínima necesaria para satisfacerlos. Para ilustrar esto, partamos de (40). 1.5. MARCO TEÓRICO 45 (40) S NP VP N V Carmen come El primer paso es anotar la estructura-c dada en (40) con los esquemas funcionales y con la información léxica necesaria. El resultado de este primer paso se muestra en (41): (41) S (↑ SUJ) = ↓ ↑=↓ NP VP ↑=↓ ↑=↓ N V Carmen come (↑ NUM) = sing (↑ PRED) = ’come <…>’ (↑ PRED) = ’Carmen’ (↑ TIEM) = pres (↑ PERS) = 3 (↑ SUJ) = ↓ (↓ PERS) = 3 (↓ NUM) = sing El segundo paso es la instanciación. Esto se logra asignando un índice distinto al nodo de la raíz del árbol y a cada nodo que contenga una anotación con el símbolo ↓. Cada índice representa una estructura-f desconocida que corresponde a ese nodo (42). 46 CAPÍTULO 1. INTRODUCCIÓN (42) Sf 1 (↑ SUJ) = ↓ ↑=↓ NPf 2 VPf 3 ↑=↓ ↑=↓ Nf 4 Vf 5 Carmen com-ef 6 (↑ NUM) = sing (↑ PRED) = ’come <…>’ (↑ PRED) = ’Carmen’ (↑ TIEM) = pres (↑ PERS) = 3 (↑ SUJ) = ↓ (↓ PERS) = 3 (↓ NUM) = sing Luego, de igual modo, se sustituye cada ↑ en el esquema por el índice de su nodo madre. También, se sustituye cada ↓ por el índice del nodo mismo, tal como se muestra en (43). Una vez hechas todas las sustituciones, se obtiene una descripción funcional que puede ser trasformada en ecuaciones funcionales. 1.5. MARCO TEÓRICO 47 (43) Sf 1 (f1 SUJ) = f2 f1 = f3 NPf 2 VPf 3 f2 = f4 f3 = f5 Nf 4 Vf 5 Carmen com-ef 6 (f4 NUM) = sg (f5 PRED) = ’come <…>’ (f4 PRED) = ’Carmen’ (f5 TIEM) = pres (f4 PERS) = 3 (f5 SUJ) = f6 (f6 PERS) = 3 (f6 NUM) = sg El tercer paso es la construcción de la estructura-f mínima necesaria que satisfaga la descripción funcional generada en el segundo paso. El proceso consiste en hipotetizar una estructura-f que haga cierta a cada ecuación dentro del conjunto de ecuaciones. Esto se puede hacer en cualquier orden, pero dado que seguimos a Bresnan (2001), vamos a empezar por la raíz del árbol. Del nodo NP en (43) tenemos que (f1 SUJ) = f2 . En otras palabras, que f1 tiene un atributo sujeto cuyo valor es f2 . De este modo, podemos construir la estructra-f mostrada en (44): [ (44) ] f1 : suj f2 Del nodo VP en (43), sabemos que f1 = f3 , así que agregamos esta nueva información al esquema que empezamos en (44). Del mismo modo, del nodo N, también sabemos que f2 = f4 (45). Siguiendo el mismo procedimiento, del nodo 48 CAPÍTULO 1. INTRODUCCIÓN V sabemos que f3 = f5 , así que repetimos el proceso (46). [ ] (45) f1 ,f3 : suj f2 , f4 (46) [ ] f1 , f3 , f5 : suj f2 , f4 Luego, se utiliza la información contenida en el lexicón. Una vez que la cadena de símbolos ”Carmen” ha sido identificada como el sujeto, la información correspondiente del lexicón se usa como valor de la estructura-f SUJ. De modo que f4 toma como valor los pares de atributo-valor que define a ”Carmen”, estos son NUM SG y PERS 3. Como hemos venido haciendo hasta aquí, agregamos esta información a (46), obteniéndo como resultado la estructura-f mostrada en (47). (47) num sg f1 , f3 , f5 : suj f2 , f4 : pers 3 pred ’Carmen’ (48) suj f2 , f4 , f6 : f1 , f3 , f5 : tiem pred num pred pers pres ’come’ ’Carmen’ 3 sg En (48) vemos que al igual que antes, a partir de ”’come”, podemos obtener información que agregamos a nuestra estructura-f. De este modo hemos construido la estructura-f mínima necesaria para satisfacer la descripción-f generada en el segundo paso (ejemplos 42 y 43). 1.5. MARCO TEÓRICO 1.5.6. 49 Completud y coherencia La completud y la coherencia son condiciones de buena formación sobre la estructura-f. Estas condiciones se aplican después de que la estructura-f mínima haya sido construida (a partir de las ecuaciones de definición como lo establecimos de (44) a (48) y que las restricciones hayan sido satisfechas). La completud requiere que cada función designada por una predicación (PRED)47 esté presente en la estructura-f de esa predicación (PRED). También requiere una correspondencia más lejana entre las PRED y las funciones de su estructura-f. Es decir, si un designador (↑ GF)48 se asocia con un rol semántico por PRED, el elemento de la estructura-f que satisface al designador debe contener un rasgo semántico [PRED v] él mismo. La clase de funciones que son designadas por los elementos PRED se conoce como funciones de argumento. Éstas incluyen SUJ, OBJ, COMP y excluyen ADJUNTO, FOC y TOP. La violación de la completud es la fuente de las oraciones mal formadas del tipo que se presenta en (49), (49) * Recibimos _ ayer. En (49), aun si asumiéramos la presencia de una categoría vacía en la posición vacía (_) que proveyera de un objeto al verbo, esa estructura-f no tendría el rasgo semántico necesario (un valor PRED), por lo que la condición de completud no se satisfaría, porque el verbo recibir exige un complemento directo. Estructura-a La estructura argumental o estructura-a debe pensarse en términos tanto semánticos como sintácticos. Del lado semántico, la estructura-a representa los par47 48 Una predicación corresponde a la palabra flexionada de la frase. Gramatical Function. Metavariable que designa a cualquier función gramatical. 50 CAPÍTULO 1. INTRODUCCIÓN ticipantes involucrados en los eventos designados por la predicación (en nuestro caso por el verbo49 ). Del lado sintáctico, la estructura-a representa la información mínima necesaria para caracterizar las dependencias sintácticas de una cabeza. Desde este punto de vista, se trata de la subcategorización sintáctica o registro de valencias. La estructura-a codifica la información léxica sobre el número de argumentos, su tipo sintáctico y su organización jerárquica necesarios para el mapeo con la estructura sintáctica. En este sentido, la estructura-a se concibe como un constructo léxico-sintáctico y no semántico.50 La estructura-a consiste en un predicador con sus roles argumentales en un orden que intenta representar su prominencia relativa y una clasificación sintáctica de cada rol por medio de un rasgo. En (50) presentamos un ejemplo: (50) comer < x y > [−o] [−r] La prominencia de los roles se indica por medio del orden de izquierda a derecha y refleja la jerarquía temática que explicamos más adelante en la sección 2.2.2: Los roles temáticos. Existen diferencias sintácticas importantes entre los diferentes roles que se representan por medio de las características sintácticas explicitadas en la estructura-a. De modo que se distingue entre las funciones argumentales (como su nombre lo dice son verdaderos argumentos verbales) y las funciones no-argumentales (que no son verdaderos argumentos verbales) y también se distingue entre funciones discursivas y funciones no-discursivas. Esto se 49 Otros predicadores son los predicados complejos, y las construcciones con cabezas múltiples. Ningún predicador diferente del verbo se contempla en este trabajo, razón por la cual los términos se usarán indistintamente. 50 Esto se debe también al carácter lexicalista fuerte de LFG. La estructura de argumentos no se piensa como un nivel semántico sujeto a transformaciones sintácticas de ningún tipo. 1.5. MARCO TEÓRICO 51 resume en (51) y (52). (51) f unciones argumentales z }| { T OP F OC SU J OBJ OBJ OBL XCOM P, COM P ADJU θ θ | {z } | {zN T O} no−arg no−arg (52) f unciones discursivas z }| { T OP F OC SU J OBJ OBJθ OBL XCOM P, COM P ADJU N T O | {z } f unciones no−discursivas Como se muestra en los ejemplos anteriores, el sujeto es el único con las propiedades de función argumental y función discursiva gramaticalizada al mismo tiempo. Por otra parte, las rasgos [±o] y [±r] restringen la manera en la cual los roles son asignados o mapeados con las funciones argumentales en estructras-f. Las funciones argumentales básicas se agrupan en las clases naturales mostradas en (53). (53) -r +r -o SUJ OBLθ +o OBJ OBJθ [± r] (i)restringida [± o] (no-)objeto El rasgo [-r] se refiere a una función sintáctica irrestringida, el tipo que no está restringido a su rol semántico, en el sentido que no necesita tener ningún rol 52 CAPÍTULO 1. INTRODUCCIÓN semántico. Un ejemplo son los argumentos expletivos, tal que it en inglés o il en francés. Los complementos oblicuos y objetos restringidos, por su parte, son [+r]. El rasgo [-o] se refiere a una función sintáctica diferente de objeto. Se trata del tipo de función que complementa los verbos intransitivos como N o A. Solo los sujetos y complementos oblicuos son [-o], los objetos y objetos restringidos son [+o]. No todas las lenguas utilizan todas estas posibilidades. Bresnan (2001), por ejemplo, cita que las lenguas sin objetos restringidos ([+r]) no tienen verbos ditransitivos. La correspondencia entre la estructura-a y las funciones gramaticales sigue algunos principios básicos. Los roles inespecificados se asignan libremente con todas la funciones gramaticales compatibles de la siguiente manera: si se trata del argumento inicial de un predicador, el rol más prominente clasificado [-o] debe ser asignado a la función sujeto, si tal rol no está disponible, entonces un rol irrestringido no-agentivo se asigna a la función sujeto. Todos los demás roles se asignan a la función siguiente compatible más baja. De este modo, las funciones sintácticas correspondientes a la oración Carmen come una manzana se representan en (54): (54) comer < x y [−o] [−r] | | > SU J OBJ Existen además, dos principios adicionales que seguir a la hora del mapeo. La primera es la biunicidad de la relación función-argumento; esta establece que cada rol de la estructura-a debe estar asociado a una función única y viceversa. La segunda se trata de la condición de sujeto; esta establece que toda predicación debe tener un sujeto. 1.5. MARCO TEÓRICO 1.5.7. 53 Plataforma de desarrollo de gramáticas XLE Esta sección se basa en lo descrito por los desarrolladores de XLE en su página web http://www2.parc.com/isl/groups/nltt/xle/; visitada el 07-07-2012. XLE es una combinación de herramientas lingüísticas desarrolladas en el laboratorio PARC - Xerox (http://www.parc.com/; última visita 07-07-2012) y el laboratorio XRCE de la Universidad de Grenoble (http://www.xrce.xerox.com/; última visita 07-07-2012) la cual también comprende una interfaz de usuario. Se trata de una plataforma de algoritmos para la construcción, es decir el análisis y la generación, de gramáticas escritas en el formalismo LFG. Cuenta además, con una interfaz de usuario gráfica para desarrollar y depurar tales gramáticas. Dado que su propósito es puramente académico, se encuentra disponible bajo licencia y sin ningún costo 51 . XLE está escrito en C y utiliza Tcl / Tk para la interfaz de usuario. En la actualidad se ejecuta en Solaris Unix, Linux, Mac OS X y Windows. XLE es la base para el proyecto de la gramática en paralelo, el cual desarrolla gramáticas para el inglés, el francés, el alemán, el noruego, el japonés, y el urdu. La idea de desarrollar gramáticas con diferentes lenguas como base, se apoya, por un lado, en la idea de la Gramática Universal desarrollada por Chomsky (1957), y por otro, en los postulados teóricos de LFG, dentro de los cuales tan solo la configuración de la estructura-c difiere entre una lengua y otra, hecho que no excluye que una misma estructura-f pueda corresponderse con dos estructuras-c diferentes. El proyecto dio inicio con la construcción de la gramática para el inglés, el francés y el alemán solamente. El objetivo principal de haber comenzado con estas lenguas era el de lograr una amplia cobertura que permitiera un alto desempeño. 51 En nuestro caso, la cooperación con la Universidad de Ginebra nos facilitó el acceso a la plataforma XLE. Una licencia para propósitos académicos puede obtenerse a través de la página web http://www2.parc.com/isl/groups/nltt/xle/; última visita 07-07-2012. 54 CAPÍTULO 1. INTRODUCCIÓN Luego, con el fin de incorporar una lengua tipológicamente diferente, se incluyó el japonés. Después, con el mismo espíritu se decidió incluir el urdu, lengua del sur de Asia que, si bien es también de origen indo-europeo, comparte algunas características con el japonés, tales como el pro-drop fuerte o irrestringido. Estas característica les permite a estas lenguas omitir cualquier argumento de la frase y no solo el sujeto como en español (55). Finalmente, se incluyó el noruego, para trabajar ampliamente el nivel de la estructura-a. (Butt, Dyvik y col. 2002). Japonés (55) Bill-ga ∅ setokuru Bill-NOM convenció. ’Bill convenció a pro’ El mayor mérito de este proyecto es haber logrado el paralelismo de seis gramáticas correspondientes a seis lenguas muy disímiles entre sí, y además escritas por lingüistas con tradiciones muy disímiles en cuanto a su formación. Es importante notar aquí que incluso si se trata de un mismo formalismo, un mismo fenómeno lingüístico puede tener múltiples proposiciones de análisis. Además, un mismo análisis teórico puede tener múltiples formas de implementarse en XLE (Butt, Dyvik y col. 2002). En la figura 1.4, mediante el ejemplo Carmen come una manzana, mostramos una imagen que ilustra el tipo de interfaz y el tipo de output que XLE produce. Se puede observar que el programa produce cuatro cuadros con una representación diferente cada una. Los dos cuadros superiores son los más importantes para comprender las nociones de gramaticalidad y agramaticalidad. En primer lugar, se obtiene la estructurac, la cual se genera siempre y cuando existan las reglas, incluso si la frase o sintagma están incompletos. De modo que, a partir de una frase como ”’el chico se” 1.5. MARCO TEÓRICO 55 es posible generar una estructura-c parcial, pues existen las reglas capaces de generar la frase completa (con un verbo por ejemplo). En este sentido, una frase incompleta puede verse como un subconjunto de una frase completa. Sin embargo, la estructura-f se generará si y solo si la totalidad de las reglas sintácticas y los rasgos léxicos pueden ser unificados. De esta manera, a partir de la misma frase incompleta ”el chico se”, no se podrá generar una estructura-f. El hecho de no producirse una estructura-f, significa inmediata e indudablemente que la frase es agramatical. En el caso mencionado lo es. En el caso de existir múltiples análisis posibles para una frase o sintagma gramatical, estos se generan en los dos cuadros inferiores. Estos análisis pueden ser gramaticales o no. 56 CAPÍTULO 1. INTRODUCCIÓN Figura 1.4: Interfaz de la herramienta de desarrollo de gramáticas XLE. De derecha a izquierda se pueden apreciar a) la estructura-c, b) la estructura-f, c) otras estructuras-f disponibles en caso de análisis múltiples, d) otras soluciones. 1.6. METODOLOGÍA 1.6. 57 Metodología Nuestro trabajo versa sobre el análisis sintáctico del español utilizando el formalismo LFG. Se trata de un formalismo de unificación y se encuentra dentro de la corriente lingüística generativa. Esta área de la lingüística utiliza una aproximación teórica sistemática al estudio de las lenguas. Permite así, no solo analizar una gran variedad de datos empíricos, sino también descubrir nuevos fenómenos de las lenguas, y entender otros que si bien son imaginables, no aparecen en las lenguas (Haegeman 2001). Como bien explica Labov (1972), los estudios teóricos sintaxis generativa se caracterizan por recurrir a los datos introspectivos como fuente de textos lingüísticos. Esta práctica fue iniciada y defendida por N. Chomsky desde sus primeras publicaciones, entre ellas Syntactic Structures (1957), y permanece como metodología hasta nuestros días. El desarrollo de los esquemas de Rección y Ligamiento, X̄, Principios y Parámetros, el Programa Minimalista y más recientemente la Nanosintaxis son la consolidación del aparato abstracto de análisis producido por los lingüistas (Haegeman 2001). Los lingüistas son, así, capaces de emitir un criterio de aceptabilidad y gramaticalidad de los datos que utilizan para construir la teoría. Luego, los análisis presentados se validan tradicionalmente por medio del consenso entre lingüistas; o, más recientemente, por otros medios lo cuales incluyen la lingüística de corpus y las aplicaciones computacionales (Labov 1972; Litosseliti 2010). En nuestro caso, es la herramienta XLE el instrumento de validación, puesto que permite obtener un análisis de las oraciones gramaticales y rechazar las oraciones agramaticales en función de la descripción proporcionada en la gramática. 58 CAPÍTULO 1. INTRODUCCIÓN 1.6.1. Obtención de los datos Nuestro estudio parte de un corpus construido de 40 oraciones. Estas oraciones fueron construidas sobre la base de nuestra definición de frase simple; es decir, se trata de oraciones sin pronominalizaciones, desplazamiento de complementos o ningún fenómeno diferente a la completa expresión de los complementos verbales en su posición canónica. La lista completa de las oraciones se puede consultar en el apéndice A. Los elementos léxicos que componen estas oraciones se escogieron con base en la tipología que escogimos para nuestro lexicón. Por tratarse del corazón mismo de la gramática que desarrollamos en este trabajo, dedicamos todo el capítulo 2 al lexicón (El lexicón y su tipología). En él, explicamos ampliamente nuestros criterios de selección léxica. Los verbos se escogieron según los marcos de subcategorización verbal e incluyen las siguientes clases: meteorológicos, ergativos, copulativos, perceptivos, intransitivos, transitivos y ditransitivos. Los sustantivos, por su lado, se escogieron de acuerdo con la escala de estabilidad temporal propuesta por Givón (2001). De dicho corpus, es necesario extraer una muestra con fines de evaluación después de finalizadas las reglas de la gramática. De modo que de dichas 40 oraciones, 15 serán usadas con el fin de evaluar y validar la gramática escrita usando la plataforma XLE. Este subconjunto de oraciones se conoce como test-set y se puede consultar en el apéndice C. En lingüística de corpus y lingüística computacional estadística, se acostumbra construir test-set de cientos –sino miles– de oraciones. Sin embargo, en vista del carácter exploratorio e incipiente de nuestro proyecto en su área, así como de su carácter simbólico, consideramos que un corpus y un test-set de tamaño reducido son mucho más adecuados y justificados (Lehmann y col. 1996; Litosseliti 2010). 1.6. METODOLOGÍA 59 Otros estudios como los propuestos por Moreno, López y Sánchez (2003) y Lloberes, Castellón y Lluis Padró (2010) consideran tan solo 50 oraciones para la evaluación de sus respectivos sistemas. En el caso de Lloberes, Castellón y Lluis Padró (2010) para evaluar FREELING, y en el caso de Moreno, López y Sánchez (2003) para la evaluación manual de la anotación de un treebank compuesto por periódicos españoles. 1.6.2. Definición del lexicón Al tratarse de una gramática de unificación, para su construcción es necesaria la definición de la base datos que conforma el lexicón. Dado que LFG es de naturaleza fuertemente lexicalista, las entradas en el lexicón corresponden a formas o palabras totalmente flexionadas. Cada una contiene la información pertinente de acuerdo con su categoría gramatical. Un verbo por ejemplo, contendrá la información relacionada a participantes o roles temáticos, subcategorización, número, persona, tiempo, modo, etc. Estas entradas deben contener tantos rasgos como sean necesarios, pues son ellos los que se mostraran en las estructuras-f y permitirán o no las unificaciones. Posteriormente, es posible definir las reglas libres de contexto que le indican al sistema la correcta formación de las estructuras-f por medio del mecanismo de unificación. Con este fin, seguiremos los postulados de Bresnan (2001) sobre LFG; además, seguiremos la teoría concerniente a las reglas libres de contexto, entre algunas obras se encuentran Wehrli (1997); Moreno (1998); Moreno, Grishman y col. (2000) y Moreno (2001). 60 CAPÍTULO 1. INTRODUCCIÓN 1.6.3. Escritura de las reglas gramaticales Dado que nos hemos propuesto realizar una formalización sintáctica manipulable computacionalmente de las principales características de la frase simple, realizaremos una revisión de los estudios teóricos formales del español. Para ello recorreremos los análisis sintáctico-teóricos de algún aspecto del español. Vann (1993); Franco y Huidobro (2008); MacDonald y Huidobro (2010), por ejemplo, trabajan las oraciones impersonales desde los modelos de Rección y Ligamiento y Principios y Parámetros. Además, nos hemos podido percatar de que en varios trabajos anteriores hechos desde otros formalismos se menciona el español de manera esporádica. Por ejemplo, el mismo libro de Bresnan (2001), Lexical Functional Syntax, al ser una obra didáctica, propone ejercicios donde analiza los pronombres clíticos de objeto directo. Moreno (2001) y Bosque Muñoz y Gutiérrez-Rexach (2009) también mencionan algunas reglas a modo de ejemplos. D’Introno (2001) y Zagona (2002), por otro lado, hacen un análisis del español usando un marco fuertemente chomskyano. Zagona (2002) utiliza como marco teórico Rección y Ligamiento solamente; mientras que D’Introno (2001), por su lado, utiliza Rección y Ligamiento y el Programa Minimalista, con un fuerte interés en la evolución de la teoría misma. De estos estudios, nos proponemos comprender cuáles particularidades del español ya han sido ampliamente abordadas y por lo tanto pueden ser aprehendidas utilizando LFG. Hallebeek (1990), en su tesis doctoral, analiza el español utilizando un formalismo de descripción llamado Extended Affix Grammars, proveniente de la informática y usado en la definición de lenguas de programación. Aparte de las unidades sintagmáticas generales como NP y VP, el autor analiza las estructuras de comparación, coordinación y subordinación. 1.6. METODOLOGÍA 61 Luego de esta revisión de los estudios formales, será necesario crear nuevas reglas de análisis según sean pertinentes de acuerdo con nuestro corpus y a nuestro formalismo. Es necesario estudiar la diferentes oraciones del corpus y preveer sus posibles alternancias con el fin de evitar la redundancia en las reglas. Además, a medida que la complejidad de la gramática aumenta, se debe reflexionar cuidadosamente al introducir nuevos elementos (ítemes léxicos, rasgos, reglas, etc.) puesto que hasta el menor cambio puede tener consecuencias imprevisibles en el desempeño de la gramática en su totalidad. Por esto, múltiples semi-evaluaciones regresivas deben hacerse sistemáticamente. Por ejemplo, comprobar que las entradas léxicas sean reconocidas, comprobar que los rasgos coincidan con las entradas léxicas, entre otros (Paiva y King 2008). 1.6.4. Validación computacional: parser La herramienta XLE descrita más arriba en la sección 1.5.7 fue especialmente concebida para el desarrollo de gramáticas escritas usando el formalismo LFG. Por lo tanto, la escritura de tal gramática sigue a su vez las reglas de notación de XLE. En general, su sintaxis es muy similar a la de LFG, con tan solo modificaciones mínimas que facilitan el procesamiento automático. Por ejemplo en lugar de los símbolos flecha ascendente y flecha descendente (↑↓), se utilizan los símbolos ” ˆ ” y ” ! ” respectivamente.52 Es una herramienta que facilita la escritura de las reglas gracias a su interfaz gráfica. Efectivamente, a medida que se escriben las reglas, es posible comprobar su valor y corrección casi inmediatamente. De existir incompatibilidades o errores 52 Detalles relacionados con la notación utilizada por XLE se pueden consultar en http://www2. parc.com/isl/groups/nltt/xle/doc/xle_toc.html; última visita 07-07-2012. En nuestro trabajo, el Capítulo 4: El modelo de gramática formal proporciona un explicación detallada de su funcionamiento. 62 CAPÍTULO 1. INTRODUCCIÓN en la descripción de los rasgos, las unificaciones no se validan y el procesamiento de las reglas se ve interrumpido. Por otro lado, permite saber cuando las reglas son demasiado generales, con capacidad de generar múltiples análisis, de modo que el usuario puede refinar sus análisis. Esto, a su vez, implica un fino conocimiento de LFG como teoría formal, pues las operaciones permitidas en XLE siguen muy de cerca los postulados del formalismo. De esta manera, existe la certeza sobre la pertinencia de la gramática a medida que se define. El objetivo fundamental de XLE es la validación de las frases gramaticales que se proporcionen como input, lo que implica el rechazo de aquellas que no lo sean. Para ello, el programa realiza un análisis sintáctico de acuerdo con la gramática que se le indique. El reconocimiento de cada palabra es gracias a la base de datos que contiene el lexicón. De manera que si una palabra determinada no se encuentra registrada, el sistema no será capaz de reconocerla y la oración no podrá ser analizada. La herramienta XLE fue desarrollada para el proyecto de la Gramática en Paralelo, tal como se mencionó. Sin embargo, hoy en día es tan solo una plataforma para la investigación y el beneficio académico, razón por la cual no incluye ningún tipo de conocimiento lingüístico. El desarrollo del lexicón, así como la escritura de las reglas es un proceso manual que comienza de una página en blanco. 1.7. Conclusión En este capítulo, hemos presentado el estado de la investigación en español desde LFG y la motivación de nuestro estudio.Además, hemos dotado al lector de los instrumentos de estudio en materia de análisis sintáctico desde el formalismo 1.7. CONCLUSIÓN 63 LFG. Este se enmarca en el cuadro de las gramáticas de unificación y sigue los lineamientos generales de la gramática generativa. En particular, LFG asume los postulados básicos del esquema X̄ (Bresnan 2001). En el capítulo siguiente, definiremos el conjunto de entradas léxicas denominadas lexicón que definirán las frases que será posible procesar. Asimismo, será la base para la definición de las reglas de análisis de nuestra gramática, las cuales validarán la unificación de las estructuras-f. 64 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA Capítulo 2 El lexicón y su tipología En el capítulo anterior, se definieron los conceptos principales sobre las estructuras, el funcionamiento y los principios de análisis del formalismo LFG. Asimismo, se presentó la herramienta de desarrollo de gramáticas XLE. Esta servirá para la escritura de las reglas gramaticales y la validación de los análisis propuestos. Ahora debemos comprender cuál es la interacción de los componentes principales de una gramática formal: lexicón y reglas. Para ello, en este capítulo se presentan los criterios que tomamos en cuenta para la selección de las entradas del lexicón. Recordando que LFG se conoce por su carácter lexicalista fuerte, aclaramos que todas las categorías del lexicón son formas completamente flexionadas. En la sección 2.1:¿Qué es el lexicón? definimos al lexicón. Luego, presentamos las diferentes categorías gramaticales que conforman la selección de entradas del lexicón (secciones 2.2.1: Tipología verbal y 2.2.2 Tipología nominal). Los determinantes y modificadores también son tomados en cuenta (secciones 2.2.3: Determinantes y 2.2.4: Modificadores respectivamente). La sección 2.3: Conclusión cierra el capítulo. 2.1. ¿QUÉ ES EL LEXICÓN? 2.1. 65 ¿Qué es el lexicón? El lexicón es una abstracción sobre los elementos de una gramática. Todo lenguaje, sea natural o artificial, comprende un léxico que especifica el conjunto de sus elementos terminales (Wehrli 1997). Es decir, en nuestro caso, el conjunto de sus palabras.1 Como bien exponen Bates y Goodman (1997), en sus inicios, las corrientes principales de la gramática generativa suponían que la gramática y el lexicón, i. e., las reglas y el lexicón, constituían dos entidades discretas y separadas. Sin embargo, con el desarrollo de marcos como LFG o HPSG surgió la tendencia hacia el lexicalismo, otorgando así, más protaganismo al lexicón, hasta que tal disociación desaparece por completo en la llamada gramática de construcciones, mayormente desarrollada por Fillmore, Kay y O’Connor (1988). Culicover y Jackendoff (2005) asumen que el lexicón y las reglas gramaticales son categorías separadas pero estrechamente relacionadas, que funcionan en paralelo. Efectivamente, en LFG a través del principio de monotonicidad y del algoritmo de la solución, cada una de las estructuras puede ser inferida de la información léxica contenida en las palabras. En esto consiste precisamente el carácter lexicalista de LFG; es por ello que cada una de las palabras, totalmente flexionadas, constituye una entrada léxica del lexicón. De manera que no existe el concepto de lema. 1 Estamos conscientes de que el término palabra es sumamente ambiguo, complejo y que puede incluir desde afijos hasta expresiones plurimembres. Sin embargo, nosotros nos referimos solo a las cadenas de símbolos separados por espacios en blanco. Referimos al lector al trabajo de Leoni de León (2008) para más detalles sobre el tema. 66 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA 2.2. Las tipologías gramaticales Nuestro lexicón se organiza en clases gramaticales. Estas son útiles y necesarias por que permiten asegurar la representatividad de las entradas léxicas o palabras, pues se pueden seleccionar de acuerdo con parámetros específicos y ordenados. Sobre todo, teniendo en cuenta que nuestro trabajo no pretende ser exhaustivo, sino representativo de las principales características de la frase simple. 2.2.1. Tipología verbal En español, los verbos tienen la condición de predicadores en la frase, por lo tanto, contienen la información relacional. En otras palabras, determinan la estructura de argumento-predicado que relaciona una acción o estado con sus participantes en la oración (Merlo y Stevenson 2001). Existen numerosos modelos de clasificación de los verbos según criterios sintácticos, semánticos o combinaciones de estos dos. El trabajo de Levin (1993), por ejemplo, contempla 200 clases verbales a partir de aproximadamente 3 200 verbos en inglés. Ella estableció las clases sintácticas tomando en cuenta las similitudes de los patrones de las diferentes alternancias sintácticas de la frase y sus estructuras de argumentos.2 En otros trabajos como Kipper y col. (2007) y Korhonen y Briscoe (2004) esta cantidad de tipos semánticos se extiende considerablemente. Otro tipo de clasificación verbal es el basado en la Estructura Conceptual Léxica (EAGLES 1998). Esta es una representación semántica con un fuerte componente cognitivo. Se compone de tres partes: las categorías conceptuales, los 2 El cambio de voz activa a voz pasiva es un ejemplos de alternancia sintáctica. En ambas voces, el verbo tiene los mismos participantes, pero la estructura argumental es diferente. 2.2. LAS TIPOLOGÍAS GRAMATICALES 67 campos semánticos y los primitivos conceptuales. El primero se refiera a las partes conceptuales del discurso, como por ejemplo, evento, estado, lugar, ruta, propiedad, propósito, manera, cantidad y tiempo. Los primitivos son un grupo pequeño de nociones susceptibles de ser modificadas por medio de los campos semánticos. Bajo esta perspectiva, verbos como regalar o entregar, pertenecen a la misma categoría. Para describirlos, se usa el primitivo IR, acompañado del campo semántico de la posesión, lo cual indica un cambio en el poseedor y se expresa IR + pos. Por otra parte, también existen modelos de clasificación puramente léxicos tal como WordNet3 . Este consiste en una base de datos léxica para el inglés que agrupa los sustantivos, verbos, adjetivos y adverbios en conjuntos de sinónimos que expresan cada uno un concepto diferente. Estos conjuntos están interconectados por medio de relaciones conceptuales, semánticas y léxicas, dando como resultado una red de palabras y conceptos significativamente imbricados entre sí (Miller 2009). Por nuestra parte, contemplando la interfaz semántico-sintáctica contenida en la correspondencia entre las estructuras a y f de LFG, decidimos escoger los verbos del lexicón con base en los roles temáticos. Nuestros criterios de selección se explican a continuación. Los roles temáticos Entre múltiples investigadores tales como Dowty (1991); Payne (2008); Bresnan (2001); Givón (2001); Zagona (2002); Kroeger (2004) y Culicover y Jackendoff (2005) entre otros, existe el común denominador de que la forma de codificación de los argumentos del verbo en la oración está determinado por sus roles temá3 http://wordnet.princeton.edu/; última visita 07-07-12. 68 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA ticos. Ahora bien, no existe una única teoría en cuanto a qué es un rol temático, cómo funciona y cuántos existen. Samardzic (2009) también alude a la falta de consenso en el tema de los roles temáticos. Ella explica que la causa está en la naturaleza de la clasificación que se haga. Por un lado están quienes consideran que los roles temáticos son atómicos y, por otro, quienes los consideran como conglomerados de rasgos. El hecho de que sea necesario establecer más roles a medida que se analizan oraciones más complejas, es una prueba a favor del segundo grupo, pues indica que no existen límites claros para definir los roles temáticos. De este segundo tipo es el trabajo clásico de Dowty (1991) quien propone los roles de protopaciente y protoagente. Según él, los argumentos pueden diferir en el grado en que porten las propiedades que definen cada uno de los dos roles, por lo que es mejor delimitarlos en el marco de una teoría de prototipos. Actualmente, el trabajo de Dowty se utiliza en investigaciones sobre roles temáticos en el marco de la lingüística computacional. Stevenson y col. (1999); Merlo y Stevenson (2001); Merlo y Stevenson (2004) y Merlo y van der Plas (2009) son buenos ejemplos. Entre los trabajos mencionados, vemos un acuerdo en que la forma de asignar los roles temáticos a sus posiciones sintácticas es siguiendo una jerarquía. De modo que el rol temático con el rango más alto en la jerarquía también ocupe la posición sintáctica de mayor rango en la oración; por lo general, la posición de sujeto. Este proceso de asignación se repite sucesivamente en las dos jerarquías (la semántica de los roles temáticos y la sintáctica de las funciones argumentales) hasta no tener más argumentos (Culicover y Jackendoff 2005). (56) a. Carmen le da el carro a María. b. dar: agente >tema >beneficiario 2.2. LAS TIPOLOGÍAS GRAMATICALES 69 c. [sujeto] da [objeto directo] a [objeto indirecto] En (56), tenemos un ejemplo que ilustra el funcionamiento de esta jerarquía. El verbo dar (56a) tiene tres participantes o roles temáticos: un tema, un agente y un beneficiario, jerárquicamente mostrados en (56b). Del mismo modo, dar cuenta con tres posiciones sintácticas disponibles en esta oración en particular, (56c). Por esta razón, Carmen, que tiene el rol más alto, es decir el de AGENTE, se asigna a la posición sintáctica más alta, es decir, la posición de sujeto. Luego, el TEMA se fija con el carro, en la posición de objeto directo. Por último, el BENEFICIARIO corresponde a a María en la posición de objeto indirecto. Si bien Bresnan (2001) es enfática en que la jerarquía de roles temáticos variará de acuerdo con la lengua de la que se trate, encontramos que la que ella propone se ajusta adecuadamente a la interfaz semántico-sintáctica del español. Esta se reproduce en (57) y será utilizada de ahora en adelante. (57) AGENTE >BENEFICIARIO >EXPERIMENTADOR >INSTRUMENTO >TEMA/PACIENTE >LOCATIVO El AGENTE es el participante que desencadena el evento, causa o controla la acción, tenga volición o no. El TEMA se diferencia del PACIENTE en que no sufre un cambio físico disparado por un AGENTE. El BENEFICIARIO, por su lado, se refiere al rol que saca provecho del evento. El EXPERIMENTADOR no controla el evento ni sufre una transformación física, pero sí recibe una impresión sensorial4 . El INSTRUMENTO, por su lado, generalmente es utilizado por el agente para llevar a cabo el evento (Payne 2008). Por último, el LOCATIVO es un rol que hace referencia a la existencia del participante en algún lugar del espacio, en un evento, acción o situación (Bresnan 2001). 4 Desde una perspectiva cognitiva, esta última podría pensarse como un cambio químico cerebral y por lo tanto como una transformación física 70 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA Los ejemplos (58) a (63) que se muestran a continuación ilustran los roles utili- zados en nuestra jerarquía. El texto resaltado en cursiva corresponde al argumento que constituye el rol temático enunciado en la línea inmediatamente inferior. (58) Carmen come. AGENTE (59) Carmen come palomitas. AGENTE PACIENTE (60) Carmen le da el carro a María. AGENTE TEMA BENEFICIARIO (61) A Carmen le gusta el queso. EXPERIMENTADOR TEMA (62) Carmen corta el queso con el cuchillo. PACIENTE INSTRUMENTO (63) Está en casa. LOCATIVO Selección de verbos La interfaz semántico-léxica es el punto de intersección que permite enlazar la estructura argumental con la información léxica asociada a los verbos. Dicha información comprende las especificaciones sobre el número de argumentos, la naturaleza semántica de esos argumentos y el tipo de estructura sintáctica en la cual un tipo particular de verbo y sus argumentos pueden estar (Tenny 1994; Van Valin 1999). La categorización verbal por medio de roles temáticos nace precisamente con el fin de comprender mejor el funcionamiento de la interfaz semántico-léxica. Esta permite explicar la regularidad existente entre ciertas estructuras sintácticas con algunas categorías verbales. Tal regularidad es motivada por las propiedades se- 2.2. LAS TIPOLOGÍAS GRAMATICALES 71 mánticas contenidas en cada uno de los diferentes roles temáticos (Tenny 1994; Van Valin 1999). Los verbos ergativos por ejemplo, cuentan con rol temático de TEMA que típicamente se asocia con la posición de sujeto. Una categorización verbal basada únicamente en criterios sintácticos, solo tendría en cuenta el número de argumentos asociado a cada verbo. Nosotros solo consideramos un máximo de tres argumentos dentro de la subcategorización verbal. Otros autores como Galicia y Gelbukh (2007) estiman que la mayoría de los verbos tienen entre uno y tres argumentos, si bien proponen un máximo de hasta cinco argumentos, como se explica con detalle más adelante en la sección 3.1.2: Sobre la subcategorización verbal. impersonal 0 argumentos meteorológico intransitivo 1 argumento copulativo transitivo 2 argumentos percepción ditransitivo 3 argumentos Cuadro 2.1: Tipos de verbos clasificados de acuerdo con el número de argumentos que subcategorizan. Con esto en cuenta, consideramos que la clasificación semántica es importante para comprender ciertos aspectos claves de la sintaxis; si bien esta última permanece como el centro de nuestro interés. Esta es la razón por la cual hemos seleccionado los verbos teniendo en cuenta el número de argumentos que subcategorizan. De ahí que hemos creado las categorías de impersonal, intransitivo, transitivo y ditransitivo. Asimismo, con el fin de explorar y modelizar una parte del contenido semántico de estas clases sintácticas, hemos establecido tres subgrupos: meteorológico, copulativo y percepción. Resumimos nuestra classificación en el cuadro 2.1. De forma que, con base en los roles temáticos establecidos en (57) y explicados en la sección anterior, se escogieron los verbos que se presentan en el cuadro 72 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA 2.2 como base de nuestro lexicón. La selección, lejos de ser exhaustiva, pretende ser representativa de cada categoría de verbo y se compone de un total de 40 elementos. En los párrafos siguientes se describe cada clase y se proporcionan los ejemplos correspondientes (64 a 79). La categoría meteorológicos abarca los verbos que no presentan argumentos, por lo tanto, no tiene roles temáticos. Simplemente expresan la manifestación de un fenómeno natural. (64) Llovió. (65) Amaneció temprano. Los ergativos son los verbos cuyos roles temáticos son un EXPERIMENTADOR y un TEMA. El TEMA por ocupar una posición más alta en la jerarquía ocupa la posición de sujeto, razón por la cual concuerda con el verbo. El EXPERIMENTADOR, por su parte, se codifica como objeto indirecto.5 (66) A Carmen le gustan los chocolates. EXPERIMENTADOR TEMA El grupo de copulativos contiene los verbos que solo cuentan con un rol. Este puede ser un TEMA o bien un LOCATIVO como en el caso de estar (67). Además, tienen la particularidad de que el sintagma verbal completa su significado con un predicado nominal que concuerda con el sujeto. Como se puede observar en los ejemplos (68) y (69), el adjetivo de la predicación concuerda con el sujeto: (67) Carmen está en la casa. 5 Estamos conscientes de que en sentido estricto la ergatividad se refiere a un agente en lugar de un experimentador como rol del sujeto en las oraciones intransitivas. Sin embargo, en este trabajo utilizamos un sentido amplio del término. Esto se explica con más detalle en la sección 3.1.3, en la página 101. gustar encantar costar importar doler llover amanecer anochecer nevar ser estar quedar parecer copulativos oir ver escuchar percepción nacer haber entrar morir reír salir ir venir dormir intransitivos querer sentir comer publicar llamar lavar hacer abrir transitivos Cuadro 2.2: Conjunto total de verbos considerados. ergativos meteorológicos dar escribir decir traer llevar ditransitivos 2.2. LAS TIPOLOGÍAS GRAMATICALES 73 74 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA (68) El libro es rojo. (69) Ella quedó contenta. El grupo de percepción cuenta con un rol de EXPERIMENTADOR y uno de TEMA. Los de percepción presentan la característica de que cuando se usan en su forma de gerundio se interpretan en función del objeto directo de la oración y no del sujeto, como en el caso de un verbo transitivo. Esto se puede ver en el contraste entre (70a) y (70b). (70) a. La vi riendo. b. Lo comí riendo. En (70a), el gerundio riendo tiene relación con el objeto directo femenino expresado por el pronombre clítico la. En (70b), por el contrario, el gerundio se correlaciona con el sujeto de la oración, es decir yo. Este comportamiento es propio de los verbos conocidos como verbos de marcaje excepcional (ECM por sus siglas en inglés). La categoría de intransitivos solamente cuenta con un rol, ya sea un AGENTE o un TEMA, como en el caso de los verbos nacer y morir. (71) Carmen nació en abril. Entre los verbos intransitivos, destacamos que se incluye el verbo haber debido a los usuales casos de concordancia como habíamos tres personas en aquel lugar o hubieron muchas fiestas este año. Nos parece importante notar que en el uso contemporáneo parece haber una mezcla de paradigmas que se puede explicar desde dos puntos de vista. El primero es considerar haber como un verbo transitivo, sin un sujeto explícito, lo que lleva a establecer la concordancia con su objeto directo. No es raro escuchar oraciones del tipo mostrado en (72), o bien en (73). Interpretar que existe un objeto 2.2. LAS TIPOLOGÍAS GRAMATICALES 75 directo en estas construcciones implica que este también es susceptible de ser reemplazado por un pronombre clítico correspondiente, al igual que en las construcciones con objeto directo de los demás transitivos. (72) Habían muchas dificultades para ganar. (73) Hubieron tres accidentes en carretera. Al respecto, obsérvense los ejemplo (74) a (76): (74) Hubo un huracán. → lo hubo (75) Hubo tres accidentes en carretera. → los hubo (76) ?Hubieron tres accidentes en carretera. → *los hubieron El segundo punto de vista, que es el adoptado aquí, considera el verbo haber como de tipo intransitivo. Bajo esta perspectiva, nos encontramos entonces frente a un verbo de sujeto explícito y pospuesto tal como lo es existir (77). Al tratarse de un sujeto, entonces lo consecuente es que concuerde con el verbo, lo cual explica las oraciones como las mencionadas en (72) y (73). Sin embargo, este análisis también implica que no es posible producir las formas ilustradas en (74) y (75), pues no estaría involucrado un objeto directo. (77) Existen muchas playas en el país. → *las existen Volviendo a nuestra tipología verbal, la categoría de transitivos, por su parte, cuenta con dos roles, un AGENTE y un TEMA, como se ve en el ejemplo (78). (78) Carmen come palomitas. Como última categoría, ditransitivos contiene los verbos con tres roles temáticos: AGENTE, TEMA y BENEFICIARIO. (79) Carmen le da el libro al chico. 76 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA 2.2.2. Tipología nominal En muchas lenguas pertenecientes a diferentes familias, los elementos nominales se dividen en conjuntos de acuerdo con criterios arbitrarios. Algunas veces se trata de categorías agrupadas en torno a tipos ”naturales”, tales como humanos, plantas o animales. Otras veces, las categorías tienen que ver con las propiedades descriptivas que tenga cada entidad, como por ejemplo si es alargado, líquido o plano (Kihm 2005). Los sistemas de clasificación nominal de las lenguas del mundo se pueden resumir en tres grandes tipos. El primero abarca los sistemas basados en dos o tres géneros, del cual las lenguas romances son el mejor ejemplo. El segundo tipo incluye los sistemas basados en los descriptores nominales y los sistemas que tienen más de tres géneros. Numerosas lenguas de la familia nigero-congoleña, pertenecen a este tipo. El último grupo es el de las lenguas con sistemas de clasificación numerales, tal como el chino (Kihm 2005). Por su lado, al ser parte de las lenguas romances, el español cuenta con una clasificación basada en el género, por lo tanto pertenece al primer grupo. En cuanto a las entidades nominales, al existir tan solo los grupos femenino y masculino, nos vimos en la necesidad de recurrir a una clasificación más específica. Otras clasificaciones, tal como la propuesta por Leoni de León (2008), son especializadas en la representación formal, mientras que nuestro fin último es contar con una selección que nos permita corroborar la adecuación de las reglas propuestas. Esta es la razón por la cual acudimos a la tipología de Givón (2001) para escoger los sustantivos de nuestro lexicón. Givón (2001) propone la escala de estabilidad temporal mostrada en (80) para caracterizar semánticamente a los sustantivos. 2.2. LAS TIPOLOGÍAS GRAMATICALES (80) 77 entidad >temporal >concreto >animado >humano Como se puede ver, la escala va en aumento desde lo menos hasta lo más estable. Una entidad se refiere a algo que solo existe y no es tangible, tal como los sustantivos abstractos libertad o dignidad. La condición de temporal significa que existe en un tiempo particular, como día o noche. La categoría denominada concreto comprende los sustantivos inanimados pero que cuentan con dimensiones espaciales y otras características físicas. Entre ellos están mesa, silla y taza. La categoría de animado abarca los sustantivos que, además de contar con las propiedades de la clase concreto, también tienen el rasgo de animado. Sin embargo, no gozan del rasgo humano. Pertenecen a este grupo perro y hormiga. Por último, la clase denominada humano incluye todos los rasgos de las demás categorías y además el rasgo de ser humano. Sustantivos como astronauta, mesero o bebé son parte de este grupo. Existen otras tipologías basadas en diferentes criterios. Payne (2008), por ejemplo, propone como tipos universales de sustantivos las categorías de nombres propios/comunes, poseíbles/no poseíbles y contables/no contables. Por otro lado, Leoni de León (2008), siguiendo a D’Introno, construye una clasificación sintáctica. Él establece dos grandes categorías, predicativo y no predicativo. La primera está compuesta por los sustantivos derivados de acciones transitivas o intransitivas. Los sustantivos transitivos pueden ser acciones (como traducción, crítica), entidades (idea, historia), las cuales pueden llevar adjuntos modales y espacio-temporales, y actantes (crítico, traductor). Los sustantivos intransitivos, por su parte, son sustantivos como llegada o ensayo, derivados de intransitivos. La otra segunda gran categoría -no predicativo- se compone de todos los demás sustantivos. Estos son susceptibles de llevar adjuntos materiales, como mesa de madera o saco de dormir. 78 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA En el cuadro 2.2, se muestra la selección de sustantivos de nuestro lexicón. Optamos por cambiar el nombre de entidad que da Givón a esta categoría, por el de intangible. El propósito de establecer cada categoría es hacer referencia a una propiedad particular de sus miembros como grupo que los diferencie de las otras categorías. Una entidad, tal cual, puede hacer referencia a cualquier ente o ser de las otras categorías; tan solo señala que algo existe, razón por la cual preferimos el nombre de intangible. Intangible trabajo problema libertad solución pregunta miedo verdad mentira Temporal tiempo día semana noche tarde Concreto mundo mano ojo lugar bicicleta árbol manzana lápiz silla libro Animado perro gato caballo pájaro Humano persona hombre Carmen chico maestro bailarina jugador madre Cuadro 2.3: Tipología nominal Pronombres Los diferentes tipos de pronombres también son parte fundamental del lexicón. Los pronombres son formas plenas o semiplenas -como en el caso de los clíticosque pueden cumplir la función de una frase nominal en una oración (Laenzlinger 2003). En general, poseen todas las características sintácticas de las frases nominales, razón por la cual los consideramos como un subconjunto de los sustantivos o frases nominales. Aquí solo consideraremos los pronombres personales, que se muestran en el cuadro 2.4. Nótese en este cuadro que las personas del plural han sido enumeradas del cuatro al seis. Esto evita la redundancia de rasgos a la hora 2.2. LAS TIPOLOGÍAS GRAMATICALES 79 de su definición en el lexicón. Persona 1 2 Número singular singular 3 singular 4 5 plural plural 6 plural Género fem/mas fem/mas fem mas fem mas neutro fem/mas fem mas fem mas Fuertes yo tú usted usted ella él ello nosotros ustedes ellas ellos Débiles Dativo Acusativo mí me ti te le la lo le la lo lo nos nos les las los les las los Cuadro 2.4: Pronombres personales 2.2.3. Determinantes Los únicos determinantes considerados son los definidos y los indefinidos. Estos se muestran en la tabla 2.2.3 a continuación. singular plural Masculino el, un los Femenino la, una las Cuadro 2.5: Determinantes En el caso de los pronombres demostrativos, estos funcionan mayormente como elementos de correferencia. En otras palabras, se utilizan para referirse a elementos mencionados con anterioridad en el texto, y en menor medida a elementos posteriores (tal es el caso de la catáfora). Asimismo, también se utilizan con valor abstracto, lo que significa que toman su contenido semántico a partir de toda la predicación a la que se refieren. 80 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA (81) El veranoi apunta alto, ojalá sea como aqueli en que nos juntamos todos. (82) Todo esto era de tu abuelo. A través de los subíndices i en el ejemplo (81) se muestra la relación de correferencia entre verano y aquel, es decir, se refieren a una misma entidad. En el ejemplo (82) el demostrativo esto no encuentra su contenido dentro de la frase misma. Tanto los pronombres demostrativos como los elementos cuantificadores y los pronombres posesivos forman parte de la tarea de resolución de la correferencia. Tal tarea ha sido el objeto de estudio de un amplio campo de la lingüística computacional dedicada al procesamiento automático de la coherencia textual. Existen corpus y algoritmos especializados tan solo en la detección de la resolución de la correferencia (Buring 2005).6 Nosotros consideramos que tal nivel de análisis, desborda los objetivos perseguidos en este estudio. Por lo tanto, limitamos la categoría de determinantes a las categorías de definidos e indefinidos. 2.2.4. Modificadores Las clasificaciones de modificadores que es posible encontrar (Okada y Miura 1982; Payne 2008; EAGLES 1998; Jassem 2002; Boleda, Schulte y Badia 2007; Boleda, Schulte y Badia 2008) atraviesan clases muy disímiles entre sí, entre ellas calidad, dimensión, color, tiempo, valor, etc. En el caso particular de los adjetivos, WordNet, por ejemplo, utiliza una clasificación de solo dos grandes grupos: adscritos y no adscritos. El primero asigna un valor atributivo a los sustantivos. Por 6 La serie de conferencias MUC (Message Understanding Conferences; http://www.itl. nist.gov/iaui/894.02/related_projects/muc/; última visita 08-07-2012) y ACE Message Understanding Conferences; http://www.itl.nist.gov/iad/mig/tests/ace/; última visita 08-072012 (Automatic Content Extraction), por ejemplo, son hitos en este campo. 2.2. LAS TIPOLOGÍAS GRAMATICALES 81 ejemplo, un adjetivo adscrito sería seco, pues solo atribuye una cualidad al sustantivo que acompañe. Los adjetivos no adscritos, se consideran variantes estilísticas derivadas de los sustantivos. Un ejemplo es el adjetivo estelar, el cual se deriva de estrella, por lo cual se considera una variante de este (Miller 2009). La clasificación que usaremos será la propuesta por Boleda, Schulte y Badia (2007). A la vez que tiene criterios de categorización similares a los de WordNet, es también más simple y más precisa. Estos autores parten de la idea de que todos los adjetivos denotan propiedades. Sin embargo, estas propiedades se pueden manifestar como atributos, relaciones a objetos o bien relaciones a eventos. Los atributos son propiedades que no se pueden descomponer, tales como bello, o grande. Los adjetivos relacionados con eventos tienen una acción o verbo en su composición como tocar >tangible. De igual modo, los relacionados con objetos se refieren o derivan de un objeto en su composición, p.ej. nariz >nasal. En el cuadro 2.2.4 se presentan los adjetivos seleccionados para nuestro lexicón organizados según sus propiedades. Atributos simples bonito feo rápido negro rojo alto flaco ágil Atributos relacionados con: objetos eventos nasal pesado espumoso divertido semanal vivo cristalino querido moderno parecido azulado abierto arenoso cerrado floreado hambriento Cuadro 2.6: Adjetivos En total se escogieron 24 adjetivos. Como se puede ver no se incluye ningún adjetivo del grupo de los cuantificadores, demostrativos, ni determinativos. 82 CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA 2.2.5. Preposiciones En vista de la importancia que tienen para introducir objetos, las únicas preposiciones incluidas en este estudio son a y para. Su papel en la configuración de la frase simple es incuestionable, pues son preposiciones capaces de indicar el caso según el tipo de objeto codificado por el verbo. La preposición a es fundamental para introducir tanto los objetos directos como indirectos. En el caso del objeto directo, funciona también como un marcador de animosidad, tal como se sigue del contraste entre (83a) y (83b). Asimismo, también introduce el objeto indirecto 84. (83) a. Puso el libro en la mesa. [-animado] b. Puso al bebé en la silla. [+animado] (84) Le puso la mantequilla al pan. En el caso de la preposición para, también tiene la capacidad de asignar el caso dativo. Otros usos, por ejemplo para indicar destinación, comparación o razón no son contemplados pues involucran estructuras sintácticas que escapan a nuestros objetivos, tal como la subordinación (85). (85) El chico esperó a Carmen [para acompañarla]. 2.3. Conclusión En este capítulo nos hemos ocupado del lexicón. Tal como establecimos en 1.5.1: Algunas nociones de base, la categoría sintáctica de cada unidad distribucional, i.e. de cada sintagma, está determinada por su cabeza (endocentrismo) (Laenzlinger 2003). A lo largo del capítulo hemos expuesto cada una de las categorías gramaticales que consideramos como parte del lexicón. Los elementos de 2.3. CONCLUSIÓN 83 estas categorías –verbos, sustantivos, determinantes, preposiciones y adjetivos– son cabezas que tienen la propiedad de proyectar la estructura que conforma cada sintagma; es decir, son capaces de constituir sintagmas verbales (VP), sintagmas nominales (NP), sintagmas determinantes (DP), sintagmas preposicionales (PP) y sintagmas adjetivos (AP) respectivamente. Posteriormente, es el conjunto de reglas el que dicta la forma de combinación sintagmática en frases. Somos conscientes de haber dejado de lado muchas categorías gramaticales ampliamente usadas en la lengua. Sin embargo, por ser este trabajo de carácter exploratorio, se privilegió el criterio de representatividad al de exhaustividad. 84 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE Capítulo 3 Análisis sintáctico de la frase simple En el capítulo precedente, describimos los elementos integrantes del lexicón. Estos, así como el conjunto de rasgos que los definen en tanto que entradas léxicas, serán utilizados en este capítulo para construir el análisis sintáctico de la frase simple. Dicho análisis es el producto de las reglas de buena formación de los elementos de la frase; es decir, de los sintagmas, siguiendo los lineamientos de LFG. En nuestro análisis, presentaremos conjuntamente cada particularidad sintáctica de nuestro interés así como su análisis según las estructuras-f, c y a de LFG. Mostraremos asimismo, los análisis propuestos por otros lingüistas en conjunto con nuestro propio punto de vista. De ahora en adelante todos los ejemplos serán construidos con elementos pertenecientes a nuestro lexicón. En este capítulo detallamos la estructura de la frase simple según LFG (sección 3.1:La estructura de frase según LFG). Además, explicamos en detalle el análisis de los verbos presentados en la tipología introducida en el capítulo 2 (secciones 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 85 3.1.1: Sujeto nulo, 3.1.2: Sobre la subcategorización verbal, 3.1.3: Ergatividad en español, 3.1.5: El orden libre de los constituyentes en LFG, 3.1.6: Cópula). Luego, en la sección 3.2: Otras construcciones sintácticas, analizamos otras estructuras sintácticas que involucran algunos otros fenómenos derivados de nuestra definición de frase simple. Nos referimos a los pronombre clíticos (sección 3.2), las oraciones con ”se” (sección 3.2.2) y la coordinación (sección 3.2.3). 3.1. La estructura de frase según LFG En la sección 1.5.1: La estructura de frase, introdujimos brevemente los postulados básicos del esquema ”X̄” (equis barra). Dijimos que se trata de una notación en capas y estrictamente binaria que representa los diferentes nodos y sus proyecciones. En este esquema, X o Xo constituye la cabeza de una proyección máxima XP. X’ es una proyección intermedia. Además, cada proyección hereda las características de su cabeza (Haegeman 1991; Haegeman 2001; Culicover y Jackendoff 2005). Dado que la existencia de la gramática universal es uno de los principios subyacentes en esta aproximación, existe la implicación de que hay una única estructura base común a todas la lenguas. A partir de este esqueleto común entre las lenguas, se derivan todas las transformaciones necesarias para dar cuenta de los diferentes tipos de sintaxis existentes. LFG, por su lado, también asume la existencia de la gramática universal, solo que de un modo diferente. En este esquema, la estructura de frase varía en función de la lengua de que se trate, no se deriva de una única estructura común. Es decir, la estructura-c cambia según la necesidades específicas de cada lengua. Es más bien la descripción recogida por la estructura-f la que busca ser común a 86 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE las diferentes lenguas. Esto no significa que las diferentes lenguas tengan todas las mismas características, sino que un mismo conjunto de características puede ser usado de la misma manera en todas las lenguas, en la medida en que estas se justifiquen en cada una de ellas (Bresnan 2001; Butt, Dalrymple y col. 2002). Al igual que en el esquema X̄ y siguiendo a Laenzlinger (2003), como se explicó precedentemente en la sección 1.5.1: La estructura de frase, hasta este punto consideramos que los nodos CP, IP y VP constituyen el esqueleto de la frase. Son las propiedades de selección funcional y categorial, las cuales aseguran que IP se adjunte a la derecha de Co y que VP sea el complemento de la cabeza Io . Aquí, nosotros definimos la frase simple como aquella frase u oración que no tiene alteraciones en el orden canónico de los sintagmas según se representan en la figura (1.3), repetida aquí como 3.1. Se trata de oraciones sin pronominalizaciones, desplazamiento de complementos o ningún fenómeno diferente a la completa expresión de los complementos verbales según lo establecen los marcos de subcategorización verbal. No obstante, aunque toda las ramas presentadas constituyen los nodos fundamentales y mínimos necesarios para dar cuenta de la estructura interna de la frase, no necesariamente todos los nodos deben ser siempre activos. Las propiedades de selección funcional garantizan que IP se adjunte como complemento de C’ y que VP sea el complemento de la cabeza I’.1 Hacemos notar que en la figura 3.1, nosotros asumimos que el verbo come –totalmente flexionado– se genera en la posición I o . En LFG, no existe la noción de movimiento. En aproximaciones como GB por ejemplo, se asume que el verbo se genera en la posición de VP (V o ) y que de ahí se mueve a I o , donde recibe la inflexión, tal como se ilustra en la figura 3.2. 1 La rama derecha en un árbol binario corresponde al complemento y la rama izquierda corresponde a la posición de SPEC, es decir, especificador. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 87 CP C’ Co IP DP I’ Carmen Io VP come V’ Vo DP una manzana Figura 3.1: Estructura canónica de la frase simple. CP ] C’ Co IP DP I’ Carmen Io VP [ ] +tiempo +agr V’ Vo DP comer una manzana Figura 3.2: Estructura canónica de la frase según GB. 88 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE Por la misma razón, al no existir el movimiento, nosotros preferimos el término TP, es decir, sintagma temporal, en lugar de IP. El uso de un sintagma temporal también caracteriza a la teoría interna utilizada, por ejemplo, por el analizador FIPS (Wehrli 2007); al mismo tiempo, su uso contrasta con el análisis presentado por Zagona (2002) quien, desde el paradigma de GB, propone un sintagma de la inflexión IP. Hallebeek (1990), por otro lado, utiliza una estructura completamente plana, independientemente del tipo de sintagma del que se trate. A partir del ejemplo de un verbo transitivo en la oración (86), a continuación ilustramos la estructura de la frase que nosotros damos al español y que asumimos en este trabajo. (86) Carmen come una manzana. La oración en (86) es de tipo declarativa, construida con un verbo transitivo, un sujeto explícito y un objeto2 . Como se muestra en la estructura-f dada en la figura 3.3, Carmen y manzana son predicaciones que introducen las funciones de sujeto y objeto, cumpliendo así el principio de completud. Además, la generación de la estructura-f es válida gracias a la correcta correspondencia y unificación de los rasgos NÚMERO y PERSONA entre el sujeto y el verbo. Observamos también un DP en la posición de SPEC de TP. Nuestro análisis asume la hipótesis del DP tal como fue iniciada por Abney (1987). Según esta aproximación, un determinante D constituye la cabeza de un sintagma determinante DP. D tiene a NP como su complemento (figura 3.1). Esta estructura supone una relación entre Det y NP, pero, como D es una categoría funcional no puede seleccionar a NP como complemento, por lo que este último no está temáticamente marcado por D. Entre ellos solo hay una relación 2 Por objeto nos referimos al tradicional objeto directo. Recordamos al lector que dentro del marco de LFG, las funciones argumentales se conocen como OBJ y OBJθ . 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG PRED ’COMER’<(Carmen), (manzana)> PRED ’Carmen’ GEND fem SUBJ NUM sg PERS 3 PRED ’manzana’ CASE acc OBJ DEF GEND fem NUM sg [ ] TOP Carmen MODO ind TIEMPO pres CP C’ TP DP T’ NP T N V VP Carmen come V’ DP D NP una N manzana Figura 3.3: Estructura canónica de la frase según LFG. DP D’ D NP una N manzana Figura 3.4: Estructura del sintagma determinante (DP). 89 90 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE funcional en la que D dota a NP de una referencia: definición, indefinición, cantidad, etc., (Zagona 2002). En cuanto al objeto, es la especificación en las reglas mostrada en (87), la cual nos permite saber que todo OBJ de un verbo transitivo llevará el caso ACUSATIVO. V' (87) → DP (↑ OBJ)=↓ (↓ CASE)=acc Puesto que consideramos las entradas del lexicón como palabras totalmente flexionadas, la entrada para los ejemplos (88 - 89) es come en lugar de comer como podría pensarse. Los rasgos NO DEFINIDO, FEMENINO y SINGULAR, presentes en las subestructuras-f de SUBJ y OBJ, los sabemos gracias a las entradas manzana y una en el lexicón (89 - 90). Claro está, estos rasgos también deben ser compatibles entre sí para validar la unificación del determinante con el sustantivo. (88) come: V <(↑SUBJ)(↑OBJ)> (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ OBJ CLITIC) =+ |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ OBJ CLITIC) =+ (↑ SUBJ PRED)='PRO' |(↑ MOOD)=IND (↑ SUBJ NUM)=SG 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 91 (↑ SUBJ PERS)=2 (↑ OBJ CLITIC) =+ |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=2 (↑ OBJ CLITIC) =+ (↑ SUBJ PRED)='PRO' (89) manzana: N (↑ PRED)='MANZANA' (↑ GEND)=FEM (↑ NUM)=SG (90) una: D (↑ DEF)=(↑ GEND)=FEM (↑ NUM)=SG En (88) se reproduce la entrada léxica para la forma come come. Como se desprende de (88), una misma entrada puede estar definida por medio de grupos diferentes de rasgos, que se separan aquí por medio del símbolo ”” | ”, es decir, disyunción. La tercera disyunción especifica que esta forma de conjugación en particular, además de corresponder a la 3ra persona, es homógrafa con la 2da persona singular cuando se emplea el tratamiento de usted. 3 La primera variación de (88) corresponde al verbo utilizado con un sujeto explícito, mientras que la segunda especifica la utilización de come con un sujeto no 3 Aclaramos al lector que en este trabajo no consideramos la forma peninsular vosotros como tratamiento de 2da persona plural. 92 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE explícito o pro-drop. Lenguas como el japonés, por ejemplo, permiten no realizar fonéticamente los argumentos contenidos en la subcategorización verbal. Esta característica se conoce como pro-drop ilimitado (Neeleman y Szendői 2005). Las lenguas romances, por su lado, solo permiten el pro-drop cuando se trata del sujeto de las oraciones, razón por la cual se conoce también como sujeto nulo (sección 3.1.1). 3.1.1. Sujeto nulo Por pro-drop nos referimos al ajuste positivo del español en el parámetro de pro-drop. Esta característica permite no mencionar el sujeto en las oraciones, sino que las personas gramaticales pueden ser diferenciadas gracias a una morfología verbal lo suficientemente distintiva (Rizzi 1982; K. Grohmann 2000; Clements 2008). En LFG, cuando un sujeto no explícito, pero correspondiente a un argumento en la subcategorización verbal, se instancia, se habla de un pronombre pro en la estructura-f. Esta representación nos permite diferenciar un sujeto no explícito, pero argumental, de uno no explícito también pero no argumental, tal como se muestra en las figuras (3.5 - 3.6) más abajo. Nosotros explicamos el pro-drop como una especificación léxica en lugar de una representación sintáctica. De modo que cada entrada verbal de todos los verbos argumentales es definida de al menos dos formas: con sujeto explícito y sin él. Si comparamos las estructura-a en la estructura-f de la figura (3.5) y de la figura (3.6), vemos que la primera tiene 1 argumento, a saber pro, mientras que la segunda no tiene ninguno. Es esta precisamente la diferencia entre un verbo argumental y uno no argumental, en este caso un verbo de tipo METEOROLÓGICO. En el caso del segundo, no es un pronombre pro el involucrado sino más 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 93 PRED ’comer <pro >’ PRED ’pro’ SUBJ NUM sg PERS 1 MODO ind TIEMPO pres Figura 3.5: Estructura-f de un verbo con argumento. PRED ’llover <>’ PRED ’expl’ SUBJ NUM sg PERS 3 MODO ind TIEMPO pres Figura 3.6: Estructura-f de un verbo sin argumentos. bien un pronombre de tipo expletivo. Como parte de las características del parámetro del pro-drop, en español, los verbos no argumentales no tienen una versión con pronombre abierto como sí tienen los verbos con pro-drop argumental. Esto quiere decir que la alternancia en (91) es posible, mientras que la alternancia presentada en (92) es agramatical. Los verbos no argumentales no utilizan ningún tipo de pronombre expletivo abierto tal como sí lo hacen lenguas sin el parámetro de pro-drop, entre ellas el francés (93) y el inglés (94). (91) a. Comió ayer. b. Ella comió ayer. (92) a. Llovió ayer. b. * Ello llovió ayer. 94 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE (93) a. Il a plu hier. b. * A plu hier. Llovió ayer. (94) a. It rained yesterday. b. * Rained yesterday. Llovió ayer. Otros análisis, en particular aquellos que siguen a Leonard Talmy y su noción de evento de movimiento (Talmy 2000), taless como Matsumoto (2003) y Nakazawa (2006), analizan nuestra categoría de verbos METEOROLÓGICOS como verbos argumentales de movimiento. De acuerdo a estos autores, una figura o entidad en movimiento cambia de ubicación en relación con otro objeto o suelo a través de un trayecto. De forma que, en el marco de subcategorización de un verbo como LLOVER, sería la figura de lluvia la que ocuparía la posición argumental, en lugar de un pro –como en GB– o un espacio vacío (<>) de acuerdo con LFG y con nuestro análisis. Esta posición no es contemplada en este estudio, pero representa una posibilidad de estudio ulterior valiosa para tomar en cuenta oraciones con un valor metafórico como (95) y (96).4 (95) Le llovió (una lluvia de regaños). (96) Llovieron sapos y culebras. 4 Agradecemos a la profesora Ximena del Río por hacernos notar el uso de este tipo de ejemplos. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 3.1.2. 95 Sobre la subcategorización verbal La subcategorización verbal corresponde dentro del esquema GB a lo que se conoce como patrones de rección. Es decir, a la información asociada que tienen los verbos sobre el tipo de complemento que rigen. Dentro de un marco funcionalista, se refiere grosso modo a la valencia verbal. Laenzlinger (2003) también la llama selección léxica y la define como la propiedad de especificar la naturaleza léxica de los complementos de una cabeza. En términos de valencia sintáctica, existen operaciones de aumento y disminución de valencia que permiten incluir o excluir participantes del evento enunciado por el verbo. Este tipo de operaciones ha sido ampliamente estudiado resultando en trabajos que tratan sobre las alternancias sintácticas. Quizás el trabajo más conocido dentro de este marco y desde una perspectiva completamente teórica es el de Levin (1993), quien analizó las alternancias sintácticas de aproximadamente 3 200 verbos en inglés. Autores como Galicia y Gelbukh (2007), proponen una subcategorización verbal de hasta 5 actantes para el español, es decir, 5 valencias. Ellos citan como ejemplo el caso del verbo rentar, en una frase como la reproducida en (97). (97) María renta un departamento a la compañía Zeta en dos mil pesos por mes. En este trabajo hemos diferenciado los verbos meterológicos, intransitivos, transitivos y ditransitivos de acuerdo con la cantidad y naturaleza de sus argumentos (Cuadro 2.2, página 73). Para nosotros, la subcategorización verbal también tiene una definición y una representación puramente léxica. De modo que cada esquema de subcategorización para un mismo verbo, cuenta con una entrada independiente en el lexicón. Para comprender mejor esto, si recordamos el ejemplo 96 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE (88), el cual especifica la entrada léxica para la forma COME, observamos que tiene 2 argumentos en su estructura-a, razón por la cual hemos categorizado a este verbo como TRANSITIVO. Sin embargo, existe otra entrada, casi por completo idéntica, cuya única diferencia es la cantidad de argumentos en la estructura-a. La segunda entrada se refiere al mismo verbo, pero con un uso INTRANSITIVO. Esta segunda entrada se muestra en (98). (98) come: V <(↑SUBJ)> (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ OBJ CLITIC) =+ |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ OBJ CLITIC) =+ (↑ SUBJ PRED)='PRO' |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=2 (↑ OBJ CLITIC) =+ |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=2 (↑ OBJ CLITIC) =+ (↑ SUBJ PRED)='PRO' 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 97 La entrada especificada en (98) puede considerarse como un valor intransitivo del mismo verbo COMER. De modo que, si bien el verbo COMER lo consideramos aquí como transitivo, otras alternancias sintácticas también están permitidas siempre y cuando cuenten con una especificación en el lexicón. En el caso de los verbos ditransitivos, estos se diferencian de los verbos transitivos en que cuentan entre su subcategorización con un tercer argumento, un argumento OBJθ . A partir del ejemplo (99), cuya estructura-f se muestra en la figura (3.7), podemos ver que es la preposición a, o bien para, la cual introduce el caso para el OBJθ . (99) Carmen le da la manzana a usted. El hecho de que el OBJ lleve el caso ACUSATIVO y que OBJθ lleve el caso DATIVO son especificaciones a nivel de la subcategorización verbal. Dentro de los primitivos teóricos del esquema X̄, se encuentra la capacidad de las cabezas preposicionales, Po , de asignar caso. Por lo tanto, a y para, en su calidad de preposiciones, introducen el caso DATIVO de los verbos ditransitivos (100 - 101). (100) a: P (↑ PRED)='A <(↑OBJ)>' (↑ OBJ CASE)=ACC |(↑ PRED)='A <(↑OBJ2)>' (↑ OBJ2 CASE)=DAT (101) para: P (↑ PRED)='PARA <(↑OBJ2)>' (↑ OBJ2 CASE)=DAT Tal como lo muestra la figura (3.7), la preposición a introduce un objeto, OBJ2 . Este objeto es un pronombre de 2da persona singular. Sin embargo, también muestra que otro pronombre –de 3era persona, clítico y con flexión de dativo– corresponde al mismo OBJ2 . Por medio de estos rasgos sabemos que se trata del 98 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE pronombre le que aparece como duplicación del OBJ2 . En este trabajo, del fenómeno conocido como duplicación de los pronombres clíticos, nosotros decidimos solo modelizar la duplicación de objeto indirecto, dado que es más difundida que la duplicación del objeto por ejemplo, propia a algunas variedades del español suramericano. En la figura 3.8, se muestra la estructura-c asociada a la estructura-f mostrada en (3.7). Se puede notar que el pronombre le solo ocupa una posición que hemos denotado como CL, es decir, no constituye una cabeza con la capacidad de proyección. Es el sintagma preposicional (PP) a usted el portador del caso, tal como lo explicamos en el párrafo precedente. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG PRED ’dar <Carmen, manzana, a>’ PRED ’Carmen’ GEND fem SUBJ NUM sg PERS 3 PRED ’manzana’ CASE acc OBJ DEF + GEND fem NUM sg PRED ’a <pro>’ PRED ’pro’ CASE dat NUM sg OBJ PERS 2 OBJ2 PRON_tipo per CASE dat CLITIC + NUM sg PERS 3 TOP Carmen MODO ind TIEMPO pres Figura 3.7: Estructura-f de un verbo ditransitivo. 99 100 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE CP C’ TP NP T’ N T Carmen VP CL V le da PP V’ DP D NP la N P NP a PRON usted manzana Figura 3.8: Estructura-c de un verbo ditransitivo. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG Oración transitiva Oración intransitiva Nominativo sujeto sujeto Marcaje Acusativo Ergativo objeto sujeto 101 Absolutivo objeto sujeto Cuadro 3.1: Marcaje nominativo-acusativo y ergativo-absolutivo. (Clements 2001) 3.1.3. Ergatividad en español Las lenguas nominativo-acusativas marcan el sujeto siempre de la misma manera, como nominativo, independientemente de si se trata de una oración transitiva o intransitiva. De igual modo, marcan el objeto con el caso acusativo. Las lenguas ergativo-absolutivas, por otro lado, marcan el sujeto de las oraciones intransitivas y el objeto de las oraciones transitivas de la misma manera. El sujeto de las oraciones transitivas se marca como ergativo (Clements 2001). Esto se resume en el cuadro (3.1). El español es una lengua de tipo nominativo/acusativo. Stricto sensu no se habla de un sistema ergativo en su totalidad. No obstante, como demuestra Clements (2001), si bien es cierto que estudios en corpus del español muestran que 95 % del tiempo el orden encontrado en las oraciones es SVO en las oraciones transitivas; es de notar que, de 47 % a 53 % de las veces, el orden preferido es VS en las oraciones intransitivas. Esta segunda configuración coincide con el patrón de marcaje ergativo tal como se muestra en la tabla 3.1. A partir de esta información, el estudio proporciona pruebas a favor del orden VS como el orden sintagmático no marcado en español. Entre los argumentos citados se cuentan los siguientes: los sujetos sin determinantes solo pueden aparecer en posición posverbal (102); las oraciones con infinitivos o gerundios solo pueden tomar argumentos posverbales (103); la du- 102 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE plicación de los pronombres clíticos es más frecuente en órdenes sintagmáticos diferentes a SVO (104); por último, el hecho de que sujeto y objeto no pueden aparecer al mismo tiempo en posición preverbal, pero si en posición posverbal (105). Los ejemplos (105d) y (105e) son completamente agramaticales (*) para Clements (2001). Sin embargo, queda por ver si estas configuraciones son posibles en un contexto menos rígido, tal como las rimas infantiles. (102) a. Vinieron participantes de México. b. (103) a. Diciéndomelo. b. (104) * Participantes de México vinieron. * Me lo diciendo. a. Juan los ve a sus hermanos a menudo. (SVO) b. A sus hermanos los ve Juan a menudo. (OVS) c. Los ve Juan, a sus hermanos a menudo. (VSO) (105) a. Mi padre compró una casa. b. Compró mi padre una casa. c. Compro una casa mi padre. d. * Una casa mi padre compró. e. * Mi padre una casa compró. (Clements 2001) Nosotros pensamos que esta teoría es compatible con una aproximación discursivosemántica del orden libre de los constituyentes basada en las nociones de tópico y foco, tal como lo presentamos más abajo en la sección 3.1.4. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 103 La cuestión de un patrón de ergatividad en las lenguas romances no es nueva. Otros investigadores ya lo han propuesto. Por citar un ejemplo, Cortés (2001) también argumenta a favor del orden VS en las oraciones intransitivas como prueba un patrón de ergatividad en el español. Además, cita el uso de morfología activa en el caso de oraciones que degradan al agente por medio del pronombre se, tal como se muestra en (106). Tullio (2003) también cita las oraciones similares al ejemplo (106) como pruebas de características ergativas en español. (106) Se cultiva café en América. Relacionado de forma directa, nuestra categoría de verbos ERGATIVOS hace referencia a este conjunto de rasgos ergativos presentes en el español. Estos verbos comprenden un gran número de los verbos conocidos en la literatura como verbos SICOLÓGICOS y se caracterizan por tener dos roles temáticos: un EXPERIMENTADOR y un TEMA. El primero siempre se codifica como dativo y el segundo como nominativo, independientemente del orden que tengan en la oración (Belletti y Rizzi 1988). En la figura 3.9 presentamos la estructura profunda propuesta por Belletti y Rizzi (1988) para los verbos ergativos en las lenguas romances. Se trata de la estructura profunda porque este estudio usa GB como marco de análisis. Según esta estructura, el NP con el rol de tema se mueve a la posición de sujeto donde recibe el caso nominativo. Además, el NP con el rol de experimentador recibe el caso dativo inherentemente por medio de la preposición (en nuestro caso a). Por esta razón, este segundo NP puede moverse libremente en la frase, pues su caso está asegurado por la preposición que lo gobierne. Esta es la razón por la que las dos configuraciones ’Experimentador V Tema’ y ’Tema V Experimentador” son completamente gramaticales, con una preferencia por la primera como el orden no marcado. 104 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE S NP VP NP V’ V NP gustar tema experimentador Figura 3.9: Estructura profunda propuesta por Belletti y Rizzi (1988) para los verbos sicológicos. En resumen, Belletti y Rizzi (1988) citan tres propiedades fundamentales de lo que nosotros llamamos verbos ergativos: 1. El NP que lleva el rol de EXPERIMENTADOR se marca con el caso dativo. 2. El auxiliar que usan es el verbo SER. 3. Ambos órdenes ’Experimentador V Tema’ y ’Tema V Experimentador’ son posibles. La segunda propiedad es la que los clasifica como ergativos según Haegeman (1991) (quien sigue a Burzio (1986)). Es el caso del verbo francés arriver, en oraciones como (107). (107) Il est arrivé un accident. pr. 3 sg. SER 3sg. prét. llegar/ocurrir un accidente ’Ocurrió un accidente’ Ahora bien, según nuestro análisis, la posición donde se genere cada argumento solo cambia la posición en la que se manifieste en la estructura-c. La estructura-f, que recoge la relación de cada argumento con el verbo, no variará. Sin embargo, sí asumimos que la preposición tiene la capacidad de asignar 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 105 IP - I’ AGR VP DP Carmen V’ V DP lavó el carro Figura 3.10: Sujeto generado en posición interna el caso DATIVO de los complementos indirectos que ambos órdenes sintácticos son posibles, es decir, la tercera propiedad según (Belletti y Rizzi 1988). En conclusión nosotros argumentamos en favor de un patrón de ergatividad existente en ciertos verbos del español. Estos verbos se caracterizan por contar con un participante con el rol de EXPERIMENTADOR y un participante con el rol de TEMA (codificado como el sujeto), los cuales adoptan el orden ’Experimentador V Tema’ como no marcado. 3.1.4. El orden libre de los constituyentes El análisis de los verbos ergativos y su relación con los sujetos posverbales nos permite pasar a otro aspecto del español: el orden relativamente libre de los constituyentes. Existen dos explicaciones clásicas para los sujetos posverbales. La primera dice que son generados en una posición interna en el VP, es decir [SPEC, VP] (3.10) y que deben moverse hacia [SPEC, IP], pasando por AGR para recibir el caso (3.11). La otra explicación propone que el sujeto se genera directamente en posición 106 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE IP Carmen I’ AGR VP V’ DP V DP lavó el carro hi Figura 3.11: Movimiento del sujeto generado en posición interna IP Carmen I’ AGR VP V DP lavó el carro Figura 3.12: Sujeto generado en posición externa externa al VP y que recibe el caso de AGR (3.12). Nótese que ambos análisis proponen como posición final [SPEC, IP]. A partir de esta configuración Rizzi (1982) y Jaeggli (1982) explican los sujetos posverbales en términos de la riqueza de AGR, un rasgo propio a la lenguas romances debido a su riqueza morfológica. De modo que existe la posibilidad de que un pronombre pro se inserte en posición de sujeto. Este sujeto, permite además, el movimiento del NP sujeto a la posición posverbal, tal como muestran los subíndices i en la figura 3.13. Como explica Zagona (2002) estos análisis se hicieron dentro de un marco teórico que permitía tanto movimientos ascendentes como descendentes. Por ello, 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 107 IP NPi I’ pro AGR concordanciai VP tiempo NPi VP V DP lavó el carro Carmen Figura 3.13: Movimiento del sujeto posverbal se prefiere adoptar la hipótesis del sujeto interno, lo cual permite que el sujeto reciba el caso gracias a la huella que deja en la posición de [SPEC, VP] y gracias igualmente a AGR, evitando así los movimientos a la derecha. Ahora bien, análisis más recientes como Longobardi (2000) y Ortega-Santos (2006) arguyen que existe un debate entre dos posibles explicaciones para los sujetos posverbales. Por un lado, pueden ser el producto de la generación directa en posición posverbal. Por otro, pueden resultar, más bien, del movimiento de todo el resto de la oración a una posición más alta. En otras palabras, una posición en la periferia izquierda, como un sintagma topical, TopP. Dada nuestra aproximación lexicalista, nosotros no consideramos que exista una categoría vacía pro en posición de SPEC en las oraciones con sujetos postverbales. Además, LFG no contempla el movimiento como forma de derivación, por lo que no seguimos estas explicaciones en su totalidad. Sin embargo, algunos elementos sí son compatibles con la teoría léxico funcional, en especial las definiciones de TÓPICO y FOCO. 108 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE Tópico y Foco En referencia a la estructura discursiva de la información existe una distinción entre los términos TÓPICO y FOCO. El primero se refiere a a la información vieja o conocida y el segundo a la información nueva en relación al contexto de habla (Haegeman 2001). (108) ¿Qué hacen Carmen y el chico? Ellos hablan. Ellostópico hablanfoco En el ejemplo (108), podemos asumir que el FOCO corresponde a la información desconocida por la que se pregunta y que da respuesta a la pregunta, la cual a su vez, contiene la información conocida. 3.1.5. El orden libre de los constituyentes en LFG Como ya habrá podido notar el lector, en las estructuras-f presentadas hasta el momento, hemos incluido los rasgos de TÓPICO y FOCO. Dado que el TÓPICO conlleva la información presupuesta por el emisor, mientras que el FOCO introduce información sobre el tópico que es considerada como nueva, estos influencian el orden de los constituyentes de la frase, de acuerdo con el contexto y con el hablante (Zagona 2002). Los siguientes ejemplos, de (109a) a (109d) ilustran este mecanismo de estructuración discursiva. Las cuatro oraciones son idénticas en cuanto a sus argumentos, pero las diferencia su orden sintáctico. Dado que la diferencia es únicamente en cuanto al orden de los constituyentes, una única estructura-f puede dar cuenta de las cuatro oraciones (con valores diferentes para los rasgos TÓPICO y FOCO); aunque cada una de ellas tiene una estructra-c diferente. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG (109) 109 a. A Carmen le gustan las manzanas. b. Las manzanas le gustan a Carmen. c. Le gustan a Carmen las manzanas. d. Le gustan las manzanas a Carmen. La estructura-f construida con la oración (109a) se muestra en la figura (3.14). A Carmen se considera el TÓPICO mientras que todo el resto de la frase, le gustan las manzanas, la cual tiene como su núcleo a manzanas, se considera el FOCO. El ejemplo (109) se ha construido con un verbo que hemos clasificado como ERGATIVO. Por lo tanto, tal como lo explicamos para la asignación de caso DATIVO, en las estructuras con verbos ergativos, la preposición a porta la capacidad de asignación de caso al NP con el rol temático de EXPERIMENTADOR. Por otro lado, nuestro análisis sobre la duplicación del OBJ2 en el ejemplo (99) también se aplica en este caso. Efectivamente, al igual que antes, el OBJ2 corresponde tanto con el NP a Carmen como con el pronombre clítico le. Razón por la cual, la subestructura-f de OBJ2 está constituida por dos subgrupos de rasgos. El análisis por medio de los constructos de tópico y foco, de este modo, se aplica con éxito a todas nuestras categorías verbales. Posteriormente, se podría también incluir un rasgo dentro de la estructura-f que especifique cuál es el orden no marcado, lo cual podría proporcionar información con fines de análisis discursivo. 3.1.6. Cópula Tal como introdujimos en la sección 2.2.1 Tipología verbal, los verbos copulativos subcategorizan solo un argumento y al mismo tiempo su predicación concuerda con el sujeto en todos sus rasgos. Aun cuando los verbos SER y ESTAR 110 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’gusta<manzana, a>’ PRED ’manzana’ DEF + SUJ GEND fem NUM pl PERS 3 PRED ’a<Carmen>’ PRED ’Carmen’ GEND fem OBJ NUM sg OBJ2 PERS 3 CASE dat CLITIC + NUM sg PERS 3’ FOC manzana MODO ind TIEMPO pres Figura 3.14: Estructura-f de un verbo ergativo. 3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG 111 particularmente pueden tener una función de auxiliar cuando se emplean en conjugaciones compuestas y perifrásticas, en esta sección nosotros nos referimos a los verbos copulativos en su función de portadores de un atributo. Efectivamente, como Mello (1979) explica, es el componente semántico el que da su valor y la capacidad de introducir un atributo sobre su único argumento a estos verbos. En términos de la estructura arbórea, no existe mayor diferencia entre LFG y otros análisis. Sin embargo, la estructura-f de LFG permite distinguir entre los diferentes valores que un adjetivo puede tomar, es decir, atributivo y predicativo. Esto es fundamental en el caso de SER, puesto que, en sí mismo, carece de propiedades aspectuales y es transparente a las propiedades de sus complementos (Zagona 2002). La estructura-f de LFG recupera la información que indica que estos verbos tienen un complemento predicativo como parte de su subcategorización verbal. Hemos representado tal relación en la estructura-f, por medio de la función XCOMP, como se ve en la figura (3.16). La notación XCOMP también se conoce como complemento abierto y se utiliza precisamente para los predicados que son complementos verbales. El hecho de ser abierto responde a que los predicados verbales pueder ser de cualquier tipo (N, P, A o V), dependiendo de las restricciones de selección verbal (Bresnan 2001). En el caso del ejemplo mostrado en 3.16, la estructura-a , es decir, la subcategorización del verbo, nos indica que es un sintagma adjetival AP el complemento del verbo SER, razón por la cual sabemos que se debe recurrir a la función XCOMP. Nótese, que a pesar de que ambos elementos aparecen en la estructuraa, los símbolos ””<>” solo señalan uno de ellos, indicando que se trata de un solo argumento. Luego, en la estructura-f, se indica que chico y alto, se relacionan al mismo tiempo con el sujeto, pues se encuentran en la misma sub-estructura-f. 112 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE CP C’ TP DP T’ D NP el N V AP chico es A T alto Figura 3.15: Estructura-c de un verbo copulativo. Tal como se muestra en (110), el adjetivo ALTO concuerda con el sujeto CHICO en los rasgos de GÉNERO y NÚMERO precisamente porque ambos tienen valor argumental: la predicación y el sujeto se refieren a una misma entidad. (110) El chico es alto. Por otro lado, un adjetivo de tipo atributivo, se analiza más bien como un adjunto. Los adjuntos no modifican el significado primario de la predicación, sino que le añaden alguna propiedad (Bresnan 2001). La diferencia se puede ver si se comparan las estructuras-c presentadas en las figuras (3.15) y (3.17) . En la primera, la predicación se analiza directamente a partir de la frase temporal (TP), mientras que en (3.17) se trata de un elemento que tan solo modifica a la frase nominal (NP). En términos de diferenciación léxica, nosotros hemos escogido utilizar el rasgo A-TIPO, tal como se puede apreciar en las estructuras-f de (3.17) y (3.18). Hasta aquí hemos presentado oraciones que ejemplifican la selección de verbos explicada en la sección 2.2.1, sobre la tipología verbal. Primeramente, es de 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 113 PRED ’ser<alto>, chico’ PRED ’chico’ DEF + SUBJ GEND masc NUM sg PERS 3 PRED ’alto<chico>’ XCOMP SUBJ chico A_tipo predicativo TOP chico MODO ind TIEMPO pres Figura 3.16: Estructura-f de un verbo copulativo. notar que los verbos de PERCEPCIÓN, INTRANSITIVOS, TRANSITIVOS y DITRANSITIVOS se analizan uniformente. Solo los distingue el número de argumentos en su subcategorización verbal. Esta diferencia dio pie para nuestro análisis de la reduplicaicón del OBJ2 . En el caso de los verbos METEOROLÓGICOS los hemos contrastado con verbos que sí presentan un sujeto pro legítimo y argumental. Sobre los verbos ERGATIVOS hemos dicho que presentan la particularidad de codificar al NP con el rol temático de TEMA como el sujeto de la oración. Esto nos permitió explorar hasta qué punto el español presenta un patrón de ergatividad en su configuración sintáctica. Por último, analizamos los verbos COPULATIVOS haciendo una distinción entre adjetivos atributivos y predicativos. 3.2. Otras construcciones sintácticas En la sección anterior, nuestro fin era presentar la formalización de la frase simple de acuerdo a la estructura de frase propuesta y de acuerdo a las diferen- 114 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE CP C’ TP DP T’ NP T VP N’ V V’ N come DP Carmen D NP la N’ N’ AP N A manzana roja Figura 3.17: Estructura-c de un verbo transitivo con un adjetivo atributivo. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS PRED ’comer <Carmen>, <manzana>’ PRED ’Carmen’ CASE nom SUBJ GEND fem NUM sg PERS 3 PRED ’manzana [ ] ADJUNCT PRED ’rojo’ A_tipo atributivo OBJ CASE acc DEF + GEND fem NUM sg PERS 3’ TOP Carmen MODO ind TIEMPO pres Figura 3.18: Estructura-f de un verbo transitivo con un adjetivo atributivo. 115 116 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE tes formas que las predicaciones podían tomar. Esta es la razón por la cual todos los ejemplos corresponden a verbos con todos sus argumentos plenos. No se incluyeron otros ejemplos con alternancias sintácticas o tiempos verbales diferentes del presente. De esta sección en adelante, seguiremos nuestro análisis con la exploración de otros fenómenos sintácticos utilizando la misma estructura de frase. Además de extender nuestro análisis, modelizar otras construcciones sintácticas nos permite comprobar la robustez y coherencia de la estructura de frase construida. Todo esto, nos ha llevado, asimismo, a la elaboración de un segundo corpus de desarrollo (Apéndice B). Es de notar que los corpus de desarrollo contienen oraciones que ayudan al modelizado de oraciones. Sin embargo, no son construcciones únicas. Con esto queremos decir que cada uno de los constituyentes de las oraciones, puede ser sustuido por otro equivalente, siempre y cuando sea parte del lexicón. De manera que un AP como rojo, por ejemplo, puede ser sustituido por otro, tal como flaco, dado que ambos existen en el lexicón y son equivalentes en rasgos. 3.2.1. Pronombres clíticos El término pronombre clítico se utiliza para aquellos pronombres que son sintácticamente independientes pero dependientes fonológicamente de otro elemento para su realización. Son forma átonas con una distribución restringida y requieren un soporte léxico (Laenzlinger 2003). En español, los pronombres presentados en el cuadro (3.2) son considerados pronombres clíticos. Los pronombres clíticos pueden sustituir a los sintagmas nominales plenos como complementos de la frase. Sin embargo están sujetos a restricciones sintácticas relacionadas con su estatus de pronombres débiles, es decir, dependen de un 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 3ra PERSONA 1era 2nda masculino OBJETO femenino neutro OBJETO2 forma reflexiva 117 SINGULAR PLURAL me nos te (os) lo/le los la las lo – le/se les/se se Cuadro 3.2: Pronombres Clíticos anfitrión para su realización. Típicamente dependen de los verbos para su realización fonética. Dentro de la gramática generativa, existen dos formas principales de derivación para explicar la sintaxis de los pronombre clíticos: por movimiento o por generación básica (Zagona 2002; Laenzlinger 2003). El análisis por movimiento propone que el pronombre se genera en la misma posición en que se genera el complemento directo de los verbos transitivos, como muestran las figuras 3.19 y 3.20 del ejemplo (111). (111) Carmen la come. V’ V DP come la manzana Figura 3.19: Posición del DP objeto. V’ V CL come la Figura 3.20: Posición del CL objeto. 118 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE V’ V DP CLi V la come ti Figura 3.21: Estadio intermedio del movimiento de los pronombres clíticos de objeto directo. Como se ve en los árboles de las figuras 3.19 y 3.20, correspondientes a la oración (111), el clítico y el DP ocupan la misma posición. Se trata de la posición canónica para el objeto, pero de una posición agramatical para el pronombre puesto que este no tiene independencia sintáctica para su realización. Razón por la cual se mueve a una posición preverbal dependiente del verbo, antes de que el verbo mismo se mueva hacia INFL, es decir a [SPEC, IP]. La representación en la figura 3.21, tomada de Zagona (2002), muestra un estadio intermedio de este movimiento. También se ha demostrado que el análisis por movimiento es adecuado para explicar oraciones como (112). En este caso, el pronombre clítico depende de un verbo principal conjugado, quería, pero no del verbo con el cual se encuentra temáticamente relacionado, es decir, del verbo comer. (112) Carmen la quería comer El segundo análisis de derivación de los pronombres clíticos es por generación básica. Este análisis propone que los clíticos se generan directamente junto al verbo en posición de V. De modo que en la posición del complemento verbal lo que se genera es un pronombre pro, produciéndose una estructura como la presentada en la figura 3.22. Los superíndices indican tan solo una coindexación simple, no un movimiento como en la figura 3.21. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 119 V’ V DP CLi V la come proi Figura 3.22: Generación básica. V’ DPi V CLi V le habla a Ramón Figura 3.23: Duplicación de clítico por generación básica. El análisis por generación básica es particularmente explicatorio para el fenómeno de la duplicación de clíticos, tal como sucede en la oración (113). Dado que el clítico se genera junto al verbo, el DP puede ser ocupado por el pro si no hay duplicación, o bien por un NP abierto, coindexado con el pronombre clítico (figura 3.23). (113) Carmen lei habla al chicoi Ambos análisis son mutuamente excluyentes en términos de su poder de explicación, presentando ventajas y desventajas uno en relación con el otro. El análisis por movimiento es adecuado para explicar el uso de los pronombres clíticos en construcciones con auxiliares y otros verbos que implican el montaje o subida de los clíticos. Sin embargo, no puede explicar las construcciones con duplicación propias del uso español en el caso de los complementos indirectos y de algunas variedades en el caso de los complementos directos. El análisis por generación básica, por otro lado, sí es capaz de explicar la dupli- 120 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE cación de clíticos. Además, también explica la generación de otros clíticos que no están sujetos a ningún movimiento, por ejemplo los pronombre inherentes como en la oración (114). Por el contrario, este análisis no puede dar cuenta de otras posiciones diferentes que no sean junto al verbo -puesto que ahí se generaríantal como en el caso de la subida de clíticos (115). (114) El hombre se suicidó. (115) Carmen la pudo haber comido. Dentro de LFG, las oraciones se analizan tal como son generadas, por lo cual, en esencia, las estructuras-f de un complemento realizado como sintagma nominal pleno y otro realizado como pronombre clítico no difieren. Como se ve en la figura (3.24), correspondiente al ejemplo (116), representamos al argumento que corresponde al objeto por medio de un PRO. Con esto indicamos que se trata de un pronombre débil, sin representación predicativa en sí mismo. Es el conjunto de rasgos en la subestructura-f, correspondiente a OBJ, el que indica de cuál pronombre en particular se trata; en el ejemplo, se trata del pronombre la, pues los rasgos CLÍTICO +, ACUSATIVO y FEMENINO están presentes. (116) Carmen la come. En el caso del objeto2 , como se ve en la estructura-f en la figura (3.2.1) correspondiente al ejemplo (117), también utilizamos la categoría PRO. Esta vez los valores de los rasgos del pronombre clítico cambian de modo que indican que se trata del pronombre le; CASO: dativo; GEND: neutro. (117) Carmen le habla. En (118) se reproduce la entrada léxica para el pronombre le. Como se puede ver, hemos definido dos entradas diferentes para el mismo pronombre. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 121 PRED ’comer <Carmen, pro>’ PRED ’Carmen’ CASE nom SUBJ GEND fem NUM sg PERS 3 PRED ’pro’ CASE acc CLITIC + OBJ GEND fem NUM sg PERS 3 PRON_tipo per TOP Carmen MODO ind TIEMPO pres Figura 3.24: Estructura-f de un verbo transitivo con un pronombre clítico. (118) a. le CL: (↑ PRED)='PRO' (↑ OBJ2 NUM)=SG (↑ OBJ2 PERS)=3 (↑ OBJ2 PRON_tipo)=PER (↑ OBJ2 CLITIC)=+ (↑ OBJ2 CASE)=DAT b. le CL: (↑ OBJ2 NUM)=SG (↑ OBJ2 PERS)=3 (↑ OBJ2 CLITIC)=+ (↑ OBJ2 CASE)=DAT En el caso del ejemplo (117), es el le de (118a) el que se selecciona. Esto 122 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’hablar <Carmen, pro>’ PRED ’Carmen CASE nom SUBJ GEND fem NUM sg PERS 3’ PRED ’pro’ CASE dat CLITIC + OBJ theta GEND neutro NUM sg PERS 3 PRON_tipo per TOP Carmen MODO ind TIEMPO pres Figura 3.25: Estructura-f de un verbo transitivo con un pronombre clítico de objeto indirecto. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 123 debido a que introduce una predicación de tipo pronombre. En otras palabras, se trata de una proforma que sustituye a un argumento. El caso de (118b) es ligeramente diferente. Este cuenta con los mismos rasgos que definen a (118a) salvo por el hecho crucial de que no introduce ninguna predicación. Es este el pronombre que se selecciona en el caso de la duplicación del argumento de objeto indirecto, en oraciones como (119), puesto que tanto el pronombre como el NP pleno se refieren al mismo argumento. (119) Carmen lei habla al chicoi . En la estructura-f presentada en la figura (3.26), se demuestra que no existe una predicación PRO; sino más bien, es el argumento el chico, que constituye el OBJθ , el que lleva al mismo tiempo los rasgos del pronombre clítico de objeto directo, relacionándose ambos con la misma entidad. Aclaramos también que la forma al es asimismo una entrada independiente en el lexicón (120). Hemos especificado que se trata de la forma contracta de a + el y que como tal es capaz de introducir el OBJθ en los verbos intransitivos o ditransitivos. (120) 3.2.2. al P: (↑ PRED)='A-EL<(↑ OBJ)>'. Oraciones con se En español es bien conocida la problemática de las oraciones con se. Según el marco teórico que se utilice para su análisis, clasificaciones del se que comprenden las categorías de reflexivo/recíproco, decausativo, anticausativo, causativo, pasivo, aspectual, impersonal, medio, ético, etc., existen. Sin embargo, no existe consenso respecto a la cantidad y definición de cada uno de ellos (Kelling 2006; Zagona 1996; Franco y Huidobro 2008; MacDonald y Huidobro 2010). 124 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’hablar <Carmen, a-el> PRED ’Carmen’ CASE nom SUBJ GEND fem NUM sg PERS 3 PRED ’a-el <chico>’ PRED ’chico’ GEND masc OBJ NUM sg OBJ PERS 3 θ CASE dat CLITIC + NUM sg PERS 3 TOP Carmen MODO ind TIEMPO pres Figura 3.26: Estructura-f de un verbo transitivo con duplicación de pronombre clítico de objeto indirecto. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 125 Dentro de los límites de esta investigación nosotros contemplamos el se de tipo: reflexivo/recíproco (121a), inherente (121b) y medio (121c). Solo consideramos estos tipos motivados por el consenso existente sobre su existencia. Los tres tipos mencionados no presentan ambigüedad en cuanto a sus propiedades si se comparan con otros clases de oraciones con se propuestas. (121) a. se: PRON (↑ PRED)='PRO' (↑ NUM)=SG (↑ PERS)=3 (↑ PRON_tipo)=RFL (↑ CLITIC)=+ (↑ CASE)=ACC b. se: CL (↑ SUBJ PERS)=3 (↑ SUBJ NUM)=SG (↑ SUBJ CLITIC)=+ (↑ SUBJ PRON_tipo)=INHERENT c. se: CL (↑ SUBJ PERS)=3 (↑ SUBJ NUM)=SG (↑ SUBJ CLITIC)=+ (↑ PRONTYPE)=MIDDLE-PTC (↑ VOICE)=c MIDDLE En (121) reproducimos las entradas léxicas que hemos construido para cada uno de estos tipos de pronombre se. (121a) corresponde al pronombre con valor reflexivo utilizado en los verbos reflexivos y recíprocos que también cuentan 126 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’ver<SUBJ: pro, pro>’ PRED ’pro’ SUBJ NUM sg PERS 1 PRED ’pro’ CASE acc CLITIC + OBJ NUM sg PERS 3 PRON_tipo refl MODO ind Figura 3.27: Estructura-f del verbo ver con uso reflexivo. con una variante transitiva, tal como en la oración (122). Ilustramos este valor con la estructura-f en la figura (3.27). Como se puede ver en la subestructura-f correspondiente al OBJ, hemos especificado el tipo particular de pronombre se apropiado para el análisis de cada tipo de frase. En el caso de (122), se trata de un verbo transitivo y como tal tiene en su estructura de argumentos la subcategorización de un objeto. Nosotros analizamos al pronombre ”’se” como la realización del objeto, con la especificación del rasgo PRON_tipo REFL, resultando entonces la lectura reflexiva. De hecho, es el único uso de ”se” que introduce una predicación pro. (122) Se ve. El ”se” de tipo inherente (121b), por otro lado, se analiza también como pronombre clítico, pero sin introducir una predicación –como sí lo hace el ”sereflexivo, por lo que no tiene un valor pro asociado. Como se aprecia en la estructura-f mostrada en la figura 3.28, correspondiente al ejemplo (123a), nosotros consideramos que el pronombre ”se” forma parte intrínseca del verbo. Esta es la razón por la cual 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 127 se instancia más bien en la subestructura del sujeto. Además, es de notar que la predicación verbal se compone por QUEJARSE, en su totalidad, y no tan solo por QUEJAR, con lo cual se reafirma que se trata de una sola forma. Nosotros consideramos que las oraciones como la presentada (123a) se distinguen de otras, como (124a), en que no cuentan con una variante transitiva, razón por la que (123b) es agramatical, mientras (124b) es gramatical. Sin embargo, ”se” mantiene su estatus como pronombre clítico independiente de la morfología verbal (no forma parte completamente del verbo), tal como lo evidencia la formación del imperativo (125a) y la imposibilidad de estructuras del tipo presentado en (125b). (123) a. Carmen se queja. b. (124) * Carmen queja la directora. a. Carmen se ve. b. Ve. (125) a. Quéjese. b. * se quéje-se En (121c) se presenta el pronombre se con valor medio. Esta entrada léxica especifica además el rasgo de voz media. Nosotros entendemos la voz media en el sentido utilizado por Stalmaszczyk (1993). Es decir, como verbos mayormente de base transitiva que sufren una promoción del paciente similar a una pasivización, en la que se promueve a la posición de sujeto. El agente, a diferencia de una oración pasiva, no puede ser instanciado de ninguna forma ni recuperado léxicamente (Kelling 2006). Esto explica el contraste entre (126) y (127). En la figura (3.29) se presenta la estructura-f para el ejemplo (128). (126) El contrato fue firmado por el futbolista. 128 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’quejarse <Carmen>’ PRED ’Carmen’ CASE nom CLITIC + SUBJ GEND fem NUM sg PERS 3 PRON_tipo inherente TOP Carmen MODO ind TIEMPO pres Figura 3.28: Estructura-f del verbo quejarse. (127) (128) * Se firmó el contrato por el futbolista. Carmen se murió. Como muestra el rasgo PRONT IPO MEDIO-PTC, este ”’se” es de tipo MEDIO. El valor PTC indica que se trata de una ”’particula”. Optamos por esta nominación tan solo para evitar un problema de ambigüedad en el manejo del lexicón. 3.2.3. Coordinación El fenómeno de la coordinación es sumamente interesante dentro de la gramática generativa debido a dos razones principales. En primer lugar, se encuentra completamente desterrado de los manuales de sintaxis. Un recorrido por GB, Principios y Parámetros y más recientemente el Minimalismo lo demuestra (Haegeman 1991; Zagona 2002; Laenzlinger 2003; Radford 2004; Hornstein, Nunez y K. K. Grohmann 2005). La segunda razón es que precisamente la adaptabilidad y fuerte lexicalismo de LFG permiten dar un análisis coherente e integral, tal como demuestran R. M. Kaplan y Maxwell (1988). 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 129 PRED ’morirse <Carmen>’ PRED ’Carmen’ CASE nom CLITIC + SUBJ GEND fem NUM sg PERS 3 TOP Carmen MODO ind PRON_tipo medio-ptc TIEMPO pas voz media Figura 3.29: Estructura-f del verbo morirse. La razón para esto es muy simple: la coordinación es una estructura completamente simétrica. No importa cuál sea el tipo de sintagma a coordinar, es una configuración que siempre será simétrica. El hecho de que la aplastante mayoría de los modelos generativos sean binarios, trae como consecuencia natural que estos dos elementos sean casi incompatibles. Los análisis disponibles son altamente imbricados y complejos. Se basan mayormente en movimientos cíclicos, copias y elisiones de las copias. Estas aproximaciones localizan la conjunción en posición de SPEC, tal como se muestra en (129), eliminando toda noción de simetría (van Oirsouw 1987; Kayne 1994). (129) … … XP spec CONJ … 130 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE Las propuestas de análisis que intentan conservar el principio de simetría no encuentran mucho éxito. Goodall (1987), por citar un ejemplo, argumenta a favor de la linearización. De forma que, al coordinar dos sintagmas o dos oraciones, cada uno es tratado de forma independiente, llenando los criterios de asignación de caso, reglas de dominancia y otras condiciones de buena formación como si se tratara de dos consituyentes separados. La oración en 130, por ejemplo, sería linearizada como en 131. (130) María y Carmen fueron a la fiesta. (131) a. María fue a la fiesta. b. Carmen fue a la fiesta. De Vries (2005) por su parte, haciendo un análisis usando el programa minimalista, propone un sintagma CoP. Para él la derivación sigue la forma mostrada en 132, la cual excluye el comando-c. (132) b-Merge(Co,YP) → Co’, d-Merge(Co’,XP) → CoP Merge es la operación de fusión o combinación de constituyentes dentro del minimalismo. En 132 b-Merge se refiere a behindness, propiedad que según el autor es capaz de bloquear el comando-c. d-Merge se refiere a la relación de dominancia o inclusión de una categoría en la otra (De Vries 2005). XP y YP son los sintagmas coordinados, mientras que Co es la conjunción coordinativa. Un análisis más de corte computacional, y similar al de LFG, es el utilizado por el parser FIPS (Wehrli 2007; Wehrli y Nerima 2009). Como la estructura gramatical del parser es trinaria, la cabeza ConJ proyecta una estructura ConjP que es completamente simétrica (133). 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS (133) 131 ConjP … CONJ … Dentro del marco de LFG, el análisis de la coordinación es más bien estándar. Dentro de este formalismo, se asume que la coordinación es una estructura completamente simétrica. Esto implica que se concibe como una estructura trinaria independientemente de la estructura-c adoptada como estructura de frase general. De este modo, la coordinación es una especie de ”metacategoría” que une cualesquiera dos constituyentes individuales en una sola unidad en la estructurac. Esta única subestructura se trata coma una sola predicación en la estructura-f. Tal como describen R. M. Kaplan y Maxwell (1988), el elemento de la estructura-f correspondiente a la coordinación es el conjunto de estructuras-f correspondiente a los nodos coordinados; indistintamente de las categorías envueltas. (134) Carmen y el chico comen una manzana. En la figura (3.2.3), es el conjunto contenido en la subestructura-f f4 la que constituye el sujeto de la oración. De hecho, se instancia como tal en la estructuraa. Las dos frases determinantes (DP) forman una estructura CONJ-FORM. Esta es una estructura estándar dentro del formalismo LFG para una configuración de coordinación. Nótese que el número cambia a PLURAL en la estructura CONJFORM, en lugar de mantener el singular de cada una de las subestructuras que la conforman. Además, como se ve en la estructura-c presentada en figura (3.2.3), la proyección del bloque coordinado es idéntica a las proyecciones de cada uno de sus elementos. De modo que todo el bloque se trata como una sola proyección, en este caso DP. 132 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE PRED ’comer <[f4 ], manzana>’ conj-form y PRED ’Carmen’ CASE nom GEND fem NUM sg PERS 3 SUBJ f4 NUM pl PRED ’chico’ CASE nom DEF + GEND masc NUM sg PERS 3 PRED ’manzana’ CASE acc DEF OBJ GEND fem NUM sg PERS 3 TOP f4 Figura 3.30: Estructura-f de una configuración de coordinación. 3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS 133 CP C’ TP DP DP CONJ NP y N’ T’ DP T VP D NP V V’ el N’ comen DP N N Carmen chico D NP una N’ N manzana Figura 3.31: Estructura-c de una configuración de coordinación. 134 CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE 3.3. Conclusión Yllescas (2008), en su Introducción a la gramática léxico funcional sigue a Bresnan (2001) y desarrolla sus ejemplos aplicados al español. Este texto cierra con un pequeño epílogo en el que menciona que los elementos pronominales se encuentran entre los más difíciles de analizar. Por nuestra parte, hemos analizado la frase simple construida con diferentes tipos de verbos y hemos propuesto un análisis para los pronombres que se muestra compatible con la estructura de frase que hemos adoptado. Asimismo, hemos dado cuenta del orden flexible del sujeto haciendo uso de las nociones de TÓPICO y FOCO. Por otro lado, hemos podido analizar coherentemente los casos de verbos transitivos que también permiten un uso intransitivo y un uso de voz media. De manera que también hemos abordado la problemática de las construcciones con se, aunque reconocemos que de manera parcial. También hemos presentado un análisis para la coordinación que es independiente de las categorías coordinadas. Este caso es el único para el cual hemos recurrido a una estructura ternaria que creemos representa fielmente el carácter simétrico de la coordinación. En el caso de los pronombres clíticos, temática de interés mayor en lo que al español refiere en términos tipológicos, hemos analizado las sustituciones simples de un argumento pleno por uno pronominal y la duplicación del objeto indirecto. Muchos fenómenos ampliamente tratados dentro de la gramática generativa, tal como las construcciones wh o las construcciones de control, no han sido tomadas en cuenta. Sin embargo, creemos que las reglas de estructura de frase presentadas hasta aquí, permiten extender el análisis propuesto para incluir construcciones sintácticas tal como las mencionadas o bien fenómenos más complejos como las frases relativas y subordinadas. 3.3. CONCLUSIÓN 135 De este modo, hemos descrito con éxito la estructura de la frase simple del español y hemos podido modelizar sus características distintivas. Los principales fenómenos sintácticos desencadenados por los miembros de la tipología verbal propuesta cuentan con una formalización sólida que puede ser extendida para analizar otras construcciones sintácticas más complejas. Por último, la plataforma XLE nos ha permitido corroborar la precisión de nuestro análisis, excluyendo o validando las unificaciones a medida que desarrollamos las reglas gramaticales. En conclusión, nuestra definición de la frase simple se ha hecho en términos formales, a través de la construcción de una estructura de frase justificada por medio del contenido morfológico y semántico de cada unidad léxica. En efecto, el carácter fuertemente lexicalista de LFG nos ha exigido describir las propiedades léxicas pertinentes del español en el lexicón, las cuales han permitido la propuesta de una estructura de frase acorde con ellas. 136 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Capítulo 4 El modelo de gramática formal Anteriormente, en la sección 1.5.7, describimos la herramienta de desarrollo de gramáticas XLE concebida para la escritura de gramáticas utilizando el formalismo LFG. Además, dedicamos el capítulo anterior (4.1.2) al análisis lingüístico, a nuestra propuesta de análisis sintáctico del español. En las páginas que siguen, describiremos los elementos que conforman el código de reglas. Además, explicaremos algunas de las particularidades de XLE en comparación con el formalismo LFG en su concepción teórica. Para detalles sobre el funcionamiento y operación de XLE nos hemos basado en la información disponible en siguiente dirección: http://www2.parc.com/isl/ groups/nltt/xle/doc/xle_toc.html; última visita 07-07-12. Sin embargo, es de notar que la documentación existente, a pesar de ser sumamente extensa, no se dirige a un público no familiarizado con la herramienta, hecho que puede dificultar el flujo de la lectura. 4.1. ARQUITECTURA DE XLE 4.1. 137 Arquitectura de XLE XLE es un programa con un funcionamiento relativamente sencillo. El código de la gramática funciona como un documento de texto de extensión .lfg. Este se toma como input de la línea de procesamiento de XLE a través de la línea de comando y se genera una interfaz gráfica, la cual contiene las tres estructuras de LFG. a, c y f. La figura 4.1 muestra la perspectiva del sistema y la figura 4.2 muestra la perspectiva del lingüista.1 4.1.1. Analizar oraciones con XLE Como dijimos, XLE existe tanto para el sistema operativo Windows como para UNIX. Una vez que la plataforma XLE está instalada en la computadora, la línea de comandos (figura 4.3) se utiliza tanto para invocar la plataforma como para lanzar los análisis. Luego de invocar la plataforma (figura 4.4), el símbolo de porcentaje ”” %” indica que la línea de comandos ejecuta todas las indicaciones como instrucciones hacia XLE (figura 4.5). Una vez que la línea de comandos se encuentra en modo ”XLE”, hay que invocar al parser, pues XLE tiene muchas otras funciones incluidas. Puede usarse como analizador morfológico y hasta como sistema de traducción automática. Para invocar el parser con éxito, es necesario proporcionar al sistema una gramática para poder operar (figura 4.6). Es aquí donde utilizamos el archivo de extensión .lfg como parámetro del sistema, por medio del comando create-parser spanish.lfg. Una vez que el parser y la gramática se encuentran en ejecución (figura 4.7), 1 Las imágenes fueron tomadas de http://commons.wikimedia.org/wiki/Computer y http: //commons.wikimedia.org/wiki/User; última visita 09-07-2012. 138 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Figura 4.1: Arquitectura de XLE desde la perspectiva del sistema. Figura 4.2: Arquitectura de XLE desde la perspectiva del lingüista. 4.1. ARQUITECTURA DE XLE Figura 4.3: Línea de comandos UNIX. Figura 4.4: Invocación de XLE. Figura 4.5: Línea de comandos XLE. 139 140 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Figura 4.6: Invocación del parser. Figura 4.7: Parser y gramática en curso de ejecución. 4.1. ARQUITECTURA DE XLE 141 las frases pueden ser analizadas. Para dar una frase como input al sistema, se utiliza la instrucción parse seguido del texto que se va a analizar entre corchetes ””{ }”. En la (figura 4.8) mostramos un ejemplo con la oración Carmen come una manzana. Figura 4.8: Oración dada como input A continuación él sistema proporciona información sobre la ejecución, las soluciones encontradas y los árboles unificados. En este caso, nos dice que encontró una solución válida, en 0.005 segundos, utilizando 0.000MB de memoria y que 26 subárboles fueron unificados (figura 4.9). Al mismo tiempo, se despliega la interfaz gráfica, la cual contiene las estructuras a, c y f (figura 4.10). Figura 4.9: Oración dada analizada. 142 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Figura 4.10: Análisis en estructuras de LFG. 4.1. ARQUITECTURA DE XLE 4.1.2. 143 El código de reglas El código de reglas se puede manipular como un documento de texto. Este se divide en cuatro partes principales, las cuales se describen en los párrafos que siguen: encabezado, reglas, plantillas y lexicón. Encabezado El encabezado especifica la declaración de funciones y rasgos que utilizarán en todo el documento. Estos son empleados de manera estándar a través de los estudios que utilizan XLE, por lo que en aras de la conveniencia se recomienda no cambiarlos. Esto también facilita la portabilidad y universalidad del código, por ejemplo, si se quiere extender a otros fenómenos o incluso a otras lenguas. Modificar dichas funciones, si bien no es imposible, necesita de la aprobación del comité creador de XLE. Además, necesita de pruebas que justifiquen la universalidad tipológica de los nuevos rasgos a través de las lenguas. Lo que es sí es posible modificar, son los valores que dichas funciones y rasgos portan, pues dependen de las especificaciones de cada lexicón. Esto se explica con detalle en la sección 4.1.2: Lexicón. La totalidad de los funciones que se pueden utilizar como parte de la subcategorizción verbal se enlista a continuación: SUBJ: sujeto. OBJ: objeto directo. OBJ-TH: objeto para lenguas que permiten tener dos objetos directos. Es equivalente con OBJ2. OBL: argumento oblicuo. 144 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL OBL-AG: argumento oblicuo de oración pasiva. OBL-COMPAR: sintagma comparativo. COMP: oración que funciona como complemento. XCOMP: oración que funciona como complemento pero cuyo sujeto proviene de otro predicado. XCOMP-PRED: oración que funciona como complemento en función de predicado. PREDLINK: oración que funciona como complemento en función de predicado. Rasgo más especializado que XCOMP-PRED. Los siguientes elementos son funciones que no son subcategorizados por el verbo, pero forman parte de las funciones de frase: ADJUNCT: adjuntos de varios tipos. MOD: sustantivo modificador como parte de un sustantivo compuesto. NAME-MOD: sustantivo modificador de un nombre propio. APP: aposiciones. La totalidad de los rasgos propuestos por XLE se encuentran en el apéndice D: Totalidad de rasgos propuestos por XLE. El encabezado que nosotros usamos como parte de nuestra gramática es uno más bien estándar y se detalla a continuación. La columna de letras a la izquierda no forma parte del código, la hemos incluido para facilitar la explicación. 4.1. ARQUITECTURA DE XLE 145 a. SPANISH CONFIG (1.0) b. ROOTCAT CP. c. FILES. d. LEXENTRIES (SPANISH). e. RULES (SPANISH). f. TEMPLATES (SPANISH). g. GOVERNABLERELATIONS SUBJ OBJ OBJ2 COMP XCOMP OBL. h. SEMANTICFUNCTIONS ADJUNCT TOPIC FOCUS STANDARD. i. NONDISTRIBUTIVES NUM PERS CONJ-FORM. j. EPSILON e. k. OPTIMALITYORDER NOGOOD. La línea a. especifica el nombre y la versión de la gramática, en nuestro caso SPANISH y 1.0 respectivamente. Esto permite mantener un registro si el desarrollo toma varios años y se hace en diferentes versiones. La proyección más alta se especifica en la línea b. Como se puede notar, se trata del nodo CP (sintagma completizador) como habíamos indicado en la sección 3.1: La estructura de la frase en LFG. Las líneas desde c. hasta f. contienen la información para utilizar archivos separados con la información concerniente al lexicón y a las reglas. En nuestra gramática, dado que la cantidad total de datos es manipulable, hemos decidido mantener un único archivo. Esta es la razón por la cual el mismo archivo SPANISH es el argumento de entrada tanto para el lexicón y las plantillas como para las reglas. Las funciones presentes tanto en la estructura-c como en la estructura-f corresponden a las líneas desde g. hasta i. Es a partir de estas especificaciones 146 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL que se construyen las estructuras de rasgos. En otras palabras, las validación de las reglas de reescritura, se basa en los rasgos de las funciones descritas en las líneas g. - i. para formar las estructuras de rasgos asociados y ejecutar o rechazar las unificaciones. Los rasgos toman sus valores respectivos de las entradas del lexicón. j. enuncia el único elemento vacío dentro de este marco de análisis. Se usa en el caso de tener que enunciar argumentos presentes pero sin realizaciones (nosotros no encontramos tal escenario en el caso del español). Finalmente, la línea k. detalla un parámetro interno al sistema, el cual le indica que si no existen soluciones correctas, puede pasar a generar las soluciones incorrectas. Si una solución incorrecta es generada, esto se indica como tal en la interfaz gráfica. Esta característa es muy útil a la hora de desarrollar la gramática. Muchas veces, contar con la visualización de una estructura incorrecta ayuda a encontrar el problema con el análisis propuesto. Reglas Las reglas le especifican al sistema la manera en que el proceso de unificación debe ser conducido. Indican cuáles rasgos deben ser verificados para ser unificados y cuáles deben ser solo incorporados. Una regla como la mostrada en (135), por ejemplo, indica que el sujeto lleva el rasgo nominativo ((↑ SUBJ CASE)=NOM), por lo que se trata de un rasgo incorporado. El rasgo CL en el ejemplo (136), por el contrario, debe ser verificado y satisfecho para proceder a la unificación (CL: (↓ CLITIC)=+), dado que se especifica como necesario por medio del símbolo ””+”. 4.1. ARQUITECTURA DE XLE 147 XLE CP –> (135) LFG C’:^=! CP → C’:↑=↓ |DP:(^SUBJ)=! CP → DP:(↑ SUBJ)=↓ (^SUBJ CASE)=NOM (↑ SUBJ CASE)=NOM (^CLITIC)∼=! (↑CLITIC)∼=↓ C’:↑=↓ C’:^=! . (136) XLE LFG T –> CL: (! CLITIC)=+ T→ CL: (↓ CLITIC)=+ (^OBJ)=!; (↑OBJ)=↓ V:^=! V:↑=↓ Como se puede observar en los ejemplos mostrados hasta el momento, la notación usada en XLE difiere de la notación estándar de LFG. Sin embargo, ambas son muy fáciles de vincular pues no se distancian mucho, como lo demuestran (135) y (136). El cuadro 4.1 resume todas las equivalencias entre las dos notaciones. Por otro lado, las reglas se pueden descomponer en subreglas por medio de una barra vertical (|) la cual indica disyunción. Así por ejemplo, en (137), se indica que el nodo TP puede ser reescrito de tres maneras diferentes presentadas en (138). 148 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL LFG ↑ ↓ = ≡ =c ∈ ¬ d ∃d ← → ⊑ ⊒ { a | b | c | ... | z } (a) _ - XLE ^ ! = = =c o =C $ ∼ d d <-> << >> { a | b | c | ... | z } {a} _ <h >h <s >s $<h<s $<h>s Descripción metavariable de estructura-f metavariable de estructura-f equidad definición de metacategoría restricción pertenencia de grupo negación o complementación restricción existencial restricción existencial (Sadler) restricción off-path restricción off-path subsumción(subsume) subsumción (es subsumido por) disyunción restricción sobre estructura-f optativa instanciación precedencia de cabeza precedencia de cabeza relación de alcance (scope) relación de alcance relación de alcance de adjunto relación de alcance de adjunto Cuadro 4.1: Equivalencia de comandos entre LFG y XLE. 4.1. ARQUITECTURA DE XLE 149 TP –> DP:(↑ SUBJ)=! (↑ TOPICO)=! (↑ SUBJ CASE)=NOM; (137) T’ |T’ |PP: (↑ OBJ2)=! (! CASE)=DAT; T’. TP TP TP DP T’ T’ PP T’ (138) Llamamos la atención sobre el hecho de que las reglas también pueden formularse en términos de metacagorías. Esta es una forma de generalización que se traduce en economía y elegancia del código. Nosotros hemos recurrido a este recurso para modelizar la conjunción, puesto que este fenómeno es invariable sin importar las categorías envueltas. Por medio del símbolo asterisco,””*”, se indica que se trata de una metacategoría y no de una cabeza o una proyección definida. COORD(CAT) = CAT*: !↑; (139) CONJ: ↑=!; CAT: !↑. La regla en 139 inidica que las estructuras-f de dos categorías idénticas (CAT) pueden unificarse (!$^) si se encuentra una conjunción (CONJ). Finalmente, tal como se mencionó con anterioridad en el capítulo , las preposiciones son cabezas capaces de asignar caso. De modo que esto debe indicarse 150 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL como parte de las reglas, pues no es la preposición misma la que lleva el caso (no es un rasgo léxico), sino que lo asigna a su complemento (140). VP–> PP:(↑ OBJ2)=! (! CASE)=DAT; V’: ↑=! (140) |V’: ↑=!; PP:(↑ OBJ2)=! (! CASE)=DAT |V’. Hasta aquí hemos presentado las características más importantes de las reglas gramaticales. En estrecha relación, se encuentra una sección del código de la gramática que hemos denominado plantillas. Plantillas Esta parte del código permite la inserción de nuevas entradas del lexicón de manera eficiente y práctica. Las plantillas llevan un nombre y se construyen como moldes o machotes con los mismos rasgos utilizados para la definición de las entradas léxicas con el fin de delimitar un patrón. Posteriormente, este patrón puede ser invocado por medio de su nombre en el lexicón por una unidad léxica, de forma que la unidad léxica queda definida por los rasgos contenidos en el patrón. A continuación presentamos algunos ejemplos. Nótese que las plantillas no definen una categoría léxica estrictamente, solo la define en términos de los rasgos que contiene. La categoría léxica se declara en el lexicón. Claro está, la tarea es más fácil para el lingüista si los patrones tienen nombres indicativos de su contenido. A continuación presentamos algunos ejemplos: 4.1. ARQUITECTURA DE XLE (141) 151 a. Plantilla para verbos transitivos de primera persona singular en tiempo presente. TRANS1 (P) =(↑ PRED)= ’P<(↑SUBJ)(↑OBJ)>’ (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=1 (↑ OBJ CASE)=ACC |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=1 (↑ OBJ CASE)=ACC (↑ SUBJ PRED)=’PRO’ |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=1 (↑ OBJ CLITIC) =+ (↑ SUBJ PRED)=’PRO’ b. Plantilla para sustantivos masculino en singular. SUST-MASC-SG(P) = (↑ PRED) = ’P’ (↑ GEND)=MASC (↑ NUM)=SG (↑ PERS)=3 c. Plantilla para adjetivos femeninos y atributivos en singular. ADJ-FEM-SG-At(P) = (↑ PRED)=’P’ (ADJUNCT ↑) NUM)= SG ((ADJUNCT ↑) GEND)= FEM (↑ ATYPE) = ATRIBUTIVO 152 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Lexicón Dado el carácter fuertemente lexicalista de LFG, el lexicón es la pieza fundamental del engranaje del sistema. Es la parte que contiene todos los rasgos necesarios para construir las estructuras a, c y f sobre las cuales se ejecuta la operación de unificación. Al interior del lexicón, las entradas léxicas conforman un conjunto. Esto quiere decir que no existe un orden predispuesto entre sus elementos y que cada uno es independiente y discreto. En nuestro caso, cada elemento cuenta con una categoría léxica asociada, pero no hay una jerarquía entre las categorías incluidas. el D * (↑ DEF)=+ (142) (↑ GEND)=MASC (↑ NUM)=SG. Con el fin de comprender los componentes de cada entrada, tomemos el ejemplo (142), correspondiente a el. La primera línea declara la unidad léxica misma y su categoría asociada. En este caso se trata del artículo el cuya categoría asociada es D, es decir determinante. A continuación se incluyen los rasgos que lo definen: definido, de género masculino y de número singular. Otro efecto del carácter fuertemente lexicalista de LFG es que no existe el concepto de lema, sino que cada unidad léxica debe ser definida independientemente, sin referencia a otra definición. Por ejemplo, tal como se muestra en (143), además de la entrada para el adjetivo rojo, también existe roja, rojos y rojas. (143) a. rojo A * @ (ADJ-MASC-SG-At ROJO); A * @ (ADJ-MASC-SG-Pr ROJO). b. roja A * @ (ADJ-FEM-SG-Pr ROJO); A * @ (ADJ-FEM-SG-At ROJO). 4.1. ARQUITECTURA DE XLE 153 c. rojos A * @ (ADJ-MASC-PL-Pr ROJO); A * @ (ADJ-MASC-PL-At ROJO). d. rojas A * @ (ADJ-FEM-PL-Pr ROJO); A * @ (ADJ-FEM-PL-At ROJO). En (142), también se puede notar el uso del símbolo arroba, ”@”. Este símbolo invoca un patrón o plantilla previamente definida. El contenido de los paréntesis (”()”) es el nombre de una plantilla existente en la sección de plantillas del código, tal como se explicó en el apartado anterior 4.1.2. Además, en el caso particular de los adjetivos, cada entrada tiene dos definiciones, pues pueden funcionar como adjetivos predicativos o como adjetivos atributivos. Por citar un ejemplo, el adjetivo rojo, citado en (143a), cuenta con dos definiciones, es decir, cuenta con dos plantillas que lo definen: (144a) y (144b). ADJ-MASC-SG-At(P) = (↑ PRED)=’P’ (144) a. ((ADJUNCT ↑) NUM)= SG ((ADJUNCT ↑) GEND)= MASC (↑ ATYPE) = ATRIBUTIVO. ADJ-MASC-SG-At(P) = (↑ PRED)=’P’ b. ((ADJUNCT ↑) NUM)= SG ((ADJUNCT ↑) GEND)= MASC (↑ ATYPE) = PREDICATIVO. Respecto a las entradas verbales, dado que cada flexión constituye una entrada léxica, el número de entradas crece rápidamente. En (143) mostramos que si bien el uso de una plantilla facilita la codificación de rasgos, se debe tener el cuidado de incluir los rasgos no contenidos en la plantilla, pues como dijimos, la plantilla no constituye una definición en sí misma. 154 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL vengo V * @ (INTRANS1 VENIR) (↑ TENSE)=PRES. (145) a. vienes V * @(INTRANS2 VENIR) (↑ TENSE)=PRES. viene V * @ (INTRANS3 VENIR) (↑ TENSE)=PRES. vine V * @ (INTRANS1 VENIR) (↑ TENSE)=PAS. b. viniste V * @(INTRANS2 VENIR) (↑ TENSE)=PAS. vino V * @ (INTRANS3 VENIR) (↑ TENSE)=PAS. En (145a) se muestra la entrada para la primera, segunda y tercera persona del singular en presente; mientras que en (145b) se muestra el pasado simple. 4.1.3. Interfaz gráfica La interfaz gráfica fue comentada con anterioridad en la sección 1.5.7. Dijimos que la estructura-c, se genera siempre y cuando existan las reglas necesarias, incluso si la frase o sintagma están incompletos. La gramaticalidad de la frase, sin embargo, viene dada por la buena formación de la estructura-f. El hecho de no producirse una estructura-f, implica la agramaticalidad de la oración. En la figura 4.11, presentamos una captura de imagen de la interfaz gráfica. Esta vez, decidimos mostrar el análisis de una frase agramatical (i.e. el chico se). Como se puede ver, solo dos cuadros (de los cuatro posibles) son generados. Aunque una estructura-c se produce, esta contiene la indicación 4 invalid 4.1. ARQUITECTURA DE XLE 155 trees, lo que quiere decir que no son correctas, puesto que no se pudo generar la estructura-f correspondiente. Figura 4.11: Interfaz de la herramienta de desarrollo de gramáticas XLE. Ejemplo de una frase agramatical. 156 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL 4.2. Ejemplos En esta sección buscamos mostrar, a través de ejemplos completos de principio a fin, como se realiza un análisis utilizando la gramática propuesta. Para ello, desarrollaremos los ejemplos a través de la oración copulativa (146), la oración coordinativa (147) y la oración transitiva (148). El primero servirá para mostrar el análisis en las diferentes estructuras de LFG, mientras que a partir del segundo, mostraremos la construcción del análisis en XLE. Finalmente, a través de 148), uniremos estas dos perspectivas. (146) El chico es alto. (147) Carmen y el chico comen. (148) El chico publica un libro. 4.2.1. El chico es alto El primer paso es la verificación de todas las palabras que componen la oración en el lexicón. Tal como se muestra a continuación en los ejemplos (149 - 152). Reiteramos que si una palabra no se encuentra en el lexicón, el sistema es incapaz de reconocer la cadena de símbolos. el (149) D * (↑ DEF)=+ (↑ GEND)=MASC (↑ NUM)=SG. 4.2. EJEMPLOS 157 chico N * (↑ PERS)=3 (↑ GEND)=MASC (150) (↑ NUM)=SG. alto A* (↑ PRED)=’P <(↑SUBJ)>’ (↑ SUBJ NUM)=SG (151) (↑ SUBJ GEND)=MASC (↑ ATYPE) = PREDICATIVE. es V * <(↑XCOMP)>(↑SUBJ)’ (↑ TENSE)=PRES (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (152) (↑XCOMP SUBJ)=(↑SUBJ) |(↑ TENSE)=PRES (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑XCOMP SUBJ)=(↑SUBJ) (↑ SUBJ PRED)=’PRO’. Luego se verifican las reglas de reescritura con el propósito de formar los diferentes sintagmas. De forma que dos palabras como el y chico pueden formar un DP, legitimado por la existencia de la regla de reescritura enunciada en (153). (153) DP → D: ↑= ↓ NP: ↑= ↓ 158 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL DP D NP el N chico Paralelamente, por cada palabra, se forma una subestructura-f a partir de los rasgos especificados en el lexicón. En nuestro caso, esto produce las estructuras de rasgos mostradas en las figuras 4.12 - 4.13. Luego, los esquemas funcionales que acompañan a las reglas especifican el proceso de unificación. Así, puesto que no existe incompatibilidad de rasgos, las dos subestructuras precedentes se unifican, dando como resultado una única estructura de rasgos compuesta por los elementos de cada una de ellas (figura 4.14). DEF + el GEND masc NUM sing Figura 4.12: Subestructura de rasgos para un artículo definido. PERS 3 chicoGEND masc NUM sing Figura 4.13: Subestructura de rasgos para un sustantivo masculino. DEF + PERS 3 el chico GEND masc NUM sing Figura 4.14: Unificación de dos subestructuras de rasgos. 4.2. EJEMPLOS 159 El proceso descrito hasta aquí se repite entonces con cada una de las cabezas y sus proyecciones, hasta alcanzar a procesar la totalidad de elementos de la oración. De forma que ahora son las reglas descritas en 154 las que validan el TP proyectado por el verbo es. La estructura-c correspondiente se muestra en la figura 4.2.1. CP → C’: C’ → TP TP → DP: (154) ↑=↓ (↑ SUBJ)=↓ T’ (↑ TOPICO)=↓ (↑ SUBJ CASE)=NOM T’ →T T → V: ↑=↓ AP:(↑ XCOMP)=↓ CP C’ TP DP T’ D NP el N’ V AP N es A chico T alto Figura 4.15: Estructura-c para la frase el chico es alto. Es de notar que hemos decido incorporar en las reglas las especificaciones de SUJETO, TÓPICO y CASO. Además, también se especifica que el adjetivo alto funciona como complemento verbal, razón por la cual se recurre a la función 160 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL XCOMP. Finalmente, la unificación da como resultado la estructura-f que se muestra en la figura 4.16. Es la estructura-f final la que proporciona información como el tiempo y modo de la oración, así como información sobre el tipo de adjetivo utilizado. ’ser<alto>, chico’ PRED ’chico’ CASE nom DEF + SUJ GEND masc NUM sing PERS 3 PRED ’alto <chico>’ XCOMP SUJ chico A-type predicative TOPIC chico ind MOOD TENSE pres PRED Figura 4.16: Estructura-f final para la oración el chico es alto. 4.2.2. Come una manzana La oración Come una manzana constituye un ejemplo ambiguo, dado que el verbo no tiene un sujeto pleno sino nulo. Por lo tanto, al carecer de un contexto específico, la oración puede referirse tanto a una segunda persona singular (usted), como a la tercera persona singular (ella o él). Al igual que en ejemplo anterior, todas las palabras que conforman la frase deben estar almacenadas en el lexicón. De lo contrario el sistema no tiene ningún medio de reconocer cada cadena de símbolos, tal como se muestra en la figura 4.17. De ocurrir esto, no se produce ninguna de las estructuras -a, -f o -c. 4.2. EJEMPLOS 161 Figura 4.17: Interfaz cuando no se reconoce la entrada. Asumiendo que todas las entradas son reconocidas, entonces se debe verificar que las reglas de la gramática puedan dar cuenta de la oración que nos interesa. Este es el caso para este ejemplo, como se muestra en la figura 4.18. Como se aprecia, existe la indicación de que se encontraron tres soluciones. Efectivamente la primera corresponde al verbo con todos sus argumentos plenos, una al verbo utilizado con un sujeto nulo de segunda persona singular y, la tercera, al verbo utilizado con sujeto nulo de tercera persona singular. Figura 4.18: Análisis de un sujeto nulo ambiguo. 162 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL 4.2.3. El chico publica un libro Al igual que en los ejemplos anteriores, las entradas del lexicón deben ser verificadas. Las entradas para el DP el chico ya fueron mencionadas en (149 150) por lo que no las repetimos aquí. En la figura 4.19 se muestra la selección de entradas de acuerdo a la estructura-a. Figura 4.19: Selección de entradas de acuerdo a la estructura-a. 4.2. EJEMPLOS publica 163 V* (TRANS3 P) | (INTRANS3 P) TRANS3 publica ’<(↑SUBJ)(↑OBJ)>’ (↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (155) (↑ OBJ CASE)=ACC |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ OBJ CASE)=ACC (↑ SUBJ PRED)=’PRO’ En este caso, el verbo publica está definido en el lexicón para funcionar tanto como transitivo como intransitivo (155 - 156). Sin embargo, al contar con la presencia del objeto directo un libro, es el uso transitivo el que se selecciona debido a su esquema de subcategorización verbal recogido en la estructura-a. Las entradas para el objeto directo se reproducen en (157 - 158). INTRANS3 publica ’<(↑SUBJ)>’ (↑ MOOD)=IND (↑ SUBJ NUM)= SG (156) (↑ SUBJ PERS)=3 |(↑ MOOD)=IND (↑ SUBJ NUM)=SG (↑ SUBJ PERS)=3 (↑ SUBJ PRED)=’PRO’ 164 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL un D* (↑ DEF)=(↑ GEND)=MASC (157) (↑ NUM)=SG. libro N * (158) (↑ PERS)=3 (↑ GEND)=MASC (↑ NUM)=SG. La estructura-c correspondiente, tal como la produce XLE, se muestra en la figura 4.21. Se debe recordar que la estructura-c refleja directamente las reglas de estructura de frase. Por último, la estructura-f que recoge el análisis total se presenta en la figura 4.20. Figura 4.20: Estructura-f de la frase el chico publica un libro. 4.3. CONCLUSIÓN 4.3. 165 Conclusión En esta sección hemos presentado el código utilizado por XLE para generar las estructuras a, c y f de LFG. Se trata de un archivo con extensión .lfg que resulta de fácil manejo para el usuario, gracias parcialmente a la transparencia de comandos entre el formalismo y la herramienta de desarrollo de gramáticas. El propósito de este capítulo es facilitar la lectura, comprensión y utilización del código. Esperamos que sea provechoso para la continuación y extensión de este trabajo por parte de otros investigadores. 166 CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL Figura 4.21: Estructura-c de la frase el chico publica un libro. 167 Capítulo 5 Conclusiones generales En este trabajo hemos expuesto nuestro análisis de la frase simple del español dentro del marco teórico de LFG. En el capítulo 1: Introducción, hemos analizado los trabajos pertinentes relacionados con el nuestro y, teniendo en cuenta su aporte, hemos concretizado nuestro propio análisis en el capítulo 3: Análisis sintáctico de la frase simple. Las decisiones que hemos tomado, creemos que han sido justificadas a través de lo expuesto en el capítulo 2: El lexicón y su tipología. Finalmente, en el capítulo 4: El modelo de gramática formal, hemos explicado el código de reglas gramaticales. Al inicio de este estudio, nos planteamos tres preguntas fundamentales: ¿cuáles son las reglas gramaticales de la frase simple en español en LFG?, ¿cuáles son los rasgos pertinentes para la sintaxis española según el formalismo LFG?, y finalmente, ¿qué beneficios se pueden obtener a partir del análisis de las particularidades del español? Estas tres preguntas han guiado la dirección de nuestro trabajo. Primeramente, presentamos el estado de la investigación en español desde LFG y la motivación de nuestro estudio. Hemos estudiado el aporte de otros estudios, provenientes 168 CAPÍTULO 5. CONCLUSIONES GENERALES tanto del área de la lingüística teórica como del área de la lingüística computacional. Hemos analizado sus puntos de comparación y soporte con LFG, nuestro marco de análisis. A partir de ahí, hemos incorporado aquellos puntos que nos han parecido compatibles con nuestras propias intuiciones lingüísticas y los postulados teóricos que dirigen nuestro estudio. Una lengua como el español cuenta con varias ventajas para su estudio formal. Es una lengua que posee similitudes con otras lenguas de la misma familia tal como el italiano o el francés, por lo que también se pueden explotar los análisis formales de esas lenguas. Además, aunque con mayor distancia, tiene similitudes con la lengua más explotada en materia de PLN, es decir, el inglés. Por otro lado, cuenta con un bagaje de investigación teórica desde otras áreas de la lingüística. En otras palabras, cuenta con recursos que nos ha sido posible explotar. Nosotros, por ejemplo, asumimos los postulados del esquema X̄ y seguimos muchas de las modelizaciones del inglés. Sin embargo, como hemos expuesto, los recursos disponibles para el procesamiento automático y formal del español son más bien recientes, por lo que no son tan numerosos como los recursos disponibles para el inglés o el francés por ejemplo; lenguas que cuentan con una larga tradición en PLN. Muchos de ellos, además, en especial los corpus, no son concebidos para ser manipulables computacionalmente. Estos son hechos sorprendentes si se piensa que el español se encuentra entre las lenguas más habladas a nivel mundial. A este respecto concordamos con (Bolshakov y Gelbukh 2004, p. 30) cuando dice que quien desee compilar todos los hechos relevantes del español se encuentra con un conjunto pequeño de monografías y manuales orientados a los lectores externos a la materia, mayormente escritos y publicados en España. Si bien es cierto que este criterio data de 2004, según lo expuesto en el capítulo 1: 169 Introducción, en los últimos ocho años se han conseguido logros más bien limitados. Creemos que la elección de LFG como formalismo para nuestro estudio ha sido una decisión apropiada a nuestros objetivos. Nuestro trabajo tiene un interés marcadamente lingüístico y como tal está dirigido al análisis de los datos y no a la ingeniería del sistema. LFG es un formalismo sumamente coherente y versátil desde los puntos de vista matemático y lingüístico. Además, el uso de la plataforma XLE nos ha permitido su máxima explotación. Tanto LFG como XLE son instrumentos diseñados por y para lingüistas, lo que permite una relativa facilidad de aprendizaje y manejo. Otros formalismos y sistemas, como por ejemplo La gramática de afijos extendida de Hallebeek (1990), citada en páginas anteriores, es orientada hacia programadores y expertos en computación. En ese sentido, consideramos que nuestro trabajo es ventajoso para otros investigadores del área en una eventual continuación. En la construcción de nuestro lexicón privilegiamos el criterio de representatividad al criterio de exhaustividad. Escogimos un número mínimo de elementos que nos pudieran ser útilies para explorar y explotar las propiedades léxicales de cada tipo de cabeza: D, V, P y A. Asimismo, nuestra propuesta de estructura de frase nos permitió analizar fenómenos más allá de la frase simple, tal como la coordinación. A este respecto, a medida que insertábamos cada una de las entradas léxicas pudimos percatarnos de las particularidades del lenguaje que la formalización permite aprehender de forma clara y aprovechable en aplicaciones futuras. En particular nos referimos a la idea de que el lenguaje es altamente repetitivo. Rápidamente notamos que todas las entradas para una misma categoría léxica (D, V, P y A.) se definían en gran parte de la misma manera, especialmente en el 170 CAPÍTULO 5. CONCLUSIONES GENERALES caso de los sustantivos. Esto nos llevó a la concepción de plantillas de inserción léxica. Se trata de patrones de rasgos que, aunque se declaran una sola vez en el código, se pueden llamar o reutilizar tantas veces como sea necesario. Lo mismo sucede en el caso de los verbos. En este caso, como cada forma flexionada constituye una entrada léxica estos patrones resultan particularmente útiles, pues no es necesario crear reglas morfológicas de derivación. El capítulo 4.1.2: Reglas se centra exclusivamente en nuestra contribución al estudio sintáctico del español. En el capítulo 4.1.2 presentamos nuestro análisis de la frase simple del español utilizando el formalismo LFG. Como dijimos en párrafos precedentes, la plataforma XLE nos permitió probar la coherencia interna de las reglas propuestas de acuerdo con los postulados explicados en la sección 1.5: Marco teórico. Fuimos capaces de analizar la frase simple construida con diferentes tipos de verbos y hemos propuesto un análisis para los pronombres que se muestra compatible con la estructura de frase adoptada. Asimismo, analizamos otras configuraciones sintácticas como el orden flexible del sujeto haciendo uso de las nociones de TÓPICO y FOCO. Por otro lado, también analizamos coherentemente los casos de verbos transitivos que permiten un uso intransitivo y un uso de voz media. Finalmente, en el caso de los pronombres clíticos tratamos las sustituciones simples de un argumento pleno por uno pronominal y la duplicación del objeto indirecto. De igual forma, aunque de manera parcial, abordamos la problemática de las construcciones con se. La modelización de este pronombre en particular nos permitió comprobar que los límites entre los diferentes niveles de la lengua son más bien difusos. En efecto, nosotros no incluimos el uso de ”se” como alormorfo de 171 ”le” al considerar que se trata de una alternancia estrictamente fonológica y no sintáctica. Con la conclusión de nuestro estudio, creemos haber alcanzado los objetivos que nos propusimos al inicio. Estos incluyen i) la identificación de los fenómenos característicos de la frase simple del español, ii) la descripción de la estructura de la frase simple del español con atención en sus características distintivas, iii) la formalización de los fenómenos sintácticos identificados, y finalmente, iv) la verificación de la formalización en una aplicación computacional. El primero de ellos fue alcanzado gracias al bagaje en investigación lingüística teórica disponible. Los otros tres, por otro lado, al ser fuertemente dependientes el uno del otro, fueron alcanzados en paralelo a medida que la gramática se concibió y se desarrolló. Por último, con la conclusión de este trabajo, creemos haber construido las reglas de estructura de frase que permiten desarrollar un análisis igualmente coherente para otras construcciones sintácticas al igual que para analizar fenómenos más complejos en etapas posteriores. En este sentido, como lo expresamos en párrafos anteriores, el mérito de nuestro trabajo consiste en el análisis gramatical verficado y desarrollado en paralelo con reglas gramaticales de estructura de frase. A largo plazo, y con el eventual desarrollo de un parser lo suficientemente robusto, un sistema más complejo podría ser implementado. Una de las múltiples extensiones posibles es incrementar el tamaño del lexicón. En este trabajo, tanto las reglas como las entradas léxicas fueron construidas e insertadas manualmente. Sin embargo, la importación de un léxico ya existente permitiría contar con una base de datos léxicos lo suficientemente grande como para tener una cobertura estadísticamente significativa. Asimismo, esto permitiría refinar las reglas. Por otro lado, también queda la cuestión de la evaluación. Creemos que se 172 CAPÍTULO 5. CONCLUSIONES GENERALES trata de todo un estudio en sí mismo. Para poder realizarla, se tendrían que comparar los análisis propuestos con los análisis de otro sistema similar. Esto implicaría trabajar en hacer comparable el output de ambos sistemas. Además, extender el lexicón sería también inevitable, pues una evaluación debe hacerse sobre una muestra de oraciones estadísticamente significativa. Con el tamaño actual de la gramática, tal evaluación es muy difícil de realizar. Apéndice A Corpus de oraciones 1. Llueve. 2. Amanece. 3. Anochece. 4. Nieva. 5. A Carmen le gusta la manzana. 6. A Carmen le encantan las manzanas. 7. A Carmen le cuesta aprender. 8. A Carmen le importa aprender. 9. A Carmen le duele el pie. 10. Carmen es alta. 11. Carmen es inteligente. 12. La casa está roja. 173 174 13. La casa está fea. 14. Carmen oye una canción. 15. Carmen ve. 16. Carmen ve un pájaro. 17. Carmen escucha la radio. 18. Carmen nació. 19. Hay una silla. 20. Hay un chico. 21. Los chicos entraron. 22. Los chicos mueren. 23. Las chicas ríen. 24. Carmen va. 25. Carmen viene. 26. El chico duerme. 27. Ella quiere la manzana. 28. Él siente miedo. 29. Carmen come la manzana. 30. El chico publica un libro. 31. Carmen llama al chico. APÉNDICE A. CORPUS DE ORACIONES 175 32. El chico lava el carro. 33. El chico lava la silla. 34. Carmen abre el libro. 35. El chico le da la manzana a Carmen. 36. Carmen le escribe el libro al chico. 37. Carmen dice la verdad. 38. El chico le trae el carro a Carmen. 39. El chico trae la manzana. 40. El chico trae la manzana para Carmen. Apéndice B Segundo corpus de oraciones 1. Carmen y el chico comen. 2. Carmen se murió. 3. Carmen se queja. 4. El chico nació. 5. Carmen la come. 6. Carmen come la manzana arenosa. 7. El chico lava el carro rojo. 8. Ella es flaca y alta. 9. Hay sillas. 10. Ellos publican un libro. 176 Apéndice C Test-set 1. Llueve. 2. A Carmen le gusta la manzana. 3. Carmen es alta. 4. Carmen nació. 5. Los chicos entran. 6. Las chicas ríen. 7. Carmen va. 8. Ella quiere la manzana. 9. Carmen come la manzana. 10. Carmen la come. 11. El chico publica un libro. 12. El chico le da la manzana a Carmen. 177 178 13. El chico le trae el carro a Carmen. 14. Carmen y el chico comen una manzana. 15. Carmen se murió. APÉNDICE C. TEST-SET Apéndice D Totalidad de rasgos propuestos por XLE ANIM: -> $ {+ -}. AQUANT: -> << [ ADJUNCT PRED QUANT-TYPE DEGREE DEG-DIM ]. ATYPE: -> $ {adverbial attributive predicative}. CASE: -> $ {acc dat erg gen inst loc nom obl}. CLAUSE-TYPE: -> $ { adv cond decl imp int nom pol-int rel wh-int }. COMMON: -> $ { count gerund mass measure partitive }. DEG-DIM: -> $ DEGREE: -> $ {equative neg pos}. {comparative positive superlative}. DET: -> << [ DEIXIS DET-TYPE PRED ]. DET-TYPE: -> $ {article def demon indef int rel}. GEND: { -> $ {fem masc neut} | -> << [ FEM MASC NEUT ] }. HUMAN: -> $ {+ -}. GEND-SEM: -> $ {female male nonhuman}. 179 180 APÉNDICE D. TOTALIDAD DE RASGOS PROPUESTOS POR XLE LOCATION-TYPE: -> $ { city country }. MOOD: -> $ {imperative indicative subjunctive successive}. NAME-TYPE: -> $ {first_name last_name }. NSEM: -> << [ COMMON NUMBER-TYPE PROPER TIME ]. NSYN: -> $ { common pronoun proper }. NTYPE: -> << [ NSEM NSYN ]. NUM: -> $ NUMBER: {pl sg}. -> << [NUMBER-TYPE PRED ADJUNCT CLASSIFIER-FORM MOD]. NUMBER-TYPE: -> $ PASSIVE: -> $ {card fract ord percent}. {+ -}. PERF: -> $ {+ - +_ -_}. PERS: -> $ {1 2 3}. PROG: -> $ {+ - +_ -_}. PRON-TYPE: -> $ {demon expl_ free inh-refl_ int locative null pers quant poss recip refl rel}. PROPER: -> << [ PROPER-TYPE LOCATION-TYPE NAME-TYPE ]. PROPER-TYPE: -> $ { addr_form location name organization title }. PSEM: -> $ {ag ben comit compar dir inst loc manner num part poss purp temp }. PTYPE: -> $ {nosem sem}. QUANT: -> << [ADJUNCT QUANT-TYPE POL PRED DEGREE DEG-DIM ]. QUANT-TYPE: -> $ {comparative equative existential gen negative superlative universal}. SPEC: -> << [ADJUNCT AQUANT DET STMT-TYPE: -> $ TENSE: -> $ NUMBER POSS QUANT SPEC-TYPE]. { decl header imp int }. {fut null past pres}. TIME: -> $ { date day hour minute month season second week year}. TNS-ASP: -> << [MOOD PERF PROG TENSE]. 181 VTYPE: -> $ {aux copular main modal noncopular predicative raising}. Bibliografía Abney, Steven P. (1987). «The English Noun Phrase in its Sentential Aspect». Tesis doct. MIT. Atserias, Jordi, J. Carmona y col. (1998). Morphosyntactic Analysis and Parsing of Unrestricted Spanish Text. Atserias, Jordi, B. Casas y col. (2006). «Freeling 1.3: Syntactic and Semantic Services in an Open Source NLP library». En: Centro de Investigación TALP. url: http://www.lsi.upc.es/~bcasas/publications/lrec2006.pdf. Atserias, Jordi, Eli Comelles y Aingeru Mayor (2005). «TXALA un analizador libre de dependencias para el castellano». En: Procesamiento del lenguaje natural 35.62. url: http://www.sepln.org/revistasSPELN/revista/35/62.pdf. Bates, Elizabeth y Judith C. Goodman (1997). «On the Inseparability of Grammar and the Lexicon: Evidence from Acquisition, Aphasia and Real-Time Processing». En: Language and Cognitive Processes 12, págs. 507-584. url: http: //www.crl.ucsd.edu/bates/papers/pdf/bates-goodman-1997.pdf. Belletti, Adriana y Luigi Rizzi (1988). «Psych-Verbs and Th-Theory». En: Natural Language and Linguistic Theory 3, págs. 291-352. Berrocal Rojas, Allan (2009). «Automatización parcial de la revisión de aspectos de precisión, no-ambigüedad y verificabilidad en requerimientos de software escritos en lenguaje natural». Tesis de maestría. Universidad de Costa Rica. 182 BIBLIOGRAFÍA 183 Boleda, Gemma, Sabine Schulte y Toni Badia (2007). «Modelling Polysemy in Adjective Classes by Multi-Label Classification». En: ACL Anthology. — (2008). «An Analysis of Human Judgement on Semantic Classification of Catalan Adjectives». En: Research on Language and Computation 6.3-4, págs. 247-271. url: http://www.springerlink.com/content/wom312j16264h15h/. Bolshakov, Igor A. y Alexander Gelbukh (2004). Computational Linguistics: Models, Resources, Applications. Mexico City: Insituto Politécnico Nacional. Bosque Muñoz, Ignacio y Javier Gutiérrez-Rexach (2009). Fundamentos de sintaxis formal. Ediciones AKAL. Bresnan, Joan (1998). «Optimal Syntax». En: Optimality Theory: Phonology, Syntax and Acquisition. url: http://www.stanford.edu/7Ebresnan/pt3.ps. — (2001). Lexical Funcional Grammar. Oxford: Blackwell Publishers. Bresnan, Joan y Ronald Kaplan (1982). «The Mental Representation of Grammatical Relations». En: Cambridge: MIT Press. Cap. Lexical Functional Grammar: A Formal System for Grammatical Representation. Buring, Daniel (2005). Binding Theory. Cambridge University Press. Burzio, Luigi (1986). Italian Syntax. A Government and Binding Approach. Reidel. Butt, Miriam, Mary Dalrymple y col. (2002). «The Pargram Project: Workshop and Demo». En: Proceedings of LFG02 Conference. url: http://csli-publications. stanford.edu/LFG/7/lfg02pargram-abs.html. Butt, Miriam, Helge Dyvik y col. (2002). «The Parallel Grammar Projet». En: Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics. Somerville, MA. Calvo, Hiram y Alexander Gelbukh (2006). «DILUCT: An Open Source Dependency Parser based on Rules, Heuristics, and Selectional Preferences». En: 184 BIBLIOGRAFÍA Natural Language Processing and Information Systems 3999. url: http://www. springerlink.com/content/t456v11022274925/. Carrera, Jordi y col. (2008). «Gramáticas de dependencia en freeling». En: Procesamiento del lenguaje natural 41, págs. 21-28. Cedeño Baltodano, Allan (2009). «Comparación del rendimiento de las aplicaciones Toscanaj y Concept Explorer para la construcción de retículas de conceptos». Tesis de maestría. Universidad de Costa Rica. Chomsky, Noam (1957). Syntactic Structures. Mouton. Chrupała, Grzegorz (2008). «Towards a Machine-Learning Architecture for Lexical Functional Grammar Parsing». Tesis doct. Universidad Dublin City. Chrupała, Grzegorz y Josef van Genabith (2006). «Improving Treebank-Based Atuomatic LFG Induction for Spanish». En: Proceedings of the LFG 06 Conference. url: http://csli-publications.stanford.edu/. Clements, Joseph Clancy (2001). «Ergative Patterning in Spanish». En: Current Issues in Spanish Syntax. Ed. por Javier Gutiérrez-Rexach y Luis Silva-Villar. Mouton de Gruyter, págs. 271-290. — (2008). «Me dicen que suena raro cuando digo yo en todo momento: ¿por qué no es necesario usar el pronombre?» En: El español a través de la lingüística. Ed. por Jennifer D. Ewald y Anne Edstrom. Cascadilla Press, págs. 83-94. Cortés, Ángel-Alonso (2001). «Rasgos activos y ergativos del español». En: Verba 28. url: http://dspace.usc.es/handle/10347/3351. Culicover, Peter y Ray Jackendoff (2005). Simpler Syntax. New York: Oxford Univesity Press. De Vries, Mark (2005). «Coordination and Syntactic Hierarchy». En: Studia Linguistica 59.1, págs. 83-105. BIBLIOGRAFÍA 185 D’Introno, Francesco (2001). Sintaxis Generativa del Español: Evolución y Análisis. Cátedra. Dowty, David (1991). «Thematic Proto-Roles and Argument Selection». En: Language 67.3, págs. 547-619. url: http://www.jstor.org/stable/415037. EAGLES (1998). «Verb Semantic Classes». En: Preliminary Recommendations on Semantic Encoding Interim Report. url: http://www.ilc.cnr.it/EAGLES98/ rep2/nod1.html. Estigarribia, Bruno (2005). «Direct Object Clitic Doubling in OT-LFG A New Look at Rio Platense Spanish». En: Proceedings of the LFG 05 Conference. url: http: //csli-publications.stanford.edu/. Fillmore, Charles, Paul Kay y Catherine O’Connor (1988). «Regularity and Idiomaticity in Grammatical Constructions: The Case of let alone». En: Language 64, págs. 501-538. Franco, Jon y Susana Huidobro (2008). «Ethical Datives, Clitic Doubling and the Theory of pro». En: Selected Proceedings of the 10th Hispanic Linguistics Symposium. Somerville, MA. Galicia, Sofía N. y Alexander Gelbukh (2007). Investigaciones en Análisis Sintáctico para el Español. México: Instituto Politécnico Nacional. Givón, Talmy (2001). MorphoSyntax: An Introduction. Philadelphia: John Benjamins Publishing Co. Goodall, Grant (1987). Parallel Structures in Syntax. Cambridge Unversity Press. Grantson, Magdalene (2002). Lexical Functional Grammar: Analysis and Implementation. Grimshaw, Jane (1999). «Optimal Clitic Positions and the Lexicon in Romance Clitic System». En: CSLI Publications. url: http://csli-publications.stanford. edu/. 186 BIBLIOGRAFÍA Grohmann, Kleanthes (2000). «Towards a Syntactic Understanding of Prosodically Reduced Pronouns». En: Theoretical Linguistics 26.3, págs. 175-210. Grzymala-Busse, Jerzy W. y Witold J.Grzymala-Busse (2005). «The Data Mining and Knowledge Discovery Handbook». En: Springer-Verlag. Cap. Rule Induction. Guevara, Emiliano (2006). Binary Branching and Linguistic Theory: Morphological Arguments. Gulati, Asheesh (2011). «Hybrid Machine Translation: An Overview». Certificat de Spécialisation. Université de Gen’́eve. Haegeman, Liliane (1991). Introduction to Government and Binding Theory. Cambridge: Blackwell Publishers. — (2001). English Grammar: A Generative Perspective. Cambridge: Blackwell Publishers. Hallebeek, Jos (1990). «A Formal Approach to Spanish Syntax». Tesis doct. Universidad de Nijmegen. Halpern, Aaron (1995). On the Placement and Morphology of Clitics. University of Chicago Press. Holloway, Tracy (2005). «Clitcizing LFG». En: Proceedings of the LFG 05 Conference. url: http://csli-publications.stanford.edu/. Hornstein, Norbert, Jairo Nunez y Kleathes K. Grohmann (2005). Understanding Minimalism. Cambridge: Cambridge University Press. Hutchins, John (1986). Machine Translation: Past, Present, Future. Ellis Horwood. Jaeggli, Osvaldo (1982). Topics in Romance Syntax. Foris Publications. Jassem, Krzysztof (2002). «Semantic Classification of Adjectives on the Basis of their Syntactic Features in Polish and English». En: Machine Translation 17.1, págs. 19-41. url: http://www.springerlink.com/content/u2ou046122633136. BIBLIOGRAFÍA 187 Joshi, Aravind, Leon Levy y Masako Takahashi (1975). «Tree Adjunct Grammars». En: Journal Computer Systems Science 10.1. Kaplan, Ronald M. y John T. Maxwell (1988). «Consituent Coordination in LexicalFunctional Grammar». En: ACL Anthology. url: www.ldc.upenn.edu/acl/C/ C88/C88-1061.pdf. Kayne, Richard (1975). French Syntax. The Transformational Cycle. MIT Press. — (1994). The Antisymmetry of Syntax. MIT Press. Kelling, Carmen (2006). «Spanish se-constructions: The passive and the impersonal construction». En: Proceedings of the LFG 06 Conference. url: http : //csli-publications.stanford.edu/. Kihm, Alain (2005). «The Oxford Handbook of Comparative Syntax». En: Oxford University Press. Cap. Noun Class, Gender and the Lexicon-Syntax-Morphology Interfaces: A Comparative Study of Niger-Congo and Romance languages, págs. 459-512. url: http://www.llf.cnrs.fr/Gens/Kihm/OUPhandbook.pdf. Kipper, Karin y col. (2007). «A large scale classification of English Verbs». En: LREC. url: http://verbs.colorado.edu/kipper/Papers/lrec.journal.pdf. Kocjančič, Polonca (2009). «Internet y los Recursos Lingüísticos para la Lengua Española: Diccionarios y Corpus». En: Verba Hispanica. Anuario del Departamento de la Lengua y Literatura Españolas XVII. Universidad de Ljubljana, Eslovenia, págs. 145-163. url: http : / / www . ff . uni - lj . si / fakulteta / ZalozbaInKnjigarna/Zaloznistvo/KatalogPublikacij/Verba\%20Hispanica/ VERBA\%20HISPANICA\%20XVII\%202009.pdf#page=145.. Korhonen, Anna y T. Briscoe (2004). «Extended Lexical-Semantic Classification of English Verbs». En: HTL/NAACL Workshop on Computational Lexical Semantics. url: http://acl.ldc.upenn.edu/hlt-naacl2004/CLS/index.html. Kroeger, Paul (2004). Analyzing Syntax. Cambridge: Cambridge University Press. 188 BIBLIOGRAFÍA Kübler, Sandra, Ryan McDonald y Joakim Nivre (2009). Dependency Parsing. Morgan y Claypool Publishers. Labov, William (1972). «Some Principles of Linguistic Methodology». En: Language in Society 1.1, págs. 97-120. url: http://www.jstor.org/stable/4166672. Laenzlinger, Christopher (2003). Initiation ’́a la syntax formelle du français. Cambridge: Peter Lang, SA. Langley, Pat y Herbert A. Simon (1995). «Applications of Machine Learning and Rule Induction». En: Communications of the ACM 38, págs. 55-64. Lehmann, Sabine y col. (1996). «TSNLP - Test Suites for Natural Language Processing». En: In J. Nerbonne (Ed.), Linguistic Databases. CSLI Publications, págs. 711-716. Leoni de León, Jorge Antonio (1999). «Les Clitiques en Espagnol : Analyse Syntaxique et Traitement Automatique». Mémoire de DES. Université de Gen’́eve. — (2008). «Mod’́ele d’analyse lexico-syntaxique des locutions espagnoles». Tesis doct. Universidad de Ginebra. — (2010). «Computational Linguistics in Costa Rica: An Overview». En: Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Leoni de León, Jorge Antonio y Athina Michou (2006). «Traitement des clitiques dans un environnement mutlitlingue». En: Proceedings of the TALN’06 Conference. Leoni de León, Jorge Antonio, Sandra Schwab y Eric Wehrli (2008). «Análisis sintáctico profundo del español: un ejemplo del procesamiento de secuencias idiomáticas». En: Procesamiento del lenguaje natural. Levin, Beth (1993). English Verb Classes and Alternations. Chicago: University of Chicago Press. BIBLIOGRAFÍA 189 Litosseliti, Lia (2010). Research methods in Linguistics. Continuum International Publishing Group. Lloberes, Marina, Irene Castellón y Lluis Padró (2010). «Spanish Freeling Dependency Grammar». En: Proceedings of the LREC 2010 Conference. Malta. url: www.lrec-conf.org/proceedings/lrec2010/pdf/562_Paper.pdf. Loáiciga, Sharid (2011). «Null Subjects in Machine Translation Between Spanish and English». Certificat de Spécialisation en Linguistique. Université de Gen’́eve. Longobardi, Giuseppe (2000). «”Postverbal” Subjects and the Mapping Hypothesis». En: Linguistic Inquiry. url: www.jstor.org/stable/4179128. MacDonald, Jonathan E. y Susana Huidobro (2010). «The Lack of Spanish NonArgumental Clitic Doubling». En: Selected Proceedings of the 12th Hispanic Linguistics Symposium. Somerville, MA. Manandhar, Suresh, Saso Dzeroski y Tomaz Erjavec (1998). Learning Multilingual Morphology with CLOG. Manning, Chris e Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. MIT Press. Marcus, Mitchell P., Beatrice Santorini y Mary Ann Marcinkiewicz (1993). «Building a large annotated corpus of English: the Penn Treebank». En: Computational Linguistics 19.2, págs. 313-330. Martí, María y col. (sf). «AnCora: Multilingual and Multilevel Annotated Corpora». http://clic.ub.edu/ancora/ancora-corpus.pdf. Matsumoto, Yo (2003). «Typologies of Lexicalizations Patterns and Event Integrations: Clarifications and Reformulations». En: ed. por Shuji Chiba et al. Mayer, Elizabeth (2008). «Clitics on the Move: From Dependent Marking to Split Marking». En: CSLI Publications. url: http://csli-publications.stanford. edu/. 190 BIBLIOGRAFÍA Mello, George de (1979). «The Semantic Values of ser and estar». En: Hispania 62.3, págs. 338-341. Merlo, Paola y Suzanne Stevenson (2001). «Automatic Verb Classification Based on Statistical Distribution of Argument Structure». En: Computational Linguistics 27.3, págs. 373-408. url: http://www.latl.unige.ch. — (2004). «Structure and Frequency in Verb Classification». En: Incontro di Grammatica Generativa. url: http://www.latl.unige.ch. Merlo, Paola y Lonneke van der Plas (2009). «Abstraction and Generalization in Semantic Role Labels: PropBank, VerbNet or both?» En: ACL-IJCNLP. url: http://www.latl.unige.ch. Miller, George (2009). «WordNet: About Us». En: Princeton University. url: http: //wordnet.princeton.edu. Mohri, Mehryar (2005). «Applied Combinatorics on Words». En: Cambridge University Press. Cap. Statistical Natural Language Processing. Moreno, Antonio (1998). Lingüística Computacional. Madrid: Editorial Síntesis. — (2001). Gramáticas de Unificación y Rasgos. Madrid: A. Machado Libros. Moreno, Antonio, Ralph Grishman y col. (2000). «A Treebank of Spanish and its Application to Parsing». http://www.lllf.uam.es/ESP/Treebank.html. Moreno, Antonio, Susana López y Fernado Sánchez (2003). «Developing a Syntactic Annotation Scheme and Tools for a Spanish Treebank». En: Treebanks: Building and Using Annotated Corpora. Ed. por Ann Abeillé, págs. 149-163. Nakazawa, Tsuneko (2006). «Pro Drop and Pronouns». En: Proceedings of the HPSG06 Conference. CSLI Publications. url: http : / / csli - publications . stanford.edu/. BIBLIOGRAFÍA 191 Neeleman, Ad y Kriszta Szendői (2005). «Pro Drop and Pronouns». En: Proceedings of the 24th West Coast Conference on Formal Linguistics. Cascadilla Proceedings Project, págs. 299-307. O’Donovan, Rut y col. (2005). «Automatic Acquisition of Spanish LFG Resources from the CAST3LB Treebank». En: Proceedings of the LFG 06 Conference. url: http://csli-publications.stanford.edu/. Okada, Naoyuki y Aiko Miura (1982). «Conceptual Taxonomy of Japanese Adjectives for Understanding Natural Language and Picture Patterns». En: Ninth International Conference on Computational Linguistics. url: http://acl.ldc. upenn.edu/C/82. Ortega-Santos, Iván (2006). «On Postverbal Subjects, PF and the Copy Theory: The Spanish Case». En: Proceedings of the 9th Hispanic Linguistics Symposium. Somerville, MA. Padró, Lluís (2011). «Analizadores Multilingües en FreeLing». En: Linguamatica 3.2, págs. 13-20. Paiva, Valeria de y Tracy Holloway King (2008). «Designing testsuites for grammarbased systems in applications». En: GEAF ’08 Proceedings of the Workshop on Grammar Engineering Across Frameworks. Payne, Thomas (2008). Describing Morphosyntax. Cambridge: Cambridge University Press. Pollard, Carl e Ivan A. Sag (1994). Head-Driven Phrase Structure Grammar. University of Chicago Press. Radford, Andrew (2004). English Syntax. Cambridge University Press. Rizzi, Luigi (1982). Issues in Italian Syntax. Foris Publications. 192 BIBLIOGRAFÍA Russo, Lorenza, Sharid Loáiciga y Asheesh Gulati (2012). «Improving Automatic Translation of Null Subjects in Italian and Spanish». En: Proceedings of the EACL’12 Conference. Samardzic, Tanja (2009). «Semantic roles in natural language processing and in linguistic theory». Tesis de lic. Universidad de Ginebra. Simard, Michel, Cyril Goutte y Pierre Isabelle (2007). «Statistical Phrase-based Post-editing». En: Proceedings of NAACL HLT 2007, 508–515. Simard, Michel, Nicola Ueffing y col. (2007). «Rule-based Translation With Statistical Phrase-based Post-editing». En: Proceedings of the 2nd Workshop on Statistical Machine Translation, 203–206. Stalmaszczyk, Piotr (1993). «The English Middle Construction». En: Papers and Studies in Contrastive Linguistics 27, págs. 133-147. Stevenson, Suzanne y col. (1999). «Supervised Learning of Lexical Semantic Verb Classes Using Frecuency Distributions». En: SigLex99: Standadizing Lexical Resources. url: http://www.latl.unige.ch. Subirats, Carlos (2009). «La función del corpus en FrameNet Español». En: Proceedings of the First International Conference on Corpus Linguistics (CILC 09). Murcia (Spain). Talmy, Leonard (2000). Toward a Cognitive Semantics. MIT Press. Tenny, Carol (1994). Aspectual Roles and the syntax-semantics interface. Kluwer Academic Publishers. Tullio, Angela Di (2003). «Las medias en español: entre la sintaxis y la semántica». En: Cuadernos del Sur 32-33. url: http://bibliotecadigital.uns.edu.ar/ scielo.php?script=sci_arttext&pid=S1668-74262003000100002&lng=es& nrm=iso>.. van Oirsouw, Robert (1987). The Syntax of Coordination. Croom Helm. BIBLIOGRAFÍA 193 Van Valin, Robert (1999). Generalized Semantic Roles and the Syntax-Semantics Interface. url: http://linguistics.buffalo.edu/people/faculty/vanvalin/ rrg.html. Vanhoe, Henk (2002). «Aspects of the Syntax of Psychological Verbs in Spanish: A Lexical Functional Analysis». En: Proceedings of the LFG02 Conference. url: http://csli-publications.stanford.edu/. Vann, Robert E. (1993). «Middle Voice, No Fault se, and the Anticausative: Ergativity in Spanish». En: Issues and Theory in Romance Linguistics: Selected Papers from the Linguistic Symposium on Romance Languages XXIII. Wehrli, Eric (1997). L’analyse syntaxique des langues naturelles: probl’́emes et méthodes. Paris: Masson. — (2007). «Fips, a ”Deep”Linguistic Multilingual Parser». En: Workshop on Deep Linguistic Processing. url: http://www.aclweb.org/anthology- new/W/W071216.pdf. Wehrli, Eric y Luka Nerima (2009). «L’analyseur syntaxique Fips». En: Proceedings of the 11th International Workshop on Parsing Technologies IWPT. url: http://alpage.inria.fr/iwpt09/atala/fips.pdf. Wehrli, Eric, Luka Nerima e Yves Scherrer (2009). «Deep Linguistic Multilingual Translation and Bilingual Dictionaries». En: Proceedings of the Fourth Workshop on Statistical Machine Translation, págs. 90-94. Yllescas, Juan Carlos Tordera (2008). Introducción a la Gramática Léxico-Funcional. Val’́encia: Universitat de Val’́encia. Zagona, Karen (1996). «Aspects of Romance Linguistics». En: Georgetown University Press. Cap. Compositionality of Aspect: Evidence from Spanish Aspetual Se. — (2002). The Syntax of Spanish. Cambridge: Cambridge University Press.