Download Análisis léxico funcional de la sintaxis: propuesta para el

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

Document related concepts

Gramática léxico wikipedia , lookup

Gramática sintagmática nuclear wikipedia , lookup

TreeBank wikipedia , lookup

Analizador sintáctico wikipedia , lookup

Sujeto (gramática) wikipedia , lookup

Transcript

UNIVERSIDAD DE COSTA RICA
SISTEMA DE ESTUDIOS DE POSGRADO
ANÁLISIS LÉXICO FUNCIONAL DE LA SINTAXIS:
PROPUESTA PARA EL PROCESAMIENTO AUTOMÁTICO DEL
ESPAÑOL
Tesis sometida a la consideración de la Comisión del Programa de
Estudios de Posgrado de Lingüística para optar al grado y título de
Maestría Académica en Lingüística.
SHARID LOÁICIGA SÁNCHEZ
Ciudad Universitaria Rodrigo Facio
2012
“Esta tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Lingüística de la Universidad de Costa Rica, como requisito parcial para
optar al grado y título de Maestría Académica en Lingüística.”
Dra. Gabriela Barrantes Sliesarieva
Representante de la Decana
del Sistema de Estudios de Posgrado
Dr. Jorge Antonio Leoni de León
Director de Tesis
MA. Ximena del Río Urrutia
Asesora
Dra. Carla Victoria Jara Murillo
Asesora
Dr. Carlos Villalobos Villalobos
Representante del Director
del Programa de Posgrado en Lingüística
Sharid I. Loáiciga Sánchez
Candidata
ii
Índice general
Resumen
VI
Lista de cuadros
VII
Lista de figuras
VIII
List de abreviaturas
X
1. Introducción
1.1. Justificación . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Problema . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Objetivo General . . . . . . . . . . . . . . . . . .
1.3.2. Objetivos Específicos . . . . . . . . . . . . . . .
1.4. Estado de la cuestión . . . . . . . . . . . . . . . . . . .
1.4.1. Estudios formales del español basados en LFG
1.4.2. Parsers . . . . . . . . . . . . . . . . . . . . . . .
1.4.3. Los corpus no anotados . . . . . . . . . . . . . .
1.4.4. Los métodos estadísticos y los corpus anotados
1.5. Marco teórico . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1. La estructura de frase . . . . . . . . . . . . . . .
1.5.2. La unificación y las reglas libres de contexto . .
1.5.3. Principios de diseño de LFG . . . . . . . . . . .
1.5.4. Estructura-f . . . . . . . . . . . . . . . . . . . . .
1.5.5. Correspondencia entre las estructuras c y f . . .
1.5.6. Completud y coherencia . . . . . . . . . . . . . .
1.5.7. Plataforma de desarrollo de gramáticas XLE . .
1.6. Metodología . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1. Obtención de los datos . . . . . . . . . . . . . .
1.6.2. Definición del lexicón . . . . . . . . . . . . . . .
1.6.3. Escritura de las reglas gramaticales . . . . . . .
1.6.4. Validación computacional: parser . . . . . . . . .
1.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
4
10
10
10
10
10
11
18
24
26
31
32
36
39
40
42
49
53
57
58
59
60
61
62
2. El lexicón y su tipología
2.1. ¿Qué es el lexicón? . . . .
2.2. Las tipologías gramaticales
2.2.1. Tipología verbal . .
2.2.2. Tipología nominal .
2.2.3. Determinantes . . .
2.2.4. Modificadores . . .
2.2.5. Preposiciones . . .
2.3. Conclusión . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Análisis sintáctico de la frase simple
3.1. La estructura de frase según LFG . . . . . . . . .
3.1.1. Sujeto nulo . . . . . . . . . . . . . . . . . .
3.1.2. Sobre la subcategorización verbal . . . . .
3.1.3. Ergatividad en español . . . . . . . . . . .
3.1.4. El orden libre de los constituyentes . . . . .
3.1.5. El orden libre de los constituyentes en LFG
3.1.6. Cópula . . . . . . . . . . . . . . . . . . . .
3.2. Otras construcciones sintácticas . . . . . . . . . .
3.2.1. Pronombres clíticos . . . . . . . . . . . . .
3.2.2. Oraciones con se . . . . . . . . . . . . . .
3.2.3. Coordinación . . . . . . . . . . . . . . . . .
3.3. Conclusión . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
84
. 85
. 92
. 95
. 101
. 105
. 108
. 109
. 113
. 116
. 123
. 128
. 134
.
.
.
.
.
.
.
.
.
136
. 137
. 137
. 143
. 154
. 156
. 156
. 160
. 162
. 165
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
65
66
66
76
79
80
82
82
.
.
.
.
.
.
.
.
4. El modelo de gramática formal
4.1. Arquitectura de XLE . . . . . . . .
4.1.1. Analizar oraciones con XLE
4.1.2. El código de reglas . . . . .
4.1.3. Interfaz gráfica . . . . . . .
4.2. Ejemplos . . . . . . . . . . . . . .
4.2.1. El chico es alto . . . . . . .
4.2.2. Come una manzana . . . .
4.2.3. El chico publica un libro . .
4.3. Conclusión . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Conclusiones generales
167
Apéndices
173
A. Corpus de oraciones
173
B. Segundo corpus de oraciones
176
C. Test-set
177
iv
D. Totalidad de rasgos propuestos por XLE
v
179
Resumen
En este trabajo se propone un análisis formal de la frase simple del español
según los principios de la Gramática Léxico-Funcional o LFG (del inglés Lexical
Functional Grammar). Este es un formalismo de unificación, de carácter lexicalista
fuerte y matemáticamente robusto. LFG proporciona un análisis en tres estructuras: c, f y a. La estructura-c provee una representación arbórea de los constituyentes de la frase y su organización sintáctica. La estructura-f está diseñada para ser
abstracta, pues a partir de ella no se puede extraer información sobre la configuración de la frase. Asimismo, declara las estructuras de rasgos de acuerdo a las
especificaciones del lexicón. La estructura-a, por su parte, especifica la estructura
argumental de acuerdo a la subcategorización verbal, asegurando la completud y
la coherencia.
La estructura de frase propuesta sigue de cerca los postulados del esquema
X̄ con dos cambios fundamentales. Por un lado, no es estrictamente binaria, pues
cuenta con una estructura terciaria para el análisis de la coordinación. Por otro
lado, se usa la noción de TP en lugar de IP por no existir el movimiento dentro de
este marco teórico. El lexicón incluye las categorías de verbos, sustantivos, las
preposiciones a y para, artículos definidos e indefinidos, adjetivos y la conjunción
y. La estructura de frase propuesta, también probó ser robusta para el análisis de
la siguientes estructuras: oraciones con hasta tres argumentos, construidas con
diferentes tipos de verbos como copulativos y ergativos, por citar un ejemplo, en
construcciones con sujetos plenos y sujetos nulos, la clitización de objeto directo,
la clitización y reduplicación de objeto indirecto, tres tipos de oraciones con se
(reflexivo, inherente y medio), los sujetos posverbales y la coordinación.
vi
Índice de cuadros
2.1. Tipos de verbos clasificados de acuerdo con el número de argumentos que subcategorizan. . . . . . . . . . . . . . . . . . . . . .
2.2. Conjunto total de verbos considerados. . . . . . . . . . . . . . . .
2.3. Tipología nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Pronombres personales . . . . . . . . . . . . . . . . . . . . . . . .
2.5. Determinantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Adjetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
71
73
78
79
79
81
3.1. Marcaje nominativo-acusativo y ergativo-absolutivo. . . . . . . . . . 101
3.2. Pronombres Clíticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.1. Equivalencia de comandos entre LFG y XLE. . . . . . . . . . . . . . 148
vii
Índice de figuras
1.1.
1.2.
1.3.
1.4.
Output del analizador FIPS. . . . . . . . . . . . . . . . . . .
Output del analizador TXALA. . . . . . . . . . . . . . . . . .
Estructura canónica de la frase simple. . . . . . . . . . . .
Interfaz de la herramienta de desarrollo de gramáticas XLE.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Estructura canónica de la frase simple. . . . . . . . . . . . . . . .
Estructura canónica de la frase según GB. . . . . . . . . . . . . .
Estructura canónica de la frase según LFG. . . . . . . . . . . . . .
Estructura del sintagma determinante (DP). . . . . . . . . . . . . .
Estructura-f de un verbo con argumento. . . . . . . . . . . . . . . .
Estructura-f de un verbo sin argumentos. . . . . . . . . . . . . . .
Estructura-f de un verbo ditransitivo. . . . . . . . . . . . . . . . . .
Estructura-c de un verbo ditransitivo. . . . . . . . . . . . . . . . . .
Estructura profunda propuesta por Belletti y Rizzi (1988) para los
verbos sicológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10.Sujeto generado en posición interna . . . . . . . . . . . . . . . . .
3.11. Movimiento del sujeto generado en posición interna . . . . . . . .
3.12.Sujeto generado en posición externa . . . . . . . . . . . . . . . . .
3.13.Movimiento del sujeto posverbal . . . . . . . . . . . . . . . . . . .
3.14.Estructura-f de un verbo ergativo. . . . . . . . . . . . . . . . . . . .
3.15.Estructura-c de un verbo copulativo. . . . . . . . . . . . . . . . . .
3.16.Estructura-f de un verbo copulativo. . . . . . . . . . . . . . . . . .
3.17.Estructura-c de un verbo transitivo con un adjetivo atributivo. . . .
3.18.Estructura-f de un verbo transitivo con un adjetivo atributivo. . . .
3.19.Posición del DP objeto. . . . . . . . . . . . . . . . . . . . . . . . .
3.20.Posición del CL objeto. . . . . . . . . . . . . . . . . . . . . . . . .
3.21.Estadio intermedio del movimiento de los pronombres clíticos de
objeto directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.22.Generación básica. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.23.Duplicación de clítico por generación básica. . . . . . . . . . . . .
3.24.Estructura-f de un verbo transitivo con un pronombre clítico. . . . .
3.25.Estructura-f de un verbo transitivo con un pronombre clítico de objeto indirecto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
.
.
.
.
21
22
36
56
. 87
. 87
. 89
. 89
. 93
. 93
. 99
. 100
. 104
. 105
. 106
. 106
. 107
. 110
. 112
. 113
. 114
. 115
. 117
. 117
. 118
. 119
. 119
. 121
. 122
3.26.Estructura-f de un verbo transitivo con duplicación de pronombre
clítico de objeto indirecto. . . . . . . . . . . . . . . . . . . . . . . .
3.27.Estructura-f del verbo ver con uso reflexivo. . . . . . . . . . . . . .
3.28.Estructura-f del verbo quejarse. . . . . . . . . . . . . . . . . . . . .
3.29.Estructura-f del verbo morirse. . . . . . . . . . . . . . . . . . . . .
3.30.Estructura-f de una configuración de coordinación. . . . . . . . . .
3.31.Estructura-c de una configuración de coordinación. . . . . . . . . .
4.1. Arquitectura de XLE desde la perspectiva del sistema. . . . . . . .
4.2. Arquitectura de XLE desde la perspectiva del lingüista. . . . . . .
4.3. Línea de comandos UNIX. . . . . . . . . . . . . . . . . . . . . . . .
4.4. Invocación de XLE. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5. Línea de comandos XLE. . . . . . . . . . . . . . . . . . . . . . . .
4.6. Invocación del parser. . . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Parser y gramática en curso de ejecución. . . . . . . . . . . . . .
4.8. Oración dada como input . . . . . . . . . . . . . . . . . . . . . . .
4.9. Oración dada analizada. . . . . . . . . . . . . . . . . . . . . . . . .
4.10.Análisis en estructuras de LFG. . . . . . . . . . . . . . . . . . . . .
4.11. Interfaz de la herramienta de desarrollo de gramáticas XLE. Ejemplo de una frase agramatical. . . . . . . . . . . . . . . . . . . . . .
4.12.Subestructura de rasgos para un artículo definido. . . . . . . . . .
4.13.Subestructura de rasgos para un sustantivo masculino. . . . . . .
4.14.Unificación de dos subestructuras de rasgos. . . . . . . . . . . . .
4.15.Estructura-c para la frase el chico es alto. . . . . . . . . . . . . . .
4.16.Estructura-f final para la oración el chico es alto. . . . . . . . . . .
4.17.Interfaz cuando no se reconoce la entrada. . . . . . . . . . . . . .
4.18.Análisis de un sujeto nulo ambiguo. . . . . . . . . . . . . . . . . .
4.19.Selección de entradas de acuerdo a la estructura-a. . . . . . . . .
4.20.Estructura-f de la frase el chico publica un libro. . . . . . . . . . . .
4.21.Estructura-c de la frase el chico publica un libro. . . . . . . . . . .
ix
. 124
. 126
. 128
. 129
. 132
. 133
. 138
. 138
. 139
. 139
. 139
. 140
. 140
. 141
. 141
. 142
. 155
. 158
. 158
. 158
. 159
. 160
. 161
. 161
. 162
. 164
. 166
Lista de abreviaturas
A
agr
cat
CD
CI
col
COMP
conjP
coP
CP
DP
ECM
en
FOC
fr
GB
gend
GF
i. e.
INIL
IP
LFG
N
NLP
NP
num
obj
p. ej.
Adjetivo
Concordancia (del inglés agreement)
Categoría
Complemento Directo
Complemento Indirecto
Colaboradores
Complementizador
Sintagma Conjuntivo (del inglés Conjunction Phrase)
Sintagma Conjuntivo según De Vries (2005) (del inglés Conjunction Phrase)
Sintagma Complementizador (del inglés Complementizer Phrase)
Sintagma Determinante (del inglés Determinant Phrase)
Verbos de marcaje excepcional (del inglés Exceptional Case Marking)
Inglés. Abreviatura según código ISO 639-1
Foco
Francés
Rección y Ligamiento (del inglés Government and Binding)
Género (del inglés gender)
Función Gramatical (del inglés Grammatical Function)
Esto es (del latín id est)
Instituto de Investigaciones Lingüísticas de la Universidad de Costa Rica
Sintagma de la Inflexión (del inglés Inflectional Phrase)
Gramática Léxico Funcional (del inglés Lexical Functional Grammar)
Nombre
Natural Language Processing
Sintagma Nominal (del inglés Nominal Phrase)
Número (del inglés number)
Objeto
Por ejemplo
x
P&P
PLN
PP
PRED
sn
Spec
SUJ
SVO
TOP
TopP
TP
VP
XP
Modelo de Principios y Parámetros
Procesamiento del Lenguaje Natural
Sintagma Preposicional (del inglés Prepositional Phrase)
Predicación
Sintagma Nominal
Especificador (del inglés specifier)
Sujeto
Sujeto-Verbo-Objeto
Tópico
Sintagma Topical (del inglés Topic Phrase)
Sintagma Temporal (del inglés Temporal Phrase)
Sintagma Verbal (del inglés Verbal Phrase)
Sintagma X (del inglés X Phrase)
xi
”’Linguists who are aproaching a language for the first time will have to make their
way as best they can; in any case, their findings will most likely be rewritten many
times by those who come after them. With the pleasure of being the first goes the
certainty of being wrong, which is the converse of the cumulative principle: the
more that is known about a language, the more we can find out about it.”
William Labov
Some Principles of Linguistic Methodology, 1972
xii
1
Capítulo 1
Introducción
El procesamiento del lenguaje natural (PLN o NLP como se conoce por sus
siglas en inglés) se ocupa de implementar modelos computarizados de la información con el fin de realizar tareas específicas de análisis y generación por medio
de algoritmos (Wehrli 1997). Es el objeto de estudio de la lingüística computacional, interesada en la creación de modelos del lenguaje para su implementación
en aplicaciones diversas, tales como la traducción automática
1
o la respuesta
automática2 , diseñado para explotar enormes bases de datos con el fin de responder a preguntas específicas hechas en lenguaje natural. Es, por lo tanto, un
área de estudio interdisciplinaria que combina los procedimientos teóricos y empíricos provenientes de la informática con las diferentes aproximaciones teóricas
y métodos de estudio de la lingüística (Wehrli 1997).
Con el fin de efectuar operaciones computacionales en lenguaje natural, se
1
Un ejemplo concreto de implemantación de traducción automática lo consituye el conocido
sistema de traducción estadística Google Translate (http://translate.google.com/; última visita: 07-07-2012), o el sistema de traducción híbrida Systran (http://www.systran.fr/; última
visita: 07-07-2012).
2
Un ejemplo concreto es el sistema Start (http://start.csail.mit.edu/; última visita: 0707-2012) desarrollado por el Massachusetts Institute of Technology (MIT) (http://web.mit.edu/;
última visita: 07-07-2012).
2
CAPÍTULO 1. INTRODUCCIÓN
recurre a su representación por medio de formalismos. De acuerdo con Galicia
y Gelbukh (2007), se han establecido dos métodos para describir formalmente la
gramaticalidad de una lengua: las dependencias y los constituyentes. El primero
establece relaciones semánticas entre pares de unidades léxicas, donde una es
subordinada o dependiente de la otra hasta formar una estructura jerárquica o
árbol de dependencias con todas las palabras de la oración.
Nuestro trabajo se sitúa en el segundo método, es decir, bajo la aproximación
por constituyentes, cuya corriente principal es la iniciada por N. Chomsky en 1957
con su libro Syntactic Structures. En ella, las oraciones se consideran compuestas
por sintagmas3 definidos según las especificaciones contempladas en las reglas
gramaticales. La descripción semántica no existe por no considerarse ligada a la
privilegiada descripción sintáctica (Galicia y Gelbukh 2007).
En particular, nuestro interés está en la descripción formal de nuestra unidad
de análisis, la frase simple, entendida como aquella frase u oración que no tiene
alteraciones en el orden canónico de los sintagmas. Nuestra definición se basa
en la estructura de la frase propuesta por el esquema X̄ (Haegeman 1991) y se
explica con detalle en la sección 1.5.1: La estructura de frase. En este sentido,
los términos oración y frase serán utilizados indistintamente en las páginas que
siguen.
Bajo el enfoque por constituyentes, existe un número finito de palabras con el
cual es posible generar un número infinito de oraciones mediante las reglas definidas en una gramática, concebida como un sistema formal. En otras palabras,
por medio de un conjunto de reglas explícitas que transforman una cadena de
símbolos de entrada (input) en una cadena de símbolos de salida (output) (Wehrli
1997). A lo largo del desarrollo de la lingüística computacional, han surgido nume3
Constituyentes que forman una unidad distribucional. El grupo nominal, el grupo preposicional,
el grupo verbal, entre otros, son ejemplos de sintagmas (Laenzlinger 2003).
3
rosos formalismos y modelos diferentes, entre ellos la Gramática Léxico Funcional
o LFG4 . Este formalismo fue iniciado por Bresnan y R. Kaplan (1982), como se
explica con detalle en la sección 1.5: Marco teórico.
En este capítulo nos proponemos introducir al lector en materia de análisis
sintáctico desde el formalismo LFG. Primeramente, presentamos el panorama de
la lingüística computacional en el contexto general del país (sección 1.1: Justificación), luego, la problemática que esto conlleva en términos de nuestra investigación (sección 1.2: Problema) y los objetivos que nos hemos trazado (sección:
1.3: Objetivos). Seguidamente, damos cuenta del estado de la investigación sintáctica del español desde el formalismo de nuestro interés. Al respecto, hemos
encontrado que existen pocos estudios del español en el marco del formalismo
LFG, tal como exponemos en la sección (1.4: Estado de la cuestión). Por último,
explicamos con detalle los componentes de LFG (sección 1.5: Marco teórico).
4
La sigla LFG responde al nombre del formalismo en inglés . Por conveniencia en la utilización
de los términos, en este trabajo usaremos las siglas correspondientes a la nomenclatura en inglés.
La lista completa de equivalencias puede ser consultada en la Lista de Abreviaturas proporcionada
al inicio de este documento.
4
CAPÍTULO 1. INTRODUCCIÓN
1.1. Justificación
Los métodos simbólicos, una de las dos aproximaciones más importantes en
el campo de la lingüística computacional, dominaron el panorama del procesamiento del lenguaje natural hasta hace aproximadamente 30 años. Luego, hacia
finales de la década de 1980 y principios de 1990, gracias a la disponibilidad de
grandes cantidades de texto electrónico, el desarrollo de computadoras de mayor
capacidad y memoria y, por supuesto, el advenimiento de la internet, la lingüística
computacional disfrutó de un crecimiento y progreso acelerados.
Tal avance se produjo de la mano del empleo y refinamiento de los métodos estocásticos, pues se consolidaron como la segunda aproximación mayoritaria dentro del campo de la lingüística computacional. Los sistemas estocásticos probaron
que podían resolver con éxito problemas genéricos como el etiquetado automático y la desambigüización de palabras -tareas que continúan vigentes- con menor
necesidad de conocimiento experto. Esto significó una considerable reducción del
trabajo lingüístico humano (Hutchins 1986).
Los métodos estocásticos crean modelos estadísticos derivados de grandes
conjuntos de textos o corpus usando diversas técnicas de aprendizaje automático.
Se trata de verdaderos modelos estadístico-inferenciales, razón por la cual, a la
vez que los sistemas de base estadística se asentaban, se desarrollaron múltiples
corpus anotados necesarios para su entrenamiento5
Los corpus anotados se consiguen a través de etiquetas POS (Part-of-Speech
tags por sus siglas en inglés). Se trata de etiquetas que incluyen información variada definida según el propósito de cada corpus. Generalmente, incluyen infor5
Por entrenamiento nos referimos a la exposición del algoritmo de aprendizaje a ejemplos, en
forma de un corpus anotado, que ilustren las relaciones o características de las variables bajo
estudio. El fin último, es lograr que el sistema pueda reconocer tales relaciones en datos desconocidos luego del entrenamiento. En otras palabras, que pueda inducir nuevo conocimiento a
partir del entrenamiento.
1.1. JUSTIFICACIÓN
5
mación sobre la categoría gramatical, el género, el número o el rol semántico.
El corpus Penn TreeBank 6 , por ejemplo, contiene 36 tipos diferentes de etiquetas con información léxica y sintáctica y 12 con los signos de puntuación y los
símbolos de dinero (Marcus, Santorini y Marcinkiewicz 1993).
A partir de un corpus anotado es posible inducir estadísticamente las reglas
gramaticales de una lengua en particular.7 Este método, como acabamos de mencionar, necesariamente debe contar con una gran cantidad de datos en forma de
corpus anotados para poder entrenar adecuadamente un sistema estadístico; de
lo contrario, el resultado será más bien pobre (Mohri 2005). Sin embargo, en el
caso del español, hemos constatado una insuficiencia de recursos, tal como lo exponemos con detenimiento en el Estado de la cuestión (sección 1.4). La cantidad
tanto de corpus anotados como de sistemas capaces de procesar el español (tal
como los analizadores sintácticos) es poca en sí, pero se reduce aún más cuando
se considera que una buena parte no cuenta con versiones de libre acceso para su uso. El corpus CAST3LB, por mencionar un caso, está construido usando
estructuras-f8 de LFG, pero actualmente no se encuentra disponible ni en línea ni
bajo licencia (Chrupała y Genabith 2006).
El análisis sintáctico constituye la base de numerosas aplicaciones en el campo, puesto que determina la estructura sintagmática de las oraciones. En otras
palabras, descompone la oración en partes, de forma que sea posible calcular las
diferentes interpretaciones semánticas y pragmáticas a partir de ellas. Por citar un
6
http://www.cis.upenn.edu/~treebank/; última visita: 01-06-2012
La inducción de reglas es una de las técnicas de aprendizaje automático más utilizadas. Consiste en la extracción de regularidades que satisfagan una definición formada por un grupo de
condiciones. Estas condiciones generalmente tienen la forma:
7
si (atributo1, valor1) y (atributo2, valor2, y …y (atributo n, valor n) entonces (decisión, valor)
(Langley y Simon 1995; Grzymala-Busse y J.Grzymala-Busse 2005).
8
Se trata de la estructura funcional, una de las tres estructuras pilares de LFG.
6
CAPÍTULO 1. INTRODUCCIÓN
ejemplo, una primera fase de análisis léxico-sintáctico debe ser capaz de desambiguar los diferentes valores de verbo y conjunción de la palabra ”como”, con el
fin de no propagar un error a otros niveles del sistema (Wehrli 1997).
Con esto en cuenta, nos hemos inclinado por una aproximación simbólica para
nuestro estudio por dos razones fundamentales. En primer lugar, porque el análisis sintáctico es necesario como fondo y soporte de un sistema de procesamiento
del lenguaje natural con miras a desarrollar aplicaciones diversas. Segundo, porque permite la elaboración de gramáticas a base de reglas de reescritura o reglas
libres de contexto con una fuerte motivación lingüística.
Las gramáticas a base de reglas requieren de un formalismo matemáticamente
válido para su desarrollo. Entre los diferentes formalismos disponibles tales como
HPSG9 (Pollard y Sag 1994), formalismo de unificación de estructuras de rasgos,
o TAG10 (Joshi, Levy y Takahashi 1975), formalismo de unificación de árboles sintácticos, entre muchos otros, LFG, desarrollado por Bresnan y R. Kaplan (1982),
ha demostrado ser matemáticamente coherente y lingüísticamente sólido.
Por sus propiedades distintivas, hemos decidido tomar a LFG como base de
análisis de nuestro estudio. LFG es un formalismo de carácter fuertemente lexicalista, por lo que los rasgos contenidos en el lexicón son directamente generados a partir de las unidades léxicas (palabras), hecho que los convierte en entes
fundamentales para dar cuenta del comportamiento sintáctico de las lenguas, tal
como se explica con detalle en la sección 2: El lexicón y su tipología. Asimismo,
las estructuras-f de LFG proporcionan un nivel de representación sintáctica que
es lo suficientemente abstracto y uniforme para analizar lenguas tipológicamente
disímiles entre sí.
Aunado a esto, el programa XLE se escogió para el desarrollo del trabajo por9
10
Head-Driven Phrase Structure Grammar.
Tree Adjoining Grammar.
1.1. JUSTIFICACIÓN
7
que es una plataforma concebida para la implementación de gramáticas escritas
usando LFG de fácil aprendizaje y uso. Fue concebida como un proyecto conjunto entre el grupo NLTT en laboratorio PARC - XEROX y el grupo MLTT en la
Universidad de Grenoble, comenzando su desarrollo a partir de octubre de 1993
(http://www2.parc.com/isl/groups/nltt/xle/).
El hecho de permitir la producción de una gramática lingüísticamente robusta
también se encuentra entre los beneficios de desarrollar el trabajo desde una aproximación simbólica. Efectivamente, tal como ha sido demostrado por Gulati (2011)
para el caso de la traducción automática, las mejoras hechas por un sistema estadístico sobre un sistema a base de reglas resultan en mejores traducciones que
lo inverso, esto es, un sistema de traducción estadístico con mejoras hechas por
un sistema a base de reglas. Un ejemplo de este tipo de sistemas híbridos es el
trabajo realizado por Russo, Loáiciga y Gulati (2012). En este se mejoró la traducción de los sujetos nulos del español y el italiano hecha por Its-2 –traductor
simbólico (Wehrli, Nerima y Scherrer 2009)– usando un sistema estadístico como
post-editing11 .
Además de la falta de análisis desde el formalismo LFG, también hemos topado con una escasez de análisis formales del español que puedan ser utilizables
computacionalmente. Existen algunos trabajos, como el de Estigarribia (2005) que
proporcionan una descripción lingüística de un aspecto en particular, en este caso
de los pronombres clíticos, pero que no cuentan con una verdadera formalización
computacional. En la introducción a su libro Investigaciones para el análisis sintáctico del español, Galicia y Gelbukh (2007) también señalan esta carencia de
recursos.
11
Este procedimiento se conoce como Statistical Post-Editing y su popularidad comenzó con
los trabajos de Simard, Goutte e Isabelle (2007) y Simard, Ueffing y col. (2007) sobre el traductor
automático comercial Systran (http://www.systran.fr/; última visita 07-07-2012).
8
CAPÍTULO 1. INTRODUCCIÓN
En el contexto costarricense, el procesamiento del lenguaje natural se desa-
rrolla en la Universidad de Costa Rica. Al respecto, Leoni de León (2010) solo
encuentra dos trabajos en el área y ambos provienen de la Escuela de Computación e Informática. El primero es una tesis de maestría presentada por Berrocal
Rojas (2009) sobre la automatización parcial de la revisión de software escrito en
lenguaje natural. El segundo también se trata de una tesis de maestría presentada
por Cedeño Baltodano (2009), quien hizo una comparación de dos aplicaciones
de visualización de mapas conceptuales.
Aparte de estos trabajos, en la Universidad de Costa Rica no disponemos de
analizadores sintácticos, así como de ningún otro sistema de procesamiento del
lenguaje natural. Actualmente, el proyecto IPROCOLDI –aún en desarrollo– del
Instituto de Investigaciones Lingüísticas (INIL) se propone crear una interfaz para
la explotación de corpus lingüísticos. En lo que a la Escuela de Filología, Lingüística y Literatura concierne, en el nivel de bachillerato se ofrece el curso de Tecnología y Producción Textual desde el año 2002. Su posgrado asociado, el Programa
de Posgrado en Lingüística cuenta con variedad de subdisciplinas lingüísticas;
sin embargo, no es sino hasta el 2009 que cursos sobre lingüística computacional
son impartidos regularmente como parte de la oferta académica.
El presente trabajo nace dentro del concluido proyecto 745-A8-188 del INIL:
”Modelización computacional del lenguaje: representaciones, métodos y aplicaciones”, el cual buscaba sentar las bases de la modelización computacional de
las lenguas naturales habladas en Costa Rica, las cuales incluyen el español y
otras lenguas minoritarias tales como el bribri y el guatuso.
Nosotros nos dedicamos al español como lengua de estudio por dos razones
principales. En primer lugar, se trata de la lengua mayoritaria hablada en nuestro
país. Luego, en el ámbito del PLN, después de un recorrido por la fuentes, hemos
1.1. JUSTIFICACIÓN
9
confirmado que a pesar de tratarse de la segunda lengua más importante en el
mundo, pues cuenta con aproximadamente 328 millones de hablantes nativos y
con cerca de 60 mil millones de hablantes como L212 , los recursos formales e
informáticos disponibles son más bien escasos.
Nuestra propuesta se presenta como un proyecto de tipo exploratorio en su
área. La falta de un análisis formal, coherente e integral para la sintaxis del español de libre acceso y explotable computacionalmente, nos ha llevado a trazarnos
como objetivos el entendimiento y modelización de lo más fundamental para una
gramática: la frase simple. Partiendo de nuestra selección del formalismo LFG
como medio de análisis, nos hemos planteado varias preguntas:
- ¿Cuáles son las reglas gramaticales de la frase simple en español en LFG?
- ¿Cuáles son los rasgos pertinentes para la sintaxis española según el formalismo LFG?
- ¿Qué beneficios se pueden obtener a partir del análisis de las particularidades del español?
A partir de lo anterior, nos proponemos determinar cuál es la estructura de la
frase simple en español con miras a una propuesta de procesamiento automático
con el fin de determinar la eficacia del formalismo utilizado.
12
Según datos de http://www.ethnologue.com/show_language.asp?code=spa; última visita:
01-03-2012.
10
CAPÍTULO 1. INTRODUCCIÓN
1.2. Problema
Dada una arquitectura gramatical fuertemente lexicalista como LFG,
¿cuál definición gramatical de la frase simple de la lengua española permite verificar su pertinencia?
1.3. Objetivos
1.3.1. Objetivo General
Representar la frase simple del español a partir de un análisis formal según
LFG.
1.3.2. Objetivos Específicos
- Identificar los fenómenos característicos de la frase simple del español.
- Describir la estructura de la frase simple del español con atención en sus
características distintivas.
- Formalizar los fenómenos sintácticos identificados.
- Verificar la adecuación de la formalización en una aplicación computacional.
1.4. Estado de la cuestión
En esta sección detallamos la investigación disponible sobre la sintaxis española en el marco del formalismo LFG. Se consideran otros estudios pertinentes
1.4. ESTADO DE LA CUESTIÓN
11
aunque no versen directamente sobre análisis sintáctico del español utilizando el
formalismo de nuestro interés.
Además, presentamos los analizadores sintácticos o parsers de diversos grupos de investigación que trabajan sobre el procesamiento del español. Nuestro
trabajo se centra en el análisis automático de la sintaxis española, razón por la
cual entender el funcionamiento de los parsers existentes resulta fundamental.
Dentro del campo de la lingüística computacional, se pueden encontrar dos
grandes líneas de investigación bien diferenciadas entre sí. Por un lado se encuentran los métodos simbólicos o lingüísticos. Como su nombre lo indica, se
trata de una aproximación con una fuerte base lingüística que representa el lenguaje natural basada en los niveles del proceso lingüístico: morfología, sintaxis y
semántica (Galicia y Gelbukh 2007).
Los métodos estocásticos o estadísticos, por otro lado, obtienen los datos lingüísticos como resultado del análisis estadístico-inferencial de modelos probabilísticos y matemáticos aplicados a grandes conjuntos de corpus anotados. La
robustez de los sistemas estadísticos ha propiciado un enorme desarrollo de los
corpus anotados, pues son necesarios para su entrenamiento (Manning y Schütze
1999).
Si bien nosotros situamos nuestro estudio desde la línea simbólica, en esta
sección también hacemos un recorrido por las principales propuestas de análisis del español desde la aproximación estadística. Asimismo, nos referimos a los
corpus anotados.
1.4.1.
Estudios formales del español basados en LFG
Un aspecto en particular que se ha estudiado ampliamente en diferentes lenguas romances lo constituyen los pronombres clíticos. El español, como parte de
12
CAPÍTULO 1. INTRODUCCIÓN
esta familia de lenguas, ha sido objeto de varios análisis relativos a fenómenos
tales como la duplicación de los clíticos en oraciones como (1), o la subida de los
clíticos, como en el caso de (2).
(1) Carmen lo vio al árbitro.
(2) Carmen quiere dárselo. vrs. Carmen se lo quiere dar.
Siguiendo a Kayne (1975), podemos definir los pronombres clíticos como pronombres débiles (3a), que no pueden ser coordinados (3b), y que deben ser adyacentes al verbo que les sirve de anfitrión (3c).
(3)
a.
* Yo te hablo, no le.
Te hablo, no a él.
b.
* Yo te y le hablo.
Yo te hablo a ti y a él.
c. Yo lo (*ahora) digo.
Yo lo digo ahora.
Dado que la naturaleza de los pronombres clíticos implica una compleja interrelación de la morfología, la sintaxis y la prosodia, de acuerdo con Holloway (2005),
quedan todavía vacíos de información sobre la interacción de los componentes
de la lengua para entender adecuadamente su funcionamiento. Su posición sintagmática se ha explicado desde la prosodia o bien desde la sintaxis, y también
existen análisis que combinan ambos niveles (Halpern 1995).
Particularmente sobre los clíticos en español, Estigarribia (2005) analiza el
caso de la variedad rioplatense. Esta se caracteriza por el uso generalizado de la
duplicación de los pronombres clíticos de objeto directo (la, lo, las, los) (4a), en
oposición a la variedad estándar sin duplicación (4b).
1.4. ESTADO DE LA CUESTIÓN
(4)
13
a. La vi a María.
b. Vi a María.
Con el fin de explicar la motivación de la duplicación y su función, el autor
utiliza la teoría de la optimidad (OT-LFG). La teoría de la optimidad es una corriente dentro de LFG que versa sobre la interacción de restricciones -universales
y violables- como causa de los diferentes fenómenos sintácticos (Bresnan 1998).
El autor propone tres restricciones importantes como causantes de la duplicación
de clíticos: la anaforicidad tópica, la recuperabilidad y la economía de la expresión. De modo que la duplicación de clíticos ocurre cuando la expresión tanto de
un clítico como de una frase nominal es la respuesta óptima a las restricciones
independientes de cada uno de ellos.
Estigarribia (2005) trabaja con un corpus bastante extenso tomado de textos
variados. Sus datos se componen de estructuras de LFG aumentadas con una
lista de prominencia para codificar el estatus de los referentes. Esta se actualiza
cada vez que se produce un enunciado para operacionalizar la topicalidad eficientemente. La lista de prominencia es una formalización en la que las entidades se
enlistan jerárquicamente desde la más prominente hasta la menos prominente en
un enunciado para asegurar su recuperabilidad por medio de anáforas. Es decir, si se tienen varios elementos, el sujeto, por ejemplo, al ser el argumento más
prominente, va a encontrar su referente en la entidad más prominente de la lista.
Por ejemplo, en la frase (5), el clítico aparece como la solución óptima, ya que su
referente es prominente y recuperable en el enunciado inmediatamente anterior
(Estigarribia 2005).
(5)
Uno se va con el problema. No lo dejás acá.
14
CAPÍTULO 1. INTRODUCCIÓN
Este estudio evalúa su teoría con 6 lenguas hipotéticas que podrían tener refe-
rente en las lenguas del mundo para probar que realmente responde a los requerimientos interlingüísticos de OT-LFG. Al tratarse de un estudio desde la Teoría
de la Optimidad, este no ofrece ningún tipo de descripción estructural de la frase.
Mayer (2008) presenta y discute la relación entre la concordancia de objeto de
la duplicación de clítico y el marcaje de objeto directo con el marcaje de tópico en
las variedades no estándares del español limeño13 . Una de las características de
estas variedades es que utilizan mayormente un único clítico, lo, para marcar la
concordancia anafórica en las construcciones con duplicación de clítico, en lugar
de los otros pronombres correspondientes según el caso (la, las, los). Esto es
una estrategia semántica y pragmática para hacer del objeto principal el acusativo,
extendiendo así el marcaje de objeto directo a las entidades no animadas y usando
un pronombre que no concuerda como marcador de tópico/transitividad, tal como
se ve en el ejemplo (6) (Mayer 2008):
(6) Loi /*lai frío a la cebollai
Según este estudio, en (6), el objeto directo está marcado por la preposición
a, usualmente reservada para las entidades animadas. Además, se reduplica por
medio del clítico lo, en lugar del clítico femenino la, como en la variedad estándar,
aún cuando este no concuerde con el objeto.
Por otro lado, el dativo es un marcador de concordancia gramatical pronominal,
mientras que el acusativo, al ser vaciado de sus propiedades referenciales, se
reduce a un tópico (TOP) y se convierte en un pronombre tópico anafórico sin
clasificaciones de concordancia, como se ve en el ejemplo (7). En este caso, el
dativo concuerda tan solo en número con el objeto directo, pues los pronombres
13
Es decir, del español andino, español peruano ribereño o limeño, español andino-ribereño o
neolimeño, español amazónico y ecuatorial.
1.4. ESTADO DE LA CUESTIÓN
15
de dativo se encuentran desprovistos de morfología de concordancia de género
(Mayer 2008).
(7)
Pero ya no lei /*lai frito [sic.] a la yucai
En otras palabras, existe una relación entre la concordancia de objeto, el marcaje de objeto directo y el marcaje de tópico secundario en las variedades en
contacto del español limeño. El hecho de que los clíticos de objeto directo se
hayan gramaticalizado sin sus valores de concordancia es atribuido por Mayer
(2008) a la confluencia de múltiples factores, entre ellos el cambio diacrónico y la
pragmática. Según su análisis, se trata de un nuevo caso acusativo, motivado por
la competencia del dativo y del acusativo por el mismo espacio en las oraciones
transitivas. En este estudio, el enfoque es desde los componentes semántico y
pragmático.
Por otra parte, Grimshaw (1999) presenta una investigación sobre los pronombres clíticos en las lenguas romances; específicamente, sobre el español, el italiano y el francés. Ella propone que los clíticos se pueden analizar mejor como una
función de un conjunto de restricciones morfosintácticas, de fidelidad, marcaje y
alineación. En otras palabras, también se trata de la interrelación de restricciones
variadas, es decir, de un acercamiento desde la teoría de la optimidad, OT-LFG.
Asimismo, Leoni de León (1999) estudia los pronombres clíticos del español
desde la teoría de Rección y Ligamiento. Él expone el análisis sintáctico de los
diferentes tipos de pronombres clíticos (acusativo, dativo, inherentes y éticos) incluyendo su posición sintagmática y la duplicación. También, aborda la sintaxis
de otros fenómenos típicos del español, es decir, el leísmo, laísmo y loísmo, la
transferencia de plural y la concordancia del plural en el dativo. Por último, explica cómo funciona el tratamiento automático de los fenómenos mencionados en
el sistema IPS, precursor del analizador sintáctico FIPS (Wehrli 2007), el cual se
16
CAPÍTULO 1. INTRODUCCIÓN
explica con detalle en la sección siguiente, Parsers.
Posteriormente, Leoni de León y Michou (2006) retoman el análisis de los pronombres clíticos del español en FIPS con el propósito de mostrar que su estrategia
de análisis es igualmente válida para el griego. El tratamiento en FIPS comprende
dos etapas: la adjunción a la derecha o a la izquierda y la interpretación. Después
de que el pronombre clítico es identificado, es decir leído por el analizador sintáctico, se adjunta a la cabeza de la estructura verbal y simultáneamente se inserta en
una estructura temporal. Cuando el verbo es leído por el analizador sintáctico, el
sistema llama a la estructura temporal e interpreta todos los clíticos en ella según
el esquema de subcategorización del verbo del que se trate.
Desde una perspectiva más semántica, otro tema analizado de manera aislada
es el de los verbos psicológicos. Vanhoe (2002) expone, por medio de la Teoría
del Mapeo Léxico14 , un análisis de los verbos sicológicos del tipo gustar, temer
y preocupar. Estos verbos presentan diferencias en su forma de codificación de
los roles temáticos y sus funciones gramaticales a nivel sintáctico, a pesar de
ser temáticamente equivalentes. Se trata de una teoría interesada en las posibles
correspondencias entre los roles temáticos y las funciones sintácticas.
Vanhoe (2002), siguiendo a Dowty (1991), presenta otro estudio partiendo del
hecho de que los verbos télicos (o completivos) se pueden dividir en dos subeventos distintos. Haciendo una modificación a las propuestas de proto-rol agente y
proto-rol paciente desarrolladas por Dowty (1991), asigna un participante a cada
subevento. De esta forma, el participante con el rol temático más prominente es
asignado a un primer subevento (propiedad de proto-agente) y el participante con
el segundo rol temático más prominente es asignado a un segundo subevento
(propiedad de proto-paciente). Además jerarquiza las propiedades de tal manera
14
Lexical Mapping Theory.
1.4. ESTADO DE LA CUESTIÓN
17
que se haga una distinción entre sujeto, causa o experimentador. Las modificaciones que Vanhoe (2002) hizo a los proto-roles resultaron en un análisis más
consistente de los objetos indirectos y un breve acercamiento al fenómeno del
leísmo en las construcciones con verbos sicológicos.
Por último, desde una aproximación lexicográfica, en su tesis doctoral, Leoni
de León (2008) estudia el fenómeno de las unidades léxicas pluriverbales del español (multiword expressions) y propone una representación informática. Leoni de
León (2008) empieza por desenmarañar el concepto palabra, de modo que define
las unidades fraseológicas en vocablos, lexemas y morfolexemas. Luego, organiza estas unidades de acuerdo con una tipología de tres clases: colocaciones,
fusiones temáticas y unidades léxicas plurimembres, centrándose sobre estas últimas para construir un diccionario sintáctico.
Con base en la previa definición de las unidades fraseológicas, Leoni de León
(2008) define un sistema de notación formal llamado Tsool que facilita su identificación. Este sistema explota tanto la base de datos, como el etiquetador del parser
FIPS (Wehrli 2007). Tsool, en tanto que sistema de notación, permite reconocer
las diferentes alternancias que una misma unidad fraseológica pueda presentar.
Por ejemplo, una expresión idiomática puede aparecer tal cual (8a), o bien pasivizada (8b), o incluso cliticizada (8c). Esta representación está basada en rasgos,
inspirada de las estructuras-f usadas en LFG.
(8)
a. Meter la pata.
b. La pata fue metida.
c. La metió hasta el fondo.
18
CAPÍTULO 1. INTRODUCCIÓN
Luego, usando Tsool, a través de la notación en XML15 , el autor implementa
Mulkin. Este es un sistema que funciona a modo de diccionario fraseológico (nótese que los términos de tal diccionario fueron definidos sintácticamente) y cuenta
con una interfaz llamada Kaxan.
1.4.2. Parsers
Un parser o analizador sintáctico16 es un sistema automático capaz de asignar
a un texto de entrada (una frase por ejemplo) un conjunto de representaciones
formales (Wehrli 1997). Estas representaciones son el resultado de un análisis
determinado por el propósito del parser, de modo que existen parsers de diversas índoles, tales como morfológicos, sintácticos, semánticos, de colocaciones,
etc. En el caso de un parser sintáctico, el tipo de representación varía según el
formalismo que se utilice.
En cuanto a los parsers, suele distinguirse entre el análisis sintáctico profundo
y el análisis sintáctico superficial. Tal como sus nombres lo indican, la diferencia
radica en cuánto se explora o analiza la relación entre los constituyentes de la
oración. El análisis superficial se limita a identificar los constituyentes de frase (p.
ej. NP, VP) pero no especifica su estructura interna o su función en la oración (p.
ej. sujeto, objeto). Por el contrario, el análisis profundo se orienta a la elaboración
de gramáticas, por lo que incluye información sintáctica (p. ej. subcategorización
verbal, relación entre constituyentes) y semántica (p. ej. roles temáticos) detallada. Esta variante, sin embargo, implica gran cantidad de trabajo manual, pues
requiere de conocimiento lingüístico experto o humano.
15
Lenguaje de etiquetado que permite la lectura de datos a través de diferentes aplicaciones.
Fue desarrollado por W3C (http://www.w3schools.com/xml/; última visita 07-07-2012.).
16
De aquí en adelante estos dos términos serán usados indistintamente en el desarrollo del
trabajo.
1.4. ESTADO DE LA CUESTIÓN
19
FIPS (Wehrli 2007) es un parser de tipo simbólico, desarrollado por el Laboratorio de Análisis y Tecnología del Lenguaje (LATL) de la Universidad de Ginebra17 .
Se trata de un analizador sintáctico profundo, multilingüe, de inspiración chomskyana pero que también integra conceptos de corrientes tales como LFG (Bresnan
2001) y Simpler Syntax (Culicover y Jackendoff 2005). Como otros parsers, FIPS
cuenta con un etiquetador morfológico el cual desambigua los diferentes valores
léxicos de una misma palabra a la hora de un análisis. Además, su lexicón se divide en cuatro diferentes subgrupos, los cuales comprenden i) palabras, ii) lexemas,
iii) colocaciones y iv) variantes ortográficas (Wehrli y Nerima 2009).
Cada sintagma analizado por FIPS tiene una estructura de tres subconstituyentes: subconstituyente izquierdo, cabeza18 y subconstituyente derecho (9). A
pesar de que la representación es horizontal por motivos de espacio (10), es equivalente a una representación arbórea (11).
(9)
(10)
[XP constituyente-izquierdo X constituyente-derecho]
Carmen escribe y publica mucho.
[TP [TP [DP Carmen ] escribe [VP ]][ConjP y ] publica [VP [DP mucho ]]]
(11)
TP
TP
Dp
VP
ConjP
VP
DP
El proceso de análisis ocurre de la siguiente manera. El input se lee de izquierda a derecha, cuando el analizador lee una cabeza léxica de tipo X, un estructura
arborescente de tipo XP19 es proyectada. La estrategia de análisis utilizada es
17
http://www.latl.unige.ch/; última visita 07-07-2012.
Véase 1.5.1: Algunas nociones de base.
19
Recordamos al lector que en este trabajo mantenemos el uso de los términos según su no18
20
CAPÍTULO 1. INTRODUCCIÓN
de izquierda a derecha con tratamiento paralelo de las alternativas. Esta combina un procedimiento ascendente con un filtro descendente en su estrategia de
adjunción de esquina derecha. Luego, cada proyección es combinada parcial o
totalmente con cualquier nodo activo. Las adjunciones son validadas por medio
de las propiedades léxicas descritas en el lexicón (Wehrli 2007; Leoni de León,
Schwab y Wehrli 2008; Wehrli y Nerima 2009).
En la figura 1.1 se presenta un ejemplo del tipo de output que FIPS produce.
Se puede observar que produce estructuras de constituyentes (del tipo mostrado
en el ejemplo (10)). TXALA (explicado en los párrafos siguientes), por el contrario,
produce árboles de dependencias, como muestra la figura 1.2. Ambos muestran
las relaciones de los constituyentes de la frase entre sí. Se diferencian en que
los árboles de constituyentes son de base sintáctica, mientras que los árboles de
dependencias son de base semántica (Kübler, McDonald y Nivre 2009).
Para el 2007, FIPS contaba con un total de 22,500 lexemas, 260,000 vocablos
y 320 colocaciones en su lexicón del español. Además, una evaluación con 40,000
oraciones aproximadamente, dio como resultado un 56.87 % de análisis correctos
(Wehrli 2007).
FREELING (Lluís Padró 2011) es una plataforma con múltiples herramientas
para el análisis lingüístico también de acceso libre en internet. Cuenta con un parser sintáctico igualmente multilingüe, así como con un analizador morfológico y
un etiquetador. La versión más reciente (3.0) cuenta con mejoras en su arquitectura general, incluyendo su interfaz, así como en los mecanismos de aprendizaje
automático para extracción de reglas.
Para el 2006, el lexicón de FREELING contaba con 6 500 lemas para el español. Su arquitectura interna cuenta con dos tipos de objetos: los de tipo linmenclatura en inglés. La lista completa de equivalencias puede ser consultada en la Lista de
Abreviaturas proporcionada al inicio de este documento.
1.4. ESTADO DE LA CUESTIÓN
Figura 1.1: Output del analizador FIPS.
21
22
CAPÍTULO 1. INTRODUCCIÓN
Figura 1.2: Output del analizador TXALA.
1.4. ESTADO DE LA CUESTIÓN
23
güístico y los de procedimientos. Los lingüísticos incluyen análisis (lema, etiqueta
POS, sentidos semánticos y probabilidad), palabra (una palabra con una lista de
posibles análisis, y oración (con un árbol de dependencias). Los procedimientos
que transforman esos datos son: tokenizador20 , separador de oraciones, anotador
morfológico, etiquetador, clasificador de sustantivos, desambiguador y analizador
de dependencias. Atserias, Casas y col. (2006) y Carrera y col. (2008) explican
que el funcionamiento de FREELING se da en tres etapas: división de la oración,
análisis morfológico y análisis superficial.
TXALA es un parser de dependencias para el español desarrollado como una
adaptación a partir de FREELING. TXALA es el último módulo dentro de FREELING, dedicado al análisis de dependencias basado en reglas. El procedimiento
de TXALA se da como sigue. Primero, utilizando reglas definidas por lingüistas,
se completan las secuencias parciales del análisis de FREELING para obtener un
árbol completo. Luego, se transforma el árbol sintáctico en un árbol de dependencias. El último paso consiste en el etiquetado de las dependencias con su función
sintáctica respectiva (Carrera y col. 2008).
Posteriormente, Carrera y col. (2008) dan a conocer el proyecto KNOW, el
cual desarrolla gramáticas de amplia cobertura para el desarrollo de un sistema
de traducción para las lenguas oficiales de España. Este proyecto trabaja con los
parsers TXALA y FREELING.
En Atserias, Comelles y Mayor (2005), los autores mencionan otros dos parsers: DILUCT y CONNEXOR. Desafortunadamente, ninguno de estos últimos
cuenta con una versión de libre acceso en internet. Sobre el parser DILUCT explican que incluye una tokenización de la cadena de entrada y la división de las
palabras que forman compuestos. Es decir, se divide la oración en palabras in20
Separador de una cadena de símbolos en tokens o cadenas separadas de símbolos.
24
CAPÍTULO 1. INTRODUCCIÓN
dividuales para su clasificación y luego se dividen compuestos del tipo del → de
+ el. Luego, estas palabras se pasan por un etiquetador para su clasificación y
lematización. A partir de este punto es que se analiza el texto de acuerdo con
las reglas gramaticales. Con fines de evaluación, se comparó su desempeño con
los parsers TACAT y CONNEXOR, todos con el corpus anotado CAST3LB como Gold Standard 21 . DILUCT obtuvo una precisión de 0.47 y un recall de 0.5522
(Calvo y Gelbukh 2006).
TACAT (Atserias, Carmona y col. 1998), por su lado, es un parser ascendente que analiza corpus previamente etiquetado (Moreno 1998). Es un instrumento
intermedio en un proyecto mucho más grande que pretende integrar los recursos
disponibles sobre PLN en España para el español y catalán. Su gramática fue
desarrollada en tres partes dando como resultado tres subgramáticas de acuerdo
con la función que se requiera: reconocer las diferentes categorías gramaticales,
identificar la concordancia y para establecer los límites de la frase verbal y nominal. El output producido por cada parte constituye el input de la siguiente. Tal
como lo indica la documentación, este parser data de finales de la década del 90,
razón por la que quizás, no nos fue posible encontrar una versión accesible en
internet.
1.4.3. Los corpus no anotados
Otros recursos electrónicos para el español lo constituyen los corpus no anotados. Este tipo de corpus no cuenta con una anotación específica dirigida al entrenamiento de un sistema estadístico de aprendizaje automático. Se trata más bien
21
Es decir, como medida de idoneidad.
Las medidas de precisión y exhaustividad (en. precision and recall) son medidas de relevancia.
La exhaustividad se refiere al conjunto de los falsos positivos y los verdaderos positivos juntos,
mientras que la precisión tan solo incluye los verdaderos positivos (Manning y Schütze 1999).
22
1.4. ESTADO DE LA CUESTIÓN
25
de colecciones de textos lingüísticos con una fuerte orientación lexicográfica, dirigidos a traductores y a un público generalizado. Son corpus útiles en tareas tal
como las comparaciones de frecuencias, la consultas léxicas, la investigación de
uso de contextos, por mencionar algunas. Kocjančič (2009) proporciona un muy
breve descripción de aquellos disponibles gratuitamente o por un bajo costo. Como ejemplos concretos podemos citar el corpus CREA23 , el corpus Arthus24 , el
corpus LexEsp25 o el corpus COLA26 del español oral.
El corpus FrameNet27 es otro recurso cuantitativamente importante, pues cuenta con 937 millos de palabras en su base de datos. Su anotación proporciona una
descripción semántica de cada unidad léxica, especificando cómo se interrelacionan los diferentes marcos semánticos que en conjunto definen cada unidad léxica
particular (Subirats 2009) 28 .
Por otro lado, debido a la creciente necesidad del procesamiento multilingüe
del lenguaje, han surgido los corpus paralelos. Estos corpus se componen de un
mismo texto disponible y alineado en diferentes lenguas; resultan particularmente útiles en las tareas concernientes a la traducción automática (Loáiciga 2011;
Russo, Loáiciga y Gulati 2012). Algunos ejemplos son el corpus GRIAL29 para el
español, el inglés y el catalán, y el corpus CLUVI30 de la Universidad de Vigo para
el español y el gallego mayormente, además de otras lenguas como el inglés y el
francés.
Si bien estos corpus no son directamente explotables en nuestro trabajo, en
23
http://corpus.rae.es/creanet.html; última visita 07-07-2012.
http://www.bds.usc.es/corpus.html; última visita 07-07-2012.
25
http://psico.uniovi.es/Dpto_Psicologia/metodos/soft/corpus/base; última visita 0707-2012.
26
http://colam.org/transkripsjoner-espannol.html; última visita 07-07-2012.
27
http://158.109.141.13:9080/SFN; última visita 09-06-2012.
28
http://sfn.uab.es:8080/SFN/corpus; última visita 04-09-2012.
29
http://grial.uab.es/recursos.php?idioma=es; última visita 07-07-2012.
30
http://sli.uvigo.es/CLUVI/corpus.html; última visita 02-04-2011.
24
26
CAPÍTULO 1. INTRODUCCIÓN
un desarrollo posterior son fuentes ricas de datos para enriquecer nuestro propio
lexicón. Por citar un ejemplo, se podría explotar el análisis de frecuencias que
ofrecen muchos de ellos para extraer colocaciones y asimilarlas a nuestro lexicón. Asimismo, estos corpus constituyen herramientas valiosas en el desarrollo
de pruebas y test de nuestro análisis.
1.4.4. Los métodos estadísticos y los corpus anotados
Un treebank o corpus anotado31 consiste en un corpus en el que cada oración
ha sido previamente analizada y anotada con la ayuda de un parser o analizador
sintáctico32 . La anotación puede ser manual o automática, dependiendo de los
objetivos del corpus y de las herramientas con las que se cuente.
El primer corpus anotado o treebank para el español fue desarrollado por un
equipo conjunto entre el Laboratorio de Lingüística Informática (LLI) de la Universidad Autónoma de Madrid y la Universidad de Nueva York. Este treebank
no solo contiene la información de cada análisis de frase, sino que incluye información sobre la concordancia y las funciones sintácticas de los constituyentes. Documentación del año 2003 indica que el corpus cuenta con 1,500 oraciones, extraídas de dos periódicos españoles (Moreno, Grishman y col. 2000;
Moreno, López y Sánchez 2003). Es posible encontrar ejemplos de anotaciones
en http://www.lllf.uam.es/~sandoval/UAMTreebank.html (última visita 07-072012); sin embargo, actualmente el corpus no se encuentra disponible al público.
El corpus se utilizó para entrenar una versión del Apple Pie Parser 33 . Este es
31
Dado que mucha de la terminología en el área nació en inglés y que su traducción puede resultar confusa, de aquí en adelante optamos por utilizar los constructos en inglés como señalamos
anteriormente al respecto de las abreviaturas.
32
Un analizador sintáctico o en inglés parser es un sistema computacional que transforma una
entrada de símbolos (oraciones) en un árbol de derivación.
33
http://www.lllf.uam.es/ESP/Treebank.html; última visita 07-07-2012.
1.4. ESTADO DE LA CUESTIÓN
27
un parser o analizador sintáctico de tipo estadístico, cuyo objetivo es la inducción
automática de reglas de la gramática del español, sin mediación humana en forma total o parcial. De acuerdo a sus creadores, se trabaja en aumentar tanto el
tamaño del treebank, como en mejorar su anotación, haciéndola más simple pero
al mismo tiempo más rica, con el fin de mejorar la inducción de las reglas (Moreno,
López y Sánchez 2003).
Por otro lado, el proyecto CAST3LB también desarrolla un treebank que incluye una anotación semántica usando estructuras-f de LFG. Este proyecto busca
obtener una gramática probabilística del español entre otros recursos léxicos. Una
primera extracción automática de las reglas resultó en una gramática de 3,638 reglas. El alto número de reglas es debido a la gran cantidad de etiquetas (POS
tags34 ) utilizadas para identificar todos los nodos oracionales (O’Donovan y col.
2005).
Las pruebas de evaluación del corpus CAST3LB demuestran que a un 96.04 %
de las oraciones les fue asignada una estructura-f, pero algunas recibieron más
de una o ninguna, hecho que intentan mejorar. Por otro lado, también probaron
su sistema con 336 oraciones de texto en bruto, logrando con éxito obtener las
estructuras-f. En la extracción, se siguió el modelo y los procedimientos diseñados
previamente para el inglés, sin modificaciones adecuadas al español (O’Donovan
y col. 2005).
Partiendo del trabajo anterior, Chrupała y Genabith (2006) encuentran ciertos
problemas de análisis sintáctico en el corpus anotado del proyecto CAST3LB.
A partir de ahí, dividen los problemas hallados en el corpus en tres grupos. En
primer lugar, aquellos que ya han sido tratados exitosamente con LFG, estos son
34
Part-of-Speech tagging, por sus siglas en inglés. Consiste en el etiquetado de cada ítem en un
corpus o lexicón. La información por anotar usualmente incluye la categoría gramatical del ítem y
algunos rasgos tales como género, número, etc.
28
CAPÍTULO 1. INTRODUCCIÓN
sujeto no explícito (12) y duplicación de clíticos (13)35 . Luego, los que han sido
problemáticos dentro de LFG, como la subida de clíticos (14)36 . Por último, los
problemas debido a las limitaciones relacionadas con abordajes distintos a LFG,
tal como el orden flexible de los constituyentes (15).
(12) Llegué temprano. vrs. Yo llegué temprano.
(13) La vio a Carmen. vrs. La vio.
(14) La puedo comer. vrs. Puedo comerla.
(15) Llegó Carmen. vrs. Carmen llegó.
Para el primer grupo de problemas proponen utilizar ecuaciones opcionales,
como se muestra en (16), en lugar de marcos de subcategorización y el principio
de completud como tradicionalmente se analizan en LFG. El principio de completud establece que todos los argumentos declarados en el marco de subcategorización verbal deben ser instanciados por una predicación. En la duplicación
de clíticos por ejemplo, una ecuación opcional, como ((↑ PRED) = ’pro’ en (16)),
es interpretada como una disyunción de la restricción existencial (f a) y la ecuación (f a) = v; la segunda disyunción solo se aplica si el valor PRED no ha sido
proporcionado por otra ecuación (Chrupała y Genabith 2006).37
(16) le
((↑ PRED) = ’pro’)
((↑ PRON-TYPE) = PERS)
((↑ PRON-FORM) = el)
(↑ CASE) = DAT
(↑ NUM) = SG
35
Fenómeno conocido por su nombre en inglés Clitic Doubling.
Fenómeno conocido en inglés como Clitic Climbing.
37
El paréntesis que encierra la ecuación indica precisamente la opcionalidad de esta.
36
1.4. ESTADO DE LA CUESTIÓN
29
(↑ PERS) = 3
Para el segundo grupo, en el caso de la subida de clíticos en las construcciones
perifrásticas, se deciden por un análisis tradicional. De modo que los nodos hijos
(gerundio e infinitvo) de un nodo con el rasgo de +light 38 introducen su propia
estructura-f como valor XCOMP. De esta forma se asegura que los argumentos
se adjunten al verbo sin el rasgo +light más bajo en el árbol.
En cuanto a la flexibilidad del orden de constituyentes, el tercer problema, explican que contar solamente en la configuracionalidad y la información de categorías
no ha resultado suficiente para determinar la función gramatical de los constituyentes. En inglés, esto funciona porque típicamente el nodo izquierdo a VP es
el sujeto y el nodo derecho a V es el objeto. Por esto, agregan una etiqueta categorial, para disminuir la ambigüedad, por ejemplo sn-SUJ, sn-CD, sn-CI, etc.
(O’Donovan y col. 2005).
El trabajo de Chrupała y Genabith (2006) es el más directamente relacionado
con el tema de nuestra investigación. Además, refleja la necesidad de análisis
sintácticos profundos para ciertos fenómenos particulares de la lengua, incluso
si se trabaja desde la aproximación estadística. Finalmente, corrobora que las
herramientas empleadas en el análisis del inglés no son totalmente adecuadas
para una descripción de la estructura del español.
Posteriormente, en su tesis doctoral, Chrupała (2008) también trabaja con el
treebank CAST3LB. Señala como una de sus tareas, llevar a cabo una adaptación
del sistema usado en inglés para el español, con el fin de mejorar los temas de
configuracionalidad y riqueza morfológica. El autor implementa una mejora del
sistema de aprendizaje automático para obtener resultados más acertados que
38
Del inglés Light Verb. Verbos que permiten la subida de clíticos.
30
CAPÍTULO 1. INTRODUCCIÓN
por medio de algoritmos de anotación manuales. Además, creó un anotador de
lemas a partir del corpus. Otro de sus logros fue el desarrollo del sistema Morfette,
un sistema de aprendizaje de etiquetado morfológico que funciona precisamente
como analizador morfológico.
Es de notar que las estructuras-f de LFG pueden ser pensadas como una representación intermedia entre las representaciones arbóreas y la estructura semántica. De modo que, a la vez que son abstractas como un árbol sintáctico,
también proporcionan suficiente información sobre los argumentos y otras especificaciones de subcategorización verbal. Es esta característica precisamente la
que explota Chrupała (2008) en su trabajo. Él genera automáticamente reglas
de aprendizaje de análisis morfológico a partir de las estructuras-f. Éstas resultan más eficientes que otros sistemas (el autor cita FREELING39 y CLOG40 ) dado
que fenómenos tales como el orden relativamente flexible de los constituyentes
no presuponen una dificultad de análisis, como lo es dentro de corrientes como
Rección y Ligamiento (GB) (Chrupała 2008).
Por último, existe un corpus anotado del español con 500,000 palabras (4,000
oraciones), llamado AnCora41 . El corpus se anotó en diferentes niveles: morfológico, sintáctico y semántico, usando anotación manual, automática y semiautomática. El proceso automático se usó para producir el etiquetado morfológico y
un análisis superficial. El proceso manual se empleó para obtener una anotación
sintáctica profunda (constituyentes y funciones) y para asignar conjuntos de sinónimos (synsets tomados de WordNet42 ) destinados a definir los sustantivos. Por
39
http://nlp.lsi.upc.edu/freeling/; última visita 09-07-2012
No disponible en línea, probablemente se encuentra discontinuado. La única documentación
que encontramos fue Manandhar, Dzeroski y Erjavec (1998), donde no se proporcionan mayores
detalles.
41
http://clic.ub.edu/ancora/; última visita 07-07-2012.
42
Base de datos léxica para el inglés, disponible en http://wordnet.princeton.edu/; última
visita 07-07-2012.
40
1.5. MARCO TEÓRICO
31
último, la anotación semiautomática sirvió para definir las predicaciones verbales,
asociando automáticamente los roles temáticos a sus funciones sintácticas y luego asignándoles manualmente parte de la información sintáctica contenida en los
lexicones (Martí y col. sf).
Como mencionamos al introducir esta sección, una de las grandes líneas de investigación en lingüística computacional corresponde a los métodos estadísticos.
Sin embargo, en nuestro trabajo, seguimos el enfoque simbólico o lingüístico, sin
ningún tipo de procesamiento estadístico. Razón por la cual no hemos ahondado
en materia de métodos estocásticos.
1.5.
Marco teórico
La totalidad sintáctico-teórica de este trabajo reposa sobre el formalismo LFG
(Lexical Functional Grammar). Este formalismo de unificación fue desarrollado
por Bresnan y R. Kaplan (1982) como una alternativa a la gramática generativotransformacional dominante en los años 70 y 80. Existen tres fenómenos lingüísticos primordiales que desencadenaron la propuesta altamente lexicalista de LFG:
la falta de configuracionalidad de muchas lenguas, las paradojas de movimiento
y la lexicalidad de los cambios relacionales, tales como la pasivización.
Dentro del marco de la gramática generativa, las lenguas configuracionales
presentan un orden jerárquico de los constituyentes (17a), así por ejemplo, el
sujeto se encuentra fuera del VP43 , mientras que el objeto directo se encuentra
dentro, porque este último es regido por el verbo. Esto implica, al mismo tiempo,
una cierta rigidez en el orden sintagmático de la frase. En las lenguas no configuracionales, por el contrario, no hay tal diferencia, ya que todos los constituyentes
43
Sintagma verbal (del inglés Verbal Phrase).
32
CAPÍTULO 1. INTRODUCCIÓN
se presentan a un mismo nivel (17b), es decir, los sintagmas tienen un orden sintáctico libre. el inglés es un ejemplo de lengua configuracional, mientras que el
latín es un ejemplo de lengua no configuracional.
(17)
a.
…
…
XP
…
b.
…
…
…
XP
…
…
En la primera parte de esta sección (1.5.1) expondremos los principios de funcionamiento de las gramáticas de unificación. Luego, explicaremos los postulados
primordiales de LFG. Cualquier referencia debe hacerse a su libro Lexical Functional Syntax (Bresnan 2001). Todo el contenido expuesto en esta sección se
basa primordialmente en el desarrollo de la teoría que la autora presenta en su
libro. Por último, expondremos las características principales de la aplicación XLE
(http://www2.parc.com/isl/groups/nltt/xle/; última visita 08-05-2012.) utilizada para desarrollar la modelización computacional.
1.5.1. La estructura de frase
Algunas nociones de base
Con el propósito de tener un mejor entendimiento de las secciones que siguen,
a continuación presentamos algunos conceptos clave dentro de la gramática generativa. En primer lugar, es necesario aclarar que LFG asume los postulados
1.5. MARCO TEÓRICO
33
básicos del esquema ””X̄” (léase equis barra) (Culicover y Jackendoff 2005). Se
trata de una notación en capas y estrictamente binaria que representa los diferentes nodos y sus proyecciones. En este esquema, X o Xo constituye la cabeza
de una proyección máxima XP. X’ es una proyección intermedia. Además, cada
proyección hereda las características de su cabeza (Haegeman 1991; Haegeman
2001).
Esta teoría define las relaciones locales de una cabeza X. La cabeza se relaciona localmente con su complemento (rama derecha) y con el especificador
de su proyección (rama izquierda). Según el esquema de Rección y Ligamiento
se dice que la cabeza gobierna a su complemento (Haegeman 1991; Haegeman
2001).
Esto nos lleva a otra definición fundamental: la de sintagma. Un sintagma no
es más que cada constituyente que forma una unidad distribucional, es decir, una
proyección máxima. En otras palabras, DP, PP, VP son ejemplos de sintagmas
(Laenzlinger 2003).
La endocentricidad y la lexocentricidad
Una de las características de LFG es su maleabilidad para adaptarse a lenguas con estructuras sintácticas muy diferentes entre sí. Esta propiedad es posible gracias a la manera en que LFG asume los principios de endocentricidad y
lexocentridad. La endocentricidad se refiere a la organización de los constituyentes alrededor de su cabeza según los principios de localidad del esquema X̄. De
hecho, es el fundamento básico del esquema X̄ (Haegeman 1991; Bresnan 2001;
Haegeman 2001)44 .
44
Guevara (2006), hace un resumen de los principales trabajos que argumentan a favor de la
estructura binaria.
34
CAPÍTULO 1. INTRODUCCIÓN
La lexocentricidad, por otro lado, asocia directamente las funciones sintácti-
cas con los rasgos contenidos en la información léxica de las palabras. En este
sentido, es la relación opuesta a la endocentricidad. En lugar de asumir que cada
constituyente porta las características de su cabeza, por lexocentricidad un nodo
puede tener una estructura-f asociada diferente de su cabeza. De tal forma que un
nodo (p.ej. AP) puede dominar múltiples categorías léxicas (p.ej. NP, VP). Dado
que la información léxica es determinante de la estructura de frase, la ramificación
binaria de la frase no es una condición única y necesaria (Bresnan 2001).
De acuerdo con Bresnan (2001), las lenguas no siempre son categóricamente
endocéntricas o lexocéntricas, sino que pueden presentar una combinación de
ambas formas en la organización de los constituyentes. Como resultado, existe
un continuum, una tipología de diferentes sintaxis potenciales. Esta va desde las
lenguas de tipo más configuracional, es decir endocéntrico, como el inglés, hasta
lenguas más lexocéntricas, tal como el dyirbal45 .
La frase simple
En vista del continuum entre el carácter endocéntrico y el carácter lexocéntrico
de las lenguas, en lo relativo a la estructura de la frase, en este trabajo usaremos
una estructura de representación mixta. El español tiene fundamentalmente un
orden SVO; sin embargo, no tiene el mismo grado de endocentricidad que el inglés
por ejemplo. Prueba de ello son los sujetos posverbales, tal como se ve en (18) y
(19).
(18) Carmen pagó en el restaurante.
(19) Pagó Carmen en el restaurante.
45
Lengua del noreste de Queensland, Australia (http://www.ethnologue.com/show_language.
asp?code=dbl; última visita 07-07-2012.).
1.5. MARCO TEÓRICO
35
Ahora bien, lenguas típicamente lexocéntricas como el latín o el alemán se
caracterizan por una rica morfología de caso que permite discernir entre los diferentes constituyentes y sus funciones sintácticas. Este no es el caso del español
tampoco. Tal como se vio en (18, 19), Carmen, no tiene ningún tipo de morfema
identificando el constituyente como el sujeto de la oración. Esto contrasta con los
ejemplos (20) y (21) del latín, en los cuales la morfología indica los casos nominativo y acusativo.
(20)
Titus anulum perdidit.
Tito anillo perdió.
’Tito perdió el anillo’.
(21)
Perdidit anulum Titus.
Perdió anillo Tito.
’Tito perdió el anillo’.
Como mencionamos al principio de esta sección, nosotros usaremos una estructura mixta de representación. Si bien consideramos que el español no tiene el
mismo grado de endocentricidad que el inglés, por citar un ejemplo, tampoco creemos que sea tan lexocéntrico, como el latín. Además, a partir de estudios como
el de Zagona (2002) y D’Introno (2001) pensamos que se trata de una lengua altamente endocéntrica, razón por la cual usaremos fundamentalmente una estructura de representación binaria. Sin embargo, operaciones como la coordinación
cuentan con un análisis estándar dentro de LFG que involucran una estructura de
representación ternaria (R. M. Kaplan y Maxwell 1988).
En términos de la configuración canónica de la frase, siguiendo a Laenzlinger
(2003), consideramos que los nodos CP, IP y VP constituyen el esqueleto de la
frase. Son las propiedades de selección funcional y categorial, las cuales aseguran que IP se adjunte a la derecha de Co y que VP sea el complemento de
la cabeza Io . Es importante aclarar que aunque estos constituyen los nodos fun-
36
CAPÍTULO 1. INTRODUCCIÓN
CP
C’
Co
IP
DP
Carmen
I’
Io
VP
come
V’
Vo
DP
una manzana
Figura 1.3: Estructura canónica de la frase simple.
damentales y mínimos necesarios para dar cuenta de la estructura interna de la
frase, no necesariamente todos los nodos deben ser siempre activos.
Derivado de todo lo anterior, definimos la frase simple como aquella frase u
oración que no tiene alteraciones en el orden canónico de los sintagmas según
se representan en la figura (1.3). Se trata de oraciones sin pronominalizaciones,
desplazamiento de complementos o ningún fenómeno diferente a la completa expresión de los complementos verbales según lo establecen los marcos de subcategorización verbal. Además, no contempla subordinaciones ni frases relativas.
1.5.2. La unificación y las reglas libres de contexto
Como se mencionó anteriormente, LFG es una gramática de unificación. Como
tal, sus dos componentes principales son las estructuras de rasgos y la operación
de unificación. Esta es la operación fundamental que permite probar, comparar o
combinar las estructuras de rasgos. A modo de ejemplo, observemos las estruc-
1.5. MARCO TEÓRICO
37
turas en (22 - 24), creadas a partir de Wehrli (1997).


(22) cat NP








num:
sing





agr: 



gend: masc


(23) cat NP








num: sing 


agr: 



case: nom


(24) cat NP








num: sing 







agr: case: nom 









gend: masc
Las estructuras en (22) y (23), son compatibles entre sí porque no contienen
ningún atributo cuyo valor sea diferente en las dos estructuras. Por lo tanto se
pueden unificar, dando como resultado (24). Por el contrario, en los ejemplos (25 26), las estructuras son incompatibles porque las dos contienen un mismo atributo
con dos valores diferentes (<agr num>).


(25) cat NP


[
]


agr: num: sing


(26) cat NP


[
]


agr: num: plu
Wehrli (1997) define la unificación tal como sigue:
38
CAPÍTULO 1. INTRODUCCIÓN
Unificación: La unificación de dos estructuras de rasgos A1 y A2 da por
resultado la estructura A más pequeña que constituya una extensión tanto de
A1 como de A2 ; si tal estructura no existe, entonces la unificación es indefinida.
La utilidad de un formalismo sintáctico radica en que correlaciona los sintagmas con las estructuras de rasgos que los especifican. Para ello se utilizan las
reglas gramaticales. Éstas se componen de dos partes: izquierda y derecha. Una
regla establece una relación de dominancia y jerarquización entre sus símbolos.
El símbolo a la izquierda es especificado o reescrito por los símbolos a la derecha.
Una regla tiene la forma que se muestra en (27) (Wehrli 1997).
(27) X0 → X1 X2 ,
donde X0 , X1 y X2 son variables categoriales.
Esta regla establece que la categoría X0 puede ser instanciada o reescrita
como una categoría X1 seguida de una categoría X2 . La regla (27) corresponde a
una regla libre de contexto. Las reglas libres de contexto satisfacen la condición
dada en (28).
(28) Para todas las producciones α → β en P, (i) α ∈ VN y (ii) β ̸= ∅.
Donde P son las reglas de producción de la gramática o reglas de reescritura y VN corresponde a los elementos no terminales de la gramática. α y β son
elementos terminales, en nuestro caso, palabras (Wehrli 1997; Moreno 1998).
En el ejemplo (27) se presenta una abstracción de regla usando una representación lineal. Sin embargo, las representaciones arbóreas también muestran las
relaciones de dominancia y reescritura de los constituyentes, de manera que (27)
también puede ser representado tal como se presenta en (29).
1.5. MARCO TEÓRICO
39
(29)
X0
X1
1.5.3.
X2
Principios de diseño de LFG
La arquitectura general de LFG reposa sobre tres principios:
El principio de variabilidad establece que las estructuras externas varían de
una lengua a otra. Por estructuras externas, nos referimos a la forma de organización de los constituyentes en la frase. Estas se pueden ordenar por posición,
dominio y tipo estructural (es decir, si se trata de un sintagma nominal, sintagma determinante, etc.). Esta estructura es representada formalmente en LFG por
medio de la estructura-c46 . Las palabras flexionadas constituyen los elementos
terminales de la estructura-c. Esta correspondencia, de hecho, conforma una restricción fija llamada integridad léxica.
El principio de universalidad se refiere a la estructura interna de la frase, específicamente a la asociación entre la estructura sintáctica y la semántica (relación
argumento-predicado). El principio de universalidad establece que la estructura interna no cambia a través de las diferentes lenguas. El nombre formal que recibe
esta estructura en LFG es estructura-f. Aunque la estructura-c y la estructura-f
son paralelas, se ha probado que no siempre convergen.
El principio de monotonicidad hace alusión a la facilidad con la cual un niño
adquiere el lenguaje. A partir de ahí, se desprende la idea de que la estructura
interna del lenguaje debe ser ”transparente”. Tal como explica Bresnan (2001),
a primera impresión se podría pensar que existe entonces una correspondencia
total entre la estructura interna y la estructura externa, tal como lo propone la
46
Estructura de constituyentes. Es una de las tres estructuras fundamentales de LFG.
40
CAPÍTULO 1. INTRODUCCIÓN
gramática generativa tradicional (es decir, entre la estructura profunda y la estructura superficial). Sin embargo, tal cosa está en contradicción con el principio
de variabilidad. Es por esto que el principio de monotonicidad establece que la
información sobre la estructura interna se distribuye parcialmente a través de la
expresión de la frase, de tal forma que la estructura interna global pueda ser inferida de las partes de la expresión en cualquiera que sea el orden, a través del
algoritmo de la solución (véase 1.5.5).
1.5.4. Estructura-f
Las estructura central de LFG es la estructura funcional o estructura-f como
es conocida. Dado que se trata de un formalismo de unificación, esta no es más
que una estructura de rasgos, es decir, un conjunto de pares de atributo-valor,
que recoge la información léxica de la frase. Nótese que en la estructura-f, las
palabras se encuentran totalmente flexionadas. Como se trata de una estructura
de rasgos, el orden de los elementos no es importante y los axiomas aplicados
en teoría de conjuntos de identidades son asimismo válidos. Una estructura de
rasgos se representa como en (30):

(30) atributo1


atributo2



. . .


atributon

valor1 


valor2 




...


valorn
En términos lingüísticos, un par de atributo-valor se llama rasgo. Una estructuraf compuesta de pares de atributo-valor se llama función.
1.5. MARCO TEÓRICO

41
 

(31) 
pred ’Carmen’ 
 
 
suj 

 




num sg






tiem pres







pred ’come’

 






 caso acc

 

 

 

obj num plu

 

 



pred ’palomitas’
En el ejemplo (31), NUM y CASO son los atributos de rasgos, mientras que
SUJ y OBJ son los atributos de función. Dado que las estructuras de rasgos son
verdaderas funciones matemáticas, están sujetas a la condición de unicidad. Esta
dice que cada atributo tiene exactamente un valor, implicando que diferentes atributos pueden tener el mismo valor, pero un mismo atributo no puede tener valores
diferentes. Además, puesto que se trata de una función, es posible describir cualquier estructura-f especificando los valores que se asocian con cada argumento
(atributo). Para ello, es necesario identificar cada subconjunto de rasgos tal como
se muestra en (32) por medio de los subíndices f (fx ):

(32)

 

pred ’Carmen’ 

 
suj f2

 




num sg







tiem pres






f1 pred ’come’










caso acc








obj f3 
num
plu










pred ’palomitas’
42
CAPÍTULO 1. INTRODUCCIÓN
Luego, con la identificación de cada conjunto de rasgos, es posible establecer
las equivalencias en forma de ecuaciones, como se muestra en (33) a continuación:
(f1 SU J)
(33)
= f2
(f1 T IEM ) = pres
(f1 OBJ)
= f3
De (32) se desprende que f1 corresponde a la predicación (PRED) ’come’.
Además f1 incluye tres elementos diferentes de PRED: SUJ, TIEMP y OBJ. Esto nos permite tener la primera parte de las ecuaciones (f1 SU J), (f1 T IEM ) y
(f1 OBJ). Finalmente se otorga un valor a cada una, sea este un subíndice ( f2 ,
f3 ) o un valor absoluto (pres).
1.5.5. Correspondencia entre las estructuras c y f
(34)
S
VP
DP
Det
NP
V
N
come
Carmen
DP
Det
NP
N
palomitas
En (34), se puede observar la estructura-c de la oración Carmen come palomitas. Las reglas libres de contexto de estructura de frase establecen las relaciones
entre constituyentes en un nivel abstracto. De tal forma que, S → NP VP se refiere
1.5. MARCO TEÓRICO
43
a cualquier nodo S de cualquier árbol que domine cualesquiera nodos NP y VP,
siempre y cuando el primero preceda al segundo. Los nombres f1 , f2 , f3 , mostrados en (32) y (33), se refieren a estructuras-f particulares que corresponden
a una frase en particular. Para generalizar este tipo de descripción, al igual que
las reglas de estructura de frase, se utilizan los símbolos de flechas ascendente
y descendente (↑ ↓). Las ecuaciones funcionales escritas con los símbolos ↑ ↓
son variables y se llaman esquemas funcionales. Así por ejemplo, el ejemplo
(35) muestra una descripción arbórea que es equivalente al esquema funcional
en (36).
(35)
S
(↑ SUJ)= ↓ ↑ = ↓
NP
(36)
S
→
NP
VP
VP
(↑ SUJ) = ↓ ↑ = ↓
La flecha ascendente (↑) se refiere a la estructura-f del nodo madre. Se instancia (es decir, transforma el esquema funcional en una ecuación funcional) por
medio el nodo inmediatamente dominando el constituyente debajo del cual se encuentra la flecha. La flecha descendente (↓) se refiere a la estructura-f del nodo
actual. De forma que la ecuación en (37) declara que NP es el sujeto del nodo
que lo domina, es decir S. La ecuación ↑ = ↓ bajo el nodo VP indica que todos los
rasgos de ese nodo son compartidos por los nodos superiores, por lo que toda la
información funcional que tiene este nodo es también información directa sobre
la estructura-f madre o principal (Grantson 2002).
Recapitulando, tenemos que primero se genera un conjunto de ecuaciones
funcionales que describen los rasgos del verbo y de los demás constituyentes.
44
CAPÍTULO 1. INTRODUCCIÓN
Luego, cuando el verbo se inserta en la estructura-c, es este el momento cuando
se genera la descripción funcional de la estructura-f, es decir, las estructuras del
tipo visto en (35). Con esta descripción funcional, entonces se puede establecer
la correspondencia entre las dos estructuras, la c y la f. Esto se logra por medio
del algoritmo de la solución que se explica a continuación.
El algoritmo de solución
Dada una gramática léxico funcional para un lenguaje L, existe un algoritmo para derivar la estructura-c y la estructura-f de cualquier oración de L. La estructura-c
de cualquier secuencia de palabras puede obtenerse por medio de cualquier tipo
de algoritmo de análisis sintáctico que utilice reglas libres de contexto. Para ilustrar la derivación de la estructura-f a partir de la estructura-c, vamos a partir del
fragmento de la gramática dado en (37), (38) y (39).
(37)
(38)
(39)
S
→
NP
VP
(↑ SUJ) = ↓
↑=↓
NP →
Det
NP
(↑ SUJ) = ↓ ↑ = ↓
VP →
V
NP
↑=↓ ↑=↓
El proceso para establecer esta correspondencia se da en tres pasos. Primero,
se anota la estructura-c con los esquemas funcionales apropiados. Después, se
instancian los esquemas para generar una descripción funcional. Finalmente, se
solucionan las ecuaciones simultáneas de la descripción funcional construyendo
la estructura-f mínima necesaria para satisfacerlos.
Para ilustrar esto, partamos de (40).
1.5. MARCO TEÓRICO
45
(40)
S
NP
VP
N
V
Carmen
come
El primer paso es anotar la estructura-c dada en (40) con los esquemas funcionales y con la información léxica necesaria. El resultado de este primer paso
se muestra en (41):
(41)
S
(↑ SUJ) = ↓
↑=↓
NP
VP
↑=↓
↑=↓
N
V
Carmen
come
(↑ NUM) = sing
(↑ PRED) = ’come <…>’
(↑ PRED) = ’Carmen’
(↑ TIEM) = pres
(↑ PERS) = 3
(↑ SUJ) = ↓
(↓ PERS) = 3
(↓ NUM) = sing
El segundo paso es la instanciación. Esto se logra asignando un índice distinto
al nodo de la raíz del árbol y a cada nodo que contenga una anotación con el
símbolo ↓. Cada índice representa una estructura-f desconocida que corresponde
a ese nodo (42).
46
CAPÍTULO 1. INTRODUCCIÓN
(42)
Sf 1
(↑ SUJ) = ↓
↑=↓
NPf 2
VPf 3
↑=↓
↑=↓
Nf 4
Vf 5
Carmen
com-ef 6
(↑ NUM) = sing
(↑ PRED) = ’come <…>’
(↑ PRED) = ’Carmen’
(↑ TIEM) = pres
(↑ PERS) = 3
(↑ SUJ) = ↓
(↓ PERS) = 3
(↓ NUM) = sing
Luego, de igual modo, se sustituye cada ↑ en el esquema por el índice de
su nodo madre. También, se sustituye cada ↓ por el índice del nodo mismo, tal
como se muestra en (43). Una vez hechas todas las sustituciones, se obtiene una
descripción funcional que puede ser trasformada en ecuaciones funcionales.
1.5. MARCO TEÓRICO
47
(43)
Sf 1
(f1 SUJ) = f2
f1 = f3
NPf 2
VPf 3
f2 = f4
f3 = f5
Nf 4
Vf 5
Carmen
com-ef 6
(f4 NUM) = sg
(f5 PRED) = ’come <…>’
(f4 PRED) = ’Carmen’
(f5 TIEM) = pres
(f4 PERS) = 3
(f5 SUJ) = f6
(f6 PERS) = 3
(f6 NUM) = sg
El tercer paso es la construcción de la estructura-f mínima necesaria que satisfaga la descripción funcional generada en el segundo paso. El proceso consiste en
hipotetizar una estructura-f que haga cierta a cada ecuación dentro del conjunto
de ecuaciones. Esto se puede hacer en cualquier orden, pero dado que seguimos
a Bresnan (2001), vamos a empezar por la raíz del árbol.
Del nodo NP en (43) tenemos que (f1 SUJ) = f2 . En otras palabras, que f1 tiene
un atributo sujeto cuyo valor es f2 . De este modo, podemos construir la estructra-f
mostrada en (44):
[
(44)
]
f1 : suj f2
Del nodo VP en (43), sabemos que f1 = f3 , así que agregamos esta nueva
información al esquema que empezamos en (44). Del mismo modo, del nodo N,
también sabemos que f2 = f4 (45). Siguiendo el mismo procedimiento, del nodo
48
CAPÍTULO 1. INTRODUCCIÓN
V sabemos que f3 = f5 , así que repetimos el proceso (46).
[
]
(45) f1 ,f3 : suj f2 , f4
(46)
[
]
f1 , f3 , f5 : suj f2 , f4
Luego, se utiliza la información contenida en el lexicón. Una vez que la cadena de símbolos ”Carmen” ha sido identificada como el sujeto, la información
correspondiente del lexicón se usa como valor de la estructura-f SUJ. De modo
que f4 toma como valor los pares de atributo-valor que define a ”Carmen”, estos
son NUM SG y PERS 3. Como hemos venido haciendo hasta aquí, agregamos
esta información a (46), obteniéndo como resultado la estructura-f mostrada en
(47).

(47)


num sg










f1 , f3 , f5 : suj f2 , f4 : pers 3







pred ’Carmen’

(48)




suj f2 , f4 , f6 :



f1 , f3 , f5 : 




tiem


pred


num


pred



pers
pres
’come’




’Carmen’




3







sg
En (48) vemos que al igual que antes, a partir de ”’come”, podemos obtener
información que agregamos a nuestra estructura-f. De este modo hemos construido la estructura-f mínima necesaria para satisfacer la descripción-f generada
en el segundo paso (ejemplos 42 y 43).
1.5. MARCO TEÓRICO
1.5.6.
49
Completud y coherencia
La completud y la coherencia son condiciones de buena formación sobre la
estructura-f. Estas condiciones se aplican después de que la estructura-f mínima
haya sido construida (a partir de las ecuaciones de definición como lo establecimos de (44) a (48) y que las restricciones hayan sido satisfechas). La completud
requiere que cada función designada por una predicación (PRED)47 esté presente
en la estructura-f de esa predicación (PRED). También requiere una correspondencia más lejana entre las PRED y las funciones de su estructura-f. Es decir, si
un designador (↑ GF)48 se asocia con un rol semántico por PRED, el elemento
de la estructura-f que satisface al designador debe contener un rasgo semántico
[PRED v] él mismo. La clase de funciones que son designadas por los elementos PRED se conoce como funciones de argumento. Éstas incluyen SUJ, OBJ,
COMP y excluyen ADJUNTO, FOC y TOP.
La violación de la completud es la fuente de las oraciones mal formadas del
tipo que se presenta en (49),
(49)
* Recibimos _ ayer.
En (49), aun si asumiéramos la presencia de una categoría vacía en la posición
vacía (_) que proveyera de un objeto al verbo, esa estructura-f no tendría el rasgo
semántico necesario (un valor PRED), por lo que la condición de completud no se
satisfaría, porque el verbo recibir exige un complemento directo.
Estructura-a
La estructura argumental o estructura-a debe pensarse en términos tanto semánticos como sintácticos. Del lado semántico, la estructura-a representa los par47
48
Una predicación corresponde a la palabra flexionada de la frase.
Gramatical Function. Metavariable que designa a cualquier función gramatical.
50
CAPÍTULO 1. INTRODUCCIÓN
ticipantes involucrados en los eventos designados por la predicación (en nuestro
caso por el verbo49 ). Del lado sintáctico, la estructura-a representa la información
mínima necesaria para caracterizar las dependencias sintácticas de una cabeza.
Desde este punto de vista, se trata de la subcategorización sintáctica o registro
de valencias.
La estructura-a codifica la información léxica sobre el número de argumentos,
su tipo sintáctico y su organización jerárquica necesarios para el mapeo con la estructura sintáctica. En este sentido, la estructura-a se concibe como un constructo
léxico-sintáctico y no semántico.50 La estructura-a consiste en un predicador con
sus roles argumentales en un orden que intenta representar su prominencia relativa y una clasificación sintáctica de cada rol por medio de un rasgo. En (50)
presentamos un ejemplo:
(50)
comer <
x
y
>
[−o] [−r]
La prominencia de los roles se indica por medio del orden de izquierda a derecha y refleja la jerarquía temática que explicamos más adelante en la sección
2.2.2: Los roles temáticos. Existen diferencias sintácticas importantes entre los
diferentes roles que se representan por medio de las características sintácticas
explicitadas en la estructura-a. De modo que se distingue entre las funciones argumentales (como su nombre lo dice son verdaderos argumentos verbales) y las
funciones no-argumentales (que no son verdaderos argumentos verbales) y también se distingue entre funciones discursivas y funciones no-discursivas. Esto se
49
Otros predicadores son los predicados complejos, y las construcciones con cabezas múltiples.
Ningún predicador diferente del verbo se contempla en este trabajo, razón por la cual los términos
se usarán indistintamente.
50
Esto se debe también al carácter lexicalista fuerte de LFG. La estructura de argumentos no
se piensa como un nivel semántico sujeto a transformaciones sintácticas de ningún tipo.
1.5. MARCO TEÓRICO
51
resume en (51) y (52).
(51)
f unciones argumentales
z
}|
{
T
OP
F
OC
SU
J
OBJ
OBJ
OBL
XCOM
P,
COM
P
ADJU
θ
θ
|
{z
}
|
{zN T O}
no−arg
no−arg
(52)
f unciones discursivas
z
}|
{
T OP F OC SU J OBJ OBJθ OBL XCOM P, COM P ADJU N T O
|
{z
}
f unciones no−discursivas
Como se muestra en los ejemplos anteriores, el sujeto es el único con las
propiedades de función argumental y función discursiva gramaticalizada al mismo
tiempo.
Por otra parte, las rasgos [±o] y [±r] restringen la manera en la cual los roles
son asignados o mapeados con las funciones argumentales en estructras-f. Las
funciones argumentales básicas se agrupan en las clases naturales mostradas en
(53).
(53)
-r
+r
-o
SUJ
OBLθ
+o
OBJ
OBJθ
[± r] (i)restringida
[± o] (no-)objeto
El rasgo [-r] se refiere a una función sintáctica irrestringida, el tipo que no está restringido a su rol semántico, en el sentido que no necesita tener ningún rol
52
CAPÍTULO 1. INTRODUCCIÓN
semántico. Un ejemplo son los argumentos expletivos, tal que it en inglés o il en
francés. Los complementos oblicuos y objetos restringidos, por su parte, son [+r].
El rasgo [-o] se refiere a una función sintáctica diferente de objeto. Se trata del tipo
de función que complementa los verbos intransitivos como N o A. Solo los sujetos
y complementos oblicuos son [-o], los objetos y objetos restringidos son [+o]. No
todas las lenguas utilizan todas estas posibilidades. Bresnan (2001), por ejemplo,
cita que las lenguas sin objetos restringidos ([+r]) no tienen verbos ditransitivos.
La correspondencia entre la estructura-a y las funciones gramaticales sigue
algunos principios básicos. Los roles inespecificados se asignan libremente con
todas la funciones gramaticales compatibles de la siguiente manera: si se trata del
argumento inicial de un predicador, el rol más prominente clasificado [-o] debe ser
asignado a la función sujeto, si tal rol no está disponible, entonces un rol irrestringido no-agentivo se asigna a la función sujeto. Todos los demás roles se asignan
a la función siguiente compatible más baja. De este modo, las funciones sintácticas correspondientes a la oración Carmen come una manzana se representan en
(54):
(54)
comer <
x
y
[−o]
[−r]
|
|
>
SU J OBJ
Existen además, dos principios adicionales que seguir a la hora del mapeo. La
primera es la biunicidad de la relación función-argumento; esta establece que
cada rol de la estructura-a debe estar asociado a una función única y viceversa. La
segunda se trata de la condición de sujeto; esta establece que toda predicación
debe tener un sujeto.
1.5. MARCO TEÓRICO
1.5.7.
53
Plataforma de desarrollo de gramáticas XLE
Esta sección se basa en lo descrito por los desarrolladores de XLE en su página web http://www2.parc.com/isl/groups/nltt/xle/; visitada el 07-07-2012.
XLE es una combinación de herramientas lingüísticas desarrolladas en el laboratorio PARC - Xerox (http://www.parc.com/; última visita 07-07-2012) y el
laboratorio XRCE de la Universidad de Grenoble (http://www.xrce.xerox.com/;
última visita 07-07-2012) la cual también comprende una interfaz de usuario. Se
trata de una plataforma de algoritmos para la construcción, es decir el análisis y
la generación, de gramáticas escritas en el formalismo LFG. Cuenta además, con
una interfaz de usuario gráfica para desarrollar y depurar tales gramáticas. Dado
que su propósito es puramente académico, se encuentra disponible bajo licencia
y sin ningún costo
51
. XLE está escrito en C y utiliza Tcl / Tk para la interfaz de
usuario. En la actualidad se ejecuta en Solaris Unix, Linux, Mac OS X y Windows.
XLE es la base para el proyecto de la gramática en paralelo, el cual desarrolla
gramáticas para el inglés, el francés, el alemán, el noruego, el japonés, y el urdu. La idea de desarrollar gramáticas con diferentes lenguas como base, se apoya, por un lado, en la idea de la Gramática Universal desarrollada por Chomsky
(1957), y por otro, en los postulados teóricos de LFG, dentro de los cuales tan solo
la configuración de la estructura-c difiere entre una lengua y otra, hecho que no
excluye que una misma estructura-f pueda corresponderse con dos estructuras-c
diferentes.
El proyecto dio inicio con la construcción de la gramática para el inglés, el francés y el alemán solamente. El objetivo principal de haber comenzado con estas
lenguas era el de lograr una amplia cobertura que permitiera un alto desempeño.
51
En nuestro caso, la cooperación con la Universidad de Ginebra nos facilitó el acceso a la
plataforma XLE. Una licencia para propósitos académicos puede obtenerse a través de la página
web http://www2.parc.com/isl/groups/nltt/xle/; última visita 07-07-2012.
54
CAPÍTULO 1. INTRODUCCIÓN
Luego, con el fin de incorporar una lengua tipológicamente diferente, se incluyó
el japonés. Después, con el mismo espíritu se decidió incluir el urdu, lengua del
sur de Asia que, si bien es también de origen indo-europeo, comparte algunas
características con el japonés, tales como el pro-drop fuerte o irrestringido. Estas
característica les permite a estas lenguas omitir cualquier argumento de la frase
y no solo el sujeto como en español (55). Finalmente, se incluyó el noruego, para
trabajar ampliamente el nivel de la estructura-a. (Butt, Dyvik y col. 2002).
Japonés
(55) Bill-ga ∅ setokuru
Bill-NOM convenció.
’Bill convenció a pro’
El mayor mérito de este proyecto es haber logrado el paralelismo de seis gramáticas correspondientes a seis lenguas muy disímiles entre sí, y además escritas por lingüistas con tradiciones muy disímiles en cuanto a su formación. Es
importante notar aquí que incluso si se trata de un mismo formalismo, un mismo
fenómeno lingüístico puede tener múltiples proposiciones de análisis. Además,
un mismo análisis teórico puede tener múltiples formas de implementarse en XLE
(Butt, Dyvik y col. 2002).
En la figura 1.4, mediante el ejemplo Carmen come una manzana, mostramos
una imagen que ilustra el tipo de interfaz y el tipo de output que XLE produce. Se
puede observar que el programa produce cuatro cuadros con una representación
diferente cada una.
Los dos cuadros superiores son los más importantes para comprender las nociones de gramaticalidad y agramaticalidad. En primer lugar, se obtiene la estructurac, la cual se genera siempre y cuando existan las reglas, incluso si la frase o sintagma están incompletos. De modo que, a partir de una frase como ”’el chico se”
1.5. MARCO TEÓRICO
55
es posible generar una estructura-c parcial, pues existen las reglas capaces de
generar la frase completa (con un verbo por ejemplo). En este sentido, una frase
incompleta puede verse como un subconjunto de una frase completa.
Sin embargo, la estructura-f se generará si y solo si la totalidad de las reglas
sintácticas y los rasgos léxicos pueden ser unificados. De esta manera, a partir
de la misma frase incompleta ”el chico se”, no se podrá generar una estructura-f.
El hecho de no producirse una estructura-f, significa inmediata e indudablemente
que la frase es agramatical. En el caso mencionado lo es.
En el caso de existir múltiples análisis posibles para una frase o sintagma gramatical, estos se generan en los dos cuadros inferiores. Estos análisis pueden ser
gramaticales o no.
56
CAPÍTULO 1. INTRODUCCIÓN
Figura 1.4: Interfaz de la herramienta de desarrollo de gramáticas XLE.
De derecha a izquierda se pueden apreciar a) la estructura-c, b) la estructura-f, c)
otras estructuras-f disponibles en caso de análisis múltiples, d) otras soluciones.
1.6. METODOLOGÍA
1.6.
57
Metodología
Nuestro trabajo versa sobre el análisis sintáctico del español utilizando el formalismo LFG. Se trata de un formalismo de unificación y se encuentra dentro de
la corriente lingüística generativa. Esta área de la lingüística utiliza una aproximación teórica sistemática al estudio de las lenguas. Permite así, no solo analizar
una gran variedad de datos empíricos, sino también descubrir nuevos fenómenos
de las lenguas, y entender otros que si bien son imaginables, no aparecen en las
lenguas (Haegeman 2001).
Como bien explica Labov (1972), los estudios teóricos sintaxis generativa se
caracterizan por recurrir a los datos introspectivos como fuente de textos lingüísticos. Esta práctica fue iniciada y defendida por N. Chomsky desde sus primeras
publicaciones, entre ellas Syntactic Structures (1957), y permanece como metodología hasta nuestros días. El desarrollo de los esquemas de Rección y Ligamiento,
X̄, Principios y Parámetros, el Programa Minimalista y más recientemente la Nanosintaxis son la consolidación del aparato abstracto de análisis producido por los
lingüistas (Haegeman 2001).
Los lingüistas son, así, capaces de emitir un criterio de aceptabilidad y gramaticalidad de los datos que utilizan para construir la teoría. Luego, los análisis presentados se validan tradicionalmente por medio del consenso entre lingüistas; o,
más recientemente, por otros medios lo cuales incluyen la lingüística de corpus y
las aplicaciones computacionales (Labov 1972; Litosseliti 2010). En nuestro caso,
es la herramienta XLE el instrumento de validación, puesto que permite obtener
un análisis de las oraciones gramaticales y rechazar las oraciones agramaticales
en función de la descripción proporcionada en la gramática.
58
CAPÍTULO 1. INTRODUCCIÓN
1.6.1. Obtención de los datos
Nuestro estudio parte de un corpus construido de 40 oraciones. Estas oraciones fueron construidas sobre la base de nuestra definición de frase simple; es
decir, se trata de oraciones sin pronominalizaciones, desplazamiento de complementos o ningún fenómeno diferente a la completa expresión de los complementos verbales en su posición canónica. La lista completa de las oraciones se puede
consultar en el apéndice A.
Los elementos léxicos que componen estas oraciones se escogieron con base en la tipología que escogimos para nuestro lexicón. Por tratarse del corazón
mismo de la gramática que desarrollamos en este trabajo, dedicamos todo el capítulo 2 al lexicón (El lexicón y su tipología). En él, explicamos ampliamente nuestros
criterios de selección léxica. Los verbos se escogieron según los marcos de subcategorización verbal e incluyen las siguientes clases: meteorológicos, ergativos,
copulativos, perceptivos, intransitivos, transitivos y ditransitivos. Los sustantivos,
por su lado, se escogieron de acuerdo con la escala de estabilidad temporal propuesta por Givón (2001).
De dicho corpus, es necesario extraer una muestra con fines de evaluación
después de finalizadas las reglas de la gramática. De modo que de dichas 40 oraciones, 15 serán usadas con el fin de evaluar y validar la gramática escrita usando
la plataforma XLE. Este subconjunto de oraciones se conoce como test-set y se
puede consultar en el apéndice C. En lingüística de corpus y lingüística computacional estadística, se acostumbra construir test-set de cientos –sino miles– de
oraciones. Sin embargo, en vista del carácter exploratorio e incipiente de nuestro proyecto en su área, así como de su carácter simbólico, consideramos que un
corpus y un test-set de tamaño reducido son mucho más adecuados y justificados
(Lehmann y col. 1996; Litosseliti 2010).
1.6. METODOLOGÍA
59
Otros estudios como los propuestos por Moreno, López y Sánchez (2003) y
Lloberes, Castellón y Lluis Padró (2010) consideran tan solo 50 oraciones para la
evaluación de sus respectivos sistemas. En el caso de Lloberes, Castellón y Lluis
Padró (2010) para evaluar FREELING, y en el caso de Moreno, López y Sánchez
(2003) para la evaluación manual de la anotación de un treebank compuesto por
periódicos españoles.
1.6.2.
Definición del lexicón
Al tratarse de una gramática de unificación, para su construcción es necesaria
la definición de la base datos que conforma el lexicón. Dado que LFG es de naturaleza fuertemente lexicalista, las entradas en el lexicón corresponden a formas o
palabras totalmente flexionadas. Cada una contiene la información pertinente de
acuerdo con su categoría gramatical. Un verbo por ejemplo, contendrá la información relacionada a participantes o roles temáticos, subcategorización, número,
persona, tiempo, modo, etc. Estas entradas deben contener tantos rasgos como
sean necesarios, pues son ellos los que se mostraran en las estructuras-f y permitirán o no las unificaciones.
Posteriormente, es posible definir las reglas libres de contexto que le indican
al sistema la correcta formación de las estructuras-f por medio del mecanismo
de unificación. Con este fin, seguiremos los postulados de Bresnan (2001) sobre
LFG; además, seguiremos la teoría concerniente a las reglas libres de contexto,
entre algunas obras se encuentran Wehrli (1997); Moreno (1998); Moreno, Grishman y col. (2000) y Moreno (2001).
60
CAPÍTULO 1. INTRODUCCIÓN
1.6.3. Escritura de las reglas gramaticales
Dado que nos hemos propuesto realizar una formalización sintáctica manipulable computacionalmente de las principales características de la frase simple,
realizaremos una revisión de los estudios teóricos formales del español. Para ello
recorreremos los análisis sintáctico-teóricos de algún aspecto del español. Vann
(1993); Franco y Huidobro (2008); MacDonald y Huidobro (2010), por ejemplo,
trabajan las oraciones impersonales desde los modelos de Rección y Ligamiento
y Principios y Parámetros.
Además, nos hemos podido percatar de que en varios trabajos anteriores hechos desde otros formalismos se menciona el español de manera esporádica. Por
ejemplo, el mismo libro de Bresnan (2001), Lexical Functional Syntax, al ser una
obra didáctica, propone ejercicios donde analiza los pronombres clíticos de objeto directo. Moreno (2001) y Bosque Muñoz y Gutiérrez-Rexach (2009) también
mencionan algunas reglas a modo de ejemplos.
D’Introno (2001) y Zagona (2002), por otro lado, hacen un análisis del español
usando un marco fuertemente chomskyano. Zagona (2002) utiliza como marco
teórico Rección y Ligamiento solamente; mientras que D’Introno (2001), por su
lado, utiliza Rección y Ligamiento y el Programa Minimalista, con un fuerte interés
en la evolución de la teoría misma. De estos estudios, nos proponemos comprender cuáles particularidades del español ya han sido ampliamente abordadas y por
lo tanto pueden ser aprehendidas utilizando LFG.
Hallebeek (1990), en su tesis doctoral, analiza el español utilizando un formalismo de descripción llamado Extended Affix Grammars, proveniente de la informática y usado en la definición de lenguas de programación. Aparte de las
unidades sintagmáticas generales como NP y VP, el autor analiza las estructuras
de comparación, coordinación y subordinación.
1.6. METODOLOGÍA
61
Luego de esta revisión de los estudios formales, será necesario crear nuevas reglas de análisis según sean pertinentes de acuerdo con nuestro corpus y
a nuestro formalismo. Es necesario estudiar la diferentes oraciones del corpus y
preveer sus posibles alternancias con el fin de evitar la redundancia en las reglas. Además, a medida que la complejidad de la gramática aumenta, se debe
reflexionar cuidadosamente al introducir nuevos elementos (ítemes léxicos, rasgos, reglas, etc.) puesto que hasta el menor cambio puede tener consecuencias
imprevisibles en el desempeño de la gramática en su totalidad. Por esto, múltiples semi-evaluaciones regresivas deben hacerse sistemáticamente. Por ejemplo, comprobar que las entradas léxicas sean reconocidas, comprobar que los
rasgos coincidan con las entradas léxicas, entre otros (Paiva y King 2008).
1.6.4.
Validación computacional: parser
La herramienta XLE descrita más arriba en la sección 1.5.7 fue especialmente
concebida para el desarrollo de gramáticas escritas usando el formalismo LFG.
Por lo tanto, la escritura de tal gramática sigue a su vez las reglas de notación de
XLE. En general, su sintaxis es muy similar a la de LFG, con tan solo modificaciones mínimas que facilitan el procesamiento automático. Por ejemplo en lugar de
los símbolos flecha ascendente y flecha descendente (↑↓), se utilizan los símbolos
” ˆ ” y ” ! ” respectivamente.52
Es una herramienta que facilita la escritura de las reglas gracias a su interfaz
gráfica. Efectivamente, a medida que se escriben las reglas, es posible comprobar
su valor y corrección casi inmediatamente. De existir incompatibilidades o errores
52
Detalles relacionados con la notación utilizada por XLE se pueden consultar en http://www2.
parc.com/isl/groups/nltt/xle/doc/xle_toc.html; última visita 07-07-2012. En nuestro trabajo, el Capítulo 4: El modelo de gramática formal proporciona un explicación detallada de su funcionamiento.
62
CAPÍTULO 1. INTRODUCCIÓN
en la descripción de los rasgos, las unificaciones no se validan y el procesamiento
de las reglas se ve interrumpido.
Por otro lado, permite saber cuando las reglas son demasiado generales, con
capacidad de generar múltiples análisis, de modo que el usuario puede refinar sus
análisis. Esto, a su vez, implica un fino conocimiento de LFG como teoría formal,
pues las operaciones permitidas en XLE siguen muy de cerca los postulados del
formalismo. De esta manera, existe la certeza sobre la pertinencia de la gramática
a medida que se define.
El objetivo fundamental de XLE es la validación de las frases gramaticales que
se proporcionen como input, lo que implica el rechazo de aquellas que no lo sean.
Para ello, el programa realiza un análisis sintáctico de acuerdo con la gramática
que se le indique. El reconocimiento de cada palabra es gracias a la base de
datos que contiene el lexicón. De manera que si una palabra determinada no se
encuentra registrada, el sistema no será capaz de reconocerla y la oración no
podrá ser analizada.
La herramienta XLE fue desarrollada para el proyecto de la Gramática en Paralelo, tal como se mencionó. Sin embargo, hoy en día es tan solo una plataforma
para la investigación y el beneficio académico, razón por la cual no incluye ningún
tipo de conocimiento lingüístico. El desarrollo del lexicón, así como la escritura de
las reglas es un proceso manual que comienza de una página en blanco.
1.7. Conclusión
En este capítulo, hemos presentado el estado de la investigación en español
desde LFG y la motivación de nuestro estudio.Además, hemos dotado al lector de
los instrumentos de estudio en materia de análisis sintáctico desde el formalismo
1.7. CONCLUSIÓN
63
LFG. Este se enmarca en el cuadro de las gramáticas de unificación y sigue los
lineamientos generales de la gramática generativa. En particular, LFG asume los
postulados básicos del esquema X̄ (Bresnan 2001).
En el capítulo siguiente, definiremos el conjunto de entradas léxicas denominadas lexicón que definirán las frases que será posible procesar. Asimismo, será
la base para la definición de las reglas de análisis de nuestra gramática, las cuales
validarán la unificación de las estructuras-f.
64
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
Capítulo 2
El lexicón y su tipología
En el capítulo anterior, se definieron los conceptos principales sobre las estructuras, el funcionamiento y los principios de análisis del formalismo LFG. Asimismo,
se presentó la herramienta de desarrollo de gramáticas XLE. Esta servirá para la
escritura de las reglas gramaticales y la validación de los análisis propuestos.
Ahora debemos comprender cuál es la interacción de los componentes principales de una gramática formal: lexicón y reglas. Para ello, en este capítulo se
presentan los criterios que tomamos en cuenta para la selección de las entradas
del lexicón. Recordando que LFG se conoce por su carácter lexicalista fuerte,
aclaramos que todas las categorías del lexicón son formas completamente flexionadas.
En la sección 2.1:¿Qué es el lexicón? definimos al lexicón. Luego, presentamos las diferentes categorías gramaticales que conforman la selección de entradas del lexicón (secciones 2.2.1: Tipología verbal y 2.2.2 Tipología nominal). Los
determinantes y modificadores también son tomados en cuenta (secciones 2.2.3:
Determinantes y 2.2.4: Modificadores respectivamente). La sección 2.3: Conclusión cierra el capítulo.
2.1. ¿QUÉ ES EL LEXICÓN?
2.1.
65
¿Qué es el lexicón?
El lexicón es una abstracción sobre los elementos de una gramática. Todo
lenguaje, sea natural o artificial, comprende un léxico que especifica el conjunto
de sus elementos terminales (Wehrli 1997). Es decir, en nuestro caso, el conjunto
de sus palabras.1
Como bien exponen Bates y Goodman (1997), en sus inicios, las corrientes
principales de la gramática generativa suponían que la gramática y el lexicón, i.
e., las reglas y el lexicón, constituían dos entidades discretas y separadas. Sin
embargo, con el desarrollo de marcos como LFG o HPSG surgió la tendencia
hacia el lexicalismo, otorgando así, más protaganismo al lexicón, hasta que tal
disociación desaparece por completo en la llamada gramática de construcciones,
mayormente desarrollada por Fillmore, Kay y O’Connor (1988).
Culicover y Jackendoff (2005) asumen que el lexicón y las reglas gramaticales
son categorías separadas pero estrechamente relacionadas, que funcionan en
paralelo. Efectivamente, en LFG a través del principio de monotonicidad y del
algoritmo de la solución, cada una de las estructuras puede ser inferida de la
información léxica contenida en las palabras. En esto consiste precisamente el
carácter lexicalista de LFG; es por ello que cada una de las palabras, totalmente
flexionadas, constituye una entrada léxica del lexicón. De manera que no existe
el concepto de lema.
1
Estamos conscientes de que el término palabra es sumamente ambiguo, complejo y que puede incluir desde afijos hasta expresiones plurimembres. Sin embargo, nosotros nos referimos solo
a las cadenas de símbolos separados por espacios en blanco. Referimos al lector al trabajo de
Leoni de León (2008) para más detalles sobre el tema.
66
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
2.2. Las tipologías gramaticales
Nuestro lexicón se organiza en clases gramaticales. Estas son útiles y necesarias por que permiten asegurar la representatividad de las entradas léxicas o
palabras, pues se pueden seleccionar de acuerdo con parámetros específicos y
ordenados. Sobre todo, teniendo en cuenta que nuestro trabajo no pretende ser
exhaustivo, sino representativo de las principales características de la frase simple.
2.2.1. Tipología verbal
En español, los verbos tienen la condición de predicadores en la frase, por lo
tanto, contienen la información relacional. En otras palabras, determinan la estructura de argumento-predicado que relaciona una acción o estado con sus participantes en la oración (Merlo y Stevenson 2001).
Existen numerosos modelos de clasificación de los verbos según criterios sintácticos, semánticos o combinaciones de estos dos. El trabajo de Levin (1993),
por ejemplo, contempla 200 clases verbales a partir de aproximadamente 3 200
verbos en inglés. Ella estableció las clases sintácticas tomando en cuenta las similitudes de los patrones de las diferentes alternancias sintácticas de la frase y
sus estructuras de argumentos.2 En otros trabajos como Kipper y col. (2007) y
Korhonen y Briscoe (2004) esta cantidad de tipos semánticos se extiende considerablemente.
Otro tipo de clasificación verbal es el basado en la Estructura Conceptual Léxica (EAGLES 1998). Esta es una representación semántica con un fuerte componente cognitivo. Se compone de tres partes: las categorías conceptuales, los
2
El cambio de voz activa a voz pasiva es un ejemplos de alternancia sintáctica. En ambas
voces, el verbo tiene los mismos participantes, pero la estructura argumental es diferente.
2.2. LAS TIPOLOGÍAS GRAMATICALES
67
campos semánticos y los primitivos conceptuales. El primero se refiera a las partes
conceptuales del discurso, como por ejemplo, evento, estado, lugar, ruta, propiedad, propósito, manera, cantidad y tiempo. Los primitivos son un grupo pequeño
de nociones susceptibles de ser modificadas por medio de los campos semánticos. Bajo esta perspectiva, verbos como regalar o entregar, pertenecen a la misma categoría. Para describirlos, se usa el primitivo IR, acompañado del campo
semántico de la posesión, lo cual indica un cambio en el poseedor y se expresa
IR + pos.
Por otra parte, también existen modelos de clasificación puramente léxicos tal
como WordNet3 . Este consiste en una base de datos léxica para el inglés que
agrupa los sustantivos, verbos, adjetivos y adverbios en conjuntos de sinónimos
que expresan cada uno un concepto diferente. Estos conjuntos están interconectados por medio de relaciones conceptuales, semánticas y léxicas, dando como
resultado una red de palabras y conceptos significativamente imbricados entre sí
(Miller 2009).
Por nuestra parte, contemplando la interfaz semántico-sintáctica contenida en
la correspondencia entre las estructuras a y f de LFG, decidimos escoger los verbos del lexicón con base en los roles temáticos. Nuestros criterios de selección
se explican a continuación.
Los roles temáticos
Entre múltiples investigadores tales como Dowty (1991); Payne (2008); Bresnan (2001); Givón (2001); Zagona (2002); Kroeger (2004) y Culicover y Jackendoff
(2005) entre otros, existe el común denominador de que la forma de codificación
de los argumentos del verbo en la oración está determinado por sus roles temá3
http://wordnet.princeton.edu/; última visita 07-07-12.
68
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
ticos. Ahora bien, no existe una única teoría en cuanto a qué es un rol temático,
cómo funciona y cuántos existen.
Samardzic (2009) también alude a la falta de consenso en el tema de los roles
temáticos. Ella explica que la causa está en la naturaleza de la clasificación que se
haga. Por un lado están quienes consideran que los roles temáticos son atómicos
y, por otro, quienes los consideran como conglomerados de rasgos. El hecho de
que sea necesario establecer más roles a medida que se analizan oraciones más
complejas, es una prueba a favor del segundo grupo, pues indica que no existen
límites claros para definir los roles temáticos.
De este segundo tipo es el trabajo clásico de Dowty (1991) quien propone los
roles de protopaciente y protoagente. Según él, los argumentos pueden diferir en
el grado en que porten las propiedades que definen cada uno de los dos roles,
por lo que es mejor delimitarlos en el marco de una teoría de prototipos. Actualmente, el trabajo de Dowty se utiliza en investigaciones sobre roles temáticos en
el marco de la lingüística computacional. Stevenson y col. (1999); Merlo y Stevenson (2001); Merlo y Stevenson (2004) y Merlo y van der Plas (2009) son buenos
ejemplos.
Entre los trabajos mencionados, vemos un acuerdo en que la forma de asignar
los roles temáticos a sus posiciones sintácticas es siguiendo una jerarquía. De
modo que el rol temático con el rango más alto en la jerarquía también ocupe la
posición sintáctica de mayor rango en la oración; por lo general, la posición de
sujeto. Este proceso de asignación se repite sucesivamente en las dos jerarquías
(la semántica de los roles temáticos y la sintáctica de las funciones argumentales)
hasta no tener más argumentos (Culicover y Jackendoff 2005).
(56)
a. Carmen le da el carro a María.
b. dar: agente >tema >beneficiario
2.2. LAS TIPOLOGÍAS GRAMATICALES
69
c. [sujeto] da [objeto directo] a [objeto indirecto]
En (56), tenemos un ejemplo que ilustra el funcionamiento de esta jerarquía. El
verbo dar (56a) tiene tres participantes o roles temáticos: un tema, un agente y un
beneficiario, jerárquicamente mostrados en (56b). Del mismo modo, dar cuenta
con tres posiciones sintácticas disponibles en esta oración en particular, (56c). Por
esta razón, Carmen, que tiene el rol más alto, es decir el de AGENTE, se asigna
a la posición sintáctica más alta, es decir, la posición de sujeto. Luego, el TEMA
se fija con el carro, en la posición de objeto directo. Por último, el BENEFICIARIO
corresponde a a María en la posición de objeto indirecto.
Si bien Bresnan (2001) es enfática en que la jerarquía de roles temáticos variará de acuerdo con la lengua de la que se trate, encontramos que la que ella
propone se ajusta adecuadamente a la interfaz semántico-sintáctica del español.
Esta se reproduce en (57) y será utilizada de ahora en adelante.
(57)
AGENTE >BENEFICIARIO >EXPERIMENTADOR >INSTRUMENTO >TEMA/PACIENTE >LOCATIVO
El AGENTE es el participante que desencadena el evento, causa o controla la
acción, tenga volición o no. El TEMA se diferencia del PACIENTE en que no sufre
un cambio físico disparado por un AGENTE. El BENEFICIARIO, por su lado, se
refiere al rol que saca provecho del evento. El EXPERIMENTADOR no controla el
evento ni sufre una transformación física, pero sí recibe una impresión sensorial4 .
El INSTRUMENTO, por su lado, generalmente es utilizado por el agente para
llevar a cabo el evento (Payne 2008). Por último, el LOCATIVO es un rol que hace
referencia a la existencia del participante en algún lugar del espacio, en un evento,
acción o situación (Bresnan 2001).
4
Desde una perspectiva cognitiva, esta última podría pensarse como un cambio químico cerebral y por lo tanto como una transformación física
70
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
Los ejemplos (58) a (63) que se muestran a continuación ilustran los roles utili-
zados en nuestra jerarquía. El texto resaltado en cursiva corresponde al argumento que constituye el rol temático enunciado en la línea inmediatamente inferior.
(58) Carmen come.
AGENTE
(59) Carmen come palomitas.
AGENTE
PACIENTE
(60) Carmen le da el carro a María.
AGENTE
TEMA BENEFICIARIO
(61) A Carmen
le gusta el queso.
EXPERIMENTADOR
TEMA
(62) Carmen corta el queso con el cuchillo.
PACIENTE
INSTRUMENTO
(63) Está en casa.
LOCATIVO
Selección de verbos
La interfaz semántico-léxica es el punto de intersección que permite enlazar
la estructura argumental con la información léxica asociada a los verbos. Dicha
información comprende las especificaciones sobre el número de argumentos, la
naturaleza semántica de esos argumentos y el tipo de estructura sintáctica en la
cual un tipo particular de verbo y sus argumentos pueden estar (Tenny 1994; Van
Valin 1999).
La categorización verbal por medio de roles temáticos nace precisamente con
el fin de comprender mejor el funcionamiento de la interfaz semántico-léxica. Esta
permite explicar la regularidad existente entre ciertas estructuras sintácticas con
algunas categorías verbales. Tal regularidad es motivada por las propiedades se-
2.2. LAS TIPOLOGÍAS GRAMATICALES
71
mánticas contenidas en cada uno de los diferentes roles temáticos (Tenny 1994;
Van Valin 1999). Los verbos ergativos por ejemplo, cuentan con rol temático de
TEMA que típicamente se asocia con la posición de sujeto.
Una categorización verbal basada únicamente en criterios sintácticos, solo tendría en cuenta el número de argumentos asociado a cada verbo. Nosotros solo
consideramos un máximo de tres argumentos dentro de la subcategorización verbal. Otros autores como Galicia y Gelbukh (2007) estiman que la mayoría de los
verbos tienen entre uno y tres argumentos, si bien proponen un máximo de hasta
cinco argumentos, como se explica con detalle más adelante en la sección 3.1.2:
Sobre la subcategorización verbal.
impersonal
0 argumentos
meteorológico
intransitivo
1 argumento
copulativo
transitivo
2 argumentos
percepción
ditransitivo
3 argumentos
Cuadro 2.1: Tipos de verbos clasificados de acuerdo con el número de argumentos
que subcategorizan.
Con esto en cuenta, consideramos que la clasificación semántica es importante para comprender ciertos aspectos claves de la sintaxis; si bien esta última
permanece como el centro de nuestro interés. Esta es la razón por la cual hemos
seleccionado los verbos teniendo en cuenta el número de argumentos que subcategorizan. De ahí que hemos creado las categorías de impersonal, intransitivo,
transitivo y ditransitivo. Asimismo, con el fin de explorar y modelizar una parte del
contenido semántico de estas clases sintácticas, hemos establecido tres subgrupos: meteorológico, copulativo y percepción. Resumimos nuestra classificación
en el cuadro 2.1.
De forma que, con base en los roles temáticos establecidos en (57) y explicados en la sección anterior, se escogieron los verbos que se presentan en el cuadro
72
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
2.2 como base de nuestro lexicón. La selección, lejos de ser exhaustiva, pretende
ser representativa de cada categoría de verbo y se compone de un total de 40
elementos. En los párrafos siguientes se describe cada clase y se proporcionan
los ejemplos correspondientes (64 a 79).
La categoría meteorológicos abarca los verbos que no presentan argumentos,
por lo tanto, no tiene roles temáticos. Simplemente expresan la manifestación de
un fenómeno natural.
(64) Llovió.
(65) Amaneció temprano.
Los ergativos son los verbos cuyos roles temáticos son un EXPERIMENTADOR y un TEMA. El TEMA por ocupar una posición más alta en la jerarquía ocupa
la posición de sujeto, razón por la cual concuerda con el verbo. El EXPERIMENTADOR, por su parte, se codifica como objeto indirecto.5
(66) A Carmen le gustan los chocolates.
EXPERIMENTADOR TEMA
El grupo de copulativos contiene los verbos que solo cuentan con un rol. Este
puede ser un TEMA o bien un LOCATIVO como en el caso de estar (67). Además,
tienen la particularidad de que el sintagma verbal completa su significado con un
predicado nominal que concuerda con el sujeto. Como se puede observar en los
ejemplos (68) y (69), el adjetivo de la predicación concuerda con el sujeto:
(67) Carmen está en la casa.
5
Estamos conscientes de que en sentido estricto la ergatividad se refiere a un agente en lugar
de un experimentador como rol del sujeto en las oraciones intransitivas. Sin embargo, en este
trabajo utilizamos un sentido amplio del término. Esto se explica con más detalle en la sección
3.1.3, en la página 101.
gustar
encantar
costar
importar
doler
llover
amanecer
anochecer
nevar
ser
estar
quedar
parecer
copulativos
oir
ver
escuchar
percepción
nacer
haber
entrar
morir
reír
salir
ir
venir
dormir
intransitivos
querer
sentir
comer
publicar
llamar
lavar
hacer
abrir
transitivos
Cuadro 2.2: Conjunto total de verbos considerados.
ergativos
meteorológicos
dar
escribir
decir
traer
llevar
ditransitivos
2.2. LAS TIPOLOGÍAS GRAMATICALES
73
74
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
(68) El libro es rojo.
(69) Ella quedó contenta.
El grupo de percepción cuenta con un rol de EXPERIMENTADOR y uno de
TEMA. Los de percepción presentan la característica de que cuando se usan en
su forma de gerundio se interpretan en función del objeto directo de la oración y
no del sujeto, como en el caso de un verbo transitivo. Esto se puede ver en el
contraste entre (70a) y (70b).
(70)
a. La vi riendo.
b. Lo comí riendo.
En (70a), el gerundio riendo tiene relación con el objeto directo femenino expresado por el pronombre clítico la. En (70b), por el contrario, el gerundio se correlaciona con el sujeto de la oración, es decir yo. Este comportamiento es propio de
los verbos conocidos como verbos de marcaje excepcional (ECM por sus siglas
en inglés).
La categoría de intransitivos solamente cuenta con un rol, ya sea un AGENTE
o un TEMA, como en el caso de los verbos nacer y morir.
(71) Carmen nació en abril.
Entre los verbos intransitivos, destacamos que se incluye el verbo haber debido a los usuales casos de concordancia como habíamos tres personas en aquel
lugar o hubieron muchas fiestas este año.
Nos parece importante notar que en el uso contemporáneo parece haber una
mezcla de paradigmas que se puede explicar desde dos puntos de vista. El primero es considerar haber como un verbo transitivo, sin un sujeto explícito, lo que
lleva a establecer la concordancia con su objeto directo. No es raro escuchar oraciones del tipo mostrado en (72), o bien en (73). Interpretar que existe un objeto
2.2. LAS TIPOLOGÍAS GRAMATICALES
75
directo en estas construcciones implica que este también es susceptible de ser
reemplazado por un pronombre clítico correspondiente, al igual que en las construcciones con objeto directo de los demás transitivos.
(72)
Habían muchas dificultades para ganar.
(73)
Hubieron tres accidentes en carretera.
Al respecto, obsérvense los ejemplo (74) a (76):
(74)
Hubo un huracán. → lo hubo
(75)
Hubo tres accidentes en carretera. → los hubo
(76)
?Hubieron tres accidentes en carretera. → *los hubieron
El segundo punto de vista, que es el adoptado aquí, considera el verbo haber
como de tipo intransitivo. Bajo esta perspectiva, nos encontramos entonces frente
a un verbo de sujeto explícito y pospuesto tal como lo es existir (77). Al tratarse de
un sujeto, entonces lo consecuente es que concuerde con el verbo, lo cual explica
las oraciones como las mencionadas en (72) y (73). Sin embargo, este análisis
también implica que no es posible producir las formas ilustradas en (74) y (75),
pues no estaría involucrado un objeto directo.
(77)
Existen muchas playas en el país. → *las existen
Volviendo a nuestra tipología verbal, la categoría de transitivos, por su parte,
cuenta con dos roles, un AGENTE y un TEMA, como se ve en el ejemplo (78).
(78)
Carmen come palomitas.
Como última categoría, ditransitivos contiene los verbos con tres roles temáticos: AGENTE, TEMA y BENEFICIARIO.
(79)
Carmen le da el libro al chico.
76
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
2.2.2. Tipología nominal
En muchas lenguas pertenecientes a diferentes familias, los elementos nominales se dividen en conjuntos de acuerdo con criterios arbitrarios. Algunas veces
se trata de categorías agrupadas en torno a tipos ”naturales”, tales como humanos, plantas o animales. Otras veces, las categorías tienen que ver con las propiedades descriptivas que tenga cada entidad, como por ejemplo si es alargado,
líquido o plano (Kihm 2005).
Los sistemas de clasificación nominal de las lenguas del mundo se pueden
resumir en tres grandes tipos. El primero abarca los sistemas basados en dos o
tres géneros, del cual las lenguas romances son el mejor ejemplo. El segundo tipo incluye los sistemas basados en los descriptores nominales y los sistemas que
tienen más de tres géneros. Numerosas lenguas de la familia nigero-congoleña,
pertenecen a este tipo. El último grupo es el de las lenguas con sistemas de clasificación numerales, tal como el chino (Kihm 2005).
Por su lado, al ser parte de las lenguas romances, el español cuenta con una
clasificación basada en el género, por lo tanto pertenece al primer grupo. En cuanto a las entidades nominales, al existir tan solo los grupos femenino y masculino,
nos vimos en la necesidad de recurrir a una clasificación más específica.
Otras clasificaciones, tal como la propuesta por Leoni de León (2008), son
especializadas en la representación formal, mientras que nuestro fin último es
contar con una selección que nos permita corroborar la adecuación de las reglas
propuestas.
Esta es la razón por la cual acudimos a la tipología de Givón (2001) para escoger los sustantivos de nuestro lexicón.
Givón (2001) propone la escala de estabilidad temporal mostrada en (80) para
caracterizar semánticamente a los sustantivos.
2.2. LAS TIPOLOGÍAS GRAMATICALES
(80)
77
entidad >temporal >concreto >animado >humano
Como se puede ver, la escala va en aumento desde lo menos hasta lo más
estable. Una entidad se refiere a algo que solo existe y no es tangible, tal como los
sustantivos abstractos libertad o dignidad. La condición de temporal significa que
existe en un tiempo particular, como día o noche. La categoría denominada concreto comprende los sustantivos inanimados pero que cuentan con dimensiones
espaciales y otras características físicas. Entre ellos están mesa, silla y taza. La
categoría de animado abarca los sustantivos que, además de contar con las propiedades de la clase concreto, también tienen el rasgo de animado. Sin embargo,
no gozan del rasgo humano. Pertenecen a este grupo perro y hormiga. Por último,
la clase denominada humano incluye todos los rasgos de las demás categorías
y además el rasgo de ser humano. Sustantivos como astronauta, mesero o bebé
son parte de este grupo.
Existen otras tipologías basadas en diferentes criterios. Payne (2008), por
ejemplo, propone como tipos universales de sustantivos las categorías de nombres propios/comunes, poseíbles/no poseíbles y contables/no contables. Por otro
lado, Leoni de León (2008), siguiendo a D’Introno, construye una clasificación
sintáctica. Él establece dos grandes categorías, predicativo y no predicativo. La
primera está compuesta por los sustantivos derivados de acciones transitivas o
intransitivas. Los sustantivos transitivos pueden ser acciones (como traducción,
crítica), entidades (idea, historia), las cuales pueden llevar adjuntos modales y
espacio-temporales, y actantes (crítico, traductor). Los sustantivos intransitivos,
por su parte, son sustantivos como llegada o ensayo, derivados de intransitivos.
La otra segunda gran categoría -no predicativo- se compone de todos los demás
sustantivos. Estos son susceptibles de llevar adjuntos materiales, como mesa de
madera o saco de dormir.
78
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
En el cuadro 2.2, se muestra la selección de sustantivos de nuestro lexicón.
Optamos por cambiar el nombre de entidad que da Givón a esta categoría, por
el de intangible. El propósito de establecer cada categoría es hacer referencia a
una propiedad particular de sus miembros como grupo que los diferencie de las
otras categorías. Una entidad, tal cual, puede hacer referencia a cualquier ente
o ser de las otras categorías; tan solo señala que algo existe, razón por la cual
preferimos el nombre de intangible.
Intangible
trabajo
problema
libertad
solución
pregunta
miedo
verdad
mentira
Temporal
tiempo
día
semana
noche
tarde
Concreto
mundo
mano
ojo
lugar
bicicleta
árbol
manzana
lápiz
silla
libro
Animado
perro
gato
caballo
pájaro
Humano
persona
hombre
Carmen
chico
maestro
bailarina
jugador
madre
Cuadro 2.3: Tipología nominal
Pronombres
Los diferentes tipos de pronombres también son parte fundamental del lexicón.
Los pronombres son formas plenas o semiplenas -como en el caso de los clíticosque pueden cumplir la función de una frase nominal en una oración (Laenzlinger
2003). En general, poseen todas las características sintácticas de las frases nominales, razón por la cual los consideramos como un subconjunto de los sustantivos
o frases nominales. Aquí solo consideraremos los pronombres personales, que se
muestran en el cuadro 2.4. Nótese en este cuadro que las personas del plural han
sido enumeradas del cuatro al seis. Esto evita la redundancia de rasgos a la hora
2.2. LAS TIPOLOGÍAS GRAMATICALES
79
de su definición en el lexicón.
Persona
1
2
Número
singular
singular
3
singular
4
5
plural
plural
6
plural
Género
fem/mas
fem/mas
fem
mas
fem
mas
neutro
fem/mas
fem
mas
fem
mas
Fuertes
yo
tú
usted
usted
ella
él
ello
nosotros
ustedes
ellas
ellos
Débiles
Dativo Acusativo
mí
me
ti
te
le
la
lo
le
la
lo
lo
nos
nos
les
las
los
les
las
los
Cuadro 2.4: Pronombres personales
2.2.3.
Determinantes
Los únicos determinantes considerados son los definidos y los indefinidos. Estos se muestran en la tabla 2.2.3 a continuación.
singular
plural
Masculino
el, un
los
Femenino
la, una
las
Cuadro 2.5: Determinantes
En el caso de los pronombres demostrativos, estos funcionan mayormente
como elementos de correferencia. En otras palabras, se utilizan para referirse a
elementos mencionados con anterioridad en el texto, y en menor medida a elementos posteriores (tal es el caso de la catáfora). Asimismo, también se utilizan
con valor abstracto, lo que significa que toman su contenido semántico a partir de
toda la predicación a la que se refieren.
80
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
(81) El veranoi apunta alto, ojalá sea como aqueli en que nos juntamos todos.
(82) Todo esto era de tu abuelo.
A través de los subíndices i en el ejemplo (81) se muestra la relación de correferencia entre verano y aquel, es decir, se refieren a una misma entidad. En
el ejemplo (82) el demostrativo esto no encuentra su contenido dentro de la frase
misma.
Tanto los pronombres demostrativos como los elementos cuantificadores y los
pronombres posesivos forman parte de la tarea de resolución de la correferencia.
Tal tarea ha sido el objeto de estudio de un amplio campo de la lingüística computacional dedicada al procesamiento automático de la coherencia textual. Existen
corpus y algoritmos especializados tan solo en la detección de la resolución de la
correferencia (Buring 2005).6
Nosotros consideramos que tal nivel de análisis, desborda los objetivos perseguidos en este estudio. Por lo tanto, limitamos la categoría de determinantes a
las categorías de definidos e indefinidos.
2.2.4.
Modificadores
Las clasificaciones de modificadores que es posible encontrar (Okada y Miura
1982; Payne 2008; EAGLES 1998; Jassem 2002; Boleda, Schulte y Badia 2007;
Boleda, Schulte y Badia 2008) atraviesan clases muy disímiles entre sí, entre ellas
calidad, dimensión, color, tiempo, valor, etc. En el caso particular de los adjetivos,
WordNet, por ejemplo, utiliza una clasificación de solo dos grandes grupos: adscritos y no adscritos. El primero asigna un valor atributivo a los sustantivos. Por
6
La serie de conferencias MUC (Message Understanding Conferences; http://www.itl.
nist.gov/iaui/894.02/related_projects/muc/; última visita 08-07-2012) y ACE Message Understanding Conferences; http://www.itl.nist.gov/iad/mig/tests/ace/; última visita 08-072012 (Automatic Content Extraction), por ejemplo, son hitos en este campo.
2.2. LAS TIPOLOGÍAS GRAMATICALES
81
ejemplo, un adjetivo adscrito sería seco, pues solo atribuye una cualidad al sustantivo que acompañe. Los adjetivos no adscritos, se consideran variantes estilísticas
derivadas de los sustantivos. Un ejemplo es el adjetivo estelar, el cual se deriva
de estrella, por lo cual se considera una variante de este (Miller 2009).
La clasificación que usaremos será la propuesta por Boleda, Schulte y Badia
(2007). A la vez que tiene criterios de categorización similares a los de WordNet,
es también más simple y más precisa. Estos autores parten de la idea de que todos
los adjetivos denotan propiedades. Sin embargo, estas propiedades se pueden
manifestar como atributos, relaciones a objetos o bien relaciones a eventos. Los
atributos son propiedades que no se pueden descomponer, tales como bello, o
grande. Los adjetivos relacionados con eventos tienen una acción o verbo en su
composición como tocar >tangible. De igual modo, los relacionados con objetos
se refieren o derivan de un objeto en su composición, p.ej. nariz >nasal.
En el cuadro 2.2.4 se presentan los adjetivos seleccionados para nuestro lexicón organizados según sus propiedades.
Atributos simples
bonito
feo
rápido
negro
rojo
alto
flaco
ágil
Atributos relacionados con:
objetos
eventos
nasal
pesado
espumoso
divertido
semanal
vivo
cristalino
querido
moderno
parecido
azulado
abierto
arenoso
cerrado
floreado
hambriento
Cuadro 2.6: Adjetivos
En total se escogieron 24 adjetivos. Como se puede ver no se incluye ningún
adjetivo del grupo de los cuantificadores, demostrativos, ni determinativos.
82
CAPÍTULO 2. EL LEXICÓN Y SU TIPOLOGÍA
2.2.5. Preposiciones
En vista de la importancia que tienen para introducir objetos, las únicas preposiciones incluidas en este estudio son a y para. Su papel en la configuración de
la frase simple es incuestionable, pues son preposiciones capaces de indicar el
caso según el tipo de objeto codificado por el verbo.
La preposición a es fundamental para introducir tanto los objetos directos como indirectos. En el caso del objeto directo, funciona también como un marcador
de animosidad, tal como se sigue del contraste entre (83a) y (83b). Asimismo,
también introduce el objeto indirecto 84.
(83)
a. Puso el libro en la mesa. [-animado]
b. Puso al bebé en la silla. [+animado]
(84) Le puso la mantequilla al pan.
En el caso de la preposición para, también tiene la capacidad de asignar el
caso dativo. Otros usos, por ejemplo para indicar destinación, comparación o razón no son contemplados pues involucran estructuras sintácticas que escapan a
nuestros objetivos, tal como la subordinación (85).
(85) El chico esperó a Carmen [para acompañarla].
2.3. Conclusión
En este capítulo nos hemos ocupado del lexicón. Tal como establecimos en
1.5.1: Algunas nociones de base, la categoría sintáctica de cada unidad distribucional, i.e. de cada sintagma, está determinada por su cabeza (endocentrismo)
(Laenzlinger 2003). A lo largo del capítulo hemos expuesto cada una de las categorías gramaticales que consideramos como parte del lexicón. Los elementos de
2.3. CONCLUSIÓN
83
estas categorías –verbos, sustantivos, determinantes, preposiciones y adjetivos–
son cabezas que tienen la propiedad de proyectar la estructura que conforma cada
sintagma; es decir, son capaces de constituir sintagmas verbales (VP), sintagmas
nominales (NP), sintagmas determinantes (DP), sintagmas preposicionales (PP)
y sintagmas adjetivos (AP) respectivamente. Posteriormente, es el conjunto de
reglas el que dicta la forma de combinación sintagmática en frases.
Somos conscientes de haber dejado de lado muchas categorías gramaticales
ampliamente usadas en la lengua. Sin embargo, por ser este trabajo de carácter
exploratorio, se privilegió el criterio de representatividad al de exhaustividad.
84
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
Capítulo 3
Análisis sintáctico de la frase
simple
En el capítulo precedente, describimos los elementos integrantes del lexicón.
Estos, así como el conjunto de rasgos que los definen en tanto que entradas léxicas, serán utilizados en este capítulo para construir el análisis sintáctico de la
frase simple. Dicho análisis es el producto de las reglas de buena formación de
los elementos de la frase; es decir, de los sintagmas, siguiendo los lineamientos
de LFG.
En nuestro análisis, presentaremos conjuntamente cada particularidad sintáctica de nuestro interés así como su análisis según las estructuras-f, c y a de LFG.
Mostraremos asimismo, los análisis propuestos por otros lingüistas en conjunto
con nuestro propio punto de vista. De ahora en adelante todos los ejemplos serán
construidos con elementos pertenecientes a nuestro lexicón.
En este capítulo detallamos la estructura de la frase simple según LFG (sección
3.1:La estructura de frase según LFG). Además, explicamos en detalle el análisis
de los verbos presentados en la tipología introducida en el capítulo 2 (secciones
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
85
3.1.1: Sujeto nulo, 3.1.2: Sobre la subcategorización verbal, 3.1.3: Ergatividad en
español, 3.1.5: El orden libre de los constituyentes en LFG, 3.1.6: Cópula). Luego,
en la sección 3.2: Otras construcciones sintácticas, analizamos otras estructuras
sintácticas que involucran algunos otros fenómenos derivados de nuestra definición de frase simple. Nos referimos a los pronombre clíticos (sección 3.2), las
oraciones con ”se” (sección 3.2.2) y la coordinación (sección 3.2.3).
3.1.
La estructura de frase según LFG
En la sección 1.5.1: La estructura de frase, introdujimos brevemente los postulados básicos del esquema ”X̄” (equis barra). Dijimos que se trata de una notación en capas y estrictamente binaria que representa los diferentes nodos y sus
proyecciones. En este esquema, X o Xo constituye la cabeza de una proyección
máxima XP. X’ es una proyección intermedia. Además, cada proyección hereda
las características de su cabeza (Haegeman 1991; Haegeman 2001; Culicover
y Jackendoff 2005).
Dado que la existencia de la gramática universal es uno de los principios subyacentes en esta aproximación, existe la implicación de que hay una única estructura base común a todas la lenguas. A partir de este esqueleto común entre las
lenguas, se derivan todas las transformaciones necesarias para dar cuenta de los
diferentes tipos de sintaxis existentes.
LFG, por su lado, también asume la existencia de la gramática universal, solo
que de un modo diferente. En este esquema, la estructura de frase varía en función de la lengua de que se trate, no se deriva de una única estructura común. Es
decir, la estructura-c cambia según la necesidades específicas de cada lengua.
Es más bien la descripción recogida por la estructura-f la que busca ser común a
86
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
las diferentes lenguas. Esto no significa que las diferentes lenguas tengan todas
las mismas características, sino que un mismo conjunto de características puede
ser usado de la misma manera en todas las lenguas, en la medida en que estas
se justifiquen en cada una de ellas (Bresnan 2001; Butt, Dalrymple y col. 2002).
Al igual que en el esquema X̄ y siguiendo a Laenzlinger (2003), como se explicó precedentemente en la sección 1.5.1: La estructura de frase, hasta este punto
consideramos que los nodos CP, IP y VP constituyen el esqueleto de la frase. Son
las propiedades de selección funcional y categorial, las cuales aseguran que IP
se adjunte a la derecha de Co y que VP sea el complemento de la cabeza Io .
Aquí, nosotros definimos la frase simple como aquella frase u oración que no
tiene alteraciones en el orden canónico de los sintagmas según se representan
en la figura (1.3), repetida aquí como 3.1. Se trata de oraciones sin pronominalizaciones, desplazamiento de complementos o ningún fenómeno diferente a la
completa expresión de los complementos verbales según lo establecen los marcos de subcategorización verbal. No obstante, aunque toda las ramas presentadas constituyen los nodos fundamentales y mínimos necesarios para dar cuenta
de la estructura interna de la frase, no necesariamente todos los nodos deben ser
siempre activos.
Las propiedades de selección funcional garantizan que IP se adjunte como
complemento de C’ y que VP sea el complemento de la cabeza I’.1 Hacemos
notar que en la figura 3.1, nosotros asumimos que el verbo come –totalmente
flexionado– se genera en la posición I o . En LFG, no existe la noción de movimiento. En aproximaciones como GB por ejemplo, se asume que el verbo se genera
en la posición de VP (V o ) y que de ahí se mueve a I o , donde recibe la inflexión,
tal como se ilustra en la figura 3.2.
1
La rama derecha en un árbol binario corresponde al complemento y la rama izquierda corresponde a la posición de SPEC, es decir, especificador.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
87
CP
C’
Co
IP
DP
I’
Carmen
Io
VP
come
V’
Vo
DP
una manzana
Figura 3.1: Estructura canónica de la frase simple.
CP
]
C’
Co
IP
DP
I’
Carmen
Io
VP
[
]
+tiempo
+agr
V’
Vo
DP
comer
una manzana
Figura 3.2: Estructura canónica de la frase según GB.
88
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
Por la misma razón, al no existir el movimiento, nosotros preferimos el término
TP, es decir, sintagma temporal, en lugar de IP. El uso de un sintagma temporal
también caracteriza a la teoría interna utilizada, por ejemplo, por el analizador
FIPS (Wehrli 2007); al mismo tiempo, su uso contrasta con el análisis presentado
por Zagona (2002) quien, desde el paradigma de GB, propone un sintagma de la
inflexión IP. Hallebeek (1990), por otro lado, utiliza una estructura completamente
plana, independientemente del tipo de sintagma del que se trate.
A partir del ejemplo de un verbo transitivo en la oración (86), a continuación
ilustramos la estructura de la frase que nosotros damos al español y que asumimos en este trabajo.
(86) Carmen come una manzana.
La oración en (86) es de tipo declarativa, construida con un verbo transitivo,
un sujeto explícito y un objeto2 . Como se muestra en la estructura-f dada en la
figura 3.3, Carmen y manzana son predicaciones que introducen las funciones de
sujeto y objeto, cumpliendo así el principio de completud. Además, la generación
de la estructura-f es válida gracias a la correcta correspondencia y unificación de
los rasgos NÚMERO y PERSONA entre el sujeto y el verbo.
Observamos también un DP en la posición de SPEC de TP. Nuestro análisis
asume la hipótesis del DP tal como fue iniciada por Abney (1987). Según esta
aproximación, un determinante D constituye la cabeza de un sintagma determinante DP. D tiene a NP como su complemento (figura 3.1).
Esta estructura supone una relación entre Det y NP, pero, como D es una categoría funcional no puede seleccionar a NP como complemento, por lo que este
último no está temáticamente marcado por D. Entre ellos solo hay una relación
2
Por objeto nos referimos al tradicional objeto directo. Recordamos al lector que dentro del
marco de LFG, las funciones argumentales se conocen como OBJ y OBJθ .
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG


PRED ’COMER’<(Carmen), (manzana)>






PRED ’Carmen’








GEND fem



SUBJ 

NUM sg











PERS 3








PRED
’manzana’








CASE
acc







OBJ 

DEF








GEND fem









NUM sg




[
]


TOP Carmen





MODO ind

TIEMPO pres
CP
C’
TP
DP
T’
NP
T
N
V
VP
Carmen
come
V’
DP
D
NP
una
N
manzana
Figura 3.3: Estructura canónica de la frase según LFG.
DP
D’
D
NP
una
N
manzana
Figura 3.4: Estructura del sintagma determinante (DP).
89
90
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
funcional en la que D dota a NP de una referencia: definición, indefinición, cantidad, etc., (Zagona 2002).
En cuanto al objeto, es la especificación en las reglas mostrada en (87), la cual
nos permite saber que todo OBJ de un verbo transitivo llevará el caso ACUSATIVO.
V'
(87)
→
DP
(↑ OBJ)=↓
(↓ CASE)=acc
Puesto que consideramos las entradas del lexicón como palabras totalmente flexionadas, la entrada para los ejemplos (88 - 89) es come en lugar de comer
como podría pensarse. Los rasgos NO DEFINIDO, FEMENINO y SINGULAR, presentes en las subestructuras-f de SUBJ y OBJ, los sabemos gracias a las entradas
manzana y una en el lexicón (89 - 90). Claro está, estos rasgos también deben ser
compatibles entre sí para validar la unificación del determinante con el sustantivo.
(88) come: V <(↑SUBJ)(↑OBJ)>
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ OBJ CLITIC) =+
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ OBJ CLITIC) =+
(↑ SUBJ PRED)='PRO'
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
91
(↑ SUBJ PERS)=2
(↑ OBJ CLITIC) =+
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=2
(↑ OBJ CLITIC) =+
(↑ SUBJ PRED)='PRO'
(89)
manzana: N (↑ PRED)='MANZANA'
(↑ GEND)=FEM
(↑ NUM)=SG
(90)
una: D (↑ DEF)=(↑ GEND)=FEM
(↑ NUM)=SG
En (88) se reproduce la entrada léxica para la forma come come. Como se
desprende de (88), una misma entrada puede estar definida por medio de grupos
diferentes de rasgos, que se separan aquí por medio del símbolo ”” | ”, es decir,
disyunción. La tercera disyunción especifica que esta forma de conjugación en
particular, además de corresponder a la 3ra persona, es homógrafa con la 2da
persona singular cuando se emplea el tratamiento de usted. 3
La primera variación de (88) corresponde al verbo utilizado con un sujeto explícito, mientras que la segunda especifica la utilización de come con un sujeto no
3
Aclaramos al lector que en este trabajo no consideramos la forma peninsular vosotros como
tratamiento de 2da persona plural.
92
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
explícito o pro-drop. Lenguas como el japonés, por ejemplo, permiten no realizar
fonéticamente los argumentos contenidos en la subcategorización verbal. Esta
característica se conoce como pro-drop ilimitado (Neeleman y Szendői 2005).
Las lenguas romances, por su lado, solo permiten el pro-drop cuando se trata
del sujeto de las oraciones, razón por la cual se conoce también como sujeto nulo
(sección 3.1.1).
3.1.1. Sujeto nulo
Por pro-drop nos referimos al ajuste positivo del español en el parámetro de
pro-drop. Esta característica permite no mencionar el sujeto en las oraciones, sino
que las personas gramaticales pueden ser diferenciadas gracias a una morfología verbal lo suficientemente distintiva (Rizzi 1982; K. Grohmann 2000; Clements
2008).
En LFG, cuando un sujeto no explícito, pero correspondiente a un argumento
en la subcategorización verbal, se instancia, se habla de un pronombre pro en
la estructura-f. Esta representación nos permite diferenciar un sujeto no explícito, pero argumental, de uno no explícito también pero no argumental, tal como
se muestra en las figuras (3.5 - 3.6) más abajo. Nosotros explicamos el pro-drop
como una especificación léxica en lugar de una representación sintáctica. De modo que cada entrada verbal de todos los verbos argumentales es definida de al
menos dos formas: con sujeto explícito y sin él.
Si comparamos las estructura-a en la estructura-f de la figura (3.5) y de la figura (3.6), vemos que la primera tiene 1 argumento, a saber pro, mientras que
la segunda no tiene ninguno. Es esta precisamente la diferencia entre un verbo
argumental y uno no argumental, en este caso un verbo de tipo METEOROLÓGICO. En el caso del segundo, no es un pronombre pro el involucrado sino más
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
93


PRED ’comer <pro >’

 


PRED ’pro’ 


 


SUBJ NUM sg  

 



PERS 1




MODO ind



TIEMPO pres
Figura 3.5: Estructura-f de un verbo con argumento.


PRED ’llover <>’




PRED ’expl’ 







SUBJ NUM sg





PERS 3





MODO ind


TIEMPO pres
Figura 3.6: Estructura-f de un verbo sin argumentos.
bien un pronombre de tipo expletivo.
Como parte de las características del parámetro del pro-drop, en español, los
verbos no argumentales no tienen una versión con pronombre abierto como sí
tienen los verbos con pro-drop argumental. Esto quiere decir que la alternancia
en (91) es posible, mientras que la alternancia presentada en (92) es agramatical.
Los verbos no argumentales no utilizan ningún tipo de pronombre expletivo abierto
tal como sí lo hacen lenguas sin el parámetro de pro-drop, entre ellas el francés
(93) y el inglés (94).
(91)
a. Comió ayer.
b. Ella comió ayer.
(92)
a. Llovió ayer.
b.
* Ello llovió ayer.
94
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
(93)
a. Il a plu hier.
b.
* A plu hier.
Llovió ayer.
(94)
a. It rained yesterday.
b.
* Rained yesterday.
Llovió ayer.
Otros análisis, en particular aquellos que siguen a Leonard Talmy y su noción
de evento de movimiento (Talmy 2000), taless como Matsumoto (2003) y Nakazawa (2006), analizan nuestra categoría de verbos METEOROLÓGICOS como
verbos argumentales de movimiento. De acuerdo a estos autores, una figura o
entidad en movimiento cambia de ubicación en relación con otro objeto o suelo a
través de un trayecto.
De forma que, en el marco de subcategorización de un verbo como LLOVER,
sería la figura de lluvia la que ocuparía la posición argumental, en lugar de un
pro –como en GB– o un espacio vacío (<>) de acuerdo con LFG y con nuestro
análisis. Esta posición no es contemplada en este estudio, pero representa una
posibilidad de estudio ulterior valiosa para tomar en cuenta oraciones con un valor
metafórico como (95) y (96).4
(95) Le llovió (una lluvia de regaños).
(96) Llovieron sapos y culebras.
4
Agradecemos a la profesora Ximena del Río por hacernos notar el uso de este tipo de ejemplos.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
3.1.2.
95
Sobre la subcategorización verbal
La subcategorización verbal corresponde dentro del esquema GB a lo que se
conoce como patrones de rección. Es decir, a la información asociada que tienen
los verbos sobre el tipo de complemento que rigen. Dentro de un marco funcionalista, se refiere grosso modo a la valencia verbal. Laenzlinger (2003) también la
llama selección léxica y la define como la propiedad de especificar la naturaleza
léxica de los complementos de una cabeza.
En términos de valencia sintáctica, existen operaciones de aumento y disminución de valencia que permiten incluir o excluir participantes del evento enunciado
por el verbo. Este tipo de operaciones ha sido ampliamente estudiado resultando
en trabajos que tratan sobre las alternancias sintácticas. Quizás el trabajo más
conocido dentro de este marco y desde una perspectiva completamente teórica
es el de Levin (1993), quien analizó las alternancias sintácticas de aproximadamente 3 200 verbos en inglés. Autores como Galicia y Gelbukh (2007), proponen
una subcategorización verbal de hasta 5 actantes para el español, es decir, 5 valencias. Ellos citan como ejemplo el caso del verbo rentar, en una frase como la
reproducida en (97).
(97)
María renta un departamento a la compañía Zeta en dos mil pesos por
mes.
En este trabajo hemos diferenciado los verbos meterológicos, intransitivos,
transitivos y ditransitivos de acuerdo con la cantidad y naturaleza de sus argumentos (Cuadro 2.2, página 73). Para nosotros, la subcategorización verbal también
tiene una definición y una representación puramente léxica. De modo que cada
esquema de subcategorización para un mismo verbo, cuenta con una entrada independiente en el lexicón. Para comprender mejor esto, si recordamos el ejemplo
96
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
(88), el cual especifica la entrada léxica para la forma COME, observamos que tiene 2 argumentos en su estructura-a, razón por la cual hemos categorizado a este
verbo como TRANSITIVO. Sin embargo, existe otra entrada, casi por completo
idéntica, cuya única diferencia es la cantidad de argumentos en la estructura-a.
La segunda entrada se refiere al mismo verbo, pero con un uso INTRANSITIVO.
Esta segunda entrada se muestra en (98).
(98) come: V <(↑SUBJ)>
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ OBJ CLITIC) =+
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ OBJ CLITIC) =+
(↑ SUBJ PRED)='PRO'
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=2
(↑ OBJ CLITIC) =+
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=2
(↑ OBJ CLITIC) =+
(↑ SUBJ PRED)='PRO'
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
97
La entrada especificada en (98) puede considerarse como un valor intransitivo
del mismo verbo COMER. De modo que, si bien el verbo COMER lo consideramos aquí como transitivo, otras alternancias sintácticas también están permitidas
siempre y cuando cuenten con una especificación en el lexicón.
En el caso de los verbos ditransitivos, estos se diferencian de los verbos transitivos en que cuentan entre su subcategorización con un tercer argumento, un
argumento OBJθ . A partir del ejemplo (99), cuya estructura-f se muestra en la figura (3.7), podemos ver que es la preposición a, o bien para, la cual introduce el
caso para el OBJθ .
(99)
Carmen le da la manzana a usted.
El hecho de que el OBJ lleve el caso ACUSATIVO y que OBJθ lleve el caso
DATIVO son especificaciones a nivel de la subcategorización verbal. Dentro de
los primitivos teóricos del esquema X̄, se encuentra la capacidad de las cabezas
preposicionales, Po , de asignar caso. Por lo tanto, a y para, en su calidad de
preposiciones, introducen el caso DATIVO de los verbos ditransitivos (100 - 101).
(100)
a: P (↑ PRED)='A <(↑OBJ)>'
(↑ OBJ CASE)=ACC
|(↑ PRED)='A <(↑OBJ2)>'
(↑ OBJ2 CASE)=DAT
(101)
para: P (↑ PRED)='PARA <(↑OBJ2)>'
(↑ OBJ2 CASE)=DAT
Tal como lo muestra la figura (3.7), la preposición a introduce un objeto, OBJ2 .
Este objeto es un pronombre de 2da persona singular. Sin embargo, también
muestra que otro pronombre –de 3era persona, clítico y con flexión de dativo– corresponde al mismo OBJ2 . Por medio de estos rasgos sabemos que se trata del
98
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
pronombre le que aparece como duplicación del OBJ2 . En este trabajo, del fenómeno conocido como duplicación de los pronombres clíticos, nosotros decidimos
solo modelizar la duplicación de objeto indirecto, dado que es más difundida que
la duplicación del objeto por ejemplo, propia a algunas variedades del español
suramericano.
En la figura 3.8, se muestra la estructura-c asociada a la estructura-f mostrada
en (3.7). Se puede notar que el pronombre le solo ocupa una posición que hemos
denotado como CL, es decir, no constituye una cabeza con la capacidad de proyección. Es el sintagma preposicional (PP) a usted el portador del caso, tal como
lo explicamos en el párrafo precedente.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG


PRED ’dar <Carmen, manzana, a>’






PRED ’Carmen’










GEND fem

SUBJ 


NUM sg










PERS 3








PRED ’manzana’










CASE acc




OBJ 

DEF
+








GEND fem









NUM
sg








PRED
’a
<pro>’












PRED
’pro’









CASE dat

















NUM sg



OBJ 





PERS 2





OBJ2 






PRON_tipo per 










CASE dat













CLITIC
+






NUM sg









PERS 3




TOP Carmen





MODO ind

TIEMPO pres
Figura 3.7: Estructura-f de un verbo ditransitivo.
99
100
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
CP
C’
TP
NP
T’
N
T
Carmen
VP
CL
V
le
da
PP
V’
DP
D
NP
la
N
P
NP
a
PRON
usted
manzana
Figura 3.8: Estructura-c de un verbo ditransitivo.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
Oración transitiva
Oración intransitiva
Nominativo
sujeto
sujeto
Marcaje
Acusativo
Ergativo
objeto
sujeto
101
Absolutivo
objeto
sujeto
Cuadro 3.1: Marcaje nominativo-acusativo y ergativo-absolutivo.
(Clements 2001)
3.1.3.
Ergatividad en español
Las lenguas nominativo-acusativas marcan el sujeto siempre de la misma manera, como nominativo, independientemente de si se trata de una oración transitiva o intransitiva. De igual modo, marcan el objeto con el caso acusativo. Las
lenguas ergativo-absolutivas, por otro lado, marcan el sujeto de las oraciones intransitivas y el objeto de las oraciones transitivas de la misma manera. El sujeto
de las oraciones transitivas se marca como ergativo (Clements 2001). Esto se
resume en el cuadro (3.1).
El español es una lengua de tipo nominativo/acusativo. Stricto sensu no se
habla de un sistema ergativo en su totalidad. No obstante, como demuestra Clements (2001), si bien es cierto que estudios en corpus del español muestran que
95 % del tiempo el orden encontrado en las oraciones es SVO en las oraciones
transitivas; es de notar que, de 47 % a 53 % de las veces, el orden preferido es
VS en las oraciones intransitivas. Esta segunda configuración coincide con el patrón de marcaje ergativo tal como se muestra en la tabla 3.1. A partir de esta
información, el estudio proporciona pruebas a favor del orden VS como el orden
sintagmático no marcado en español.
Entre los argumentos citados se cuentan los siguientes: los sujetos sin determinantes solo pueden aparecer en posición posverbal (102); las oraciones con
infinitivos o gerundios solo pueden tomar argumentos posverbales (103); la du-
102
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
plicación de los pronombres clíticos es más frecuente en órdenes sintagmáticos
diferentes a SVO (104); por último, el hecho de que sujeto y objeto no pueden
aparecer al mismo tiempo en posición preverbal, pero si en posición posverbal
(105).
Los ejemplos (105d) y (105e) son completamente agramaticales (*) para Clements (2001). Sin embargo, queda por ver si estas configuraciones son posibles
en un contexto menos rígido, tal como las rimas infantiles.
(102)
a. Vinieron participantes de México.
b.
(103)
a. Diciéndomelo.
b.
(104)
* Participantes de México vinieron.
* Me lo diciendo.
a. Juan los ve a sus hermanos a menudo. (SVO)
b. A sus hermanos los ve Juan a menudo. (OVS)
c. Los ve Juan, a sus hermanos a menudo. (VSO)
(105)
a. Mi padre compró una casa.
b. Compró mi padre una casa.
c. Compro una casa mi padre.
d.
* Una casa mi padre compró.
e.
* Mi padre una casa compró.
(Clements 2001)
Nosotros pensamos que esta teoría es compatible con una aproximación discursivosemántica del orden libre de los constituyentes basada en las nociones de tópico
y foco, tal como lo presentamos más abajo en la sección 3.1.4.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
103
La cuestión de un patrón de ergatividad en las lenguas romances no es nueva.
Otros investigadores ya lo han propuesto. Por citar un ejemplo, Cortés (2001) también argumenta a favor del orden VS en las oraciones intransitivas como prueba
un patrón de ergatividad en el español. Además, cita el uso de morfología activa
en el caso de oraciones que degradan al agente por medio del pronombre se, tal
como se muestra en (106). Tullio (2003) también cita las oraciones similares al
ejemplo (106) como pruebas de características ergativas en español.
(106)
Se cultiva café en América.
Relacionado de forma directa, nuestra categoría de verbos ERGATIVOS hace referencia a este conjunto de rasgos ergativos presentes en el español. Estos
verbos comprenden un gran número de los verbos conocidos en la literatura como verbos SICOLÓGICOS y se caracterizan por tener dos roles temáticos: un
EXPERIMENTADOR y un TEMA. El primero siempre se codifica como dativo y
el segundo como nominativo, independientemente del orden que tengan en la
oración (Belletti y Rizzi 1988).
En la figura 3.9 presentamos la estructura profunda propuesta por Belletti y Rizzi (1988) para los verbos ergativos en las lenguas romances. Se trata de la estructura profunda porque este estudio usa GB como marco de análisis.
Según esta estructura, el NP con el rol de tema se mueve a la posición de
sujeto donde recibe el caso nominativo. Además, el NP con el rol de experimentador recibe el caso dativo inherentemente por medio de la preposición (en nuestro
caso a). Por esta razón, este segundo NP puede moverse libremente en la frase,
pues su caso está asegurado por la preposición que lo gobierne. Esta es la razón
por la que las dos configuraciones ’Experimentador V Tema’ y ’Tema V Experimentador” son completamente gramaticales, con una preferencia por la primera
como el orden no marcado.
104
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
S
NP
VP
NP
V’
V
NP
gustar
tema
experimentador
Figura 3.9: Estructura profunda propuesta por Belletti y Rizzi (1988) para los verbos sicológicos.
En resumen, Belletti y Rizzi (1988) citan tres propiedades fundamentales de lo
que nosotros llamamos verbos ergativos:
1. El NP que lleva el rol de EXPERIMENTADOR se marca con el caso dativo.
2. El auxiliar que usan es el verbo SER.
3. Ambos órdenes ’Experimentador V Tema’ y ’Tema V Experimentador’ son
posibles.
La segunda propiedad es la que los clasifica como ergativos según Haegeman (1991) (quien sigue a Burzio (1986)). Es el caso del verbo francés arriver, en
oraciones como (107).
(107)
Il
est
arrivé
un accident.
pr. 3 sg. SER 3sg. prét. llegar/ocurrir un accidente
’Ocurrió un accidente’
Ahora bien, según nuestro análisis, la posición donde se genere cada argumento solo cambia la posición en la que se manifieste en la estructura-c. La
estructura-f, que recoge la relación de cada argumento con el verbo, no variará. Sin embargo, sí asumimos que la preposición tiene la capacidad de asignar
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
105
IP
-
I’
AGR
VP
DP
Carmen
V’
V
DP
lavó
el carro
Figura 3.10: Sujeto generado en posición interna
el caso DATIVO de los complementos indirectos que ambos órdenes sintácticos
son posibles, es decir, la tercera propiedad según (Belletti y Rizzi 1988).
En conclusión nosotros argumentamos en favor de un patrón de ergatividad
existente en ciertos verbos del español. Estos verbos se caracterizan por contar
con un participante con el rol de EXPERIMENTADOR y un participante con el rol
de TEMA (codificado como el sujeto), los cuales adoptan el orden ’Experimentador
V Tema’ como no marcado.
3.1.4.
El orden libre de los constituyentes
El análisis de los verbos ergativos y su relación con los sujetos posverbales
nos permite pasar a otro aspecto del español: el orden relativamente libre de los
constituyentes.
Existen dos explicaciones clásicas para los sujetos posverbales. La primera
dice que son generados en una posición interna en el VP, es decir [SPEC, VP]
(3.10) y que deben moverse hacia [SPEC, IP], pasando por AGR para recibir el
caso (3.11).
La otra explicación propone que el sujeto se genera directamente en posición
106
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
IP
Carmen
I’
AGR
VP
V’
DP
V
DP
lavó
el carro
hi
Figura 3.11: Movimiento del sujeto generado en posición interna
IP
Carmen
I’
AGR
VP
V
DP
lavó
el carro
Figura 3.12: Sujeto generado en posición externa
externa al VP y que recibe el caso de AGR (3.12).
Nótese que ambos análisis proponen como posición final [SPEC, IP]. A partir
de esta configuración Rizzi (1982) y Jaeggli (1982) explican los sujetos posverbales en términos de la riqueza de AGR, un rasgo propio a la lenguas romances
debido a su riqueza morfológica. De modo que existe la posibilidad de que un
pronombre pro se inserte en posición de sujeto. Este sujeto, permite además, el
movimiento del NP sujeto a la posición posverbal, tal como muestran los subíndices i en la figura 3.13.
Como explica Zagona (2002) estos análisis se hicieron dentro de un marco teórico que permitía tanto movimientos ascendentes como descendentes. Por ello,
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
107
IP
NPi
I’
pro
AGR
concordanciai
VP
tiempo
NPi
VP
V
DP
lavó
el carro
Carmen
Figura 3.13: Movimiento del sujeto posverbal
se prefiere adoptar la hipótesis del sujeto interno, lo cual permite que el sujeto
reciba el caso gracias a la huella que deja en la posición de [SPEC, VP] y gracias
igualmente a AGR, evitando así los movimientos a la derecha.
Ahora bien, análisis más recientes como Longobardi (2000) y Ortega-Santos
(2006) arguyen que existe un debate entre dos posibles explicaciones para los
sujetos posverbales. Por un lado, pueden ser el producto de la generación directa
en posición posverbal. Por otro, pueden resultar, más bien, del movimiento de todo
el resto de la oración a una posición más alta. En otras palabras, una posición en
la periferia izquierda, como un sintagma topical, TopP.
Dada nuestra aproximación lexicalista, nosotros no consideramos que exista
una categoría vacía pro en posición de SPEC en las oraciones con sujetos postverbales. Además, LFG no contempla el movimiento como forma de derivación,
por lo que no seguimos estas explicaciones en su totalidad. Sin embargo, algunos elementos sí son compatibles con la teoría léxico funcional, en especial las
definiciones de TÓPICO y FOCO.
108
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
Tópico y Foco
En referencia a la estructura discursiva de la información existe una distinción
entre los términos TÓPICO y FOCO. El primero se refiere a a la información vieja
o conocida y el segundo a la información nueva en relación al contexto de habla
(Haegeman 2001).
(108)
¿Qué hacen Carmen y el chico?
Ellos hablan.
Ellostópico hablanfoco
En el ejemplo (108), podemos asumir que el FOCO corresponde a la información desconocida por la que se pregunta y que da respuesta a la pregunta, la cual
a su vez, contiene la información conocida.
3.1.5. El orden libre de los constituyentes en LFG
Como ya habrá podido notar el lector, en las estructuras-f presentadas hasta el
momento, hemos incluido los rasgos de TÓPICO y FOCO. Dado que el TÓPICO
conlleva la información presupuesta por el emisor, mientras que el FOCO introduce información sobre el tópico que es considerada como nueva, estos influencian
el orden de los constituyentes de la frase, de acuerdo con el contexto y con el
hablante (Zagona 2002).
Los siguientes ejemplos, de (109a) a (109d) ilustran este mecanismo de estructuración discursiva. Las cuatro oraciones son idénticas en cuanto a sus argumentos, pero las diferencia su orden sintáctico. Dado que la diferencia es únicamente
en cuanto al orden de los constituyentes, una única estructura-f puede dar cuenta
de las cuatro oraciones (con valores diferentes para los rasgos TÓPICO y FOCO);
aunque cada una de ellas tiene una estructra-c diferente.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
(109)
109
a. A Carmen le gustan las manzanas.
b. Las manzanas le gustan a Carmen.
c. Le gustan a Carmen las manzanas.
d. Le gustan las manzanas a Carmen.
La estructura-f construida con la oración (109a) se muestra en la figura (3.14).
A Carmen se considera el TÓPICO mientras que todo el resto de la frase, le gustan
las manzanas, la cual tiene como su núcleo a manzanas, se considera el FOCO.
El ejemplo (109) se ha construido con un verbo que hemos clasificado como
ERGATIVO. Por lo tanto, tal como lo explicamos para la asignación de caso DATIVO, en las estructuras con verbos ergativos, la preposición a porta la capacidad
de asignación de caso al NP con el rol temático de EXPERIMENTADOR.
Por otro lado, nuestro análisis sobre la duplicación del OBJ2 en el ejemplo (99)
también se aplica en este caso. Efectivamente, al igual que antes, el OBJ2 corresponde tanto con el NP a Carmen como con el pronombre clítico le. Razón por la
cual, la subestructura-f de OBJ2 está constituida por dos subgrupos de rasgos.
El análisis por medio de los constructos de tópico y foco, de este modo, se
aplica con éxito a todas nuestras categorías verbales. Posteriormente, se podría
también incluir un rasgo dentro de la estructura-f que especifique cuál es el orden
no marcado, lo cual podría proporcionar información con fines de análisis discursivo.
3.1.6.
Cópula
Tal como introdujimos en la sección 2.2.1 Tipología verbal, los verbos copulativos subcategorizan solo un argumento y al mismo tiempo su predicación concuerda con el sujeto en todos sus rasgos. Aun cuando los verbos SER y ESTAR
110
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’gusta<manzana, a>’






PRED ’manzana’






DEF +








SUJ GEND fem









NUM pl









PERS 3









PRED ’a<Carmen>’









PRED ’Carmen’ 













GEND
fem

OBJ 





NUM sg








OBJ2 


PERS
3









CASE
dat







CLITIC
+






NUM sg








PERS
3’




FOC manzana



MODO ind



TIEMPO pres
Figura 3.14: Estructura-f de un verbo ergativo.
3.1. LA ESTRUCTURA DE FRASE SEGÚN LFG
111
particularmente pueden tener una función de auxiliar cuando se emplean en conjugaciones compuestas y perifrásticas, en esta sección nosotros nos referimos a
los verbos copulativos en su función de portadores de un atributo. Efectivamente,
como Mello (1979) explica, es el componente semántico el que da su valor y la
capacidad de introducir un atributo sobre su único argumento a estos verbos.
En términos de la estructura arbórea, no existe mayor diferencia entre LFG
y otros análisis. Sin embargo, la estructura-f de LFG permite distinguir entre los
diferentes valores que un adjetivo puede tomar, es decir, atributivo y predicativo.
Esto es fundamental en el caso de SER, puesto que, en sí mismo, carece de propiedades aspectuales y es transparente a las propiedades de sus complementos
(Zagona 2002).
La estructura-f de LFG recupera la información que indica que estos verbos tienen un complemento predicativo como parte de su subcategorización verbal. Hemos representado tal relación en la estructura-f, por medio de la función XCOMP,
como se ve en la figura (3.16).
La notación XCOMP también se conoce como complemento abierto y se utiliza
precisamente para los predicados que son complementos verbales. El hecho de
ser abierto responde a que los predicados verbales pueder ser de cualquier tipo
(N, P, A o V), dependiendo de las restricciones de selección verbal (Bresnan 2001).
En el caso del ejemplo mostrado en 3.16, la estructura-a , es decir, la subcategorización del verbo, nos indica que es un sintagma adjetival AP el complemento del verbo SER, razón por la cual sabemos que se debe recurrir a la función
XCOMP. Nótese, que a pesar de que ambos elementos aparecen en la estructuraa, los símbolos ””<>” solo señalan uno de ellos, indicando que se trata de un solo
argumento. Luego, en la estructura-f, se indica que chico y alto, se relacionan al
mismo tiempo con el sujeto, pues se encuentran en la misma sub-estructura-f.
112
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
CP
C’
TP
DP
T’
D
NP
el
N
V
AP
chico
es
A
T
alto
Figura 3.15: Estructura-c de un verbo copulativo.
Tal como se muestra en (110), el adjetivo ALTO concuerda con el sujeto CHICO
en los rasgos de GÉNERO y NÚMERO precisamente porque ambos tienen valor
argumental: la predicación y el sujeto se refieren a una misma entidad.
(110) El chico es alto.
Por otro lado, un adjetivo de tipo atributivo, se analiza más bien como un adjunto. Los adjuntos no modifican el significado primario de la predicación, sino
que le añaden alguna propiedad (Bresnan 2001). La diferencia se puede ver si
se comparan las estructuras-c presentadas en las figuras (3.15) y (3.17) . En la
primera, la predicación se analiza directamente a partir de la frase temporal (TP),
mientras que en (3.17) se trata de un elemento que tan solo modifica a la frase
nominal (NP). En términos de diferenciación léxica, nosotros hemos escogido utilizar el rasgo A-TIPO, tal como se puede apreciar en las estructuras-f de (3.17) y
(3.18).
Hasta aquí hemos presentado oraciones que ejemplifican la selección de verbos explicada en la sección 2.2.1, sobre la tipología verbal. Primeramente, es de
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
113


PRED ’ser<alto>, chico’






PRED ’chico’






DEF +









SUBJ GEND masc









NUM sg









PERS 3









PRED ’alto<chico>’ 




XCOMP SUBJ chico







A_tipo predicativo 




TOP chico



MODO ind



TIEMPO pres
Figura 3.16: Estructura-f de un verbo copulativo.
notar que los verbos de PERCEPCIÓN, INTRANSITIVOS, TRANSITIVOS y DITRANSITIVOS se analizan uniformente. Solo los distingue el número de argumentos en su subcategorización verbal. Esta diferencia dio pie para nuestro análisis
de la reduplicaicón del OBJ2 . En el caso de los verbos METEOROLÓGICOS los
hemos contrastado con verbos que sí presentan un sujeto pro legítimo y argumental. Sobre los verbos ERGATIVOS hemos dicho que presentan la particularidad de
codificar al NP con el rol temático de TEMA como el sujeto de la oración. Esto nos
permitió explorar hasta qué punto el español presenta un patrón de ergatividad
en su configuración sintáctica. Por último, analizamos los verbos COPULATIVOS
haciendo una distinción entre adjetivos atributivos y predicativos.
3.2.
Otras construcciones sintácticas
En la sección anterior, nuestro fin era presentar la formalización de la frase
simple de acuerdo a la estructura de frase propuesta y de acuerdo a las diferen-
114
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
CP
C’
TP
DP
T’
NP
T
VP
N’
V
V’
N
come
DP
Carmen
D
NP
la
N’
N’
AP
N
A
manzana
roja
Figura 3.17: Estructura-c de un verbo transitivo con un adjetivo atributivo.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS


PRED ’comer <Carmen>, <manzana>’






PRED ’Carmen’






CASE nom












SUBJ GEND fem





NUM sg











PERS 3



 



PRED ’manzana


[
]








ADJUNCT PRED ’rojo’
 




A_tipo atributivo  




 

 
OBJ CASE acc DEF +

 


 

GEND fem
 


 


 

NUM sg
 





PERS 3’




TOP Carmen



MODO ind



TIEMPO pres
Figura 3.18: Estructura-f de un verbo transitivo con un adjetivo atributivo.
115
116
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
tes formas que las predicaciones podían tomar. Esta es la razón por la cual todos
los ejemplos corresponden a verbos con todos sus argumentos plenos. No se incluyeron otros ejemplos con alternancias sintácticas o tiempos verbales diferentes
del presente.
De esta sección en adelante, seguiremos nuestro análisis con la exploración
de otros fenómenos sintácticos utilizando la misma estructura de frase. Además
de extender nuestro análisis, modelizar otras construcciones sintácticas nos permite comprobar la robustez y coherencia de la estructura de frase construida.
Todo esto, nos ha llevado, asimismo, a la elaboración de un segundo corpus de
desarrollo (Apéndice B).
Es de notar que los corpus de desarrollo contienen oraciones que ayudan al
modelizado de oraciones. Sin embargo, no son construcciones únicas. Con esto
queremos decir que cada uno de los constituyentes de las oraciones, puede ser
sustuido por otro equivalente, siempre y cuando sea parte del lexicón. De manera
que un AP como rojo, por ejemplo, puede ser sustituido por otro, tal como flaco,
dado que ambos existen en el lexicón y son equivalentes en rasgos.
3.2.1. Pronombres clíticos
El término pronombre clítico se utiliza para aquellos pronombres que son sintácticamente independientes pero dependientes fonológicamente de otro elemento para su realización. Son forma átonas con una distribución restringida y requieren un soporte léxico (Laenzlinger 2003). En español, los pronombres presentados
en el cuadro (3.2) son considerados pronombres clíticos.
Los pronombres clíticos pueden sustituir a los sintagmas nominales plenos como complementos de la frase. Sin embargo están sujetos a restricciones sintácticas relacionadas con su estatus de pronombres débiles, es decir, dependen de un
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
3ra
PERSONA
1era
2nda
masculino
OBJETO femenino
neutro
OBJETO2
forma reflexiva
117
SINGULAR PLURAL
me
nos
te
(os)
lo/le
los
la
las
lo
–
le/se
les/se
se
Cuadro 3.2: Pronombres Clíticos
anfitrión para su realización. Típicamente dependen de los verbos para su realización fonética. Dentro de la gramática generativa, existen dos formas principales
de derivación para explicar la sintaxis de los pronombre clíticos: por movimiento
o por generación básica (Zagona 2002; Laenzlinger 2003).
El análisis por movimiento propone que el pronombre se genera en la misma
posición en que se genera el complemento directo de los verbos transitivos, como
muestran las figuras 3.19 y 3.20 del ejemplo (111).
(111)
Carmen la come.
V’
V
DP
come
la manzana
Figura 3.19: Posición del DP objeto.
V’
V
CL
come
la
Figura 3.20: Posición del CL objeto.
118
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
V’
V
DP
CLi
V
la
come
ti
Figura 3.21: Estadio intermedio del movimiento de los pronombres clíticos de objeto directo.
Como se ve en los árboles de las figuras 3.19 y 3.20, correspondientes a la
oración (111), el clítico y el DP ocupan la misma posición. Se trata de la posición canónica para el objeto, pero de una posición agramatical para el pronombre
puesto que este no tiene independencia sintáctica para su realización. Razón por
la cual se mueve a una posición preverbal dependiente del verbo, antes de que el
verbo mismo se mueva hacia INFL, es decir a [SPEC, IP]. La representación en
la figura 3.21, tomada de Zagona (2002), muestra un estadio intermedio de este
movimiento.
También se ha demostrado que el análisis por movimiento es adecuado para
explicar oraciones como (112). En este caso, el pronombre clítico depende de
un verbo principal conjugado, quería, pero no del verbo con el cual se encuentra
temáticamente relacionado, es decir, del verbo comer.
(112) Carmen la quería comer
El segundo análisis de derivación de los pronombres clíticos es por generación básica. Este análisis propone que los clíticos se generan directamente junto
al verbo en posición de V. De modo que en la posición del complemento verbal
lo que se genera es un pronombre pro, produciéndose una estructura como la
presentada en la figura 3.22. Los superíndices indican tan solo una coindexación
simple, no un movimiento como en la figura 3.21.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
119
V’
V
DP
CLi
V
la
come
proi
Figura 3.22: Generación básica.
V’
DPi
V
CLi
V
le
habla
a Ramón
Figura 3.23: Duplicación de clítico por generación básica.
El análisis por generación básica es particularmente explicatorio para el fenómeno de la duplicación de clíticos, tal como sucede en la oración (113). Dado que
el clítico se genera junto al verbo, el DP puede ser ocupado por el pro si no hay
duplicación, o bien por un NP abierto, coindexado con el pronombre clítico (figura
3.23).
(113)
Carmen lei habla al chicoi
Ambos análisis son mutuamente excluyentes en términos de su poder de explicación, presentando ventajas y desventajas uno en relación con el otro. El análisis
por movimiento es adecuado para explicar el uso de los pronombres clíticos en
construcciones con auxiliares y otros verbos que implican el montaje o subida de
los clíticos. Sin embargo, no puede explicar las construcciones con duplicación
propias del uso español en el caso de los complementos indirectos y de algunas
variedades en el caso de los complementos directos.
El análisis por generación básica, por otro lado, sí es capaz de explicar la dupli-
120
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
cación de clíticos. Además, también explica la generación de otros clíticos que no
están sujetos a ningún movimiento, por ejemplo los pronombre inherentes como
en la oración (114). Por el contrario, este análisis no puede dar cuenta de otras
posiciones diferentes que no sean junto al verbo -puesto que ahí se generaríantal como en el caso de la subida de clíticos (115).
(114) El hombre se suicidó.
(115) Carmen la pudo haber comido.
Dentro de LFG, las oraciones se analizan tal como son generadas, por lo cual,
en esencia, las estructuras-f de un complemento realizado como sintagma nominal pleno y otro realizado como pronombre clítico no difieren.
Como se ve en la figura (3.24), correspondiente al ejemplo (116), representamos al argumento que corresponde al objeto por medio de un PRO. Con esto
indicamos que se trata de un pronombre débil, sin representación predicativa en
sí mismo. Es el conjunto de rasgos en la subestructura-f, correspondiente a OBJ,
el que indica de cuál pronombre en particular se trata; en el ejemplo, se trata
del pronombre la, pues los rasgos CLÍTICO +, ACUSATIVO y FEMENINO están
presentes.
(116) Carmen la come.
En el caso del objeto2 , como se ve en la estructura-f en la figura (3.2.1) correspondiente al ejemplo (117), también utilizamos la categoría PRO. Esta vez los
valores de los rasgos del pronombre clítico cambian de modo que indican que se
trata del pronombre le; CASO: dativo; GEND: neutro.
(117) Carmen le habla.
En (118) se reproduce la entrada léxica para el pronombre le. Como se puede
ver, hemos definido dos entradas diferentes para el mismo pronombre.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
121


PRED ’comer <Carmen, pro>’






PRED ’Carmen’






CASE nom









SUBJ GEND fem












NUM sg





PERS 3










PRED ’pro’






CASE acc











CLITIC +




OBJ 



GEND
fem










NUM sg









PERS
3








PRON_tipo
per




TOP Carmen



MODO ind



TIEMPO pres
Figura 3.24: Estructura-f de un verbo transitivo con un pronombre clítico.
(118)
a. le CL: (↑ PRED)='PRO'
(↑ OBJ2 NUM)=SG
(↑ OBJ2 PERS)=3
(↑ OBJ2 PRON_tipo)=PER
(↑ OBJ2 CLITIC)=+
(↑ OBJ2 CASE)=DAT
b. le CL: (↑ OBJ2 NUM)=SG
(↑ OBJ2 PERS)=3
(↑ OBJ2 CLITIC)=+
(↑ OBJ2 CASE)=DAT
En el caso del ejemplo (117), es el le de (118a) el que se selecciona. Esto
122
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’hablar <Carmen, pro>’






PRED ’Carmen










CASE nom




SUBJ 

GEND
fem








NUM sg









PERS 3’




 




PRED ’pro’


 

CASE dat
 


 


 

CLITIC
+

 


 
OBJ

 


theta GEND neutro 


 

NUM sg
 


 

PERS 3
 

 





PRON_tipo per




TOP Carmen



MODO ind



TIEMPO pres
Figura 3.25: Estructura-f de un verbo transitivo con un pronombre clítico de objeto
indirecto.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
123
debido a que introduce una predicación de tipo pronombre. En otras palabras,
se trata de una proforma que sustituye a un argumento. El caso de (118b) es
ligeramente diferente. Este cuenta con los mismos rasgos que definen a (118a)
salvo por el hecho crucial de que no introduce ninguna predicación. Es este el
pronombre que se selecciona en el caso de la duplicación del argumento de objeto
indirecto, en oraciones como (119), puesto que tanto el pronombre como el NP
pleno se refieren al mismo argumento.
(119)
Carmen lei habla al chicoi .
En la estructura-f presentada en la figura (3.26), se demuestra que no existe
una predicación PRO; sino más bien, es el argumento el chico, que constituye
el OBJθ , el que lleva al mismo tiempo los rasgos del pronombre clítico de objeto
directo, relacionándose ambos con la misma entidad.
Aclaramos también que la forma al es asimismo una entrada independiente
en el lexicón (120). Hemos especificado que se trata de la forma contracta de a
+ el y que como tal es capaz de introducir el OBJθ en los verbos intransitivos o
ditransitivos.
(120)
3.2.2.
al P: (↑ PRED)='A-EL<(↑ OBJ)>'.
Oraciones con se
En español es bien conocida la problemática de las oraciones con se. Según el
marco teórico que se utilice para su análisis, clasificaciones del se que comprenden las categorías de reflexivo/recíproco, decausativo, anticausativo, causativo,
pasivo, aspectual, impersonal, medio, ético, etc., existen. Sin embargo, no existe
consenso respecto a la cantidad y definición de cada uno de ellos (Kelling 2006;
Zagona 1996; Franco y Huidobro 2008; MacDonald y Huidobro 2010).
124
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’hablar <Carmen, a-el>






PRED ’Carmen’






CASE nom








SUBJ GEND fem













NUM sg





PERS
3




 



PRED ’a-el <chico>’ 










PRED ’chico’  








 


GEND
masc


OBJ








NUM sg

 



 
OBJ 

 
PERS
3

θ
 


 

CASE dat
 


 


 

CLITIC +
 


 


 
NUM
sg


 




PERS
3




TOP Carmen



MODO ind



TIEMPO pres
Figura 3.26: Estructura-f de un verbo transitivo con duplicación de pronombre clítico de objeto indirecto.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
125
Dentro de los límites de esta investigación nosotros contemplamos el se de
tipo: reflexivo/recíproco (121a), inherente (121b) y medio (121c). Solo consideramos estos tipos motivados por el consenso existente sobre su existencia. Los tres
tipos mencionados no presentan ambigüedad en cuanto a sus propiedades si se
comparan con otros clases de oraciones con se propuestas.
(121)
a. se: PRON (↑ PRED)='PRO'
(↑ NUM)=SG
(↑ PERS)=3
(↑ PRON_tipo)=RFL
(↑ CLITIC)=+
(↑ CASE)=ACC
b. se: CL (↑ SUBJ PERS)=3
(↑ SUBJ NUM)=SG
(↑ SUBJ CLITIC)=+
(↑ SUBJ PRON_tipo)=INHERENT
c.
se: CL (↑ SUBJ PERS)=3
(↑ SUBJ NUM)=SG
(↑ SUBJ CLITIC)=+
(↑ PRONTYPE)=MIDDLE-PTC
(↑ VOICE)=c MIDDLE
En (121) reproducimos las entradas léxicas que hemos construido para cada
uno de estos tipos de pronombre se. (121a) corresponde al pronombre con valor reflexivo utilizado en los verbos reflexivos y recíprocos que también cuentan
126
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’ver<SUBJ: pro, pro>’






PRED ’pro’






SUBJ NUM sg 







PERS 1










PRED
’pro’






CASE acc







CLITIC +




OBJ 





NUM sg







PERS 3











PRON_tipo refl


MODO ind
Figura 3.27: Estructura-f del verbo ver con uso reflexivo.
con una variante transitiva, tal como en la oración (122). Ilustramos este valor
con la estructura-f en la figura (3.27). Como se puede ver en la subestructura-f
correspondiente al OBJ, hemos especificado el tipo particular de pronombre se
apropiado para el análisis de cada tipo de frase.
En el caso de (122), se trata de un verbo transitivo y como tal tiene en su
estructura de argumentos la subcategorización de un objeto. Nosotros analizamos
al pronombre ”’se” como la realización del objeto, con la especificación del rasgo
PRON_tipo REFL, resultando entonces la lectura reflexiva. De hecho, es el único
uso de ”se” que introduce una predicación pro.
(122)
Se ve.
El ”se” de tipo inherente (121b), por otro lado, se analiza también como pronombre clítico, pero sin introducir una predicación –como sí lo hace el ”sereflexivo,
por lo que no tiene un valor pro asociado. Como se aprecia en la estructura-f mostrada en la figura 3.28, correspondiente al ejemplo (123a), nosotros consideramos
que el pronombre ”se” forma parte intrínseca del verbo. Esta es la razón por la cual
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
127
se instancia más bien en la subestructura del sujeto. Además, es de notar que la
predicación verbal se compone por QUEJARSE, en su totalidad, y no tan solo por
QUEJAR, con lo cual se reafirma que se trata de una sola forma.
Nosotros consideramos que las oraciones como la presentada (123a) se distinguen de otras, como (124a), en que no cuentan con una variante transitiva,
razón por la que (123b) es agramatical, mientras (124b) es gramatical.
Sin embargo, ”se” mantiene su estatus como pronombre clítico independiente
de la morfología verbal (no forma parte completamente del verbo), tal como lo
evidencia la formación del imperativo (125a) y la imposibilidad de estructuras del
tipo presentado en (125b).
(123)
a. Carmen se queja.
b.
(124)
* Carmen queja la directora.
a. Carmen se ve.
b. Ve.
(125)
a. Quéjese.
b.
* se quéje-se
En (121c) se presenta el pronombre se con valor medio. Esta entrada léxica
especifica además el rasgo de voz media. Nosotros entendemos la voz media en
el sentido utilizado por Stalmaszczyk (1993). Es decir, como verbos mayormente
de base transitiva que sufren una promoción del paciente similar a una pasivización, en la que se promueve a la posición de sujeto. El agente, a diferencia de una
oración pasiva, no puede ser instanciado de ninguna forma ni recuperado léxicamente (Kelling 2006). Esto explica el contraste entre (126) y (127). En la figura
(3.29) se presenta la estructura-f para el ejemplo (128).
(126)
El contrato fue firmado por el futbolista.
128
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’quejarse <Carmen>’





PRED ’Carmen’




CASE nom








CLITIC
+







SUBJ 
GEND
fem






NUM sg





PERS 3







PRON_tipo inherente 




TOP Carmen






MODO ind
TIEMPO pres
Figura 3.28: Estructura-f del verbo quejarse.
(127)
(128)
* Se firmó el contrato por el futbolista.
Carmen se murió.
Como muestra el rasgo PRONT IPO MEDIO-PTC, este ”’se” es de tipo MEDIO.
El valor PTC indica que se trata de una ”’particula”. Optamos por esta nominación
tan solo para evitar un problema de ambigüedad en el manejo del lexicón.
3.2.3. Coordinación
El fenómeno de la coordinación es sumamente interesante dentro de la gramática generativa debido a dos razones principales. En primer lugar, se encuentra completamente desterrado de los manuales de sintaxis. Un recorrido por GB,
Principios y Parámetros y más recientemente el Minimalismo lo demuestra (Haegeman 1991; Zagona 2002; Laenzlinger 2003; Radford 2004; Hornstein, Nunez
y K. K. Grohmann 2005). La segunda razón es que precisamente la adaptabilidad
y fuerte lexicalismo de LFG permiten dar un análisis coherente e integral, tal como
demuestran R. M. Kaplan y Maxwell (1988).
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
129


PRED ’morirse <Carmen>’


 

PRED ’Carmen’ 




 

CASE nom
 


 

CLITIC +
 


 
SUBJ 
 

GEND fem
 


 

NUM sg
 


 




PERS 3




TOP Carmen



MODO ind





PRON_tipo medio-ptc



TIEMPO pas



voz media
Figura 3.29: Estructura-f del verbo morirse.
La razón para esto es muy simple: la coordinación es una estructura completamente simétrica. No importa cuál sea el tipo de sintagma a coordinar, es una
configuración que siempre será simétrica. El hecho de que la aplastante mayoría
de los modelos generativos sean binarios, trae como consecuencia natural que
estos dos elementos sean casi incompatibles.
Los análisis disponibles son altamente imbricados y complejos. Se basan mayormente en movimientos cíclicos, copias y elisiones de las copias. Estas aproximaciones localizan la conjunción en posición de SPEC, tal como se muestra en
(129), eliminando toda noción de simetría (van Oirsouw 1987; Kayne 1994).
(129)
…
…
XP
spec
CONJ
…
130
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
Las propuestas de análisis que intentan conservar el principio de simetría no
encuentran mucho éxito. Goodall (1987), por citar un ejemplo, argumenta a favor
de la linearización. De forma que, al coordinar dos sintagmas o dos oraciones,
cada uno es tratado de forma independiente, llenando los criterios de asignación
de caso, reglas de dominancia y otras condiciones de buena formación como si
se tratara de dos consituyentes separados. La oración en 130, por ejemplo, sería
linearizada como en 131.
(130)
María y Carmen fueron a la fiesta.
(131)
a. María fue a la fiesta.
b. Carmen fue a la fiesta.
De Vries (2005) por su parte, haciendo un análisis usando el programa minimalista, propone un sintagma CoP. Para él la derivación sigue la forma mostrada
en 132, la cual excluye el comando-c.
(132)
b-Merge(Co,YP) → Co’, d-Merge(Co’,XP) → CoP
Merge es la operación de fusión o combinación de constituyentes dentro del
minimalismo. En 132 b-Merge se refiere a behindness, propiedad que según el
autor es capaz de bloquear el comando-c. d-Merge se refiere a la relación de
dominancia o inclusión de una categoría en la otra (De Vries 2005). XP y YP son
los sintagmas coordinados, mientras que Co es la conjunción coordinativa.
Un análisis más de corte computacional, y similar al de LFG, es el utilizado por
el parser FIPS (Wehrli 2007; Wehrli y Nerima 2009). Como la estructura gramatical del parser es trinaria, la cabeza ConJ proyecta una estructura ConjP que es
completamente simétrica (133).
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
(133)
131
ConjP
…
CONJ
…
Dentro del marco de LFG, el análisis de la coordinación es más bien estándar.
Dentro de este formalismo, se asume que la coordinación es una estructura completamente simétrica. Esto implica que se concibe como una estructura trinaria
independientemente de la estructura-c adoptada como estructura de frase general. De este modo, la coordinación es una especie de ”metacategoría” que une
cualesquiera dos constituyentes individuales en una sola unidad en la estructurac. Esta única subestructura se trata coma una sola predicación en la estructura-f.
Tal como describen R. M. Kaplan y Maxwell (1988), el elemento de la estructura-f
correspondiente a la coordinación es el conjunto de estructuras-f correspondiente
a los nodos coordinados; indistintamente de las categorías envueltas.
(134)
Carmen y el chico comen una manzana.
En la figura (3.2.3), es el conjunto contenido en la subestructura-f f4 la que
constituye el sujeto de la oración. De hecho, se instancia como tal en la estructuraa. Las dos frases determinantes (DP) forman una estructura CONJ-FORM. Esta
es una estructura estándar dentro del formalismo LFG para una configuración de
coordinación. Nótese que el número cambia a PLURAL en la estructura CONJFORM, en lugar de mantener el singular de cada una de las subestructuras que
la conforman.
Además, como se ve en la estructura-c presentada en figura (3.2.3), la proyección del bloque coordinado es idéntica a las proyecciones de cada uno de sus
elementos. De modo que todo el bloque se trata como una sola proyección, en
este caso DP.
132
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE


PRED ’comer <[f4 ], manzana>’





conj-form y














PRED ’Carmen’ 










CASE nom
















GEND fem











NUM sg














 PERS 3





SUBJ f4

 




NUM pl PRED ’chico’














CASE nom  





 




 

DEF
+









 





GEND masc 
















NUM
sg



 






PERS 3










PRED ’manzana’






CASE acc







DEF 




OBJ 




GEND fem











NUM sg







PERS 3


TOP f4
Figura 3.30: Estructura-f de una configuración de coordinación.
3.2. OTRAS CONSTRUCCIONES SINTÁCTICAS
133
CP
C’
TP
DP
DP
CONJ
NP
y
N’
T’
DP
T
VP
D
NP
V
V’
el
N’
comen
DP
N
N
Carmen
chico
D
NP
una
N’
N
manzana
Figura 3.31: Estructura-c de una configuración de coordinación.
134
CAPÍTULO 3. ANÁLISIS SINTÁCTICO DE LA FRASE SIMPLE
3.3. Conclusión
Yllescas (2008), en su Introducción a la gramática léxico funcional sigue a
Bresnan (2001) y desarrolla sus ejemplos aplicados al español. Este texto cierra
con un pequeño epílogo en el que menciona que los elementos pronominales se
encuentran entre los más difíciles de analizar. Por nuestra parte, hemos analizado
la frase simple construida con diferentes tipos de verbos y hemos propuesto un
análisis para los pronombres que se muestra compatible con la estructura de frase
que hemos adoptado. Asimismo, hemos dado cuenta del orden flexible del sujeto
haciendo uso de las nociones de TÓPICO y FOCO.
Por otro lado, hemos podido analizar coherentemente los casos de verbos
transitivos que también permiten un uso intransitivo y un uso de voz media. De
manera que también hemos abordado la problemática de las construcciones con
se, aunque reconocemos que de manera parcial. También hemos presentado un
análisis para la coordinación que es independiente de las categorías coordinadas.
Este caso es el único para el cual hemos recurrido a una estructura ternaria que
creemos representa fielmente el carácter simétrico de la coordinación.
En el caso de los pronombres clíticos, temática de interés mayor en lo que al
español refiere en términos tipológicos, hemos analizado las sustituciones simples
de un argumento pleno por uno pronominal y la duplicación del objeto indirecto.
Muchos fenómenos ampliamente tratados dentro de la gramática generativa,
tal como las construcciones wh o las construcciones de control, no han sido tomadas en cuenta. Sin embargo, creemos que las reglas de estructura de frase
presentadas hasta aquí, permiten extender el análisis propuesto para incluir construcciones sintácticas tal como las mencionadas o bien fenómenos más complejos
como las frases relativas y subordinadas.
3.3. CONCLUSIÓN
135
De este modo, hemos descrito con éxito la estructura de la frase simple del
español y hemos podido modelizar sus características distintivas. Los principales
fenómenos sintácticos desencadenados por los miembros de la tipología verbal
propuesta cuentan con una formalización sólida que puede ser extendida para
analizar otras construcciones sintácticas más complejas. Por último, la plataforma
XLE nos ha permitido corroborar la precisión de nuestro análisis, excluyendo o
validando las unificaciones a medida que desarrollamos las reglas gramaticales.
En conclusión, nuestra definición de la frase simple se ha hecho en términos
formales, a través de la construcción de una estructura de frase justificada por
medio del contenido morfológico y semántico de cada unidad léxica. En efecto, el
carácter fuertemente lexicalista de LFG nos ha exigido describir las propiedades
léxicas pertinentes del español en el lexicón, las cuales han permitido la propuesta
de una estructura de frase acorde con ellas.
136
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Capítulo 4
El modelo de gramática formal
Anteriormente, en la sección 1.5.7, describimos la herramienta de desarrollo
de gramáticas XLE concebida para la escritura de gramáticas utilizando el formalismo LFG. Además, dedicamos el capítulo anterior (4.1.2) al análisis lingüístico,
a nuestra propuesta de análisis sintáctico del español.
En las páginas que siguen, describiremos los elementos que conforman el
código de reglas. Además, explicaremos algunas de las particularidades de XLE
en comparación con el formalismo LFG en su concepción teórica.
Para detalles sobre el funcionamiento y operación de XLE nos hemos basado
en la información disponible en siguiente dirección: http://www2.parc.com/isl/
groups/nltt/xle/doc/xle_toc.html; última visita 07-07-12. Sin embargo, es de
notar que la documentación existente, a pesar de ser sumamente extensa, no se
dirige a un público no familiarizado con la herramienta, hecho que puede dificultar
el flujo de la lectura.
4.1. ARQUITECTURA DE XLE
4.1.
137
Arquitectura de XLE
XLE es un programa con un funcionamiento relativamente sencillo. El código
de la gramática funciona como un documento de texto de extensión .lfg. Este se
toma como input de la línea de procesamiento de XLE a través de la línea de
comando y se genera una interfaz gráfica, la cual contiene las tres estructuras
de LFG. a, c y f. La figura 4.1 muestra la perspectiva del sistema y la figura 4.2
muestra la perspectiva del lingüista.1
4.1.1.
Analizar oraciones con XLE
Como dijimos, XLE existe tanto para el sistema operativo Windows como para
UNIX. Una vez que la plataforma XLE está instalada en la computadora, la línea
de comandos (figura 4.3) se utiliza tanto para invocar la plataforma como para
lanzar los análisis. Luego de invocar la plataforma (figura 4.4), el símbolo de porcentaje ”” %” indica que la línea de comandos ejecuta todas las indicaciones como
instrucciones hacia XLE (figura 4.5).
Una vez que la línea de comandos se encuentra en modo ”XLE”, hay que invocar al parser, pues XLE tiene muchas otras funciones incluidas. Puede usarse
como analizador morfológico y hasta como sistema de traducción automática. Para invocar el parser con éxito, es necesario proporcionar al sistema una gramática
para poder operar (figura 4.6). Es aquí donde utilizamos el archivo de extensión .lfg
como parámetro del sistema, por medio del comando create-parser spanish.lfg.
Una vez que el parser y la gramática se encuentran en ejecución (figura 4.7),
1
Las imágenes fueron tomadas de http://commons.wikimedia.org/wiki/Computer y http:
//commons.wikimedia.org/wiki/User; última visita 09-07-2012.
138
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Figura 4.1: Arquitectura de XLE desde la perspectiva del sistema.
Figura 4.2: Arquitectura de XLE desde la perspectiva del lingüista.
4.1. ARQUITECTURA DE XLE
Figura 4.3: Línea de comandos UNIX.
Figura 4.4: Invocación de XLE.
Figura 4.5: Línea de comandos XLE.
139
140
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Figura 4.6: Invocación del parser.
Figura 4.7: Parser y gramática en curso de ejecución.
4.1. ARQUITECTURA DE XLE
141
las frases pueden ser analizadas. Para dar una frase como input al sistema, se
utiliza la instrucción parse seguido del texto que se va a analizar entre corchetes
””{ }”. En la (figura 4.8) mostramos un ejemplo con la oración Carmen come una
manzana.
Figura 4.8: Oración dada como input
A continuación él sistema proporciona información sobre la ejecución, las soluciones encontradas y los árboles unificados. En este caso, nos dice que encontró
una solución válida, en 0.005 segundos, utilizando 0.000MB de memoria y que 26
subárboles fueron unificados (figura 4.9). Al mismo tiempo, se despliega la interfaz
gráfica, la cual contiene las estructuras a, c y f (figura 4.10).
Figura 4.9: Oración dada analizada.
142
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Figura 4.10: Análisis en estructuras de LFG.
4.1. ARQUITECTURA DE XLE
4.1.2.
143
El código de reglas
El código de reglas se puede manipular como un documento de texto. Este se
divide en cuatro partes principales, las cuales se describen en los párrafos que
siguen: encabezado, reglas, plantillas y lexicón.
Encabezado
El encabezado especifica la declaración de funciones y rasgos que utilizarán
en todo el documento. Estos son empleados de manera estándar a través de los
estudios que utilizan XLE, por lo que en aras de la conveniencia se recomienda
no cambiarlos. Esto también facilita la portabilidad y universalidad del código, por
ejemplo, si se quiere extender a otros fenómenos o incluso a otras lenguas.
Modificar dichas funciones, si bien no es imposible, necesita de la aprobación
del comité creador de XLE. Además, necesita de pruebas que justifiquen la universalidad tipológica de los nuevos rasgos a través de las lenguas. Lo que es sí
es posible modificar, son los valores que dichas funciones y rasgos portan, pues
dependen de las especificaciones de cada lexicón. Esto se explica con detalle en
la sección 4.1.2: Lexicón.
La totalidad de los funciones que se pueden utilizar como parte de la subcategorizción verbal se enlista a continuación:
SUBJ: sujeto.
OBJ: objeto directo.
OBJ-TH: objeto para lenguas que permiten tener dos objetos directos. Es equivalente con OBJ2.
OBL: argumento oblicuo.
144
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
OBL-AG: argumento oblicuo de oración pasiva.
OBL-COMPAR: sintagma comparativo.
COMP: oración que funciona como complemento.
XCOMP: oración que funciona como complemento pero cuyo sujeto proviene
de otro predicado.
XCOMP-PRED: oración que funciona como complemento en función de predicado.
PREDLINK: oración que funciona como complemento en función de predicado. Rasgo más especializado que XCOMP-PRED.
Los siguientes elementos son funciones que no son subcategorizados por el
verbo, pero forman parte de las funciones de frase:
ADJUNCT: adjuntos de varios tipos.
MOD: sustantivo modificador como parte de un sustantivo compuesto.
NAME-MOD: sustantivo modificador de un nombre propio.
APP: aposiciones.
La totalidad de los rasgos propuestos por XLE se encuentran en el apéndice
D: Totalidad de rasgos propuestos por XLE.
El encabezado que nosotros usamos como parte de nuestra gramática es uno
más bien estándar y se detalla a continuación. La columna de letras a la izquierda
no forma parte del código, la hemos incluido para facilitar la explicación.
4.1. ARQUITECTURA DE XLE
145
a.
SPANISH CONFIG (1.0)
b.
ROOTCAT CP.
c.
FILES.
d.
LEXENTRIES (SPANISH).
e.
RULES (SPANISH).
f.
TEMPLATES (SPANISH).
g.
GOVERNABLERELATIONS SUBJ OBJ OBJ2 COMP XCOMP OBL.
h.
SEMANTICFUNCTIONS ADJUNCT TOPIC FOCUS STANDARD.
i.
NONDISTRIBUTIVES NUM PERS CONJ-FORM.
j.
EPSILON e.
k.
OPTIMALITYORDER NOGOOD.
La línea a. especifica el nombre y la versión de la gramática, en nuestro caso
SPANISH y 1.0 respectivamente. Esto permite mantener un registro si el desarrollo
toma varios años y se hace en diferentes versiones. La proyección más alta se
especifica en la línea b. Como se puede notar, se trata del nodo CP (sintagma
completizador) como habíamos indicado en la sección 3.1: La estructura de la
frase en LFG.
Las líneas desde c. hasta f. contienen la información para utilizar archivos separados con la información concerniente al lexicón y a las reglas. En nuestra gramática, dado que la cantidad total de datos es manipulable, hemos decidido mantener un único archivo. Esta es la razón por la cual el mismo archivo SPANISH es
el argumento de entrada tanto para el lexicón y las plantillas como para las reglas.
Las funciones presentes tanto en la estructura-c como en la estructura-f corresponden a las líneas desde g. hasta i. Es a partir de estas especificaciones
146
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
que se construyen las estructuras de rasgos. En otras palabras, las validación de
las reglas de reescritura, se basa en los rasgos de las funciones descritas en las
líneas g. - i. para formar las estructuras de rasgos asociados y ejecutar o rechazar
las unificaciones. Los rasgos toman sus valores respectivos de las entradas del
lexicón.
j. enuncia el único elemento vacío dentro de este marco de análisis. Se usa
en el caso de tener que enunciar argumentos presentes pero sin realizaciones
(nosotros no encontramos tal escenario en el caso del español).
Finalmente, la línea k. detalla un parámetro interno al sistema, el cual le indica que si no existen soluciones correctas, puede pasar a generar las soluciones
incorrectas. Si una solución incorrecta es generada, esto se indica como tal en la
interfaz gráfica. Esta característa es muy útil a la hora de desarrollar la gramática.
Muchas veces, contar con la visualización de una estructura incorrecta ayuda a
encontrar el problema con el análisis propuesto.
Reglas
Las reglas le especifican al sistema la manera en que el proceso de unificación
debe ser conducido. Indican cuáles rasgos deben ser verificados para ser unificados y cuáles deben ser solo incorporados. Una regla como la mostrada en (135),
por ejemplo, indica que el sujeto lleva el rasgo nominativo ((↑ SUBJ CASE)=NOM),
por lo que se trata de un rasgo incorporado. El rasgo CL en el ejemplo (136), por
el contrario, debe ser verificado y satisfecho para proceder a la unificación (CL: (↓
CLITIC)=+), dado que se especifica como necesario por medio del símbolo ””+”.
4.1. ARQUITECTURA DE XLE
147
XLE
CP –>
(135)
LFG
C’:^=!
CP →
C’:↑=↓
|DP:(^SUBJ)=!
CP →
DP:(↑ SUBJ)=↓
(^SUBJ CASE)=NOM
(↑ SUBJ CASE)=NOM
(^CLITIC)∼=!
(↑CLITIC)∼=↓
C’:↑=↓
C’:^=! .
(136)
XLE
LFG
T –> CL: (! CLITIC)=+
T→
CL: (↓ CLITIC)=+
(^OBJ)=!;
(↑OBJ)=↓
V:^=!
V:↑=↓
Como se puede observar en los ejemplos mostrados hasta el momento, la notación usada en XLE difiere de la notación estándar de LFG. Sin embargo, ambas
son muy fáciles de vincular pues no se distancian mucho, como lo demuestran
(135) y (136). El cuadro 4.1 resume todas las equivalencias entre las dos notaciones.
Por otro lado, las reglas se pueden descomponer en subreglas por medio de
una barra vertical (|) la cual indica disyunción. Así por ejemplo, en (137), se indica
que el nodo TP puede ser reescrito de tres maneras diferentes presentadas en
(138).
148
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
LFG
↑
↓
=
≡
=c
∈
¬
d
∃d
←
→
⊑
⊒
{ a | b | c | ... | z }
(a)
_
-
XLE
^
!
=
=
=c o =C
$
∼
d
d
<->
<<
>>
{ a | b | c | ... | z }
{a}
_
<h
>h
<s
>s
$<h<s
$<h>s
Descripción
metavariable de estructura-f
metavariable de estructura-f
equidad
definición de metacategoría
restricción
pertenencia de grupo
negación o complementación
restricción existencial
restricción existencial (Sadler)
restricción off-path
restricción off-path
subsumción(subsume)
subsumción (es subsumido por)
disyunción
restricción sobre estructura-f optativa
instanciación
precedencia de cabeza
precedencia de cabeza
relación de alcance (scope)
relación de alcance
relación de alcance de adjunto
relación de alcance de adjunto
Cuadro 4.1: Equivalencia de comandos entre LFG y XLE.
4.1. ARQUITECTURA DE XLE
149
TP –> DP:(↑ SUBJ)=!
(↑ TOPICO)=!
(↑ SUBJ CASE)=NOM;
(137)
T’
|T’
|PP: (↑ OBJ2)=!
(! CASE)=DAT;
T’.
TP
TP
TP
DP T’
T’
PP T’
(138)
Llamamos la atención sobre el hecho de que las reglas también pueden formularse en términos de metacagorías. Esta es una forma de generalización que
se traduce en economía y elegancia del código.
Nosotros hemos recurrido a este recurso para modelizar la conjunción, puesto
que este fenómeno es invariable sin importar las categorías envueltas. Por medio
del símbolo asterisco,””*”, se indica que se trata de una metacategoría y no de
una cabeza o una proyección definida.
COORD(CAT) = CAT*: !↑;
(139)
CONJ: ↑=!;
CAT: !↑.
La regla en 139 inidica que las estructuras-f de dos categorías idénticas (CAT)
pueden unificarse (!$^) si se encuentra una conjunción (CONJ).
Finalmente, tal como se mencionó con anterioridad en el capítulo , las preposiciones son cabezas capaces de asignar caso. De modo que esto debe indicarse
150
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
como parte de las reglas, pues no es la preposición misma la que lleva el caso
(no es un rasgo léxico), sino que lo asigna a su complemento (140).
VP–>
PP:(↑ OBJ2)=!
(! CASE)=DAT;
V’: ↑=!
(140)
|V’: ↑=!;
PP:(↑ OBJ2)=!
(! CASE)=DAT
|V’.
Hasta aquí hemos presentado las características más importantes de las reglas gramaticales. En estrecha relación, se encuentra una sección del código de
la gramática que hemos denominado plantillas.
Plantillas
Esta parte del código permite la inserción de nuevas entradas del lexicón de
manera eficiente y práctica. Las plantillas llevan un nombre y se construyen como
moldes o machotes con los mismos rasgos utilizados para la definición de las
entradas léxicas con el fin de delimitar un patrón. Posteriormente, este patrón
puede ser invocado por medio de su nombre en el lexicón por una unidad léxica,
de forma que la unidad léxica queda definida por los rasgos contenidos en el
patrón.
A continuación presentamos algunos ejemplos. Nótese que las plantillas no
definen una categoría léxica estrictamente, solo la define en términos de los rasgos que contiene. La categoría léxica se declara en el lexicón. Claro está, la tarea
es más fácil para el lingüista si los patrones tienen nombres indicativos de su
contenido. A continuación presentamos algunos ejemplos:
4.1. ARQUITECTURA DE XLE
(141)
151
a. Plantilla para verbos transitivos de primera persona singular en tiempo
presente.
TRANS1 (P) =(↑ PRED)= ’P<(↑SUBJ)(↑OBJ)>’
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=1
(↑ OBJ CASE)=ACC
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=1
(↑ OBJ CASE)=ACC
(↑ SUBJ PRED)=’PRO’
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=1
(↑ OBJ CLITIC) =+
(↑ SUBJ PRED)=’PRO’
b. Plantilla para sustantivos masculino en singular.
SUST-MASC-SG(P) = (↑ PRED) = ’P’
(↑ GEND)=MASC
(↑ NUM)=SG
(↑ PERS)=3
c. Plantilla para adjetivos femeninos y atributivos en singular.
ADJ-FEM-SG-At(P) = (↑ PRED)=’P’
(ADJUNCT ↑) NUM)= SG
((ADJUNCT ↑) GEND)= FEM
(↑ ATYPE) = ATRIBUTIVO
152
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Lexicón
Dado el carácter fuertemente lexicalista de LFG, el lexicón es la pieza fundamental del engranaje del sistema. Es la parte que contiene todos los rasgos
necesarios para construir las estructuras a, c y f sobre las cuales se ejecuta la
operación de unificación.
Al interior del lexicón, las entradas léxicas conforman un conjunto. Esto quiere
decir que no existe un orden predispuesto entre sus elementos y que cada uno
es independiente y discreto. En nuestro caso, cada elemento cuenta con una categoría léxica asociada, pero no hay una jerarquía entre las categorías incluidas.
el D * (↑ DEF)=+
(142)
(↑ GEND)=MASC
(↑ NUM)=SG.
Con el fin de comprender los componentes de cada entrada, tomemos el ejemplo (142), correspondiente a el. La primera línea declara la unidad léxica misma
y su categoría asociada. En este caso se trata del artículo el cuya categoría asociada es D, es decir determinante. A continuación se incluyen los rasgos que lo
definen: definido, de género masculino y de número singular.
Otro efecto del carácter fuertemente lexicalista de LFG es que no existe el
concepto de lema, sino que cada unidad léxica debe ser definida independientemente, sin referencia a otra definición. Por ejemplo, tal como se muestra en (143),
además de la entrada para el adjetivo rojo, también existe roja, rojos y rojas.
(143)
a. rojo A * @ (ADJ-MASC-SG-At ROJO);
A * @ (ADJ-MASC-SG-Pr ROJO).
b. roja A * @ (ADJ-FEM-SG-Pr ROJO);
A * @ (ADJ-FEM-SG-At ROJO).
4.1. ARQUITECTURA DE XLE
153
c. rojos A * @ (ADJ-MASC-PL-Pr ROJO);
A * @ (ADJ-MASC-PL-At ROJO).
d. rojas A * @ (ADJ-FEM-PL-Pr ROJO);
A * @ (ADJ-FEM-PL-At ROJO).
En (142), también se puede notar el uso del símbolo arroba, ”@”. Este símbolo
invoca un patrón o plantilla previamente definida. El contenido de los paréntesis
(”()”) es el nombre de una plantilla existente en la sección de plantillas del código,
tal como se explicó en el apartado anterior 4.1.2.
Además, en el caso particular de los adjetivos, cada entrada tiene dos definiciones, pues pueden funcionar como adjetivos predicativos o como adjetivos
atributivos. Por citar un ejemplo, el adjetivo rojo, citado en (143a), cuenta con dos
definiciones, es decir, cuenta con dos plantillas que lo definen: (144a) y (144b).
ADJ-MASC-SG-At(P) = (↑ PRED)=’P’
(144)
a.
((ADJUNCT ↑) NUM)= SG
((ADJUNCT ↑) GEND)= MASC
(↑ ATYPE) = ATRIBUTIVO.
ADJ-MASC-SG-At(P) = (↑ PRED)=’P’
b.
((ADJUNCT ↑) NUM)= SG
((ADJUNCT ↑) GEND)= MASC
(↑ ATYPE) = PREDICATIVO.
Respecto a las entradas verbales, dado que cada flexión constituye una entrada léxica, el número de entradas crece rápidamente. En (143) mostramos que
si bien el uso de una plantilla facilita la codificación de rasgos, se debe tener el
cuidado de incluir los rasgos no contenidos en la plantilla, pues como dijimos, la
plantilla no constituye una definición en sí misma.
154
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
vengo V *
@ (INTRANS1 VENIR)
(↑ TENSE)=PRES.
(145)
a.
vienes V *
@(INTRANS2 VENIR)
(↑ TENSE)=PRES.
viene V *
@ (INTRANS3 VENIR)
(↑ TENSE)=PRES.
vine V *
@ (INTRANS1 VENIR)
(↑ TENSE)=PAS.
b.
viniste V *
@(INTRANS2 VENIR)
(↑ TENSE)=PAS.
vino V *
@ (INTRANS3 VENIR)
(↑ TENSE)=PAS.
En (145a) se muestra la entrada para la primera, segunda y tercera persona
del singular en presente; mientras que en (145b) se muestra el pasado simple.
4.1.3. Interfaz gráfica
La interfaz gráfica fue comentada con anterioridad en la sección 1.5.7. Dijimos
que la estructura-c, se genera siempre y cuando existan las reglas necesarias,
incluso si la frase o sintagma están incompletos. La gramaticalidad de la frase,
sin embargo, viene dada por la buena formación de la estructura-f. El hecho de
no producirse una estructura-f, implica la agramaticalidad de la oración.
En la figura 4.11, presentamos una captura de imagen de la interfaz gráfica.
Esta vez, decidimos mostrar el análisis de una frase agramatical (i.e. el chico
se). Como se puede ver, solo dos cuadros (de los cuatro posibles) son generados. Aunque una estructura-c se produce, esta contiene la indicación 4 invalid
4.1. ARQUITECTURA DE XLE
155
trees, lo que quiere decir que no son correctas, puesto que no se pudo generar la
estructura-f correspondiente.
Figura 4.11: Interfaz de la herramienta de desarrollo de gramáticas XLE. Ejemplo
de una frase agramatical.
156
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
4.2. Ejemplos
En esta sección buscamos mostrar, a través de ejemplos completos de principio a fin, como se realiza un análisis utilizando la gramática propuesta. Para ello,
desarrollaremos los ejemplos a través de la oración copulativa (146), la oración
coordinativa (147) y la oración transitiva (148). El primero servirá para mostrar el
análisis en las diferentes estructuras de LFG, mientras que a partir del segundo,
mostraremos la construcción del análisis en XLE. Finalmente, a través de 148),
uniremos estas dos perspectivas.
(146)
El chico es alto.
(147)
Carmen y el chico comen.
(148)
El chico publica un libro.
4.2.1. El chico es alto
El primer paso es la verificación de todas las palabras que componen la oración
en el lexicón. Tal como se muestra a continuación en los ejemplos (149 - 152).
Reiteramos que si una palabra no se encuentra en el lexicón, el sistema es incapaz
de reconocer la cadena de símbolos.
el
(149)
D * (↑ DEF)=+
(↑ GEND)=MASC
(↑ NUM)=SG.
4.2. EJEMPLOS
157
chico N *
(↑ PERS)=3
(↑ GEND)=MASC
(150)
(↑ NUM)=SG.
alto A* (↑ PRED)=’P <(↑SUBJ)>’
(↑ SUBJ NUM)=SG
(151)
(↑ SUBJ GEND)=MASC
(↑ ATYPE) = PREDICATIVE.
es
V * <(↑XCOMP)>(↑SUBJ)’
(↑ TENSE)=PRES
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(152)
(↑XCOMP SUBJ)=(↑SUBJ)
|(↑ TENSE)=PRES
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑XCOMP SUBJ)=(↑SUBJ)
(↑ SUBJ PRED)=’PRO’.
Luego se verifican las reglas de reescritura con el propósito de formar los diferentes sintagmas. De forma que dos palabras como el y chico pueden formar un
DP, legitimado por la existencia de la regla de reescritura enunciada en (153).
(153)
DP → D: ↑= ↓ NP: ↑= ↓
158
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
DP
D
NP
el
N
chico
Paralelamente, por cada palabra, se forma una subestructura-f a partir de los
rasgos especificados en el lexicón. En nuestro caso, esto produce las estructuras
de rasgos mostradas en las figuras 4.12 - 4.13. Luego, los esquemas funcionales
que acompañan a las reglas especifican el proceso de unificación. Así, puesto
que no existe incompatibilidad de rasgos, las dos subestructuras precedentes se
unifican, dando como resultado una única estructura de rasgos compuesta por los
elementos de cada una de ellas (figura 4.14).


DEF +


el GEND masc
NUM sing
Figura 4.12: Subestructura de rasgos para un artículo definido.


PERS 3


chicoGEND masc
NUM sing
Figura 4.13: Subestructura de rasgos para un sustantivo masculino.


DEF +


PERS 3


el chico 
GEND masc


NUM sing
Figura 4.14: Unificación de dos subestructuras de rasgos.
4.2. EJEMPLOS
159
El proceso descrito hasta aquí se repite entonces con cada una de las cabezas
y sus proyecciones, hasta alcanzar a procesar la totalidad de elementos de la
oración. De forma que ahora son las reglas descritas en 154 las que validan el
TP proyectado por el verbo es. La estructura-c correspondiente se muestra en la
figura 4.2.1.
CP
→ C’:
C’
→ TP
TP
→ DP:
(154)
↑=↓
(↑ SUBJ)=↓ T’
(↑ TOPICO)=↓
(↑ SUBJ CASE)=NOM
T’
→T
T
→ V:
↑=↓ AP:(↑ XCOMP)=↓
CP
C’
TP
DP
T’
D
NP
el
N’
V
AP
N
es
A
chico
T
alto
Figura 4.15: Estructura-c para la frase el chico es alto.
Es de notar que hemos decido incorporar en las reglas las especificaciones
de SUJETO, TÓPICO y CASO. Además, también se especifica que el adjetivo
alto funciona como complemento verbal, razón por la cual se recurre a la función
160
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
XCOMP. Finalmente, la unificación da como resultado la estructura-f que se muestra en la figura 4.16. Es la estructura-f final la que proporciona información como
el tiempo y modo de la oración, así como información sobre el tipo de adjetivo
utilizado.


’ser<alto>, chico’






PRED
’chico’






CASE nom 






DEF



+


SUJ





GEND masc 






NUM



sing 







PERS 3







PRED
’alto
<chico>’





XCOMP 
SUJ
chico






A-type predicative




TOPIC

chico




ind
MOOD

TENSE pres
PRED
Figura 4.16: Estructura-f final para la oración el chico es alto.
4.2.2. Come una manzana
La oración Come una manzana constituye un ejemplo ambiguo, dado que el
verbo no tiene un sujeto pleno sino nulo. Por lo tanto, al carecer de un contexto específico, la oración puede referirse tanto a una segunda persona singular (usted),
como a la tercera persona singular (ella o él).
Al igual que en ejemplo anterior, todas las palabras que conforman la frase
deben estar almacenadas en el lexicón. De lo contrario el sistema no tiene ningún
medio de reconocer cada cadena de símbolos, tal como se muestra en la figura
4.17. De ocurrir esto, no se produce ninguna de las estructuras -a, -f o -c.
4.2. EJEMPLOS
161
Figura 4.17: Interfaz cuando no se reconoce la entrada.
Asumiendo que todas las entradas son reconocidas, entonces se debe verificar
que las reglas de la gramática puedan dar cuenta de la oración que nos interesa.
Este es el caso para este ejemplo, como se muestra en la figura 4.18. Como se
aprecia, existe la indicación de que se encontraron tres soluciones. Efectivamente
la primera corresponde al verbo con todos sus argumentos plenos, una al verbo
utilizado con un sujeto nulo de segunda persona singular y, la tercera, al verbo
utilizado con sujeto nulo de tercera persona singular.
Figura 4.18: Análisis de un sujeto nulo ambiguo.
162
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
4.2.3. El chico publica un libro
Al igual que en los ejemplos anteriores, las entradas del lexicón deben ser
verificadas. Las entradas para el DP el chico ya fueron mencionadas en (149 150) por lo que no las repetimos aquí. En la figura 4.19 se muestra la selección
de entradas de acuerdo a la estructura-a.
Figura 4.19: Selección de entradas de acuerdo a la estructura-a.
4.2. EJEMPLOS
publica
163
V*
(TRANS3 P) | (INTRANS3 P)
TRANS3
publica ’<(↑SUBJ)(↑OBJ)>’
(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(155)
(↑ OBJ CASE)=ACC
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ OBJ CASE)=ACC
(↑ SUBJ PRED)=’PRO’
En este caso, el verbo publica está definido en el lexicón para funcionar tanto como transitivo como intransitivo (155 - 156). Sin embargo, al contar con la
presencia del objeto directo un libro, es el uso transitivo el que se selecciona debido a su esquema de subcategorización verbal recogido en la estructura-a. Las
entradas para el objeto directo se reproducen en (157 - 158).
INTRANS3 publica ’<(↑SUBJ)>’
(↑ MOOD)=IND
(↑ SUBJ NUM)= SG
(156)
(↑ SUBJ PERS)=3
|(↑ MOOD)=IND
(↑ SUBJ NUM)=SG
(↑ SUBJ PERS)=3
(↑ SUBJ PRED)=’PRO’
164
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
un
D*
(↑ DEF)=(↑ GEND)=MASC
(157)
(↑ NUM)=SG.
libro N *
(158)
(↑ PERS)=3
(↑ GEND)=MASC
(↑ NUM)=SG.
La estructura-c correspondiente, tal como la produce XLE, se muestra en la
figura 4.21. Se debe recordar que la estructura-c refleja directamente las reglas
de estructura de frase. Por último, la estructura-f que recoge el análisis total se
presenta en la figura 4.20.
Figura 4.20: Estructura-f de la frase el chico publica un libro.
4.3. CONCLUSIÓN
4.3.
165
Conclusión
En esta sección hemos presentado el código utilizado por XLE para generar
las estructuras a, c y f de LFG. Se trata de un archivo con extensión .lfg que
resulta de fácil manejo para el usuario, gracias parcialmente a la transparencia de
comandos entre el formalismo y la herramienta de desarrollo de gramáticas.
El propósito de este capítulo es facilitar la lectura, comprensión y utilización
del código. Esperamos que sea provechoso para la continuación y extensión de
este trabajo por parte de otros investigadores.
166
CAPÍTULO 4. EL MODELO DE GRAMÁTICA FORMAL
Figura 4.21: Estructura-c de la frase el chico publica un libro.
167
Capítulo 5
Conclusiones generales
En este trabajo hemos expuesto nuestro análisis de la frase simple del español
dentro del marco teórico de LFG. En el capítulo 1: Introducción, hemos analizado los trabajos pertinentes relacionados con el nuestro y, teniendo en cuenta su
aporte, hemos concretizado nuestro propio análisis en el capítulo 3: Análisis sintáctico de la frase simple. Las decisiones que hemos tomado, creemos que han
sido justificadas a través de lo expuesto en el capítulo 2: El lexicón y su tipología.
Finalmente, en el capítulo 4: El modelo de gramática formal, hemos explicado el
código de reglas gramaticales.
Al inicio de este estudio, nos planteamos tres preguntas fundamentales: ¿cuáles son las reglas gramaticales de la frase simple en español en LFG?, ¿cuáles
son los rasgos pertinentes para la sintaxis española según el formalismo LFG?, y
finalmente, ¿qué beneficios se pueden obtener a partir del análisis de las particularidades del español?
Estas tres preguntas han guiado la dirección de nuestro trabajo. Primeramente,
presentamos el estado de la investigación en español desde LFG y la motivación
de nuestro estudio. Hemos estudiado el aporte de otros estudios, provenientes
168
CAPÍTULO 5. CONCLUSIONES GENERALES
tanto del área de la lingüística teórica como del área de la lingüística computacional. Hemos analizado sus puntos de comparación y soporte con LFG, nuestro
marco de análisis. A partir de ahí, hemos incorporado aquellos puntos que nos
han parecido compatibles con nuestras propias intuiciones lingüísticas y los postulados teóricos que dirigen nuestro estudio.
Una lengua como el español cuenta con varias ventajas para su estudio formal.
Es una lengua que posee similitudes con otras lenguas de la misma familia tal
como el italiano o el francés, por lo que también se pueden explotar los análisis
formales de esas lenguas. Además, aunque con mayor distancia, tiene similitudes
con la lengua más explotada en materia de PLN, es decir, el inglés. Por otro lado,
cuenta con un bagaje de investigación teórica desde otras áreas de la lingüística.
En otras palabras, cuenta con recursos que nos ha sido posible explotar. Nosotros,
por ejemplo, asumimos los postulados del esquema X̄ y seguimos muchas de las
modelizaciones del inglés.
Sin embargo, como hemos expuesto, los recursos disponibles para el procesamiento automático y formal del español son más bien recientes, por lo que no
son tan numerosos como los recursos disponibles para el inglés o el francés por
ejemplo; lenguas que cuentan con una larga tradición en PLN. Muchos de ellos,
además, en especial los corpus, no son concebidos para ser manipulables computacionalmente. Estos son hechos sorprendentes si se piensa que el español se
encuentra entre las lenguas más habladas a nivel mundial.
A este respecto concordamos con (Bolshakov y Gelbukh 2004, p. 30) cuando
dice que quien desee compilar todos los hechos relevantes del español se encuentra con un conjunto pequeño de monografías y manuales orientados a los
lectores externos a la materia, mayormente escritos y publicados en España. Si
bien es cierto que este criterio data de 2004, según lo expuesto en el capítulo 1:
169
Introducción, en los últimos ocho años se han conseguido logros más bien limitados.
Creemos que la elección de LFG como formalismo para nuestro estudio ha
sido una decisión apropiada a nuestros objetivos. Nuestro trabajo tiene un interés
marcadamente lingüístico y como tal está dirigido al análisis de los datos y no a
la ingeniería del sistema. LFG es un formalismo sumamente coherente y versátil
desde los puntos de vista matemático y lingüístico. Además, el uso de la plataforma XLE nos ha permitido su máxima explotación. Tanto LFG como XLE son
instrumentos diseñados por y para lingüistas, lo que permite una relativa facilidad
de aprendizaje y manejo. Otros formalismos y sistemas, como por ejemplo La gramática de afijos extendida de Hallebeek (1990), citada en páginas anteriores, es
orientada hacia programadores y expertos en computación. En ese sentido, consideramos que nuestro trabajo es ventajoso para otros investigadores del área en
una eventual continuación.
En la construcción de nuestro lexicón privilegiamos el criterio de representatividad al criterio de exhaustividad. Escogimos un número mínimo de elementos
que nos pudieran ser útilies para explorar y explotar las propiedades léxicales de
cada tipo de cabeza: D, V, P y A. Asimismo, nuestra propuesta de estructura de
frase nos permitió analizar fenómenos más allá de la frase simple, tal como la
coordinación.
A este respecto, a medida que insertábamos cada una de las entradas léxicas pudimos percatarnos de las particularidades del lenguaje que la formalización permite aprehender de forma clara y aprovechable en aplicaciones futuras.
En particular nos referimos a la idea de que el lenguaje es altamente repetitivo.
Rápidamente notamos que todas las entradas para una misma categoría léxica
(D, V, P y A.) se definían en gran parte de la misma manera, especialmente en el
170
CAPÍTULO 5. CONCLUSIONES GENERALES
caso de los sustantivos.
Esto nos llevó a la concepción de plantillas de inserción léxica. Se trata de
patrones de rasgos que, aunque se declaran una sola vez en el código, se pueden
llamar o reutilizar tantas veces como sea necesario. Lo mismo sucede en el caso
de los verbos. En este caso, como cada forma flexionada constituye una entrada
léxica estos patrones resultan particularmente útiles, pues no es necesario crear
reglas morfológicas de derivación.
El capítulo 4.1.2: Reglas se centra exclusivamente en nuestra contribución al
estudio sintáctico del español. En el capítulo 4.1.2 presentamos nuestro análisis
de la frase simple del español utilizando el formalismo LFG. Como dijimos en
párrafos precedentes, la plataforma XLE nos permitió probar la coherencia interna
de las reglas propuestas de acuerdo con los postulados explicados en la sección
1.5: Marco teórico.
Fuimos capaces de analizar la frase simple construida con diferentes tipos
de verbos y hemos propuesto un análisis para los pronombres que se muestra
compatible con la estructura de frase adoptada. Asimismo, analizamos otras configuraciones sintácticas como el orden flexible del sujeto haciendo uso de las nociones de TÓPICO y FOCO. Por otro lado, también analizamos coherentemente
los casos de verbos transitivos que permiten un uso intransitivo y un uso de voz
media. Finalmente, en el caso de los pronombres clíticos tratamos las sustituciones simples de un argumento pleno por uno pronominal y la duplicación del objeto
indirecto.
De igual forma, aunque de manera parcial, abordamos la problemática de las
construcciones con se. La modelización de este pronombre en particular nos permitió comprobar que los límites entre los diferentes niveles de la lengua son más
bien difusos. En efecto, nosotros no incluimos el uso de ”se” como alormorfo de
171
”le” al considerar que se trata de una alternancia estrictamente fonológica y no
sintáctica.
Con la conclusión de nuestro estudio, creemos haber alcanzado los objetivos
que nos propusimos al inicio. Estos incluyen i) la identificación de los fenómenos
característicos de la frase simple del español, ii) la descripción de la estructura de
la frase simple del español con atención en sus características distintivas, iii) la
formalización de los fenómenos sintácticos identificados, y finalmente, iv) la verificación de la formalización en una aplicación computacional. El primero de ellos
fue alcanzado gracias al bagaje en investigación lingüística teórica disponible. Los
otros tres, por otro lado, al ser fuertemente dependientes el uno del otro, fueron
alcanzados en paralelo a medida que la gramática se concibió y se desarrolló.
Por último, con la conclusión de este trabajo, creemos haber construido las reglas de estructura de frase que permiten desarrollar un análisis igualmente coherente para otras construcciones sintácticas al igual que para analizar fenómenos
más complejos en etapas posteriores. En este sentido, como lo expresamos en
párrafos anteriores, el mérito de nuestro trabajo consiste en el análisis gramatical verficado y desarrollado en paralelo con reglas gramaticales de estructura de
frase.
A largo plazo, y con el eventual desarrollo de un parser lo suficientemente robusto, un sistema más complejo podría ser implementado. Una de las múltiples
extensiones posibles es incrementar el tamaño del lexicón. En este trabajo, tanto
las reglas como las entradas léxicas fueron construidas e insertadas manualmente. Sin embargo, la importación de un léxico ya existente permitiría contar con una
base de datos léxicos lo suficientemente grande como para tener una cobertura
estadísticamente significativa. Asimismo, esto permitiría refinar las reglas.
Por otro lado, también queda la cuestión de la evaluación. Creemos que se
172
CAPÍTULO 5. CONCLUSIONES GENERALES
trata de todo un estudio en sí mismo. Para poder realizarla, se tendrían que comparar los análisis propuestos con los análisis de otro sistema similar. Esto implicaría trabajar en hacer comparable el output de ambos sistemas. Además, extender
el lexicón sería también inevitable, pues una evaluación debe hacerse sobre una
muestra de oraciones estadísticamente significativa. Con el tamaño actual de la
gramática, tal evaluación es muy difícil de realizar.
Apéndice A
Corpus de oraciones
1. Llueve.
2. Amanece.
3. Anochece.
4. Nieva.
5. A Carmen le gusta la manzana.
6. A Carmen le encantan las manzanas.
7. A Carmen le cuesta aprender.
8. A Carmen le importa aprender.
9. A Carmen le duele el pie.
10. Carmen es alta.
11. Carmen es inteligente.
12. La casa está roja.
173
174
13. La casa está fea.
14. Carmen oye una canción.
15. Carmen ve.
16. Carmen ve un pájaro.
17. Carmen escucha la radio.
18. Carmen nació.
19. Hay una silla.
20. Hay un chico.
21. Los chicos entraron.
22. Los chicos mueren.
23. Las chicas ríen.
24. Carmen va.
25. Carmen viene.
26. El chico duerme.
27. Ella quiere la manzana.
28. Él siente miedo.
29. Carmen come la manzana.
30. El chico publica un libro.
31. Carmen llama al chico.
APÉNDICE A. CORPUS DE ORACIONES
175
32. El chico lava el carro.
33. El chico lava la silla.
34. Carmen abre el libro.
35. El chico le da la manzana a Carmen.
36. Carmen le escribe el libro al chico.
37. Carmen dice la verdad.
38. El chico le trae el carro a Carmen.
39. El chico trae la manzana.
40. El chico trae la manzana para Carmen.
Apéndice B
Segundo corpus de oraciones
1. Carmen y el chico comen.
2. Carmen se murió.
3. Carmen se queja.
4. El chico nació.
5. Carmen la come.
6. Carmen come la manzana arenosa.
7. El chico lava el carro rojo.
8. Ella es flaca y alta.
9. Hay sillas.
10. Ellos publican un libro.
176
Apéndice C
Test-set
1. Llueve.
2. A Carmen le gusta la manzana.
3. Carmen es alta.
4. Carmen nació.
5. Los chicos entran.
6. Las chicas ríen.
7. Carmen va.
8. Ella quiere la manzana.
9. Carmen come la manzana.
10. Carmen la come.
11. El chico publica un libro.
12. El chico le da la manzana a Carmen.
177
178
13. El chico le trae el carro a Carmen.
14. Carmen y el chico comen una manzana.
15. Carmen se murió.
APÉNDICE C. TEST-SET
Apéndice D
Totalidad de rasgos propuestos por
XLE
ANIM: -> $ {+ -}.
AQUANT: -> << [ ADJUNCT PRED QUANT-TYPE DEGREE DEG-DIM ].
ATYPE: -> $
{adverbial attributive predicative}.
CASE: -> $ {acc dat erg gen inst loc nom obl}.
CLAUSE-TYPE: -> $ { adv cond decl imp int nom pol-int rel wh-int
}.
COMMON: -> $ { count gerund mass measure partitive }.
DEG-DIM: -> $
DEGREE: -> $
{equative neg pos}.
{comparative positive superlative}.
DET: -> << [ DEIXIS DET-TYPE PRED ].
DET-TYPE: -> $ {article def demon indef int rel}.
GEND: { ->
$ {fem masc neut} | ->
<< [ FEM MASC NEUT ] }.
HUMAN: -> $ {+ -}.
GEND-SEM: -> $
{female male nonhuman}.
179
180
APÉNDICE D. TOTALIDAD DE RASGOS PROPUESTOS POR XLE
LOCATION-TYPE: -> $ { city country }.
MOOD: -> $
{imperative indicative subjunctive successive}.
NAME-TYPE: -> $ {first_name last_name }.
NSEM: -> << [ COMMON NUMBER-TYPE PROPER TIME ].
NSYN: -> $ { common pronoun proper }.
NTYPE: -> << [ NSEM NSYN ].
NUM: -> $
NUMBER:
{pl sg}.
-> << [NUMBER-TYPE PRED ADJUNCT CLASSIFIER-FORM MOD].
NUMBER-TYPE: -> $
PASSIVE: -> $
{card fract ord percent}.
{+ -}.
PERF: -> $
{+ - +_ -_}.
PERS: -> $
{1 2 3}.
PROG: -> $
{+ - +_ -_}.
PRON-TYPE: -> $
{demon expl_ free inh-refl_ int locative null pers
quant poss recip refl rel}.
PROPER: -> << [ PROPER-TYPE LOCATION-TYPE NAME-TYPE ].
PROPER-TYPE: -> $ { addr_form location name organization title }.
PSEM: -> $ {ag ben comit compar dir inst loc manner num part poss purp temp }.
PTYPE: -> $
{nosem sem}.
QUANT: -> << [ADJUNCT QUANT-TYPE POL PRED DEGREE DEG-DIM ].
QUANT-TYPE: -> $ {comparative equative existential gen negative superlative universal}.
SPEC: -> << [ADJUNCT AQUANT DET
STMT-TYPE: -> $
TENSE: -> $
NUMBER POSS QUANT
SPEC-TYPE].
{ decl header imp int }.
{fut null past pres}.
TIME: -> $ { date day hour minute month season second week year}.
TNS-ASP: -> <<
[MOOD PERF PROG TENSE].
181
VTYPE: -> $
{aux copular main modal noncopular predicative raising}.
Bibliografía
Abney, Steven P. (1987). «The English Noun Phrase in its Sentential Aspect».
Tesis doct. MIT.
Atserias, Jordi, J. Carmona y col. (1998). Morphosyntactic Analysis and Parsing
of Unrestricted Spanish Text.
Atserias, Jordi, B. Casas y col. (2006). «Freeling 1.3: Syntactic and Semantic Services in an Open Source NLP library». En: Centro de Investigación TALP. url:
http://www.lsi.upc.es/~bcasas/publications/lrec2006.pdf.
Atserias, Jordi, Eli Comelles y Aingeru Mayor (2005). «TXALA un analizador libre
de dependencias para el castellano». En: Procesamiento del lenguaje natural
35.62. url: http://www.sepln.org/revistasSPELN/revista/35/62.pdf.
Bates, Elizabeth y Judith C. Goodman (1997). «On the Inseparability of Grammar
and the Lexicon: Evidence from Acquisition, Aphasia and Real-Time Processing». En: Language and Cognitive Processes 12, págs. 507-584. url: http:
//www.crl.ucsd.edu/bates/papers/pdf/bates-goodman-1997.pdf.
Belletti, Adriana y Luigi Rizzi (1988). «Psych-Verbs and Th-Theory». En: Natural
Language and Linguistic Theory 3, págs. 291-352.
Berrocal Rojas, Allan (2009). «Automatización parcial de la revisión de aspectos
de precisión, no-ambigüedad y verificabilidad en requerimientos de software
escritos en lenguaje natural». Tesis de maestría. Universidad de Costa Rica.
182
BIBLIOGRAFÍA
183
Boleda, Gemma, Sabine Schulte y Toni Badia (2007). «Modelling Polysemy in
Adjective Classes by Multi-Label Classification». En: ACL Anthology.
— (2008). «An Analysis of Human Judgement on Semantic Classification of Catalan Adjectives». En: Research on Language and Computation 6.3-4, págs. 247-271.
url: http://www.springerlink.com/content/wom312j16264h15h/.
Bolshakov, Igor A. y Alexander Gelbukh (2004). Computational Linguistics: Models, Resources, Applications. Mexico City: Insituto Politécnico Nacional.
Bosque Muñoz, Ignacio y Javier Gutiérrez-Rexach (2009). Fundamentos de sintaxis formal. Ediciones AKAL.
Bresnan, Joan (1998). «Optimal Syntax». En: Optimality Theory: Phonology, Syntax and Acquisition. url: http://www.stanford.edu/7Ebresnan/pt3.ps.
— (2001). Lexical Funcional Grammar. Oxford: Blackwell Publishers.
Bresnan, Joan y Ronald Kaplan (1982). «The Mental Representation of Grammatical Relations». En: Cambridge: MIT Press. Cap. Lexical Functional Grammar:
A Formal System for Grammatical Representation.
Buring, Daniel (2005). Binding Theory. Cambridge University Press.
Burzio, Luigi (1986). Italian Syntax. A Government and Binding Approach. Reidel.
Butt, Miriam, Mary Dalrymple y col. (2002). «The Pargram Project: Workshop and
Demo». En: Proceedings of LFG02 Conference. url: http://csli-publications.
stanford.edu/LFG/7/lfg02pargram-abs.html.
Butt, Miriam, Helge Dyvik y col. (2002). «The Parallel Grammar Projet». En: Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for
Teaching Natural Language Processing and Computational Linguistics. Somerville, MA.
Calvo, Hiram y Alexander Gelbukh (2006). «DILUCT: An Open Source Dependency Parser based on Rules, Heuristics, and Selectional Preferences». En:
184
BIBLIOGRAFÍA
Natural Language Processing and Information Systems 3999. url: http://www.
springerlink.com/content/t456v11022274925/.
Carrera, Jordi y col. (2008). «Gramáticas de dependencia en freeling». En: Procesamiento del lenguaje natural 41, págs. 21-28.
Cedeño Baltodano, Allan (2009). «Comparación del rendimiento de las aplicaciones Toscanaj y Concept Explorer para la construcción de retículas de conceptos». Tesis de maestría. Universidad de Costa Rica.
Chomsky, Noam (1957). Syntactic Structures. Mouton.
Chrupała, Grzegorz (2008). «Towards a Machine-Learning Architecture for Lexical
Functional Grammar Parsing». Tesis doct. Universidad Dublin City.
Chrupała, Grzegorz y Josef van Genabith (2006). «Improving Treebank-Based
Atuomatic LFG Induction for Spanish». En: Proceedings of the LFG 06 Conference. url: http://csli-publications.stanford.edu/.
Clements, Joseph Clancy (2001). «Ergative Patterning in Spanish». En: Current
Issues in Spanish Syntax. Ed. por Javier Gutiérrez-Rexach y Luis Silva-Villar.
Mouton de Gruyter, págs. 271-290.
— (2008). «Me dicen que suena raro cuando digo yo en todo momento: ¿por qué
no es necesario usar el pronombre?» En: El español a través de la lingüística.
Ed. por Jennifer D. Ewald y Anne Edstrom. Cascadilla Press, págs. 83-94.
Cortés, Ángel-Alonso (2001). «Rasgos activos y ergativos del español». En: Verba
28. url: http://dspace.usc.es/handle/10347/3351.
Culicover, Peter y Ray Jackendoff (2005). Simpler Syntax. New York: Oxford Univesity Press.
De Vries, Mark (2005). «Coordination and Syntactic Hierarchy». En: Studia Linguistica 59.1, págs. 83-105.
BIBLIOGRAFÍA
185
D’Introno, Francesco (2001). Sintaxis Generativa del Español: Evolución y Análisis. Cátedra.
Dowty, David (1991). «Thematic Proto-Roles and Argument Selection». En: Language 67.3, págs. 547-619. url: http://www.jstor.org/stable/415037.
EAGLES (1998). «Verb Semantic Classes». En: Preliminary Recommendations
on Semantic Encoding Interim Report. url: http://www.ilc.cnr.it/EAGLES98/
rep2/nod1.html.
Estigarribia, Bruno (2005). «Direct Object Clitic Doubling in OT-LFG A New Look at
Rio Platense Spanish». En: Proceedings of the LFG 05 Conference. url: http:
//csli-publications.stanford.edu/.
Fillmore, Charles, Paul Kay y Catherine O’Connor (1988). «Regularity and Idiomaticity in Grammatical Constructions: The Case of let alone». En: Language
64, págs. 501-538.
Franco, Jon y Susana Huidobro (2008). «Ethical Datives, Clitic Doubling and the
Theory of pro». En: Selected Proceedings of the 10th Hispanic Linguistics Symposium. Somerville, MA.
Galicia, Sofía N. y Alexander Gelbukh (2007). Investigaciones en Análisis Sintáctico para el Español. México: Instituto Politécnico Nacional.
Givón, Talmy (2001). MorphoSyntax: An Introduction. Philadelphia: John Benjamins Publishing Co.
Goodall, Grant (1987). Parallel Structures in Syntax. Cambridge Unversity Press.
Grantson, Magdalene (2002). Lexical Functional Grammar: Analysis and Implementation.
Grimshaw, Jane (1999). «Optimal Clitic Positions and the Lexicon in Romance Clitic System». En: CSLI Publications. url: http://csli-publications.stanford.
edu/.
186
BIBLIOGRAFÍA
Grohmann, Kleanthes (2000). «Towards a Syntactic Understanding of Prosodically
Reduced Pronouns». En: Theoretical Linguistics 26.3, págs. 175-210.
Grzymala-Busse, Jerzy W. y Witold J.Grzymala-Busse (2005). «The Data Mining
and Knowledge Discovery Handbook». En: Springer-Verlag. Cap. Rule Induction.
Guevara, Emiliano (2006). Binary Branching and Linguistic Theory: Morphological
Arguments.
Gulati, Asheesh (2011). «Hybrid Machine Translation: An Overview». Certificat de
Spécialisation. Université de Gen’́eve.
Haegeman, Liliane (1991). Introduction to Government and Binding Theory. Cambridge: Blackwell Publishers.
— (2001). English Grammar: A Generative Perspective. Cambridge: Blackwell Publishers.
Hallebeek, Jos (1990). «A Formal Approach to Spanish Syntax». Tesis doct. Universidad de Nijmegen.
Halpern, Aaron (1995). On the Placement and Morphology of Clitics. University of
Chicago Press.
Holloway, Tracy (2005). «Clitcizing LFG». En: Proceedings of the LFG 05 Conference. url: http://csli-publications.stanford.edu/.
Hornstein, Norbert, Jairo Nunez y Kleathes K. Grohmann (2005). Understanding
Minimalism. Cambridge: Cambridge University Press.
Hutchins, John (1986). Machine Translation: Past, Present, Future. Ellis Horwood.
Jaeggli, Osvaldo (1982). Topics in Romance Syntax. Foris Publications.
Jassem, Krzysztof (2002). «Semantic Classification of Adjectives on the Basis of
their Syntactic Features in Polish and English». En: Machine Translation 17.1,
págs. 19-41. url: http://www.springerlink.com/content/u2ou046122633136.
BIBLIOGRAFÍA
187
Joshi, Aravind, Leon Levy y Masako Takahashi (1975). «Tree Adjunct Grammars».
En: Journal Computer Systems Science 10.1.
Kaplan, Ronald M. y John T. Maxwell (1988). «Consituent Coordination in LexicalFunctional Grammar». En: ACL Anthology. url: www.ldc.upenn.edu/acl/C/
C88/C88-1061.pdf.
Kayne, Richard (1975). French Syntax. The Transformational Cycle. MIT Press.
— (1994). The Antisymmetry of Syntax. MIT Press.
Kelling, Carmen (2006). «Spanish se-constructions: The passive and the impersonal construction». En: Proceedings of the LFG 06 Conference. url: http :
//csli-publications.stanford.edu/.
Kihm, Alain (2005). «The Oxford Handbook of Comparative Syntax». En: Oxford
University Press. Cap. Noun Class, Gender and the Lexicon-Syntax-Morphology
Interfaces: A Comparative Study of Niger-Congo and Romance languages,
págs. 459-512. url: http://www.llf.cnrs.fr/Gens/Kihm/OUPhandbook.pdf.
Kipper, Karin y col. (2007). «A large scale classification of English Verbs». En:
LREC. url: http://verbs.colorado.edu/kipper/Papers/lrec.journal.pdf.
Kocjančič, Polonca (2009). «Internet y los Recursos Lingüísticos para la Lengua
Española: Diccionarios y Corpus». En: Verba Hispanica. Anuario del Departamento de la Lengua y Literatura Españolas XVII. Universidad de Ljubljana,
Eslovenia, págs. 145-163. url: http : / / www . ff . uni - lj . si / fakulteta /
ZalozbaInKnjigarna/Zaloznistvo/KatalogPublikacij/Verba\%20Hispanica/
VERBA\%20HISPANICA\%20XVII\%202009.pdf#page=145..
Korhonen, Anna y T. Briscoe (2004). «Extended Lexical-Semantic Classification
of English Verbs». En: HTL/NAACL Workshop on Computational Lexical Semantics. url: http://acl.ldc.upenn.edu/hlt-naacl2004/CLS/index.html.
Kroeger, Paul (2004). Analyzing Syntax. Cambridge: Cambridge University Press.
188
BIBLIOGRAFÍA
Kübler, Sandra, Ryan McDonald y Joakim Nivre (2009). Dependency Parsing.
Morgan y Claypool Publishers.
Labov, William (1972). «Some Principles of Linguistic Methodology». En: Language in Society 1.1, págs. 97-120. url: http://www.jstor.org/stable/4166672.
Laenzlinger, Christopher (2003). Initiation ’́a la syntax formelle du français. Cambridge: Peter Lang, SA.
Langley, Pat y Herbert A. Simon (1995). «Applications of Machine Learning and
Rule Induction». En: Communications of the ACM 38, págs. 55-64.
Lehmann, Sabine y col. (1996). «TSNLP - Test Suites for Natural Language Processing». En: In J. Nerbonne (Ed.), Linguistic Databases. CSLI Publications,
págs. 711-716.
Leoni de León, Jorge Antonio (1999). «Les Clitiques en Espagnol : Analyse Syntaxique et Traitement Automatique». Mémoire de DES. Université de Gen’́eve.
— (2008). «Mod’́ele d’analyse lexico-syntaxique des locutions espagnoles». Tesis
doct. Universidad de Ginebra.
— (2010). «Computational Linguistics in Costa Rica: An Overview». En: Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational
Approaches to Languages of the Americas.
Leoni de León, Jorge Antonio y Athina Michou (2006). «Traitement des clitiques
dans un environnement mutlitlingue». En: Proceedings of the TALN’06 Conference.
Leoni de León, Jorge Antonio, Sandra Schwab y Eric Wehrli (2008). «Análisis
sintáctico profundo del español: un ejemplo del procesamiento de secuencias
idiomáticas». En: Procesamiento del lenguaje natural.
Levin, Beth (1993). English Verb Classes and Alternations. Chicago: University of
Chicago Press.
BIBLIOGRAFÍA
189
Litosseliti, Lia (2010). Research methods in Linguistics. Continuum International
Publishing Group.
Lloberes, Marina, Irene Castellón y Lluis Padró (2010). «Spanish Freeling Dependency Grammar». En: Proceedings of the LREC 2010 Conference. Malta. url:
www.lrec-conf.org/proceedings/lrec2010/pdf/562_Paper.pdf.
Loáiciga, Sharid (2011). «Null Subjects in Machine Translation Between Spanish
and English». Certificat de Spécialisation en Linguistique. Université de Gen’́eve.
Longobardi, Giuseppe (2000). «”Postverbal” Subjects and the Mapping Hypothesis». En: Linguistic Inquiry. url: www.jstor.org/stable/4179128.
MacDonald, Jonathan E. y Susana Huidobro (2010). «The Lack of Spanish NonArgumental Clitic Doubling». En: Selected Proceedings of the 12th Hispanic
Linguistics Symposium. Somerville, MA.
Manandhar, Suresh, Saso Dzeroski y Tomaz Erjavec (1998). Learning Multilingual
Morphology with CLOG.
Manning, Chris e Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. MIT Press.
Marcus, Mitchell P., Beatrice Santorini y Mary Ann Marcinkiewicz (1993). «Building
a large annotated corpus of English: the Penn Treebank». En: Computational
Linguistics 19.2, págs. 313-330.
Martí, María y col. (sf). «AnCora: Multilingual and Multilevel Annotated Corpora».
http://clic.ub.edu/ancora/ancora-corpus.pdf.
Matsumoto, Yo (2003). «Typologies of Lexicalizations Patterns and Event Integrations: Clarifications and Reformulations». En: ed. por Shuji Chiba et al.
Mayer, Elizabeth (2008). «Clitics on the Move: From Dependent Marking to Split
Marking». En: CSLI Publications. url: http://csli-publications.stanford.
edu/.
190
BIBLIOGRAFÍA
Mello, George de (1979). «The Semantic Values of ser and estar». En: Hispania
62.3, págs. 338-341.
Merlo, Paola y Suzanne Stevenson (2001). «Automatic Verb Classification Based
on Statistical Distribution of Argument Structure». En: Computational Linguistics 27.3, págs. 373-408. url: http://www.latl.unige.ch.
— (2004). «Structure and Frequency in Verb Classification». En: Incontro di Grammatica Generativa. url: http://www.latl.unige.ch.
Merlo, Paola y Lonneke van der Plas (2009). «Abstraction and Generalization
in Semantic Role Labels: PropBank, VerbNet or both?» En: ACL-IJCNLP. url:
http://www.latl.unige.ch.
Miller, George (2009). «WordNet: About Us». En: Princeton University. url: http:
//wordnet.princeton.edu.
Mohri, Mehryar (2005). «Applied Combinatorics on Words». En: Cambridge University Press. Cap. Statistical Natural Language Processing.
Moreno, Antonio (1998). Lingüística Computacional. Madrid: Editorial Síntesis.
— (2001). Gramáticas de Unificación y Rasgos. Madrid: A. Machado Libros.
Moreno, Antonio, Ralph Grishman y col. (2000). «A Treebank of Spanish and its
Application to Parsing». http://www.lllf.uam.es/ESP/Treebank.html.
Moreno, Antonio, Susana López y Fernado Sánchez (2003). «Developing a Syntactic Annotation Scheme and Tools for a Spanish Treebank». En: Treebanks:
Building and Using Annotated Corpora. Ed. por Ann Abeillé, págs. 149-163.
Nakazawa, Tsuneko (2006). «Pro Drop and Pronouns». En: Proceedings of the
HPSG06 Conference. CSLI Publications. url: http : / / csli - publications .
stanford.edu/.
BIBLIOGRAFÍA
191
Neeleman, Ad y Kriszta Szendői (2005). «Pro Drop and Pronouns». En: Proceedings of the 24th West Coast Conference on Formal Linguistics. Cascadilla
Proceedings Project, págs. 299-307.
O’Donovan, Rut y col. (2005). «Automatic Acquisition of Spanish LFG Resources
from the CAST3LB Treebank». En: Proceedings of the LFG 06 Conference. url:
http://csli-publications.stanford.edu/.
Okada, Naoyuki y Aiko Miura (1982). «Conceptual Taxonomy of Japanese Adjectives for Understanding Natural Language and Picture Patterns». En: Ninth
International Conference on Computational Linguistics. url: http://acl.ldc.
upenn.edu/C/82.
Ortega-Santos, Iván (2006). «On Postverbal Subjects, PF and the Copy Theory:
The Spanish Case». En: Proceedings of the 9th Hispanic Linguistics Symposium. Somerville, MA.
Padró, Lluís (2011). «Analizadores Multilingües en FreeLing». En: Linguamatica
3.2, págs. 13-20.
Paiva, Valeria de y Tracy Holloway King (2008). «Designing testsuites for grammarbased systems in applications». En: GEAF ’08 Proceedings of the Workshop
on Grammar Engineering Across Frameworks.
Payne, Thomas (2008). Describing Morphosyntax. Cambridge: Cambridge University Press.
Pollard, Carl e Ivan A. Sag (1994). Head-Driven Phrase Structure Grammar. University of Chicago Press.
Radford, Andrew (2004). English Syntax. Cambridge University Press.
Rizzi, Luigi (1982). Issues in Italian Syntax. Foris Publications.
192
BIBLIOGRAFÍA
Russo, Lorenza, Sharid Loáiciga y Asheesh Gulati (2012). «Improving Automatic
Translation of Null Subjects in Italian and Spanish». En: Proceedings of the
EACL’12 Conference.
Samardzic, Tanja (2009). «Semantic roles in natural language processing and in
linguistic theory». Tesis de lic. Universidad de Ginebra.
Simard, Michel, Cyril Goutte y Pierre Isabelle (2007). «Statistical Phrase-based
Post-editing». En: Proceedings of NAACL HLT 2007, 508–515.
Simard, Michel, Nicola Ueffing y col. (2007). «Rule-based Translation With Statistical Phrase-based Post-editing». En: Proceedings of the 2nd Workshop on
Statistical Machine Translation, 203–206.
Stalmaszczyk, Piotr (1993). «The English Middle Construction». En: Papers and
Studies in Contrastive Linguistics 27, págs. 133-147.
Stevenson, Suzanne y col. (1999). «Supervised Learning of Lexical Semantic Verb
Classes Using Frecuency Distributions». En: SigLex99: Standadizing Lexical
Resources. url: http://www.latl.unige.ch.
Subirats, Carlos (2009). «La función del corpus en FrameNet Español». En: Proceedings of the First International Conference on Corpus Linguistics (CILC 09).
Murcia (Spain).
Talmy, Leonard (2000). Toward a Cognitive Semantics. MIT Press.
Tenny, Carol (1994). Aspectual Roles and the syntax-semantics interface. Kluwer
Academic Publishers.
Tullio, Angela Di (2003). «Las medias en español: entre la sintaxis y la semántica».
En: Cuadernos del Sur 32-33. url: http://bibliotecadigital.uns.edu.ar/
scielo.php?script=sci_arttext&pid=S1668-74262003000100002&lng=es&
nrm=iso>..
van Oirsouw, Robert (1987). The Syntax of Coordination. Croom Helm.
BIBLIOGRAFÍA
193
Van Valin, Robert (1999). Generalized Semantic Roles and the Syntax-Semantics
Interface. url: http://linguistics.buffalo.edu/people/faculty/vanvalin/
rrg.html.
Vanhoe, Henk (2002). «Aspects of the Syntax of Psychological Verbs in Spanish:
A Lexical Functional Analysis». En: Proceedings of the LFG02 Conference. url:
http://csli-publications.stanford.edu/.
Vann, Robert E. (1993). «Middle Voice, No Fault se, and the Anticausative: Ergativity in Spanish». En: Issues and Theory in Romance Linguistics: Selected
Papers from the Linguistic Symposium on Romance Languages XXIII.
Wehrli, Eric (1997). L’analyse syntaxique des langues naturelles: probl’́emes et
méthodes. Paris: Masson.
— (2007). «Fips, a ”Deep”Linguistic Multilingual Parser». En: Workshop on Deep
Linguistic Processing. url: http://www.aclweb.org/anthology- new/W/W071216.pdf.
Wehrli, Eric y Luka Nerima (2009). «L’analyseur syntaxique Fips». En: Proceedings of the 11th International Workshop on Parsing Technologies IWPT. url:
http://alpage.inria.fr/iwpt09/atala/fips.pdf.
Wehrli, Eric, Luka Nerima e Yves Scherrer (2009). «Deep Linguistic Multilingual
Translation and Bilingual Dictionaries». En: Proceedings of the Fourth Workshop on Statistical Machine Translation, págs. 90-94.
Yllescas, Juan Carlos Tordera (2008). Introducción a la Gramática Léxico-Funcional.
Val’́encia: Universitat de Val’́encia.
Zagona, Karen (1996). «Aspects of Romance Linguistics». En: Georgetown University Press. Cap. Compositionality of Aspect: Evidence from Spanish Aspetual Se.
— (2002). The Syntax of Spanish. Cambridge: Cambridge University Press.

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download Análisis léxico funcional de la sintaxis: propuesta para el