Download La estructura de la oración

Document related concepts

Analizador sintáctico de precedencia simple wikipedia , lookup

Gramática tradicional wikipedia , lookup

Teoría θ wikipedia , lookup

Gramática formal wikipedia , lookup

Transcript
La estructura de la
oración
Sintaxis
Luis Villaseñor Pineda
Laboratorio de Tecnologías del Lenguaje
Coordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y
Electrónica
¿Qué es la sintaxis?

Cómo se agrupan las palabras
Una gramática enlista los principios bajo los cuales se
agrupan las palabras, es el conjunto de reglas que
describe que es válido en un lenguaje

Gramáticas clásicas:




Pensadas para gente que conoce el lenguaje
Definiciones y reglas soportadas sólo por ejemplos
Gramáticas explícitas:


Descripción formal
Programables y validadas sobre datos
¿Para qué la sintaxis?


Cómo se relacionan las palabras en una
oración
Formalizar las relaciones entre las palabras de
una oración es el primer paso para entender su
contenido
Sintaxis

Entrada:


Salida:


Secuencia de pares (lema, tags)
Estructura de la frase (árbol sintáctico) con nodos anotados
(lema, tags, función)
Estudia:



La relación de lemas y categorías morfológicas con estructuras
de frase
Puede usar categorías sintácticas como sujeto, verbo, objeto, etc.
Por ejemplo:


(yo/PT1PS) ví/VP1PS un/DI perro/NCS
( (yo)FN ( (ví)V ((un)DET (perro)N)FN )FV )S
En busca de un formalismo
Actualmente existen dos enfoques:


Restringir las teorías derivadas de las gramáticas dependientes
del contexto
Extender las teorías derivadas de las gramáticas independientes
del contexto
En cualquiera de los dos casos:

el trabajo en la búsqueda de una teoría gramatical pertinente
proveerá elementos para una comprensión indirecta sobre la
naturaleza y organización del aparato cognitivo humano
Sin embargo…

Sólo estamos interesados de manera
secundaria en la búsqueda de explicaciones
sobre cómo el ser humano “entiende” el
lenguaje

Nuestro principal objetivo es que las
computadoras realicen tareas útiles e
interesantes involucrando el lenguaje humano.
Formalizando el lenguaje
Tres ideas principales

Constituyentes

Un grupo de palabras que actúan como una unidad



Relaciones gramaticales

Formalización de la ideas de la gramática tradicional



El gato escandaloso es mío
Ayer murió el gato escandaloso
Sujeto; Objetos
El gato escandaloso durmió en el tejado
Subcategorización y relaciones de dependencia



El verbo querer es seguido de verbos en indicativo
El verbo encontrar todo lo contrario
Pertenecen a distintas subcategorías
Constituyentes


Muchos tipos de constituyentes
Frase nominal / grupo nominal

Cómo lo reconocemos, qué palabras lo forman:







Antecede al verbo
Describe un referente
El constituyente puede colocarse como un todo en diferentes lugares en la
oración, no sus palabras
El gato come en el patio
En le patio come el gato
Come el gato en el patio
*Come gato en el patio el
Modelando la estructura

Usando las gramáticas libres de contexto (PhraseStructure Grammars)

Tenemos un conjunto de reglas o producciones


Describen las maneras de cómo los símbolos del lenguaje pueden
agruparse
Y un lexicón de palabras y símbolos

Son los elementos básicos, las piezas a partir de las cuales se construyen
las expresiones del lenguaje
Reglas para FN

Una frase nominal puede formarse



a partir de un artículo y un nominal
o de un nombre propio
y un nominal puede formarse de un nombre con o sin
adjetivo
Reglas para FN
FN → Artículo Nominal
FN → NombrePropio
Nominal → Nombre | Nombre Adjetivo
 Las reglas pueden establecerse jerárquicamente de manera que
podemos incluir por ejemplo las reglas que nos relacionan con el
lexicón:
Artículo → un
Artículo → el
 Símbolos terminales y no-terminales
 Una regla determina un orden de uno o más terminales o noterminales
Ejemplo

Gramática para expresiones matemáticas
expression → equality-expression
equality-expression → additive-expression ( ( '==' | '!=' ) additive-expression ) *
additive-expression → multiplicative-expression ( ( '+' | '-' ) multiplicativeexpression ) *
multiplicative-expression → primary ( ( '*' | '/' ) primary ) *
primary → '(' expression ')' | NUMBER | VARIABLE | '-' primary
CFG





Entonces una frase puede ser derivada a partir del
no-terminal FN
Una CFG puede ser usada para generar frases
cualesquiera
Una secuencia de reescritura es llamada una
derivación
Una derivación puede ser representada gráficamente a
través de un árbol sintáctico (parse tree)
Una CFG cuenta con un símbolo inicial
Ejemplos de componentes principales




FN - NP (noun phrase)
S (sentence)
VP (verb phrase)
PP (prepositional phrase)
Ejemplo
Verb  comió
VP Verb NP
S  NP VP
S
NP
VP
Verb
NP
Mi hermano comió una manzana
3 vistas de una regla




generación (producción): S  NP VP
parsing (análisis):
S  NP VP
verificación:
S = NP VP
Hasta aquí el mecanismo es muy sencillo, es necesario
enriquecer las reglas con características para capturar las
relaciones entre los constituyentes:
S[features…] = NP[features…] VP[features…]
Extendiendo las CFGs

A través de características incluímos las ideas de relaciones
gramaticales y subcategorización
Morfología de la palabra:
Verbo[head=comer, tense=pasado, num=sing, person=3,…]  comió
Proyección de características a constituyentes superiores
VP[head=, tense=, num=…]  V[head=, tense=, num=…] NP
Concordancia entre constituyentes hermanos:
S[head=, tense=]  NP[num=,…] VP[head=, tense=, num=…]
Generando una frase
Verb[head=comer, tense=presente, num=sing, person=3,…]  comió
VP[head=, tense=, num=…]  V[head=, tense=, num=…] NP
S[head=, tense=]  NP[num=,…] VP[head=, tense=, num=…]
S
NP
VP
num=sing
num=sing
Verb
num=sing
NP
Mi hermano comío
comió una manzana
Analizando una frase
Verb[head=comer, tense=presente, num=sing, person=3,…]  comió
VP[head=, tense=, num=…]  V[head=, tense=, num=…] NP
S[head=, tense=]  NP[num=,…] VP[head=, tense=, num=…]
S
NP
VP
num=sing
num=sing
Verb
NP
Mi hermano comío
comió una manzana
 Infinidad de
características
(tense, number, person,
gaps, vowels, commas,
wh, etc., etc....)
él
ha
ido