Download Procesamiento Práctico del lenguaje Natural

Document related concepts

WordNet wikipedia , lookup

Desambiguación lingüística wikipedia , lookup

Elipsis (lingüística) wikipedia , lookup

Analizador sintáctico wikipedia , lookup

Traducción automática estadística wikipedia , lookup

Transcript
Procesamiento
Práctico
del lenguaje Natural
Capítulo XXIII
Introducción
Este capítulo mostrará qué tanto se
puede avanzar en el mundo del
wumpus mediante el empleo de
técnicas para el intercambio de la
comunicación
XXIII.I Aplicaciones Prácticas
Sistemas que emplean de manera satisfactoria
el lenguaje natural. Estos se concentran en:
Un dominio
Una tarea
Traducción automatizada
Acceso a una base de datos
Recuperación de información
Categorización de textos
Obtención de datos de un texto
Traducción automatizada
Para evitar significados distintos es necesario
conocer:
El idioma del texto original
Propiedades sintácticas de los mensajes
La situación que se esta comunicando
No es posible esperar resultados satisfactorios
en la traducción automatizada sin embargo
dicho traductor podrá acelerar, de dos a
cuatro veces, el trabajo de un traductor
monolingüe sin la necesidad de contar con
el texto original
Acceso a la base de datos
Para acceder a bases de datos que
emplean lenguaje natural es necesario
saber la manera de hacerlo. Las
consultas requieren cierto
conocimiento del diccionario de las
bases de datos
Existen interpretadores de texto para
poder acceder a la información de
dichas bases de datos
Recuperación de información
Consulta: un título y una serie de
palabras claves digitadas por el cliente
posiblemente conectadas por palabras
reservadas (“y”, “o”)
Estas se manejan como un vector de
términos y los documentos se ordenan
de acuerdo a la distancia a la consulta,
mostrándose primero los más
cercanos.
Categorización de textos
Consiste en la clasificación de textos
de acuerdo a diferentes categorías de
la información en las bases de datos
Estas categorías son fijas
Utilizadas generalmente para informes
noticiosos de distintas áreas
Obtención de datos de un texto
Consiste en la obtención de datos de
un texto en línea y deducir de éste
algunas características que se puedan
incorporar a una base de datos
estructurada
XXIII.II
Análisis Gramatical Eficiente
ÁRBOL DE ANÁLISIS
[0,5 S
FN FP ]
(complementador)
Borde incompleto
Borde completo
(Analizador)
(analizador)
[0,2 S
El
0
Símbolo de la gramática
FN FP]
agente
1
[2,5 FN
siente
2
una
3
Vértices
Verbo FP ]
brisa
4
5
Análisis Gramatical Eficiente
Analiza los distintos borde y los
clasifica
Inicializador
Predictor
Analizador
Complementador
Agrupa los distintos bordes
Permite indicar reglas
Empaquetamiento
Para reducir el árbol de análisis
Método:
1º-Modificar el COMPLEMENTADOR de
manera que guarde sus bordes hijos
en un nodo padre
2º- Buscar en la lista de los hijos para
reproducir el árbol
3º- Resolver casos de análisis ambiguos
XXIII.III
Ampliación del Diccionario
La comprensión de un texto consta de
los siguientes pasos
Caracterización
Análisis Morfológico
Consulta del Diccionario
Corrección de errores
Caracterización
Procedimiento mediante el cual la
entrada es fragmentada en diversos
elementos básicos
Palabras
Signos de puntuación
Es necesario determinar el idioma
porque existen diferentes reglas de
puntuación
Análisis Morfológico
El procedimiento consiste en definir una palabra
como prefijos, sufijos y raíces
 Morfología por inflexión: consiste en realizar
cambios en una palabra para adecuarla a un
tipo (ej. la “s” cuando se representa un sustantivo
en plural)
 Morfología por derivación: Consiste en crear
nuevas palabras a partir de otras para
determinar un nuevo tipo (ej. El paso de un
sustantivo a un adjetivo implica cambiar la palabra)
 Composición: Consiste en formar una nueva
palabra mediante la unión de otras dos (ej.
limpiabotas)
Consulta del diccionario
Cuando se buscan sustantivos que no
estén en singular o verbos que no
están en infinitivo es necesario acudir
al diccionario
Localiza en el diccionario una palabra
y entregar una definición
Ejemplo Walked. Generalmente no se
almacena esta palabra sino Walk.
Corrección de errores
Errores de dominio:
1º- Que una palabra no se encuentre en el
diccionario (ej. walked)
2º- Uso de mayúsculas que permiten suponer
que es un nombre propio
3º- Ciertos formatos que permiten identificar
una fecha, hora, numero de un seguro
social, etc.
Errores ortográficos:
4º- Localizar una palabra que se asemeje en
el diccionario a la palabra ingresada
XXIII.IV
Ampliación de la Gramática
Aposición: Conexión de dos frases
nominales entre si (ej. dos sustantivos)
Semántica de intersección: unión de
sustantivos y adjetivos (ej. Wumpus
oloroso )
Determinadores: Son los artículos (ej.
el, la, los, las, un, unos, una, unas)
Ampliación de la Gramática
Frases sustantivas: Reglas a las frases
nominales (ej. La regla de artículo +
sustantivo se actualiza cambiando el
artículo por un determinador e
incluyendo la concordancia de persona
y número)
Cláusulas de complemento: Existen
verbos cuyos complementos
representan cláusulas (frases
verbales)
Ampliación de la Gramática
Cláusulas relativas: Formadas por un
pronombre relativo seguido de una
oración que contenga un espacio vacio
FN (sitio donde deberá aparecer la FN
de encabezado para que la oración
quede completa)
Preguntas
si-no: La respuesta es un si o un no
Interrogativas: (comienzan con un
pronombre) La respuesta es una frase
nominal
XXIII.V Ambigüedad
Los métodos empleados para resolver la
ambigüedad se basan en:
Inferencia lógica
Redes de creencia
Modelos ocultos
Ejemplo: Comí espagueti, albóndigas y
ensalada)
Interpretación: (espagueti y albóndigas)
o (albóndigas y ensalada)
Evidencias
 Sintáctica: ¿Cómo determinar si un
adverbio afecta a un verbo o a otro dentro
de una frase? (ambigüedad que se
resuelve con la evidencia sintáctica)
 Léxica: Muchas palabras pueden tener
varios significador pero el sentido es
diferente (ambigüedad que se resuelve con
la evidencia léxica)
 Semántica: Es más importante la
probabilidad condicional de un contexto
que la probabilidad del sentido de la
palabra
Metonimia
 Consiste en usar un objeto para representar
a otro.
 Para interpretarla es necesario un alto nivel
de ambigüedad
 Hay que definir las clases de metonimia que
pueden presentarse para un objeto
Si el objeto literal y el objeto metonímico son
idénticos entonces no existe metonimia
Metáfora
Es una frase retórica en la cual se
emplea una frase con un determinado
sentido literal para dar a entender otro,
por medio de una analogía
Soluciones
Incorporar todo lo sabido de la
metáfora al diccionario y su sentido
correspondiente (palabra x palabra)
Incluir el conocimiento explícito de
metáforas comunes.
XXIII.VI
Comprensión del discurso
Discurso: es un texto con extensión
superior a una oración. En el figura la
percepción, el análisis, la
desambiguación y la desincorporación
BC’=DISCURSO-COMPRENSION(texto, BC)
BC: Base de conocimiento del escucha
BC’: Base de conocimiento del escucha
después de incorporar el teexto
Comprensión del discurso
Conocimiento:
 General del mundo
 General Sobre la estructura del discurso
coherente
 General Sobre la sintaxis y la semántica
 Específico sobre la situación de que esté
hablándose
 Específico sobre las creencias de los
personajes
 Específico sobre las creencias del hablante
Conclusión
La comunicación presenta numerosos
inconvenientes. Para que exista una
comunicación es necesario que lo que se
expresa sea interpretado y esto último es lo
que implica mayor trabajo.
Existen distintos métodos y estructuras para
volcar todo lo que se conoce en términos de
comunicación pero nunca es suficiente por las
infinitas formas de expresarse que tiene un
humano.
Si bien se han logrado avances importantes no
se puede hablar de una comunicación
absolutamente transparente con los sentidos
originales que el emisor quiere reflejar