Download CD 17 - Colección educ.ar

Document related concepts

Comprensión lectora wikipedia , lookup

Anáfora (gramática) wikipedia , lookup

Traducción automática estadística wikipedia , lookup

Análisis de sentimiento wikipedia , lookup

Semántica lingüística wikipedia , lookup

Transcript
1 de 3
Otros programas complejos
Los programas que agrupamos aquí utilizan las herramientas básicas del análisis
gramatical para dar lugar a aplicaciones más sofisticadas. Entre ellas se cuentan los
buscadores “inteligentes” de información y los resumidores automáticos.
Buscadores “inteligentes”
Otro campo importante que requiere insumos lingüísticos es el de los buscadores
sofisticados, que combinan herramientas de búsqueda (simple coincidencia) y el análisis
de elementos lingüísticos (semántico-pragmáticos y morfosintácticos). Los buscadores
“borrosos” [fuzzy finders] permiten reconocer qué parte de la palabra o expresión
solicitada es relevante y cuál no. Ello incluye despejar la parte no conceptual del pedido:
por ejemplo, los verbos de acto de habla (e.g., quiero/ necesito/ dame documentos
sobre...) o el “ruido” proveniente de las formas flexivas o derivativas (así, por ejemplo, se
requiere una herramienta morfológica que permita relacionar una secuencia como
comercio exterior con el paradigma verbalde comerciar o el uso nominal de exterior). Un
ejemplo de este tipo de productos puede obtenerse en http://stilus.daedalus.es
/demoIL.php?demo=busbor.
Idealmente, los buscadores “inteligentes” deberían disponer de herramientas semánticas
para reconocer expresiones sinónimas (en el caso anterior, por ejemplo, se podría ligar
comercio exterior con expresiones como mercados externos o extranjeros, importaciones,
exportaciones, etc.). El mismo tipo de análisis semántico se hace necesario, en
combinación con traductores, para los buscadores multilingües que permiten expresar
una búsqueda en una lengua determinada y localizar todos los documentos relevantes en
diversas lenguas.
Programas de resumen automático
Los resumidores automáticos permiten extraer resúmenes de textos electrónicos de
cualquier tipo (noticias de prensa, textos legislativos, documentos internos de empresas o
instituciones, etc.). Los sistemas de resúmenes automáticos se usan también para resumir
noticias para los formatos SMS de los teléfonos celulares o para presentar descripciones
comprimidas de los resultados de una búsqueda en sistemas como Google, por ejemplo.
Un ejemplo de este tipo de programas en internet se encuentra en:
http://swesum.nada.kth.se/index-eng.html (la página está en inglés, pero realiza
resúmenes de páginas web en diversos idiomas, entre ellos el español). Otro ejemplo de
resumidor automático es el que se presenta en http://www.daedalus.es/docs/DAEDALUS-
2 de 3
RP-SEPLN_2003.pdf (para una demostración, puede consultarse http://stilus.daedalus.es
/demoIL.php?demo=res). Allí se describe un sistema que consta de cinco módulos:
análisis morfosintáctico, ponderación de oraciones, detección de anáforas, selección de
oraciones y post-procesado del extracto. Las principales funciones de cada módulo son
las siguientes:
1. Módulo de análisis morfosintáctico
Este módulo determina la categoría léxica de cada palabra del texto de entrada (sustantivo,
artículo, verbo, etc.), así como su lema y formantes. La categoría de las palabras permite
distinguir entre palabras pertenecientes a clases abiertas (sustantivo, adjetivo, verbo) y
cerradas (artículo, pronombre, preposición, etc.). El lema permite considerar como un
único concepto todas las formas flexivas de una palabra.
2. Módulo de ponderación de frases
Este módulo recibe como entrada el texto etiquetado por el módulo de análisis
morfosintáctico y entrega a su salida una tabla con puntuaciones de las oraciones y una
lista de oraciones candidatas a conservarse en el resumen.
La puntuación de las oraciones se basa en la presencia de ciertos patrones o
características superficiales: la frecuencia de aparición de ciertas palabras (con la
hipótesis de que las palabras de clases abiertas que aparecen frecuentemente dentro del
documento son relevantes, por lo que las oraciones que las contienen deberían serlo
también), la presencia de palabras indicativas o meta-discurso (con pistas lingüísticas
como importante, esencial, fundamental o para concluir), la inclusión de palabras del título
(puesto que el título de un documento suele constituir el mejor resumen del mismo,
funcionan como palabras clave), la presencia de nombres propios (con la hipótesis de que
los párrafos relevantes suelen tener mayor densidad de nombres propios), la tipografía del
texto (presencia de palabras en mayúsculas, negrita y subrayadas), la posición dentro del
documento (considera en particular los párrafos iniciales y finales de un documento,
además de las frases iniciales y finales de cada párrafo). Este módulo puede utilizar
también información personalizada proporcionada por el usuario, que escribe una serie de
“palabras clave” del texto que servirá para guiar el proceso de síntesis.
3. Módulo de detección de anáforas
Si se realiza un resumen recortando y uniendo oraciones, es probable que el texto
resultante no sea necesariamente coherente. Ello se constata, por ejemplo, cuando quedan
anáforas sin resolver: una oración del extracto puede contener una anáfora cuyo referente
se encuentra en una oración previa que no ha sido tomada para el resumen.
Este módulo pretende paliar el problema buscando expresiones anafóricas,
particularmente anáforas de demostrativos pronominales y el pronombre personal ello,
que suelen utilizarse para hacer referencia a un elemento de una oración anterior. De este
modo, se evalúa la necesidad de incluir oraciones adicionales en el resumen.
4. Módulo de selección de oraciones
A partir de la información anterior y de la longitud deseada para el resumen, el módulo de
selección de oraciones determina qué oraciones se incluirán en el resumen considerando
la puntuación obtenida en el módulo de ponderación de frases, junto con el proceso de
detección de anáforas.
3 de 3
5. Módulo de post-procesado del extracto
Su objetivo es detectar expresiones que usualmente conectan unas partes del texto con
otras, como por ejemplo: por consiguiente o sin embargo. La presencia de alguna de estas
expresiones al comienzo de una oración indica una relación de dependencia con el texto
anterior, ya sea causalidad, oposición, etc. El sistema es capaz de identificar varias
centenas de expresiones al comienzo de las oraciones del resumen. En caso de
encontrarlas en una oración, la acción tomada depende de que la oración inmediatamente
anterior forme parte del extracto (en caso afirmativo se deja la frase tal cual; si no, se
elimina la expresión).