Download CD 17 - Colección educ.ar
Document related concepts
Transcript
1 de 3 Otros programas complejos Los programas que agrupamos aquí utilizan las herramientas básicas del análisis gramatical para dar lugar a aplicaciones más sofisticadas. Entre ellas se cuentan los buscadores “inteligentes” de información y los resumidores automáticos. Buscadores “inteligentes” Otro campo importante que requiere insumos lingüísticos es el de los buscadores sofisticados, que combinan herramientas de búsqueda (simple coincidencia) y el análisis de elementos lingüísticos (semántico-pragmáticos y morfosintácticos). Los buscadores “borrosos” [fuzzy finders] permiten reconocer qué parte de la palabra o expresión solicitada es relevante y cuál no. Ello incluye despejar la parte no conceptual del pedido: por ejemplo, los verbos de acto de habla (e.g., quiero/ necesito/ dame documentos sobre...) o el “ruido” proveniente de las formas flexivas o derivativas (así, por ejemplo, se requiere una herramienta morfológica que permita relacionar una secuencia como comercio exterior con el paradigma verbalde comerciar o el uso nominal de exterior). Un ejemplo de este tipo de productos puede obtenerse en http://stilus.daedalus.es /demoIL.php?demo=busbor. Idealmente, los buscadores “inteligentes” deberían disponer de herramientas semánticas para reconocer expresiones sinónimas (en el caso anterior, por ejemplo, se podría ligar comercio exterior con expresiones como mercados externos o extranjeros, importaciones, exportaciones, etc.). El mismo tipo de análisis semántico se hace necesario, en combinación con traductores, para los buscadores multilingües que permiten expresar una búsqueda en una lengua determinada y localizar todos los documentos relevantes en diversas lenguas. Programas de resumen automático Los resumidores automáticos permiten extraer resúmenes de textos electrónicos de cualquier tipo (noticias de prensa, textos legislativos, documentos internos de empresas o instituciones, etc.). Los sistemas de resúmenes automáticos se usan también para resumir noticias para los formatos SMS de los teléfonos celulares o para presentar descripciones comprimidas de los resultados de una búsqueda en sistemas como Google, por ejemplo. Un ejemplo de este tipo de programas en internet se encuentra en: http://swesum.nada.kth.se/index-eng.html (la página está en inglés, pero realiza resúmenes de páginas web en diversos idiomas, entre ellos el español). Otro ejemplo de resumidor automático es el que se presenta en http://www.daedalus.es/docs/DAEDALUS- 2 de 3 RP-SEPLN_2003.pdf (para una demostración, puede consultarse http://stilus.daedalus.es /demoIL.php?demo=res). Allí se describe un sistema que consta de cinco módulos: análisis morfosintáctico, ponderación de oraciones, detección de anáforas, selección de oraciones y post-procesado del extracto. Las principales funciones de cada módulo son las siguientes: 1. Módulo de análisis morfosintáctico Este módulo determina la categoría léxica de cada palabra del texto de entrada (sustantivo, artículo, verbo, etc.), así como su lema y formantes. La categoría de las palabras permite distinguir entre palabras pertenecientes a clases abiertas (sustantivo, adjetivo, verbo) y cerradas (artículo, pronombre, preposición, etc.). El lema permite considerar como un único concepto todas las formas flexivas de una palabra. 2. Módulo de ponderación de frases Este módulo recibe como entrada el texto etiquetado por el módulo de análisis morfosintáctico y entrega a su salida una tabla con puntuaciones de las oraciones y una lista de oraciones candidatas a conservarse en el resumen. La puntuación de las oraciones se basa en la presencia de ciertos patrones o características superficiales: la frecuencia de aparición de ciertas palabras (con la hipótesis de que las palabras de clases abiertas que aparecen frecuentemente dentro del documento son relevantes, por lo que las oraciones que las contienen deberían serlo también), la presencia de palabras indicativas o meta-discurso (con pistas lingüísticas como importante, esencial, fundamental o para concluir), la inclusión de palabras del título (puesto que el título de un documento suele constituir el mejor resumen del mismo, funcionan como palabras clave), la presencia de nombres propios (con la hipótesis de que los párrafos relevantes suelen tener mayor densidad de nombres propios), la tipografía del texto (presencia de palabras en mayúsculas, negrita y subrayadas), la posición dentro del documento (considera en particular los párrafos iniciales y finales de un documento, además de las frases iniciales y finales de cada párrafo). Este módulo puede utilizar también información personalizada proporcionada por el usuario, que escribe una serie de “palabras clave” del texto que servirá para guiar el proceso de síntesis. 3. Módulo de detección de anáforas Si se realiza un resumen recortando y uniendo oraciones, es probable que el texto resultante no sea necesariamente coherente. Ello se constata, por ejemplo, cuando quedan anáforas sin resolver: una oración del extracto puede contener una anáfora cuyo referente se encuentra en una oración previa que no ha sido tomada para el resumen. Este módulo pretende paliar el problema buscando expresiones anafóricas, particularmente anáforas de demostrativos pronominales y el pronombre personal ello, que suelen utilizarse para hacer referencia a un elemento de una oración anterior. De este modo, se evalúa la necesidad de incluir oraciones adicionales en el resumen. 4. Módulo de selección de oraciones A partir de la información anterior y de la longitud deseada para el resumen, el módulo de selección de oraciones determina qué oraciones se incluirán en el resumen considerando la puntuación obtenida en el módulo de ponderación de frases, junto con el proceso de detección de anáforas. 3 de 3 5. Módulo de post-procesado del extracto Su objetivo es detectar expresiones que usualmente conectan unas partes del texto con otras, como por ejemplo: por consiguiente o sin embargo. La presencia de alguna de estas expresiones al comienzo de una oración indica una relación de dependencia con el texto anterior, ya sea causalidad, oposición, etc. El sistema es capaz de identificar varias centenas de expresiones al comienzo de las oraciones del resumen. En caso de encontrarlas en una oración, la acción tomada depende de que la oración inmediatamente anterior forme parte del extracto (en caso afirmativo se deja la frase tal cual; si no, se elimina la expresión).