Download 4. Pruebas y validación del sistema.
Document related concepts
no text concepts found
Transcript
Capítulo 4. Pruebas y validación del sistema 4. Pruebas y validación del sistema. 4.1. Problemática del tildado en textos. 4.1.1. Introducción. El proyecto realizado por Azucena Jiménez1 nos permitía contar con una herramienta potente a la hora de depurar los textos en formato electrónico del diario El Mundo. Con las funciones que desarrolló como complemento a las ya existentes en la librería dicc, se puede procesar un elevado número de artículos de dicho periódico. Además, las cadenas de palabras que nos van proporcionando se encuentran ya depuradas: se han eliminado las cabeceras, titulares, firmas, etc. que vienen asociadas a lo que es el texto de la noticia en sí. También se limpiaban los textos de todo tipo de siglas, acrónimos, números romanos, abreviaturas, etc. Nosotros tuvimos que adaptar ligeramente dichas funciones a nuestras necesidades. Las funciones de búsquedas en diccionarios estaban pensadas para que dos palabras que tan sólo se diferenciasen por la posición de la tilde se consideraran distintas. Nuestro propósito consistía en procesar las palabras del texto de las noticias, realizar la búsqueda en diccionario y devolver los resultados de la misma. Pero la búsqueda tenía que realizarse sin tener en cuenta la tilde: dos palabras que sean iguales 1 [JIM99] 98 Capítulo 4. Pruebas y validación del sistema salvo porque se diferencian en la posición de la tilde, para nuestro estudio son la misma palabra. Para ser más exactos, las consideramos variantes de la misma palabra ambigua. Éste es el concepto principal en nuestro procesado de los textos de El Mundo. Pero nuestro propósito no consistió únicamente en la obtención de estas palabras ambiguas, que después intentarían resolverse con el sistema MBL implementado. Adicionalmente, en algunos casos puntuales, se intentó la resolución del tildado mediante la aplicación de reglas. Por ejemplo, para las palabras no encontradas en ninguno de los diccionarios, se analizó que muchas de las palabras con misma terminación tenían la misma forma de tildarse. Por tanto, para estas palabras no encontradas se realizaron pruebas de tildado mediante el análisis de sus terminaciones. 4.1.2. Palabras ambiguas. La palabra ambigua es una estructura que se definió para que contuviese toda la información necesaria sobre la problemática que origina el hecho de que el tildado de la misma no se pueda determinar mediante una búsqueda simple en diccionarios. Se compone fundamentalmente de: • La primera y más importante, es la posición de la tilde. Si no fuese porque este campo varía dentro de una palabra ambigua, ésta no sería tal. • La categoría de la palabra ambigua cuando la tilde se encuentra en una posición determinada. Puede ocurrir que la categoría de la palabra sea la misma aun cuando la posición de la tilde es distinta en cada uno de los casos. A nosotros nos interesarán especialmente aquellos casos en los que la categoría que tiene la palabra con la tilde en una posición es única y distinta de la que tiene si la tilde se encuentra en otra posición. De esta forma, a través del conocimiento de la categoría, seríamos capaces de determinar el tildado de la palabra. 99 Capítulo 4. Pruebas y validación del sistema • La palabra encontrada en los diccionarios, y que supondrá una variante de la palabra ambigua. Las palabras que se van leyendo de los textos de El Mundo se buscan en una serie de diccionarios, que se detallarán en un anexo posterior. Se guardan todas las variantes que se vayan encontrando de una palabra, que quedan almacenadas en este campo. • Un campo totalmente informativo es el diccionario en el que se ha encontrado esa variante de la palabra ambigua. Se puede haber encontrado en cualquiera de los diccionarios empleados. • Para el caso de los verbos, se almacena también el nombre del supuesto infinitivo del verbo. La forma de buscar una palabra que puede ser un tiempo verbal es la siguiente: se le elimina la terminación, y con la raíz se intenta reconstruir el infinitivo del verbo. Si ésta reconstrucción se encuentra en alguno de los diccionarios de infinitivos, se considera la palabra como un verbo. Pero a veces esta estimación puede ser errónea, por lo que es conveniente almacenar el supuesto infinitivo del verbo en cuestión. Si se ha cometido un error, se suele apreciar fácilmente porque el infinitivo generado no suele tener relación con la supuesta forma verbal. Todas las palabras ambiguas eran volcadas a fichero. En un principio todas iban al mismo. Pero tras sucesivos análisis de los resultados obtenidos, se fueron separando según las tipologías en distintos ficheros. El formato de todos los ficheros de ambigüedades que se generan es el mismo (ficheros con extensión .rpt). Cada línea se corresponde con una palabra ambigua en su tildado, dentro de uno de los tipos preestablecidos. El formato de cada línea es el siguiente (con cada campo separado por un espacio en blanco): palabra en estudio, trío de palabras que forman el contexto (anterior, central, posterior), primera posición de la tilde dentro de la palabra encontrada (si es 0, no está tildada), categorías de la palabra con esa posición de tilde, segunda posición de tilde y sus categorías, etc. Las formato de las categorías es el mismo que el de los textos 860. 100 Capítulo 4. Pruebas y validación del sistema 4.1.2.1. Tipología. A continuación se enumeran los distintos tipos de ambigüedades a los que se ha llegado. Hay que tener en cuenta que la selección de los tipos se hacía de manera secuencial, en el orden en el que se van a enumerar. Es decir, que si una palabra ambigua se ha enmarcado dentro de un tipo, es porque se ha visto que cumplía las condiciones que se tenían que dar en las palabras de dicho tipo. Pero eso no quiere decir que no pudiesen cumplir también los requisitos para estar dentro de otra tipología posterior. Para cada tipo de ambigüedad se muestra un ejemplo de los distintos ficheros de ambigüedades obtenidos. Los tipos que se han tratado son los siguientes: • Ambigüedad VERBO_NOMBRE_VERBO: se observó que se producía este caso particular de la ambigüedad VERBO_NOMBRE y se decidió considerarlo aparte. Se presenta cuando una palabra tiene la tilde en una determinada posición cuando es un tiempo verbal o un nombre, y en otra cuando se trata de otro tiempo verbal. pasé sangre pasé secuestro velas anunció documento serie calle apoyo silencio título anticipo • Escándalo pasé día 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## la sangre » 6 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F## los pasé a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## del secuestro encanecida 0 V..01I.0.. N00##S.M## 9 V..41H.0.. utilizaba velas para 0 V..01U.0.. V..01H.0.. V..02U.0.. N00##P.F## 2 V..01H.0.. , anunció ayer 0 V..01I.0.. N00##S.M## 7 V..41H.0.. un documento interno 0 V..01I.0.. N00##S.M## 9 V..41H.0.. una serie de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F## la calle » 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F## con apoyo del 0 V..01I.0.. N00##S.M## 5 V..41H.0.. su silencio , 0 V..01I.0.. N00##S.M## 8 V..41H.0.. ellas título de 2 V..01I.0.. V..41H.0.. N00##S.M## 6 V0841H.0.. su anticipo mortuorio 0 V..01I.0.. N00##S.M## 8 V..41H.0.. Ambigüedad VERBO_NOMBRE: cuando nos encontramos con una palabra ambigua que puede ser verbo o nombre según la posición que ocupe la tilde, se incluye en este tipo. 101 Capítulo 4. Pruebas y validación del sistema tenías tenía mentira colegio mentira venía Venía interprete • no tenías siquiera 4 V..03W.0.. 0 N00##P.F## no tenía nada 4 V..03U.0.. V..03H.0.. V..03Y.0.. V0881..0.. 0 N00##S.F## era mentira podrida 7 V..83I.0.. 0 N00##S.F## en colegio público 6 V..41I.0.. 0 N00##P.M## una mentira plural 7 V..83I.0.. 0 N00##S.F## política venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F## Venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F## abertzale interprete cuál 10 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. 4 N00##S.N## N00##S.M## Ambigüedad VERBO_ADJETIVO_VERBO: análogamente a lo ya comentado en el primer tipo, se observó que se producía este caso particular de la ambigüedad VERBO_ADJETIVO y se decidió considerarlo aparte. Se presenta cuando una palabra tiene la tilde en una determinada posición cuando es un tiempo verbal o un adjetivo, y en otra cuando se trata de otro tiempo verbal. público pública turbio doble turbio secreto ambiente previo frecuente firme firme • orden público y 2 V..41H.0.. V..03T.0.. V..A3H.0.. A11..S.M## 7 V0841H.0.. televisión pública , 2 V..02U.0.. V..83U.0.. V..02T.0.. A11..S.F## 0 V0802U.0.. Un turbio asunto 0 V..01I.0.. A11..S.M## 6 V..41H.0.. un doble fraude 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N## al turbio trato 0 V..01I.0.. A11..S.M## 6 V..41H.0.. el secreto del 0 V..01I.0.. A11..S.M## 7 V..41H.0.. el ambiente previo 8 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N## ambiente previo a 0 V..41H.0.. A11..S.M## 6 V0841H.0.. - frecuente secuela 9 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N## ponen firme firme 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N## puesto firme : 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N## Ambigüedad VERBO_ADJETIVO: se trata del caso en el que nos encontramos con una palabra ambigua que puede ser verbo o adjetivo según la posición que ocupe la tilde. sería primarias obvio critica publica sería medios solicitó continuó indicó indicó indicó criticó medios medios • eso sería « 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F## las primarias de 7 V..04U.0.. 0 A11..P.F## Es obvio que 4 V..01I.0.. 5 V..A3H.0.. 0 A11..S.M## texto critica expresamente 0 V..02U.0.. V..83U.0.. 3 A11..S.F## hoy publica EL 0 V..02U.0.. V..83U.0.. 2 A11..S.F## porque sería muy 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F## los medios de 4 V..41I.0.. 0 A12##P.M## Gobierno solicitó ayer 0 V..01I.0.. 8 V..41H.0.. 4 A11..S.M## que continuó en 7 V..01I.0.. 8 V..A3H.0.. V0841H.0.. 0 A11..S.M## , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M## , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M## , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M## Maturana criticó « 7 V..41H.0.. 0 V..03T.0.. 3 A11..S.M## los medios de 4 V..41I.0.. 0 A12##P.M## los medios de 4 V..41I.0.. 0 A12##P.M## Ambigüedad VERBO_VERBO: en este caso dos palabras se diferencian en el tildado por ser dos tiempos verbales distintos. 102 Capítulo 4. Pruebas y validación del sistema explicó llegó completarán llegó eché traté ocupe realizará cree protagonizó contribuyó contestó aplazaran motorizó • Klerk explicó que 7 V..41H.0.. 0 V..03T.0.. , llegó al 0 V..03I0.. V..03T.0.. 5 V..41H.0.. pocos completarán su 10 V..A1T.0.. 0 V..83T.0.. día llegó una 0 V..03I0.. V..03T.0.. 5 V..41H.0.. Me eché a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. y traté de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. se ocupe de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. que realizará el 9 V..02W.0.. V08A1H.0.. 0 V..02U.0.. V..02H.0.. V..02Y.0.. V0883..0.. , cree que 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. V..41W.0.. V..A3H.0.. V0802U.0.. Feliu protagonizó ayer 0 V..01I.0.. 11 V..41H.0.. secuestro contribuyó a 0 V..01I.0.. 10 V..41H.0.. que contestó lo 0 V..01I.0.. 8 V..41H.0.. se aplazaran las 8 V..G.N.0.. 0 V..01U.0.. se motorizó , 0 V..01I.0.. 8 V..41H.0.. Ambigüedad VERBO_NOMBRE_ADJETIVO: con los tipos que vienen a continuación ya no se es tan selectivo. Simplemente basta con que tengan las categorías a las que hace referencia el nombre y estén asociadas a posiciones de tilde distintas. interno caso terció caso interno pagó baja interno presente • documento interno que 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0.. el caso de 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0.. gasolinera terció : 0 V..01I.0.. N00##S.M## A11..S.M## 6 V..41H.0.. el caso requería 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0.. documento interno elaborado 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0.. y pagó ) 0 V..03I0.. V..03T.0.. N00##S.M## V0801I.0.. A11..S.M## 4 V..41H.0.. se baja los 0 V..01H.0.. V..02U.0.. A11..S.F## 4 N00##S.M## funcionamiento interno y 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0.. estar presente a 8 V..41I.0.. 0 V..034.0.. V..03T.0.. N00##S.M## A11..S.N## Ambigüedad ADJETIVO_ADJETIVO: para todas las distintas posiciones de la tilde nos encontramos ante adjetivos. cardíacos cardíaca austriacos austriacas cardiacos dionisiaca • masajes cardíacos , actividad cardíaca hasta laboriosos austriacos para enfermeras austriacas que ( cardiacos , masa dionisiaca y 5 5 0 0 5 0 A11..P.M## A11..S.F## A11..P.M## A11..P.F## A11..P.M## A11..S.F## 0 0 6 6 0 7 A11..P.M## A11..S.F## A11..P.M## A11..P.F## A11..P.M## A11..S.F## Ambigüedad NOMBRE_NOMBRE: de forma análoga con los nombres. plató cóctel chófer carné parque periodos fútbol carné plato cartel cartel carne el plató de 5 N00##S.M## un cóctel molotov de chófer junto un carné de 5 N00##S.M## y parque eventual los periodos de del fútbol que su carné español metiendo plato » el cartel de 0 N00##S.M## de cartel , 0 N00##S.M## de carne o 5 N00##S.M## 0 2 3 0 0 4 2 5 5 2 2 0 N00##S.M## N00##S.M## N00##S.M## N00##S.F## N00##S.M## N00##P.M## N00##S.M## N00##S.M## N00##S.M## N00##S.M## N00##S.M## N00##S.F## 0 N00##S.M## 0 N00##S.M## 6 0 0 0 0 N00##S.M## N00##P.M## N00##S.M## N00##S.F## N00##S.M## 103 Capítulo 4. Pruebas y validación del sistema • Ambigüedad NOMBRE_ADJETIVO: para distintas posiciones de tilde aparecen (únicamente) nombres y adjetivos. leones leonés inglés danés inglés austriaco inglés austriaco tácita • los leones el 0 N00##P.M## 5 A11..P.M## el leonés Jaime 0 N00##P.M## 5 A11..P.M## en inglés , 5 A11..S.M## A11..P.M## 0 N00##P.F## Ministerio danés de 4 A11..S.M## A11..P.M## 0 N00##P.M## en inglés de 5 A11..S.M## A11..P.M## 0 N00##P.F## al austriaco Thomas 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M## delantero inglés Alan 5 A11..S.M## A11..P.M## 0 N00##P.F## piloto austriaco Roland 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M## , tácita o 2 A11..S.F## 0 N00##S.F## Ambigüedad CONJ_OTROS: para distintas posiciones de la tilde aparece una conjunción y cualquier otra categoría. porque porque porque porque porque porque porque porque porque porque Porque porque Porque porque porque • Ambigüedad PREP_OTROS: análogamente para preposiciones. sobre entre entre hacía sobre bajo entre entre • - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M## - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M## dimite porque eso 0 C09##N.0## 6 R22##S.M## N00##S.M## protestado porque , 0 C09##N.0## 6 R22##S.M## N00##S.M## , porque recuerdan 0 C09##N.0## 6 R22##S.M## N00##S.M## ocurrido porque son 0 C09##N.0## 6 R22##S.M## N00##S.M## , porque la 0 C09##N.0## 6 R22##S.M## N00##S.M## equivocada porque toda 0 C09##N.0## 6 R22##S.M## N00##S.M## es porque las 0 C09##N.0## 6 R22##S.M## N00##S.M## , porque no 0 C09##N.0## 6 R22##S.M## N00##S.M## Porque si 0 C09##N.0## 6 R22##S.M## N00##S.M## dimito porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M## Porque la 0 C09##N.0## 6 R22##S.M## N00##S.M## va porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M## acepte porque de 0 C09##N.0## 6 R22##S.M## N00##S.M## advirtió sobre las 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0## frontera entre ambas 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0## , entre los 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0## se hacía manifiesta 4 V..81I.0.. V..81H.0.. 0 P00##N.0## especulaciones sobre la 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0## transparentes bajo el 0 V..01I.0.. N00##S.M## P00##N.0## B00..N.0## A11..S.M## 4 V..41H.0.. editorialista entre el 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0## , entre otras 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0## Ambigüedad DEMOST_OTROS: en este tipo se encuadran las palabras ambiguas que presentan cualquier tipo de categoría junto a un demostrativo, ya sea adjetivo o pronombre. Para ello nos servimos de los formatos de las categorías 860 (ver anexo posterior), que nos ayudan a distinguirlas. Un adjetivo demostrativo viene representado por A08 en las tres primeras posiciones: “A08.....”. Y un pronombre demostrativo, por R11: “R11.....”. 104 Capítulo 4. Pruebas y validación del sistema esta este Esta este este está esta éste este estas esta este está esta esta • recuperar esta iniciativa 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## , este canal 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## : Esta vieja 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## « este proyecto 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## de este año 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## No está mal 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## recurrido esta vez 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## Si éste se 4 V..03I.0.. 1 V..A3I.0.. V..G.N.0.. R11##S.M## 0 V2901H.0.. R11##S.M## A11..N.N## aplicar este sistema 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## de estas severas 4 V..01U.0.. 1 R11##P.F## 0 A08##P.F## R11##P.F## Es esta clase 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## en este que 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## democracia está muy 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## qué esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## claramente esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F## 1 R11##S.M## 1 R11##S.M## 1 R11##S.M## A08##S.M## N00##S.M## 1 R11##S.M## 1 R11##S.M## Ambigüedad PRONOMBRE_OTROS: este tipo se creó para analizar las ambigüedades de los pronombres (en el caso de que no hayan sido clasificadas ya en alguno de los tipos anteriores). segundo varias segundo varias varias segundo varias segundo segundo segundo segundo • lejano segundo puesto 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. durante varias semanas 4 V..01U.0.. 0 R14##P.F## A11..P.F## un segundo plano 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. dio varias claves 4 V..01U.0.. 0 R14##P.F## A11..P.F## en varias ocasiones 4 V..01U.0.. 0 R14##P.F## A11..P.F## el segundo para 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. de varias horas 4 V..01U.0.. 0 R14##P.F## A11..P.F## En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. distante segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. el segundo político 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0.. Ambigüedad OTROS: tipo que recoge todo lo que no ha sido seleccionado anteriormente. estrictamente jamás periódicamente jamás jamás únicamente únicamente únicamente jamás estrictamente alias únicamente jamás cumpliendo estrictamente con 0 B03..N.0## 5 B03..N.0## Israel jamás cedería 0 V..01U.0.. 4 B01..N.0## B21..S.N## reiteraba periódicamente por 0 B03..N.0## 5 B01..N.0## comercial jamás visto 0 V..01U.0.. 4 B01..N.0## B21..S.N## que jamás hubiera 0 V..01U.0.. 4 B01..N.0## B21..S.N## general únicamente por 1 B03..N.0## 0 B03..N.N## era únicamente la 1 B03..N.0## 0 B03..N.N## servido únicamente para 1 B03..N.0## 0 B03..N.N## « jamás veían 0 V..01U.0.. 4 B01..N.0## B21..S.N## razones estrictamente impositivas 0 B03..N.0## 5 B03..N.0## , alias « 3 V..01U.0.. 0 B21..S.N## cantar únicamente en 1 B03..N.0## 0 B03..N.N## Nunca jamás he 0 V..01U.0.. 4 B01..N.0## B21..S.N## 105 Capítulo 4. Pruebas y validación del sistema 4.1.2.2. Palabras diacríticas. Las palabras diacríticas son aquellas que llevan la acentuación siempre en la misma sílaba, independientemente de que estén o no tildadas. Por tanto, si la acentuación es siempre la misma, no sería, en principio, necesario procesar estas palabras, ya que el problema del presente proyecto se centra en el correcto tildado de las palabras, pero orientado a que un sintetizador de voz conozca sin error la acentuación. Debido a que las comparaciones entre palabras las realizamos siempre sin tener en cuenta la tilde, las diacríticas se dejaron todas sin tilde en el diccionario de palabras diacríticas. En dicho diccionario, se realiza una primera búsqueda al comienzo de la clasificación, para determinar si una palabra es diacrítica. A este diccionario se le añadieron palabras que, sin ser diacríticas, aparecían en los textos del diario tildadas o no tildadas con las mismas características de éstas, sin serlo (o, incluida,...). Las palabras que, por tanto, no se procesan por ser diacríticas (o por aparecer con un tildado no influyente en la acentuación de la palabras) son: adonde aquel aquella aquellas aquello aquellos cual cuales cuanta cuantas cuanto cuantos de donde esa ese eses eso esas esos esto estos incluida incluido incluidas incluidos o periodo si solo Pero algunas de estas palabras, si bien siempre llevan la acentuación en la misma sílaba, no poseen la misma entonación llevando y no llevando tilde. Por tanto, era importante el conocimiento de dicho dato. Se decidió considerarlas como otro tipo más de ambigüedad, siendo seleccionadas estas palabras antes de comenzar la selección de tipos de ambigüedades explicada anteriormente. A estas palabras se las conoce dentro del código como diac_tildes, y son las siguientes: 106 Capítulo 4. Pruebas y validación del sistema • aun/aún • el/él • mas/más • mi/mí • se/sé • te/té • tu/tú Una muestra del fichero generado para estas palabras diacríticas cuya tilde sí nos interesa conocer es el siguiente: el el El el el El El el el El se el se se el sufrieron el miércoles 0 N00##S.M## D00##S.M## 1 R00##H.M## quemarme el vello 0 N00##S.M## D00##S.M## 1 R00##H.M## El presidente 0 N00##S.M## D00##S.M## 1 R00##H.M## , el mantenimiento 0 N00##S.M## D00##S.M## 1 R00##H.M## » el 27 0 N00##S.M## D00##S.M## 1 R00##H.M## El primer 0 N00##S.M## D00##S.M## 1 R00##H.M## El documento 0 N00##S.M## D00##S.M## 1 R00##H.M## elaborado el pasado 0 N00##S.M## D00##S.M## 1 R00##H.M## por el dirigente 0 N00##S.M## D00##S.M## 1 R00##H.M## El balance 0 N00##S.M## D00##S.M## 1 R00##H.M## , se mantiene 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N## mantiene el nivel 0 N00##S.M## D00##S.M## 1 R00##H.M## no se contabiliza 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N## no se declara 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N## incumple el sistema 0 N00##S.M## D00##S.M## 1 R00##H.M## 4.1.2.3. Palabras interrogativas. Otro estudio separado merecían las palabras interrogativas. Éstas mantienen algunas características comunes entre sí, por las que en el caso de encontrarse en un contexto de frase interrogativa llevarían tilde. Por tanto, también antes de determinar si la palabra pertenece a alguno de los tipos de ambigüedad ya descritos, se comprueba si se trata de una de estas palabras, y si es así, se extraen a un fichero aparte. Las palabras que nos ha interesado tratar dentro de esta tipología de interrogativas son las siguientes: • que/qué • como/cómo 107 Capítulo 4. Pruebas y validación del sistema • cuando/cuándo • quien/quién • quienes/quiénes Un ejemplo del fichero de ambigüedades para estas palabras interrogativas se muestra a continuación. Estas palabras serán posteriormente tratadas por el MBL de manera individualizada: entrenará sólo con una de estas palabras para posteriormente evaluar sólo esa misma palabra. que que que que que Como que que quién como que que que que que Administración que incumple 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## , que es 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## , que « 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## , que en 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## popular que llena 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## Como en 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0## sabían que no 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## Ahora que la 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## ¿ quién diablos 0 R14##S.N## 4 R14##S.N## , como pereciente 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0## tendrían que recuperar 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## Aquella que , 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## saber que el 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## Y que ellos 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## puesto que lo 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N## 4.2. Búsqueda en diccionarios. Para realizar un estudio sobre el correcto tildado de las palabras, se pensó que primero se debía realizar un filtrado de las mismas. Las palabras que tienen una única posición para la tilde (bien porque nunca se tilden, bien porque si lo hacen, la posición de ésta sea siempre la misma) no son palabras que nos presenten mayor dificultad. Si tenemos en cuenta que disponemos de una importante cantidad de información almacenada en forma de diccionarios, la simple búsqueda de dichas palabras no conflictivas (por no presentar ambigüedad respecto a la posición de la tilde) en los diccionarios, nos puede resultar suficiente para conocer el correcto tildado de las mismas. 108 Capítulo 4. Pruebas y validación del sistema Los distintos diccionarios que se han empleado en estas tareas serán descritos en un anexo posterior. Aquí tan sólo mencionaremos que entre ellos se encuentra el diccionario de la Real Academia Española, el diccionario de los textos 860, un diccionario de nombre propios, de siglas, abreviaturas, etc. No todas las palabras leídas de los textos de El Mundo son procesadas. En primer lugar, las palabras leídas son filtradas haciendo uso de las funciones de la librería dicc para eliminar todas aquellas que pertenezcan a cabeceras de noticias, pies de página, firmas, etc. Una vez dichas funciones nos entregan únicamente las palabras que pertenecen al cuerpo de una noticia, nosotros comprobamos si esa palabra es diacrítica de las que no deben ser procesadas. Si no es así, se observa si se trata de una de las palabras diacríticas de las que sí nos interesa conocer la tilde, y en caso afirmativo, se procesa como tal. Si no, se comprueba si es una de las palabras que hemos considerado como interrogativas. Para estas tres comprobaciones anteriores, se crearon los diccionarios respectivos con las palabras de cada tipo, y se cargaron en memora al comienzo de la ejecución junto a los demás. Para realizar estas comprobaciones se empleaba también la función de búsqueda en diccionarios SuperBuscaPalabra2, modificada para nuestros propósitos. Si no nos encontrábamos ante ninguno de estos tres casos, entonces se realizaba la búsqueda en todos los diccionarios cargados, sin tener en cuenta la tilde, y se iba creando para cada palabra su estructura PalabraAmbigua, para ir almacenando toda la información relativa a las posiciones de tilde encontradas para esa palabra, y todas las posibles categorías asociadas a cada posición de la tilde, en el caso de que la palabra fuese ambigua. Por supuesto, la situación óptima para nuestros propósitos era que la palabra buscada fuese encontrada en alguno de los diccionarios, y que no poseyera ningún tipo de ambigüedad respecto a la posición de la tilde. Pero esto no ocurría en un número importante de los casos. Incluso, existía la posibilidad de que no se encontraran en ninguno de los diccionarios. Estas palabras que calificamos como palabras no encontradas, fueron volcadas a un fichero distinto, para ver si se las podía realizar algún tipo de tratamiento. 109 Capítulo 4. Pruebas y validación del sistema Hay que tener cuenta que el hecho de encontrar una palabra en los diccionarios, y que ésta no presente ningún tipo de ambigüedad, no implica que obligatoriamente se haya acertado en la resolución de su tildado al considerar como solución buena la que figura en los diccionarios. Puede ocurrir, aunque con una probabilidad muy baja, que se falle en ese dictamen. A esos casos les hemos dado el nombre de palabras encontradas no ambiguas erradas. 4.2.1. Palabras no encontradas. Con las palabras que no eran encontradas en ninguno de los diccionarios, se pensó en la posibilidad de aplicar algún tipo de regla que permitiese predecir su tildado. Se observó que las terminaciones o sufijos de las palabras podían ser determinantes a la hora de estimar su acentuación: existen terminaciones para las que casi siempre la acentuación de la palabra es la misma (aguda, llana o esdrújula). Por tanto, para las palabras no encontradas, se examinó la terminación de las mismas, y si coincidía con alguna de las que habíamos estudiado, se acentuaba la palabra según el modo o tipo de acentuación asociado a cada terminación. Las reglas se aplican a palabras poco comunes, de ahí que con pocas reglas cubramos una amplio abanico de ellas, debido a que contamos con diccionarios grandes. El hecho de que estas palabras no estén en los diccionarios indica que se usan menos, y por tanto son más regulares. Suelen ser palabras raras inventadas, derivadas de otras. Las palabras más irregulares, o excepciones a las reglas, ya se encuentran en los diccionarios. Las terminaciones que se emplearon, junto con los tipos de acentuación asociados, se pueden apreciar en la Figura 4.1., donde se muestra la variable enumerada term_acent_fija. Para realizar estas comprobaciones se crearon una serie de funciones nuevas. La función EsTerminAcentConocida devuelve si la palabra termina o no con alguno de los sufijos expresados en la figura. En caso afirmativo, rellena la variable global acentuacion_term_palabra con la acentuación asociada a dicha 110 Capítulo 4. Pruebas y validación del sistema terminación, para que después, mediante la función AcentuaPalabraSegunTerminacion, la palabra se acentúe como tal estimación, y, si es pertinente, se tilde. TTerminacion_acent term_acent_fija[] = { {"acion",AGUDA}, {"idad",AGUDA}, {"idades",LLANA}, {"ante",LLANA}, {"antes",LLANA}, {"oria",LLANA}, {"orio",LLANA}, {"orios",LLANA}, {"orias",LLANA}, {"ista",LLANA}, {"istas",LLANA}, {"ivo",LLANA}, {"iva",LLANA}, {"ivos",LLANA}, {"ivas",LLANA}, {"escas",LLANA}, {"esco",LLANA}, {"escos",LLANA}, {"acia",LLANA}, {"acias",LLANA}, {"ismo",LLANA}, {"ismos",LLANA}, {"ente",LLANA}, {"entes",LLANA}, {"izar",AGUDA}, {"grama",LLANA}, {"um",LLANA}, {"ez",AGUDA}, {"ito",LLANA}, {"itos",LLANA}, {"ita",LLANA}, {"itas",LLANA}, {"ado",LLANA}, {"ada",LLANA}, {"ados",LLANA}, {"adas",LLANA}, {"dad",AGUDA}, {"dades",LLANA}, {"ancia",LLANA}, {"ancias",LLANA}, {"ador",AGUDA}, {"adora",LLANA}, {"adores",LLANA}, {"adoras",LLANA}, {"ora",LLANA}, {"oras",LLANA}, {"eses",LLANA}, {"illo",LLANA}, {"illos",LLANA}, {"illa",LLANA}, {"illas",LLANA}, {"isimo",ESDRUJULA}, {"isima",ESDRUJULA}, {"isimos",ESDRUJULA}, {"isimas",ESDRUJULA}, {"iendo",LLANA}, {"ando",LLANA}, {"oide",LLANA}, {"oides",LLANA}, {"ing",LLANA}, {"arlo",LLANA}, {"arlos",LLANA}, {"arla",LLANA}, {"arlas",LLANA}, {"oso",LLANA}, {"osos",LLANA}, {"osa",LLANA}, {"osas",LLANA}, {"encia",LLANA}, {"encias",LLANA}, {"ano",LLANA}, {"ana",LLANA}, {"ane",LLANA}, {"anos",LLANA}, {"anas",LLANA}, {"anes",LLANA}, {"ensa",LLANA}, {"enso",LLANA}, {"ensas",LLANA}, {"ensos",LLANA}, {"ento",LLANA}, {"entos",LLANA}, {"arse",LLANA}, {"erse",LLANA}, {"irse",LLANA}, {"ible",LLANA}, {"ibles",LLANA}, {"able",LLANA}, {"ables",LLANA}, {"on",AGUDA}, {"ones",LLANA}, {"ona",LLANA}, {"onas",LLANA}, {"ial",AGUDA}, {"iales",LLANA}, {"iento",LLANA}, {"ientos",LLANA}, {"istica",ESDRUJULA}, {"istico",ESDRUJULA}, {"isticos",ESDRUJULA}, {"isticas",ESDRUJULA}, {"ogico",ESDRUJULA}, {"ogicos",ESDRUJULA}, {"ogica",ESDRUJULA}, {"ogicas",ESDRUJULA}, {"ico",LLANA}, {"ica",LLANA}, {"icos",LLANA}, {"icas",LLANA}, {"enta",LLANA}, {"anza",LLANA}, {"anzas",LLANA}, {"ero",LLANA}, {"era",LLANA}, {"eros",LLANA}, {"eras",LLANA}, {"or",AGUDA}, {"ores",LLANA}, {"eiro",LLANA}, {"eira",LLANA}, {"eiros",LLANA}, {"eiras",LLANA}, {"inyo",LLANA}, {"inya",LLANA}, {"inyos",LLANA}, {"inyas",LLANA}, {"ete",LLANA}, {"etes",LLANA}, {"ette",LLANA}, {"ettes",LLANA}, {"allo",LLANA}, {"allos",LLANA}, {"alla",LLANA}, {"allas",LLANA}, {"ar",AGUDA}, {"er",AGUDA}, {"ir",AGUDA}, {"ares",LLANA}, {"oj",AGUDA}, {"ojs",AGUDA}, {"itis",LLANA}, {"erte",LLANA}, {"erlo",LLANA}, {"izan",LLANA}, {"iza",LLANA}, {""} }; Figura 4.1. Terminaciones con acentuación conocida. Los resultados obtenidos con esta estrategia, que se detallarán en apartados posteriores, son bastante exitosos, alcanzando una tasa de acierto en la predicción del tildado del 98%. También hay que decir que de las palabras no encontradas, sólo el 54% posee alguna de estas terminaciones. Para aumentar ese porcentaje se deberían añadir más terminaciones a esta lista. 111 Capítulo 4. Pruebas y validación del sistema 4.2.2. Estructura de la clasificación. A continuación se van a exponer de manera gráfica los distintos pasos por los que va pasando una palabra que ya ha sido filtrada como palabra perteneciente al cuerpo de la noticia. Es importante tener clara la probabilidad con la que nos podemos encontrar en cada opción, pues también contribuye a la tasa de acierto total del sistema. Es decir, al realizar la búsqueda en diccionarios ya estamos acertando con algunas de ellas; y con las que no lo hacemos, posteriormente se aplicarán las técnicas MBL o reglas para mejorar estas estadísticas. En la Figura 4.2. se pueden apreciar las distintas decisiones que se van tomando tras la búsqueda de una palabra en los diccionarios. PALABRAS DEL CUERPO DE LOS TEXTOS ¿Es diacrítica? SI No se procesa NO ¿Es diac_tilde o interrogativa? SI diac_tildes.rpt interrogativas.rpt NO Búsqueda en diccionarios Tipos de ambigüedades: *.rpt Ambigua ¿Encontrada? SI Diacríticas-tilde: diac_tildes.rpt Interrogativas: interrogativas.rpt Erradas: erradas.rpt No Ambigua Acertadas NO ¿Terminación conocida? NO SI EXITO Erradas: term_erradas.rpt no_encon_term.rpt Acertadas Palabras no encontradas sin terminación conocida: no_encon.rpt Figura 4.2. Búsqueda en diccionarios y clasificación. 112 Capítulo 4. Pruebas y validación del sistema La aplicación genera varios ficheros de extensión .rpt, aparte de los propios ficheros de ambigüedades. De este modo, como se puede ver en la figura anterior, para las palabras que se han encontrado sin ambigüedad pero con una posición de tilde distinta a la que tenía la palabra leída en los textos, son volcadas al fichero erradas.rpt. Una muestra del mismo puede apreciarse a continuación: la primera columna presenta las palabras leídas de los textos, y en la segunda columna, las palabras encontradas en los diccionarios. Palabra leída--------Palabra encontrada Pág pag habia había huído huido Morán moran bebés bebes Parece que tiene algún problema con los plurales: la palabra bebés no ha sido capaz de encontrarla como plural de bebé, sino únicamente como verbo. También se aprecia algún error debido a los nombres propios: es el caso de Morán/moran. Éstos último poseen una más fácil solución, que es ampliando el diccionario de nombres propios con las palabras que se vayan encontrando. Sin embargo, el porcentaje de palabras que se encuentran como no ambiguas y se yerran es muy bajo frente al total de palabras no ambiguas encontradas: representan menos del 2%. Así mismo, si la palabra no ha sido encontrada en los diccionarios y posee una terminación “conocida”, se volcará al fichero no_encon_term.rpt y se procederá a comprobar si se ha estimado correctamente la tilde. Un ejemplo del fichero anterior se muestra a continuación: gravísimas tantísimos autoimponerse exhaustivamente guerristas felipismo felipismo horteridad 113 Capítulo 4. Pruebas y validación del sistema tracamandanas españolísima entendidísimo judicialización personajillos autocompasiva empecinadamente Si para alguno de las palabras contenidas en el anterior fichero no se ha estimado correctamente la tilde, estas palabras son volcadas al fichero term_erradas.rpt. Una muestra del mismo se puede ver a continuación: Palabra leída--------Palabra estimada ring ríng idearium ideárium looping loóping argumentum arguméntum potissimum potissímum zapping zápping simposium simpósium Como se puede ver, la mayoría de las palabras erradas cuando se ha detectado una terminación “conocida” son extranjerismos, y la gran mayoría son anglicismos con la terminación –ing. Dichas palabras no han sido encontradas porque no se emplearon los diccionarios extranjeros, debido a los grandes requerimientos de recursos que se necesitaban para cargarlos. Y se ha cometido error con ellos por intentar aplicar una tildado del castellano a una palabra extranjera. Sin embargo, estos errores representan, frente al total de palabras no encontradas con terminación “conocida”, tan sólo un 2%. Finalmente, todas las palabras no encontradas en los diccionarios y que no han sido enviadas a ninguno de los dos ficheros anteriores de palabras no encontradas, son volcadas al fichero no_encon.rpt. El total de las palabras no encontradas en los diccionarios representan tan sólo el 0.73% del total de palabras procesadas. motorola bravía sociatas 114 Capítulo 4. Pruebas y validación del sistema light rock set sets plastilina personajazos apartheid Finalmente, el fichero que produce la aplicación con todos los datos numéricos de los tipos de palabras que van procesando se llama estadisticas.rpt. Todos los ficheros y datos expresados en párrafos anteriores se han obtenido ejecutando la aplicación con un fichero que contenía todas las noticias del mes de Mayo de 1994 del diario El Mundo, así como el fichero de estadísticas que se muestra a continuación: Fecha y Hora de comienzo del programa: Thu Mar 30 21:24:02 2000 Artículos procesados: 4317 Frases: 100456 Palabras totales: 2367439 Palabras diacríticas (no procesadas): 402442 Palabras procesadas: 1706349 Palabras Palabras Palabras Palabras no no no no encontradas encontradas encontradas encontradas en los diccionarios: 12523 en los diccionarios sin terminación conocida: 5778 con terminación conocida y acertadas: 6610 con terminación conocida y erradas: 135 Palabras encontradas no ambiguas: 1382757 Palabras encontradas no ambiguas acertadas: 1379941 Palabras encontradas no ambiguas erradas: 2816 Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras Palabras encontradas ambiguas: 311069 encontradas ambiguas VERBO_NOMBRE: 7489 encontradas ambiguas VERBO_NOMBRE_VERBO: 41591 encontradas ambiguas VERBO_ADJET: 3519 encontradas ambiguas VERBO_ADJET_VERBO: 8212 encontradas ambiguas VERBO_VERBO: 19023 encontradas ambiguas VERBO_NOMBRE_ADJET: 7833 encontradas ambiguas ADJET_ADJET: 623 encontradas ambiguas NOMBRE_ADJET: 3203 encontradas ambiguas NOMBRE_NOMBRE: 1492 encontradas ambiguas CONJ_OTROS: 2544 encontradas ambiguas PREP_OTROS: 11738 encontradas ambiguas DEMOST_OTROS: 13284 encontradas ambiguas PRONOMBRE_OTROS: 3333 encontradas ambiguas OTROS: 310 diacríticas cuya tilde queremos conocer: 103169 interrogativas: 83706 Porcentaje de acierto (%): 81.258347 Fecha y Hora de finalización del programa: Fri Mar 31 10:02:47 2000 Tiempo de ejecución(seg): 45525.0 115 Capítulo 4. Pruebas y validación del sistema La diferencia entre las palabras totales y las palabras procesadas más las diacríticas (no procesadas) son las palabras que no pertenecen al cuerpo central de las noticias. Y el porcentaje de acierto refleja el tanto por ciento de palabras encontradas no ambiguas y con tilde acertada (1.379.941) junto a las palabras no encontradas pero con terminación conocida y cuya tilde se ha acertado (6.610), frente a las palabras procesadas (1.706.349), resultando el 81.26% reflejado en el fichero anterior. Este porcentaje no representa el acierto global del sistema. El 18.74% restante no es un porcentaje de error, sino que ahí están englobadas todas las no encontradas sin terminación conocida, o con terminación conocida pero cuya tilde se ha errado, y todas las palabras ambiguas: los distintos tipos de ambigüedades por categorías, interrogativas y diacríticas cuya tilde queremos conocer. De ellas, las palabras ambiguas (incluyendo las diacríticas e interrogativas) representan el 18.23% de todas las palabras procesadas. Por tanto, las no encontradas erradas tan sólo constituyen el 0.53%. Sobre todas estas palabras es sobre las que se van a aplicar técnicas MBL para mejorar los resultados. En la Figura 4.3. se pueden apreciar los porcentajes de cada tipo obtenidos al analizar las noticias de un mes completo: 116 Capítulo 4. Pruebas y validación del sistema PALABRAS DEL CUERPO DE LOS TEXTOS 2.108.791 Palabras Procesadas ¿Es diacrítica? 1.706.349 80.92% Porcentajes calculados sobre Palabras Procesadas (100%) SI No se procesa 402.442 19.08% NO ¿Es diac_tilde o interrogativa? SI Porcentajes calculados sobre Palabras Procesadas (100%) diac_tildes.rpt interrogativas.rpt NO Búsqueda en diccionarios 124.194 7.28% Ambigua 311.069 Diacríticas-tilde: diac_tildes.rpt 103.169 18.23% 6.05% Interrogativas: interrogativas.rpt 83.706 4.91% Erradas: erradas.rpt 2.816 0.16% No Ambigua 1.382.757 81.04% Acertadas 1.379.941 EXITO 80.87% 1.386.551 135 81.26% 0% Tipos de ambigüedades: *.rpt ¿Encontrada? NO ¿Terminación conocida? NO SI 12.523 0.73% SI Erradas: term_erradas.rpt no_encon_term.rpt Acertadas Palabras no encontradas sin terminación conocida: no_encon.rpt 6.610 0.39% 5.778 0.34% Figura 4.3. Porcentajes tras el procesado. 4.3. Resultados de las pruebas con el MBL. Las primeras pruebas que se realizaron con el MBL fueron para comprobar su correcto funcionamiento, cuando se estaba desarrollando. A partir de un silabicador ya desarrollado en el Grupo de Tecnología del Habla, se probó el MBL para tareas de silabicación. En un primer momento, se entrenaba al MBL con Diccionario de la Real Academia Española, y se hacía evaluar a estas mismas palabras, consiguiendo porcentajes de error prácticamente nulos. Posteriormente, para añadir algo de dificultad a su tarea, se hizo que entrenara con el diccionario RAE sin tildar (previamente se 117 Capítulo 4. Pruebas y validación del sistema desacentuaban todas las palabras del mismo) y que evaluase las palabras del diccionario RAE tildadas, comprobando que los resultados también eran satisfactorios. Estas pruebas servían también para ir estimando los tiempos de entrenamiento y de evaluación del sistema. De este modo, se modificaron con posterioridad funciones de búsqueda en los módulos de pesos y de evaluación, para agilizar los tiempos de los módulos más lentos. Posteriormente, y una vez se había probado la aplicación de procesado de textos del diario El Mundo, se pasó a probar el MBL con los ficheros .rpt de ambigüedades fruto de dicho procesado. Dichas pruebas pasan a describirse a continuación. 4.3.1. Entrenamiento con el RAE y evaluación de las palabras no encontradas. La primera prueba que se realizó fue la de intentar, entrenando con los ejemplos obtenidos del diccionario RAE, estimar el tildado de las palabras procedentes del fichero no_encon.rpt: aquellas palabras no encontradas en los diccionarios que no poseían una de las terminaciones que consideramos con acentuación fija. Para ello, los rasgos que se tomaron fueron letras, y las ventanas que se escogieron fueron de 5 y de 7 rasgos. Éstos resultados fueron prácticamente iguales que los que se obtuvieron al añadir a los ejemplos un rasgo adicional: la distancia en número de sílabas de la que contiene a la letra central de la ventana al final de la palabra. Por tanto, en esa prueba los ejemplos contenían 6 y 8 rasgos. Los resultados que se ofrecen en la Figura 4.4. corresponden a los realizados con ejemplos de 6 rasgos (5 rasgos de la ventana de letras y el rasgo adicional de la distancia silábica). Los que se realizaron sin dicho rasgo adicional (ventanas de 5 y de 7) fueron bastante parecidos, ya que, como se puede apreciar en la Figura 4.5. (fichero de estadísticas de los pesos), el último rasgo adicional ofrece una ganancia de entropía mucho menor (en valor absoluto) que los demás. Tampoco se apreciaron grandes diferencias entre los resultados obtenidos para ventanas de 5 y 7 rasgos, o entre 118 Capítulo 4. Pruebas y validación del sistema ventanas de 6 y de 8. El añadir como rasgo una letra más a cada lado no afectaba apenas a los resultados. Estadísticas de la evaluación: Tasa de aciertos (en%): 87.587940 (1743 de 1990) Figura 4.4. Resultados tildado. Peso rasgo nº 0 : 118942.398438 Ganancia Entropía rasgo nº 0 : -118942.093750 Peso rasgo nº 1 : 130264.210938 Ganancia Entropía rasgo nº 1 : -130263.906250 Peso rasgo nº 2 : 130688.203125 Ganancia Entropía rasgo nº 2 : -130687.898438 Peso rasgo nº 3 : 131019.187500 Ganancia Entropía rasgo nº 3 : -131018.882812 Peso rasgo nº 4 : 122938.359375 Ganancia Entropía rasgo nº 4 : -122938.054688 Peso rasgo nº 5 : 37257.785156 Ganancia Entropía rasgo nº 5 : -37257.480469 Entropía Información de la BD: 0.304138 Figura 4.5. Fichero de estadísticas de los pesos. Si tenemos en cuenta que la probabilidad de encontrarnos con este tipo de palabras entre las que se procesaron a partir de las noticias es de un 0.34%, y que se ha obtenido una probabilidad de error para este tipo de palabras del 12.41%, la contribución al error total de una de estas palabras es del 0.04%. 4.3.2. Entrenamiento y evaluación de palabras interrogativas. Como ya se comentó anteriormente, todas las palabras que, como, cuando, quien y quienes (o las correspondientes con tilde) que se procesaban, eran volcadas al fichero interrogativas.rpt. A partir de dicho fichero, se diseñó un traductor que filtrase para cada prueba una sola de las cinco palabras. 119 Capítulo 4. Pruebas y validación del sistema Se empezó entrenando al sistema con el mismo fichero que se quería evaluar (lo que en las figuras de resultados aparece como ficheros no-disjuntos): todo el fichero de interrogativas restringido a cada palabra en cada caso. Posteriormente, se entrenó al sistema con una proporción del 80% de las palabras de uno de los cinco tipos que existiesen en dicho fichero, y se evaluaba el restante 20%. Es decir, se entrenaba y se evaluaba al MBL con ficheros disjuntos. Por último, se hizo también una prueba con una combinación MBL y probabilidad: como se conocía la probabilidad de encontrar cada una de estas palabras con y sin tilde, para aquellos casos en los que no se hubiese encontrado un ejemplo igual que el que se evaluaba (a distancia cero del mismo), la solución que se tomaría sería la más probable, y no se tendría en cuenta la solución estimada por el MBL. Esta prueba aparecerá en las figuras como MBL+PROB. A continuación se expondrán en figuras las tablas de resultados obtenidas para cada una de las palabras por separado. Se observará que para algunas de estas palabras, como por ejemplo quienes, el número de ejemplos con los que se ha podido entrenar es muy bajo. No ocurre lo mismo con la palabra que, por ejemplo. Para todos estos casos los rasgos que se han empleado han sido palabras, y las ventanas han sido siempre de 3 palabras, centradas sobre la palabra en estudio. 120 Capítulo 4. Pruebas y validación del sistema 4.3.2.1. Palabra que. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 430 22793 430 22793 23223 23185 99,83636912 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 130 7153 430 22793 7283 6958 95,53755321 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 130 7153 430 22793 7283 7153 98,21502128 4.3.2.2. Palabra como. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 231 2754 231 2754 2985 2966 99,36348409 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 69 893 231 2754 962 866 90,02079002 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 69 893 231 2754 962 893 92,82744283 121 Capítulo 4. Pruebas y validación del sistema 4.3.2.3. Palabra quien. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 91 360 91 360 451 445 98,66962306 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 31 101 91 360 132 94 71,21212121 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 31 101 91 360 132 101 76,51515152 4.3.2.4. Palabra quienes. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 16 147 16 147 163 163 100 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 2 34 16 147 36 32 88,88888889 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 2 34 16 147 36 34 94,44444444 122 Capítulo 4. Pruebas y validación del sistema 4.3.2.5. Palabra cuando. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 8 890 8 890 898 896 99,77728285 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 4 263 8 890 267 263 98,50187266 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 4 263 8 890 267 263 98,50187266 Como puede apreciarse en los resultados, de la palabra quienes sólo hemos podido evaluar 36 casos, por lo que no sabemos el grado de fiabilidad de dichos porcentajes de acierto. Pero los más destacables son los de la palabra quien, ya que para ficheros disjuntos se obtienen los peores resultados: sólo un 71.21% de acierto. Para intentar mejorar estos resultados, y a la vista del bajo número de ejemplos quien de entrenamiento, se decidió realizar la prueba que se explica el siguiente apartado. 4.3.2.6. Evaluación de quien entrenando con que. Debido a cierta similitud de los contextos en los que las palabras que y quien se acentuaban o no, se decidió entrenar el sistema con los ejemplos obtenidos de la palabra que, ya que de esta palabra sí se disponía de un elevado número de ejemplos de entrenamiento. Lo único que se realizó una vez el sistema había entrenado fue poner en el fichero diccionario de pesos (pesos.dic), que genera el módulo de pesos, el peso del rasgo central (palabra en estudio) a cero, ya que se trataba de palabras distintas. 123 Capítulo 4. Pruebas y validación del sistema Una vez el sistema ha entrenado con dichos ejemplos, se le pasan los de la palabra quien para que sean evaluados. Se obtuvieron los siguientes resultados: Ficheros disjuntos (MBL) Evaluación (QUIEN) Entrenamiento (QUE) Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 122 461 560 29946 583 495 84,90566038 Se puede apreciar que el porcentaje de acierto se elevó en un 12%. Se observa también que la palabra con la que se obtuvieron peores resultados (quien) era la que presentaba una menor desproporción entre casos acentuados y sin acentuar. De ahí que esta fuese también con la que se obtuvieron peores resultados a la hora de combinar técnicas con la solución más probable. 4.3.3. Entrenamiento y evaluación de diacríticas-tilde. Recordemos que bajo dicha denominación englobamos aquellas palabras diacríticas de las que nos interesa conocer la posición de la tilde porque dependiendo de su existencia o no, la entonación de la palabra cambia considerablemente. Las palabras que habíamos separado como tales son: • aun/aún • el/él • mas/más • mi/mí • se/sé • te/té • tu/tú A simple vista, es bastante sencillo predecir que las palabras mas y te, sin tildar, van a aparecer bastante poco, por lo que con la simple utilización de una estrategia basada en probabilidad se obtendrían resultados bastante satisfactorios. A continuación 124 Capítulo 4. Pruebas y validación del sistema se detallan los resultados obtenidos para cada palabra en particular. Las condiciones de entrenamiento y evaluación son las mismas que las ya expresadas para las palabras interrogativas: ventanas de 3 rasgos, donde los rasgos representan palabras y una proporción de 80/20% para la prueba con ficheros disjuntos. 4.3.3.1. Palabra aun. Evaluación Ficheros no-disjuntos Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 16 311 16 311 327 Palabras Acertadas 324 Porcentaje acierto 99,08256881 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto No-Acentuadas Acentuadas No-Acentuadas Acentuadas 54 2 257 14 56 54 96,42857143 Evaluación Ficheros disjuntos (MBL con probabilidad) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 54 2 257 14 56 Palabras Acertadas 54 Porcentaje acierto 96,42857143 4.3.3.2. Palabra el. Evaluación Ficheros no-disjuntos Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 484 26248 484 26248 Evaluación Ficheros disjuntos (MBL) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 83 4313 401 21935 Evaluación 26732 4396 Ficheros disjuntos (MBL con probabilidad) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 83 4313 401 21935 4396 Palabras Acertadas Porcentaje acierto 26695 99,86158911 Palabras Acertadas Porcentaje acierto 4170 94,85896269 Palabras Acertadas Porcentaje acierto 4308 97,99818016 125 Capítulo 4. Pruebas y validación del sistema 4.3.3.3. Palabra mas. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 3585 32 3585 32 3617 3608 99,75117501 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 540 5 27 3048 545 540 99,08256881 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 540 5 27 3048 545 540 99,08256881 4.3.3.4. Palabra mi. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 103 413 103 413 516 513 99,41860465 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 18 69 85 344 87 71 81,6091954 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 18 69 85 344 87 69 79,31034483 126 Capítulo 4. Pruebas y validación del sistema 4.3.3.5. Palabra se. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 80 10517 80 10517 10597 10585 99,8867604 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 13 1831 67 8686 1844 1825 98,96963124 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 13 1831 67 8686 1844 1831 99,29501085 4.3.3.6. Palabra te. Evaluación Ficheros no-disjuntos Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 4 92 4 92 Evaluación 96 Ficheros disjuntos (MBL) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1 12 3 80 13 Palabras Acertadas Porcentaje acierto 96 Palabras Acertadas 12 100 Porcentaje acierto 92,30769231 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1 12 3 80 13 12 92,30769231 127 Capítulo 4. Pruebas y validación del sistema 4.3.3.7. Palabra tu. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto AcentuadasNo-Acentuadas Acentuadas No-Acentuadas 28 31 28 31 59 59 100 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto AcentuadasNo-Acentuadas Acentuadas No-Acentuadas 3 4 25 27 7 5 71,42857143 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto AcentuadasNo-Acentuadas Acentuadas No-Acentuadas 3 4 25 27 7 4 57,14285714 Observando los casos anteriores se aprecia que los resultados con MBL+prob empeoran cuando no existe desproporción entre el número de casos tildados y sin tildar. Es decir, en aquellos casos en los que el número de casos acentuados y sin acentuar se pone parejo, los resultados con dicha estrategia pueden llegar a empeorar considerablemente. Tampoco es muy conveniente tener en cuenta aquellos resultados de palabras con las que se ha podido entrenar con escasos ejemplos, o el número de ellos que evaluar es muy bajo, como puede ser el caso de la palabra tu, para la que se disponía únicamente de 7 palabras que evaluar. 4.3.4. Entrenamiento y evaluación de demostrativos-otros. Dentro de esta denominación nos encontramos únicamente con tres casos: los de las palabras esta, este y estas. Como es fácil de suponer, no nos encontramos ante casos triviales, ya que, para empezar, pueden presentar tres posiciones distintas de la tilde. Como se verá cuando se muestren los resultados en sus respectivas tablas, éstos no son 128 Capítulo 4. Pruebas y validación del sistema satisfactorios para los casos de esta y estas. De ahí que, como se explicará más adelante, estas dos palabras reciban un trato adicional: resolviendo la ambigüedad que presentan respecto a su categoría (ambigüedad verbo_presente_indicativo-demostrativo) se puede llegar a estimar su tildado, obteniendo resultados bastante más satisfactorios. A continuación se muestran las estadísticas de los resultados obtenidos en la realización de las pruebas con estas tres palabras. Las condiciones en las que se han llevado a cabo son las mismas que las que se han explicado para los dos grupos de palabras ya tratados anteriormente. 4.3.4.1. Palabra esta. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1355 1364 1355 1364 2719 2707 99,55866127 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 168 172 1187 1192 340 182 53,52941176 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 168 172 1187 1192 340 172 50,58823529 Como se puede ver en el cuadro anterior, los resultados para ficheros disjuntos no resultaron satisfactorios, de ahí que se pensara en otra estrategia para este tipo de palabras. 129 Capítulo 4. Pruebas y validación del sistema 4.3.4.2. Palabra este. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 243 1958 243 1958 2201 2189 99,45479328 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 32 227 211 1731 259 221 85,32818533 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 32 227 211 1731 259 227 87,64478764 4.3.4.3. Palabra estas. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 41 362 41 362 403 401 99,50372208 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 6 54 35 308 60 49 81,66666667 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 6 54 35 308 60 54 90 130 Capítulo 4. Pruebas y validación del sistema 4.3.5. Entrenamiento y evaluación de conjunciones-otros. Al examinar este fichero generado tras el procesamiento de los textos del periódico nos encontramos con que tan sólo aparece la palabra porque. Nos encontramos ante una palabra con una baja probabilidad de que se encuentre tildada, por lo que, en un principio, parece que los mejores resultados se deberían obtener de las pruebas MBL+prob. A continuación se muestran los resultados obtenidos para dicha palabra al realizar las pruebas en las mismas condiciones en las que se realizaron las anteriores. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 8 920 8 920 928 928 100 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1 123 7 797 124 122 98,38709677 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1 123 7 797 124 123 99,19354839 4.3.6. Entrenamiento y evaluación de preposiciones-otros. En este caso nos encontramos frente a cuatro palabras: bajo, entre, hacia y sobre. A primera vista, todo parece indicar que los resultados que se van a obtener para las palabras sobre y entre van a ser los más elevados, ya que en los textos periodísticos (que son con los que estamos entrenando y evaluando en estas pruebas) es muy difícil encontrase con la palabra sobré. Y aunque no sea tan difícil encontrarse con la palabra entré, la proporción de palabras entre va a ser siempre mucho más elevada, por lo que se puede decir lo mismo de esta palabra. 131 Capítulo 4. Pruebas y validación del sistema 4.3.6.1. Palabra bajo. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 18 249 18 249 267 266 99,62546816 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 3 122 15 227 25 22 88 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 3 122 15 227 25 22 88 4.3.6.2. Palabra entre. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 1 1253 1 1253 1432 1432 100 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 0 178 1 1253 178 178 100 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 0 178 1 1253 178 178 100 132 Capítulo 4. Pruebas y validación del sistema 4.3.6.3. Palabra hacia. Evaluación Ficheros no-disjuntos Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 76 310 76 310 Evaluación Ficheros disjuntos (MBL) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 3 27 73 283 Evaluación 386 30 Ficheros disjuntos (MBL con probabilidad) Entrenamiento Palabras totales Acentuadas No-Acentuadas Acentuadas No-Acentuadas 3 27 73 283 30 Palabras Acertadas Porcentaje acierto 386 Palabras Acertadas 100 Porcentaje acierto 21 Palabras Acertadas 70 Porcentaje acierto 27 90 4.3.6.4. Palabra sobre. Ficheros no-disjuntos Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 0 1688 0 1688 1688 1688 100 Ficheros disjuntos (MBL) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 0 218 0 1470 218 218 100 Ficheros disjuntos (MBL con probabilidad) Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto Acentuadas No-Acentuadas Acentuadas No-Acentuadas 0 218 0 1470 218 218 100 Se observa que los peores resultados se obtienen para la palabra hacia. Para este caso se intentará también otra estrategia basada en la el empleo del MBL para la correcta categorización de esta palabra, y a partir de este dato obtener su tildado. 133 Capítulo 4. Pruebas y validación del sistema 4.3.7. Entrenamiento y evaluación de pronombres-otros. En este fichero nos encontramos con algunas palabras que no tienen mucho sentido y que carecen de interés. Las palabras sobre las que vamos a realizar un estudio son las siguientes: decimos, media, ultimo, ultima, varias. Sin embargo, los resultados obtenidos con el sistema sobre estas palabras carecen de interés alguno. En todos los casos, y para las cinco palabras, se obtuvo un 100% de aciertos. La razón es que en todos los ejemplos de evaluación y de entrenamiento no se encontraba ninguna de éstas palabras tildada. Esa es la razón por la que la elección de la solución resultase tan sencilla. 4.3.8. Entrenamiento y evaluación de la categoría gramatical en textos 860. Debido a que disponíamos de ficheros de ambigüedades en los que las palabras que aparecían podían llevar la tilde en una u otra posición según su categoría gramatical, se nos planteó el entrenar el sistema MBL para que fuese capaz de detectar la correcta categoría de una de estas palabras. De este modo, seríamos capaces de predecir su tildado. Esto suponía cambios en el módulo traductor, como ya se explicó en el tercer capítulo de la presente memoria. Ahora los rasgos serían binarios, y representarían cada uno a un tipo de categoría asociado a la/s palabra/s anterior/es y posterior/es a la palabra en estudio. Es decir, si la ventana que se está empleando es de tres palabras, las ventanas serán de 21 rasgos, donde los 10 primeros representarán a 10 tipos de categorías asociados a la palabra anterior, habrá uno central siempre a 0 para la palabra central y otros 10 para la palabra posterior. El rasgo central es necesario ya que el número de rasgos con los que se quiere que el sistema trabaje ha de ser impar. Los valores que pueden tomar son únicamente CATEGORIA_SI Y CATEGORIA_NO. Si la ventana es de cinco palabras, entonces las ventanas de rasgos serán de 41 rasgos. 134 Capítulo 4. Pruebas y validación del sistema Si se disponía de ocho ficheros .aps (textos 860), se emplearon siete de ellos para el entrenamiento del sistema, y se evaluaba uno de ellos. Se emplearon estos textos porque eran los únicos de los que se disponía que estaban correctamente categorizados. El problema es que el número de casos de palabras que nos interesen no es muy elevado, por lo que a veces era necesario ser un poco menos selectivos a la hora de elegir los corpus de entrenamiento y de evaluación. Una vez se ha estimado la categoría, es necesario que el sistema estime también la tilde que debería llevar asociada si la categoría de la palabra en estudio fuese la predicha. Para ello hubo que realizar modificaciones sobre el módulo de evaluación. Los resultados sobre tildado que se presentan en las tablas son calculados únicamente para los casos en los que se ha acertado en la predicción de la categoría. Las ambigüedades que se estudiaron con esta estrategia fueron las siguientes: verbo-nombre, verbo-pronombre y verbo_presente_indicativo-demostrativo, y se pasan a describir los resultados de cada caso por separado. 4.3.8.1. Ambigüedad verbo-nombre. Ventana de 3 palabras Evaluación Palabras Totales Verbos Nombres Total 13774 13774 3991 9783 Pruebas de tildado a partir de la cat. estimada Ventana de 5 palabras Evaluación Palabras totales Verbos Nombres Total 13774 3991 9783 13774 Pruebas de tildado a partir de la cat. estimada Categorías Acertadas Acierto categorias (%) 12057 87.53448526 Pal. tildadas Acertadas Acierto Tildado (%) 11976 99.32819109 Categorías Acertadas Acierto categorias (%) 12524 90.92493103 Pal. tildadas Acertadas Acierto Tildado (%) 12435 99.28936442 135 Capítulo 4. Pruebas y validación del sistema 4.3.8.2. Ambigüedad verbo-pronombre. Ventana de 3 palabras Evaluación Palabras Totales Verbos Pronombres Total 5163 5163 3991 1172 Pruebas de tildado a partir de la cat. estimada Ventana de 5 palabras Evaluación Palabras totales Verbos Pronombres Total 5163 5163 3991 1172 Pruebas de tildado a partir de la cat. estimada Categorías Acertadas Acierto categorias (%) 4311 83.4979663 Pal. tildadas Acertadas Acierto Tildado (%) 3834 88.93528184 Categorías Acertadas Acierto categorias (%) 4389 85.00871586 Pal. tildadas Acertadas Acierto Tildado (%) 3962 90.27113238 4.3.8.3. Ambigüedad verbo_presente_indicativo-demostrativo (para las palabras esta/s). El caso de esta ambigüedad se debe a las pruebas realizadas para intentar mejorar los resultados obtenidos para las palabras esta y estas, ya las ambigüedades respecto a la categoría que pueden presentar dichas palabras son verbo en presente de indicativo (verbo estar) o demostrativo (artículo o pronombre). El problema con el que nos encontramos en este caso fue el bajo número de verbos estar en presente de indicativo dentro de los ficheros de entrenamiento y evaluación. De ahí que se decidiese entrenar con cualquier verbo en presente de indicativo, no sólo con el verbo estar, además de con adjetivos y pronombres demostrativos. El conocimiento tan en detalle de todas estas categorías de las palabras es posible gracias al formato de las categorías de los textos 860, y que será explicado en un anexo posterior. Las categorías 860 constan de 10 bytes. Las palabras que son presentes de indicativo tienen el 4º y el 5º byte de la categoría con valor ‘01’, mientras que para los demostrativos la categoría comienza con ‘A08’ para los adjetivos y con ‘R11’ para los pronombres. A continuación se muestran los resultados obtenidos: 136 Capítulo 4. Pruebas y validación del sistema Ventana de 3 palabras Evaluación Palabras Totales Categorías Acertadas Acierto categorias (%) Verbos Pres. Ind. Demostrativos Total 1160 207 1307 95.61082663 1367 1367 Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%) partir de la cat. estimada 1132 86.61055853 Ventana de 5 palabras Evaluación Palabras totales Categorías Acertadas Acierto categorias (%) Verbos Pres. Ind. Demostrativos Total 1160 207 1367 1367 Pruebas de tildado a partir de la cat. estimada 1303 95.31821507 Pal. tildadas Acertadas Acierto Tildado (%) 1131 86.79969302 4.3.9. Entrenamiento con palabras no ambiguas y evaluación de palabras ambiguas (ambigüedad verbo-nombre). La última prueba que se realizó fue la siguiente, y sólo para el caso de ambigüedades verbo nombre. Se quería que el sistema entrenase únicamente con verbos o nombres, pero que no fuesen ambiguas. Es decir, que una palabra que apareciese como verbo, podría aparecer como nombre posteriormente siempre que no presentase una distinta posición de la tilde que en el caso anterior para ser considerada como ejemplo de entrenamiento. Y viceversa. Por el contrario, todas las palabras verbos o nombre que presentaran ambigüedad respecto a la posición de la tilde y de su categoría, debían ser consideradas como ejemplos de evaluación. Se realizó una única prueba, para la ambigüedad verbo-nombre, y tanto con ventanas de tres como de cinco palabras, y estos fueron los resultados obtenidos. Evaluación Verbos Nombres Total 2613 4176 Evaluación Verbos Nombres Total 2613 4176 Ventana de 3 palabras Palabras Totales 6789 6789 Pruebas de tildado a partir de la cat. estimada Ventana de 5 palabras Palabras totales 6789 6789 Pruebas de tildado a partir de la cat. estimada Categorías Acertadas Acierto categorias (%) 5562 81.92664605 Pal. tildadas Acertadas Acierto Tildado (%) 5296 95.21754764 Categorías Acertadas Acierto categorias (%) 5718 84.22448078 Pal. tildadas Acertadas Acierto Tildado (%) 5444 95.20811473 137