Download 4. Pruebas y validación del sistema.

Document related concepts
no text concepts found
Transcript
Capítulo 4. Pruebas y validación del sistema
4. Pruebas y validación del sistema.
4.1. Problemática del tildado en textos.
4.1.1. Introducción.
El proyecto realizado por Azucena Jiménez1 nos permitía contar con una
herramienta potente a la hora de depurar los textos en formato electrónico del diario El
Mundo. Con las funciones que desarrolló como complemento a las ya existentes en la
librería dicc, se puede procesar un elevado número de artículos de dicho periódico.
Además, las cadenas de palabras que nos van proporcionando se encuentran ya
depuradas: se han eliminado las cabeceras, titulares, firmas, etc. que vienen asociadas a
lo que es el texto de la noticia en sí. También se limpiaban los textos de todo tipo de
siglas, acrónimos, números romanos, abreviaturas, etc.
Nosotros tuvimos que adaptar ligeramente dichas funciones a nuestras
necesidades. Las funciones de búsquedas en diccionarios estaban pensadas para que dos
palabras que tan sólo se diferenciasen por la posición de la tilde se consideraran
distintas. Nuestro propósito consistía en procesar las palabras del texto de las noticias,
realizar la búsqueda en diccionario y devolver los resultados de la misma. Pero la
búsqueda tenía que realizarse sin tener en cuenta la tilde: dos palabras que sean iguales
1
[JIM99]
98
Capítulo 4. Pruebas y validación del sistema
salvo porque se diferencian en la posición de la tilde, para nuestro estudio son la misma
palabra. Para ser más exactos, las consideramos variantes de la misma palabra
ambigua. Éste es el concepto principal en nuestro procesado de los textos de El Mundo.
Pero nuestro propósito no consistió únicamente en la obtención de estas palabras
ambiguas, que después intentarían resolverse con el sistema MBL implementado.
Adicionalmente, en algunos casos puntuales, se intentó la resolución del tildado
mediante la aplicación de reglas. Por ejemplo, para las palabras no encontradas en
ninguno de los diccionarios, se analizó que muchas de las palabras con misma
terminación tenían la misma forma de tildarse. Por tanto, para estas palabras no
encontradas se realizaron pruebas de tildado mediante el análisis de sus terminaciones.
4.1.2. Palabras ambiguas.
La palabra ambigua es una estructura que se definió para que contuviese toda la
información necesaria sobre la problemática que origina el hecho de que el tildado de la
misma no se pueda determinar mediante una búsqueda simple en diccionarios. Se
compone fundamentalmente de:
•
La primera y más importante, es la posición de la tilde. Si no fuese porque
este campo varía dentro de una palabra ambigua, ésta no sería tal.
•
La categoría de la palabra ambigua cuando la tilde se encuentra en una
posición determinada. Puede ocurrir que la categoría de la palabra sea la
misma aun cuando la posición de la tilde es distinta en cada uno de los casos.
A nosotros nos interesarán especialmente aquellos casos en los que la
categoría que tiene la palabra con la tilde en una posición es única y distinta
de la que tiene si la tilde se encuentra en otra posición. De esta forma, a
través del conocimiento de la categoría, seríamos capaces de determinar el
tildado de la palabra.
99
Capítulo 4. Pruebas y validación del sistema
•
La palabra encontrada en los diccionarios, y que supondrá una variante de la
palabra ambigua. Las palabras que se van leyendo de los textos de El Mundo
se buscan en una serie de diccionarios, que se detallarán en un anexo
posterior. Se guardan todas las variantes que se vayan encontrando de una
palabra, que quedan almacenadas en este campo.
•
Un campo totalmente informativo es el diccionario en el que se ha
encontrado esa variante de la palabra ambigua. Se puede haber encontrado
en cualquiera de los diccionarios empleados.
•
Para el caso de los verbos, se almacena también el nombre del supuesto
infinitivo del verbo. La forma de buscar una palabra que puede ser un
tiempo verbal es la siguiente: se le elimina la terminación, y con la raíz se
intenta reconstruir el infinitivo del verbo. Si ésta reconstrucción se encuentra
en alguno de los diccionarios de infinitivos, se considera la palabra como un
verbo. Pero a veces esta estimación puede ser errónea, por lo que es
conveniente almacenar el supuesto infinitivo del verbo en cuestión. Si se ha
cometido un error, se suele apreciar fácilmente porque el infinitivo generado
no suele tener relación con la supuesta forma verbal.
Todas las palabras ambiguas eran volcadas a fichero. En un principio todas iban
al mismo. Pero tras sucesivos análisis de los resultados obtenidos, se fueron separando
según las tipologías en distintos ficheros. El formato de todos los ficheros de
ambigüedades que se generan es el mismo (ficheros con extensión .rpt). Cada línea se
corresponde con una palabra ambigua en su tildado, dentro de uno de los tipos
preestablecidos. El formato de cada línea es el siguiente (con cada campo separado por
un espacio en blanco): palabra en estudio, trío de palabras que forman el contexto
(anterior, central, posterior), primera posición de la tilde dentro de la palabra encontrada
(si es 0, no está tildada), categorías de la palabra con esa posición de tilde, segunda
posición de tilde y sus categorías, etc. Las formato de las categorías es el mismo que el
de los textos 860.
100
Capítulo 4. Pruebas y validación del sistema
4.1.2.1. Tipología.
A continuación se enumeran los distintos tipos de ambigüedades a los que se ha
llegado. Hay que tener en cuenta que la selección de los tipos se hacía de manera
secuencial, en el orden en el que se van a enumerar. Es decir, que si una palabra
ambigua se ha enmarcado dentro de un tipo, es porque se ha visto que cumplía las
condiciones que se tenían que dar en las palabras de dicho tipo. Pero eso no quiere decir
que no pudiesen cumplir también los requisitos para estar dentro de otra tipología
posterior.
Para cada tipo de ambigüedad se muestra un ejemplo de los distintos ficheros de
ambigüedades obtenidos. Los tipos que se han tratado son los siguientes:
•
Ambigüedad VERBO_NOMBRE_VERBO: se observó que se producía este caso
particular de la ambigüedad VERBO_NOMBRE y se decidió considerarlo aparte.
Se presenta cuando una palabra tiene la tilde en una determinada posición cuando es
un tiempo verbal o un nombre, y en otra cuando se trata de otro tiempo verbal.
pasé
sangre
pasé
secuestro
velas
anunció
documento
serie
calle
apoyo
silencio
título
anticipo
•
Escándalo pasé día 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##
la sangre » 6 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##
los pasé a
4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##
del secuestro encanecida
0 V..01I.0.. N00##S.M##
9 V..41H.0..
utilizaba velas para
0 V..01U.0.. V..01H.0.. V..02U.0.. N00##P.F## 2 V..01H.0..
, anunció ayer
0 V..01I.0.. N00##S.M##
7 V..41H.0..
un documento interno
0 V..01I.0.. N00##S.M##
9 V..41H.0..
una serie de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##
la calle »
5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##
con apoyo del
0 V..01I.0.. N00##S.M##
5 V..41H.0..
su silencio ,
0 V..01I.0.. N00##S.M##
8 V..41H.0..
ellas título de
2 V..01I.0.. V..41H.0.. N00##S.M##
6 V0841H.0..
su anticipo mortuorio
0 V..01I.0.. N00##S.M##
8 V..41H.0..
Ambigüedad VERBO_NOMBRE: cuando nos encontramos con una palabra
ambigua que puede ser verbo o nombre según la posición que ocupe la tilde, se
incluye en este tipo.
101
Capítulo 4. Pruebas y validación del sistema
tenías
tenía
mentira
colegio
mentira
venía
Venía
interprete
•
no tenías siquiera
4 V..03W.0.. 0 N00##P.F##
no tenía nada
4 V..03U.0.. V..03H.0.. V..03Y.0.. V0881..0.. 0 N00##S.F##
era mentira podrida
7 V..83I.0.. 0 N00##S.F##
en colegio público
6 V..41I.0.. 0 N00##P.M##
una mentira plural
7 V..83I.0.. 0 N00##S.F##
política venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##
Venía de
4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##
abertzale interprete cuál 10 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. 4 N00##S.N## N00##S.M##
Ambigüedad VERBO_ADJETIVO_VERBO: análogamente a lo ya comentado en el
primer tipo, se observó que se producía este caso particular de la ambigüedad
VERBO_ADJETIVO y se decidió considerarlo aparte. Se presenta cuando una
palabra tiene la tilde en una determinada posición cuando es un tiempo verbal o un
adjetivo, y en otra cuando se trata de otro tiempo verbal.
público
pública
turbio
doble
turbio
secreto
ambiente
previo
frecuente
firme
firme
•
orden público y 2 V..41H.0.. V..03T.0.. V..A3H.0.. A11..S.M## 7 V0841H.0..
televisión pública , 2 V..02U.0.. V..83U.0.. V..02T.0.. A11..S.F## 0 V0802U.0..
Un turbio asunto 0 V..01I.0.. A11..S.M## 6 V..41H.0..
un doble fraude 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
al turbio trato
0 V..01I.0.. A11..S.M##
6 V..41H.0..
el secreto del
0 V..01I.0.. A11..S.M##
7 V..41H.0..
el ambiente previo 8 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
ambiente previo a 0 V..41H.0.. A11..S.M## 6 V0841H.0..
- frecuente secuela 9 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
ponen firme firme 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
puesto firme : 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
Ambigüedad VERBO_ADJETIVO: se trata del caso en el que nos encontramos con
una palabra ambigua que puede ser verbo o adjetivo según la posición que ocupe la
tilde.
sería
primarias
obvio
critica
publica
sería
medios
solicitó
continuó
indicó
indicó
indicó
criticó
medios
medios
•
eso sería « 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##
las primarias de
7 V..04U.0.. 0 A11..P.F##
Es obvio que 4 V..01I.0.. 5 V..A3H.0.. 0 A11..S.M##
texto critica expresamente 0 V..02U.0.. V..83U.0..
3 A11..S.F##
hoy publica EL
0 V..02U.0.. V..83U.0..
2 A11..S.F##
porque sería muy 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##
los medios de 4 V..41I.0.. 0 A12##P.M##
Gobierno solicitó ayer
0 V..01I.0.. 8 V..41H.0.. 4 A11..S.M##
que continuó en 7 V..01I.0.. 8 V..A3H.0.. V0841H.0.. 0 A11..S.M##
, indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##
, indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##
, indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##
Maturana criticó «
7 V..41H.0.. 0 V..03T.0.. 3 A11..S.M##
los medios de
4 V..41I.0.. 0 A12##P.M##
los medios de
4 V..41I.0.. 0 A12##P.M##
Ambigüedad VERBO_VERBO: en este caso dos palabras se diferencian en el
tildado por ser dos tiempos verbales distintos.
102
Capítulo 4. Pruebas y validación del sistema
explicó
llegó
completarán
llegó
eché
traté
ocupe
realizará
cree
protagonizó
contribuyó
contestó
aplazaran
motorizó
•
Klerk explicó que
7 V..41H.0.. 0 V..03T.0..
, llegó al
0 V..03I0.. V..03T.0..
5 V..41H.0..
pocos completarán su
10 V..A1T.0..
0 V..83T.0..
día llegó una
0 V..03I0.. V..03T.0..
5 V..41H.0..
Me eché a
4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..
y traté de
5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..
se ocupe de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..
que realizará el 9 V..02W.0.. V08A1H.0.. 0 V..02U.0.. V..02H.0.. V..02Y.0.. V0883..0..
, cree que 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. V..41W.0.. V..A3H.0.. V0802U.0..
Feliu protagonizó ayer
0 V..01I.0.. 11 V..41H.0..
secuestro contribuyó a
0 V..01I.0.. 10 V..41H.0..
que contestó lo
0 V..01I.0.. 8 V..41H.0..
se aplazaran las
8 V..G.N.0.. 0 V..01U.0..
se motorizó ,
0 V..01I.0.. 8 V..41H.0..
Ambigüedad VERBO_NOMBRE_ADJETIVO: con los tipos que vienen a
continuación ya no se es tan selectivo. Simplemente basta con que tengan las
categorías a las que hace referencia el nombre y estén asociadas a posiciones de tilde
distintas.
interno
caso
terció
caso
interno
pagó
baja
interno
presente
•
documento interno que
0 V..01I.0.. N00##S.M## A11..S.M##
7 V..41H.0..
el caso de
0 V..01I.0.. N00##S.M## A11..S.M##
4 V..41H.0..
gasolinera terció : 0 V..01I.0.. N00##S.M## A11..S.M## 6 V..41H.0..
el caso requería 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0..
documento interno elaborado 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..
y pagó ) 0 V..03I0.. V..03T.0.. N00##S.M## V0801I.0.. A11..S.M## 4 V..41H.0..
se baja los 0 V..01H.0.. V..02U.0.. A11..S.F##
4 N00##S.M##
funcionamiento interno y 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..
estar presente a 8 V..41I.0.. 0 V..034.0.. V..03T.0.. N00##S.M## A11..S.N##
Ambigüedad ADJETIVO_ADJETIVO: para todas las distintas posiciones de la tilde
nos encontramos ante adjetivos.
cardíacos
cardíaca
austriacos
austriacas
cardiacos
dionisiaca
•
masajes cardíacos ,
actividad cardíaca hasta
laboriosos austriacos para
enfermeras austriacas que
( cardiacos ,
masa dionisiaca y
5
5
0
0
5
0
A11..P.M##
A11..S.F##
A11..P.M##
A11..P.F##
A11..P.M##
A11..S.F##
0
0
6
6
0
7
A11..P.M##
A11..S.F##
A11..P.M##
A11..P.F##
A11..P.M##
A11..S.F##
Ambigüedad NOMBRE_NOMBRE: de forma análoga con los nombres.
plató
cóctel
chófer
carné
parque
periodos
fútbol
carné
plato
cartel
cartel
carne
el plató de 5 N00##S.M##
un cóctel molotov
de chófer junto
un carné de 5 N00##S.M##
y parque eventual
los periodos de
del fútbol que
su carné español
metiendo plato »
el cartel de 0 N00##S.M##
de cartel , 0 N00##S.M##
de carne o
5 N00##S.M##
0
2
3
0
0
4
2
5
5
2
2
0
N00##S.M##
N00##S.M##
N00##S.M##
N00##S.F##
N00##S.M##
N00##P.M##
N00##S.M##
N00##S.M##
N00##S.M##
N00##S.M##
N00##S.M##
N00##S.F##
0 N00##S.M##
0 N00##S.M##
6
0
0
0
0
N00##S.M##
N00##P.M##
N00##S.M##
N00##S.F##
N00##S.M##
103
Capítulo 4. Pruebas y validación del sistema
•
Ambigüedad NOMBRE_ADJETIVO: para distintas posiciones de tilde aparecen
(únicamente) nombres y adjetivos.
leones
leonés
inglés
danés
inglés
austriaco
inglés
austriaco
tácita
•
los leones el
0 N00##P.M## 5 A11..P.M##
el leonés Jaime
0 N00##P.M## 5 A11..P.M##
en inglés , 5 A11..S.M## A11..P.M##
0 N00##P.F##
Ministerio danés de
4 A11..S.M## A11..P.M##
0 N00##P.M##
en inglés de 5 A11..S.M## A11..P.M##
0 N00##P.F##
al austriaco Thomas 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M##
delantero inglés Alan
5 A11..S.M## A11..P.M##
0 N00##P.F##
piloto austriaco Roland
0 N00##S.M## A11..S.M##
6 N00##S.M## A11..S.M##
, tácita o
2 A11..S.F## 0 N00##S.F##
Ambigüedad CONJ_OTROS: para distintas posiciones de la tilde aparece una
conjunción y cualquier otra categoría.
porque
porque
porque
porque
porque
porque
porque
porque
porque
porque
Porque
porque
Porque
porque
porque
•
Ambigüedad PREP_OTROS: análogamente para preposiciones.
sobre
entre
entre
hacía
sobre
bajo
entre
entre
•
- porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##
- porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##
dimite porque eso 0 C09##N.0## 6 R22##S.M## N00##S.M##
protestado porque , 0 C09##N.0## 6 R22##S.M## N00##S.M##
, porque recuerdan
0 C09##N.0## 6 R22##S.M## N00##S.M##
ocurrido porque son 0 C09##N.0## 6 R22##S.M## N00##S.M##
, porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##
equivocada porque toda 0 C09##N.0##
6 R22##S.M## N00##S.M##
es porque las 0 C09##N.0## 6 R22##S.M## N00##S.M##
, porque no 0 C09##N.0## 6 R22##S.M## N00##S.M##
Porque si 0 C09##N.0## 6 R22##S.M## N00##S.M##
dimito porque sería 0 C09##N.0##
6 R22##S.M## N00##S.M##
Porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##
va porque sería 0 C09##N.0##
6 R22##S.M## N00##S.M##
acepte porque de 0 C09##N.0## 6 R22##S.M## N00##S.M##
advirtió sobre las 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##
frontera entre ambas 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##
, entre los 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##
se hacía manifiesta 4 V..81I.0.. V..81H.0.. 0 P00##N.0##
especulaciones sobre la 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##
transparentes bajo el 0 V..01I.0.. N00##S.M## P00##N.0## B00..N.0## A11..S.M## 4 V..41H.0..
editorialista entre el 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##
, entre otras 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##
Ambigüedad DEMOST_OTROS: en este tipo se encuadran las palabras ambiguas
que presentan cualquier tipo de categoría junto a un demostrativo, ya sea adjetivo o
pronombre. Para ello nos servimos de los formatos de las categorías 860 (ver anexo
posterior), que nos ayudan a distinguirlas. Un adjetivo demostrativo viene
representado por A08 en las tres primeras posiciones: “A08.....”. Y un pronombre
demostrativo, por R11: “R11.....”.
104
Capítulo 4. Pruebas y validación del sistema
esta
este
Esta
este
este
está
esta
éste
este
estas
esta
este
está
esta
esta
•
recuperar esta iniciativa 4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
, este canal 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##
: Esta vieja 4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
« este proyecto 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##
de este año 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##
No está mal 4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
recurrido esta vez 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##
Si éste se 4 V..03I.0.. 1 V..A3I.0.. V..G.N.0.. R11##S.M## 0 V2901H.0.. R11##S.M## A11..N.N##
aplicar este sistema 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##
de estas severas 4 V..01U.0.. 1 R11##P.F## 0 A08##P.F## R11##P.F##
Es esta clase 4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
en este que 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##
democracia está muy 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##
qué esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
claramente esta ley
4 V..01H.0.. 0 R11##S.F## A08##S.F##
1 R11##S.F##
1 R11##S.M##
1 R11##S.M##
1 R11##S.M##
A08##S.M## N00##S.M##
1 R11##S.M##
1 R11##S.M##
Ambigüedad PRONOMBRE_OTROS: este tipo se creó para analizar las
ambigüedades de los pronombres (en el caso de que no hayan sido clasificadas ya en
alguno de los tipos anteriores).
segundo
varias
segundo
varias
varias
segundo
varias
segundo
segundo
segundo
segundo
•
lejano segundo puesto 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
durante varias semanas 4 V..01U.0.. 0 R14##P.F## A11..P.F##
un segundo plano 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
dio varias claves 4 V..01U.0.. 0 R14##P.F## A11..P.F##
en varias ocasiones 4 V..01U.0.. 0 R14##P.F## A11..P.F##
el segundo para 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
de varias horas 4 V..01U.0.. 0 R14##P.F## A11..P.F##
En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
distante segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M##
7 V..41H.0..
el segundo político 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
Ambigüedad OTROS: tipo que recoge todo lo que no ha sido seleccionado
anteriormente.
estrictamente
jamás
periódicamente
jamás
jamás
únicamente
únicamente
únicamente
jamás
estrictamente
alias
únicamente
jamás
cumpliendo estrictamente con 0 B03..N.0## 5 B03..N.0##
Israel jamás cedería 0 V..01U.0.. 4 B01..N.0## B21..S.N##
reiteraba periódicamente por 0 B03..N.0## 5 B01..N.0##
comercial jamás visto 0 V..01U.0.. 4 B01..N.0## B21..S.N##
que jamás hubiera 0 V..01U.0.. 4 B01..N.0## B21..S.N##
general únicamente por 1 B03..N.0## 0 B03..N.N##
era únicamente la 1 B03..N.0## 0 B03..N.N##
servido únicamente para
1 B03..N.0## 0 B03..N.N##
« jamás veían 0 V..01U.0.. 4 B01..N.0## B21..S.N##
razones estrictamente impositivas 0 B03..N.0## 5 B03..N.0##
, alias «
3 V..01U.0.. 0 B21..S.N##
cantar únicamente en 1 B03..N.0## 0 B03..N.N##
Nunca jamás he 0 V..01U.0.. 4 B01..N.0## B21..S.N##
105
Capítulo 4. Pruebas y validación del sistema
4.1.2.2. Palabras diacríticas.
Las palabras diacríticas son aquellas que llevan la acentuación siempre en la
misma sílaba, independientemente de que estén o no tildadas. Por tanto, si la
acentuación es siempre la misma, no sería, en principio, necesario procesar estas
palabras, ya que el problema del presente proyecto se centra en el correcto tildado de las
palabras, pero orientado a que un sintetizador de voz conozca sin error la acentuación.
Debido a que las comparaciones entre palabras las realizamos siempre sin tener
en cuenta la tilde, las diacríticas se dejaron todas sin tilde en el diccionario de palabras
diacríticas. En dicho diccionario, se realiza una primera búsqueda al comienzo de la
clasificación, para determinar si una palabra es diacrítica. A este diccionario se le
añadieron palabras que, sin ser diacríticas, aparecían en los textos del diario tildadas o
no tildadas con las mismas características de éstas, sin serlo (o, incluida,...). Las
palabras que, por tanto, no se procesan por ser diacríticas (o por aparecer con un tildado
no influyente en la acentuación de la palabras) son:
adonde
aquel
aquella
aquellas
aquello
aquellos
cual
cuales
cuanta
cuantas
cuanto
cuantos
de
donde
esa
ese
eses
eso
esas
esos
esto
estos
incluida
incluido
incluidas
incluidos
o
periodo
si
solo
Pero algunas de estas palabras, si bien siempre llevan la acentuación en la misma
sílaba, no poseen la misma entonación llevando y no llevando tilde. Por tanto, era
importante el conocimiento de dicho dato. Se decidió considerarlas como otro tipo más
de ambigüedad, siendo seleccionadas estas palabras antes de comenzar la selección de
tipos de ambigüedades explicada anteriormente. A estas palabras se las conoce dentro
del código como diac_tildes, y son las siguientes:
106
Capítulo 4. Pruebas y validación del sistema
•
aun/aún
•
el/él
•
mas/más
•
mi/mí
•
se/sé
•
te/té
•
tu/tú
Una muestra del fichero generado para estas palabras diacríticas cuya tilde sí nos
interesa conocer es el siguiente:
el
el
El
el
el
El
El
el
el
El
se
el
se
se
el
sufrieron el miércoles
0 N00##S.M## D00##S.M##
1 R00##H.M##
quemarme el vello
0 N00##S.M## D00##S.M##
1 R00##H.M##
El presidente
0 N00##S.M## D00##S.M##
1 R00##H.M##
, el mantenimiento
0 N00##S.M## D00##S.M##
1 R00##H.M##
» el 27
0 N00##S.M## D00##S.M##
1 R00##H.M##
El primer
0 N00##S.M## D00##S.M##
1 R00##H.M##
El documento
0 N00##S.M## D00##S.M##
1 R00##H.M##
elaborado el pasado
0 N00##S.M## D00##S.M##
1 R00##H.M##
por el dirigente
0 N00##S.M## D00##S.M##
1 R00##H.M##
El balance 0 N00##S.M## D00##S.M##
1 R00##H.M##
, se mantiene 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##
mantiene el nivel 0 N00##S.M## D00##S.M## 1 R00##H.M##
no se contabiliza 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##
no se declara 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##
incumple el sistema 0 N00##S.M## D00##S.M## 1 R00##H.M##
4.1.2.3. Palabras interrogativas.
Otro estudio separado merecían las palabras interrogativas. Éstas mantienen
algunas características comunes entre sí, por las que en el caso de encontrarse en un
contexto de frase interrogativa llevarían tilde. Por tanto, también antes de determinar si
la palabra pertenece a alguno de los tipos de ambigüedad ya descritos, se comprueba si
se trata de una de estas palabras, y si es así, se extraen a un fichero aparte.
Las palabras que nos ha interesado tratar dentro de esta tipología de
interrogativas son las siguientes:
•
que/qué
•
como/cómo
107
Capítulo 4. Pruebas y validación del sistema
•
cuando/cuándo
•
quien/quién
•
quienes/quiénes
Un ejemplo del fichero de ambigüedades para estas palabras interrogativas se
muestra a continuación. Estas palabras serán posteriormente tratadas por el MBL de
manera individualizada: entrenará sólo con una de estas palabras para posteriormente
evaluar sólo esa misma palabra.
que
que
que
que
que
Como
que
que
quién
como
que
que
que
que
que
Administración que incumple 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
, que es
3 R22##N.N## A09##N.0## N00##S.M##
0 C06##N.0## R20##N.N## B21..S.N##
, que «
3 R22##N.N## A09##N.0## N00##S.M##
0 C06##N.0## R20##N.N## B21..S.N##
, que en
3 R22##N.N## A09##N.0## N00##S.M##
0 C06##N.0## R20##N.N## B21..S.N##
popular que llena 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
Como en
0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##
sabían que no 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
Ahora que la 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
¿ quién diablos
0 R14##S.N## 4 R14##S.N##
, como pereciente 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##
tendrían que recuperar 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
Aquella que , 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
saber que el 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
Y que ellos 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
puesto que lo 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
4.2. Búsqueda en diccionarios.
Para realizar un estudio sobre el correcto tildado de las palabras, se pensó que
primero se debía realizar un filtrado de las mismas. Las palabras que tienen una única
posición para la tilde (bien porque nunca se tilden, bien porque si lo hacen, la posición
de ésta sea siempre la misma) no son palabras que nos presenten mayor dificultad. Si
tenemos en cuenta que disponemos de una importante cantidad de información
almacenada en forma de diccionarios, la simple búsqueda de dichas palabras no
conflictivas (por no presentar ambigüedad respecto a la posición de la tilde) en los
diccionarios, nos puede resultar suficiente para conocer el correcto tildado de las
mismas.
108
Capítulo 4. Pruebas y validación del sistema
Los distintos diccionarios que se han empleado en estas tareas serán descritos en
un anexo posterior. Aquí tan sólo mencionaremos que entre ellos se encuentra el
diccionario de la Real Academia Española, el diccionario de los textos 860, un
diccionario de nombre propios, de siglas, abreviaturas, etc. No todas las palabras leídas
de los textos de El Mundo son procesadas. En primer lugar, las palabras leídas son
filtradas haciendo uso de las funciones de la librería dicc para eliminar todas aquellas
que pertenezcan a cabeceras de noticias, pies de página, firmas, etc. Una vez dichas
funciones nos entregan únicamente las palabras que pertenecen al cuerpo de una noticia,
nosotros comprobamos si esa palabra es diacrítica de las que no deben ser procesadas.
Si no es así, se observa si se trata de una de las palabras diacríticas de las que sí nos
interesa conocer la tilde, y en caso afirmativo, se procesa como tal. Si no, se comprueba
si es una de las palabras que hemos considerado como interrogativas.
Para estas tres comprobaciones anteriores, se crearon los diccionarios
respectivos con las palabras de cada tipo, y se cargaron en memora al comienzo de la
ejecución junto a los demás. Para realizar estas comprobaciones se empleaba también la
función de búsqueda en diccionarios SuperBuscaPalabra2, modificada para nuestros
propósitos. Si no nos encontrábamos ante ninguno de estos tres casos, entonces se
realizaba la búsqueda en todos los diccionarios cargados, sin tener en cuenta la tilde, y
se iba creando para cada palabra su estructura PalabraAmbigua, para ir almacenando
toda la información relativa a las posiciones de tilde encontradas para esa palabra, y
todas las posibles categorías asociadas a cada posición de la tilde, en el caso de que la
palabra fuese ambigua.
Por supuesto, la situación óptima para nuestros propósitos era que la palabra
buscada fuese encontrada en alguno de los diccionarios, y que no poseyera ningún tipo
de ambigüedad respecto a la posición de la tilde. Pero esto no ocurría en un número
importante de los casos. Incluso, existía la posibilidad de que no se encontraran en
ninguno de los diccionarios. Estas palabras que calificamos como palabras no
encontradas, fueron volcadas a un fichero distinto, para ver si se las podía realizar algún
tipo de tratamiento.
109
Capítulo 4. Pruebas y validación del sistema
Hay que tener cuenta que el hecho de encontrar una palabra en los diccionarios,
y que ésta no presente ningún tipo de ambigüedad, no implica que obligatoriamente se
haya acertado en la resolución de su tildado al considerar como solución buena la que
figura en los diccionarios. Puede ocurrir, aunque con una probabilidad muy baja, que se
falle en ese dictamen. A esos casos les hemos dado el nombre de palabras encontradas
no ambiguas erradas.
4.2.1. Palabras no encontradas.
Con las palabras que no eran encontradas en ninguno de los diccionarios, se
pensó en la posibilidad de aplicar algún tipo de regla que permitiese predecir su tildado.
Se observó que las terminaciones o sufijos de las palabras podían ser determinantes a la
hora de estimar su acentuación: existen terminaciones para las que casi siempre la
acentuación de la palabra es la misma (aguda, llana o esdrújula). Por tanto, para las
palabras no encontradas, se examinó la terminación de las mismas, y si coincidía con
alguna de las que habíamos estudiado, se acentuaba la palabra según el modo o tipo de
acentuación asociado a cada terminación.
Las reglas se aplican a palabras poco comunes, de ahí que con pocas reglas
cubramos una amplio abanico de ellas, debido a que contamos con diccionarios grandes.
El hecho de que estas palabras no estén en los diccionarios indica que se usan menos, y
por tanto son más regulares. Suelen ser palabras raras inventadas, derivadas de otras.
Las palabras más irregulares, o excepciones a las reglas, ya se encuentran en los
diccionarios.
Las terminaciones que se emplearon, junto con los tipos de acentuación
asociados, se pueden apreciar en la Figura 4.1., donde se muestra la variable enumerada
term_acent_fija. Para realizar estas comprobaciones se crearon una serie de
funciones nuevas. La función EsTerminAcentConocida devuelve si la palabra termina
o no con alguno de los sufijos expresados en la figura. En caso afirmativo, rellena la
variable global acentuacion_term_palabra con la acentuación asociada a dicha
110
Capítulo 4. Pruebas y validación del sistema
terminación,
para
que
después,
mediante
la
función
AcentuaPalabraSegunTerminacion, la palabra se acentúe como tal estimación, y, si es
pertinente, se tilde.
TTerminacion_acent
term_acent_fija[] = {
{"acion",AGUDA},
{"idad",AGUDA},
{"idades",LLANA},
{"ante",LLANA},
{"antes",LLANA},
{"oria",LLANA},
{"orio",LLANA},
{"orios",LLANA},
{"orias",LLANA},
{"ista",LLANA},
{"istas",LLANA},
{"ivo",LLANA},
{"iva",LLANA},
{"ivos",LLANA},
{"ivas",LLANA},
{"escas",LLANA},
{"esco",LLANA},
{"escos",LLANA},
{"acia",LLANA},
{"acias",LLANA},
{"ismo",LLANA},
{"ismos",LLANA},
{"ente",LLANA},
{"entes",LLANA},
{"izar",AGUDA},
{"grama",LLANA},
{"um",LLANA},
{"ez",AGUDA},
{"ito",LLANA},
{"itos",LLANA},
{"ita",LLANA},
{"itas",LLANA},
{"ado",LLANA},
{"ada",LLANA},
{"ados",LLANA},
{"adas",LLANA},
{"dad",AGUDA},
{"dades",LLANA},
{"ancia",LLANA},
{"ancias",LLANA},
{"ador",AGUDA},
{"adora",LLANA},
{"adores",LLANA},
{"adoras",LLANA},
{"ora",LLANA},
{"oras",LLANA},
{"eses",LLANA},
{"illo",LLANA},
{"illos",LLANA},
{"illa",LLANA},
{"illas",LLANA},
{"isimo",ESDRUJULA},
{"isima",ESDRUJULA},
{"isimos",ESDRUJULA},
{"isimas",ESDRUJULA},
{"iendo",LLANA},
{"ando",LLANA},
{"oide",LLANA},
{"oides",LLANA},
{"ing",LLANA},
{"arlo",LLANA},
{"arlos",LLANA},
{"arla",LLANA},
{"arlas",LLANA},
{"oso",LLANA},
{"osos",LLANA},
{"osa",LLANA},
{"osas",LLANA},
{"encia",LLANA},
{"encias",LLANA},
{"ano",LLANA},
{"ana",LLANA},
{"ane",LLANA},
{"anos",LLANA},
{"anas",LLANA},
{"anes",LLANA},
{"ensa",LLANA},
{"enso",LLANA},
{"ensas",LLANA},
{"ensos",LLANA},
{"ento",LLANA},
{"entos",LLANA},
{"arse",LLANA},
{"erse",LLANA},
{"irse",LLANA},
{"ible",LLANA},
{"ibles",LLANA},
{"able",LLANA},
{"ables",LLANA},
{"on",AGUDA},
{"ones",LLANA},
{"ona",LLANA},
{"onas",LLANA},
{"ial",AGUDA},
{"iales",LLANA},
{"iento",LLANA},
{"ientos",LLANA},
{"istica",ESDRUJULA},
{"istico",ESDRUJULA},
{"isticos",ESDRUJULA},
{"isticas",ESDRUJULA},
{"ogico",ESDRUJULA},
{"ogicos",ESDRUJULA},
{"ogica",ESDRUJULA},
{"ogicas",ESDRUJULA},
{"ico",LLANA},
{"ica",LLANA},
{"icos",LLANA},
{"icas",LLANA},
{"enta",LLANA},
{"anza",LLANA},
{"anzas",LLANA},
{"ero",LLANA},
{"era",LLANA},
{"eros",LLANA},
{"eras",LLANA},
{"or",AGUDA},
{"ores",LLANA},
{"eiro",LLANA},
{"eira",LLANA},
{"eiros",LLANA},
{"eiras",LLANA},
{"inyo",LLANA},
{"inya",LLANA},
{"inyos",LLANA},
{"inyas",LLANA},
{"ete",LLANA},
{"etes",LLANA},
{"ette",LLANA},
{"ettes",LLANA},
{"allo",LLANA},
{"allos",LLANA},
{"alla",LLANA},
{"allas",LLANA},
{"ar",AGUDA},
{"er",AGUDA},
{"ir",AGUDA},
{"ares",LLANA},
{"oj",AGUDA},
{"ojs",AGUDA},
{"itis",LLANA},
{"erte",LLANA},
{"erlo",LLANA},
{"izan",LLANA},
{"iza",LLANA},
{""}
};
Figura 4.1. Terminaciones con acentuación conocida.
Los resultados obtenidos con esta estrategia, que se detallarán en apartados
posteriores, son bastante exitosos, alcanzando una tasa de acierto en la predicción del
tildado del 98%. También hay que decir que de las palabras no encontradas, sólo el 54%
posee alguna de estas terminaciones. Para aumentar ese porcentaje se deberían añadir
más terminaciones a esta lista.
111
Capítulo 4. Pruebas y validación del sistema
4.2.2. Estructura de la clasificación.
A continuación se van a exponer de manera gráfica los distintos pasos por los
que va pasando una palabra que ya ha sido filtrada como palabra perteneciente al cuerpo
de la noticia. Es importante tener clara la probabilidad con la que nos podemos
encontrar en cada opción, pues también contribuye a la tasa de acierto total del sistema.
Es decir, al realizar la búsqueda en diccionarios ya estamos acertando con algunas de
ellas; y con las que no lo hacemos, posteriormente se aplicarán las técnicas MBL o
reglas para mejorar estas estadísticas.
En la Figura 4.2. se pueden apreciar las distintas decisiones que se van tomando
tras la búsqueda de una palabra en los diccionarios.
PALABRAS DEL
CUERPO DE LOS
TEXTOS
¿Es diacrítica?
SI
No se
procesa
NO
¿Es diac_tilde o
interrogativa?
SI
diac_tildes.rpt
interrogativas.rpt
NO
Búsqueda en
diccionarios
Tipos de ambigüedades: *.rpt
Ambigua
¿Encontrada?
SI
Diacríticas-tilde: diac_tildes.rpt
Interrogativas: interrogativas.rpt
Erradas: erradas.rpt
No Ambigua
Acertadas
NO
¿Terminación
conocida?
NO
SI
EXITO
Erradas: term_erradas.rpt
no_encon_term.rpt
Acertadas
Palabras no encontradas sin
terminación conocida:
no_encon.rpt
Figura 4.2. Búsqueda en diccionarios y clasificación.
112
Capítulo 4. Pruebas y validación del sistema
La aplicación genera varios ficheros de extensión .rpt, aparte de los propios
ficheros de ambigüedades. De este modo, como se puede ver en la figura anterior, para
las palabras que se han encontrado sin ambigüedad pero con una posición de tilde
distinta a la que tenía la palabra leída en los textos, son volcadas al fichero erradas.rpt.
Una muestra del mismo puede apreciarse a continuación: la primera columna presenta
las palabras leídas de los textos, y en la segunda columna, las palabras encontradas en
los diccionarios.
Palabra leída--------Palabra encontrada
Pág pag
habia había
huído huido
Morán moran
bebés bebes
Parece que tiene algún problema con los plurales: la palabra bebés no ha sido
capaz de encontrarla como plural de bebé, sino únicamente como verbo. También se
aprecia algún error debido a los nombres propios: es el caso de Morán/moran. Éstos
último poseen una más fácil solución, que es ampliando el diccionario de nombres
propios con las palabras que se vayan encontrando. Sin embargo, el porcentaje de
palabras que se encuentran como no ambiguas y se yerran es muy bajo frente al total de
palabras no ambiguas encontradas: representan menos del 2%.
Así mismo, si la palabra no ha sido encontrada en los diccionarios y posee una
terminación “conocida”, se volcará al fichero no_encon_term.rpt y se procederá a
comprobar si se ha estimado correctamente la tilde. Un ejemplo del fichero anterior se
muestra a continuación:
gravísimas
tantísimos
autoimponerse
exhaustivamente
guerristas
felipismo
felipismo
horteridad
113
Capítulo 4. Pruebas y validación del sistema
tracamandanas
españolísima
entendidísimo
judicialización
personajillos
autocompasiva
empecinadamente
Si para alguno de las palabras contenidas en el anterior fichero no se ha estimado
correctamente la tilde, estas palabras son volcadas al fichero term_erradas.rpt. Una
muestra del mismo se puede ver a continuación:
Palabra leída--------Palabra estimada
ring ríng
idearium ideárium
looping loóping
argumentum arguméntum
potissimum potissímum
zapping zápping
simposium simpósium
Como se puede ver, la mayoría de las palabras erradas cuando se ha detectado
una terminación “conocida” son extranjerismos, y la gran mayoría son anglicismos con
la terminación –ing. Dichas palabras no han sido encontradas porque no se emplearon
los diccionarios extranjeros, debido a los grandes requerimientos de recursos que se
necesitaban para cargarlos. Y se ha cometido error con ellos por intentar aplicar una
tildado del castellano a una palabra extranjera. Sin embargo, estos errores representan,
frente al total de palabras no encontradas con terminación “conocida”, tan sólo un 2%.
Finalmente, todas las palabras no encontradas en los diccionarios y que no han
sido enviadas a ninguno de los dos ficheros anteriores de palabras no encontradas, son
volcadas al fichero no_encon.rpt. El total de las palabras no encontradas en los
diccionarios representan tan sólo el 0.73% del total de palabras procesadas.
motorola
bravía
sociatas
114
Capítulo 4. Pruebas y validación del sistema
light
rock
set
sets
plastilina
personajazos
apartheid
Finalmente, el fichero que produce la aplicación con todos los datos numéricos
de los tipos de palabras que van procesando se llama estadisticas.rpt. Todos los ficheros
y datos expresados en párrafos anteriores se han obtenido ejecutando la aplicación con
un fichero que contenía todas las noticias del mes de Mayo de 1994 del diario El
Mundo, así como el fichero de estadísticas que se muestra a continuación:
Fecha y Hora de comienzo del programa: Thu Mar 30 21:24:02 2000
Artículos procesados: 4317
Frases: 100456
Palabras totales: 2367439
Palabras diacríticas (no procesadas): 402442
Palabras procesadas: 1706349
Palabras
Palabras
Palabras
Palabras
no
no
no
no
encontradas
encontradas
encontradas
encontradas
en los diccionarios: 12523
en los diccionarios sin terminación conocida: 5778
con terminación conocida y acertadas: 6610
con terminación conocida y erradas: 135
Palabras encontradas no ambiguas: 1382757
Palabras encontradas no ambiguas acertadas: 1379941
Palabras encontradas no ambiguas erradas: 2816
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
Palabras
encontradas ambiguas: 311069
encontradas ambiguas VERBO_NOMBRE: 7489
encontradas ambiguas VERBO_NOMBRE_VERBO: 41591
encontradas ambiguas VERBO_ADJET: 3519
encontradas ambiguas VERBO_ADJET_VERBO: 8212
encontradas ambiguas VERBO_VERBO: 19023
encontradas ambiguas VERBO_NOMBRE_ADJET: 7833
encontradas ambiguas ADJET_ADJET: 623
encontradas ambiguas NOMBRE_ADJET: 3203
encontradas ambiguas NOMBRE_NOMBRE: 1492
encontradas ambiguas CONJ_OTROS: 2544
encontradas ambiguas PREP_OTROS: 11738
encontradas ambiguas DEMOST_OTROS: 13284
encontradas ambiguas PRONOMBRE_OTROS: 3333
encontradas ambiguas OTROS: 310
diacríticas cuya tilde queremos conocer: 103169
interrogativas: 83706
Porcentaje de acierto (%): 81.258347
Fecha y Hora de finalización del programa: Fri Mar 31 10:02:47 2000
Tiempo de ejecución(seg): 45525.0
115
Capítulo 4. Pruebas y validación del sistema
La diferencia entre las palabras totales y las palabras procesadas más las
diacríticas (no procesadas) son las palabras que no pertenecen al cuerpo central de las
noticias. Y el porcentaje de acierto refleja el tanto por ciento de palabras encontradas no
ambiguas y con tilde acertada (1.379.941) junto a las palabras no encontradas pero con
terminación conocida y cuya tilde se ha acertado (6.610), frente a las palabras
procesadas (1.706.349), resultando el 81.26% reflejado en el fichero anterior. Este
porcentaje no representa el acierto global del sistema. El 18.74% restante no es un
porcentaje de error, sino que ahí están englobadas todas las no encontradas sin
terminación conocida, o con terminación conocida pero cuya tilde se ha errado, y todas
las palabras ambiguas: los distintos tipos de ambigüedades por categorías, interrogativas
y diacríticas cuya tilde queremos conocer. De ellas, las palabras ambiguas (incluyendo
las diacríticas e interrogativas) representan el 18.23% de todas las palabras procesadas.
Por tanto, las no encontradas erradas tan sólo constituyen el 0.53%. Sobre todas estas
palabras es sobre las que se van a aplicar técnicas MBL para mejorar los resultados.
En la Figura 4.3. se pueden apreciar los porcentajes de cada tipo obtenidos al
analizar las noticias de un mes completo:
116
Capítulo 4. Pruebas y validación del sistema
PALABRAS DEL
CUERPO DE LOS
TEXTOS
2.108.791
Palabras Procesadas
¿Es diacrítica?
1.706.349
80.92%
Porcentajes calculados
sobre Palabras
Procesadas (100%)
SI
No se
procesa
402.442
19.08%
NO
¿Es diac_tilde o
interrogativa?
SI
Porcentajes calculados
sobre Palabras
Procesadas (100%)
diac_tildes.rpt
interrogativas.rpt
NO
Búsqueda en
diccionarios
124.194
7.28%
Ambigua 311.069
Diacríticas-tilde: diac_tildes.rpt 103.169
18.23%
6.05%
Interrogativas: interrogativas.rpt 83.706
4.91%
Erradas: erradas.rpt 2.816
0.16%
No Ambigua 1.382.757
81.04%
Acertadas 1.379.941
EXITO
80.87%
1.386.551
135
81.26%
0%
Tipos de ambigüedades: *.rpt
¿Encontrada?
NO
¿Terminación
conocida?
NO
SI
12.523
0.73%
SI
Erradas: term_erradas.rpt
no_encon_term.rpt
Acertadas
Palabras no encontradas sin
terminación conocida:
no_encon.rpt
6.610
0.39%
5.778
0.34%
Figura 4.3. Porcentajes tras el procesado.
4.3. Resultados de las pruebas con el MBL.
Las primeras pruebas que se realizaron con el MBL fueron para comprobar su
correcto funcionamiento, cuando se estaba desarrollando. A partir de un silabicador ya
desarrollado en el Grupo de Tecnología del Habla, se probó el MBL para tareas de
silabicación. En un primer momento, se entrenaba al MBL con Diccionario de la Real
Academia Española, y se hacía evaluar a estas mismas palabras, consiguiendo
porcentajes de error prácticamente nulos. Posteriormente, para añadir algo de dificultad
a su tarea, se hizo que entrenara con el diccionario RAE sin tildar (previamente se
117
Capítulo 4. Pruebas y validación del sistema
desacentuaban todas las palabras del mismo) y que evaluase las palabras del diccionario
RAE tildadas, comprobando que los resultados también eran satisfactorios. Estas
pruebas servían también para ir estimando los tiempos de entrenamiento y de evaluación
del sistema. De este modo, se modificaron con posterioridad funciones de búsqueda en
los módulos de pesos y de evaluación, para agilizar los tiempos de los módulos más
lentos.
Posteriormente, y una vez se había probado la aplicación de procesado de textos
del diario El Mundo, se pasó a probar el MBL con los ficheros .rpt de ambigüedades
fruto de dicho procesado. Dichas pruebas pasan a describirse a continuación.
4.3.1. Entrenamiento con el RAE y evaluación de las palabras no
encontradas.
La primera prueba que se realizó fue la de intentar, entrenando con los ejemplos
obtenidos del diccionario RAE, estimar el tildado de las palabras procedentes del
fichero no_encon.rpt: aquellas palabras no encontradas en los diccionarios que no
poseían una de las terminaciones que consideramos con acentuación fija. Para ello, los
rasgos que se tomaron fueron letras, y las ventanas que se escogieron fueron de 5 y de
7 rasgos. Éstos resultados fueron prácticamente iguales que los que se obtuvieron al
añadir a los ejemplos un rasgo adicional: la distancia en número de sílabas de la que
contiene a la letra central de la ventana al final de la palabra. Por tanto, en esa prueba
los ejemplos contenían 6 y 8 rasgos.
Los resultados que se ofrecen en la Figura 4.4. corresponden a los realizados con
ejemplos de 6 rasgos (5 rasgos de la ventana de letras y el rasgo adicional de la distancia
silábica). Los que se realizaron sin dicho rasgo adicional (ventanas de 5 y de 7) fueron
bastante parecidos, ya que, como se puede apreciar en la Figura 4.5. (fichero de
estadísticas de los pesos), el último rasgo adicional ofrece una ganancia de entropía
mucho menor (en valor absoluto) que los demás. Tampoco se apreciaron grandes
diferencias entre los resultados obtenidos para ventanas de 5 y 7 rasgos, o entre
118
Capítulo 4. Pruebas y validación del sistema
ventanas de 6 y de 8. El añadir como rasgo una letra más a cada lado no afectaba apenas
a los resultados.
Estadísticas de la evaluación:
Tasa de aciertos (en%): 87.587940 (1743 de 1990)
Figura 4.4. Resultados tildado.
Peso rasgo nº 0 : 118942.398438
Ganancia Entropía rasgo nº 0 : -118942.093750
Peso rasgo nº 1 : 130264.210938
Ganancia Entropía rasgo nº 1 : -130263.906250
Peso rasgo nº 2 : 130688.203125
Ganancia Entropía rasgo nº 2 : -130687.898438
Peso rasgo nº 3 : 131019.187500
Ganancia Entropía rasgo nº 3 : -131018.882812
Peso rasgo nº 4 : 122938.359375
Ganancia Entropía rasgo nº 4 : -122938.054688
Peso rasgo nº 5 : 37257.785156
Ganancia Entropía rasgo nº 5 : -37257.480469
Entropía Información de la BD: 0.304138
Figura 4.5. Fichero de estadísticas de los pesos.
Si tenemos en cuenta que la probabilidad de encontrarnos con este tipo de
palabras entre las que se procesaron a partir de las noticias es de un 0.34%, y que se ha
obtenido una probabilidad de error para este tipo de palabras del 12.41%, la
contribución al error total de una de estas palabras es del 0.04%.
4.3.2. Entrenamiento y evaluación de palabras interrogativas.
Como ya se comentó anteriormente, todas las palabras que, como, cuando, quien
y quienes (o las correspondientes con tilde) que se procesaban, eran volcadas al fichero
interrogativas.rpt. A partir de dicho fichero, se diseñó un traductor que filtrase para
cada prueba una sola de las cinco palabras.
119
Capítulo 4. Pruebas y validación del sistema
Se empezó entrenando al sistema con el mismo fichero que se quería evaluar (lo
que en las figuras de resultados aparece como ficheros no-disjuntos): todo el fichero de
interrogativas restringido a cada palabra en cada caso. Posteriormente, se entrenó al
sistema con una proporción del 80% de las palabras de uno de los cinco tipos que
existiesen en dicho fichero, y se evaluaba el restante 20%. Es decir, se entrenaba y se
evaluaba al MBL con ficheros disjuntos.
Por último, se hizo también una prueba con una combinación MBL y
probabilidad: como se conocía la probabilidad de encontrar cada una de estas palabras
con y sin tilde, para aquellos casos en los que no se hubiese encontrado un ejemplo
igual que el que se evaluaba (a distancia cero del mismo), la solución que se tomaría
sería la más probable, y no se tendría en cuenta la solución estimada por el MBL. Esta
prueba aparecerá en las figuras como MBL+PROB.
A continuación se expondrán en figuras las tablas de resultados obtenidas para
cada una de las palabras por separado. Se observará que para algunas de estas palabras,
como por ejemplo quienes, el número de ejemplos con los que se ha podido entrenar es
muy bajo. No ocurre lo mismo con la palabra que, por ejemplo.
Para todos estos casos los rasgos que se han empleado han sido palabras, y las
ventanas han sido siempre de 3 palabras, centradas sobre la palabra en estudio.
120
Capítulo 4. Pruebas y validación del sistema
4.3.2.1. Palabra que.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
430
22793
430
22793
23223
23185
99,83636912
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
130
7153
430
22793
7283
6958
95,53755321
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
130
7153
430
22793
7283
7153
98,21502128
4.3.2.2. Palabra como.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
231
2754
231
2754
2985
2966
99,36348409
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
69
893
231
2754
962
866
90,02079002
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
69
893
231
2754
962
893
92,82744283
121
Capítulo 4. Pruebas y validación del sistema
4.3.2.3. Palabra quien.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
91
360
91
360
451
445
98,66962306
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
31
101
91
360
132
94
71,21212121
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
31
101
91
360
132
101
76,51515152
4.3.2.4. Palabra quienes.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
16
147
16
147
163
163
100
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
2
34
16
147
36
32
88,88888889
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
2
34
16
147
36
34
94,44444444
122
Capítulo 4. Pruebas y validación del sistema
4.3.2.5. Palabra cuando.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
8
890
8
890
898
896
99,77728285
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
4
263
8
890
267
263
98,50187266
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
4
263
8
890
267
263
98,50187266
Como puede apreciarse en los resultados, de la palabra quienes sólo hemos
podido evaluar 36 casos, por lo que no sabemos el grado de fiabilidad de dichos
porcentajes de acierto. Pero los más destacables son los de la palabra quien, ya que para
ficheros disjuntos se obtienen los peores resultados: sólo un 71.21% de acierto. Para
intentar mejorar estos resultados, y a la vista del bajo número de ejemplos quien de
entrenamiento, se decidió realizar la prueba que se explica el siguiente apartado.
4.3.2.6. Evaluación de quien entrenando con que.
Debido a cierta similitud de los contextos en los que las palabras que y quien se
acentuaban o no, se decidió entrenar el sistema con los ejemplos obtenidos de la palabra
que, ya que de esta palabra sí se disponía de un elevado número de ejemplos de
entrenamiento. Lo único que se realizó una vez el sistema había entrenado fue poner en
el fichero diccionario de pesos (pesos.dic), que genera el módulo de pesos, el peso del
rasgo central (palabra en estudio) a cero, ya que se trataba de palabras distintas.
123
Capítulo 4. Pruebas y validación del sistema
Una vez el sistema ha entrenado con dichos ejemplos, se le pasan los de la
palabra quien para que sean evaluados. Se obtuvieron los siguientes resultados:
Ficheros disjuntos (MBL)
Evaluación (QUIEN)
Entrenamiento (QUE)
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
122
461
560
29946
583
495
84,90566038
Se puede apreciar que el porcentaje de acierto se elevó en un 12%. Se observa
también que la palabra con la que se obtuvieron peores resultados (quien) era la que
presentaba una menor desproporción entre casos acentuados y sin acentuar. De ahí que
esta fuese también con la que se obtuvieron peores resultados a la hora de combinar
técnicas con la solución más probable.
4.3.3. Entrenamiento y evaluación de diacríticas-tilde.
Recordemos que bajo dicha denominación englobamos aquellas palabras
diacríticas de las que nos interesa conocer la posición de la tilde porque dependiendo de
su existencia o no, la entonación de la palabra cambia considerablemente. Las palabras
que habíamos separado como tales son:
•
aun/aún
•
el/él
•
mas/más
•
mi/mí
•
se/sé
•
te/té
•
tu/tú
A simple vista, es bastante sencillo predecir que las palabras mas y te, sin tildar,
van a aparecer bastante poco, por lo que con la simple utilización de una estrategia
basada en probabilidad se obtendrían resultados bastante satisfactorios. A continuación
124
Capítulo 4. Pruebas y validación del sistema
se detallan los resultados obtenidos para cada palabra en particular. Las condiciones de
entrenamiento y evaluación son las mismas que las ya expresadas para las palabras
interrogativas: ventanas de 3 rasgos, donde los rasgos representan palabras y una
proporción de 80/20% para la prueba con ficheros disjuntos.
4.3.3.1. Palabra aun.
Evaluación
Ficheros no-disjuntos
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
16
311
16
311
327
Palabras Acertadas
324
Porcentaje acierto
99,08256881
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
No-Acentuadas
Acentuadas No-Acentuadas Acentuadas
54
2
257
14
56
54
96,42857143
Evaluación
Ficheros disjuntos (MBL con probabilidad)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
54
2
257
14
56
Palabras Acertadas
54
Porcentaje acierto
96,42857143
4.3.3.2. Palabra el.
Evaluación
Ficheros no-disjuntos
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
484
26248
484
26248
Evaluación
Ficheros disjuntos (MBL)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
83
4313
401
21935
Evaluación
26732
4396
Ficheros disjuntos (MBL con probabilidad)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
83
4313
401
21935
4396
Palabras Acertadas Porcentaje acierto
26695
99,86158911
Palabras Acertadas Porcentaje acierto
4170
94,85896269
Palabras Acertadas Porcentaje acierto
4308
97,99818016
125
Capítulo 4. Pruebas y validación del sistema
4.3.3.3. Palabra mas.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
3585
32
3585
32
3617
3608
99,75117501
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
540
5
27
3048
545
540
99,08256881
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
540
5
27
3048
545
540
99,08256881
4.3.3.4. Palabra mi.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
103
413
103
413
516
513
99,41860465
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
18
69
85
344
87
71
81,6091954
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
18
69
85
344
87
69
79,31034483
126
Capítulo 4. Pruebas y validación del sistema
4.3.3.5. Palabra se.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
80
10517
80
10517
10597
10585
99,8867604
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
13
1831
67
8686
1844
1825
98,96963124
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
13
1831
67
8686
1844
1831
99,29501085
4.3.3.6. Palabra te.
Evaluación
Ficheros no-disjuntos
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
4
92
4
92
Evaluación
96
Ficheros disjuntos (MBL)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
1
12
3
80
13
Palabras Acertadas
Porcentaje acierto
96
Palabras Acertadas
12
100
Porcentaje acierto
92,30769231
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
1
12
3
80
13
12
92,30769231
127
Capítulo 4. Pruebas y validación del sistema
4.3.3.7. Palabra tu.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas
28
31
28
31
59
59
100
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas
3
4
25
27
7
5
71,42857143
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas
3
4
25
27
7
4
57,14285714
Observando los casos anteriores se aprecia que los resultados con MBL+prob
empeoran cuando no existe desproporción entre el número de casos tildados y sin tildar.
Es decir, en aquellos casos en los que el número de casos acentuados y sin acentuar se
pone parejo, los resultados con dicha estrategia pueden llegar a empeorar
considerablemente.
Tampoco es muy conveniente tener en cuenta aquellos resultados de palabras
con las que se ha podido entrenar con escasos ejemplos, o el número de ellos que
evaluar es muy bajo, como puede ser el caso de la palabra tu, para la que se disponía
únicamente de 7 palabras que evaluar.
4.3.4. Entrenamiento y evaluación de demostrativos-otros.
Dentro de esta denominación nos encontramos únicamente con tres casos: los de
las palabras esta, este y estas. Como es fácil de suponer, no nos encontramos ante casos
triviales, ya que, para empezar, pueden presentar tres posiciones distintas de la tilde.
Como se verá cuando se muestren los resultados en sus respectivas tablas, éstos no son
128
Capítulo 4. Pruebas y validación del sistema
satisfactorios para los casos de esta y estas. De ahí que, como se explicará más adelante,
estas dos palabras reciban un trato adicional: resolviendo la ambigüedad que presentan
respecto a su categoría (ambigüedad verbo_presente_indicativo-demostrativo) se
puede llegar a estimar su tildado, obteniendo resultados bastante más satisfactorios.
A continuación se muestran las estadísticas de los resultados obtenidos en la
realización de las pruebas con estas tres palabras. Las condiciones en las que se han
llevado a cabo son las mismas que las que se han explicado para los dos grupos de
palabras ya tratados anteriormente.
4.3.4.1. Palabra esta.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
1355
1364
1355
1364
2719
2707
99,55866127
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
168
172
1187
1192
340
182
53,52941176
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
168
172
1187
1192
340
172
50,58823529
Como se puede ver en el cuadro anterior, los resultados para ficheros disjuntos
no resultaron satisfactorios, de ahí que se pensara en otra estrategia para este tipo de
palabras.
129
Capítulo 4. Pruebas y validación del sistema
4.3.4.2. Palabra este.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
243
1958
243
1958
2201
2189
99,45479328
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
32
227
211
1731
259
221
85,32818533
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
32
227
211
1731
259
227
87,64478764
4.3.4.3. Palabra estas.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
41
362
41
362
403
401
99,50372208
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
6
54
35
308
60
49
81,66666667
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
6
54
35
308
60
54
90
130
Capítulo 4. Pruebas y validación del sistema
4.3.5. Entrenamiento y evaluación de conjunciones-otros.
Al examinar este fichero generado tras el procesamiento de los textos del
periódico nos encontramos con que tan sólo aparece la palabra porque. Nos
encontramos ante una palabra con una baja probabilidad de que se encuentre tildada, por
lo que, en un principio, parece que los mejores resultados se deberían obtener de las
pruebas MBL+prob. A continuación se muestran los resultados obtenidos para dicha
palabra al realizar las pruebas en las mismas condiciones en las que se realizaron las
anteriores.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
8
920
8
920
928
928
100
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
1
123
7
797
124
122
98,38709677
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
1
123
7
797
124
123
99,19354839
4.3.6. Entrenamiento y evaluación de preposiciones-otros.
En este caso nos encontramos frente a cuatro palabras: bajo, entre, hacia y
sobre. A primera vista, todo parece indicar que los resultados que se van a obtener para
las palabras sobre y entre van a ser los más elevados, ya que en los textos periodísticos
(que son con los que estamos entrenando y evaluando en estas pruebas) es muy difícil
encontrase con la palabra sobré. Y aunque no sea tan difícil encontrarse con la palabra
entré, la proporción de palabras entre va a ser siempre mucho más elevada, por lo que
se puede decir lo mismo de esta palabra.
131
Capítulo 4. Pruebas y validación del sistema
4.3.6.1. Palabra bajo.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
18
249
18
249
267
266
99,62546816
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
3
122
15
227
25
22
88
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
3
122
15
227
25
22
88
4.3.6.2. Palabra entre.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas
1
1253
1
1253
1432
1432
100
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas
0
178
1
1253
178
178
100
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas
0
178
1
1253
178
178
100
132
Capítulo 4. Pruebas y validación del sistema
4.3.6.3. Palabra hacia.
Evaluación
Ficheros no-disjuntos
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
76
310
76
310
Evaluación
Ficheros disjuntos (MBL)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
3
27
73
283
Evaluación
386
30
Ficheros disjuntos (MBL con probabilidad)
Entrenamiento
Palabras totales
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
3
27
73
283
30
Palabras Acertadas
Porcentaje acierto
386
Palabras Acertadas
100
Porcentaje acierto
21
Palabras Acertadas
70
Porcentaje acierto
27
90
4.3.6.4. Palabra sobre.
Ficheros no-disjuntos
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
0
1688
0
1688
1688
1688
100
Ficheros disjuntos (MBL)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
0
218
0
1470
218
218
100
Ficheros disjuntos (MBL con probabilidad)
Evaluación
Entrenamiento
Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas
No-Acentuadas
0
218
0
1470
218
218
100
Se observa que los peores resultados se obtienen para la palabra hacia. Para este
caso se intentará también otra estrategia basada en la el empleo del MBL para la
correcta categorización de esta palabra, y a partir de este dato obtener su tildado.
133
Capítulo 4. Pruebas y validación del sistema
4.3.7. Entrenamiento y evaluación de pronombres-otros.
En este fichero nos encontramos con algunas palabras que no tienen mucho
sentido y que carecen de interés. Las palabras sobre las que vamos a realizar un estudio
son las siguientes: decimos, media, ultimo, ultima, varias. Sin embargo, los resultados
obtenidos con el sistema sobre estas palabras carecen de interés alguno. En todos los
casos, y para las cinco palabras, se obtuvo un 100% de aciertos. La razón es que en
todos los ejemplos de evaluación y de entrenamiento no se encontraba ninguna de éstas
palabras tildada. Esa es la razón por la que la elección de la solución resultase tan
sencilla.
4.3.8. Entrenamiento y evaluación de la categoría gramatical en textos
860.
Debido a que disponíamos de ficheros de ambigüedades en los que las palabras
que aparecían podían llevar la tilde en una u otra posición según su categoría
gramatical, se nos planteó el entrenar el sistema MBL para que fuese capaz de detectar
la correcta categoría de una de estas palabras. De este modo, seríamos capaces de
predecir su tildado.
Esto suponía cambios en el módulo traductor, como ya se explicó en el tercer
capítulo de la presente memoria. Ahora los rasgos serían binarios, y representarían cada
uno a un tipo de categoría asociado a la/s palabra/s anterior/es y posterior/es a la palabra
en estudio. Es decir, si la ventana que se está empleando es de tres palabras, las
ventanas serán de 21 rasgos, donde los 10 primeros representarán a 10 tipos de
categorías asociados a la palabra anterior, habrá uno central siempre a 0 para la palabra
central y otros 10 para la palabra posterior. El rasgo central es necesario ya que el
número de rasgos con los que se quiere que el sistema trabaje ha de ser impar. Los
valores que pueden tomar son únicamente CATEGORIA_SI Y CATEGORIA_NO. Si
la ventana es de cinco palabras, entonces las ventanas de rasgos serán de 41 rasgos.
134
Capítulo 4. Pruebas y validación del sistema
Si se disponía de ocho ficheros .aps (textos 860), se emplearon siete de ellos
para el entrenamiento del sistema, y se evaluaba uno de ellos. Se emplearon estos textos
porque eran los únicos de los que se disponía que estaban correctamente categorizados.
El problema es que el número de casos de palabras que nos interesen no es muy
elevado, por lo que a veces era necesario ser un poco menos selectivos a la hora de
elegir los corpus de entrenamiento y de evaluación.
Una vez se ha estimado la categoría, es necesario que el sistema estime también
la tilde que debería llevar asociada si la categoría de la palabra en estudio fuese la
predicha. Para ello hubo que realizar modificaciones sobre el módulo de evaluación.
Los resultados sobre tildado que se presentan en las tablas son calculados únicamente
para los casos en los que se ha acertado en la predicción de la categoría.
Las ambigüedades que se estudiaron con esta estrategia fueron las siguientes:
verbo-nombre, verbo-pronombre y verbo_presente_indicativo-demostrativo, y se pasan
a describir los resultados de cada caso por separado.
4.3.8.1. Ambigüedad verbo-nombre.
Ventana de 3 palabras
Evaluación
Palabras Totales
Verbos
Nombres
Total
13774
13774
3991
9783
Pruebas de tildado a
partir de la cat. estimada
Ventana de 5 palabras
Evaluación
Palabras totales
Verbos
Nombres
Total
13774
3991
9783
13774
Pruebas de tildado a
partir de la cat. estimada
Categorías Acertadas
Acierto categorias (%)
12057
87.53448526
Pal. tildadas Acertadas Acierto Tildado (%)
11976
99.32819109
Categorías Acertadas
Acierto categorias (%)
12524
90.92493103
Pal. tildadas Acertadas Acierto Tildado (%)
12435
99.28936442
135
Capítulo 4. Pruebas y validación del sistema
4.3.8.2. Ambigüedad verbo-pronombre.
Ventana de 3 palabras
Evaluación
Palabras Totales
Verbos
Pronombres Total
5163
5163
3991
1172
Pruebas de tildado a
partir de la cat. estimada
Ventana de 5 palabras
Evaluación
Palabras totales
Verbos
Pronombres Total
5163
5163
3991
1172
Pruebas de tildado a
partir de la cat. estimada
Categorías Acertadas
Acierto categorias (%)
4311
83.4979663
Pal. tildadas Acertadas Acierto Tildado (%)
3834
88.93528184
Categorías Acertadas
Acierto categorias (%)
4389
85.00871586
Pal. tildadas Acertadas Acierto Tildado (%)
3962
90.27113238
4.3.8.3. Ambigüedad verbo_presente_indicativo-demostrativo (para las palabras
esta/s).
El caso de esta ambigüedad se debe a las pruebas realizadas para intentar
mejorar los resultados obtenidos para las palabras esta y estas, ya las ambigüedades
respecto a la categoría que pueden presentar dichas palabras son verbo en presente de
indicativo (verbo estar) o demostrativo (artículo o pronombre). El problema con el que
nos encontramos en este caso fue el bajo número de verbos estar en presente de
indicativo dentro de los ficheros de entrenamiento y evaluación. De ahí que se decidiese
entrenar con cualquier verbo en presente de indicativo, no sólo con el verbo estar,
además de con adjetivos y pronombres demostrativos.
El conocimiento tan en detalle de todas estas categorías de las palabras es
posible gracias al formato de las categorías de los textos 860, y que será explicado en un
anexo posterior. Las categorías 860 constan de 10 bytes. Las palabras que son presentes
de indicativo tienen el 4º y el 5º byte de la categoría con valor ‘01’, mientras que para
los demostrativos la categoría comienza con ‘A08’ para los adjetivos y con ‘R11’ para
los pronombres. A continuación se muestran los resultados obtenidos:
136
Capítulo 4. Pruebas y validación del sistema
Ventana de 3 palabras
Evaluación
Palabras Totales
Categorías Acertadas
Acierto categorias (%)
Verbos Pres. Ind. Demostrativos Total
1160
207
1307
95.61082663
1367
1367
Pruebas de tildado a
Pal. tildadas Acertadas Acierto Tildado (%)
partir de la cat. estimada
1132
86.61055853
Ventana de 5 palabras
Evaluación
Palabras totales
Categorías Acertadas
Acierto categorias (%)
Verbos Pres. Ind. Demostrativos Total
1160
207
1367
1367
Pruebas de tildado a
partir de la cat. estimada
1303
95.31821507
Pal. tildadas Acertadas Acierto Tildado (%)
1131
86.79969302
4.3.9. Entrenamiento con palabras no ambiguas y evaluación de
palabras ambiguas (ambigüedad verbo-nombre).
La última prueba que se realizó fue la siguiente, y sólo para el caso de
ambigüedades verbo nombre. Se quería que el sistema entrenase únicamente con verbos
o nombres, pero que no fuesen ambiguas. Es decir, que una palabra que apareciese
como verbo, podría aparecer como nombre posteriormente siempre que no presentase
una distinta posición de la tilde que en el caso anterior para ser considerada como
ejemplo de entrenamiento. Y viceversa.
Por el contrario, todas las palabras verbos o nombre que presentaran ambigüedad
respecto a la posición de la tilde y de su categoría, debían ser consideradas como
ejemplos de evaluación. Se realizó una única prueba, para la ambigüedad verbo-nombre,
y tanto con ventanas de tres como de cinco palabras, y estos fueron los resultados
obtenidos.
Evaluación
Verbos
Nombres
Total
2613
4176
Evaluación
Verbos
Nombres
Total
2613
4176
Ventana de 3 palabras
Palabras Totales
6789
6789
Pruebas de tildado a
partir de la cat. estimada
Ventana de 5 palabras
Palabras totales
6789
6789
Pruebas de tildado a
partir de la cat. estimada
Categorías Acertadas
Acierto categorias (%)
5562
81.92664605
Pal. tildadas Acertadas Acierto Tildado (%)
5296
95.21754764
Categorías Acertadas
Acierto categorias (%)
5718
84.22448078
Pal. tildadas Acertadas Acierto Tildado (%)
5444
95.20811473
137