Download capítulo 5 preprocesamiento - Grupo de Tecnología del Habla

Document related concepts

Punto (puntuación) wikipedia , lookup

Abreviaturas de amanuense wikipedia , lookup

Dos puntos wikipedia , lookup

Signo de exclamación wikipedia , lookup

Notación tironiana wikipedia , lookup

Transcript
Capítulo 5. Preprocesamiento
CAPÍTULO 5
PREPROCESAMIENTO
La función del Preprocesador es convertir el texto de entrada (secuencia de
caracteres) a un formato adecuado para su tratamiento por el resto de los módulos del
conversor texto-voz, especialmente el de Análisis Lingüístico. El Preprocesador es el
único que trata de forma directa con el texto de entrada, el resto de los módulos parten
de los resultados por él generados.
Queremos resaltar que en todo momento consideramos texto correctamente
escrito, y que los posibles fallos del sistema debidos a errores tipográficos (palabras mal
escritas, sin acentuar, frases escritas sin espacios en blanco entre las palabras, ...) no son
computables a la hora de evaluar el sistema.
Las principales
funciones del pre-procesado
de textos se presentan
esquemáticamente en la Figura 5.1 A la descripción detallada de cada una de ellas irá
dedicado este capítulo.
49
Capítulo 5. Preprocesamiento
Texto
segmentación
frase
Detección y
tratamiento
de unidades
especiales
números,
fechas, horas,
y romanos
nombres
propios y
compuestos
abreviaturas
y siglas
preparación de
las categorías
de cada palabra
Figura 5.1. Principales funciones del Preprocesado
5.1 SEGMENTACIÓN
Proporcionar unidades para el análisis lingüístico es el cometido de la
segmentación. La primera tarea consiste en delimitar dentro del texto la unidad de
trabajo para el resto de los módulos de análisis. En nuestro caso, coincidiendo con la
mayoría de los conversores texto-voz actuales, la unidad elegida es la frase. Hemos
decidido que el final de frase viene marcada por uno de los siguientes signos:
-
cierre de interrogación ( ? )
-
cierre de exclamación ( ! )
-
puntos suspensivos
-
final de párrafo ( ¶ )
-
punto fin de frase
seguido por una palabra que comience por letra mayúscula o por nada (final del texto).
50
Capítulo 5. Preprocesamiento
De esta manera, el sistema comprende el texto de entrada como una sucesión de
frases que irá procesando secuencialmente.
A continuación, el preprocesador reconoce y aísla las diferentes palabras que
componen la frase. Inicialmente se realiza una separación ciega por los espacios en
blanco y, a partir de ella, se separan palabras y signos de puntuación. Los signos
ortográficos se consideran suficientemente importantes como para formar una unidad
independiente con su propia categoría gramatical. Esta segunda separación es bastante
laboriosa ya que implica resolver importantes ambigüedades, por ejemplo, determinar si
un punto es fin de frase o si forma parte de una expresión numérica o una abreviatura.
En el primer caso, fin de frase, lo consideramos como una unidad independiente y por lo
tanto, debe aparecer aislado, mientras que en el segundo no puede separarse ya que
forma parte del conjunto y todo él es una unidad. Por tanto, la división de una frase en
las distintas palabras que la forma no es una tarea trivial, sino que requiere un cuidadoso
tratamiento.
En nuestro sistema cada frase forma una única estructura de datos delimitada por
una marca de comienzo y otra de fin de frase. Definimos los comienzos y finales de
frase de la siguiente forma:
•
COMIENZOS DE FRASE
Consideramos comienzos de frase:
-
signos ortográficos: ¿, ¡, (, “ , «, seguidos de una palabra que empiece por letra
mayúscula.
-
palabras que comiencen por letra mayúscula
y vayan antecedidos por un signo de final de frase o por nada (comienzo de texto).
•
FINALES DE FRASE
Como delimitadores de frase utilizamos los signos de final de interrogación ( ? ),
exclamación ( ! ), puntos suspensivos ( ... ) y el punto siempre que no forme parte de
abreviaturas o nombres propios. En el caso de expresiones numéricas o de siglas se
estudia si el punto es final de frase o forma parte de la palabra.
El error cometido por no considerar finales de frase válidos las abreviaturas es del
0.066%, evaluado sobre 10544 frases.
51
Capítulo 5. Preprocesamiento
La determinación de las palabras que componen la frase se lleva a cabo en dos fases.
La primera utiliza como separador de palabras los espacios en blanco. La segunda fase
comprueba si el resultado de la primera separación contiene signos ortográficos. En
caso afirmativo, estudia si se trata de signos ambiguos (puntos, comas, guiones, puntos
suspensivos) o de signos de interrogación, exclamación, puntos y comas. En este último
caso el proceso termina con la separación palabra-signo, resultando dos unidades
independientes.
Los signos ortográficos ambiguos requieren un tratamiento más complejo. En
primer lugar hay que estudiar si se trata de signos de puntuación o forman parte de
expresiones numéricas (ej. 11.3 litros, 2,03 metros, 12.546,7 ), fechas (ej. día 21.09.92,
fecha 28.06.94, domingo 28.08.1994 ), siglas (ej. U.S.A, S.O.S, S.A ) o abreviaturas
(ej. pág., min., etc. ). Algunas de estas unidades pueden reconocerse por tener una
estructura regular, como es el caso de los números o las fechas.
Otro signo interesante es el de los puntos suspensivos. Dada la alta variabilidad con
que pueden venir representados, consideraremos puntos suspensivos secuencias de dos,
tres o más puntos seguidos, sin espacios en blanco entre sí. Una vez aislados, hay que
determinar si funcionan como limitadores de frases o como un signo ortográfico dentro
de la frase. Por ejemplo, en la frase:
La publicación del libro está prevista para el próximo verano, pero un «duende
de imprenta» acaba de filtrar a la prensa el más jugoso de sus capítulos: una
tórrida escena de amor entre una espía alemana y el jefe de personal de la Casa
Blanca...
funciona como limitador , mientras que en esta otra:
Patalea, protesta... pero nada, no ha sido capaz de detener esta producción.
funciona como signo ortográfico dentro de la frase.
Algunas de sus funciones principales son [Castro 99]:
a) marcar interrupciones en un discurso: Y así seguimos hasta que... En fin, hasta
que ganamos.
52
Capítulo 5. Preprocesamiento
b) Indicar una pausa que precede a una sorpresa para el lector: Y cuando llegó él,
apareció... ¡su esposa!
c) Expresar emoción, titubeo, expectación, etc.: Sí... claro... buf, qué horror.
d) Omitir datos que se creen conocidos por el lector dentro de una enumeración:
Son abundantes los topónimos árabes en América: Guadalupe, Guadalajara...
e) Sustituir palabras o fragmentos de palabras que el autor no quiere mencionar: El
maldito ... siempre estaba fastidiándonos.
Los puntos suspensivos pueden ir acompañados de otros signos, a excepción del
punto. Asimismo, si se cita un texto en el que se omiten algunos fragmentos, deberán
incluirse puntos suspensivos entre corchetes. Si una frase comienza por puntos
suspensivos porque se omite intencionadamente el comienzo, los puntos deben ir
seguidos de un espacio. La combinación de puntos suspensivos con etcétera es
redundante y debe evitarse.
Ejemplos
Las principales etnias negras —bantúes, masais, hutus...— llegaron después.
¿Debería divorciarme?...
¡No tires, me vas a romper la ...!
Sobre el siglo XVI [...] los flamencos [...] admitieron la superioridad comercial.
... a la orilla del mar, por fin.
Un signo ortográfico especialmente importante en la segmentación del texto es el
guión. Este elemento puede desempeñar múltiples funciones; ser usado como paréntesis
(ej. “¿Es Navarra –como usted sostiene- «una nacionalidad» histórica?” o
“La
decisión del presidente sudafricano –aunque esperada- suscitó ayer un enorme revuelo
en todo el espectro político del país.”), como continuador al final de una línea (en los
textos periodísticos con los que trabajamos no hemos encontrado ningún guión que
desempeñe esta función), para la formación de palabras compuestas (ej. físico-químico,
franco-alemanes, ex-cargo), siglas (ej. Tele-5, TV-3, PSE-PSOE ), abreviaturas (ej.
carretera N-III, m/s, km/h), fechas (ej. 31-12-88, 23-3-1992, 14-9-1980 ).
53
Capítulo 5. Preprocesamiento
Para ilustrar el funcionamiento del bloque de segmentación, veamos un ejemplo:
•
Texto de entrada:
El doctor Faraco merece felicitación pública. En esta España de tantas campañas
sanitarias, donde a todos nos quieren quitar del tabaco, nadie habla del mal ejemplo de
salud dental que dan muchos políticos, con la boca poco menos que cayéndoseles a
pedazos. Quizá como la odontología, salvo las extracciones dentarias, no está incluida
en la Seguridad Social, no quiere el Ministerio de Sanidad poner la miel en los labios
de lo que la mayoría de los españoles se tienen que pagar de su bolsillo o con cargo a
la iguala sanitaria privada, como es la siempre más que dolorosa factura del dentista.
Se ve que González, que antes no era precisamente ejemplo de higiene bucal, tiene la
dentadura mejor cuidada desde que Faraco es el encargado de la bodeguilla
estomatológica.
•
Segmentación en frases:
Frase1. El doctor Faraco merece felicitación pública.
Frase2. En esta España de tantas campañas sanitarias, donde a todos nos quieren
quitar del tabaco, nadie habla del mal ejemplo de salud dental que dan
muchos políticos, con la boca poco menos que cayéndoseles a pedazos.
Frase3. Quizá como la odontología, salvo las extracciones dentarias, no está
incluida en la Seguridad Social, no quiere el Ministerio de Sanidad poner la
miel en los labios de lo que la mayoría de los españoles se tienen que pagar
de su bolsillo o con cargo a la iguala sanitaria privada, como es la siempre
más que dolorosa factura del dentista.
Frase 4. Se ve que González, que antes no era precisamente ejemplo de higiene bucal,
tiene la dentadura mejor cuidada desde que Faraco es el encargado de la
bodeguilla estomatológica.
54
Capítulo 5. Preprocesamiento
•
División de las frases en palabras:
Frase: Según el ex gobernador, había dado órdenes a Manuel de la Concha
para que no invirtiera en bancos, ya que era incompatible con su condición de máximo
responsable del banco emisor.
Tras la división:
[Según] [el] [ex] [gobernador] [,] [había] [dado] [órdenes] [a] [Manuel]
[de] [la] [Concha] [para] [que] [no] [invirtiera] [en] [bancos] [,] [ya] [que]
[era] [incompatible] [con] [su] [condición] [de] [máximo] [responsable] [del]
[banco] [emisor] [.]
5.2 DETECCIÓN DE UNIDADES ESPECIALES
Tras delimitar la frase y las diferentes palabras que la componen, el siguiente
paso es detectar unidades que requieren un procesado especial: números, fechas, horas,
abreviaturas, nombres propios, números romanos, ... Esta tarea es necesaria para la
correcta y completa categorización de la frase y en definitiva para su correcta lectura.
Para que el sistema pueda detectar estas unidades especiales tiene que saber qué
es lo que debe reconocer. Por lo tanto, lo primero es definir cada uno de los casos a
reconocer.
5.2.1
•
DEFINICIÓN DE UNIDADES
ABREVIATURAS
La abreviatura se forma de una sola letra o de una sola palabra y no se puede
pronunciar en la mayor parte de los casos: cta., cuenta; sta., señorita. Tienen flexión de
género: Sr., Sra., ntro., ntra., y de número; si están constituidas por una sola letra,
normalmente ésta se duplica para indicar el plural: de c.f., ff.cc. (ferrocarriles). Si la
abreviatura es de un tiempo verbal no admite forma plural; así, v. (véase o véanse).
Cuando la abreviatura termina en consonante, el plural se forma añadiendo el morfema
55
Capítulo 5. Preprocesamiento
–es: de gral., grales.; Sr., Sres. Aunque hay algunas excepciones: Ud., Uds.; pág.,
págs.; o vol., vols. Cuando la abreviatura termina en vocal, el plural se forma
añadiendole una –s: de Sra., Sras.; Itre., Itres. Las abreviaturas llevan punto y cuando
van seguidas van separadas por espacio: p. ej., (por ejemplo). Después del punto
admiten cualquier signo de puntuación, excepto otro punto.
Es imposible sujetar a números y reglas fijas y constantes las abreviaturas, habiendo
libertad para convenir en cuantas sean necesarias y oportunas. No obstante, la
costumbre si ha consagrado algunas abreviaturas de uso común, incluidas en una lista
por la Real Academia Española en el Esbozo de una nueva gramática de la lengua
española.
De acuerdo con la Academia y con todos los lingüistas, las abreviaturas terminan en
punto y tienen flexiones de género y número. Sin embargo, algunas abreviaturas
aprobadas en 1949 por la asamblea general de la Unión Internacional de Física son
consideradas como símbolos, cuando se trata de medidas del sistema métrico decimal;
se escriben sin punto y son invariables, es decir van siempre en singular: cl
(centilitro/s), cm (centímetro/s). Con los símbolos es imposible la regla de empezar con
mayúscula la primera letra después de punto. Por ejemplo, dl es abreviatura de decilitro;
si hubiéramos puesto Dl, esta no sería la abreviatura de decilitro, sino la de decalitro.
Es importante observar que mientras que las abreviaturas que tratamos en este texto,
pertenecen a la lengua española, los símbolos del sistema métrico son una convención
internacional y su grafía es, por lo tanto, la misma en todas las lenguas que utilicen el
alfabeto latino.
La Real Academia no establece la diferencia entre las abreviaturas y los símbolos.
La lista se titula Abreviaturas que más comúnmente se usan en castellano; a pesar de
ello, faltan símbolos tan comúnmente usados como km (kilómetro); figura el símbolo m.
(minuto/s), en cambio no figura el de hora ni el de metro. Desconocemos cuál es el
criterio de la Academia con respecto a c.c. (centímetro/s cúbico/s), en lugar de c c; y
algo semejante ocurre con pta. (peseta), que en la lista anterior tiene dos plurales: ptas.,
pts. (pesetas). El símbolo pta (peseta/s) forma parte del sistema métrico decimal, y así
es reconocido internacionalmente, no es necesario el punto ni la forma plural, ya que
suele ir precedido por un número [EFE 99].
De acuerdo con lo expuesto anteriormente, para la detección de la abreviaturas, el
sistema comprueba que se trata de palabras terminadas en punto, no escritas
56
Capítulo 5. Preprocesamiento
completamente en mayúsculas y seguidas de una palabra escrita en minúsculas. Se
admiten tres posibles formatos:
-
palabras escritas en minúsculas y terminadas en punto. Ejemplos: min., ej., etc.
-
palabras cuya primera letra es mayúscula, el resto son minúsculas y acaban en
punto. Ejemplos: Pág., Sr., Cap..
-
letra + punto + letra. Ejemplos: a.m, V.O, c.c.
Posteriormente un módulo se encarga de su expansión.
•
SIGLAS
Las siglas, al igual que las abreviaturas, se reconocen vía expresión regular. Se
distinguen tres casos:
-
palabras de entre dos y cinco letras escritas en mayúsculas. Ejemplos: PP, ETA,
PSOE. La decisión de limitar el tamaño de las siglas de dos a cinco letras se
debe a que palabras de una letra y de más de cinco no son fiables1.
-
palabras con el formato “mayúscula + punto “. Ejemplos: U.S.A, C.E.E, S.A.
-
palabras de la forma “mayúscula + número”. Ejemplos: U2, C15, CD4.
Para el caso de las siglas se reduce la variabilidad tipográfica admitiendo un único
formato (palabra con todas sus letras en mayúsculas) con el propósito de facilitar su
tratamiento posterior. En el mismo proceso de reconocimiento se quitan los puntos, en
el caso de que los tengan. Así, si en el texto de entrada aparece U.S.A, se convierte en
USA. Posteriormente un módulo se encarga de su expansión, al igual que en el caso de
las abreviaturas.
•
NÚMEROS
Conjuntos de dígitos que responden a una de las siguientes estructuras:
-
uno o más dígitos del 0 al 9. Ejemplos: 25, 795, 3204.
-
uno o más dígitos del 0 al 9 seguidos por una coma y uno o más dígitos del 0 al 9
(formato decimal español). Ejemplos: 2,06, 87,3, 52,270.
-
Grupos de tres dígitos del 0 al 9 separados por puntos. El primer grupo puede
constar de 1, 2 ó 3 dígitos. El punto se utiliza para indicar unidades, decenas,
1
En el apartado 5.2.4 de este Capítulo se justifica esta decisión.
57
Capítulo 5. Preprocesamiento
centenas de mil, de millar ... El último grupo puede ir seguido de una coma y uno o
más dígitos del 0 al 9. Ejemplos: 1.200, 360.000, 40.020.
Los dos últimos formatos coinciden con lo expuesto por en [Oroz 99] sobre la forma
de escribir los números. En los números, la coma se utiliza solamente para separar la
parte entera de la parte decimal. Para facilitar la lectura, los números pueden estar
divididos en grupos de tres cifras (a partir de la coma, si hay alguna): estos grupos no se
separan jamás por puntos ni comas. La separación en grupos no se utiliza para los
números de cuatro cifras que designan un año.
Además hemos aceptado dentro de este grupo número cuyo primer dígito es una l,
ya que hemos observado que algunos autores utilizan dicha letra en lugar del 1 (error
tipográfico). Ejemplos: el l2 de junio, (l927-l936), año l939.
•
FECHAS
Conjuntos de números que presentan uno de los siguientes formatos:
-
día-mes-año o día/mes/año: número del 1 al 31 + (-, /) + número del 1 al 12 + (-. /)
+ grupo de 1 a 4 dígitos del 0 al 9. Ejemplos: 21-02-94, 21-06-94, 26/7/94.
-
día.mes.año: número del 1 al 31 + . + número del 1 al 12 + . + grupo de 1 a 4 dígitos
del 0 al 9. En un principio no considerábamos este formato pero durante la fase de
entrenamiento decidimos incluirlo. Ejemplos: 28.12.94, 24.11.1994, 04.12.84.
-
día-mes o día/mes: el formato es el mismo que el anterior suprimiendo la parte
correspondiente al año (el grupo final de dígitos). No hemos encontrado ningún caso
con este formato.
-
Mismo formato que los anteriores pero con el mes escrito con números romanos.
Ejemplos: 31-XII-1987, 18-II-1995, 9-I-1990.
-
Mismo formato que los anteriores pero el mes aparece escrito con letras. En este
caso se comprobará que la palabra se corresponde con un mes (enero, febrero...
diciembre). Ejemplos: 1-marzo-1995, 7-enero-1995, 25-noviembre-1991.
El orden normal en nuestro idioma es día + mes + año, tanto si se escribe todo con
letras como si se combina números y letras, o sólo números. En países donde coexistan
varios formatos de hora o donde la influencia de otro idioma sea grande, puede ser
58
Capítulo 5. Preprocesamiento
recomendable escribir los meses en números romanos. Los nombres de los meses –igual
que los de las estaciones y los días de la semana- se escriben en minúsculas [Castro 99].
•
HORAS
Dos o tres grupos de dígitos separados por dos puntos (:) con la siguiente
estructura:
-
hora : minuto : segundo. Número del 0 al 23 + : + número del 0 al 59 + : + número
del 0 al 59. Ejemplos: 11:24:54, 1:13:10, 12:38:35.
-
hora : minuto. Número del 0 al 23 + : + número del 0 al 59. Ejemplos: 19:30,
21:38, 12:51.
-
Khora.minuto. K + número del 0 al 23 + . + número del 0 al 59. Ejemplos:
K22.00 h., K23.30 h., K13.00 h. Este formato horario aparece en los artículos de
Televisión para indicar la hora y cadena de emisión de un determinado programa,
por ejemplo: El programa de Cousteau también muestra imágenes insólitas de la
isla. K22.00 h. La 2¶, En el espacio también se ofrece una entrevista con la actriz
Rosa María Sardá y el director Fernando Colomo. K22.30 h. A 3¶.
En algunos países hispanohablantes se emplea el sistema estadounidense (p.m y
a.m) y, en otros, el sistema de veinticuatro horas. En cualquier caso, las horas no pueden
separarse con comas, pues no son cifras decimales sino sexagesimales. El iso emplea
los dos puntos para separar las horas y este es el criterio adoptado por nosotros.
•
NÚMEROS ROMANOS
Determinadas combinaciones de las siguientes letras escritas en mayúsculas: I, V,
X, L, C, D y M. Ejemplos: siglo XIX, II Guerra Mundial, IV Asamblea Federal. El
detector comprueba que sea una combinación válida, así VV ó LMX no serían
considerados números romanos.
•
NOMBRES PROPIOS
Palabras que empiecen por mayúscula y las demás letras
sean minúsculas.
Ejemplos: España, Rodríguez, Cristina.
Cuando un nombre propio aparece al comienzo de una frase, si no está en alguno de
los diccionarios de nombres propios no se considera como tal. El error cometido por
esta decisión es del 2.7%, evaluado sobre 10544 frases.
59
Capítulo 5. Preprocesamiento
•
COMPUESTOS
Distinguimos los siguientes casos:
1. Nombres propios
Grupos de dos o más palabras que se caracterizan porque cada una de ellas
comienza por mayúscula y las demás letras son minúsculas. Ejemplos: El Corte Inglés,
Semana Santa, Ramón Mendoza.
2. Nombres propios con abreviatura
Igual que el caso anterior pero al menos una de las palabras que forman el
compuesto es de la forma “mayúscula + punto”. Ejemplos: Luis R. Manzanares, César
V.A, O. Menocal.
3. Compuestos con de/del
Grupos de tres o más palabras entre las que aparece la partícula “de” o “del”. Se
contemplan dos casos:
-
Una o más palabras cuya primera letra es mayúscula y las restantes son minúsculas
+ de/del + palabras que empiecen por mayúscula y las demás letras sean minúsculas.
Ejemplos: Ministerio del Interior, Instituto Nacional de Estadística, Comunidad de
Madrid.
-
Una o más palabras cuya primera letra es mayúscula y las demás son minúsculas +
de + la/los/las + una o más palabras que comienzan por mayúscula. Ejemplos:
Congreso de los Diputados,
Ricardo de la Cierva,
Instituto Nacional de la
Seguridad Social.
4. Compuestos con guión
Grupos de dos o más palabras que se caracterizan por estar unidas por un guión y
empezar por letra mayúscula. Ejemplos: Díaz-Ambrona, Ruíz-Giménez, Castilla-León.
•
FIRMAS DE AUTORES
Nombres propios escritos en mayúsculas. Se distinguen dos casos:
1. Sin abreviatura
Ejemplos: ANTONIO GARCIA-TREVIJANO,
JUAN DELIBES.
60
ANTONIO JIMENEZ ALVAREZ,
Capítulo 5. Preprocesamiento
2. Con abreviatura
Ejemplos: LUIS G . CAVIEDES, P.BLASCO/B.MUÑOZ, F.BERMEJO.
Estos nombres corresponden a artículos firmados por parte de sus autores. Veamos
dos ejemplos concretos:
Ejemplo1
La burla sardónica de González¶
Sr. Director:¶
Tras recibir a los señores Carlos Lage y José Luis Rodríguez,
enviados de Castro, el señor don Felipe González, presidente
[...]
¿O es que no interesa la libertad de Cuba? ¿Será, tal vez,
éste el quid de la cuestión?¶
OFELIA G. MENOCAL¶
Ejemplo 2
Se suele decir que a los italianos les falta
el valor en la guerra y les sobra el talento en la política.
[...]
Y si lo abandona, en favor de la fórmula política
Berlusconi, empezará en Italia el conflicto social que amenaza
el retorno al Estado liberal.¶
ANTONIO GARCIA-TREVIJANO es abogado y escritor.¶
•
TITULOS
Palabras escritas en mayúsculas que dan nombre al artículo. Distinguimos dos casos:
-
Una o varias palabras escritas en mayúsculas + . + -. Ejemplos: DESPILFARRO.-,
LONDRES.-, PROPIEDADES EN ESPAÑA . -.
- Grupos de palabras escritos en mayúsculas cuya primera palabra no es un nombre
propio. Ejemplos: LA FISCAL SIN PIEDAD, TENIS PALERMO, BASTIONES DE
PODER.
A continuación figuran dos ejemplos para clarificar más a lo que nos estamos
refiriendo:
61
Capítulo 5. Preprocesamiento
Ejemplo 1
TEXTO : El Príncipe Eduardo de Inglaterra se casará
en julio¶
LONDRES.- El Príncipe Eduardo, hijo menor de la Reina de
Inglaterra, se casará a finales del próximo mes de julio
o a principios de agosto, según la prensa británica, que
asegura que los preparativos para el enlace se encuentran
muy avanzados.
Ejemplo 2
No parece que los guerristas
vayan a consentir la maniobra, ni que quieran perder una
de sus todavía plazas fuertes.¶
BASTIONES DE PODER En Canarias, tras la pérdida del
Gobierno
a manos de la coalición nacionalista, Jerónimo Saavedra
recibió el premio de un Ministerio.
•
COMBINACIONES DE LETRAS, NÚMEROS, NÚMEROS ROMANOS Y
GUIONES
Los casos contemplados son los siguientes:
-
Mayúscula + - + número. Ejemplos: A-3, F-18, M-30.
-
Mayúscula + / + número. Ejemplos: A/310, K/5104 .
-
Mayúscula + - + número romano. Ejemplos: N-VI, N-III .
-
Letra + - + palabra. Ejemplos: e-mail, T-shirt, M-Technic.
-
letra + / + palabra. Ejemplos: y/o, c/Gabelas, B/C.
•
GUIONES ( -, / )
Los guiones encontrados en el texto cumplen las siguientes funciones:
-
Formación de palabras compuestas. Ejemplos:
contencioso-administrativo,
hombre-máquina, castellano-manchego.
-
Siglas. Ejemplos: A3-TV, SOMA-FIE-UGT, TV-3.
-
Abreviaturas. Ejemplos: kg./cm2, km/hora, pts./metro.
-
Expresar género y número. Ejemplos: querido/a, los/las, lectores/as.
62
Capítulo 5. Preprocesamiento
-
Paréntesis. Ejemplos: Rocha –según declaración de otra de las inculpadas- había
ingresado dos días antes del 28 de septiembre la cantidad de 243.000 pesos”, “Los
gatos –blancos o negros- siguen relamiéndose.
•
GUIONES DOBLES ( -- )
Expresiones o frases en las que aparezcan dos guiones seguidos. Ejemplos: Dos
años de AVE--Se cumplen dos años de AVE, que es lo único que queda de [...],
BERLIN.- El Bundestag -Parlamento alemán-- aprobó ayer por tan sólo 7 votos de
ventaja la controvertida ley [...].
•
PALABRAS SIN VOCALES
Palabras que no contienen ninguna vocal,
tanto acentuada como sin acentuar.
Ejemplos: m2, SPf66, Cds.
•
%, #, &, @, $
Ejemplos:
-
60%, 2,25% .
-
#El Ecofín no sabe cómo financiar la red de infraestructuras¶
-
rock & rol, AT&T, Plaza & Janés.
-
[email protected], tó[email protected].
-
Gil $¶
Andrijasevic $$$¶
Gudelj $$¶
Cambios: J.Aguirre por Vicente en el min.77 $¶
Salva por Ratkovic en el min.86 $¶
El signo & es una duda común entre los profesionales que trabajan con el idioma.
Su nombre es español es et, pues es una deformación gráfica del vocablo latino er. En
inglés se denomina ampersand, como deformación de and per se and. Se pronuncia Y,
pues a tal conjunción sustituye. No es cierto que sea un símbolo inglés, ya que del latín
pasó a muchos idiomas, incluido el español, aunque su uso en nuestra lengua es
superfluo pues no resulta económico (a diferencia de otros idiomas) ya que la
conjunción Y tiene una grafía breve y sencilla. Según Buonocore, «la traducción del
63
Capítulo 5. Preprocesamiento
signo & es y, and, et, und, etc., según el idioma sea el español, inglés, francés [o latín] o
alemán». En textos españoles antiguos pueden hallarse la forma &c o & cétera
[Castro 99].
•
PALABRAS CON CARACTERES ESPECIALES ( ¨, ‘ , ç, ^)
Ejemplos:
-
Citroën, Tannhäuser, Maitre.
-
Ornella d`Orazzi, L`Oreal, Fouquet`s.
-
Barça, força, François.
-
Château, tête, Côte-d»Or.
5.2.2
EL DETECTOR DE UNIDADES ESPECIALES
El módulo encargado del reconocimiento de las unidades definidas en el
apartado anterior recibe como entrada una frase donde las palabras y signos ortográficos
están claramente definidos, es decir, la salida del módulo de segmentación. El detector
de unidades especiales va recorriendo la frase, palabra por palabra, comprobando si se
ajustan a alguna de las definiciones anteriores. Cada palabra lleva asociado un código o
rasgo; se trata de un conjunto de 64 bytes, aunque nosotros solo utilizamos 32, para
indicar si se trata de una unidad especial o no, y en caso afirmativo, de qué unidad
concreta se trata. Por ejemplo, una abreviatura tendrá un ‘1’ en el byte 1, mientras que
una hora tendrá un ‘1’ en el byte 31.
Algunos de estos rasgos no son excluyentes entre sí; así una palabra puede ser
número romano y fin de frase, por ejemplo XXI:
Personajes del mundo de la política y de las artes acudieron a esta cita, que
desbordó todas las previsiones de los responsables del Club Siglo XXI.
o comienzo de frase y abreviatura (bytes 0 y 1 a ‘1’), por ejemplo Pág.:
Nirvana era uno de los grupos de rock más representativos de los años 90.
Pág. 81¶
64
Capítulo 5. Preprocesamiento
Si la palabra analizada no se corresponde con ninguna unidad especial, tendrá un
‘0’ en todos los bytes de su rasgo. De manera que leyendo este campo se puede saber si
se trata de una unidad especial o de una palabra normal, y distinguir el tipo de unidad
especial en cuestión.
Nuestro detector de unidades se implementa como un autómata finito
reconocedor de secuencias regulares, libres de errores tipográficos. Para realizar su tarea
cuenta con la ayuda de un conjunto de diccionarios2, tanto generales como específicos
(siglas, abreviaturas, nombres, etc.).
La categorización de las unidades especiales se realiza según se van
reconociendo. En consecuencia, el detector realiza una doble labor: identificar las
unidades especiales que hay en la frase, y una vez detectadas, les asigna la categoría
gramatical correspondiente. Además existe un fichero de depuración para cada unidad
especial con su mismo nombre. Cuando el detector reconoce una abreviatura, por
ejemplo, la marca con el rasgo NUM_RASGO_ABREVIATURA, es decir, pone a ‘1’
el byte 1 y la escribe en el fichero abreviaturas.dep.
5.2.3
LOS RASGOS
En un principio definimos 29 rasgos (bytes 0-28). Sin embargo, durante el
proceso de entrenamiento decidimos variar el conjunto inicial introduciendo nuevos
rasgos y cambiando otros ya existentes. La Tabla 5.1 muestra el conjunto inicial de
rasgos.
Los rasgos cambiados fueron:
-
NUM_RASGO_SIGLA12. Este rasgo desapareció debido a que decidimos no
considerar como siglas aquellas palabras de una sola letra mayúscula, y las de dos
letras las agrupamos dentro del rasgo NUM_RASGO_SIGLA.
-
NUM_RASGO_SIGLA_DUDA.
Por otra parte, definimos 5 nuevos rasgos:
-
NUM_RASGO_COMPUESTO860: Compuestos cuya primera palabra en un
nombre propio.
2
Ver Capítulo 6.
65
Capítulo 5. Preprocesamiento
-
NUM_RASGO_COMPUESTO_DUDA: Compuestos cuya primera palabra es
desconocida para el sistema o es una forma verbal.
-
NUM_RASGO_COMP_ABREVIA_M: Nombres propios con abreviatura escritos
en mayúsculas.
-
NUM_RASGO_SIGNO_ESPECIAL: %, #, &, @, $ y palabras que contienen
alguno de los siguientes signos: ¨, ‘, `, ^, ç.
-
NUM_RASGO_LETRA: Letras mayúsculas y minúsculas seguidas de un ‘)’o un
punto.
El conjunto final consta de 32 rasgos (bytes 0-31) y se muestra en la Tabla 5.2.
RASGO
NÚMERO
RASGO
NÚMERO
NUM_RASGO_COMIENZO
0
NUM_RASGO_NUMERO
14
NUM_RASGO_ABREVIATURA
1
NUM_RASGO_NUMERO_ERROR
15
NUM_RASGO_ABREVIA_DUDA
2
NUM_RASGO_NUMERO_GUION
16
NUM_RASGO_SIGLAOK
3
NUM_RASGO_TITULO
17
NUM_RASGO_SIGLA12
4
NUM_RASGO_FIRMA
18
NUM_RASGO_SIGLA
5
NUM_RASGO_FIRMA_DUDA
19
NUM_RASGO_PROPIOS
6
NUM_RASGO_ESPECIAL
20
NUM_RASGO_PROPIOS_DUDA
7
NUM_RASGO_HORA
21
NUM_RASGO_COMPUESTO
8
NUM_RASGO_NO_HORA
22
NUM_RASGO_COMPUESTO_D
9
NUM_RASGO_FECHA
23
NUM_RASGO_COMP_ABREVIA
10
NUM_RASGO_FECHA_LETRA
24
NUM_RASGO_GUION
11
NUM_RASGO_NO_FECHA
25
NUM_RASGO_ROMANO
12
NUM_RASGO_LNUMERO
26
NUM_RASGO_ROMANO_DUDA
13
Tabla 5.1. Rasgos iniciales para la caracterización de las unidades especiales
66
Capítulo 5. Preprocesamiento
RASGO
NÚMERO
RASGO
NÚMERO
NUM_RASGO_COMIENZO
0
NUM_RASGO_NUMERO
16
NUM_RASGO_ABREVIATURA
1
NUM_RASGO_NUMERO_ERROR
17
NUM_RASGO_ABREVIA_DUDA
2
NUM_RASGO_NUMERO_GUION
18
NUM_RASGO_SIGLAOK
3
NUM_RASGO_TITULO
19
NUM_RASGO_SIGLA
4
NUM_RASGO_FIRMA
20
NUM_RASGO_PROPIOS
5
NUM_RASGO_FIRMA_DUDA
21
NUM_RASGO_PROPIOS_DUDA
6
NUM_RASGO_ESPECIAL
22
NUM_RASGO_COMPUESTO860
7
NUM_RASGO_HORA
23
NUM_RASGO_COMPUESTO
8
NUM_RASGO_NO_HORA
24
NUM_RASGO_COMP_DUDA
9
NUM_RASGO_FECHA
25
NUM_RASGO_COMPUESTO_D
10
NUM_RASGO_FECHA_LETRA
26
NUM_RASGO_COMP_ABREVIA
11
NUM_RASGO_NO_FECHA
27
NUM_RASGO_COMP_
ABREVIA_M
NUM_RASGO_GUION
12
NUM_RASGO_SIGNO_ESPECIAL
28
13
NUM_RASGO_SIN_VOCALES
29
NUM_RASGO_ROMANO
14
NUM_RASGO_LETRA
30
NUM_RASGO_ROMANO_DUDA
15
NUM_RASGO_LNUMERO
31
Tabla 5.2. Rasgos finales empleados para la caracterización de unidades especiales
5.2.4
FICHEROS DE DEPURACIÓN
Cada unidad especial reconocida por el detector se escribe en un fichero de
depuración de manera que posteriormente se pueda evaluar el porcentaje de acierto del
detector. También permiten sacar diccionarios específicos, por ejemplo, de siglas o
nombres propios o completar los ya existentes.
Hay 46 ficheros de depuración, ya que muchas unidades llevan asociados dos
ficheros, por ejemplo para el caso de las horas, las que se ajustan a alguno de los
formatos válidos se escriben en el fichero horas.dep y las que no en dos_puntos.dep.
Lo mismo ocurre para los números, los números romanos y las fechas.
Por otra parte, para los nombres propios también existen dos ficheros:
propios.dep, cuando se encuentra en alguno de los diccionarios de nombres propios, y
propios_duda.dep para los candidatos a nombres propios, aquellas palabras que
67
Capítulo 5. Preprocesamiento
cumplen la definición de nombre propio pero no se encuentran en ninguno de los
diccionarios de nombres propios. En este segundo grupo tenemos, además de los
nombres propios, las firmas y las abreviaturas.
Las siglas y los compuestos forman un caso especial ya que hay 5 ficheros de
depuración para acrónimos: siglas2.dep, siglas_números.dep,
siglas.dep
y siglas_duda.dep,
y
siglas_ok.dep,
6 para los compuestos: compuestos860.dep,
compuestos.dep, compuestos_duda.dep, compuestos_d.dep, comp_abrevia.dep y
comp_abrevia_M.dep.
Además los comienzos y finales de frase, los verbos y las formas verbales con
pronombre enclítico también tienen su correspondiente fichero de depuración. Todas las
unidades especiales detectadas, así como el número de artículos, frases,
palabras
procesadas se resumen en el fichero resultados.dep.
La Tabla 5.3 presenta los ficheros de depuración existentes así como la unidad
especial a la que se asocian.
•
COMIENZOS
En este fichero se escriben todos los comienzos de frase. Hemos hecho un
estudio de qué palabras para saber cuáles son las más habituales.
Si analizamos los textos del periódico EL MUNDO, los comienzos de frase que
más se repiten son 3:
-
«
-
Según (0.71 %)
-
¿
-
P (0.38 %)
-
R (0.35 %)
-
# (0.27 %)
(1.93 %)
(0.59 %)
P y R son, respectivamente, las abreviaturas de Pregunta y Respuesta, utilizadas en
los artículos de entrevista. El símbolo # se utiliza para indicar el comienzo de título de
un artículo, por ejemplo: #Elecciones: los deseos y la realidad¶.
3
Datos correspondientes a los comienzos de frase de un año.
68
Capítulo 5. Preprocesamiento
Fichero de depuración
Unidad especial
Fichero de depuración
Unidad especial
Abreviaturas
Abreviaturas
Propios_duda
Nombres propios
Abrevia_duda
Abreviaturas
Compuestos860
Nombres propios
Siglas1
Siglas
Compuestos
Compuestos
Siglas2
Siglas
Compuestos_duda
Compuestos
Siglas_numeros
Siglas
Compuestos_d
Compuestos
Siglas_ok
Siglas
Comp_abrevia
Compuestos de/del
Siglas
Siglas
Comp_abrevia_M
Siglas_duda
Siglas
Guiones
Compuestos con
abreviatura
Guiones
Letras
Letras
Guiones_dobles
Guiones_dobles
Palabras_conSigno
Palabras con
caracteres especiales
( ¨, ‘ , ç, ^)
Firmas con
abreviatura
Firmas de autores
Casos_especiales
Numeros
Combinaciones de
letras, números y
guiones
Números
Firmas
Lnumero
Números
Firmas_duda
Numeros_error
Números
Títulos
Numeros_guion
Números
Signos_especiales
Títulos
%, #, &, @, $
Romanos
Números romanos
Sin_vocales
Palabras sin vocales
Romanos_duda
Números romanos
Comienzos
-
Fechas
Fechas
Finales
-
Fechas_letra
Fechas
Verbos
-
No_fechas
Fechas
Encliticos
-
Horas
Horas
Verbos_conPrefijo
-
Horas_k
Horas
Palabras_conPrefijo
-
Dos_puntos
Horas
Erratas
-
Resultados
-
Propios
Nombres propios
Tabla 5.3. Ficheros de depuración
69
Capítulo 5. Preprocesamiento
Dentro de las palabras, sin considerar los signos de puntuación, tenemos:
-
Según
(0.71 %)
-
Pese
(0.22 %)
-
Esta
(0.19 %)
-
Este
(0.16 %)
-
Así
(0.15 %)
En cuanto a los textos860 los comienzos de frase más frecuentes son:
-
La
(10.38 %)
-
El
(7.48 %)
-
En
(4.97 %)
-
Los
(4.42 %)
-
Las
(2.78 %)
Dentro de los signos de puntuación, los que aparecen con mayor frecuencia son:
-
(
(0.56 %)
-
¿
(0.56 %)
-
-
(0.40 %)
-
“
(0.30 %)
En este tipo de textos los signos de puntuación son menos frecuentes al
comienzo de frase que en los textos periodísticos de EL MUNDO, aunque el signo ‘¿’
aparece en ambos. Por el contrario, si nos referimos a las palabras, en los textos860 se
repiten más los comienzos de frase, mientras que en EL MUNDO hay más variedad, lo
cual parece lógico puesto que los primeros son textos sobre temas específicos; sin
embargo los artículos de EL MUNDO tratan temas de todo tipo.
Desde el punto de vista morfológico podemos decir que los comienzos de frase
más habituales son, por este orden:
artículos (26.46%),
sustantivos (14.94%) y
preposiciones (13.36%). Mientras que abreviaturas (0 %), siglas (0.37 %) y números
romanos (0.83 %) son los menos frecuentes.
La siguiente Tabla presenta todos los resultados obtenidos, en %, sobre un total
de 10544 frases.
70
Capítulo 5. Preprocesamiento
Signos puntuación
Sustantivos
1.45
14.94
Nombres propios
Artículos
2.70
26.46
Pronombres
3.30
Preposiciones
13.36
Conjunciones
4.41
Adjetivos
5.01
Verbos
8.23
Adverbios
7.62
Números
8.55
Números romanos
0.83
Siglas
0.37
Abreviaturas
0
Tabla 5.4. Distribución de comienzos de frase desde el punto de vista morfológico.
Signos de puntuación
“
¿
¡
(, {, [
20.92
38.56
1.96
38.56
Tabla 5.5. Distribución de los signos de puntuación que son comienzos de frase.
Porcentaje sobre el total de signos de puntuación encontrados.
•
FINALES
En este fichero se escriben las palabras que acompañan a los terminadores de
frase; por ejemplo, si la frase acaba en punto, se escribe la palabra anterior al punto. Al
igual que en el caso de los comienzos, hemos hecho un estudio de los finales de frase
que se repiten con mayor frecuencia.
Si analizamos los textos del periódico EL MUNDO, los finales de frase que
más se repiten son 4:
-
»
(1.02 %)
-
)
(0.70 %)
-
nada
(0.59 %)
-
Madrid
(0.54 %)
-
París
(0.53 %)
4
Datos correspondientes a los finales de frase de un año.
71
Capítulo 5. Preprocesamiento
Aparentemente existe una contradicción entre el número de ‘«’ (apertura) y ‘»’
(cierre), sin embargo los datos son correctos ya que, algunas veces ‘«’ es comienzo de
frase pero ’»’ no es fin de frase. Por ejemplo: ... para incentivar la imposición de
multas. «Dinero negro», en definitiva.
En cuanto a los textos860 los finales de frase más frecuentes son:
-
)
(4.13 %)
-
1
(3.82 %)
-
2
(2.67 %)
-
3
(1.55 %)
-
Comunidad
(1.46 %)
Considerando únicamente palabras:
-
Comunidad
(1.46 %)
-
Miembros
(1.18 %)
-
Comisión
(0.72 %)
-
Europeas
(0.60 %)
-
años
(0.45 %)
Como vemos el paréntesis (cierre) aparece en ambos casos y también debemos
destacar la frecuente aparición de nombres propios finalizando frases.
Desde el punto de vista morfológico podemos decir que los finales de frase más
frecuentes son: sustantivos (38.19 %), números (17.58 %) y nombres propios (6.8 %).
Por el contrario, artículos (0 %), conjunciones (0.019 %) y preposiciones (0.028 %) son
los menos frecuentes.
La siguiente Tabla presenta todos los resultados obtenidos, en %, sobre un total de
10544 frases.
72
Capítulo 5. Preprocesamiento
Sustantivos
38.19
Siglas
1.66
Números
17.58
Números romanos
1.24
Nombres propios
6.80
Pronombres
0.73
Verbos
5.87
Abreviaturas
0.07
Signos de puntuación
5.36
Conjunciones
0.02
Adjetivos
2.05
Artículos
0
Tabla 5.6. Distribución de finales de frase desde el punto de vista morfológico.
La Tabla 5.7 muestra la distribución de los signos de puntuación finales de frase
encontrados en los textos860.
Signos de puntuación
“
?
!
), }, ]
13.45
8.67
0.53
77.34
Tabla 5.7. Distribución de los signos de puntuación finales de frase.
Porcentaje sobre el total de signos de puntuación encontrados.
•
ABREVIATURAS
Este fichero contiene las abreviaturas que aparecen en el texto procesado y que se
encuentran en el diccionario de abreviaturas. Ejemplos: etc., km/h, seg.
•
ABREVIA_DUDA
Palabras que cumplen la definición de abreviatura y que no se encuentran en el
diccionario de abreviaturas. Este fichero nos ha permitido ampliar nuestro diccionario
de abreviaturas con otras que no teníamos: a.m, c.c, ms, p.p, upm, v.gr, www.
•
SIGLAS1
Contiene todos los monosílabos escritos en mayúscula que aparecen en el texto.
Dada la alta tasa de error de este fichero decidimos considerar siglas aquellas palabras
escritas en mayúsculas que tuvieran como mínimo dos letras.
73
Capítulo 5. Preprocesamiento
La siguiente Tabla muestra los monosílabos encontrados en este fichero y su
distribución en %:
A
41.64
H
0.16
P
10.00
U
0.08
B
0.93
J
0.47
Q
0.03
W
0.04
E
1.19
K
0.21
R
9.63
Y
25.49
F
0.39
N
0.35
S
0.32
Z
0.10
G
0.34
O
8.32
T
0.30
Tabla 5.8. Distribución de los monosílabos encontrados en “Siglas1.dep” (%).
La aparición de dichas palabras en el texto puede agruparse en los siguientes casos:
-
comienzos de frase. Las palabras que cumplen esta función son: A, E, O, P e Y.
Ejemplos: A pesar de que dos de cada tres personas en el Reino Unido ...”, “Y que
suene, por fin, la hora de la verdad.¶.
-
expresiones numéricas: 150 A y 150 B, 2º B, Inta-300 B.
-
letras: apartado A, proteínas G, Ediciones Z, Athletic B.
-
nombres propios extranjeros: O` Neal, O»Brien, AT&T Corporation. La versión
actual del programa no separa los nombres con apóstrofe sino que los trata como
una unidad.
-
letras: T de trabajo, K de kilómetro, con P mayúscula.
-
entrevistas: P.- ¿Cómo accedió a la contratación con Osakidetza si tenía deudas
con Hacienda?¶
R.- Creo recordar que la empresa en el año 90 tenía una deuda con la Hacienda
vasca de aproximadamente 8.500 pesetas. ¶.
-
títulos: La francesa Dyane Kurys vuelve a sus historias de amistad femenina en A
la folie,
Concluyó elogiando el periodismo americano al modo en que Capote lo
había reactivado en A sangre fría.
-
fechas: 27 E, 23 F, 12 J.
-
expresiones extranjeras: “If I ever loose my faith in you de Sting”, Get A Grip , “A
whole new world de la películo Aladdin”.
-
comienzo de títulos de los artículos: ”N Televisión regional unida en consorcio con
otras televisiones autonómicas/regionales.”, “K Comienza el juicio por corrupción
contra el ex ministro italiano de Exteriores Gianni de Michelis¶”.
74
Capítulo 5. Preprocesamiento
-
errores tipográficos: “E l hecho de que Luis Mazzantini enamorase...”, “ S e hacen
llamar las «Chicas de la Abstinencia».
•
SIGLAS2
Palabras bisílabas escritas en mayúsculas. A partir de este fichero formamos un
diccionario de siglas de dos letras: “Siglas2.ord”.
•
SIGLAS_OK
Palabras que se ajustan a la definición de siglas y tienen uno de los siguientes
formatos:
-
Mayúscula + . + Mayúscula. Ejemplo: U.S.A
-
Mayúsculas + . + Mayúscula. Ejemplo: CC.OO
Los errores encontrados en este fichero se pueden dividir en varios grupos:
-
Mayúscula + . + nombre propio: A.Martín, M.SEGOVIA.
-
Mayúscula + . + número: A.4, A.000, U.60. Para las siglas con números hemos
creado otro fichero de depuración: “Siglas_números.dep”.
-
P, R + . + - + Mayúscula: R.-Su importancia es vital., P.-En consecuencia nada
de federalismo.¶
-
P, R + . + - + ¿ + Mayúscula: P.-¿Debe hacer las maletas Scalfaro, como dicen los
«liguistas»?¶
•
SIGLAS
Palabras que tienen de 3 a 5 letras, cumplen la definición de siglas y se encuentran
en el diccionario de siglas o en ningún diccionario. La decisión de limitar el tamaño de
letras de las siglas fue tomada tras analizar este fichero de depuración. Sin restricción de
tamaño, el error cometido era del 26.9 %. Limitando el tamaño máximo a 5 letras el
error era de 2.23 % , lo que significa una reducción del error del 91.45 %.
En este caso sólo evaluamos las siglas no encontradas en ningún diccionario. A
partir de este fichero hemos sacado un diccionario de siglas: "SiglasEM.ord".
•
SIGLAS_DUDA
Palabras de 3 a 5 letras que cumplen la definición de siglas y se encuentran en algún
diccionario exceptuando el de siglas. Este fichero de depuración junto con el de
75
Capítulo 5. Preprocesamiento
Siglas.dep nos ha servido para ampliar nuestros diccionarios de siglas con un nuevo
diccionario: “SiglasEM.ord”.
•
SIGLAS_NÚMEROS
Palabras de la forma: mayúsculas + números.
Los casos encontrados se pueden agrupar de la siguiente forma:
-
cadenas de televisión: A3, TV3, TVE1.
-
modelos de automóviles y aviones: Audi A6, Porsche C32, aviones de transporte
C212 .
-
categorias y clases deportivas: categoría GT2, clase W60.
-
grupos musicales y sinfonías: U2, UB40, Requiem en re menor K.626 de Mozart.
-
Miscelánea que va desde tipos de folios e impresos (DIN A4, impreso F1) hasta
servicios secretos (servicios secretos del MI5 Y MI6), pasando por conceptos
relacionados con la medicina y la biología (El gen es el denominado B7, proteínas
humanas de «bandera blanca»: la CD46 y CD59,
el núcleo intersticial del
hipotálamo 3 (INAH3, en sus siglas inglesas)), nombres de asociaciones ((logia
masónica criminal) Propaganda P2 ).
•
CASOS_ESPECIALES
En este fichero se escriben combinaciones de letras, números, números romanos
y guiones. El contenido de este fichero se pueden resumir como sigue:
-
modelos de automóviles, aviones, tanques: Lancia Y-10 Selectronic, tanques T-555,
cazas F-16 Falcons.
-
matrículas: M-1277-KB, B-8498-JL, C-4894-BF.
-
siglas: K-Tel, A-3, G-7.
-
abreviaturas: s/n, k/h.
-
carreteras, autovías, autopistas: M-40, A-49, N-VI, C-1313.
-
nombres extranjeros: Musa A-Sabah, Giovanni D/Averrazano.
-
nombres de calles: C/San Bernardo, C/Prado, C/Preciados.
-
y/o: nacionalidad y/o raza, olor y/o sabor, familiares y/o amigos.
-
líneas de metro y ferrocarril: línea C-1 de cercanías, líneas C-3 de Sevilla, C-2 de
Málaga y C-9 de Madrid.
-
separación de letras o sílabas: E-u-r-o-d-i-p-u-t-a-d-o, c-a-d-e-n-c-i-a,
a-ce-le-ra.
76
Capítulo 5. Preprocesamiento
•
NÚMEROS
Contiene todos los números encontrados en el texto que se ajustan a uno de los
formatos numéricos definidos5.
•
NÚMEROS_ERROR
Este fichero recoge las expresiones numéricas que no se ajustan a ninguno de los
formatos definidos. El tamaño de este fichero es unas 75 veces menor que el de
numeros.dep.
El contenido de este fichero se puede agrupar en los siguientes casos:
-
horas: las 21.30 horas, las 9.15 del día..., las 17.00 horas.
-
fechas: fecha 31.03.95, día 4.12.83, sábado 4.03.95. Este formato fue después
aceptado como válido para las fechas, por lo que ya no se incluyen en este fichero
de depuración sino en fechas.dep.
-
artículos jurídicos: artículo 394.4 del Código Penal, La Constitución española en su
artículo 149.1.21ª señala...
-
tiempos de deportes: 58.71 segundos, Adriano Baffi (ITA/Mapei) 5h24.27.
-
porcentajes: 29.5 %, 89.2 %.
-
modelos y marcas de vehículos: motor 1.4 Energy, Daily 40.8 Chasis Cabina,
Laguna 2.0 RT.
-
números de teléfono: 91.3848558, 900.19.10.10, 442.25.26.
-
emisoras de radio: el 91.0 del dial.
-
clasificaciones deportivas: el indio Visvanathan Arnaud, de 24 años, segundo en la
clasificación internacional; el ruso Vladimir Kramnik (18,4º) y el estadounidense de
origen soviético Gata Kamsky, (19,6º).
-
formato decimal con punto en lugar de coma: 1.90 de estatura, 229.3 km/h, 11.6
litros.
•
LNUMERO
Expresiones numéricas que cambian el 1 por la letra l. En total hemos encontrado
239 casos. El 59 % corresponden a años (l985, l993). El 41 % restante se reparte entre
números (l00.000 millones, l50 personajes), fechas (l9 de enero, l4 de julio), siglas
5
Ver apartado 5.2.1 de este Capítulo.
77
Capítulo 5. Preprocesamiento
(Diario l6), decretos (Decreto l85/l985), tiempos en deportes (l2:55.30, 11,6 seg.),
porcentajes (12%, 100%).
•
ROMANOS
Números romanos de más de una letra que no se encuentran entre los casos
peligrosos. Se comprueba que el número romano no se encuentra entre los siguientes:
IC, IIII, LL, LCI, LDL, VV, VCC, XM, DD, DC, DIM, XXXX, CLM, CDC, CID,
CCMM, CCCC.
Analizando este fichero hemos ampliado nuestra lista de combinaciones no válidas
con casos como: LLL, MX.
Los errores cometidos se deben en su mayor parte a que no se trata de números
romanos sino de siglas, por ejemplo: CCII, MX, LM.
Para los números romanos es muy difícil elaborar una lista que abarque todas las
combinaciones no válidas.
•
ROMANOS_DUDA
Números romanos de una letra y combinaciones peligrosas, por ejemplo VI, que
puede ser tanto número romano como pasado del verbo ver.
A partir de este fichero hemos elaborado una lista con palabras que acompañan a un
número romano:
Anteriores al número romano
artículo
anexo
capítulo
fase
grupo
legión
nacional
sala
siglo
tramo
verso
Posteriores al número romano
aniversario
asamblea
bandera
campeonato
carrera
centenario
concurso
conferencia
cumbre
curso
división
edición
encuentro
exposición
festival
flota
milla
muestra
mundial
premio
república
reunión
semana
seminario
78
Capítulo 5. Preprocesamiento
congreso
convenio
convocatoria
cuerpo
•
foro
grupo
guerra
jornadas
simposio
simposium
torneo
trofeo
FECHAS
Las fechas que aparecen en los textos periodísticos procesados y que se ajustan a
alguno de los formatos definidos son de tres tipos:
-
día + mes + año: 18-3-64, 18-01-1995, 27/1/10.
-
día + mes en número romano + año: 18/II/1995, 9-I-1990, 15-IV-1994.
Inicialmente este último caso no lo considerábamos pero tras analizar el fichero de
fechas no válidas los incluimos.
•
NO_FECHAS
Las expresiones que combinan números y guiones y no cumplen la definición de
fechas se recogen en este fichero, cuyo contenido puede agruparse en:
-
enumeraciones:
1-Decirle que la quiero.¶
2-Abrazarla.¶
3-Besarla.¶
4-Mandarle flores.¶
-
órdenes y sumarios judiciales: la orden queda registrada con el número 2913/91,
En este caso la orden lleva el número 2502/91, El sumario 13/85 fue sobreseído
por la Audiencia Nacional.
-
cuentas bancarias: 0030/1028/15/010128727, 0182/2370/41/00119500004.
-
fechas clave: 27-E, 6-J, 23-F. Este nuevo formato de fechas se ha incluido en el
fichero de depuración Fechas_letra.dep.
-
periodos de tiempo: curso 94-95, período 1994-1998 , marzo 94-marzo 93.
-
expresiones racionales: 2/3 se pronunciaron a favor y 1/3 en contra, un retroceso
de 2/3 en los últimos 15 años.
-
resultados deportivos: por 7-5, 4-6 y 6-1, 9/14 en tiros de campo, 87-87 en el
marcador.
-
números de teléfono: 91-470-24-63, 906-300300, 900-21.10.65.
-
porcentajes: 4-4.5%, 2%-2.5%.
79
Capítulo 5. Preprocesamiento
-
fechas con número romano: 10-XII-87, 14-VI-88. Este nuevo formato de fechas se
admite ahora como válido y se escriben en el fichero Fechas.dep.
-
matriculas de vehiculos: Madrid 7236-OK, Madrid 2867-ND.
-
leyes y decretos: ley 37/1984, Decreto 2.244/79.
-
separador de cantidades: 80.000-100.000 millones, 7.6/8.1 litros, 1.280/1.245 kilos.
-
miscelánea donde aparecen desde
modelos de aviones (Boeing 737/300) hasta
títulos de libros ( su último libro, Doisneau 40-44), números de fax (fax 21-25-54),
indicaciones de lugares (sala 1-2-9-3 del edificio de la universidad alcalaína),
tensión arterial (tensión arterial: 12-6).
•
FECHAS_LETRA
Fechas con el formato:
- día + mes + año. Ejemplo: 7-enero-1995, 16-diciembre-1991.
- día + abreviatura del mes + año. Ejemplo: 23-Feb-94, 2-ene-94.
•
HORAS
Contiene todas las expresiones horarias que cumplen la definición dada para las
horas.
•
HORAS_K
Expresiones horarias que llevan una K delante. Ejemplo: K18.30, K2.00.
Los errores cometidos se deben a expresiones que no llevan ningún punto
intermedio: K10, K4D, K20.
•
DOS_PUNTOS
En este fichero se escriben todas las expresiones numéricas que contienen ‘:’ y no
se ajustan a ninguno de los formatos horarios válidos. El contenido de este fichero es
siempre del mismo tipo: tiempos en competiciones deportivas. Ejemplos: 15 Arsenio
González (MAP) a 1:16,
500 c.c: 1.Michael Doohan (AUS/Honda) 46:10.991,
1 ONCE 112h.12:14.
80
Capítulo 5. Preprocesamiento
•
PROPIOS
Palabras que cumplen la definición de nombre propio y se encuentran en alguno de
los diccionarios de nombres propios.
En un principio aceptábamos como nombre propio cualquier palabra que comenzara
por letra mayúscula y el resto fueran minúsculas. Con esta definición el error cometido
era muy elevado (41,43 %). Los errores se debían a palabras que pueden funcionar
como nombres propios y como:
-
sustantivos: Bienvenida, Concha, León.
-
verbos: Van, Hay, Leo.
-
adjetivos: Alto, Bravo, Rico.
-
adverbios: Cerca, Nada, No.
-
preposiciones: Ante, Contra, Para.
Tras analizar el fichero de depuración Propios.dep llegamos a la conclusión de que
los comienzos de frase y las palabras escritas en mayúsculas antecedidas por un signo
ortográfico comienzo de frase, por ejemplo ¿, tampoco eran fiables, por lo que
decidimos no considerarlas. El error cometido por imponer estas condiciones es del
2.77%; 2.7% para el caso de nombre propio comienzo de frase y 0.066 % para el de
signo ortográfico comienzo de frase seguido de nombre propio.
Aceptamos este error de partida y estudiamos el porcentaje de aciertos del sistema
con esta definición más restrictiva de nombre propio. En este caso obtuvimos un error
del 1.11 %, que sumado al 2.77 % nos da un error total del 3.88%. Esta nueva tasa de
error representa una mejora sustancial con respecto a la situación inicial.
•
PROPIOS_DUDA
En este fichero aparecen las palabras que empiezan por mayúscula, no son
comienzos de frase y no se encuentran en ninguno de los diccionarios de nombres
propios.
Los errores cometidos en este fichero responden a los siguientes tipos:
-
interjecciones: Ah, Bah, Uf.
-
abreviaturas sin punto: Arg, Ath, Mr.
-
siglas no escritas en mayúsculas: Cds, Ph, Rh.
-
palabras con números: Aa2, Hoyo2, Us3.
81
Capítulo 5. Preprocesamiento
•
COMPUESTOS860
Conjuntos de palabras que se ajustan a la definición de compuestos y cuya primera
palabra se encuentra en alguno de los diccionarios de nombres propios.
En este caso encontramos tres tipos de errores:
-
nombre propio + M: Abel M, Antonio Mata M. Esta M aparece siempre al final de
una línea, por lo que parece ser un terminador o separador de líneas.
-
falsos compuestos: Ortiz Si, Media Italia amaneció ayer[...], Mañana Bossi se
entrivistará [...].
-
compuestos cuya primera palabra no forma parte del compuesto: Para Juan
Barranco, Con Woody Allen, Pero Ernesto Cisnero.
•
COMPUESTOS
Grupos de palabras que cumplen la definición de compuesto y cuya primera palabra
se encuentra en alguno de los diccionarios exceptuando los de nombres propios y
verbos.
Los errores en este fichero se deben a:
-
conjuntos de palabras que cumplen la definición de compuesto pero que realmente
no lo son: De Antonio González, En Kigali, El Real Madrid.
-
falta de signos de puntuación: Audiencia Nacional Carlos Bueren ha decidido[...],
miembro de Fuerza Italia Michele Stornello no tenía [...].
•
COMPUESTOS_DUDA
Compuestos cuya primera palabra no se encuentra en ningún diccionario o es una
forma verbal.
Los errores cometidos se pueden clasificar de la siguiente forma:
-
nombre propio + M: Joao Pinto M, Dertycia M. Como ya indicamos anteriormente
esta “M” es un separador de frases.
-
falsos compuestos: Junio-1985 Firma, Octubre-1984 El, Lp Uncle Meat.
-
falta de signos de puntuación: Olot Ningún dato [...], Unzue Martagón Diego
Ferreira Soler Marcos Rafa Paz Simeone Moya Sucker Linde Cambios: [...].
Este último caso nos llevó a limitar la longitud del compuesto. Revisando este
fichero decidimos que cuatro era la longitud máxima permitida para una compuesto.
82
Capítulo 5. Preprocesamiento
•
COMPUESTOS_D
Entre los errores encontrados figuran:
-
compuestos cuya primera palabra no forma parte del compuesto: Para Alicia de
Larrocha, La Feria de Sevilla, General Asensio de Palma.
-
falsos compuestos: Miles de Vallecanos,
Oviedo-Athletic de Bilbao,
Los de
Madrid.
•
COMP_ABREVIA
Hemos encontrado los siguientes errores en este fichero:
-
compuestos con abreviatura escritos en mayúsculas: A. INTERNACIONAL,
L.AOJEDA.
-
compuestos sin abreviatura que son finales de frase: Auditorio Nacional., Viernes
Santo., Sinead O,Connor.
-
Preguntas y respuestas: P.-Usted es un histórico del Partido Socialista., R.-No, no
me lo imagino y no pienso en esa posibilidad.
•
COMP_ABREVIA_M
Nombres propios escritos en mayúscula y con abreviatura.
En este fichero los errores encontrados son:
-
preguntas y respuestas: P.-El PSOE de Andalucía ha dicho [...], R.-El PP tiene en
sus filas a defensores de la democracia [...].
•
FIRMAS, FIRMAS_DUDA, TITULOS
Estos tres ficheros de depuración no los vamos a evaluar ya que no son objeto de
nuestro estudio.
•
GUIONES
Se han encontrados los siguientes casos:
1. Palabras compuestas
Pares de palabras unidas por un guión intermedio y escritas en minúsculas.
Ejemplos: físico-químico, ante-sala, anglo-irlandés.
83
Capítulo 5. Preprocesamiento
2. Siglas
Conjuntos de palabras escritas en mayúsculas y números unidos por un guión
intermedio. Ejemplos: CSI-CSIF, PSE-EE, TVE-1.
3. Género y número
Para indicar masculino/femenino o singular/plural. Ejemplos: señor/a, chicos/as,
querido/os.
4. Antítesis y juegos de palabras
Ejemplos: arriba/abajo,
hombre-mujer,
sólido-líquido,
espulga/expurga,
paso-peso, magnate/mangante, desmadra/desmanda.
5. Paréntesis
Ejemplos:
Estaría hecho una pena –dije-.
¿Es Navarra –como usted sostiene- «una nacionalidad» histórica?
La decisión del presidente sudafricano –aunque esperada- suscitó ayer
un enorme revuelo en todo el espectro político del país.
•
GUIONES_DOBLES
El contenido de este fichero puede clasificarse en:
1. Separador de frases
La Policía les acusa de la muerte de un vagabundo ebrio en una salida del metro
de Moscú -- La responsabilidad recaerá sobre la madre, una alcohólica que ha
sido declarada enferma mental¶
2. Paréntesis
La Seguridad Social --como el Estado-- no puede quebrar, a no ser que la
economía en su conjunto se hunda;
84
Capítulo 5. Preprocesamiento
3. Direcciones de correo electrónico
http://www.yahoo.com
http://www.offcampus.es/elmundo.campus
http://simo.sei.es
4. Entrevistas
RESPUESTA.--Es un momento complejo. Lo imprevisible puede ser el más
común de los denominadores.
5. Separador título-texto
TIEMPO DE IMPUNIDAD.--Esta misma semana, portavoces de KAS
(Koordinadora Abertzale Sozialista) y de Herri Batasuna (HB) advertían a los
dirigentes del Partido Nacionalista Vasco (PNV) y de la Ertzaintza (Policía
Autónoma vasca) que «el tiempo de la impunidad ha pasado».¶
6. Separador texto-firma del autor
Este concepto empresarial ha sentado una negativa cultura de
relaciones laborales.--Amelia Fernández de Gorostiza. Madrid¶
7. Errores tipográficos
Ejemplos: mansión—fortaleza.
Nos gustaría comentar un último caso, la combinación de ambos guiones: /-.
Ejemplo:
Declara el poema Ciénagas: De la turba han sacado el esqueleto/del
Gran Alce Irlandés/y lo han puesto en exposición/-una asombrosa
jaula ¶
85
Capítulo 5. Preprocesamiento
•
SIGNOS_ESPECIALES
La siguiente Tabla resume los signos encontrados en el corpus de entrenamiento:
Carácter
1994
1995
Total
$
13787
92
13816
%
24950
23577
48527
&
712
761
1473
#
230
10166
10396
@
-
2
2
Tabla 5.9. Signos especiales encontrados en el
Corpus de Entrenamiento (EL MUNDO)
•
PALABRAS_CONSIGNO
Palabras que contienen alguno de los siguites signos: ^, ¨, `, ç.
Se distinguen los siguientes casos:
-
nombres propios: Château, François, Barça, Weizsäcker.
-
nombres comunes: garçon, calçadas, cançó.
-
palabras extranjeras: infâme, commenç, prêt-a-porter, laïcité.
-
siglas: FPLÖ, SPÖ, ÖVP.
-
vocales acentuadas: 2 ó 3%, monte á la dehesa.
-
errores tipográficos: veinte é ocho.
•
SIN_VOCALES
El contenido de este fichero puede agruparse como sigue:
-
abreviaturas: Sr, pm, km, s.c, m.73, nº, Gª.
-
Siglas: Cds, BSkyB, PSdG, SPf66.
-
Letras: ll, ch, rr.
-
Combinaciones de letras y números: c6, d4, cd4.
-
Errores tipográficos: m¡n, ls Policía, con cl sector guerrista, Clasificacion trs el
primer recorrido.
86
Capítulo 5. Preprocesamiento
•
VERBOS, ENCLÍTICOS, PALABRAS_CONPREFIJO, VERBOS_CONPREFIJO
Estos ficheros de depuración se estudiarán más adelante en el Capítulo 7.
•
ERRATAS
Cuando la longitud supera los 80 caracteres (longitud máxima permitida para
una palabra) lo escribimos en este fichero de depuración y no procesamos esa frase.
Hemos encontrado dos casos:
•
LAJOVENKATRINAGIBSONSECONVIERTEENELCENTRODELOSPRO
BLEMASDELOSHABITANTESDE«ELPARAISO»¶ (julio 1994).
•
Vera,exsecretariodeEstado;Corcuera,exministrodelInterior;yRoldán,exdirector
generaldelaGuardiaCivil,enunafotodearchivo.¶ (octubre 1994).
•
RESULTADOS
Es el fichero donde se sacan todos los datos obtenidos por el programa. Tiene la
siguiente estructura:
-
fecha y hora de comienzo del programa.
-
Datos generales: número de artículos, frases y palabras procesadas.
-
Información sobre verbos: número de formas verbales encontradas, enclíticos y
verbos con prefijo.
-
Datos de las unidades especiales detectadas. Además del número total de unidades
reconocidas, para cada uno de los casos se sacan, por este orden, tres informaciones:
número total, porcentaje sobre el número de palabras procesadas y porcentaje sobre
el número total de unidades especiales detectadas (en tanto por uno).
-
Datos de categorización: palabras categorizadas (número total y tanto por uno),
número medio de categorías por palabra categorizada, unidades especiales no
categorizadas (número total y tanto por uno). En este caso todos los porcentajes son
sobre número total de palabras procesadas.
-
Datos sobre los terminadores de frase: puntos finales, fin de párrafo, puntos
suspensivos, finales de interrogación y finales de exclamación ( tanto por uno sobre
el total de frases procesadas).
-
Fecha y hora de finalización del programa y tiempo de ejecución en segundos.
87
Capítulo 5. Preprocesamiento
A continuación se muestra un ejemplo de este fichero:
Fecha y Hora de comienzo del programa: Fri Jul 09 21:23:58 1999
Artículos procesados: 4093
Frases: 82860
Palabras: 2209374
Comienzos: 82860
0.037504
Finales: 82860
0.037504
Nº de palabras del diccDinamico: 6920
0.003132
Verbos: 433142
0.196047
Verbos con enclíticos: 4662
0.002110
Verbos con encliticos/Número Verbos: 0.010763
Excepciones detectadas(total): 174562
0.079010
Caracteres especiales {&,$,@,#}: 3892
0.001762
Palabras con signos especiales {^,`,´,¨}: 176
0.000080
Abreviaturas: 513
0.000232
Candidatos a Abreviaturas: 4
0.000002
Siglas_OK: 395
0.000179
Siglas con una letra: 6205
0.002808
Siglas con dos letras: 1976
0.000894
Candidatos a Siglas: 9156
0.004144
Siglas dudosas: 2695
0.001220
Palabras sin vocales: 1426
0.000645
Nombres Propios: 46555
0.021072
Candidatos a Nombres Propios: 19213
0.008696
Compuestos860: 25227
0.011418
Compuestos: 6457
0.002923
Candidatos a Compuestos: 5505
0.002492
Compuestos con de/del: 10286
0.004656
Compuestos con guion: 2511
0.001137
Dobles guiones: 1
0.000000
Nombres Propios con Abreviatura: 441
0.000200
Firmas de autores: 724
0.000328
Firmas de autores con abreviatura: 280
0.000127
Candidatos a Firmas: 187
0.000085
Candidatos a Titulos: 2070
0.000937
Números: 25402
0.011497
Números erróneos: 272
0.000123
Números con guión: 0
0.000000
Números Romanos: 390
0.000177
Candidatos a Numeros Romanos: 1169
0.000529
Combinaciones de letras, números y guiones: 165
0.000075
Horas: 540
0.000244
Formato horario incorrecto: 81
0.000037
Fechas: 4
0.000002
Fechas incorrectas: 1646
0.000745
Fechas con formato extraño: 41
0.000019
Fechas con letra: 0
0.000000
Locuciones
Locuciones
Locuciones
Locuciones
Locuciones
de
de
de
de
de
dos palabras: 27197
0.012310
tres palabras: 8790
0.003979
cuatro palabras: 615
0.000278
cinco palabras: 28
0.000013
seis palabras: 2
0.000001
Palabras Categorizadas: 2147285
0.971897
Número medio de categorías/palabra con categoria: 2.053538
Fecha y Hora de finalización del programa: Sat Jul 10 03:40:25 1999
Tiempo de ejecución(seg): 22587.0
88
Capítulo 5. Preprocesamiento
•
ESTRUCTURA DE LOS FICHEROS DE DEPURACIÓN
Cuando el detector identifica una unidad especial la escribe en el
correspondiente fichero de depuración junto con información sobre la categoría
gramatical, si la ha encontrado o no en algún diccionario y el contexto en el que
aparece. Cada unidad detectada representa una línea del fichero y todas las líneas tienen
la siguiente estructura:
unidad especial
•
categoría
encontrada o no
en diccionario
nombre del
diccionario
contexto
unidad especial
Se escribe la unidad especial detectada (sigla, abreviatura, número, ...) . En el caso
de los compuestos, hay una o varias líneas para cada palabra del compuesto en función
de si solo tiene una categoría gramatical o hay varias posibles.
•
categoría
En este campo se escribe la categoría gramatical correspondiente a la unidad
especial o ########## si no se sabe con seguridad que categoría asignarle. Algunas
unidades pueden pertenecer a varias categorías a la vez. Por ejemplo las palabras que
forman un compuesto, en ese caso se escribe la lista de posibles categorías.
•
encontrada o no en diccionario
Se escribe 0 ó 1 dependiendo de si la unidad considerada se ha encontrado en algún
diccionario o no.
•
nombre del diccionario
Si la unidad no se ha encontrado en ningún diccionario se escribe (null), en caso
contrario se escribe el nombre de diccionario o los nombres en el caso de encontrarse en
varios.
•
contexto
Se escriben por este orden: la palabra precedente, la unidad especial y las dos
palabras siguientes. Si la unidad detectada es final de frase sólo aparecerá como palabra
siguiente el punto.
A continuación se presentan algunos ejemplos:
89
Capítulo 5. Preprocesamiento
1. Siglas.dep
PSOE
M04#######
1
UHF
##########
0
siglas860.ord
(null)
->del PSOE .
->antigua UHF de los
2. Compuestos.dep
Congreso N00##S.M##
Judío
A11..S.M##
Mundial A11..S.N##
Unidad
N00##S.F##
Central A11..S.N##
Central N00##S.N##
Operativa A11..S.F##
1
1
1
1
1
1
1
860.ord
drae.ord
860.ord
->el Congreso Judío Mundial .
->el Congreso Judío Mundial .
->el Congreso Judío Mundial .
860.ord ->la Unidad Central Operativa de la
drae.ord ->la Unidad Central Operativa de la
860.ord ->la Unidad Central Operativa de la
860.ord ->la Unidad Central Operativa de la
5.3 RESULTADOS DEL MÓDULO DE PREPROCESAMIENTO
5.3.1
SEGMENTACIÓN
1994
1995
Total
Artículos
4086
3958
4022
Frases
85997
91042
88519
2238564
2264090
2251327
Palabras
Tabla 5.6. Resultados de la segmentación (datos mensuales medios)
Finales de frase
%
.
48.08
¶
50.09
?
1.26
!
0.21
...
0.36
Tabla 5.7. Terminadores de frase
90
Capítulo 5. Preprocesamiento
5.3.2
EL DETECTOR DE UNIDADES ESPECIALES
Unidad especial
%, #, &, @, $
Palabras_conSigno
Abreviaturas
Abrevia_duda
Siglas_ok
Siglas1
Siglas2
Siglas
Siglas_duda
Sin_vocales
Propios
Propios_duda
Compuestos860
Compuestos
Compuestos_duda
Compuestos_d
Comp_guion
Comp_abrevia
Numeros
L_numero
Numeros_error
Romanos
Romanos_duda
Horas
Horas_k
Dos_puntos
Fechas
No_fechas
Combinaciones
letras, numeros y
guiones
Guiones_dobles
Firmas
Firmas_abrevia
Firmas_duda
Titulos
Año 1994
0.1480
0.0098
0.0079
0.00042
0.0168
0.02596
0.1023
0.4162
0.1316
0.0364
2.0943
0.8376
1.0809
0.2806
0.2510
0.4681
0.1100
0.0197
1.1763
0.00056
0.0163
0.0170
0.0331
0.0329
0.0021
0.0150
0.00032
0.0477
Año 1995
0.1267
0.0125
0.0192
0.00055
0.0089
0.2504
0.1088
0.3673
0.1289
0.0259
2.0051
0.8303
1.0549
0.3046
0.2413
0.4518
0.1280
0.0162
1.1385
0.00034
0.0284
0.0163
0.0209
0.0266
0.00042
0.0260
0.00029
0.0467
Total
0.1373
0.0111
0.0135
0.00048
0.0128
0.2512
0.1055
0.3917
0.1302
0.0321
2.0497
0.8339
1.0679
0.2926
0.2461
0.4599
0.1190
0.0179
1.1574
0.00045
0.0223
0.0166
0.0270
0.0297
0.0013
0.0205
0.00031
0.0472
0.0082
0.0088
0.0085
0.000025
0.0307
0.0127
0.0104
0.0912
0.000081
0.0257
0.0071
0.0094
0.0880
0.000053
0.0282
0.0099
0.0099
0.0896
Tabla 5.8. Porcentaje de unidades especiales reconocidas por
el detector sobre el total de palabras del texto
(datos mensuales medios)
91
Capítulo 5. Preprocesamiento
Unidad especial
%, #, &, @, $
Palabras_conSigno
Abreviaturas
Abrevia_duda
Siglas_ok
Siglas1
Siglas2
Siglas
Siglas_duda
Sin_vocales
Propios
Propios_duda
Compuestos860
Compuestos
Compuestos_duda
Compuestos_d
Comp_guion
Comp_abrevia
Numeros
L_numero
Numeros_error
Romanos
Romanos_duda
Horas
Horas_k
Dos_puntos
Fechas
No_fechas
Combinaciones
letras, numeros y
guiones
Guiones_dobles
Firmas
Firmas_abrevia
Firmas_duda
Titulos
Año 1994
1.93
0.13
0.24
0.0036
0.19
3.31
1.37
5.38
1.67
0.46
27.24
10.87
14.06
2.66
3.27
6.11
1.41
0.23
15.23
0.0056
0.21
0.22
0.42
0.39
0.027
0.031
0.0024
0.61
Año 1995
1.71
0.17
0.26
0.0074
0.11
3.32
1.58
4.92
1.74
0.34
26.80
11.19
14.12
4.18
3.22
6.09
1.72
0.22
15.32
0.0034
0.38
0.22
0.28
0.36
0.042
0.098
0.0042
0.63
Total
1.81
0.15
0.25
0.0055
0.15
3.32
1.48
5.15
1.71
0.40
27.02
11.03
14.10
3.92
3.24
6.10
1.56
0.23
15.26
0.0045
0.29
0.22
0.35
0.37
0.035
0.064
0.0033
0.62
0.087
0.12
0.11
0.0032
0.40
0.11
0.14
1.19
0.0081
0.34
0.15
0.12
1.19
0.0022
0.37
0.13
0.13
1.19
Tabla 5.9. Porcentaje de unidades especiales sobre el
total de unidades especiales reconocidas
(datos mensuales medios)
92
Capítulo 5. Preprocesamiento
5.4 EVALUACIÓN
5.4.1
SEGMENTACIÓN
Para evaluar el error cometido en el proceso de segmentación seleccionamos 20
textos aleatoriamente y comprobamos el porcentaje de aciertos. La tasa de error
obtenida fue del 4.76 %. En total encontramos 16 errores, de los cuales, 4 eran debidos
a siglas , 2 a abreviaturas y 4 a números fin de frase. Los 6 restantes eran errores
propios del programa.
A continuación intentamos mejorar el porcentaje de aciertos tratando el
problema de los números final de frase, de manera que el segmentador evalúe si se trata
de un número más un punto final de frase, o bien el punto forma parte de la expresión
numérica y no es un final de frase.
Realizamos una segunda evaluación, con otro conjunto de 20 textos elegidos
aleatoriamente. Esta vez la tasa de error fue del 1.38 %. Los errores cometidos se debían
en su mayor parte a siglas final de frase. De un total de 7 errores, 5 eran por siglas fin de
frase y 2 eran errores del programa.
Siguiendo un procedimiento análogo al de los números fin de frase, intentamos
nuevamente disminuir la tasa de error. En esta tercera evaluación, conseguimos una tasa
de error del 0.42 %.
La Tabla 5.10 resume los resultados obtenidos en las tres pruebas.
Nº total frases
Frases correctas
Acierto (%)
Tasa error (%)
1ª Prueba
336
320
95.24
4.76
2ª Prueba
508
501
98.62
1.38
3ª Prueba
479
477
99.58
0.42
Tabla 5.10. Resultados de la segmentación de frases
Las clasificaciones deportivas son la parte que mayor dificultad plantea al
segmentador. Aquí caben múltiples opciones, para ilustrar la que hemos elegido
presentamos a continuación dos ejemplos:
93
Capítulo 5. Preprocesamiento
Ejemplo 1
•
Texto de entrada:
7ª ETAPA¶
Charleroi - Lieja / 203 kms.¶
.¶
VENCEDOR: Johan Bruyneel (ONCE).¶
SPRINTS ESPECIALES: Kilómetro 40: Abdoujaparov (6 segundos),
Jalabert (4) y Stephens (2).¶
Kilómetro 134: Kasputis (6), Den Bakker (4), Laurent (2).¶
Kilómetro 174,5: Jalabert (6), Abdoujaparov (4), Rijs (2).¶
ABANDONOS: Kirsipú (fuera de control), Nelson Rodríguez,
Dotti, Blijlevens.¶
.¶
LIDER: Johan Bruyneel (ONCE).¶
•
Tras la segmentación6:
7ª ETAPA Charleroi - Lieja / 203 kms .
$$$$
.
$$$$
VENCEDOR : Johan Bruyneel ( ONCE ) .
$$$$
SPRINTS ESPECIALES : Kilómetro 40 : Abdoujaparov ( 6 segundos ) ,
Jalabert ( 4 ) y Stephens ( 2 ) .
$$$$
Kilómetro 134 : Kasputis ( 6 ) , Den Bakker ( 4 ) , Laurent ( 2 ) .
$$$$
Kilómetro 174,5 : Jalabert ( 6 ) , Abdoujaparov ( 4 ) , Rijs ( 2 ) .
$$$$
ABANDONOS : Kirsipú ( fuera de control ) , Nelson Rodríguez , Dotti ,
Blijlevens .
$$$$
.
$$$$
LIDER : Johan Bruyneel ( ONCE ) .
$$$$
6
El símbolo $$$$ es un separador de frases.
94
Capítulo 5. Preprocesamiento
Ejemplo2
•
Texto de entrada:
ZResultados¶
Semifinales individuales: Carlos Costa (ESP, 6) a Alex Corretja
(ESP) por 6-3 y 6-3. Richard Krajicek (HOL, 7) a Ronald
Agenor (HAI) por 6-4 y 6-2.¶
Semifinales de dobles: Yevgeni Kafelnikov-David Rikl (RUS-RCH)
a Jan Appel-Peter Nyborg (SUE) por 4-6, 7-6 (7-5) y 6-4.
Jim Courier-Javier Sánchez (USA-ESP) a Lars Johnson-Francisco
Montana (SUE-USA), 2-6, 7-6 (7-4) y 6-4.¶
•
Tras la segmentación:
ZResultados
$$$$
Semifinales individuales : Carlos Costa ( ESP , 6 ) a Alex Corretja
( ESP ) por 6-3 y 6-3 . Richard Krajicek ( HOL , 7 ) a Ronald
Agenor ( HAI ) por 6-4 y 6-2 .
$$$$
Semifinales de dobles : Yevgeni Kafelnikov-David Rikl ( RUS - RCH )
a Jan Appel-Peter Nyborg ( SUE ) por 4-6 , 7-6 ( 7 - 5 ) y 6-4 .
Jim Courier-Javier Sánchez ( USA - ESP ) a Lars Johnson-Francisco
Montana ( SUE - USA ) , 2-6 , 7-6 ( 7 - 4 ) y 6-4 .
$$$$
También nos gustaría indicar el criterio adoptado para los títulos de los artículos.
En este caso, el título se considera parte de la frase y después, durante la división de la
frase en palabras, se aisla como una unidad y se escribe en el fichero titulos.dep.
Veamos un ejemplo:
95
Capítulo 5. Preprocesamiento
•
Texto de entrada:
#Pérez-Reverte vende un millón de ejemplares¶
.¶
MADRID.- El escritor Arturo Pérez-Reverte ha vendido en cuatro años
un millón de ejemplares en todo el mundo, según informaron fuentes
de la editorial Alfaguara.
En España, la novela La tabla de Flandes ya lleva veinte ediciones en
Alfaguara Hispánica, sin contar con las dos ediciones en Alfaguara
Extra y la edición en castellano que Random House publicó en Estados
Unidos.
•
Tras la segmentación:
# Pérez-Reverte vende un millón de ejemplares
$$$$
.
$$$$
MADRID . - El escritor Arturo Pérez-Reverte ha vendido en cuatro años
un millón de ejemplares en todo el mundo , según informaron fuentes de
la editorial Alfaguara .
$$$$
En España , la novela La tabla de Flandes ya lleva veinte ediciones en
Alfaguara Hispánica , sin contar con las dos ediciones en Alfaguara
Extra y la edición en castellano que Random House publicó en Estados
Unidos .
$$$$
Como podemos comprobar MADRID.- no se considera una frase independiente,
sino que forma parte de la siguiente. Esto es debido a que el ‘.-‘ no se considera un
terminador de frase.
96
Capítulo 5. Preprocesamiento
5.4.2
DETECCIÓN DE UNIDADES ESPECIALES
Para la evaluación del detector de unidades especiales revisamos manualmente
los ficheros de depuración con el fin de determinar el error cometido. Los ficheros
evaluados han sido:
Siglas_OK
Compuestos_D
Siglas
Comp_abrevia
Propios
Comp_abrevia_M
Propios_duda
Romanos
Compuestos860
Romanos_duda
Compuestos
Guiones dobles
Compuestos_duda
Horas_K
Los ficheros Numeros,
Numeros_guion,
L_numero,
Fechas,
Horas y
Abreviaturas.dep tienen un porcentaje de acierto del 100 %.
La siguiente Tabla muestra los resultados obtenidos:
Unidad especial
Total
Acietos
Error (%)
Siglas_OK
2087
1801
11.58
Siglas
6965
6881
2.23
Propios
5957
5891
1.11
Propios_duda
4867
4831
0.74
Compuestos860
1690
1652
2.25
Compuestos
2121
1939
8.58
Compuestos_duda
1558
1529
1.80
Compuestos_D
2115
1979
6.43
Comp_abrevia
6868
6124
10.83
Romanos
2102
1850
11.99
Guiones_dobles
2037
1801
11.58
Horas_K
350
340
2.86
Tabla 5.11 Porcentaje de error en la detección de unidades especiales
97
Capítulo 5. Preprocesamiento
5.5 LOCUCIONES
Las locuciones son conjuntos de dos o más palabras que funcionan como
elemento oracional y cuyo sentido unitario no se justifica, sin más, como suma del
significado normal de los componentes. Las locuciones se clasifican según el papel que
desempeñan; por ejemplo, las locuciones adverbiales son las que hacen oficio de
adverbio, las conjuntivas las hacen oficio de conjunción, etc.
Debido a que funcionan como una unidad dentro de la frase disponemos de un
detector de locuciones que se encarga de su identificación y categorización. La longitud
mínima de una locución es de dos palabras y la máxima que admitimos es seis.
El funcionamiento del detector de locuciones es el siguiente: dada una frase, la
va recorriendo de principio a fin comprobando si contiene locuciones, comenzando por
las de seis palabras y terminando por las de dos. Para saber si el conjunto de palabras
considerado es una locución o no cuenta con la ayuda de los diccionarios de
locuciones7. Por ejemplo para comprobar si una frase contiene locuciones de cinco
palabras, el detector va agrupando las palabras que componen la frase de cinco en cinco,
busca cada uno de esos grupos en el diccionario Locuc5.ord y si lo encuentra, categoriza
cada una de las palabras con la categoría que aparece en el diccionario. Solo
consideramos locuciones aquellas que se encuentran en alguno de los diccionarios
específicos, si el grupo considerado no se encuentra en el correspondiente diccionario
de locuciones no será reconocido como tal.
Antes de la búsqueda en el diccionario, es necesario que el grupo de palabras bajo
estudio tenga la misma estructura que las palabras que componen los diccionarios de
locuciones. En estos diccionarios las palabras que forman una locución están unidas por
guiones bajos, mientras que en la frase, las palabras están separadas por espacios en
blanco, sin ningún tipo de unión.
El detector va formando grupos de un determinado número de palabras, uniéndolas
entre sí por guiones bajos y una vez así, se procede a su búsqueda en el diccionario
correspondiente. En la frase seguirán apareciendo aisladas, la unión con guiones bajos
es únicamente para la búsqueda en los diccionarios.
7
Los diccionarios de locuciones que utiliza el programa se describen en el Capítulo 6.
98
Capítulo 5. Preprocesamiento
Los
diccionarios
de
locuciones
extranjeras
(English_guiones1.ord,
French_guiones1.ord, etc.8) tienen este mismo formato. El procedimiento de búsqueda
en dichos diccionarios es el descrito anteriormente. En el funcionamiento normal del
programa no se cargan diccionarios extranjeros9 y por tanto no se realiza la búsqueda de
locuciones extranjeras.
5.5.1
FICHERO DE DEPURACIÓN
Es el fichero de depuración de las locuciones encontradas en el texto de entrada. No
existe un fichero para las locuciones de dos palabras, otro para las de tres, etc. sino que
todas ellas se recogen en un único fichero. Presenta un formato diferente al del resto de
ficheros en la parte final, ya que en este caso en lugar de sacar el contexto en el que
aparece la palabra clave se saca la frase donde se encuentra la locución reconocida:
Locución
junto_con
Categoría
frase
P..##.60## -> Lo cual , junto con la inauguración de nuevos tramos
de autovía , se ha traducido en el descenso del número
de accidentes ( 3.600 durante el último año frente a los
3.800 de 1992 ) .
al_frente_de P..##.60## -> Será su primera visita oficial a España desde que
Ejemplo del fichero locuciones.dep
8
9
Véase apartado 6.5 del Capítulo 6.
En el Capítulo 6, apartado 6.12, se justifica la decisión de no cargar los diccionarios
extranjeros.
99
Capítulo 5. Preprocesamiento
5.5.2
RESULTADOS DEL DETECTOR DE LOCUCIONES
Locuciones
2 palabras
3 palabras
4 palabras
5 palabras
6 palabras
Año 1994
2.46
0.798
0.0564
0.0036
0.000050
Año 1995
2.46
0.788
0.0534
0.0034
0.000084
Total
2.46
0.792
0.0548
0.0035
0.000066
Tabla 5.12 Resultados del detector de locuciones
Porcentajes sobre el número total de palabras procesadas
(Datos medios mensuales)
Como podemos comprobar las locuciones más utilizadas son las de dos palabras
mientras que las de seis son las menos usadas. Sin embargo, hay que tener en cuenta
que a medida que aumenta el número de palabras de la locución disminuye el tamaño de
los diccionarios10, así disponemos de 893 locuciones de dos palabras, frente a las 5 del
diccionario Locuc6.ord.
5.5.3
EVALUACIÓN
Con el fin de determinar el porcentaje de error cometido en las locuciones,
revisamos manualmente el fichero de depuración locuciones.dep. Los errores
encontrados se deben a grupos de palabras que en determinadas frases no funcionan
como locuciones, aunque en otras sí lo sean y se trata siempre de locuciones de dos
palabras. En las locuciones de tres o más palabras, el sistema acierta siempre.
Consideremos el caso de puesto_que. En la frase:
Sanidad no iniciará ninguna campaña de vacunación puesto que no cree que
entre dentro de sus competencias.
puesto_que funciona como locución conjuntiva, sin embargo en esta otra frase:
10
En la Tabla 6.2 del Capítulo 6 figura el tamaño de los diccionarios de Locuciones.
100
Capítulo 5. Preprocesamiento
Juan no era la persona idónea para cubrir el puesto que tenía asignado,
por eso le cambiaron de sección.
puesto y que no forman una unidad, sino que puesto funciona como sustantivo y que
es el pronombre que introduce la oración de relativo que tenía asignado.
Como conclusión general podemos deducir que cuanto mayor es el tamaño de la
locución (número de palabras que la forman) menor es la probabilidad de error.
La Tabla 5.13 recoge los resultados de la evaluación, todos los errores
encontrados se deben a locuciones de dos palabras.
Total
Correctas
Error (%)
Locuciones
602
586
2.66
Locuciones de dos
palabras
347
331
4.61
Tabla 5.13 Porcentaje de error en las locuciones
5.5.4
LOCUCIONES
MÁS
UTILIZADAS
EN
EL
CORPUS
DE
ENTRENAMIENTO
Locuciones
Frecuencia absoluta
Locuciones
Frecuencia absoluta
lo_que
3219
ya_que
565
para_que
1013
antes_de
588
después_de
965
más_que
497
sin_embargo
849
sobre_todo
349
más_de
746
a_través_de
324
Tabla 5.14 Locuciones más frecuentes en 12 meses
(Datos medios mensuales)
101
Capítulo 5. Preprocesamiento
Como muestra la Tabla 5.14, las locuciones más utilizadas son las de dos
palabras. Las siguientes Tablas pretenden dar una idea del uso de las locuciones de tres,
cuatro, cinco y seis palabras. Parece que existen una relación entre la longitud de la
locución y su frecuencia de uso, de manera que, cuanto mayor es la longitud de la
locución, menor es su utilización en los textos periodísticos evaluados.
Locuciones de
3 palabras
a_través_de
Frecuencia
absoluta
324
Locuciones de
4 palabras
a_lo_largo_de
Frecuencia
absoluta
128
a_partir_de
268
a_pesar_de_que
112
a_pesar_de
375
con_el_fin_de
77
Tabla 5.15 Locuciones de tres y cuatro palabras más utilizadas en 12 meses
(Datos medios mensuales)
Locuciones de
5 palabras
al_fin_y_al_cabo
Frecuencia
absoluta
28
Locuciones de
6 palabras
al_fin_y_a_la_postre
Frecuencia
absoluta
0.67
a_las_primeras_de_cambio
3
es_por_esto_por_lo_que
0.33
al_pie_de_la_letra
4
un_día_sí_y_otro_no
0.25
Tabla 5.16 Locuciones de cinco y seis palabras más utilizadas en 12 meses
(Datos medios mensuales)
5.6 EL DETECTOR DE PALABRAS EXTRANJERAS
Para completar el módulo de Preprocesamiento hemos incluido un detector de
palabras y nombres propios extranjeros, que se encarga de su reconocimiento y
categorización gramatical.
102
Capítulo 5. Preprocesamiento
El funcionamiento del detector de palabras extranjeras11 se basa en tres
conceptos:
1. Silabicación de las palabras. Se hace la división en sílabas de la palabra
considerada y se estudia cada una de las sílabas resultantes, de manera que si
se encuentra una combinación de consonantes no permitida en castellano, la
palabra será extranjera. Por ejemplo, en castellano puede aparecer la
combinación ns al final de una sílaba (ins-ta-lar), pero no la combinación ng
(ma-king). Ejemplos de palabras extranjeras detectadas por este método son:
fans, light, Becklund, Steward.
2. Doble consonante. Palabras que repiten la misma consonante dos o más veces
seguidas, a excepción de c , l , n y r; así, acción, llave, innovación y arrastrar
contienen dos veces la misma consonante y son palabras castellanas.
Ejemplos de palabras extranjeras que contienen doble consonate: Massi,
Bisset, homme, mezzogiornos.
3. Palabras que contienen ‘y’. Para que una palabra que contiene una ‘y’ sea
extranjera, dicha letra no debe ir en posición inicial ni entre dos vocales. En
inglés muchas palabras terminan en ‘y’; en estos casos el detector da buenos
resultados pero es necesario comprobar que realmente se trata de una palabra
extranjera porque rey o Godoy acaban en ‘y’, y, sin embargo, no son
extranjeras. Ejemplos de palabras extranjeras reconocidas: Beverly, Corey,
bye, rallye.
Cuando una palabra es reconocida como extranjera, se marca con el rasgo
NUM_RASGO_EXTRANJERA o NUM_PROPIO_EXTRANJERO, según se trate de
una palabra común o de un nombre propio, se le asigna la categoría extranjero 12 y se
11
En este apartado utilizaremos la denominación de palabras extranjeras para referirnos a
sustantivos, adjetivos, nombres propios, etc. extranjeros.
12
En el Anexo A figura la lista de categorías que utiliza el programa.
103
Capítulo 5. Preprocesamiento
escribe
en
el
correspondiente
fichero
de
depuración:
extranjeras.dep
o
propios_extranjeros.dep. El formato de estos ficheros es el mismo que el de los
restantes ficheros de depuración; dicho formato se describe en el apartado 5.2.4 de este
Capítulo.
Para evaluar el detector de palabras extranjeras hemos revisado manualmente el
contenido de ambos ficheros de depuración, los resultados obtenidos se muestran en la
siguiente Tabla:
Total
Aciertos
Error (%)
Palabras extranjeras
128
127
0.78
Propios extranjeros
1129
1122
0.62
Tabla 5.17 Porcentaje de error en la detección de palabras extranjeras
104
Capítulo 5. Preprocesamiento
CAPÍTULO 5 PREPROCESAMIENTO................................................................49
5.1
SEGMENTACIÓN ................................................................................................50
5.2
DETECCIÓN DE UNIDADES ESPECIALES ...............................................................55
5.2.1 definición de unidades..............................................................................55
5.2.2 EL DETECTOR DE UNIDADES ESPECIALES .......................................64
5.2.3 LOS RASGOS...........................................................................................65
5.2.4 ficheros de depuración .............................................................................67
5.3 RESULTADOS DEL MÓDULO DE PREPROCESAMIENTO.......................90
5.3.1 SEGMENTACIÓN....................................................................................90
5.3.2 EL DETECTOR DE UNIDADES ESPECIALES .......................................91
5.4 EVALUACIÓN ...............................................................................................93
5.4.1 SEGMENTACIÓN....................................................................................93
5.4.2 DETECCIÓN DE UNIDADES ESPECIALES...........................................97
5.5 LOCUCIONES ................................................................................................98
5.5.1 FICHERO DE DEPURACIÓN.................................................................99
5.5.2 RESULTADOS DEL DETECTOR DE LOCUCIONES............................100
5.5.3 evaluación..............................................................................................100
5.5.4 locuCiones más utilizadas en el corpus de entrenamiento.......................101
5.6 EL DETECTOR DE PALABRAS EXTRANJERAS......................................102
49