Download 6. EL DICCIONARIO

Document related concepts

Gramática del húngaro wikipedia , lookup

Gramática del inglés wikipedia , lookup

Gramática del ucraniano wikipedia , lookup

Gramática del eslovaco wikipedia , lookup

Gramática del finés wikipedia , lookup

Transcript
Capítulo VI : El Diccionario
6. EL DICCIONARIO
6.0 Introducción.
Para poder aplicar algunas de las reglas gramaticales que contamos en el
texto,surgió la necesidad de tener con un diccionario que nos permitiese
conocer las posibles categorías de las palabras.
Así, se consiguió, a través de la red un diccionario y a partir de él
se construyó el que actualmente se maneja. Primero, se obtuvo la
información que nos hacía falta : el nº de sílabas y la categoría
asociada; después de obtener esta información para todas las palabras
del diccionario, el diccionario se ha completado formando los plurales
de los nombres, las terceras personas, los pasados y los participios de
los verbos, además del grado comparativo y el grado superlativo de los
adjetivos.
Al final partiendo del un diccionario de unos 40.000 términos,
hemos formado un diccionario de categorías de más de 87.000
términos, con posibilidad de ir ampliando con nuevas adquisiciones de
vocabulario.
29
Capítulo VI : El Diccionario
6.1 Formato del diccionario.
Partiendo de un diccionario
con un formato donde aparece la
palabra seguida de su categoría y su significado, a veces aparece
también la transcripción fonética de la palabra, otras veces aparecen
diferentes terminaciones que añadidas a la palabra anterior dan lugar a
un término derivado. Es un formato lleno de excepciones, pero a partir
de él se extrajo la información que interesaba.
A continuación se da un ejemplo de página del diccionario
original :
30
Capítulo VI : El Diccionario
@1 a \'a_-\ n, often cap : the 1st letter of the English alphabet
2 a \*, (')a_-\ indefinite article : ONE, SOME -- used to indicate an
unspecified or unidentified individual <there's a man outside>
@aard.vark \'a_:rd-.va_:rk\ n : a large burrowing ant-eating African
mammal
@aback \*-'bak\ adv : by surprise <taken aback>
@ab.a.cus \'ab-*-k*s\ n, pl -ci \-.si_-, -.ke_-\ or -cus.es : an
instrument for performing calculations by sliding counters along
rods or grooves
@1 abaft \*-'baft\ adv : toward or at the stern : AFT
2 abaft prep : to the rear of
@ab.a.lo.ne \.ab-*-'lo_--ne_-\ n : a large edible sea mollusk with an
ear-shaped shell
@1 aban.don \*-'ban-d*n\ vb : to give up : FORSAKE, DESERT
-- aban.don.ment n
2 abandon n
1: a thorough yielding to natural impulses
2: ENTHUSIASM, EXUBERANCE
Al final nos quedó, después de extraer la información, una página
como la siguiente:
31
Capítulo VI : El Diccionario
a 1 10
a 1 90
A-Bomb 2 10
a-bomb 2 50
a-bombed 2 52
a-bombed 2 53
a-bombing 3 54
A-Bombs 2 11
a-bombs 2 51
aardvark 2 10
aardvarks 2 11
abaci 3 11
abac.k 2 40
abacus 3 10
abacuses 4 11
abaft 2 40
abaft 2 80
abalone 4 10
abalones 4 11
abandon 3 10
abandon 3 50
abandoned 2 20
abandoned 3 52
abandoned 3 53
abandoneder 3 21
abandonedest 3 22
abandoning 4 54
abandonment 3 10
abandonments 3 11
En este nuevo formato aparece la palabra seguida del nº de
sílabas y seguida del número de categoría.
palabra nºsilabas nºcategoría
32
Capítulo VI : El Diccionario
6.1.1 Número de sílabas
El número de sílabas de la palabra se ha obtenido de la transcripción
fonética del diccionario original en los casos en que la palabra la poseía ;
contando el número de guiones válidos presentes en esta más uno.
Ejemplo de palabra con transcripción fonética :
abase \*-'ba_-s\
La transcripción fonética va entre barras inclinadas siempre.
Las reglas para obtener el número de sílabas han sido :
1. Los guiones válidos son aquellos que no tienen delante un
espacio en
blanco ‘ ‘ ó un subrayado ‘_’, y no llevan detrás
una barra inclinada ‘\’.
2. Si en el proceso de cuenta de guiones nos encontramos una
coma ‘,’ detenemos la cuenta y avanzamos hasta la barra del final
de la transcripción ( la coma aparece para separar dos
posibilidades de transcripción).
33
Capítulo VI : El Diccionario
3. Si la transcripción comienza por guión ‘-‘, añadimos al número
de sílabas que tenga la palabra anterior el número de guiones
válidos que tenga la transcripción.
4. Si la categoría de la palabra es plural : ‘pl ‘ en el formato inicial,
y la palabra empieza por guión ‘-‘ . Entonces salto la transcripción
y número de sílabas de la palabra anterior que sería el singular de
ésta. Hemos de aclarar que los puntos intermedios dentro de una
palabra en el formato del diccionario original son para indicar por
donde podemos partir una palabra al acabar la línea de escritura.
5. Si la palabra no lleva transcripción fonética, comparo con la
palabra anterior y si coincide el número de sílabas es el mismo. Si
no, intento comparar las raíces de las palabras saltándome los
posibles puntos intermedios ; si las raíces coinciden, cuento el
número de puntos que hay en la terminación de la segunda
palabra. Añado este número al número de sílabas de la palabra
anterior para obtener el número de sílabas de la palabra actual.
Hemos de aclarar que los puntos intermedios dentro de una
palabra, en el formato del diccionario inicial, son para indicar por
donde podemos partir una palabra al acabar la línea de escritura.
6. En el supuesto de no tener ninguna palabra anterior a la que
referenciarnos, cuento por defecto el número de puntos
contenidos en esta palabra (los puntos intermedios dentro de una
palabra en el formato del diccionario inicial son para indicar por
donde podemos partir una palabra al acabar la línea de escritura).
Estos puntos a veces separan las sílabas de la palabra pero no
siempre existe esta coincidencia. Por eso esta es la opción que
utilizamos por defecto, cuando no tenemos otra regla que aplicar.
34
Capítulo VI : El Diccionario
6.1.2 Número de categoría.
Tenemos
los
siguientes
números
de
categoría
válidos con
sus
correspondencias a categorías genéricas :
10 nombre singular.
11 nombre plural.
12 nombre cuyo singular y plural coinciden.
13 abreviaturas, acrónimos y siglas.
14 genitivo sajón.
20 adjetivo en grado positivo.
21 adjetivo en grado comparativo.
22 adjetivo en grado superlativo.
30 pronombre.
40 adverbio.
50 verbo en infinitivo.
51 verbo en tercera persona del singular.
52 verbo en pasado.
53 verbo en participio.
54 verbo en gerundio.
60 interjección.
70 conjunción.
80 preposición.
35
Capítulo VI : El Diccionario
90 artículo indeterminado.
91 artículo determinado.
6.2 Formación de nuevos elementos del diccionario.
Ya se comentó que, partiendo de los elementos iniciales del diccionario,
se han formado una serie de nuevos elementos aplicando reglas gramaticales
del inglés . A continuación se pasará revista a la formación de los diferentes
elementos.
6.2.1 Formación de los grados comparativo y superlativo del
adjetivo.
ÂAdjetivos monosilábicos
1. Si acaban en una sola vocal seguida de una sola consonante, duplican
la consonante y se añade -er para el comparativo y
-est para el
superlativo.
2. Si el adjetivo acaba en ‘y’ precedida de consonante, se cambia la ‘y’
por ‘i’ y se añade -er para el comparativo y -est para el superlativo.
3. Si el adjetivo acaba en -e, simplemente se añade -r para el comparativo
y -st para el superlativo.
4. Si el adjetivo acabe en doble -ee, suprime la última -e al añadir la
terminación -st o la -r.
36
Capítulo VI : El Diccionario
5. En cualquier otro caso, se añade -er para el comparativo y -est para el
superlativo.
ÂAdjetivos bisilábicos
Tienen las dos formas -er y -est , y las palabras ‘more’ y ‘most’ delante.
Las reglas son :
1. Si el adjetivo acaba en -e, simplemente se añade -r para el comparativo
y -st para el superlativo.
2. Si el adjetivo acabe en doble -ee, suprime la última -e al añadir la
terminación -st o la -r.
3. Si el adjetivo acaba en ‘y’ precedida de consonante, se cambia la ‘y’
por ‘i’ y se añade -er para el comparativo y -est para el superlativo.
4. En cualquier otro caso, se añade -er para el comparativo y -est para el
superlativo.
5. Hemos de tener en cuenta la existencia de una serie de terminaciones
que, si aparecen en adjetivos monosilábicos, obligan a la formación de
su grado comparativo y supelativo con las palabras ‘more’ y ‘most ‘
delante. Estas terminaciones son : -ure, -ful, -le.
37
Capítulo VI : El Diccionario
Adjetivo
Comparativo
Superlativo
good
better
best
bad/ill
worse
worst
little
less
least
much/many
more
most
far
farther
farthest
“
further
furthest
old
older
oldest
“
elder
eldest
6. También existen una serie de adjetivos bisilábicos
cuyos grados
comparativo y superlativo son irregulares :
7. Existen una serie de adjetivos bisilábicos de origen latino
cuyos
grados comparativo y superlativo se forman poniendo delante las
palabras ‘more’ y ‘most’ : major, minor, exterior, interior, junior, senior.
8. Hay también adjetivos comparativos que no tienen forma postiva ni
grado comparativo : former, outer, upper, inner.
38
Capítulo VI : El Diccionario
6.2.2 Formación de la tercera persona del singular de los
verbos.
En el diccionario original no teníamos ninguna tercera persona de
ningún verbo.
Las reglas para la formación de la tercera persona son :
1. Para los infinitivos acabados en : ‘s’, ‘sh’, ‘ch’, ‘x’, ‘o’, se añade ‘es’.
2. Para los que terminan en ‘y’ precedida de consonante, la ‘y’ se
transforma en ‘i’ y se añade ‘es’.
3. Todos los demás casos añaden ‘s’ a la forma del infinitivo.
6.2.3 Formación de pasados y participios.
En el diccionario original no teníamos ningún pasado ni participio que
no sea irregular. Por lo tanto, a partir de los verbos en infinitivo que no llevan
pasado, formamos los pasados y participios.
Las reglas para la formación de los pasados y participios regulares :
1. Para los infinitivos acabados en vocal simple (que no forme diptongo)
seguida de consonante : se duplica la consonante y se añade ‘ed’. Los
diptongos en inglés son : ‘ea’, ‘ee’, ‘oo’, ‘ie’, ‘oi’, ‘ou’ ‘ie’, ‘ai’, ‘ou’.
2.
Para los que terminan en ‘y’ precedida de consonante, la ‘y’ se
transforma en ‘i’ y se añade ‘ed’.
39
Capítulo VI : El Diccionario
3. Los monosilábicos acabados en consonante duplican la última
consonante y añaden ‘ed’.
4. Los acabados en ‘l’ duplican siempre la ‘l’ y añaden ‘ed’.
5. Todos los demás casos añaden ‘ed’.
6.2.4 Formación del gerundio.
En el diccionario original no teníamos ningún gerundio que no sea
irregular. Por lo tanto, a partir de los verbos en infinitivo que no llevan
gerundio, formamos las formas -ing.
Las reglas para la formación de los gerundios :
1. Para los infinitivos acabados en vocal simple que no forme diptongo
seguida de consonante : se duplica la consonante y se añade ‘ing’. Los
diptongos en inglés son : ‘ea’, ‘ee’, ‘oo’, ‘ie’, ‘oi’, ‘ou’ ‘ie’, ‘ai’, ‘ou’.
2. Los monosilábicos acabados en consonante duplican la última
consonante y añaden ‘ing’.
3. Los acabados en ‘l’ duplican siempre la ‘l’ y añaden ‘ing’.
4. Todos los demás casos añaden ‘ing’.
40
Capítulo VI : El Diccionario
6.3 Funcionamiento del diccionario.
En el diccionario cada palabra aparece una vez por cada una de sus
posibles categorías.
Ejemplo :
abandoned 3 20
abandoned 3 52
abandoned 3 53
Así la palabra anterior aparece con tres categorías diferentes : adjetivo,
pasado y participio. Por lo tanto cuando se busque una palabra en el
diccionario con una categoría dada, el diccionario lo único que puede decir es si
la palabra buscada puede tener o no la categoría que pedimos, pero no nos
puede asegurar que ésta sea la categoría correcta para el caso que nos ocupa.
Cuando buscamos en el diccionario podemos tener varios tipos de
búsqueda , como veremos en más profundidad cuando estudiemos las reglas
gramaticales de búsqueda. Los tipos de búsqueda son:
1. Buscamos la palabra sola sin más datos. En caso de encontrarla, el
diccionario devuelve el número de sílabas que tiene; si no la encuentra,
devuelve ‘0’.
2. Buscamos la palabra y ,además, que tenga una categoría numérica o
genérica . En caso de encontrarla, el diccionario devuelve el número de
sílabas que tiene; si no la encuentra, devuelve ‘0’.
41
Capítulo VI : El Diccionario
3. Buscamos la palabra y, además, que tenga una categoría genérica pero
que no tenga una concreta. En caso de encontrarla, el diccionario
devuelve el número de sílabas que tiene; si no la encuentra devuelve ‘0’.
4. Buscamos la palabra que tenga una categoría genérica o concreta y que
puede estar o no estar en una lista. En caso de encontrarla el diccionario
devuelve el número de sílabas que tiene, si no la encuentra devuelve ‘0’.
El diccionario si no encuentra lo que buscamos, devuelve cero, pero hay
algunos casos especiales en los cuales al pedir una búsqueda al diccionario se
obtendrán unos resultados fijos. Estos casos especiales del diccionario son :
1. La palabra que empieza por mayúscula y no tiene delante ningún
terminador de frase : ‘.’, ‘ !’, ‘ ?’ ; siempre que no sea la primera palabra
del texto. Siempre que se produzca esta situación asignaremos a la
palabra la categoría de ‘nombre’, pues suponemos que será un nombre
propio. Su categoría numérica será singular : ‘10’. Todo sin buscar la
palabra previamente en el diccionario. Si tiene menos de siete letras, le
asignamos una sílaba y, si tiene más de siete letras, le asignamos tres
sílabas.
2. Una palabra en la que todos sus caracteres son : números, ‘-‘ , ‘_’,
‘ºK’, ’£’, ‘¥’, ‘$’, ‘%’, ‘Pt’, ‘Å’, ‘ºC’ ó ‘º’. Siempre que se produzca esta
situación asignaremos a la palabra la categoría de ‘nombre’, pues
suponemos que será una cifra. Su categoría numérica será singular : ‘10’.
Todo ello sin buscar la palabra previamente en el diccionario. Un
número puede contener en su interior ‘_’ y ‘-‘, porque en el proceso de
preprocesado los ‘.’ anglosajones de decimal pasan a ser ‘_’, y las ‘,’ de
grupo numérico pasan a ser ‘-‘. Se asignará siempre una sola sílaba a
este nombre.
42
Capítulo VI : El Diccionario
3. Una palabra en la que los dos últimos caracteres son apóstrofe ( ‘ )
seguido de ‘s’ ó el último carácter es apóstrofe ( ‘ ). En el primer caso,
tenemos un nombre con genitivo sajón en singular y, en el segundo,
genitivo sajón en plural. Aquí asignamos la categoría de nombre. Su
categoría numérica será: ‘14’. Todo sin buscar
la palabra previamente
en el diccionario. Si tiene menos de siete letras, le asignamos una sílaba
y, si tiene más de siete letras, le asignamos tres sílabas.
4. Buscamos una palabra en el diccionario y no la encontramos. En este
caso, comprobaremos si todas sus letras son mayúsculas. Siempre que se
produzca esta situación, asignaremos a la palabra la categoría de
‘nombre’, pues suponemos que será una abreviatura. Su categoría
numérica será: ‘13’. Todo sin buscar la palabra previamente
en el
diccionario. Le asignamos 1 sílaba.
5. Buscamos una palabra en el diccionario y no la encontramos. En este
caso
comprobaremos
si
todas
sus
letras
son
minúsculas
y
correspondientes a los símbolos de número romano. Siempre que se
produzca esta situación, asignaremos a la palabra la categoría de
‘nombre’, pues suponemos que será un número romano. Su categoría
numérica será singular : ‘10’. Todo sin buscar la palabra previamente en
el diccionario. Se asignará siempre una sola sílaba en esta situación.
Las letras de los números romanos son : ‘i’, ’v’, ’x’, ’l’, ’c’, ‘m’, y ‘d’.
6.4 Nuevos elementos que se han añadiod al diccionario.
El diccionario está sujeto a ampliaciones ; basta con conseguir las listas
de palabras que nos interesen y añadirlas al fichero del diccionario. Después,
habrá que reordenar el fichero del diccionario. Por supuesto, las listas que
añadamos deben tener el formato :
43
Capítulo VI : El Diccionario
palabra nºsilabas nºcategoría
Hasta ahora hemos añadido dos listas :
1ª Abreviaciones.
Lista de 1380 términos.
2ª Phrasal verbs.
Lista de 4738 términos.
Algunas abreviaciones, o bien, están separadas en varias palabras, o
bien, contienen puntos. En estos casos, los espacios intermedios o los puntos se
sustituyen por subrayados ‘_’.
Ejemplo :
a.m
a_m
nt wt
nt_wt
En el caso de los “phasal verbs”, en el diccionario aparecerá la raíz
verbal unida a la partícula mediante un subrayado también, de forma que
cuando busquemos el término lo encontremos como una unidad.
Ejemplo :
come back
come_back
44
Capítulo VI : El Diccionario
Para poder buscar estos términos con subrayado en el diccionario,
previamente, en el proceso de preprocesado hemos buscado estos términos y,
substituido los ‘.’ y los espacios intermedios por ‘_’ .
45