Download 6. EL DICCIONARIO
Document related concepts
Transcript
Capítulo VI : El Diccionario 6. EL DICCIONARIO 6.0 Introducción. Para poder aplicar algunas de las reglas gramaticales que contamos en el texto,surgió la necesidad de tener con un diccionario que nos permitiese conocer las posibles categorías de las palabras. Así, se consiguió, a través de la red un diccionario y a partir de él se construyó el que actualmente se maneja. Primero, se obtuvo la información que nos hacía falta : el nº de sílabas y la categoría asociada; después de obtener esta información para todas las palabras del diccionario, el diccionario se ha completado formando los plurales de los nombres, las terceras personas, los pasados y los participios de los verbos, además del grado comparativo y el grado superlativo de los adjetivos. Al final partiendo del un diccionario de unos 40.000 términos, hemos formado un diccionario de categorías de más de 87.000 términos, con posibilidad de ir ampliando con nuevas adquisiciones de vocabulario. 29 Capítulo VI : El Diccionario 6.1 Formato del diccionario. Partiendo de un diccionario con un formato donde aparece la palabra seguida de su categoría y su significado, a veces aparece también la transcripción fonética de la palabra, otras veces aparecen diferentes terminaciones que añadidas a la palabra anterior dan lugar a un término derivado. Es un formato lleno de excepciones, pero a partir de él se extrajo la información que interesaba. A continuación se da un ejemplo de página del diccionario original : 30 Capítulo VI : El Diccionario @1 a \'a_-\ n, often cap : the 1st letter of the English alphabet 2 a \*, (')a_-\ indefinite article : ONE, SOME -- used to indicate an unspecified or unidentified individual <there's a man outside> @aard.vark \'a_:rd-.va_:rk\ n : a large burrowing ant-eating African mammal @aback \*-'bak\ adv : by surprise <taken aback> @ab.a.cus \'ab-*-k*s\ n, pl -ci \-.si_-, -.ke_-\ or -cus.es : an instrument for performing calculations by sliding counters along rods or grooves @1 abaft \*-'baft\ adv : toward or at the stern : AFT 2 abaft prep : to the rear of @ab.a.lo.ne \.ab-*-'lo_--ne_-\ n : a large edible sea mollusk with an ear-shaped shell @1 aban.don \*-'ban-d*n\ vb : to give up : FORSAKE, DESERT -- aban.don.ment n 2 abandon n 1: a thorough yielding to natural impulses 2: ENTHUSIASM, EXUBERANCE Al final nos quedó, después de extraer la información, una página como la siguiente: 31 Capítulo VI : El Diccionario a 1 10 a 1 90 A-Bomb 2 10 a-bomb 2 50 a-bombed 2 52 a-bombed 2 53 a-bombing 3 54 A-Bombs 2 11 a-bombs 2 51 aardvark 2 10 aardvarks 2 11 abaci 3 11 abac.k 2 40 abacus 3 10 abacuses 4 11 abaft 2 40 abaft 2 80 abalone 4 10 abalones 4 11 abandon 3 10 abandon 3 50 abandoned 2 20 abandoned 3 52 abandoned 3 53 abandoneder 3 21 abandonedest 3 22 abandoning 4 54 abandonment 3 10 abandonments 3 11 En este nuevo formato aparece la palabra seguida del nº de sílabas y seguida del número de categoría. palabra nºsilabas nºcategoría 32 Capítulo VI : El Diccionario 6.1.1 Número de sílabas El número de sílabas de la palabra se ha obtenido de la transcripción fonética del diccionario original en los casos en que la palabra la poseía ; contando el número de guiones válidos presentes en esta más uno. Ejemplo de palabra con transcripción fonética : abase \*-'ba_-s\ La transcripción fonética va entre barras inclinadas siempre. Las reglas para obtener el número de sílabas han sido : 1. Los guiones válidos son aquellos que no tienen delante un espacio en blanco ‘ ‘ ó un subrayado ‘_’, y no llevan detrás una barra inclinada ‘\’. 2. Si en el proceso de cuenta de guiones nos encontramos una coma ‘,’ detenemos la cuenta y avanzamos hasta la barra del final de la transcripción ( la coma aparece para separar dos posibilidades de transcripción). 33 Capítulo VI : El Diccionario 3. Si la transcripción comienza por guión ‘-‘, añadimos al número de sílabas que tenga la palabra anterior el número de guiones válidos que tenga la transcripción. 4. Si la categoría de la palabra es plural : ‘pl ‘ en el formato inicial, y la palabra empieza por guión ‘-‘ . Entonces salto la transcripción y número de sílabas de la palabra anterior que sería el singular de ésta. Hemos de aclarar que los puntos intermedios dentro de una palabra en el formato del diccionario original son para indicar por donde podemos partir una palabra al acabar la línea de escritura. 5. Si la palabra no lleva transcripción fonética, comparo con la palabra anterior y si coincide el número de sílabas es el mismo. Si no, intento comparar las raíces de las palabras saltándome los posibles puntos intermedios ; si las raíces coinciden, cuento el número de puntos que hay en la terminación de la segunda palabra. Añado este número al número de sílabas de la palabra anterior para obtener el número de sílabas de la palabra actual. Hemos de aclarar que los puntos intermedios dentro de una palabra, en el formato del diccionario inicial, son para indicar por donde podemos partir una palabra al acabar la línea de escritura. 6. En el supuesto de no tener ninguna palabra anterior a la que referenciarnos, cuento por defecto el número de puntos contenidos en esta palabra (los puntos intermedios dentro de una palabra en el formato del diccionario inicial son para indicar por donde podemos partir una palabra al acabar la línea de escritura). Estos puntos a veces separan las sílabas de la palabra pero no siempre existe esta coincidencia. Por eso esta es la opción que utilizamos por defecto, cuando no tenemos otra regla que aplicar. 34 Capítulo VI : El Diccionario 6.1.2 Número de categoría. Tenemos los siguientes números de categoría válidos con sus correspondencias a categorías genéricas : 10 nombre singular. 11 nombre plural. 12 nombre cuyo singular y plural coinciden. 13 abreviaturas, acrónimos y siglas. 14 genitivo sajón. 20 adjetivo en grado positivo. 21 adjetivo en grado comparativo. 22 adjetivo en grado superlativo. 30 pronombre. 40 adverbio. 50 verbo en infinitivo. 51 verbo en tercera persona del singular. 52 verbo en pasado. 53 verbo en participio. 54 verbo en gerundio. 60 interjección. 70 conjunción. 80 preposición. 35 Capítulo VI : El Diccionario 90 artículo indeterminado. 91 artículo determinado. 6.2 Formación de nuevos elementos del diccionario. Ya se comentó que, partiendo de los elementos iniciales del diccionario, se han formado una serie de nuevos elementos aplicando reglas gramaticales del inglés . A continuación se pasará revista a la formación de los diferentes elementos. 6.2.1 Formación de los grados comparativo y superlativo del adjetivo. ÂAdjetivos monosilábicos 1. Si acaban en una sola vocal seguida de una sola consonante, duplican la consonante y se añade -er para el comparativo y -est para el superlativo. 2. Si el adjetivo acaba en ‘y’ precedida de consonante, se cambia la ‘y’ por ‘i’ y se añade -er para el comparativo y -est para el superlativo. 3. Si el adjetivo acaba en -e, simplemente se añade -r para el comparativo y -st para el superlativo. 4. Si el adjetivo acabe en doble -ee, suprime la última -e al añadir la terminación -st o la -r. 36 Capítulo VI : El Diccionario 5. En cualquier otro caso, se añade -er para el comparativo y -est para el superlativo. ÂAdjetivos bisilábicos Tienen las dos formas -er y -est , y las palabras ‘more’ y ‘most’ delante. Las reglas son : 1. Si el adjetivo acaba en -e, simplemente se añade -r para el comparativo y -st para el superlativo. 2. Si el adjetivo acabe en doble -ee, suprime la última -e al añadir la terminación -st o la -r. 3. Si el adjetivo acaba en ‘y’ precedida de consonante, se cambia la ‘y’ por ‘i’ y se añade -er para el comparativo y -est para el superlativo. 4. En cualquier otro caso, se añade -er para el comparativo y -est para el superlativo. 5. Hemos de tener en cuenta la existencia de una serie de terminaciones que, si aparecen en adjetivos monosilábicos, obligan a la formación de su grado comparativo y supelativo con las palabras ‘more’ y ‘most ‘ delante. Estas terminaciones son : -ure, -ful, -le. 37 Capítulo VI : El Diccionario Adjetivo Comparativo Superlativo good better best bad/ill worse worst little less least much/many more most far farther farthest “ further furthest old older oldest “ elder eldest 6. También existen una serie de adjetivos bisilábicos cuyos grados comparativo y superlativo son irregulares : 7. Existen una serie de adjetivos bisilábicos de origen latino cuyos grados comparativo y superlativo se forman poniendo delante las palabras ‘more’ y ‘most’ : major, minor, exterior, interior, junior, senior. 8. Hay también adjetivos comparativos que no tienen forma postiva ni grado comparativo : former, outer, upper, inner. 38 Capítulo VI : El Diccionario 6.2.2 Formación de la tercera persona del singular de los verbos. En el diccionario original no teníamos ninguna tercera persona de ningún verbo. Las reglas para la formación de la tercera persona son : 1. Para los infinitivos acabados en : ‘s’, ‘sh’, ‘ch’, ‘x’, ‘o’, se añade ‘es’. 2. Para los que terminan en ‘y’ precedida de consonante, la ‘y’ se transforma en ‘i’ y se añade ‘es’. 3. Todos los demás casos añaden ‘s’ a la forma del infinitivo. 6.2.3 Formación de pasados y participios. En el diccionario original no teníamos ningún pasado ni participio que no sea irregular. Por lo tanto, a partir de los verbos en infinitivo que no llevan pasado, formamos los pasados y participios. Las reglas para la formación de los pasados y participios regulares : 1. Para los infinitivos acabados en vocal simple (que no forme diptongo) seguida de consonante : se duplica la consonante y se añade ‘ed’. Los diptongos en inglés son : ‘ea’, ‘ee’, ‘oo’, ‘ie’, ‘oi’, ‘ou’ ‘ie’, ‘ai’, ‘ou’. 2. Para los que terminan en ‘y’ precedida de consonante, la ‘y’ se transforma en ‘i’ y se añade ‘ed’. 39 Capítulo VI : El Diccionario 3. Los monosilábicos acabados en consonante duplican la última consonante y añaden ‘ed’. 4. Los acabados en ‘l’ duplican siempre la ‘l’ y añaden ‘ed’. 5. Todos los demás casos añaden ‘ed’. 6.2.4 Formación del gerundio. En el diccionario original no teníamos ningún gerundio que no sea irregular. Por lo tanto, a partir de los verbos en infinitivo que no llevan gerundio, formamos las formas -ing. Las reglas para la formación de los gerundios : 1. Para los infinitivos acabados en vocal simple que no forme diptongo seguida de consonante : se duplica la consonante y se añade ‘ing’. Los diptongos en inglés son : ‘ea’, ‘ee’, ‘oo’, ‘ie’, ‘oi’, ‘ou’ ‘ie’, ‘ai’, ‘ou’. 2. Los monosilábicos acabados en consonante duplican la última consonante y añaden ‘ing’. 3. Los acabados en ‘l’ duplican siempre la ‘l’ y añaden ‘ing’. 4. Todos los demás casos añaden ‘ing’. 40 Capítulo VI : El Diccionario 6.3 Funcionamiento del diccionario. En el diccionario cada palabra aparece una vez por cada una de sus posibles categorías. Ejemplo : abandoned 3 20 abandoned 3 52 abandoned 3 53 Así la palabra anterior aparece con tres categorías diferentes : adjetivo, pasado y participio. Por lo tanto cuando se busque una palabra en el diccionario con una categoría dada, el diccionario lo único que puede decir es si la palabra buscada puede tener o no la categoría que pedimos, pero no nos puede asegurar que ésta sea la categoría correcta para el caso que nos ocupa. Cuando buscamos en el diccionario podemos tener varios tipos de búsqueda , como veremos en más profundidad cuando estudiemos las reglas gramaticales de búsqueda. Los tipos de búsqueda son: 1. Buscamos la palabra sola sin más datos. En caso de encontrarla, el diccionario devuelve el número de sílabas que tiene; si no la encuentra, devuelve ‘0’. 2. Buscamos la palabra y ,además, que tenga una categoría numérica o genérica . En caso de encontrarla, el diccionario devuelve el número de sílabas que tiene; si no la encuentra, devuelve ‘0’. 41 Capítulo VI : El Diccionario 3. Buscamos la palabra y, además, que tenga una categoría genérica pero que no tenga una concreta. En caso de encontrarla, el diccionario devuelve el número de sílabas que tiene; si no la encuentra devuelve ‘0’. 4. Buscamos la palabra que tenga una categoría genérica o concreta y que puede estar o no estar en una lista. En caso de encontrarla el diccionario devuelve el número de sílabas que tiene, si no la encuentra devuelve ‘0’. El diccionario si no encuentra lo que buscamos, devuelve cero, pero hay algunos casos especiales en los cuales al pedir una búsqueda al diccionario se obtendrán unos resultados fijos. Estos casos especiales del diccionario son : 1. La palabra que empieza por mayúscula y no tiene delante ningún terminador de frase : ‘.’, ‘ !’, ‘ ?’ ; siempre que no sea la primera palabra del texto. Siempre que se produzca esta situación asignaremos a la palabra la categoría de ‘nombre’, pues suponemos que será un nombre propio. Su categoría numérica será singular : ‘10’. Todo sin buscar la palabra previamente en el diccionario. Si tiene menos de siete letras, le asignamos una sílaba y, si tiene más de siete letras, le asignamos tres sílabas. 2. Una palabra en la que todos sus caracteres son : números, ‘-‘ , ‘_’, ‘ºK’, ’£’, ‘¥’, ‘$’, ‘%’, ‘Pt’, ‘Å’, ‘ºC’ ó ‘º’. Siempre que se produzca esta situación asignaremos a la palabra la categoría de ‘nombre’, pues suponemos que será una cifra. Su categoría numérica será singular : ‘10’. Todo ello sin buscar la palabra previamente en el diccionario. Un número puede contener en su interior ‘_’ y ‘-‘, porque en el proceso de preprocesado los ‘.’ anglosajones de decimal pasan a ser ‘_’, y las ‘,’ de grupo numérico pasan a ser ‘-‘. Se asignará siempre una sola sílaba a este nombre. 42 Capítulo VI : El Diccionario 3. Una palabra en la que los dos últimos caracteres son apóstrofe ( ‘ ) seguido de ‘s’ ó el último carácter es apóstrofe ( ‘ ). En el primer caso, tenemos un nombre con genitivo sajón en singular y, en el segundo, genitivo sajón en plural. Aquí asignamos la categoría de nombre. Su categoría numérica será: ‘14’. Todo sin buscar la palabra previamente en el diccionario. Si tiene menos de siete letras, le asignamos una sílaba y, si tiene más de siete letras, le asignamos tres sílabas. 4. Buscamos una palabra en el diccionario y no la encontramos. En este caso, comprobaremos si todas sus letras son mayúsculas. Siempre que se produzca esta situación, asignaremos a la palabra la categoría de ‘nombre’, pues suponemos que será una abreviatura. Su categoría numérica será: ‘13’. Todo sin buscar la palabra previamente en el diccionario. Le asignamos 1 sílaba. 5. Buscamos una palabra en el diccionario y no la encontramos. En este caso comprobaremos si todas sus letras son minúsculas y correspondientes a los símbolos de número romano. Siempre que se produzca esta situación, asignaremos a la palabra la categoría de ‘nombre’, pues suponemos que será un número romano. Su categoría numérica será singular : ‘10’. Todo sin buscar la palabra previamente en el diccionario. Se asignará siempre una sola sílaba en esta situación. Las letras de los números romanos son : ‘i’, ’v’, ’x’, ’l’, ’c’, ‘m’, y ‘d’. 6.4 Nuevos elementos que se han añadiod al diccionario. El diccionario está sujeto a ampliaciones ; basta con conseguir las listas de palabras que nos interesen y añadirlas al fichero del diccionario. Después, habrá que reordenar el fichero del diccionario. Por supuesto, las listas que añadamos deben tener el formato : 43 Capítulo VI : El Diccionario palabra nºsilabas nºcategoría Hasta ahora hemos añadido dos listas : 1ª Abreviaciones. Lista de 1380 términos. 2ª Phrasal verbs. Lista de 4738 términos. Algunas abreviaciones, o bien, están separadas en varias palabras, o bien, contienen puntos. En estos casos, los espacios intermedios o los puntos se sustituyen por subrayados ‘_’. Ejemplo : a.m a_m nt wt nt_wt En el caso de los “phasal verbs”, en el diccionario aparecerá la raíz verbal unida a la partícula mediante un subrayado también, de forma que cuando busquemos el término lo encontremos como una unidad. Ejemplo : come back come_back 44 Capítulo VI : El Diccionario Para poder buscar estos términos con subrayado en el diccionario, previamente, en el proceso de preprocesado hemos buscado estos términos y, substituido los ‘.’ y los espacios intermedios por ‘_’ . 45