Download Frecuencia y distintividad en el uso lingüístico: casos tomados de la

Document related concepts

Corpus lingüístico wikipedia , lookup

Corpus Nacional Británico wikipedia , lookup

Verbo auxiliar wikipedia , lookup

Verbo wikipedia , lookup

Tipología lingüística wikipedia , lookup

Transcript
Frecuencia y distintividad en el uso lingüístico: casos tomados de la
lematización verbal de corpus de distintos registros
Antonio Moreno Sandoval
Universidad Autónoma de Madrid
José María Guirao Miras
Universidad de Granada
ABSTRACT
El objeto de esta comunicación es establecer una comparación entre el concepto de
frecuencia de uso y el de distintividad. Para ello utilizaremos el caso de los lemas
verbales del español en diferentes registros y variedades del español. La metodología
consistirá en emplear tres corpus lematizados automáticamente en el Laboratorio de
Lingüística Informática de la UAM. Los tres corpus representan el habla espontánea de
la variedad peninsular (C-ORAL-ROM), el habla infantil espontánea (CHIEDE) y un
corpus de noticias de la Agencia EFE. Para realizar la extracción de unidades
distintivas, aplicamos el test de Dunning a cada corpus, confeccionando una lista de
lemas verbales distintivos del registro. El resultado final son dos listas de verbos para
cada registro. En el Apéndice se muestran los 100 primeros casos de cada tipo textual,
propuesta que puede ser de interés para la enseñanza de segundas lenguas y la
lexicografía.
PALABRAS CLAVE: corpus orales y escritos; variedades del español; lematización;
frecuencia de uso,
I. FRECUENCIA DE USO Y DISTINTIVIDAD
El concepto de frecuencia de uso es recurrente y básico en gran parte de la
investigación en Lingüística de Corpus, así como en otras áreas como Análisis del
Discurso, Sociolingüística, Fonología o Lingüística Histórica. Joan Bybee (2007) es un
buen ejemplo de la argumentación a favor de la frecuencia de uso como factor esencial
(funcional) en el análisis y explicación de la estructura de las lenguas naturales. Bybee,
representante del funcionalismo, destaca alguna de las características más importantes
de la frecuencia de uso:
To the uninitiated, it does not seem unreasonable at all to suppose that highfrequency words and expressions might have one set of properties and lowfrequency words and expressions another. (Bybee 2007: 5)
Precisamente lo que Bybee trata de demostrar en su libro es cómo la
frecuencia y la repetición de formas y unidades lingüísticas influyen en fenómenos
como la gramaticalización (cambio y creación de estructuras) o la marcación (la formas
o unidades no marcadas son más frecuentes que las marcadas). La hipótesis básica de
bastantes corrientes empiricistas y funcionalistas es que ““specific instances of
experiences give rise to generalizations, and they can do so without being swallowed up
themselves by the general pattern.[……] The reason frequency or repetition plays a role in
195
grammar formation is that the mind is sensitive to repetition”” (Bybee 2007: 7-8).
Como es bien sabido, en el recuento de frecuencias se puede distinguir entre
ejemplos (tokens) y tipos (types). En nuestro caso de estudio, cada forma verbal de un
verbo es un ejemplo de dicho verbo (tipo)1. Así, amo, amas, ama…… son ejemplos de
AMAR. De esta manera, el recuento de todas las formas que aparecen en un corpus y
que pertenecen al mismo lema supone una abstracción de los ejemplos al concepto más
abstracto, la unidad léxica verbal.
En nuestro experimento vamos a utilizar la lematización y la frecuencia de
tipo como elemento de discusión. Queremos analizar la posible influencia de la
repetición de la unidad léxica verbal en la determinación de las características de una
variedad o registro lingüísticos.
En contraposición a la frecuencia oponemos el concepto de distintividad,
entendido como unidad léxica que es característica y distintiva de una variedad porque
aparece típicamente en dicho registro y no tanto en otros. Informativamente, una unidad
distintiva destaca porque proporciona más información sobre el contenido y contexto.
Igualmente, la probabilidad de que dicho lema aparezca en un determinado registro es
más alta que en otros contextos. Esta idea ha sido expuesta por Dunning (1993): se
observa que las palabras más representativas de un texto o de un registro tienen una
frecuencia de aparición muy baja (dos o tres veces) con respecto a otras más generales
en cualquier corpus. Sin embargo, dichas palabras identifican muy claramente el
contenido o la tipología del texto.
Por tanto, palabra más frecuente y palabra más significativa son dos
conceptos que no deben confundirse y no necesariamente equivalentes. El objeto de este
artículo es mostrar las correspondientes listas extraídas de diferentes corpus para ver
hasta qué punto la distinción es productiva en aplicaciones de la Lingüística, como la
enseñaza de lenguas o la terminología.
II. METODOLOGÍA
II.1. Los corpus empleados
Para nuestro experimento emplearemos tres corpus que han sido anotados
automáticamente por medio un analizador morfosintáctico, GRAMPAL (Moreno 1991,
Moreno y Guirao 2006). En el caso de los dos corpus de habla espontánea, los
resultados de la lematización han sido revisados a mano por lingüistas. En el caso del
corpus escrito, dado el tamaño, no se ha procedido todavía a la revisión.
II.1.1. C-ORAL-ROM
El corpus C-ORAL-ROM está compuesto por cuatro subcorpus, comparables
en tamaño y distribución, en cuatro lenguas romances (francés, italiano, portugués y
español). Se trata de un corpus de habla espontánea, de carácter general. El subcorpus
español contiene 180 grabaciones transcritas, anotadas y alineadas (cada utterance con
su correspondiente señal acústica). El corpus se describe en detalle en Cresti y Moneglia
(eds.) (2005) y se pueden consultar tanto las transcripciones como las anotaciones y el
1
El trabajar con lemas supone una abstracción con respecto a los recuentos de frecuencias de palabras.
En este último caso, cada palabra es el tipo y las veces que aparece son los ejemplos.
196
audio, que acompañan al libro con un DVD. En Moreno y Urresti (2006) se da una
exposición pormenorizada de los estudios que se han realizado sobre el subcorpus
español.
El corpus se divide en tres grandes secciones: el registro informal (alrededor
de 150.000 palabras), el registro formal (unas 80.000 palabras) y la de los medios de
comunicación (70.000 palabras). La temática es muy variada y el número de hablantes
diferentes supera los 500, siguiendo una distribución equitativa de hombres y mujeres,
aunque no se tuvo en cuenta su distribución en los registros. Mayoritariamente, los
hablantes son de la variedad centro-peninsular, aunque hay locutores de muy variadas
procedencias.
Lo pertinente para este artículo es lo referente a la lematización.
Efectivamente, cada uno de los subcorpus fue anotado morfosintácticamente y se
crearon listas de frecuencias con las formas y los lemas de cada lengua. Nosotros
tomaremos directamente la lista de los 100 lemas verbales más frecuentes en este
corpus.
II.1.2. CHIEDE
CHIEDE (Garrote 2008) es un corpus de habla espontánea infantil. Toma
como modelo la metodología empleada en C-ORAL-ROM, y lo aplica a la variedad
infantil entre los 3 y los 5 años. Las grabaciones fueron realizadas en un colegio de
Educación Infantil de Castilla-La Mancha. Está compuesto por dos tipos de
grabaciones: las de asamblea, en las que todos los niños intervienen guiados por su
profesora; y las de entrevista entre un niño y la investigadora. En total se recogen unas
60.000 palabras y varias horas de grabación, distribuidas proporcionalmente entre los
tres años de la muestra.
El corpus ha sido anotado morfosintácticamente con la misma herramienta
(GRAMPAL) y luego su resultado ha sido revisado y corregido manualmente por la
investigadora. La lista de los 100 lemas verbales más frecuentes ha sido tomada de la
tesis de M. Garrote.
II.1.3. Corpus de la Agencia EFE
Este corpus ha sido recogido y anotado por María Cristina Tovar como
trabajo de investigación para la obtención del DEA en el programa de doctorado ““El
lenguaje humano: su origen, uso y aplicaciones””, de la UAM. El corpus se va a utilizar
en la tesis que ella está desarrollando en el LLI-UAM sobre las características del
registro escrito periodístico en diferentes variedades geográficas del español.
Como se trata de una investigación en marcha, no disponemos de
publicaciones pero en estos momentos ha pasado la etapa de revisión y recategorización
de los textos en función de su tipología y se ha comenzado la primera fase de anotación
morfosintáctica. El corpus está compuesto por más de 15 millones de palabras y nos
parece impracticable su revisión manual completa, como se ha hecho con los corpus
orales. Por tanto, procederemos a una revisión de una muestra aleatoria, aunque de
momento para el experimento se han utilizados los resultados de la lematización
automática. Por lo tanto, la lista de los 100 verbos más frecuentes no es más que una
primera aproximación, aunque creemos que será bastante parecida a la definitiva.
197
II.2. Lematización automática
GRAMPAL es un analizador morfosintáctico del español que asigna la
etiqueta más probable para cada palabra o unidad de palabras (multiwords). Esta
etiqueta contiene información sobre la categoría sintáctica, su lema y rasgos
morfosintácticos (persona, número, tiempo, aspecto y forma no personal en el caso de
los verbos). GRAMPAL fue diseñado originalmente para analizar textos escritos y dar
todos los análisis posibles para una forma dada. Así, por ejemplo, para la forma bajo
debe proporcionar el análisis como preposición, verbo, adjetivo y nombre. Obviamente,
hay muchas formas que no son ambiguas en el español, es decir, que sólo tienen un
análisis morfosintáctico, pero también es cierto que formas muy frecuentes como que,
la, las o los tienen dos análisis categoriales, al menos.
Para dar una idea de la ambigüedad morfosintáctica del español, en Moreno y
Guirao (2006) damos una evaluación con corpus escritos y orales. La distribución entre
palabras no ambiguas y ambiguas en el corpus escrito es de 65% a 35%,
respectivamente. Sin embargo, la relación de ambigüedad está prácticamente al 50% en
el corpus oral.
Como originariamente GRAMPAL no estaba diseñado para desambiguar,
hubo que incorporar un módulo de desambiguación estadístico, basado en un corpus de
entrenamiento formado por textos revisados a mano. Nuestra experiencia ha sido que en
cada cambio de registro o variedad, se ha tenido que corregir entre un 5 y un 10 % los
resultados, ya que la categorización morfosintáctica es sensible al tipo de texto. Otra
innovación que hemos introducido ha sido el tratamiento de las unidades multipalabra,
como por ejemplo o en lugar de. En el caso de los verbos, lo más relevante es que se ha
incluido un módulo de reconocimiento de verbos que no están en el lexicón, de manera
que si tiene forma analizada presenta una terminación propia de los verbos españoles, se
le asigna provisionalmente la etiqueta de verbo. Para nuestro experimento, los casos de
verbos que no estaban en el lexicón han sido eliminados del recuento, hasta que no se
realice una verificación manual.
El grado de precisión de nuestro programa está en torno al 95%, que es la cifra
típica de los etiquetadores avanzados, en español y en otras lenguas. Mejorar dicha
precisión es difícil, dada la ambigüedad inherente en las lenguas, que hace complicada
tomar una decisión incluso a lingüistas expertos.
II.4. El test de Dunning
Para identificar los lemas distintivos de cada subcorpus de nuestro experimento
hemos empleado el test de razón de verosimilitud (log-likelihood ratio test) propuesto
por Dunning (1993). Este método no asume distribuciones estadísticas normales de las
unidades de un corpus. Por el contrario, la ratio de probabilidad (logarítmica) asume una
distribución binomial más apropiada para palabras poco comunes pero significativas.
Una ventaja adicional de este test es que no que necesita que los subcorpus estén
equilibrados para llevar a cabo la comparación. Este método se ha aplicado con éxito
para hallar colocaciones (Dunning 1993) y términos (Daille 1994). Para probar el
método con la intención de encontrar unidades distintivas en dominios específicos,
podemos trabajar con dos hipótesis:
i. Dos registros (o subcorpus) no muestran ninguna diferencia en unidades
distintivas (Hipótesis nula).
198
ii. Para un subcorpus dado, podemos hallar unidades distintivas (Hipótesis
alternativa).
Para comprobar cuál de las dos hipótesis es la correcta aplicamos el test a dos
subcorpus bien definidos: lenguaje adulto e infantil. La manera de comprobarlo es ver la
distribución de las unidades que han obtenido mayor puntuación en la razón de
verosimilitud. Por ejemplo, las palabras más significativas de los adultos en el corpus
CHIEDE fueron:
FORMAS
ADULTOS
(36.905)
NIÑOS
(21.080)
TEST
de
DUNNING
qué
te
1.123
743
108
59
510.29
373.43
a ver
bien
ah
claro
tú
371
304
270
231
264
23
14
18
15
27
207.58
189.00
146.32
126.53
113.88
Tabla 1: La palabras más características de los adultos
La fórmula estadística es:
2 log O 2 [log L (p1, k 1, n1) log L (p2, k 2, n2) log L (p , k 1, n1) log L (p , k 2, n2)]
Las cifras de esta tabla de contingencias deben entenderse de la siguiente
manera. Se forman dos conjuntos, el que se analiza para encontrar unidades distintivas y
su conjunto complementario. En nuestro ejemplo, el conjunto principal es el formado
por las palabras emitidas por los adultos y el conjunto complementario es el de los
niños. Como se dijo anteriormente, este test no exige que el tamaño de los conjuntos sea
equilibrado. El número de palabras emitidas por los adultos es de 36905 (n1), mientras
que el de los niños es de 21080(n2), para dar un total de 57985 en el corpus. Para cada
palabra se proporciona las ocurrencias en adultos (k1), niños (k2) y el valor que
proporciona el test de Dunning (resultado final de la fórmula). Cuanto mayor es el valor
de la razón de verosimilitud, más característica es la palabra para el conjunto principal.
En nuestro ejemplo, el pronombre interrogativo qué aparece proporcionalmente
muchas más veces (1123 entre 36905) en los adultos que en los niños (108 entre
21080). Eso le asigna una ratio de 510,292.
En la tabla podemos comprobar que una frecuencia de aparición mayor no
necesariamente proporciona mayor razón de verosimilitud. La palabra tú aparece más
veces (264) que la palabra claro (231) y sin embargo la segunda obtiene una razón
2
La aplicación de la fórmula es como sigue: n1 y n2 son el número total de ejemplos de los conjuntos 1 y
2. k1 y k2 son el número de veces que aparece una determinada unidad (sea palabra, fonema, lema,
categoría sintáctica, etc.). p1 es la probabilidad del primer conjunto y se calcula mediante p1 = k1 / n1.
Análogamente, p2 = k2 / n2. La probabilidad del total, p, se calcula p = (k1 + k2) / (n1 + n2). Finalmente,
se aplica una razón de logaritmos, en el numerador está el caso específico: log L( p1, k1, n1) + log L( p2,
k2, n2); y en el denominador se calcula la del total: log L( p, k1, n1) + log L( p, k2, n2). Como se puede
apreciar, lo crucial es la razón entre los ejemplos concretos de la unidad (k1) en relación con el tamaño
del conjunto (n1) y la misma relación en el conjunto complementario.
199
mayor (126,53) frente a la primera (113,88). Esto es debido a que tú aparece
proporcionalmente más veces en el corpus complementario, el infantil, que claro. El test
de la razón de verosimilitud favorece los casos que son más frecuentes (en comparación
con el número total de ejemplos) en el conjunto principal que en el conjunto
complementario.
En general, toda ratio que supera el valor de 8 es considerada como indicación
de que la unidad es significativa para el conjunto en cuestión. Como se puede
comprobar en la tabla, todas las palabras son relativas a la interacción del adulto con el
niño, ya sea para preguntar (qué, a ver), como para asentir (bien, ah, claro) o para
dirigirse a él o ella (te, tú).
Las 5 palabras que salieron con mayor puntuación en el conjunto infantil fueron:
mi
524.66
yo
300.54
sí
255.77
me
198.53
tengo 141.16
Todas ellas reflejan el uso característico de los pronombres y la primera persona,
como habitualmente se describe en los estudios de lenguaje infantil. Garrote et al (2008)
presentan más evidencias (entre ellas, fonemas y categorías) a favor de la fiabilidad de
esta técnica estadística para encontrar unidades características de un conjunto frente a su
complementario.
En este artículo aplicaremos la misma técnica para extraer los lemas verbales
más significativos de los distintos registros que analizamos en el siguiente apartado.
III. COMPARACIÓN Y DISCUSIÓN DE LOS RESULTADOS
Vamos a considerar tres registros:
1. Habla espontánea adulta
2. Habla espontánea infantil
3. Texto escrito periodístico
Para realizar el cálculo de la razón de verosimilitud, enfrentaremos entre sí el
habla espontánea adulta e infantil, y los textos periodísticos con el corpus de habla
espontánea adulta.
Para cada registro se proporcionan dos listas, ordenadas por mayor frecuencia y
mayor valor de razón de verosimilitud. En este apartado solo discutiremos los resultados
más relevantes. Los datos completos se presentan en el Apéndice.
III. 1. Habla espontánea adulta
Los 10 verbos más frecuentes (sobre un total de 50.122 formas verbales) en CORAL-ROM se muestran en la tabla siguiente:
HABLA ADULTA
Puesto
Verbo
Frecuencia
Absoluta
Frecuencia
Relativa
1 SER
7404
14.77%
2 DECIR
2652
5.29%
200
3 ESTAR
2404
4.79%
4 TENER
2388
4.76%
5 HACER
2220
4.42%
6 HABER
1456
2.90%
7 IR
1392
2.77%
8 VER
964
1.92%
9 DAR
886
1.76%
865
1.72%
10 SABER
Tabla 2: Los 10 verbos más frecuentes en C-ORAL-ROM
Los 10 verbos más significativos de C-ORAL-ROM, con su valor del test de Dunning
calculado en oposición al conjunto de lemas verbales del corpus de la Agencia EFE son:
HABLA ADULTA
verbo
puesto
Dunning
1
SER
4.806,5
2
IR
3.052,8
3
CREER
2.693,4
4
ESTAR
2.465,4
5
DECIR
2.087,0
6
VER
1.691,0
7
SABER
1.690,3
8
VENIR
1.557,6
9
PASAR
1.084,1
10
LLAMAR
1.080,0
Tabla 3: Los 10 verbos más significativos en C-ORAL-ROM
De la comparación de los datos, se puede observar que un buen porcentaje de
verbos coincide en ambas listas (SER, ESTAR, IR, DECIR, VER y SABER), lo que
indicaría que frecuencia y distintividad en este caso irían bastante parejas. Destaca la
presencia de verbos de movimiento (IR, VENIR) y los verbos de interacción
conversacional como DECIR y LLAMAR. Ambos fenómenos se podrían asociar a las
características propias de la oralidad, donde se describen eventos en una situación
dialógica.
III. 2. Habla espontánea infantil
Los diez lemas verbales más frecuentes en CHIEDE son los que aparecen en la
Tabla 4. Lo más llamativo es que coinciden con los del corpus de habla adulta salvo en
el verbo JUGAR, que en los adultos es DAR. En cuanto al orden en la posición, en el
léxico infantil TENER ocupa la segunda posición, en contraposición con DECIR, que es
el segundo verbo en frecuencia de uso en los adultos (probablemente por su importancia
como verbo dicendi en el registro oral).
201
HABLA INFANTIL
Puesto
Frecuencia
Absoluta
Verbo
Frecuencia
Relativa
1
SER
509
12.5
2
TENER
330
8.1
3
ESTAR
193
4.7
4
SABER
176
4.3
5
HACER
172
4.2
6
IR
129
3.1
7
DECIR
118
2.8
8
HABER
93
2.2
9
VER
89
2.1
10
LLAMAR
88
2.1
Tabla 4: Los 10 verbos más frecuentes en CHIEDE
Los 10 verbos más significativos de CHIEDE, en contraposición con el corpus adulto de
C-ORAL-ROM se muestran en la Tabla 5.
puesto
HABLA INFANTIL
verbo
Dunning
1
JUGAR
200,9
2
SABER
102,9
3
CAER(SE)
97,8
4
TENER
76,2
5
PORTAR(SE)
71,7
6
REGALAR
64,3
7
PICAR
53,1
8
PINTAR
46,7
9
COMPRAR
41,5
10
CANTAR
40,2
Tabla 5: Los 10 verbos más significativos en CHIEDE
Al comparar las dos listas de léxico verbal de los niños, lo primero que llama la
atención es que sólo coinciden tres verbos: JUGAR, SABER y TENER. Los otros siete
verbos característicos se refieren o bien a actividades típicas de la infancia: CAER(SE),
PORTAR(SE), PINTAR y CANTAR; o bien a actividades propias de los adultos en su
interrelación con los niños: REGALAR y COMPRAR. El caso de PICAR es muy
ilustrativo. Aparece sólo 18 veces (de un total de 4070 formas verbales empleadas por
los niños). El uso más habitual de este verbo en CHIEDE es ““me pica……”” Este verbo
ocupa la posición séptima, antes que verbos más frecuentes en el léxico infantil como
PINTAR, porque PICAR aparece sólo 13 veces en el corpus C-ORAL-ROM (que tiene
50119 formas verbales).
Es bien conocido en la lingüística de corpus que los resultados son muy
dependientes del tamaño del corpus y los corpus empleados en nuestro estudio no tienen
un número suficiente (especialmente el infantil) de palabras para extraer conclusiones.
202
Sin embargo, los datos ofrecidos por el test de Dunning son compatibles con la
bibliografía en psicolingüística infantil y coherentes con nuestra experiencia.
Hemos extraído la lista de verbos significativos para los adultos de C-ORALROM, en situación complementaria con los verbos empleados por los niños, y entre los
primeros 20 verbos distintivos encontramos 11 que no aparecen ninguna vez en
CHIEDE: UNIR, RECORDAR, SUPONER, SOBRAR, TRATAR, EXPLICAR,
CONSIDERAR, MANTENER, PERMITIR, CONSEGUIR y REALIZAR. Esto es un
indicio de que estos verbos, aunque muy generales y habituales en la actuación
lingüística adulta, no forman parte del léxico activo de los niños de entre 2 y 5 años.
Habría que confirmar esta conjetura con estudios experimentales psicolingüísticos. Esta
forma de extraer diferencias léxicas entre adultos y niños puede ser no sólo de
inspiración para nuevos estudios experimentales sino que también podría ser empleada
para diseñar estrategias pedagógicas de enseñanza del léxico.
III.3. Registro periodístico
Las Tablas 6 y 7 muestran los primeros lemas verbales en este registro. En
primer lugar, destaca la presencia de los verbos dicendi propios de un registro
informativo: DECIR, SEÑALAR, ASEGURAR, INFORMAR. Sin embargo, mientras
que en la frecuencia de uso nos seguimos encontrando con los verbos generales (SER,
TENER, HACER, ESTAR, HABER), en la razón de verosimilitud todos los ejemplos
son de verbos de comunicación o declarativos. Esto nos confirma la utilidad del test de
Dunning para extraer elementos característicos en registros especializados.
TEXTOS PERIODÍSTICOS
Puesto
Frecuencia
Absoluta
98694
44153
33509
30579
23843
23038
14098
13927
12992
12275
verbo
1 SER
2 TENER
3 HACER
4 DECIR
5 HABER
6 ESTAR
7 SEÑALAR
8 DAR
9 ASEGURAR
10 INFORMAR
Frecuencia
Relativa
5,98%
2,67%
2,03%
1,85%
1,44%
1,40%
0,85%
0,84%
0,79%
0,74%
Tabla 6: Los 10 verbos más frecuentes en el corpus EFE
203
TEXTOS PERIODÍSTICOS
puesto
verbo
Dunning
1
SEÑALAR
691,2
2
ASEGURAR
610,0
3
AFIRMAR
594,2
4
INFORMAR
592,6
5
DESTACAR
450,9
6
INDICAR
438,8
7
PRESENTAR
400,6
8
AGREGAR
332,6
9
CONSIDERAR
317,9
10
CELEBRAR
300,4
Tabla 7: Los 10 verbos más significativos en el corpus EFE
III.4. Conclusiones y trabajo futuro
Como reflexión final, podemos sacar algunas conclusiones a partir de los
datos. En primer lugar, hay que destacar que los conceptos de frecuencia de uso y
distintividad son coincidentes en cierta medida en el habla espontánea adulta, como una
prueba más del carácter básico de la oralidad en las lenguas humanas.
En segundo lugar, los datos nos sugieren que los verbos más frecuentes en el
habla espontánea son los mismos en adultos y niños, con cierta variación en el orden.
Sin embargo, en cuanto a distintividad, la mayoría de los verbos significativos están
relacionados con las actividades propias de unos y otros.
Por otra parte, al analizar un registro especializado, como es el periodístico,
comprobamos que los verbos característicos no coinciden con los más frecuentes, que
suelen ser los generales de la lengua.
Finalmente, si comparamos la frecuencia relativa en el uso de verbos (ver
Apéndice 1) se observa una significativa desproporción en el uso del verbo SER en el
habla espontánea (tanto adulta como infantil), donde la tasa está en el 12-14% frente al
6 % en el registro periodístico. Esta relación también se produce con otros verbos muy
frecuentes. Dicho de otra manera, la diversidad de lemas es mucho mayor en el corpus
escrito que en el oral, situación que es conocida y esperada, y que nuestro recuento ha
cuantificado.
Retomando las palabras iniciales de Bybee en este artículo, las propiedades
de los lexemas verbales más frecuentes suelen ser muy relevantes para la oralidad. Los
datos de nuestro análisis apoyan la hipótesis funcionalista de la importancia de la
repetición en la conformación de estructuras lingüísticas básicas. Sin embargo, los
dominios y registros especializados muestran la relevancia de las unidades distintivas,
que no son muy frecuentes pero son muy informativas. En este caso, como afirmaba
Dunning: ““Unfortunately rare events do make up a large fraction of real text.””
Las aplicaciones de la frecuencia de uso y de la distintividad en un registro
dado son muy sugerentes para la lexicografía, terminología y didáctica de lenguas, ya
que permiten diferenciar lo general y frecuente de lo particular y característico. En
cualquier caso, nos parece que este tipo de listados como el que ofrecemos en los
Apéndices sirven de base para el conocimiento general sobre las lenguas.
204
AGRADECIMIENTOS
Esta investigación ha sido parcialmente financiada por el proyecto BRAVO-RL del
MEC-CICYT (TIN2007-67407-C03-02) y por la Comunidad de Madrid en el marco del
convenio MAVIR (S-0505/TIC/0267).
REFERENCIAS BIBLIOGRÁFICAS
Bybee, Joan (2007): Frequency of use and the organization of language. Oxford,
Oxford University Press.
Cresti y Moneglia (eds.) (2005) C-ORAL-ROM Integrated Reference Corpora for
Spoken Romance Languages. Amsterdam, John Benjamins.
Dunning, (1993): Accurate methods for the statistics of surprise and coincidence.
Computational Linguistics, 19 (1): 61-74.
Garrote, M. (2008): CHIEDE: corpus de habla infantil espontánea del español. Tesis
doctoral. Universidad Autónoma de Madrid.
Garrote, M, Guirao, J.M. y Moreno, A. (2008): Extracción de unidades distintivas en
adultos y niños de un corpus de lengua oral espontánea. En Actas del 8º Congreso de
Lingüística General. Madrid, Universidad Autónoma de Madrid.
Moreno, A. (1991): Un modelo basado en la unificación para el análisis y generación
de la morfología en español. Tesis doctoral. Universidad Autónoma de Madrid
Moreno y Guirao (2006): Morpho-syntactic Tagging of the Spanish C-ORAL-ROM
Corpus: Methodology, Tools and Evaluation. In Spoken Language Corpus and
Linguistic Informatics. Amsterdam, John Benjamins.
Moreno y Urresti (2006): El proyecto C-ORAL-ROM y su aplicación a la enseñanza de
español. Oralia, 8.
205
APÉNDICE 1: Los 100 verbos más frecuentes en los tres corpus
HABLA ADULTA
Puesto
Verbo
1 SER
2 DECIR
3 ESTAR
4 TENER
5 HACER
6 HABER
7 IR
8 VER
9 DAR
10 SABER
11 PASAR
12 PONER
13 CREER
14 VENIR
15 LLAMAR
16 LLEVAR
17 HABLAR
18 QUEDAR
19 QUERER
20 LLEGAR
21 DEJAR
22 SALIR
23 PARECER
24 GUSTAR
25 PENSAR
26 COMER
27 TRABAJAR
28 CONTAR
29 COGER
30 UNIR
31 VALER
32 ENCONTRAR
33 METER
34 EMPEZAR
35 CONOCER
36 PODER
37 MIRAR
38 PEDIR
39 ENTENDER
40 VIVIR
41 ENTRAR
42 SEGUIR
43 BUSCAR
44 SACAR
45 VOLVER
46 COMPRAR
HABLA INFANTIL
Frecuencia Frecuencia
Absoluta
Relativa Puesto
Verbo
TEXTOS PERIODÍSTICOS
Frecuencia Frecuencia
Absoluta
Relativa Puesto
verbo
Frecuencia Frecuencia
Absoluta
Relativa
7404
2652
2404
2388
2220
1456
1392
964
886
865
731
645
624
591
557
526
511
489
459
388
318
308
302
294
270
251
250
234
221
200
14.77%
5.29%
4.79%
4.76%
4.42%
2.90%
2.77%
1.92%
1.76%
1.72%
1.45%
1.28%
1.24%
1.17%
1.11%
1.04%
1.01%
0.97%
0.91%
0.77%
0.63%
0.61%
0.60%
0.58%
0.53%
0.50%
0.49%
0.46%
0.44%
0.39%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
SER
TENER
ESTAR
SABER
HACER
IR
DECIR
HABER
VER
LLAMAR
PONER
JUGAR
PASAR
DAR
VENIR
COMER
CAER
COMPRAR
CONTAR
LLEVAR
METER
GUSTAR
COGER
TRABAJAR
SALIR
MIRAR
ECHAR
TIRAR
DEJAR
REGALAR
509
330
193
176
172
129
118
93
89
88
86
77
65
56
53
49
48
42
42
39
37
37
36
32
31
30
30
29
26
26
12.5
8.1
4.7
4.3
4.2
3.1
2.8
2.2
2.1
2.1
2.1
1.8
1.5
1.3
1.3
1.2
1.1
1
1
0.9
0.9
0.9
0.8
0.7
0.7
0.7
0.7
0.7
0.6
0.6
1 SER
2 TENER
3 HACER
4 DECIR
5 HABER
6 ESTAR
7 SEÑALAR
8 DAR
9 ASEGURAR
10 INFORMAR
11 PRESENTAR
12 CONSIDERAR
13 EXPLICAR
14 AFIRMAR
15 LLEGAR
16 MANTENER
17 INDICAR
18 ENCONTRAR
19 REALIZAR
20 DESTACAR
21 PEDIR
22 LLEVAR
23 RECIBIR
24 CELEBRAR
25 PRODUCIR
26 JUGAR
27 ANUNCIAR
28 RECORDAR
29 PERMITIR
30 CONTAR
98694
44153
33509
30579
23843
23038
14098
13927
12992
12275
11993
11742
11400
11160
10341
10002
9859
9532
9530
9167
8574
8068
8008
7933
7573
7087
7015
6881
6865
6856
5,98%
2,67%
2,03%
1,85%
1,44%
1,40%
0,85%
0,84%
0,79%
0,74%
0,73%
0,71%
0,69%
0,68%
0,63%
0,61%
0,60%
0,58%
0,58%
0,56%
0,52%
0,49%
0,49%
0,48%
0,46%
0,43%
0,42%
0,42%
0,42%
0,42%
198
194
181
172
171
169
169
163
160
156
156
155
151
150
147
144
0.39%
0.38%
0.36%
0.34%
0.34%
0.33%
0.33%
0.32%
0.31%
0.31%
0.31%
0.30%
0.30%
0.29%
0.29%
0.28%
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
SUBIR
QUEDAR
QUERER
PINTAR
LEER
TRAER
TOCAR
PORTAR
CORRER
PARECER
DORMIR
HABLAR
CUMPLIR
VIVIR
ENSEÑAR
PICAR
25
25
25
24
23
22
22
22
21
21
21
20
19
18
18
18
0.6
0.6
0.6
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.4
0.4
0.4
0.4
0.4
31 CONOCER
32 AÑADIR
33 PONER
34 ESPERAR
35 PARTICIPAR
36 CONSEGUIR
37 LOGRAR
38 TRATAR
39 GANAR
40 MOSTRAR
41 IR
42 DECLARAR
43 MANIFESTAR
44 PREVER
45 AGREGAR
46 ABRIR
6627
6617
6607
6589
6398
6373
6261
6143
6079
6019
5987
5946
5864
5811
5552
5518
0,40%
0,40%
0,40%
0,40%
0,39%
0,39%
0,38%
0,37%
0,37%
0,36%
0,36%
0,36%
0,36%
0,35%
0,34%
0,33%
206
47 PAGAR
48 PREGUNTAR
49 TOMAR
50 CAMBIAR
51 SUBIR
52 PERDER
53 ESPERAR
54 ECHAR
55 ACORDAR
56 GANAR
57 TRAER
58 ABRIR
59 MANDAR
60 RECORDAR
61 SUPONER
62 QUITAR
63 SOBRAR
64 ACABAR
65 LEER
66 IMAGINAR
67 TRATAR
68 ESTUDIAR
69 INTENTAR
70 OCURRIR
71 ESCUCHAR
72 SENTAR
73 TOCAR
74 CASAR
75 EXPLICAR
76 UTILIZAR
77 TIRAR
78 CONSIDERAR
79 JUGAR
80 DORMIR
81 MANTENER
82 LEVANTAR
83 MORIR
84 TERMINAR
144
144
142
137
133
125
125
124
123
122
121
117
112
111
109
108
101
100
100
99
94
93
92
91
91
87
84
82
82
81
77
77
75
75
74
74
74
74
0.28%
0.28%
0.28%
0.27%
0.26%
0.24%
0.24%
0.24%
0.24%
0.24%
0.24%
0.23%
0.22%
0.22%
0.21%
0.21%
0.20%
0.19%
0.19%
0.19%
0.18%
0.18%
0.18%
0.18%
0.18%
0.17%
0.16%
0.16%
0.16%
0.16%
0.15%
0.15%
0.14%
0.14%
0.14%
0.14%
0.14%
0.14%
47
QUITAR
48
LEVANTAR
49
PILLAR
50
ACORDAR
51
SENTAR
52
ROMPER
53
PERDER
54
CREER
55
SACAR
56
LLEGAR
57
MATAR
58
PEGAR
59
ACOSTAR
60
ESCRIBIR
61
CANTAR
62
EMPEZAR
63
MORIR
64
LAVAR
65
LLORAR
66
BAJAR
67
PARAR
68
OLVIDAR
69
MONTAR
70
GUARDAR
71
PODER
72
CORTAR
73
PLANCHAR
74 ENCONTRAR
75
ACABAR
76
CERRAR
77
ABRIR
78
BEBER
79
MORDER
80
FALTAR
81
SALTAR
82
GANAR
83
PINCHAR
84
OÍR
18
17
17
17
16
16
15
15
15
15
13
13
13
13
12
12
12
12
12
11
11
11
11
10
10
10
10
10
10
10
10
9
9
9
9
9
8
8
0.4
0.4
0.4
0.4
0.3
0.3
0.3
0.3
0.3
0.3
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.1
0.1
47 SEGUIR
48 VER
49 DEJAR
50 TRABAJAR
51 PARTIR
52 QUEDAR
53 PASAR
54 INCLUIR
55 TOMAR
56 OFRECER
57 DECIDIR
58 SUPONER
59 RECONOCER
60 FORMAR
61 DIRIGIR
62 APROBAR
63 EXISTIR
64 AFECTAR
65 ACUSAR
66 REUNIR
67 INICIAR
68 CUMPLIR
69 OBTENER
70 REGISTRAR
71 SABER
72 SUFRIR
73 HABLAR
74 ENTRAR
75 PERDER
76 COMENZAR
77 FIRMAR
78 SUBRAYAR
79 ESTABLECER
80 DISPUTAR
81 CONFIRMAR
82 PRECISAR
83 ALCANZAR
84 EXPRESAR
5515
5502
5435
5426
5341
5164
4997
4926
4911
4890
4886
4837
4814
4811
4670
4643
4640
4570
4550
4539
4446
4371
4351
4337
4324
4323
4272
4269
4267
4250
4159
4153
4143
4141
4096
4029
3991
3984
0,33%
0,33%
0,33%
0,33%
0,32%
0,31%
0,30%
0,30%
0,30%
0,30%
0,30%
0,29%
0,29%
0,29%
0,28%
0,28%
0,28%
0,28%
0,28%
0,27%
0,27%
0,26%
0,26%
0,26%
0,26%
0,26%
0,26%
0,26%
0,26%
0,26%
0,25%
0,25%
0,25%
0,25%
0,25%
0,24%
0,24%
0,24%
85 CAER
86 PERMITIR
87 MOVER
88 NECESITAR
89 SALAR
90 CONSEGUIR
91 FIJAR
92 SERVIR
93 APARECER
73
70
70
70
69
69
69
69
69
0.14%
0.13%
0.13%
0.13%
0.13%
0.13%
0.13%
0.13%
0.13%
85
86
87
88
89
90
91
92
93
VESTIR
ESCUCHAR
TOMAR
ANDAR
VOLAR
SEGUIR
CONOCER
SOÑAR
CONVERTIR
8
8
8
8
7
7
7
7
7
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
85 DETENER
86 SALIR
87 BUSCAR
88 SITUAR
89 INTENTAR
90 CERRAR
91 VIVIR
92 CREAR
93 CONVERTIR
3919
3888
3869
3843
3820
3704
3678
3658
3627
0,24%
0,24%
0,23%
0,23%
0,23%
0,22%
0,22%
0,22%
0,22%
94 BAJAR
95 REALIZAR
68
68
0.13%
0.13%
94
95
ESCONDER
BUSCAR
7
7
0.1
0.1
94 UNIR
95 OCURRIR
3619
3567
0,22%
0,22%
96 COSTAR
97 REFERIR
67
66
0.13%
0.13%
96
97
ENCENDER
TERMINAR
7
7
0.1
0.1
96 CONCLUIR
97 DENUNCIAR
3529
3472
0,21%
0,21%
207
98 INTERESAR
99 APRENDER
100 ANDAR
66
66
65
0.13%
0.13%
0.12%
98
99
100
PISAR
BAÑAR
ESPERAR
7
6
6
0.1
0.1
0.1
98 UTILIZAR
99 INSISTIR
100 AYUDAR
3429
3410
3404
APÉNDICE 2: Los 100 verbos más significativos en los tres corpus
puesto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
HABLA ADULTA
verbo
Dunning
SER
IR
CREER
ESTAR
DECIR
VER
SABER
VENIR
PASAR
LLAMAR
HACER
COGER
QUERER
TENER
HABLAR
GUSTAR
PONER
VALER
HABER
METER
QUEDAR
SOBRAR
DAR
MIRAR
IMAGINAR
MANDAR
ECHAR
PARECER
EMPEZAR
PENSAR
LLEVAR
LECHAR
LIAR
PILLAR
QUITAR
TRAER
SALIR
COMER
ANDAR
DORMIR
COSER
JODER
ENSEÑAR
4.806,5
3.052,8
2.693,4
2.465,4
2.087,0
1.691,0
1.690,3
1.557,6
1.084,1
1.080,0
1.046,9
821,2
706,9
661,0
609,5
603,7
593,4
573,2
559,9
444,2
429,9
415,8
374,0
368,6
333,3
308,0
282,3
268,5
257,3
247,7
234,1
232,8
226,5
215,2
213,2
205,6
202,7
197,7
193,7
175,8
173,6
172,9
137,4
puesto
HABLA INFANTIL
verbo
Dunning
1 JUGAR
2 SABER
3 CAER
4 TENER
5 PORTAR
6 REGALAR
7 PICAR
8 PINTAR
9 COMPRAR
10 CANTAR
11 CORRER
12 TIRAR
13 ROMPER
14 MORDER
15 LLAMAR
16 PINCHAR
17 CUMPLIR
18 PLANCHAR
19 COMER
20 RAPAR
21 LAVAR
22 LLORAR
23 ECHAR
24 SOÑAR
25 CAZAR
26 METER
27 PILLAR
28 COLUMPIAR
29 ACOSTAR
30 DORMIR
31 TOCAR
32 CONTAR
33 ENSEÑAR
34 ESCONDER
35 PONER
36 LEER
37 BORRAR
38 ENCENDER
39 PISAR
40 GATEAR
41 BOTAR
42 GUIÑAR
43 BAÑAR
208
200,9
102,9
97,8
76,2
71,7
64,3
53,1
46,7
41,5
40,2
39,4
37,9
33,7
33,6
29,1
29,0
28,7
28,3
26,0
25,9
25,5
23,7
22,9
22,5
22,4
21,4
21,3
20,7
20,5
19,6
18,8
18,7
16,9
16,8
16,7
16,2
15,8
15,7
15,7
15,5
15,5
15,5
15,4
TEXTOS PERIODÍSTICOS
puesto
verbo
Dunning
1 SEÑALAR
2 ASEGURAR
3 AFIRMAR
4 INFORMAR
5 DESTACAR
6 INDICAR
7 PRESENTAR
8 AGREGAR
9 CONSIDERAR
10 CELEBRAR
11 EXPLICAR
12 ANUNCIAR
13 DECLARAR
14 MANIFESTAR
15 LOGRAR
16 PREVER
17 RECIBIR
18 AÑADIR
19 MANTENER
20 PARTICIPAR
21 REALIZAR
22 PRECISAR
23 DISPUTAR
24 MOSTRAR
25 ALCANZAR
26 ACUSAR
27 INICIAR
28 SUBRAYAR
29 REUNIR
30 DETENER
31 PRODUCIR
32 CALIFICAR
33 ASISTIR
34 REGISTRAR
35 CONCLUIR
36 CONDENAR
37 OBTENER
38 SOLICITAR
39 CONFIRMAR
40 COMENZAR
41 PARTIR
42 OFRECER
43 INCLUIR
691,2
610,0
594,2
592,6
450,9
438,8
400,6
332,6
317,9
300,4
287,4
286,8
284,8
274,3
269,8
260,3
250,6
247,7
246,2
244,7
241,6
241,2
227,5
220,5
203,9
190,5
184,8
183,7
176,1
170,7
167,6
166,2
159,1
157,0
154,2
154,1
149,9
141,3
140,6
137,3
135,5
135,3
133,9
0,21%
0,21%
0,21%
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
REÍR
ACOSTAR
SENTAR
ENROLLAR
SACAR
TIRAR
MOLAR
ENTERAR
CAGAR
CENAR
DEJAR
LEER
CASAR
ENTENDER
APRENDER
CURRAR
TOCAR
APETECER
OÍR
ENCANTAR
FLIPAR
SALAR
ESCUCHAR
COMPRAR
LEVANTAR
PERDONAR
PREGUNTAR
SUBIR
ENAMORAR
MOVER
VOLVER
UNIR
SOLAPAR
AGOBIAR
DESAYUNAR
DOLER
AMAR
PINTAR
128,8
128,6
128,1
123,5
122,7
121,9
119,1
118,7
116,6
111,4
107,6
103,0
101,8
101,1
100,2
95,3
85,6
85,3
78,0
75,8
73,2
72,9
70,3
67,8
67,6
64,7
64,0
64,0
62,5
59,8
57,4
57,4
55,1
54,3
53,6
51,2
50,8
50,1
44 PEGAR
45 PARAR
46 VOLAR
47 HUNDIR
48 SALTAR
49 MIRAR
50 DESPERTAR
51 COGER
52 SUBIR
53 LEVANTAR
54 MATAR
55 NADAR
56 TIRITAR
57 CERRAR
58 MONTAR
59 OLVIDAR
60 VESTIR
61 FALTAR
62 RASCAR
63 COLOREAR
64 RULAR
65 BEBER
66 TRAER
67 GUARDAR
68 QUEMAR
69 MERENDAR
70 DISFRAZAR
71 PEINAR
72 SENTAR
73 ESCRIBIR
74 QUITAR
75 BARRER
76 CHILLAR
77 SALUDAR
78 EMPUJAR
79 INVENTAR
80 CASTIGAR
81 GUSTAR
14,9
14,4
13,9
13,4
13,2
13,0
12,8
12,8
12,3
12,0
11,9
11,7
11,2
11,1
11,1
11,1
11,1
10,8
10,3
10,3
10,3
10,3
10,1
9,6
9,4
9,1
8,2
8,2
7,5
7,2
6,7
6,7
6,7
6,7
6,6
5,7
5,7
5,7
82
83
84
85
86
87
88
89
90
ABURRIR
EXPERIENCIAR
CUIDAR
PODER
PEGAR
ADELGAZAR
MOSQUEAR
CABREAR
COSTAR
49,7
49,3
48,4
46,9
44,4
43,6
43,4
43,0
42,7
82 TRABAJAR
83 SUJETAR
84 ESCAPAR
85 CHOCAR
86 CORTAR
87 MANCHAR
88 MORIR
89 CANSAR
90 BAJAR
5,3
5,1
5,0
5,0
4,7
4,4
4,2
3,8
3,8
82 PUBLICAR
83 CRITICAR
84 MARCAR
85 PRENSAR
86 DECIDIR
87 CERRAR
88 PROVOCAR
89 VIAJAR
90 CUMPLIR
83,8
83,7
83,6
82,0
82,0
81,4
81,0
80,9
80,8
91
92
DIBUJAR
PLANCHAR
41,9
39,4
91 ACORDAR
92 FREGAR
3,7
3,3
91 EFECTUAR
92 REGRESAR
79,4
79,2
93
94
REGAR
CAMBIAR
39,3
39,2
93 ENTERRAR
94 ESTIRAR
3,3
3,3
93 IMPULSAR
94 VOTAR
78,5
77,4
209
44 AFECTAR
45 EXPRESAR
46 SUFRIR
47 DIRIGIR
48 PERMITIR
49 ADVERTIR
50 JUGAR
51 CONVOCAR
52 APROBAR
53 REITERAR
54 DESTINAR
55 RECHAZAR
56 FORMAR
57 GARANTIZAR
58 EVITAR
59 CONTINUAR
60 PRESIDIR
61 DEMOSTRAR
62 CONSEGUIR
63 DENUNCIAR
64 NEGOCIAR
65 TRASLADAR
66 CAUSAR
67 RECONOCER
68 SITUAR
69 RETIRAR
70 FIGURAR
71 REPRESENTAR
72 ACUDIR
73 AUMENTAR
74 EMITIR
75 INTEGRAR
76 INAUGURAR
77 FALLECER
78 ABANDONAR
79 CONCEDER
80 SOSTENER
81 PRETENDER
129,5
127,6
127,2
125,0
121,7
120,5
119,9
118,1
117,8
113,0
110,1
109,0
109,0
108,1
106,5
106,1
105,7
105,3
104,6
102,4
100,8
100,1
99,3
99,1
95,6
95,3
94,3
93,5
92,0
91,7
91,3
91,2
91,2
90,0
87,0
86,5
86,0
84,1
95
96
97
98
99
100
ACABAR
MAMAR
TRABAJAR
OLER
ENTRABAR
CLOCAR
37,9
37,8
36,9
36,1
35,2
35,2
95 ALCANZAR
96 DESAYUNAR
97 GRITAR
98 CHUPAR
99 FELICITAR
100 DISPARAR
210
3,3
3,2
2,8
2,8
2,8
2,8
95 AFRONTAR
96 FIRMAR
97 ADMITIR
98 RECUPERAR
99 DEFENDER
100 PROPONER
76,9
76,7
75,1
74,4
74,4
74,2