Download Información sobre la LIFCACH · Information on the

Document related concepts
no text concepts found
Transcript
LIFCACH
Lista de Frecuencias de Palabras del Castellano de Chile
Word Frequency List of Chilean Spanish
Copyright © 2006 Scott Sadowsky & Ricardo Martínez Gamboa
Todos los derechos reservados. All Rights Reserved.
Inscripción Nº 154.198 (Chile).
La LIFCACH puede utilizarse libre y gratuitamente para fines académicos que no tengan fines
de lucro, siempre que se cite la fuente. Se prohíbe expresamente todo uso o aplicación
comercial de la LIFCACH que no cuente con el consentimiento escrito previo de los autores.
The LIFCACH may be freely used for non-profit academic purposes if properly cited. All
commercial use or application of the LIFCACH is expressly prohibited without express written
consent from the authors.
Contacto / Contact:
[email protected]
[email protected]
[email protected]
CONTENIDOS DEL ARCHIVO ZIP / CONTENTS OF THE ZIP FILE
1. INFORMACIÓN SOBRE LA LIFCACH
INFORMATION ABOUT THE LIFCACH
README.rtf
README.txt
El presente archivo.
This file.
2. LISTA DE FRECUENCIAS, POR FUENTE, EN FORMATO CSV
FREQUENCY LIST, BY SOURCE, IN CSV FORMAT
Sadowsky_&_Martinez_-_LIFCACH--04_No_Hapax_Logomena.csv.txt
Este archivo contiene la lista no ponderada de las frecuencias totales (la columna Total
Occurrences), además de las listas de frecuencias correspondientes a cada una de las 102
fuentes individuales utilizadas.
This file contains a non-weighted list of total frequencies (the Total Occurrences column)
plus individual frequency lists for each of the 102 sources used.
ADVERTENCIA – WARNING
¡La lista de frecuencias NO DEBE ABRIRSE en Microsoft Excel!
La LIFCACH contiene 477.293 filas, pero la última versión de Excel que hemos probado (Excel
2002) sólo puede procesar las primeras 65.000 filas (aproximadamente). Sugerimos utilizar
Microsoft Access, Quattro Pro, o un software estadístico adecuado.
DO NOT open the frequency list in Microsoft Excel!
The LIFCACH contains 477,293 rows, while the latest tested version of Excel (Excel 2002) can
only open the first 65,000 or so rows. We suggest using Microsoft Access, Quattro Pro, or a
suitable statistics package.
NOTAS / NOTES
1. Descripción
La Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH) es un conjunto de 102
listas de frecuencias léxicas derivadas de los distintos subcorpora del Corpus Dinámico del
Castellano de Chile (CODICACH), un corpus del español escrito1 contemporáneo de Chile
desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía aproximadamente 450
millones de palabras a la hora de elaborar la LIFCACH (actualmente contiene alrededor de 830
millones de palabras). La LIFCACH también contempla una lista no ponderada de frecuencias
totales (la columna titulada Total Occurrences), la cual es simplemente la suma de las
frecuencias de las 102 listas individuales (en otras palabras, es la lista de las frecuencias del
CODICACH en su totalidad).
Aunque podría existir la tentación de interpretar la lista Total Occurrences como una lista
representativa del castellano de Chile en general, recomendamos encarecidamente no hacerlo.
El CODICACH es un corpus oportunista que privilegia, entre otras cosas, los medios de prensa
escritos; tal como está estructurado, no pretende ser una muestra representativa de la variante
lingüística nacional, al estilo del BNC. Sin embargo, la naturaleza modular del CODICACH y de
las 102 listas individuales de la LIFCACH permite a los investigadores utilizar una o más de
estas listas de manera independiente; combinarlas según sus propias necesidades; o ponderar
las listas individuales de la LIFCACH para así crear una nueva lista de frecuencias que sea
representativa según los criterios del investigador.
La LIFCACH contiene 477.293 lemas, derivados de aproximadamente 4,5 millones de types
extraídos de los 450 millones de palabras de texto corrido que contemplaba el CODICACH al
momento de elaborar la LIFCACH.
Description
The Word Frequency List of Chilean Spanish (LIFCACH) is a set of 102 frequency lists derived
from the sub-corpora of the Corpus Dinámico del Castellano de Chile (Dynamic Corpus of
Chilean Spanish, CODICACH), a corpus of contemporary written1 Chilean Spanish developed
by Sadowsky between 1997 and 2002; this corpus contained approximately 450 million words
1
Although the CODICACH contains two sub-corpora of oral texts, ORAL_Entrevistas_Lgtcas and ORAL_TV,
these are so small as to be of negligible impact on the overall corpus.
when the LIFCACH was created (it currently contains some 830 million words). The LIFCACH
also contains a non-weighted list of total frequencies (the Total Occurrences column), which is
simply the sum of the frequencies of the 102 individual lists (in other words, the list of
frequencies of the entire CODICACH corpus.)
While it may be tempting to take the Total Occurrences list as being representative of Chilean
Spanish as a whole, we strongly advise against this. The CODICACH is an opportunistic corpus
with a bias toward press-based sources; it does not seek to be a BNC-style representative
sampling of the language in general. The modular nature of the CODICACH and of the 102
individual LIFCACH lists, however, allows researchers to use one or more of these lists alone,
to combine them as needed, or to create their own frequency lists for Chilean Spanish by
weighting each of the LIFCACH’s individual lists as they see fit.
The LIFCACH contains 477,293 lemmas derived from the approximately 4.5 million types found
in the 450 million running words contained in the CODICACH at the time the lists were created.
2. Elaboración de la LIFCACH
A continuación se presentan los pasos de la creación de la LIFCACH:
i.
Se generaron listas de frecuencias de types en base a las palabras de texto corrido de
cada uno de los 102 subcorpora del CODICACH.
ii. Se lematizó y etiquetó con categorías gramaticales (POS) cada una de las listas de
frecuencias de types con el programa MS-Tools v2.0 de la Universitat Politecnica de
Catalunya (para más información sobre MS-Tools, comuníquese con Lluís Padró
<[email protected]>).
iii. Se eliminaron los aproximadamente 300.000 lemas con una frecuencia de 1 (hápax
legómenos). La eliminación de estos lemas representa un intento de establecer un
equilibrio entre la completitud de las listas y el tamaño y procesabilidad de los archivos.
iv. Las listas de frecuencias de lemas resultantes se incorporaron en un archivo CSV, y
luego se calcularon las frecuencias totales.
Es preciso hacer una advertencia respecto de esta metodología. La utilización de listas de
frecuencias de types en vez de palabras de texto corrido en el proceso de lematización y
etiquetado POS surgió de una necesidad práctica relacionada con la velocidad del software y
los recursos computacionales disponibles en el momento de la elaboración de la LIFCACH. En
consecuencia, el software debió analizar palabras como canto sin disponer de la información
necesaria para determinar si una instancia dada de esta palabra correspondía al verbo cantar o
al sustantivo canto. La eliminación del contexto redujo la precisión del etiquetado y
lematización, aunque mucho menos de lo que sucedería en el caso del inglés, gracias a la
compleja morfología del castellano.
También debe notarse que el software de etiquetado POS y lematización que se utilizó está
basado en el castellano de España, un dialecto nacional que es un tanto alejado del castellano
de Chile.
Los autores están preparando un nuevo conjunto de listas de frecuencia, LIFCACH II, para
subsanar estas deficiencias.
Creation of the LIFCACH
The steps in creating the LIFCACH were as follows:
i.
Type frequency lists based on the running words of each of the 102 sub-corpora of the
CODICACH were generated.
ii. Each type frequency list was lemmatized and POS-tagged using the Universitat
Politecnica de Catalunya’s MS-Tools v2.0 (For more information on MS-Tools, contact
Lluís Padró <[email protected]>).
iii. Lemmas with a frequency of 1 were removed (approximately 300,000). Eliminating these
was considered an acceptable trade-off in exchange for a far more manageable file size.
iv. The resulting lemma frequency lists were assembled in the attached CSV file and total
occurrences were calculated.
An important caveat regarding this methodology must be mentioned. The use of type frequency
lists instead of running words in the POS tagging and lemmatizing process was a practical
necessity, due to the speed of the software used and the computing resources available at the
time the LIFCACH was created. As a result, the software had to analyze words such as canto
without the information required to decide if a given instance of this word was a form of the verb
cantar or the noun canto. This elimination of context reduced the accuracy of the lemmatization
process, though far less so than would happen with English, thanks to Spanish's rich
morphology.
It should also be noted that the lemmatizing and tagging software that was used is based on
European Spanish, a national dialect that is somewhat removed from Chilean Spanish.
The authors plan to create a new set of frequency lists, LIFCACH II, which will address these
issues.
3. Lista de categorías gramaticales / Part of Speech List
A continuación se presentan los códigos de categoría gramatical que se utilizan en las listas de
frecuencias.
The following are the POS codes used in the frequency lists.
CÓDIGO/CODE
CATEGORÍA GRAMATICAL
PART OF SPEECH
AJ
AV
C
D
I
N
NG
NP
PN
PP
SG
V
Adjetivo
Adverbio
Conjunción
Determinante
Interjección
Sustantivo
Nombre geográfico
Nombre propio
Pronombre
Preposición
Sigla
Verbo
Adjective
Adverb
Conjunction
Determiner
Interjection
Common noun
Toponym
Proper noun
Pronoun
Preposition
Abbreviation
Verb
4. Listado de fuentes / List of Sources
Cada una de las listas de frecuencias de la LIFCACH se elaboró en base a un subcorpus
distinto del CODICACH. A continuación se presentan los códigos que se utilizan para señalar
estas listas y subcorpora.
Each frequency list in the LIFCACH is derived from a different sub-corpus of the CODICACH.
The codes used to indicate these lists and sub-corpora are as follows.
CÓDIGO/CODE
DESCRIPCIÓN/DESCRIPTION
ACAD_CCAA
ACAD_CCNN
ACAD_CCSS
ACAD_Hum
DIAR_CEN_Estrella_Valpo
DIAR_CEN_Gran_Valpo
DIAR_CEN_Lider_San_Antonio
DIAR_CEN_Mercurio_Valpo
DIAR_NOR_Estrella_Arica
DIAR_NOR_Estrella_Iquique
DIAR_NOR_Estrella_Loa
DIAR_NOR_Estrella_Norte_Antofagasta
DIAR_NOR_Mercurio_Antofagasta
DIAR_NOR_Mercurio_Calama
DIAR_NOR_Nortino_Iquique
DIAR_SAN_Cuarta
DIAR_SAN_Estrategia
DIAR_SAN_Firme
DIAR_SAN_Mercurio
DIAR_SAN_Metropolitano
DIAR_SAN_Mostrador
DIAR_SAN_Primera_Linea
DIAR_SAN_Primera_Pagina-El_Area
DIAR_SAN_Segunda
DIAR_SAN_Tercera
DIAR_SAN_Ultimas_Noticias
DIAR_SUR_Austral_Osorno
DIAR_SUR_Austral_Temuco
DIAR_SUR_Austral_Valdivia
DIAR_SUR_Cronica
DIAR_SUR_El_Sur
DIAR_SUR_Enc_BioBio
DIAR_SUR_Llanquihue_Pto_Montt
ESPER_CartasDirector
ESPER_ForosInet
ESPER_Clasificados
ESPER_ForosMedios
ESPER_Usenet
LEX_Jurisprudencia
LEX_Leyes
LEX_Libros
LEX_Misc
LIBR_Ficcion
LIBR_NoFiccion
OBRC_CandiaCares_DicoCoa
Academic Texts - Applied Sciences
Academic Texts - Natural Sciences
Academic Texts - Social Sciences
Academic Texts - Humanities
Newspaper – Central Chile – Estrella de Valparaíso
Newspaper – Central Chile – Gran Valparaíso
Newspaper – Central Chile – El Líder, San Antonio
Newspaper – Central Chile – El Mercurio, Valparaíso
Newspaper – North Chile – La Estrella, Arica
Newspaper – North Chile – La Estrella, Iquique
Newspaper – North Chile – La Estrella, Loa
Newspaper – North Chile – La Estrella, Antofagasta
Newspaper – North Chile – El Mercurio, Antofagasta
Newspaper – North Chile – El Mercurio, Calama
Newspaper – North Chile – El Nortino, Iquique
Newspaper – Santiago – La Cuarta
Newspaper – Santiago – Estrategia
Newspaper – Santiago – La Firme
Newspaper – Santiago – El Mercurio
Newspaper – Santiago – El Metropolitano
Newspaper – Santiago – El Mostrador
Newspaper – Santiago – Primera Línea
Newspaper – Santiago – Primera Página / El Área
Newspaper – Santiago – La Segunda
Newspaper – Santiago – La Tercera
Newspaper – Santiago – Las Últimas Noticias
Newspaper – South Chile – Austral, Osorno
Newspaper – South Chile – Austral, Temuco
Newspaper – South Chile – Austral, Valdivia
Newspaper – South Chile – Crónica
Newspaper – South Chile – El Sur
Newspaper – South Chile – Enciclop. Bío-Bío
Newspaper – South Chile – El Llanquihue, Pto. Montt
Personal Writings – Letters to Editor
Personal Writings – Internet Site Forums
Personal Writings – Classified Ads
Personal Writings – Media Forums
Personal Writings – Usenet
Legal – Jurisprudence
Legal – Laws
Legal – Law Books
Legal – Miscellaneous
Books – Fiction
Books – Non-Fiction
Reference Works – Dictionary of Coa
OBRC_GonzalezParra_ManualProvrb
ORAL_Entrevistas_Lgtcas
ORAL_TV
PUB_Misc
PUB_Publicidad
REV_CMP_ChileTech
REV_CMP_CompuChile
REV_CMP_ComputerWorld
REV_CMP_Informatica
REV_CMP_Infoweek
REV_CMP_Internet21
REV_CMP_Mouse
REV_DEP_All
REV_ESP_Capital
REV_ESP_CiudadArquitectura
REV_ESP_Conicyt
REV_ESP_CopropInmob
REV_ESP_DiarioSocCivil
REV_ESP_Educar
REV_ESP_LemuChile
REV_ESP_Lignum
REV_ESP_Mensaje
REV_ESP_Notas_CESAF
REV_ESP_Publimark
REV_ESP_Rev_Inf_Musical
REV_ESP_Rev_Scielo
REV_ESP_Rev_Social
REV_ESP_Rev_Trabajo_Social
REV_ESP_RevChil_Cirujia
REV_ESP_Revistas_Industriales
REV_ESP_Sidhartha
REV_GEN_Asuntos_Publicos
REV_GEN_Cosas
REV_GEN_Cultura_Urbana
REV_GEN_El_Siglo
REV_GEN_Ercilla
REV_GEN_Hacer_Familia
REV_GEN_Man
REV_GEN_Mujer_a_mujer
REV_GEN_Nos
REV_GEN_Puerto_Paralelo
REV_GEN_Punto_Final
REV_GEN_Que_Pasa
REV_GEN_Revista_ED
REV_GEN_Rocinante
REV_INF_Dirigible
REV_INF_Icarito
REV_INF_Papas_Fritas
REV_INF_Volare
REV_JUV_All
REV_LOC_All
RVDI_ECN_Diario_PyME
RVDI_ECN_El_Diario
RVDI_ECN_Emprendedores
Reference Works – Book of Chilean Proverbs
Oral – Linguistic Interviews
Oral – Television
Advertising – General 1
Advertising – General 2
Magazine – Computers – ChileTech
Magazine – Computers – CompuChile
Magazine – Computers – ComputerWorld
Magazine – Computers – Informática
Magazine – Computers – Infoweek
Magazine – Computers – Internet21
Magazine – Computers – Mouse
Magazine – Sports
Magazine – Specialty – Capital
Magazine – Specialty – CiudadArquitectura
Magazine – Specialty – Conicyt Scientific
Magazine – Specialty – Copropiedad Inmobiliaria
Magazine – Specialty – Diario de la Sociedad Civil
Magazine – Specialty – Educar
Magazine – Specialty – LemuChile
Magazine – Specialty – Lignum
Magazine – Specialty – Mensaje
Magazine – Specialty – Notas CESAF
Magazine – Specialty – Publimark
Magazine – Specialty – Revista Musical
Magazine – Specialty – Scielo Scientific
Magazine – Specialty – Revista Social
Magazine – Specialty – Revista de Trabajo Social
Magazine – Specialty – Revista Chilena de Cirujía
Magazine – Specialty – Industrial Magazines
Magazine – Specialty – Siddhartha
Magazine – General – Asuntos Públicos
Magazine – General – Cosas
Magazine – General – Cultura Urbana
Magazine – General – El Siglo
Magazine – General – Ercilla
Magazine – General – Hacer Familia
Magazine – General – Man
Magazine – General – Mujer a mujer
Magazine – General – Nos
Magazine – General – Puerto Paralelo
Magazine – General – Punto Final
Magazine – General – Qué Pasa
Magazine – General – Revista ED
Magazine – General – Rocinante
Magazine – Children’s – Dirigible
Magazine – Children’s – Icarito
Magazine – Children’s – Papas Fritas
Magazine – Children’s – Volare
Magazines – Youth
Magazines – Local
Financial Mags & Newspapers – Diario PyME
Financial Mags & Newspapers – El Diario
Financial Mags & Newspapers – Emprendedores
RVDI_ECN_Negocios_Ambientales
SIT_INS_All
SIT_INS_Old
SANTIAGO, 13 MAY 2008
Financial Mags & Newspapers – Negoc. Ambientales
Government Sites 1
Government Sites 2