Download Los corpus orales

Document related concepts

Lingüística de corpus wikipedia , lookup

Corpus lingüístico wikipedia , lookup

Lingüística forense wikipedia , lookup

John McHardy Sinclair wikipedia , lookup

Corpus Nacional Británico wikipedia , lookup

Transcript
Los corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005
Los corpus orales
Joaquim Llisterri
Departament de Filologia Espanyola
Universitat Autònoma de Barcelona
[email protected]
http://liceu.uab.es/~joaquim
http://homepage.mac.com/joaquim_llisterri/home.html
Materiales del curso
http://liceu.uab.es/~joaquim/language_resources/ENAH_05/
ENAH_05.html
http://homepage.mac.com/joaquim_llisterri/
language_resources/ENAH_05/ENAH_05.html
1. Los corpus de lengua hablada
El concepto de corpus. Corpus escritos y corpus orales. Especificidad de los corpus de
lengua hablada: corpus orales (speech corpora) y corpus de lengua oral (spoken language
corpora). Etapas en la constitución de los corpus de lengua hablada.
2. Diseño de corpus de lengua hablada
La selección de los materiales del corpus. La selección de los informantes.
2.1. CORPUS DE LENGUA ORAL
Criterios de diseño derivados del análisis del discurso y del análisis de la conversación.
Criterios de diseño derivados de la sociolingüística. Criterios de diseño derivados de la
dialectología.
2.2. CORPUS ORALES
Criterios de diseño de corpus para el estudio fonético segmental y suprasegmental: corpus
semi-espontáneos y corpus ad-hoc. Criterios de diseño de corpus para el desarrollo de las
tecnologías del habla.
3. Obtención de corpus de lengua hablada
El entorno de la grabación. Instrumentos para la grabación. Formatos de los ficheros de
sonido. Los problemas de la grabación en entornos naturales. La grabación en un entorno
de laboratorio.
1
Los corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005
4. Transcripción y etiquetado de los corpus de lengua hablada
4.1. LA TRANSCRIPCIÓN ORTOGRÁFICA DE LA LENGUA ORAL
Problemas de la representación ortográfica del habla espontánea: formas no normativas,
variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas
semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica
“enriquecida”.
4.2. LA TRANSCRIPCIÓN FONÉTICA DE LOS CORPUS ORALES
4.2.1. Transcripción fonética segmental
Sistemas de representación fonética segmental: AFI (Alfabeto Fonético Internacional),
SAMPA (SAM-Phonetic Alphabet) y WordlBet.
4.2.2. Transcripción de los elementos suprasegmentales
Sistemas de representación de los elementos suprasegmentales: AFI (Alfabeto Fonético
Internacional), SAMPROSA (SAM Prosodic Alphabet), INTSINT (International System
for Intionation Transcription) y ToBI (Tones and Break Indices).
4.3. EL ETIQUETADO DE LOS CORPUS ORALES
4.3.1. Niveles de etiquetado en los corpus orales
Etiquetado fonético segmental, fonológico segmental, fonético suprasegmental, fonológico
suprasegmental. La relación entre los niveles de etiquetado. La alineación temporal.
4.3.2. Herramientas para el etiquetado de corpus orales
Herramientas de etiquetado de dominio público y multiplataforma: Praat y WaveSurfer.
5. Codificación de los corpus de lengua oral
5.1. EL CONCEPTO DE CODIFICACIÓN
Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI
(Text Encoding Initiative) como estándar de codificación.
5.2. LA CODIFICACIÓN DEL DISCURSO ORAL
Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas,
elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto
escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la
lengua hablada. – elisiones y fragmentos de palabras, disfluencias y autocorrecciones -,
fragmentos no inteligibles.
6. Las aplicaciones y la explotación de los corpus del lengua hablada
Formatos de almacenamiento del corpus. Procedimientos de consulta. La documentación
del corpus.
2
Los corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005
6.1. APLICACIONES Y EXPLOTACIÓN DE CORPUS DE LENGUA ORAL
Herramientas para el análisis textual. Frecuencia de aparición de palabras o de marcas.
Concordancias. Colocaciones. Uso de corpus de lengua oral en estudios lingüísticos.
6.2. APLICACIONES Y EXPLOTACIÓN DE CORPUS ORALES
Herramientas para el análisis acústico de dominio público y multiplataforma: Praat y
WaveSurfer. Uso de corpus orales en los estudios fonéticos y en el desarrollo de
aplicaciones en el campo de las tecnologías del habla.
Bibliografía
HERRAMIENTAS
Praat, Institute of Phonetics, University of Amsterdam: http://www.praat.org
WaveSurfer, Centre for Speech Technology, KTH, Stockholm:
http://www.speech.kth.se/wavesurfer/
LINGÜÍSTICA DE CORPUS
BARNBROOK, G. (1996) Language and Computers. A Practical Introduction to the
Computer Analysis of Language. Edinburgh: Edinburgh University Press (Edinburgh
Textbooks in Empirical Linguistics).
BIBER, D.- CONRAD, S.- REPPEN, R. (1998) Corpus Linguistics. Investigating
Language Structure and Use. Cambridge: Cambridge University Press (Cambridge
Approaches to Linguistics).
KENNEDY, G. (1998) An Introduction to Corpus Linguistics. London: Longman (Studies
in Language and Linguistics).
McENERY, T.- WILSON, A. (1996) Corpus Linguistics. Edinburgh: Edinburgh University
Press (Edinburgh Textbooks in Empirical Linguistics), 2nd edition, 2001.
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.h
tm
STUBBS, M. (1996) Text and Corpus Analysis. Computer Assisted Studies of Language
and Culture. Oxford: Basil Blackwell (Language in Society).
WRAY, A.- TROTT, K.- BLOOMER, A. (1998) Projects in Linguistics. A Practical Guide
to Researching Language. London - New York: Arnold - Oxford University Press.
CORPUS ORALES
LLISTERRI, J. (1999) “Transcripción, etiquetado y codificación de corpus orales", in
GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ
LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA,
Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 53-82.
http://liceu.uab.es/~joaquim/publicacions/RESLA_99.pdf
3
Los corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005
SCHIEL, F.- DRAXLER, C. (2004) The Production of Speech Corpora. Munich: Bavarian
Archive for Speech Signals.
http://www.phonetik.unimuenchen.de/Forschung/BITS/TP1/Cookbook/
RECURSOS LINGÜÍSTICOS Y LENGUAS MINORIZADAS
First Steps in Language Documentation for Minority Languages. Computational Linguistic
Tools for Morphology, Lexicon and Corpus Compilation. Proceedings of the SALTMIL
Workshop. LREC 2004. 4th International Conference on Language Resources and
Evaluation. 26-28 May, 2004. Lisbon, Portugal.
KRAUWER, S. (2003) “The Basic Language Resource Kit (BLARK) as the First
Milestone for the Language Resources Roadmap”, in SPECOM 2003. International
Workshop “Speech and Computer”,. 27-29 October 2003, Moscow, Russia.
http://www.elsnet.org/dox/krauwer-specom2003.pdf
Linguistic Exploration. New Methods for Creating, Exploring and Disseminating Linguistic
Field Data. 6 January 2000, Palmer House Hilton, Chicago, US.
http://www.ldc.upenn.edu/exploration/LSA/
Linguistic Exploration. Workshop on Web-Based Language Documentation and
Description. 12 - 15 December 2000, Institute for Research in Cognitive Science,
University of Pennsylvania, Philadelphia, Pennsylvania, US.
http://www.ldc.upenn.edu/exploration/expl2000/
Ó CRÓINÍN, D. (Ed.) (2000) Proceedings of the Worlshop on Developing Language
Resources for Minority Languages: Reusability and Strategic Priorities. LREC 2000,
Second International Conference on Language Resources and Evaluation. Athens, Greece,
30 May 2000. European Language Resources Association.
Proceedings of the International LREC Workshop on Resources and Tools in Field
Linguistics. LREC 2002.Third International Conference on Language Resources and
Evaluation. Las Palmas, 26-27 May 2002.
4