Download Introducción a la conversión texto-voz. Estructura interna del bloque

Document related concepts
no text concepts found
Transcript
Introducción a la conversión
texto-voz.
Estructura interna del bloque de
proceso lingüístico
Miguel Ángel Rodríguez Crespo
TELEFÓNICA I+D
Fechas: 28 marzo - 01 abril 2011
Índice
01
Estructura interna del bloque de proceso lingüístico
- Hablar sobre:
- Tareas
- Dificultades
- Soluciones adoptadas
- De los módulos componentes:
- Normalizador
- Preproceso
- Categorizador
- Análisis prosódico
- Conversor grafema – alófono
- Generador de parámetros prosódicos
TELEFÓNICA I+D
2
01 Preliminares
n 
La estructura planteada y la descripción que se hará se refiere al
sistema CTV desarrollado por Telefónica I+D
n 
La mayoría de los sistemas actuales de alta calidad tienen estructuras
semejantes, pero hay diferencias en los módulos que identifican,
asignación de funciones a los módulos, orden en el que se realizan las
tareas…
TELEFÓNICA I+D
3
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
4
Proso.
Bloque de síntesis
Normalizador
Locutor Inv. unidades
01 Normalizador (I)
n 
Fijar la mayor unidad de trabajo del conversor (“oración”)
—  No se puede demorar el comienzo de la lectura hasta procesar un
texto completo (que puede ser arbitrariamente largo)
n 
Otras tareas
—  Pasar de secuencia de caracteres a secuencia de
“palabras” (estructuras de datos encadenadas)
—  Disminuir “algo” la variabilidad del texto de entrada y facilitar el
trabajo de las siguientes tareas
TELEFÓNICA I+D
5
01 Normalizador (II)
Fijar la mayor unidad de trabajo
n 
Se busca una unidad que permita procesar un fragmento
de texto:
— 
con independencia (fonética, entonativa…) respecto a otros
fragmentos
—  no excesivamente larga
n 
La “oración” es un buen compromiso
n 
La detección no es tan sencilla como podría pensarse
inicialmente
TELEFÓNICA I+D
6
01 Normalizador (III)
Fijar la mayor unidad de trabajo
n 
n 
Algunos signos pueden indicar fin de frase. Pero hay casos ambiguos.
Centrémonos en el punto.
— 
Abreviaturas: eu.
— 
Números: 10.423
— 
Iniciales de nombres: J.L. Serrano
— 
Representación de letras (p. ej, en catalán): col.legi
— 
Ordinales (en euskera): 1.
— 
Abreviaturas con punto y desinencia (en euskera): eu.ko
Opción:
— 
Reglas heurísticas para tratar los distintos casos
— 
Aplazar la decisión hasta otros módulos (preproceso) en casos dudosos
TELEFÓNICA I+D
7
01 Normalizador (IV)
Otras tareas
n 
Primera detección de palabras y signos ortográficos
—  Los signos ortográficos normalmente van “pegados” a palabras
alfabéticas
—  Desambiguar algunos signos ortográficos con distintos usos.
Ejemplos:
– 
– 
El guión
– 
Elementos parentéticos. Esto -dijo él- no lo esperaba
– 
Palabras compuestas. cardio-respiratorias
– 
División de palabras a final de línea
– 
Indicación de turno en los diálogos. – ¡Hola, Juan !
Comillas simples y dobles (si son de apertura o cierre)
TELEFÓNICA I+D
8
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
9
Proso.
Bloque de síntesis
Preproceso
Locutor Inv. unidades
01 Preproceso (I)
n 
Reducir más la variabilidad del texto, transformarlo a una forma
“directamente legible”, obtener información útil para etapas
posteriores del proceso
— 
— 
Todo el texto debe quedar expresado como
– 
Palabras alfabéticas (expansión de formas)
– 
Signos ortográficos
Las palabras alfabéticas serán
– 
Divididas en sílabas
– 
Acentuadas fonéticamente
TELEFÓNICA I+D
01 Preproceso (II)
Expansión de formas
n 
Números, abreviaturas, fechas… (todo lo que no aparezca de
forma completamente alfabética)
n 
Conflictos y ambigüedades entre formatos de distintas
expresiones, o entre expansiones posibles del mismo tipo de
expresión
n 
— 
3421789 (¿saldo de una cuenta bancaria?, ¿número de teléfono?...)
— 
10/12 (¿fecha?, ¿expresión aritmética?, ¿disposición legal?...)
— 
C (¿vitamina?, ¿número romano?, ¿tipo o clase?...)
— 
SS (¿Seguridad Social?, ¿guardia personal de Hitler?...)
— 
…
Ausencia de normas sobre cómo realizar la expansión
— 
“de” / “del” en la expansión de fechas
— 
Siglas. ¿cuándo deletrear, expandir, leer? CSIC
— 
…
TELEFÓNICA I+D
01 Preproceso (III)
Expansión de formas
n 
Opciones
— 
Métodos heurísticos para aventurar la interpretación en función del
contexto
— 
Proporcionar mecanismos de control para “dirigir” el tratamiento
que debe hacerse en distintos casos
TELEFÓNICA I+D
01 Preproceso (IV)
Expansión de formas. Aspectos multilingües
n 
“42” se leerá como “cuarenta y dos”, “quaranta-dos”, ...
n 
Concordancia de género en los números (p. ej. en español). Se
retrasa hasta la categorización
n 
— 
Localizar el sustantivo al que acompañan (si existe)
— 
Averiguar el género
— 
Modificar la expansión del número
Desinencias en euskera (“HBren”, “2009/03/07ko”)
TELEFÓNICA I+D
01 Preproceso (V)
División en sílabas (silabicación)
n 
n 
¿Para qué?
— 
Decidir dónde se localiza la acentuación fonética de las palabras
— 
Influye en la conversión grafema alófono (en algunos casos)
— 
Ayuda para el deletreo de secuencias impronunciables
Sistema de reglas basado en la información de la secuencia de letras de
una palabra
— 
No recoge fácilmente criterios morfológicos (“trans.at.lán.ti.co” ó
“tran.sat.lán.ti.co”)
— 
Se basa en la secuencia de letras, no de sonidos (“e.xa.men” ó
[ek.s’a.men])
— 
No considera fenómenos de contacto entre palabras
— 
Pero es adecuado para las necesidades y es flexible para adaptarse a
distintos idiomas
TELEFÓNICA I+D
01 Preproceso (VI)
Acentuación fonética (I)
n 
n 
Determina si la palabra es tónica o átona
— 
Si es tónica, determina sobre qué vocal (o vocales) recae el acento
— 
Hay palabras con dos acentos (adverbios acabados en “-mente”)
Formas ambiguas en cuanto a su tonicidad
— 
Dependiendo de la categoría gramatical (“sobre”)
— 
Por la relación con otras palabras
– 
Términos de tratamiento (“don”, “santo”, “señor”…)
– 
Ciertos componentes de los números (“doce mil”, “cuarenta y dos”…)
– 
Elementos de locuciones (“boca arriba”…)
– 
Primer componente de los nombres compuestos (“Pedro Pablo”, “José Luis”…)
— 
De momento, se localiza la posición del posible acento
— 
Se resuelve la decisión tónica / átona después de la categorización
TELEFÓNICA I+D
01 Preproceso (VI)
Acentuación fonética (II)
n 
Existen reglas para determinar la posición del acento basadas en la
palabra silabicada (en los idiomas tratados)
n 
Determinación del timbre (abierto / cerrado) de las vocales (catalán,
gallego, portugués)
n 
— 
Vocales tónicas
— 
Mecanismo de rimas y excepciones
— 
En gallego el timbre se determina tras la categorización
— 
La conversión grafema-alófono también puede asignar timbre
Falta de normas de acentuación en euskera
TELEFÓNICA I+D
01 Ejemplos de normalizador y preproceso
¡Hola amigos! Soy el Conversor Texto-Voz AMIGO. Puedo tratar textos sin restricciones. Por
ejemplo, puedo leer fechas, números cardinales, ordinales, abreviaturas, acrónimos y otras
expresiones extrañas.
Hoy es 16-2-09, o también 16-feb-2009.
En el año 201 a.C. hubo una guerra. Esta guerra duró 201 días y 201 noches. (Hago concordar el
género entre el número expandido y la palabra a la que se refiere).
Enrique VIII tuvo 6 mujeres. La 1ª fue Catalina de Aragón. Alfonso X fue un hombre, e Isabel II
es un canal.
El coche del Sr. López corre a 261 Km/h y cuesta unos 2.000.000 eu. .
El ADN es un término de bioquímica.
También intento pronunciar razonablemente las palabras que están mal escritas. Mi coche
tiene frnos ABS de última generatrwnmp.
También manejo frases interrogativas, y otros contornos entonativos. ¿Me habéis entendido?
De todas formas, estoy especialmente pensado para leer textos de noticias, opinión,
divulgativos,... y no textos literarios ni lenguaje espontáneo.
TELEFÓNICA I+D
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
18
Proso.
Bloque de síntesis
Categorizador
Locutor Inv. unidades
01 Categorizador (I)
n 
Asignar a cada palabra una categoría gramatical
n 
¿Para qué?
— 
Información de entrada para decidir (más tarde) sobre la inserción
de límites prosódicos y su caracterización
— 
Corrección del acento fonético
— 
Corrección del género en la expansión de números
— 
Para la transcripción grafema – alófono (en algunos casos)
TELEFÓNICA I+D
01 Categorizador (II)
n 
Se realiza en dos fases sucesivas
— 
— 
Categorización de una palabra a partir de su forma
– 
Listas
– 
Terminaciones
– 
Raíces
– 
Excepciones
Resolución de ambigüedades mediante reglas que tienen en cuenta
el contexto en el que aparece la palabra
– 
Hay distintos conjuntos de reglas
– 
Más seguras, aventuradas, desesperadas…
– 
Se aplican en orden de seguridad
TELEFÓNICA I+D
01 Categorizador (III)
Categorización “intrínseca”
n 
Se han desarrollado herramientas para trabajar con diccionarios
n 
Se conjugan los verbos y se generan formas flexionadas
n 
Se eligen automáticamente listas de terminaciones y excepciones
— 
n 
n 
Las más productivas
Dificultad: los pronombres enclíticos
— 
P. ej., en gallego hay un elevado número de pronombres enclíticos que
además se pueden combinar con muchas formas verbales
— 
Se intentan aislar los enclíticos antes de entrar en el tratamiento de
desinencias y raíces
Pueden quedar palabras ambiguas a la salida de esta etapa,
especialmente NOMB - VERB
TELEFÓNICA I+D
01 Categorizador (IV)
Categorización por reglas de contexto y otras tareas
n 
Eliminar la ambigüedad de categorías que haya podido quedar
de la fase anterior
n 
Se cuenta con un sistema de reglas
n 
— 
Facilita la creación y modificación del categorizador sin necesidad
de modificar las interioridades del software del CTV
— 
Se puede consultar y modificar información de varias palabras
Tras la categorización final, se realizan algunas tareas asociadas
que pudieron quedar pendientes
— 
Corrección de género en la expansión de números
— 
Asignación de timbre a las vocales (en algunos idiomas)
— 
Corrección del acento fonético
TELEFÓNICA I+D
01 Categorizador (V)
Ejemplo de categorización por reglas de contexto
… con el nuestro curas a todos…
n 
# 12
n 
INI_REGLA
n 
INI_COND
n 
n 
n 
n 
n 
0 ¬ CATEG_FLAGS ¬ PPOS
AND
1 ¬ CATEG_TOTAL ¬ VERB ¬ NOMB
AND
(
1 ¬ NO_CONCUERDA_NUMERO ¬ 0
n 
n 
OR
1 ¬ NO_CONCUERDA_GENERO ¬ 0
n 
n 
n 
INI_ACCI_SI
n 
0 ¬ CATEG_TOTAL ¬ PPOS
n 
1 ¬ CATEG_TOTAL ¬ VERB
n 
2 ¬ IR_A ¬ NO_MAS_REGLAS
n 
n 
n 
TELEFÓNICA I+D
)
INI_ACCI_NO
0 ¬ IR_A ¬ SIGUIENTE
FIN_REGLA
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
24
Proso.
Bloque de síntesis
Análisis prosódico
Locutor Inv. unidades
01 Análisis prosódico (I)
Motivación (I)
n 
La inteligibilidad de los sistemas de CTV actuales es satisfactoria
n 
El reto continúa siendo:
— 
Generar habla sintética natural, lo más semejante posible a un locutor humano de
referencia
n 
Mejoras en el nivel más “acústico” de los sistemas (técnicas de selección de
unidades, técnicas de síntesis de la señal...)
n 
Pero otro elemento fundamental (naturalidad, expresividad...) es el modelado
prosódico de los enunciados
— 
Descubrir la estructura de la prosodia
— 
Modelarla lo mejor posible => información que permite obtener mejores resultados
de la parte “acústica”
TELEFÓNICA I+D
01 Análisis prosódico (II)
Motivación (II)
n 
Ejemplo:
Piet Mondrian vive en Nueva York desde 1940. Como muchos artistas
europeos busca amparo de la guerra que asola el continente en la ciudad que
se prepara durante esta década para ser el gran relevo artístico, la nueva
vanguardia.
n 
Sin ningún análisis ni modelos prosódicos
n 
Con análisis prosódico, que da información para:
— 
Modelado de duraciones
— 
Generación del contorno de F0
— 
Selección de unidades
TELEFÓNICA I+D
01 Análisis prosódico (III)
Objetivos (I)
n 
Localizar y caracterizar las pausas y límites prosódicos dentro de una oración
(inducidos por signos ortográficos o no)
— 
— 
Datos previos
– 
Signos ortográficos. No siempre tienen que generar pausa
– 
Pausas (obligatorias u opcionales) generadas durante el preproceso
– 
Pausas (o ausencia de pausas) indicadas por el usuario
Resultados
– 
n 
Pausas y límites prosódicos generados automáticamente
La predicción y caracterización de pausas ayuda, pero no es suficiente
— 
Los locutores humanos emplean recursos expresivos que no tienen por qué ir
asociados a pausa
— 
Los locutores humanos realizan variantes prosódicas individuales
TELEFÓNICA I+D
01 Análisis prosódico (IV)
Objetivos (II)
n 
El análisis prosódico que presentamos pretende:
— 
— 
n 
Predecir límites prosódicos de dos tipos
– 
Nivel 1: límites de grupos fónicos (asociados a una pausa)
– 
Nivel 2: límites de frases entonativas (sin pausa asociada)
Recoger variación interlocutor
Se basa en dos tipos de información:
— 
General, propia del idioma tratado (extraíble del análisis del texto)
— 
Particular, propia de un hablante determinado (extraíble del análisis de
sus grabaciones)
TELEFÓNICA I+D
01 Análisis prosódico (V)
Descripción general
Detección y clasificación
de límites potenciales
Agrupación
Etiquetado
Características
generales del
idioma
TELEFÓNICA I+D
Selección de límites
definitivos
Nivel 1
Nivel 2
Características
particulares de un
hablante
01 Análisis prosódico (VI)
Detección y clasificación de límites potenciales
Piet Mondrian vive en Nueva York desde mil novecientos cuarenta .
INI
TELEFÓNICA I+D
SN_VER SV_SP
SP_SP
MIL
PUNTO
01 Análisis prosódico (VII)
Selección de límites definitivos (I)
n 
Primero se seleccionan los límites de nivel 1 (pausas) entre los límites
potenciales
n 
Después se seleccionan los límites de nivel 2 entre los límites potenciales
restantes
n 
Ambas etapas se realizan de forma análoga, y se apoyan en datos extraídos
del análisis del comportamiento del locutor de referencia
— 
Probabilidad de realizar límite de acuerdo a su tipo (etiqueta)
– 
— 
Probabilidad de hacer límite por número de sílabas transcurridas
– 
— 
Incentivos / penalizaciones (por la situación del límite respecto a los otros)
A medida que transcurren más sílabas aumenta la “necesidad” de realizar un límite
Algoritmo de “camino óptimo” (tipo Viterbi)
TELEFÓNICA I+D
prosódico (VIII)
01 Análisis
Selección de límites definitivos (II). Probabilidad por tipo de límite. Entorno
de influencia
-0.36
+0.35
Piet Mondrian vive en Nueva York desde mil novecientos cuarenta .
INI
SN_VER
SV_SP
SP_SP
MIL
PUNTO
0.00
0.31
0.09
0.23
0.08
1.00
+0.00 +0.00
-0.36 +0.35
-0.43 -0.27
-0.13 +0.11
-0.35 -0.06
+0.00 +0.00
0.00
0.31
0.00
0.22
0.00
1.00
TELEFÓNICA I+D
prosódico (IX)
01 Análisis
Selección de límites definitivos (II). “Camino óptimo” combinando
probabilidad por tipo de límite y probabilidad por sílabas transcurridas
INI
SN_VER
SV_SP
SP_SP
MIL
PUNTO
0.00
0.31
0.00
0.22
0.00
1.00
[1.00]
[0.69]
[1.00]
[0.78]
[1.00]
[0.00]
3 sil
2 sil
4 sil
3 sil
0.31, Prob(3 sil)
0.00, Prob(2 sil)
SÍ
NO
0.69, 1.0 – Prob(3 0,00,
sil) Prob(5 sil)
TELEFÓNICA I+D
01 Análisis prosódico (X)
Evaluación (I)
n 
¿Referencia de corrección?
— 
n 
n 
Los límites que hicieron locutores humanos
Nos permite comprobar:
— 
Correcta predicción de los límites
— 
Adaptación a las peculiaridades de un hablante
10 oraciones
— 
Suficiente longitud para inducir límites
— 
Estructura compleja y variada
— 
292 límites potenciales
— 
2 locutores de referencia (JOSÉ y NACHO)
TELEFÓNICA I+D
01 Análisis prosódico (XI)
Evaluación (II)
CNLI
CTOT
CPAR
NPRE
FPRE
Total
CNLI
CTOT
CPAR
NPRE
FPRE
Total
197
casos
37
casos
16
casos
33
casos
9
casos
292
casos
219
casos
39
casos
7
casos
16
casos
11
casos
292
casos
67,47
%
12,67
%
5,48
%
11,3
%
3.08
%
100
%
75
%
13,36
%
2,4
%
5,48
%
3.77
%
100
%
JOSÉ – Sistema JOSÉ
NACHO – Sistema NACHO
88,36%
80,14%
N1OR
N1NO
NIV2
Total
JOSÉ
18
casos
15
casos
53
casos
86
casos
NACHO
20
casos
13
casos
29
casos
62
casos
CTOT
18
casos
8
casos
17
casos
43
casos
JOSÉ - NACHO
TELEFÓNICA I+D
01 Análisis prosódico (XII)
Evaluación (III)
n 
Ejemplo:
Piet Mondrian vive en Nueva York desde 1940.
n 
CTV basado en JOSÉ
n 
CTV basado en NACHO
n 
CTV basado en CARMEN
SINTAG_SN: Piet_NPRO Mondrian_NPRO
_ LIM_SINTAG,N_PAU_SN_VERBO,3,2
SINTAG_SV: vive_VERB
_ LIM_SINTAG,N_PAU_SV_SP,2,1
SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO
_ LIM_PROSO,N_PAU_SP_SP,9,4
SINTAG_SPN: desde_PREP mil_NUME
_ LIM_SINTAG,N_PAU_MIL,3,1
SINTAG_SN: novecientos_NUME cuarenta_NUME
. PAU,N_PAU_PUNTO,19,7 FFRASE
NACHO
TELEFÓNICA I+D
SINTAG_SN: Piet_NPRO Mondrian_NPRO
_ LIM_PROSO,N_PAU_SN_VERBO,3,2
SINTAG_SV: vive_VERB
_ LIM_SINTAG,N_PAU_SV_SP,2,1
SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO
_ LIM_PROSO,N_PAU_SP_SP,6,2
SINTAG_SPN: desde_PREP mil_NUME
_ LIM_SINTAG,N_PAU_MIL,3,1
SINTAG_SN: novecientos_NUME cuarenta_NUME
. PAU,N_PAU_PUNTO,19,7 FFRASE
JOSÉ
SINTAG_SN: Piet_NPRO Mondrian_NPRO
_ LIM_SINTAG,N_PAU_SN_VERBO,3,2
SINTAG_SV: vive_VERB
_ LIM_SINTAG,N_PAU_SV_SP,2,1
SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO
_ PAU,N_PAU_SP_SP,9,4
SINTAG_SPN: desde_PREP mil_NUME
_ LIM_SINTAG,N_PAU_MIL,3,1
SINTAG_SN: novecientos_NUME cuarenta_NUME
. PAU,N_PAU_PUNTO,10,3 FFRASE
CARMEN
01 Análisis prosódico (XIII)
Conclusiones
n 
Se cumplen los objetivos perseguidos
— 
Segmentación prosódica con niveles, más correcta
— 
Personalizable para cada locutor
n 
Buenos resultados “objetivos” en el parecido con locutores de referencia
n 
Efecto beneficioso en la calidad de la voz sintética
n 
— 
Evaluación subjetiva informal
— 
Voz más natural y expresiva
— 
Menos monótona y predecible en su entonación
Posibilidades de mejora y evolución
TELEFÓNICA I+D
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
38
Proso.
Bloque de síntesis
Conversor grafema – alófono
Locutor Inv. unidades
01 Conversor grafema – alófono (I)
n 
Obtener la secuencia de alófonos (identidad de los alófonos)
n 
Trabaja sobre grupos fónicos (parte del discurso delimitada por pausas)
n 
Se considera un conjunto común de alófonos para todos los idiomas (incluidos
hasta ahora en el sistema)
n 
Alfabeto de alófonos basado en el SAMPA (Speech Assessment Methods
Phonetic Alphabet)
— 
78 símbolos
— 
Ningún idioma emplea todo el repertorio (hay símbolos comunes y otros que sólo
se usan en algunos idiomas)
TELEFÓNICA I+D
01 Conversor grafema – alófono (II)
n 
Se parte de la secuencia de caracteres, silabicados y acentuados
fonéticamente, de las palabras del grupo
— 
Se generan estructuras de datos “de alófono” encadenadas, cada una de las cuales
se corresponde inicialmente con un carácter, en las que se rellenará información
— 
Los alófonos se relacionan con sus palabras correspondientes
— 
Se puede consultar información asociada a las palabras (p. ej., la categoría
gramatical)
P1
A1
TELEFÓNICA I+D
A1
P3
P2
A1
A1
A1
A1
A1
A1
A1
01 Conversor grafema – alófono (III)
n 
n 
La transcripción se realiza fundamentalmente mediante reglas que
trabajan sobre las estructuras de alófonos
— 
Específicas para cada idioma
— 
Complementadas con ficheros de listas y excepciones
Se incluyó posteriormente un mecanismo basado en listas de palabras
con su transcripción asociada (más adecuado para algunos idiomas)
— 
También se emplean reglas para tener en cuenta los efectos del contacto
entre palabras en la transcripción
— 
Y porque siempre hay que tener un mecanismo para tratar palabras no
contempladas en el diccionario de transcripciones
TELEFÓNICA I+D
01 Conversor grafema – alófono (IV)
n 
Las reglas permiten la creación y eliminación de estructuras de datos
de alófono
n 
Los procesos fonológicos de asimilación dificultan la aplicación de las
reglas de transcripción fonética de manera secuencial
n 
La aplicación de las reglas de transcripción se divide en dos fases
— 
De izquierda a derecha. Cuando no se puede decidir un alófono concreto,
se genera un alófono temporal que recoge la ambigüedad acotada
— 
De derecha a izquierda. Va resolviendo las ambigüedades pendientes
TELEFÓNICA I+D
01 Conversor grafema – alófono (V)
Ejemplos de reglas (I)
# c (dígrafo ch)
INI_REGLA
INI_COND
1 ¬ CAR_SIL ¬ h
INI_ACCI_SI
0 ¬ COD_ALO ¬ ALO_tS
1 ¬ IR_A ¬ NO_MAS_REGLAS
INI_ACCI_NO
0 ¬ IR_A ¬ SIGUIENTE
FIN_REGLA
TELEFÓNICA I+D
# c (seguida de eéèiíï, o caso normal de c)
INI_REGLA
INI_COND
1 ¬ CAR_SIL ¬ eéèiíï
INI_ACCI_SI
0 ¬ COD_ALO ¬ ALO_T
1 ¬ IR_A ¬ NO_MAS_REGLAS
INI_ACCI_NO
0 ¬ COD_ALO ¬ ALO_k
1 ¬ IR_A ¬ NO_MAS_REGLAS
FIN_REGLA
01 Conversor grafema – alófono (VI)
Ejemplos de reglas (II)
# n postnuclear (depende de si el
siguiente sonido es bilabial o no), o
caso normal de "n"
INI_REGLA
INI_COND
0 ¬ POSI_SIL ¬ POSTNUCLEAR
INI_ACCI_SI
0 ¬ COD_ALO ¬ ALO_m_n
1 ¬ IR_A ¬ NO_MAS_REGLAS
INI_ACCI_NO
0 ¬ COD_ALO ¬ ALO_n
1 ¬ IR_A ¬ NO_MAS_REGLAS
FIN_REGLA
TELEFÓNICA I+D
# ALO_m_n (delante de sonido bilabial, o
en cualquier otro caso)
INI_REGLA
INI_COND
1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_p
OR
1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_B
OR
1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_m
INI_ACCI_SI
0 ¬ COD_ALO ¬ ALO_m
-1 ¬ IR_A ¬ NO_MAS_REGLAS
INI_ACCI_NO
0 ¬ COD_ALO ¬ ALO_n
-1 ¬ IR_A ¬ NO_MAS_REGLAS
FIN_REGLA
01 Conversor grafema – alófono (VII)
n 
Problemas: algunos aspectos multilingües
— 
Transcripciones fonéticas con reglas ajenas al idioma
– 
— 
“González” puede pronunciarse como [GonT’aleT], [Gunz’al@z], ...
Aparición de palabras de otro idioma dentro de un texto escrito en un
idioma base
n 
El problema es general, y afecta a todas las etapas del proceso
lingüístico. Pero se manifiesta de forma evidente en la transcripción
n 
Modo de funcionamiento “políglota”
— 
El CTV permite que un “locutor” trabaje con tablas lingüísticas de un
idioma distinto a su idioma nativo, y que estas puedan cambiar a lo largo
del texto
— 
La síntesis se realiza con los sonidos propios del “locutor”
TELEFÓNICA I+D
01 Conversor grafema – alófono (VIII)
Ejemplos de Funcionamiento “políglota”
n 
Ejemplo 1
\mf1\ \idi=LOC\ She was born on Wednesday the 16th of July.
\idi=ENG-GBR\ She was born on Wednesday the 16th of July.
n 
Ejemplo 2
\mf1\ \idi=LOC\ Las vacaciones de Mr. Bean.
Las vacaciones de Mr. \idi=eng-GBR\ Bean \idi=LOC\.
n 
Hay procedimientos automáticos para decidir el idioma en el que está
escrito un texto (y los cambios de idioma dentro de un texto)
TELEFÓNICA I+D
01 Estructura interna del bloque de proceso lingüístico
Bloque de proceso lingüístico
Datos internos
Norm.
Prep.
Tab. ling. fijas
Categ.
Anál.
prosó.
Tab. ling. usu.
Conv.
graf.
alóf.
Mod. proso.
TELEFÓNICA I+D
47
Proso.
Bloque de síntesis
Generador de parámetros prosódicos
Locutor Inv. unidades
01 Generador de parámetros prosódicos (I)
n 
n 
La información prosódica refleja elementos
— 
Lingüísticos (pausas, acentos, interrogación, exclamación…)
— 
No lingüísticos (características del locutor, estado de ánimo…)
El generador de parámetros prosódicos del CTV sólo aborda los
elementos que se pueden derivar
— 
Del tratamiento del texto
— 
Del análisis de las grabaciones de un locutor humano de referencia, en
una situación concreta
— 
(Es la misma situación que vimos en el módulo de análisis prosódico)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (II)
n 
En las módulos anteriores del proceso lingüístico hemos obtenido una
transcripción enriquecida
— 
n 
Cuál es la secuencia de sonidos que se pretende generar, e informaciones
asociadas a esos sonidos
– 
División en sílabas
– 
Acentuación fonética
– 
Pausas y límites prosódicos (situación y caracterización)
– 
...
Ahora queda concretar cómo generar esa secuencia de sonidos
— 
Con la ayuda de datos extraídos de la voz de un locutor de referencia
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (III)
n 
Inicialmente, era común que los CTV obtuvieran datos relativos a la
prosodia a partir de estudios de lingüística general
n 
Esos estudios planteaban promedios de las realizaciones de un
conjunto de hablantes
— 
Su interés era obtener características generales del lenguaje hablado
n 
El mayor problema es que un sistema que intenta hablar como
todos los hablantes, termina por hablar como ninguno de ellos
n 
La estrategia actual más extendida para la generación de prosodia de
los CTV es hacer estudios particularizados para un hablante de
referencia
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (IV)
n 
n 
n 
Prosodia ó parámetros prosódicos
— 
La prosodia es algo general e intangible (psicolingüístico)
— 
Un CTV lo concreta en unos parámetros determinados (números)
Los parámetros de mayor importancia
— 
Intensidad (energía) de la señal (énfasis)
— 
Duración de los sonidos (velocidad de elocución, ritmo)
— 
Contorno de frecuencia fundamental (F0, melodía)
La generación de parámetros prosódicos es la responsable, en buena
medida, de la naturalidad de la voz generada
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (V)
Energía
n 
Es el parámetro menos considerado en los sistemas CTV
n 
No se suele hacer un modelado particular del mismo
n 
Es innegable la variación de energía de la señal a lo largo del discurso,
especialmente en los inicios y finales de grupos fónicos
n 
En los CTV basados en concatenación de unidades acústicas, se tiene
en cuenta indirectamente (contexto de la selección)
n 
El acento de intensidad es una mala denominación, de acuerdo a
algunos experimentos
— 
Ejemplo: depósito, deposito, depositó
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (VI)
Duración (I)
n 
Intervalo de tiempo que dura cada sonido (también los silencios)
n 
Es un parámetro tanto segmental como suprasegmental
n 
— 
Resulta un valor numérico (nº de milisegundos) asociado a cada sonido
— 
Depende de factores más allá de cada sonido particular
Se construyen unos modelos estadísticos multiplicativos, ajustados
para la voz de un locutor
— 
A partir de las grabaciones, segmentadas y etiquetadas
— 
El segmentado y etiquetado se hace de forma semiautomática
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (VII)
Duración (II). Segmentado y etiquetado semiautomáticos
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (VIII)
Duración (III)
n 
A partir del corpus de voz, segmentado y etiquetado, se
caracterizan todos los alófonos
— 
Identidad (combinada con el acento)
— 
Duración
— 
Clase del alófono
— 
Contexto (dos posiciones anteriores y dos posteriores)
– 
— 
Clase de los contextos, combinada con acento
Longitud, y distancia desde el principio y final del grupo fónico (nº
de sílabas)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (IX)
Duración (IV)
n 
A partir del corpus de voz, segmentado y etiquetado, se
caracterizan todos los alófonos (cont.)
— 
Longitud, y distancia desde el principio y final de la palabra (nº de
sílabas)
— 
Distancia desde el principio y final de la frase entonativa (nº de
sílabas)
— 
Ídem respecto a límites sintácticos
— 
Si el alófono se encuentra entre vocales (o no)
— 
Si la palabra es tónica (o no)
— 
La modalidad oracional
— 
…
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (X)
Duración (V)
n 
Hay sonidos más susceptibles de modificar su duración que otros
n 
Los sonidos se agrupan en clases, y se ajusta un modelo estadístico
para cada clase
— 
Vocales
— 
Nasales
— 
Oclusivas sordas
— 
Laterales
— 
Oclusivas sonoras
— 
Laterales trabadas
— 
Fricativas sordas
— 
Vibrantes
— 
Fricativas sonoras
— 
Vibrantes trabadas
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XI)
Duración (VI)
n 
El ajuste de cada modelo se realiza mediante análisis de
varianza sobre el logaritmo de las duraciones
n 
Dentro de cada modelo, se obtiene
— 
Un valor de duración base para cada alófono de la clase
— 
Unos valores (para cada nivel de los factores) que modifican la
duración base (para aumentarla o disminuirla)
— 
Sólo se consideran los factores estadísticamente significativos (los
que mejor explican la variabilidad de los datos)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XII)
Duración (VII)
n 
Ejemplo: Esto es una prueba
— 
Vocal [e] tónica: 111,91 mseg
— 
Distancia al final de la PAL (1+): 0,98
— 
Clase – 2 (silencio): 1,14
— 
Palabra tónica (SÍ): 0,99
— 
Clase – 1 (silencio): 1,12
— 
Distancia al inicio del LS (0): 0,99
— 
Clase + 1 (fricativa sorda): 0,93
— 
Distancia al final del LS (1): 1,00
— 
Clase + 2 (oclusiva sorda): 0,93
— 
Distancia al inicio de la FE (0): 1,03
— 
Entre vocales (NO): 0,98
— 
Distancia al final de la FE (3+): 0,95
— 
Distancia al inicio del GF (0): 1,00
— 
Modalidad oracional (AFIRM): 0,98
— 
Longitud del GF (5+): 1,01
— 
Distancia al final del GF (3+): 1,00
— 
Distancia al inicio de la PAL (0): 1,01
— 
Longitud de la PAL (2); 1,00
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XIII)
Contorno de F0 (I)
n 
El procedimiento empleado en el CTV de TI+D ha cambiado a lo largo del
tiempo.
n 
Otros sistemas pueden tener procedimientos muy distintos
n 
Una aproximación habitual (usada anteriormente en el CTV de TI+D) consiste
en:
— 
Escoger una serie de contornos de F0 prototípicos de la base de datos de voz del
locutor de referencia, que componen un inventario de contornos de F0
— 
Se escoge un contorno para cada tipo de grupo fónico (etiqueta de pausa,
número de tónicas, posición del grupo fónico dentro de la oración, número de
átonas iniciales, número de átonas finales…)
— 
El contorno queda representado por un conjunto de valores de F0 correspondientes
a puntos del mismo (inicio, medio y final de vocales tónicas, punto medio de las
átonas anteriores, inicio del grupo, final del grupo…)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XIV)
Contorno de F0 (II)
n 
Una aproximación habitual (usada anteriormente en el CTV de TI+D)
consiste en (cont.):
— 
Cuando hay que generar el contorno correspondiente a un texto, se hace
para cada grupo fónico aisladamente
— 
Se caracteriza el grupo fónico (etiqueta de pausa, número de tónicas,
número de átonas iniciales, número de átonas finales, posición dentro de
la oración…)
— 
Se busca el contorno prototípico disponible más semejante
– 
— 
La realidad de los textos siempre supera en variedad a lo que tengamos en
nuestra base de datos de contornos prototípicos
Se trasladan los puntos del prototipo a los puntos del contorno objetivo, y
se interpolan valores si es necesario
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XV)
Contorno de F0 (III)
n 
n 
Ventajas de esta aproximación habitual
— 
Buen nivel de calidad, sobre todo por la continuidad y suavidad
— 
Permite recoger características de un hablante
Desventajas de esta aproximación habitual
— 
Falta de variedad y naturalidad
– 
Pocos factores para clasificar los tipos de grupos fónicos
– 
Número de contornos limitado (uno por tipo )
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XVI)
Contorno de F0 (IV)
n 
Otra aproximación habitual (no usada por el CTV de TI+D)
— 
En los sistemas basados en concatenación de unidades acústicas
seleccionadas con técnicas basadas en corpus
— 
Se confía en que la secuencia de unidades seleccionadas tendrá un
contorno de F0 adecuado (por los criterios de selección empleados),
resultado de concatenar el F0 original de las unidades
— 
No se quiere modificar el F0 de las unidades seleccionadas para no
degradar su calidad acústica
— 
No se genera explícitamente un contorno de F0, ni se impone como
objetivo para la síntesis
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XVII)
Contorno de F0 (V)
n 
Ventajas de la aproximación de no generar contorno de F0
— 
n 
Desventajas
— 
n 
La calidad acústica es muy buena segmentalmente
Es habitual percibir discontinuidades prosódicas (subidas y bajadas de
tono inapropiadas)
El procedimiento más reciente de generación de contornos de F0 del
CTV de TI+D intenta conjugar las ventajas de ambas aproximaciones
— 
Generación de contornos de F0 basada en corpus
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XVIII)
Contorno de F0 (VI)
n 
Idea: En lugar de contornos de grupos fónicos completos, se manejan
unidades elementales que los constituyen
n 
Podemos construir objetos distintos de los originales
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XIX)
Contorno de F0 (VII)
n 
n 
n 
Objetos : siguen siendo los grupos fónicos (GF)
Piezas (unidades entonativas elementales): los grupos acentuales
(GA)
— 
Conjunto de sílabas comprendido entre el inicio de una sílaba tónica (o
límite de GF o FE), y el inicio de la siguiente sílaba tónica (o límite de GF o
FE)
— 
[La casa de] [Pedro] [es pe-] [-queña]
— 
Se pueden obtener a partir del análisis lingüístico del texto de entrada
— 
El límite entre GA’s facilita su concatenación
Nuestro corpus de contornos de F0 ya no será un conjunto de GF s
(objetos), sino un conjunto de GA s (piezas)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XX)
Contorno de F0 (VIII)
n 
n 
Tampoco se elegirá un representante prototípico para cada clase
— 
Se crea un inventario de todos los GA s contenidos en el corpus de voz de
referencia
— 
Aunque los tenemos que clasificar, cada uno de ellos puede tener otras
características únicas
Factores de clasificación de los GA s
— 
Nº de átonas tras la tónica inicial
— 
— 
Nº de tónicas consecutivas (antes y
después)
Alófonos (o clases) que componen el
grupo
— 
Modalidad oracional del enunciado
— 
Presencia (o no) de LS interior o final
— 
— 
Presencia (o no) de límite de FE o GF
al final
Posición en la frase del GF en el que se
encuentra el GA
— 
…
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XXI)
Contorno de F0 (IX)
n 
La construcción de contornos, para cada GF, consiste en:
— 
Ajustarse al objetivo que viene dado por la secuencia de GA s cuyas
características (especificación lingüística) se han obtenido mediante el
análisis del texto de entrada
— 
Seleccionar la mejor secuencia de los GA s disponibles
Suavizado , tras la selección
— 
n 
La mejor secuencia è la de menor coste o distorsión
— 
Coste de unidad: diferencia entre las características del GA que se quiere
sintetizar (objetivo) y las de un GA del inventario disponible
— 
Coste de concatenación: discontinuidad de características en la unión
entre dos GA s de los disponibles en el inventario
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XXII)
Contorno de F0 (X)
n 
Coste de unidad. Suma ponderada de subcostes
p
C t (ti , ui ) = ∑ ω tj C tj (ti , ui )
j =1
n 
ti: GA objetivo (especificación lingüística)
n 
ui: GA de la base de datos prosódica
n 
P. ej.: j = 1 se corresponde con el subcoste por número de átonas después de la
tónica inicial. Mide lo parecidos o distintos que son los GA s ti y ui, en cuanto al
nº de átonas después de la tónica inicial.
— 
Si coinciden, será 0. Si no coinciden, será mayor que cero (y tanto mayor cuanto más
diferentes sean en este aspecto)
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XXIII)
Contorno de F0 (XI)
n 
Coste de concatenación. Suma ponderada de subcostes
c
q
C (ui −1 , ui ) = ∑ ω cjC cj (ui −1 , ui )
j =1
n 
ui-1: GA de la base de datos prosódica, anterior a ui
n 
ui: GA de la base de datos prosódica, posterior a ui-1
n 
P. ej.:
— 
j = 1 refleja el hecho de que los GA s sean contiguos o no, en el corpus de grabación
– 
Si son contiguos, lo normal es considerar este subcoste y los demás como nulos
— 
j = 2 mide el subcoste por diferencia de F0 entre los GA s.
— 
j = 3 mide la discontinuidad por distancia al límite prosódico o pausa anterior
— 
…
TELEFÓNICA I+D
01 Generador de parámetros prosódicos (XXIV)
Contorno de F0 (XII)
n 
Coste total acumulado mínimo (búsqueda del camino óptimo)
Ct(t1, u1)
GA 1
GA 2
Cc(u1, u2)
TELEFÓNICA I+D
Ct(t3, u3)
Ct(t2, u2)
Ct(t4, u4)
GA 3
Cc(u2, u3)
Ct(t5, u5)
GA 5
GA 4
Cc(u3, u4)
Cc(u4, u5)
01 Generador de parámetros prosódicos (XXV)
Contorno de F0 (XIII)
n 
La prosodia resulta decisiva para que el habla sintética suene agradable
y natural. Si no se generara una prosodia adecuada, ¿cómo sonaría mi
voz? Mi voz sonaría monótona, metálica y robotizada.
n 
Sin modelos de prosodia (duraciones constantes y F0 plano)
n 
Con modelos de prosodia adaptados al locutor humano de referencia
TELEFÓNICA I+D
01 Ilustración de las tareas del proceso lingüístico (I)
n 
Texto original
El coche del Sr. López corre a 261 Km/h y cuesta unos
2.000.000 eu. .
n 
Detección de final de oración. Primera separación en palabras
\mrf=0;68\
\mrp=13;3\
\mrp=31;3\
\mrp=49;4\
TELEFÓNICA I+D
\mrp=0;2\ El \mrp=3;5\ coche \mrp=9;3\ del
Sr. \mrp=17;5\ López \mrp=23;5\ corre \mrp=29;1\ a
261 \mrp=35;4\ Km/h \mrp=40;1\ y \mrp=42;6\ cuesta
unos \mrp=54;7\ 2.000.000 \mrp=62;3\ eu. .¶
01 Ilustración de las tareas del proceso lingüístico (II)
n 
Expansión e información relativa a palabras
el el ## 1 0 ARTI IND_NOMB G_MASCULINO N_SINGULAR 2 SINTAG_SN
coche có.che ## 2 1 NOMB G_MASCULINO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SN
del del ## 1 0 CNTR IND_NOMB G_MASCULINO N_SINGULAR 3 SINTAG_SPN
señor se.ñór ## 2 1 NPRO G_MASCULINO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SPN
lópez ló.pez ## 2 1 NPRO G_AMBIGUO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SPN
corre có.rre ## 2 1 VERB 1 SINTAG_SV
a a ## 1 0 PREP 1 SINTAG_SPN
doscientos dos.cién.tos ## 3 1 NUME G_MAS_APOC 0 F_ESTIQUIBIT SINTAG_SPN
sesenta se.sen.ta ## 3 0 NUME 0 F_ESTIQUIBIT SINTAG_SPN
y i ## 1 0 NUME 0 F_ESTIQUIBIT SINTAG_SPN
un ún ## 1 1 NUME G_MAS_APOC 0 F_ESTIQUIBIT SINTAG_SPN
kilómetros ki.ló.me.tros ## 4 1 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN
por por ## 1 0 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN
hora hó.ra ## 2 1 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN
y i ## 1 0 COOR 1 SINTAG_OTRO
cuesta cués.ta ## 2 1 VERB G_FEMENINO N_SINGULAR 6 SINTAG_SV
unos u.nos ## 2 0 ARTI G_MASCULINO N_PLURAL 4 SINTAG_SN
dos dós ## 1 1 NUME G_AMBIGUO 0 F_ESTIQUIBIT SINTAG_SN
millones mi.lló.nes ## 3 1 NOMB G_MASCULINO N_PLURAL 0 F_ESTIQUIBIT SINTAG_SN
de de ## 1 0 PREP 2 SINTAG_SPN
euros éu.ros ## 2 1 NOMB G_MASCULINO N_PLURAL 3 F_ESTIQUIBIT SINTAG_SPN
CONTROL PAU N_PAU_PARRA .¶ 12 4 AFIRM FFRASE
TELEFÓNICA I+D
01 Ilustración de las tareas del proceso lingüístico (III)
n 
Inserción de pausas, límites prosódicos y límites de sintagma
SINTAG_SN: El_ARTI coche_NOMB
_ LIM_SINTAG,N_PAU_SN_DE,3,1
SINTAG_SPN: del_CNTR Señor_NPRO López_NPRO
_ PAU,N_PAU_VERBO,8,3
SINTAG_SV: corre_VERB
_ LIM_SINTAG,N_PAU_SV_A,2,1
SINTAG_SPN: a_PREP doscientos_NUME sesenta_NUME y_NUME un_NUME
kilómetros_NOMB por_NOMB hora_NOMB
_ PAU,N_PAU_OR_COOR_COP,18,5
SINTAG_OTRO: y_COOR
_ LIM_SINTAG,N_PAU_CONJ_ANTEP,1,0
SINTAG_SV: cuesta_VERB
_ LIM_SINTAG,N_PAU_VERBO_SN,2,1
SINTAG_SN: unos_ARTI dos_NUME millones_NOMB
_ LIM_SINTAG,N_PAU_SN_DE,6,2
SINTAG_SPN: de_PREP euros_NOMB
.¶ PAU,N_PAU_PARRA,12,4 FFRASE
TELEFÓNICA I+D
01 Ilustración de las tareas del proceso lingüístico (IV)
n 
Información sobre grupos fónicos y acentuales
\mrf=0;68\
\mrp=17;5\
\mrp=35;4\
\mrp=54;7\
\mrp=0;2\ El \mrp=3;5\ coche \mrp=9;3\ del \mrp=13;3\ Sr.
López \mrp=23;5\ corre \mrp=29;1\ a \mrp=31;3\ 261
Km/h \mrp=40;1\ y \mrp=42;6\ cuesta \mrp=49;4\ unos
2.000.000 \mrp=62;3\ eu. .¶
El coche del Señor López \pau=N_PAU_VERBO\ corre a doscientos sesenta
y un kilómetros por hora \pau=N_PAU_OR_COOR_COP\ y cuesta unos dos
millones de euros .¶
38 3 kk 0
1 3 8 3 N_PAU_VERBO AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO a.ta.a.at.ta.
2 3 18 5 N_PAU_OR_COOR_COP AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO
ta.a.ata.aaa.a.t.ataa.a.ta.
3 3 12 4 N_PAU_PARRA AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO
a.ta.aa.t.ata.a.ta.
TELEFÓNICA I+D
01 Ilustración de las tareas del proceso lingüístico (V)
n 
Transcripción grafema – alófono
e l · k 'o tS e · D e l · s e J 'o r · l 'o p e T · si
k 'o rr e · a · D o s T i 'e n t o s · s e s e n t a ·
i · 'u n · k i l 'o m e t r o s · p o r · 'o r a · si
i · k u 'e s t a · u n o s · D 'o s · m i L 'o n e s ·
D e · 'e u r o s · si
TELEFÓNICA I+D
01 Ilustración de las tareas del proceso lingüístico (VI)
n 
Asignación de parámetros prosódicos
e 0
l 0
# ARTI
k 0
o 1
tS 0
e 0
# NOMB
D 0
e 0
l 0
# CNTR
s 0
e 0
J 0
o 1
r 0
# NPRO
l 0
o 1
p 0
e 0
TELEFÓNICA I+D
0
1
0
1
56
73
1
79
58
116
64
2
49
50
54
1
89
48
100
62
84
2
56
68
89
100
191
0
169
219
0
0
182
0
0
223
0
235
173
0
0
228
0
222
0
0
0
0
0
0
0
0
0
0
0
143
170
0
0
154
0
170
0
0
143
0
162
159
151
205
201
220
0
207
0
228
0
199
0
224
T 0
# NPRO
si 0
k 0
o 1
rr 0
e 0
# VERB
a 0
# PREP
D
0
o
0
s
0
T
0
i
0
e
1
n
0
t
0
o
0
s
0
# NUME
s
0
...
1
1
0
1
78
2
283
107
72
80
69
2
64
1
51
59
61
65
46
44
74
47
61
56
3
49
0
0
0
N_PAU_VERBO
189
0
207
228
0
0
0
239
0
0
236
0
213
0
0
0
0
0
0
156
167
0
0
0
0
0
0
173
0
0
0
176
0
0
195
0
0
162
0
0
0
186
201
0
172
0
0
0
0
0
0
TELEFÓNICA I+D