Download Introducción a la conversión texto-voz. Estructura interna del bloque
Document related concepts
no text concepts found
Transcript
Introducción a la conversión texto-voz. Estructura interna del bloque de proceso lingüístico Miguel Ángel Rodríguez Crespo TELEFÓNICA I+D Fechas: 28 marzo - 01 abril 2011 Índice 01 Estructura interna del bloque de proceso lingüístico - Hablar sobre: - Tareas - Dificultades - Soluciones adoptadas - De los módulos componentes: - Normalizador - Preproceso - Categorizador - Análisis prosódico - Conversor grafema – alófono - Generador de parámetros prosódicos TELEFÓNICA I+D 2 01 Preliminares n La estructura planteada y la descripción que se hará se refiere al sistema CTV desarrollado por Telefónica I+D n La mayoría de los sistemas actuales de alta calidad tienen estructuras semejantes, pero hay diferencias en los módulos que identifican, asignación de funciones a los módulos, orden en el que se realizan las tareas… TELEFÓNICA I+D 3 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 4 Proso. Bloque de síntesis Normalizador Locutor Inv. unidades 01 Normalizador (I) n Fijar la mayor unidad de trabajo del conversor (“oración”) — No se puede demorar el comienzo de la lectura hasta procesar un texto completo (que puede ser arbitrariamente largo) n Otras tareas — Pasar de secuencia de caracteres a secuencia de “palabras” (estructuras de datos encadenadas) — Disminuir “algo” la variabilidad del texto de entrada y facilitar el trabajo de las siguientes tareas TELEFÓNICA I+D 5 01 Normalizador (II) Fijar la mayor unidad de trabajo n Se busca una unidad que permita procesar un fragmento de texto: — con independencia (fonética, entonativa…) respecto a otros fragmentos — no excesivamente larga n La “oración” es un buen compromiso n La detección no es tan sencilla como podría pensarse inicialmente TELEFÓNICA I+D 6 01 Normalizador (III) Fijar la mayor unidad de trabajo n n Algunos signos pueden indicar fin de frase. Pero hay casos ambiguos. Centrémonos en el punto. — Abreviaturas: eu. — Números: 10.423 — Iniciales de nombres: J.L. Serrano — Representación de letras (p. ej, en catalán): col.legi — Ordinales (en euskera): 1. — Abreviaturas con punto y desinencia (en euskera): eu.ko Opción: — Reglas heurísticas para tratar los distintos casos — Aplazar la decisión hasta otros módulos (preproceso) en casos dudosos TELEFÓNICA I+D 7 01 Normalizador (IV) Otras tareas n Primera detección de palabras y signos ortográficos — Los signos ortográficos normalmente van “pegados” a palabras alfabéticas — Desambiguar algunos signos ortográficos con distintos usos. Ejemplos: – – El guión – Elementos parentéticos. Esto -dijo él- no lo esperaba – Palabras compuestas. cardio-respiratorias – División de palabras a final de línea – Indicación de turno en los diálogos. – ¡Hola, Juan ! Comillas simples y dobles (si son de apertura o cierre) TELEFÓNICA I+D 8 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 9 Proso. Bloque de síntesis Preproceso Locutor Inv. unidades 01 Preproceso (I) n Reducir más la variabilidad del texto, transformarlo a una forma “directamente legible”, obtener información útil para etapas posteriores del proceso — — Todo el texto debe quedar expresado como – Palabras alfabéticas (expansión de formas) – Signos ortográficos Las palabras alfabéticas serán – Divididas en sílabas – Acentuadas fonéticamente TELEFÓNICA I+D 01 Preproceso (II) Expansión de formas n Números, abreviaturas, fechas… (todo lo que no aparezca de forma completamente alfabética) n Conflictos y ambigüedades entre formatos de distintas expresiones, o entre expansiones posibles del mismo tipo de expresión n — 3421789 (¿saldo de una cuenta bancaria?, ¿número de teléfono?...) — 10/12 (¿fecha?, ¿expresión aritmética?, ¿disposición legal?...) — C (¿vitamina?, ¿número romano?, ¿tipo o clase?...) — SS (¿Seguridad Social?, ¿guardia personal de Hitler?...) — … Ausencia de normas sobre cómo realizar la expansión — “de” / “del” en la expansión de fechas — Siglas. ¿cuándo deletrear, expandir, leer? CSIC — … TELEFÓNICA I+D 01 Preproceso (III) Expansión de formas n Opciones — Métodos heurísticos para aventurar la interpretación en función del contexto — Proporcionar mecanismos de control para “dirigir” el tratamiento que debe hacerse en distintos casos TELEFÓNICA I+D 01 Preproceso (IV) Expansión de formas. Aspectos multilingües n “42” se leerá como “cuarenta y dos”, “quaranta-dos”, ... n Concordancia de género en los números (p. ej. en español). Se retrasa hasta la categorización n — Localizar el sustantivo al que acompañan (si existe) — Averiguar el género — Modificar la expansión del número Desinencias en euskera (“HBren”, “2009/03/07ko”) TELEFÓNICA I+D 01 Preproceso (V) División en sílabas (silabicación) n n ¿Para qué? — Decidir dónde se localiza la acentuación fonética de las palabras — Influye en la conversión grafema alófono (en algunos casos) — Ayuda para el deletreo de secuencias impronunciables Sistema de reglas basado en la información de la secuencia de letras de una palabra — No recoge fácilmente criterios morfológicos (“trans.at.lán.ti.co” ó “tran.sat.lán.ti.co”) — Se basa en la secuencia de letras, no de sonidos (“e.xa.men” ó [ek.s’a.men]) — No considera fenómenos de contacto entre palabras — Pero es adecuado para las necesidades y es flexible para adaptarse a distintos idiomas TELEFÓNICA I+D 01 Preproceso (VI) Acentuación fonética (I) n n Determina si la palabra es tónica o átona — Si es tónica, determina sobre qué vocal (o vocales) recae el acento — Hay palabras con dos acentos (adverbios acabados en “-mente”) Formas ambiguas en cuanto a su tonicidad — Dependiendo de la categoría gramatical (“sobre”) — Por la relación con otras palabras – Términos de tratamiento (“don”, “santo”, “señor”…) – Ciertos componentes de los números (“doce mil”, “cuarenta y dos”…) – Elementos de locuciones (“boca arriba”…) – Primer componente de los nombres compuestos (“Pedro Pablo”, “José Luis”…) — De momento, se localiza la posición del posible acento — Se resuelve la decisión tónica / átona después de la categorización TELEFÓNICA I+D 01 Preproceso (VI) Acentuación fonética (II) n Existen reglas para determinar la posición del acento basadas en la palabra silabicada (en los idiomas tratados) n Determinación del timbre (abierto / cerrado) de las vocales (catalán, gallego, portugués) n — Vocales tónicas — Mecanismo de rimas y excepciones — En gallego el timbre se determina tras la categorización — La conversión grafema-alófono también puede asignar timbre Falta de normas de acentuación en euskera TELEFÓNICA I+D 01 Ejemplos de normalizador y preproceso ¡Hola amigos! Soy el Conversor Texto-Voz AMIGO. Puedo tratar textos sin restricciones. Por ejemplo, puedo leer fechas, números cardinales, ordinales, abreviaturas, acrónimos y otras expresiones extrañas. Hoy es 16-2-09, o también 16-feb-2009. En el año 201 a.C. hubo una guerra. Esta guerra duró 201 días y 201 noches. (Hago concordar el género entre el número expandido y la palabra a la que se refiere). Enrique VIII tuvo 6 mujeres. La 1ª fue Catalina de Aragón. Alfonso X fue un hombre, e Isabel II es un canal. El coche del Sr. López corre a 261 Km/h y cuesta unos 2.000.000 eu. . El ADN es un término de bioquímica. También intento pronunciar razonablemente las palabras que están mal escritas. Mi coche tiene frnos ABS de última generatrwnmp. También manejo frases interrogativas, y otros contornos entonativos. ¿Me habéis entendido? De todas formas, estoy especialmente pensado para leer textos de noticias, opinión, divulgativos,... y no textos literarios ni lenguaje espontáneo. TELEFÓNICA I+D 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 18 Proso. Bloque de síntesis Categorizador Locutor Inv. unidades 01 Categorizador (I) n Asignar a cada palabra una categoría gramatical n ¿Para qué? — Información de entrada para decidir (más tarde) sobre la inserción de límites prosódicos y su caracterización — Corrección del acento fonético — Corrección del género en la expansión de números — Para la transcripción grafema – alófono (en algunos casos) TELEFÓNICA I+D 01 Categorizador (II) n Se realiza en dos fases sucesivas — — Categorización de una palabra a partir de su forma – Listas – Terminaciones – Raíces – Excepciones Resolución de ambigüedades mediante reglas que tienen en cuenta el contexto en el que aparece la palabra – Hay distintos conjuntos de reglas – Más seguras, aventuradas, desesperadas… – Se aplican en orden de seguridad TELEFÓNICA I+D 01 Categorizador (III) Categorización “intrínseca” n Se han desarrollado herramientas para trabajar con diccionarios n Se conjugan los verbos y se generan formas flexionadas n Se eligen automáticamente listas de terminaciones y excepciones — n n Las más productivas Dificultad: los pronombres enclíticos — P. ej., en gallego hay un elevado número de pronombres enclíticos que además se pueden combinar con muchas formas verbales — Se intentan aislar los enclíticos antes de entrar en el tratamiento de desinencias y raíces Pueden quedar palabras ambiguas a la salida de esta etapa, especialmente NOMB - VERB TELEFÓNICA I+D 01 Categorizador (IV) Categorización por reglas de contexto y otras tareas n Eliminar la ambigüedad de categorías que haya podido quedar de la fase anterior n Se cuenta con un sistema de reglas n — Facilita la creación y modificación del categorizador sin necesidad de modificar las interioridades del software del CTV — Se puede consultar y modificar información de varias palabras Tras la categorización final, se realizan algunas tareas asociadas que pudieron quedar pendientes — Corrección de género en la expansión de números — Asignación de timbre a las vocales (en algunos idiomas) — Corrección del acento fonético TELEFÓNICA I+D 01 Categorizador (V) Ejemplo de categorización por reglas de contexto … con el nuestro curas a todos… n # 12 n INI_REGLA n INI_COND n n n n n 0 ¬ CATEG_FLAGS ¬ PPOS AND 1 ¬ CATEG_TOTAL ¬ VERB ¬ NOMB AND ( 1 ¬ NO_CONCUERDA_NUMERO ¬ 0 n n OR 1 ¬ NO_CONCUERDA_GENERO ¬ 0 n n n INI_ACCI_SI n 0 ¬ CATEG_TOTAL ¬ PPOS n 1 ¬ CATEG_TOTAL ¬ VERB n 2 ¬ IR_A ¬ NO_MAS_REGLAS n n n TELEFÓNICA I+D ) INI_ACCI_NO 0 ¬ IR_A ¬ SIGUIENTE FIN_REGLA 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 24 Proso. Bloque de síntesis Análisis prosódico Locutor Inv. unidades 01 Análisis prosódico (I) Motivación (I) n La inteligibilidad de los sistemas de CTV actuales es satisfactoria n El reto continúa siendo: — Generar habla sintética natural, lo más semejante posible a un locutor humano de referencia n Mejoras en el nivel más “acústico” de los sistemas (técnicas de selección de unidades, técnicas de síntesis de la señal...) n Pero otro elemento fundamental (naturalidad, expresividad...) es el modelado prosódico de los enunciados — Descubrir la estructura de la prosodia — Modelarla lo mejor posible => información que permite obtener mejores resultados de la parte “acústica” TELEFÓNICA I+D 01 Análisis prosódico (II) Motivación (II) n Ejemplo: Piet Mondrian vive en Nueva York desde 1940. Como muchos artistas europeos busca amparo de la guerra que asola el continente en la ciudad que se prepara durante esta década para ser el gran relevo artístico, la nueva vanguardia. n Sin ningún análisis ni modelos prosódicos n Con análisis prosódico, que da información para: — Modelado de duraciones — Generación del contorno de F0 — Selección de unidades TELEFÓNICA I+D 01 Análisis prosódico (III) Objetivos (I) n Localizar y caracterizar las pausas y límites prosódicos dentro de una oración (inducidos por signos ortográficos o no) — — Datos previos – Signos ortográficos. No siempre tienen que generar pausa – Pausas (obligatorias u opcionales) generadas durante el preproceso – Pausas (o ausencia de pausas) indicadas por el usuario Resultados – n Pausas y límites prosódicos generados automáticamente La predicción y caracterización de pausas ayuda, pero no es suficiente — Los locutores humanos emplean recursos expresivos que no tienen por qué ir asociados a pausa — Los locutores humanos realizan variantes prosódicas individuales TELEFÓNICA I+D 01 Análisis prosódico (IV) Objetivos (II) n El análisis prosódico que presentamos pretende: — — n Predecir límites prosódicos de dos tipos – Nivel 1: límites de grupos fónicos (asociados a una pausa) – Nivel 2: límites de frases entonativas (sin pausa asociada) Recoger variación interlocutor Se basa en dos tipos de información: — General, propia del idioma tratado (extraíble del análisis del texto) — Particular, propia de un hablante determinado (extraíble del análisis de sus grabaciones) TELEFÓNICA I+D 01 Análisis prosódico (V) Descripción general Detección y clasificación de límites potenciales Agrupación Etiquetado Características generales del idioma TELEFÓNICA I+D Selección de límites definitivos Nivel 1 Nivel 2 Características particulares de un hablante 01 Análisis prosódico (VI) Detección y clasificación de límites potenciales Piet Mondrian vive en Nueva York desde mil novecientos cuarenta . INI TELEFÓNICA I+D SN_VER SV_SP SP_SP MIL PUNTO 01 Análisis prosódico (VII) Selección de límites definitivos (I) n Primero se seleccionan los límites de nivel 1 (pausas) entre los límites potenciales n Después se seleccionan los límites de nivel 2 entre los límites potenciales restantes n Ambas etapas se realizan de forma análoga, y se apoyan en datos extraídos del análisis del comportamiento del locutor de referencia — Probabilidad de realizar límite de acuerdo a su tipo (etiqueta) – — Probabilidad de hacer límite por número de sílabas transcurridas – — Incentivos / penalizaciones (por la situación del límite respecto a los otros) A medida que transcurren más sílabas aumenta la “necesidad” de realizar un límite Algoritmo de “camino óptimo” (tipo Viterbi) TELEFÓNICA I+D prosódico (VIII) 01 Análisis Selección de límites definitivos (II). Probabilidad por tipo de límite. Entorno de influencia -0.36 +0.35 Piet Mondrian vive en Nueva York desde mil novecientos cuarenta . INI SN_VER SV_SP SP_SP MIL PUNTO 0.00 0.31 0.09 0.23 0.08 1.00 +0.00 +0.00 -0.36 +0.35 -0.43 -0.27 -0.13 +0.11 -0.35 -0.06 +0.00 +0.00 0.00 0.31 0.00 0.22 0.00 1.00 TELEFÓNICA I+D prosódico (IX) 01 Análisis Selección de límites definitivos (II). “Camino óptimo” combinando probabilidad por tipo de límite y probabilidad por sílabas transcurridas INI SN_VER SV_SP SP_SP MIL PUNTO 0.00 0.31 0.00 0.22 0.00 1.00 [1.00] [0.69] [1.00] [0.78] [1.00] [0.00] 3 sil 2 sil 4 sil 3 sil 0.31, Prob(3 sil) 0.00, Prob(2 sil) SÍ NO 0.69, 1.0 – Prob(3 0,00, sil) Prob(5 sil) TELEFÓNICA I+D 01 Análisis prosódico (X) Evaluación (I) n ¿Referencia de corrección? — n n Los límites que hicieron locutores humanos Nos permite comprobar: — Correcta predicción de los límites — Adaptación a las peculiaridades de un hablante 10 oraciones — Suficiente longitud para inducir límites — Estructura compleja y variada — 292 límites potenciales — 2 locutores de referencia (JOSÉ y NACHO) TELEFÓNICA I+D 01 Análisis prosódico (XI) Evaluación (II) CNLI CTOT CPAR NPRE FPRE Total CNLI CTOT CPAR NPRE FPRE Total 197 casos 37 casos 16 casos 33 casos 9 casos 292 casos 219 casos 39 casos 7 casos 16 casos 11 casos 292 casos 67,47 % 12,67 % 5,48 % 11,3 % 3.08 % 100 % 75 % 13,36 % 2,4 % 5,48 % 3.77 % 100 % JOSÉ – Sistema JOSÉ NACHO – Sistema NACHO 88,36% 80,14% N1OR N1NO NIV2 Total JOSÉ 18 casos 15 casos 53 casos 86 casos NACHO 20 casos 13 casos 29 casos 62 casos CTOT 18 casos 8 casos 17 casos 43 casos JOSÉ - NACHO TELEFÓNICA I+D 01 Análisis prosódico (XII) Evaluación (III) n Ejemplo: Piet Mondrian vive en Nueva York desde 1940. n CTV basado en JOSÉ n CTV basado en NACHO n CTV basado en CARMEN SINTAG_SN: Piet_NPRO Mondrian_NPRO _ LIM_SINTAG,N_PAU_SN_VERBO,3,2 SINTAG_SV: vive_VERB _ LIM_SINTAG,N_PAU_SV_SP,2,1 SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO _ LIM_PROSO,N_PAU_SP_SP,9,4 SINTAG_SPN: desde_PREP mil_NUME _ LIM_SINTAG,N_PAU_MIL,3,1 SINTAG_SN: novecientos_NUME cuarenta_NUME . PAU,N_PAU_PUNTO,19,7 FFRASE NACHO TELEFÓNICA I+D SINTAG_SN: Piet_NPRO Mondrian_NPRO _ LIM_PROSO,N_PAU_SN_VERBO,3,2 SINTAG_SV: vive_VERB _ LIM_SINTAG,N_PAU_SV_SP,2,1 SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO _ LIM_PROSO,N_PAU_SP_SP,6,2 SINTAG_SPN: desde_PREP mil_NUME _ LIM_SINTAG,N_PAU_MIL,3,1 SINTAG_SN: novecientos_NUME cuarenta_NUME . PAU,N_PAU_PUNTO,19,7 FFRASE JOSÉ SINTAG_SN: Piet_NPRO Mondrian_NPRO _ LIM_SINTAG,N_PAU_SN_VERBO,3,2 SINTAG_SV: vive_VERB _ LIM_SINTAG,N_PAU_SV_SP,2,1 SINTAG_SPN: en_PREP Nueva_NPRO York_NPRO _ PAU,N_PAU_SP_SP,9,4 SINTAG_SPN: desde_PREP mil_NUME _ LIM_SINTAG,N_PAU_MIL,3,1 SINTAG_SN: novecientos_NUME cuarenta_NUME . PAU,N_PAU_PUNTO,10,3 FFRASE CARMEN 01 Análisis prosódico (XIII) Conclusiones n Se cumplen los objetivos perseguidos — Segmentación prosódica con niveles, más correcta — Personalizable para cada locutor n Buenos resultados “objetivos” en el parecido con locutores de referencia n Efecto beneficioso en la calidad de la voz sintética n — Evaluación subjetiva informal — Voz más natural y expresiva — Menos monótona y predecible en su entonación Posibilidades de mejora y evolución TELEFÓNICA I+D 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 38 Proso. Bloque de síntesis Conversor grafema – alófono Locutor Inv. unidades 01 Conversor grafema – alófono (I) n Obtener la secuencia de alófonos (identidad de los alófonos) n Trabaja sobre grupos fónicos (parte del discurso delimitada por pausas) n Se considera un conjunto común de alófonos para todos los idiomas (incluidos hasta ahora en el sistema) n Alfabeto de alófonos basado en el SAMPA (Speech Assessment Methods Phonetic Alphabet) — 78 símbolos — Ningún idioma emplea todo el repertorio (hay símbolos comunes y otros que sólo se usan en algunos idiomas) TELEFÓNICA I+D 01 Conversor grafema – alófono (II) n Se parte de la secuencia de caracteres, silabicados y acentuados fonéticamente, de las palabras del grupo — Se generan estructuras de datos “de alófono” encadenadas, cada una de las cuales se corresponde inicialmente con un carácter, en las que se rellenará información — Los alófonos se relacionan con sus palabras correspondientes — Se puede consultar información asociada a las palabras (p. ej., la categoría gramatical) P1 A1 TELEFÓNICA I+D A1 P3 P2 A1 A1 A1 A1 A1 A1 A1 01 Conversor grafema – alófono (III) n n La transcripción se realiza fundamentalmente mediante reglas que trabajan sobre las estructuras de alófonos — Específicas para cada idioma — Complementadas con ficheros de listas y excepciones Se incluyó posteriormente un mecanismo basado en listas de palabras con su transcripción asociada (más adecuado para algunos idiomas) — También se emplean reglas para tener en cuenta los efectos del contacto entre palabras en la transcripción — Y porque siempre hay que tener un mecanismo para tratar palabras no contempladas en el diccionario de transcripciones TELEFÓNICA I+D 01 Conversor grafema – alófono (IV) n Las reglas permiten la creación y eliminación de estructuras de datos de alófono n Los procesos fonológicos de asimilación dificultan la aplicación de las reglas de transcripción fonética de manera secuencial n La aplicación de las reglas de transcripción se divide en dos fases — De izquierda a derecha. Cuando no se puede decidir un alófono concreto, se genera un alófono temporal que recoge la ambigüedad acotada — De derecha a izquierda. Va resolviendo las ambigüedades pendientes TELEFÓNICA I+D 01 Conversor grafema – alófono (V) Ejemplos de reglas (I) # c (dígrafo ch) INI_REGLA INI_COND 1 ¬ CAR_SIL ¬ h INI_ACCI_SI 0 ¬ COD_ALO ¬ ALO_tS 1 ¬ IR_A ¬ NO_MAS_REGLAS INI_ACCI_NO 0 ¬ IR_A ¬ SIGUIENTE FIN_REGLA TELEFÓNICA I+D # c (seguida de eéèiíï, o caso normal de c) INI_REGLA INI_COND 1 ¬ CAR_SIL ¬ eéèiíï INI_ACCI_SI 0 ¬ COD_ALO ¬ ALO_T 1 ¬ IR_A ¬ NO_MAS_REGLAS INI_ACCI_NO 0 ¬ COD_ALO ¬ ALO_k 1 ¬ IR_A ¬ NO_MAS_REGLAS FIN_REGLA 01 Conversor grafema – alófono (VI) Ejemplos de reglas (II) # n postnuclear (depende de si el siguiente sonido es bilabial o no), o caso normal de "n" INI_REGLA INI_COND 0 ¬ POSI_SIL ¬ POSTNUCLEAR INI_ACCI_SI 0 ¬ COD_ALO ¬ ALO_m_n 1 ¬ IR_A ¬ NO_MAS_REGLAS INI_ACCI_NO 0 ¬ COD_ALO ¬ ALO_n 1 ¬ IR_A ¬ NO_MAS_REGLAS FIN_REGLA TELEFÓNICA I+D # ALO_m_n (delante de sonido bilabial, o en cualquier otro caso) INI_REGLA INI_COND 1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_p OR 1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_B OR 1 ¬ FONE_REF ¬ COD_ALO ¬ ALO_m INI_ACCI_SI 0 ¬ COD_ALO ¬ ALO_m -1 ¬ IR_A ¬ NO_MAS_REGLAS INI_ACCI_NO 0 ¬ COD_ALO ¬ ALO_n -1 ¬ IR_A ¬ NO_MAS_REGLAS FIN_REGLA 01 Conversor grafema – alófono (VII) n Problemas: algunos aspectos multilingües — Transcripciones fonéticas con reglas ajenas al idioma – — “González” puede pronunciarse como [GonT’aleT], [Gunz’al@z], ... Aparición de palabras de otro idioma dentro de un texto escrito en un idioma base n El problema es general, y afecta a todas las etapas del proceso lingüístico. Pero se manifiesta de forma evidente en la transcripción n Modo de funcionamiento “políglota” — El CTV permite que un “locutor” trabaje con tablas lingüísticas de un idioma distinto a su idioma nativo, y que estas puedan cambiar a lo largo del texto — La síntesis se realiza con los sonidos propios del “locutor” TELEFÓNICA I+D 01 Conversor grafema – alófono (VIII) Ejemplos de Funcionamiento “políglota” n Ejemplo 1 \mf1\ \idi=LOC\ She was born on Wednesday the 16th of July. \idi=ENG-GBR\ She was born on Wednesday the 16th of July. n Ejemplo 2 \mf1\ \idi=LOC\ Las vacaciones de Mr. Bean. Las vacaciones de Mr. \idi=eng-GBR\ Bean \idi=LOC\. n Hay procedimientos automáticos para decidir el idioma en el que está escrito un texto (y los cambios de idioma dentro de un texto) TELEFÓNICA I+D 01 Estructura interna del bloque de proceso lingüístico Bloque de proceso lingüístico Datos internos Norm. Prep. Tab. ling. fijas Categ. Anál. prosó. Tab. ling. usu. Conv. graf. alóf. Mod. proso. TELEFÓNICA I+D 47 Proso. Bloque de síntesis Generador de parámetros prosódicos Locutor Inv. unidades 01 Generador de parámetros prosódicos (I) n n La información prosódica refleja elementos — Lingüísticos (pausas, acentos, interrogación, exclamación…) — No lingüísticos (características del locutor, estado de ánimo…) El generador de parámetros prosódicos del CTV sólo aborda los elementos que se pueden derivar — Del tratamiento del texto — Del análisis de las grabaciones de un locutor humano de referencia, en una situación concreta — (Es la misma situación que vimos en el módulo de análisis prosódico) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (II) n En las módulos anteriores del proceso lingüístico hemos obtenido una transcripción enriquecida — n Cuál es la secuencia de sonidos que se pretende generar, e informaciones asociadas a esos sonidos – División en sílabas – Acentuación fonética – Pausas y límites prosódicos (situación y caracterización) – ... Ahora queda concretar cómo generar esa secuencia de sonidos — Con la ayuda de datos extraídos de la voz de un locutor de referencia TELEFÓNICA I+D 01 Generador de parámetros prosódicos (III) n Inicialmente, era común que los CTV obtuvieran datos relativos a la prosodia a partir de estudios de lingüística general n Esos estudios planteaban promedios de las realizaciones de un conjunto de hablantes — Su interés era obtener características generales del lenguaje hablado n El mayor problema es que un sistema que intenta hablar como todos los hablantes, termina por hablar como ninguno de ellos n La estrategia actual más extendida para la generación de prosodia de los CTV es hacer estudios particularizados para un hablante de referencia TELEFÓNICA I+D 01 Generador de parámetros prosódicos (IV) n n n Prosodia ó parámetros prosódicos — La prosodia es algo general e intangible (psicolingüístico) — Un CTV lo concreta en unos parámetros determinados (números) Los parámetros de mayor importancia — Intensidad (energía) de la señal (énfasis) — Duración de los sonidos (velocidad de elocución, ritmo) — Contorno de frecuencia fundamental (F0, melodía) La generación de parámetros prosódicos es la responsable, en buena medida, de la naturalidad de la voz generada TELEFÓNICA I+D 01 Generador de parámetros prosódicos (V) Energía n Es el parámetro menos considerado en los sistemas CTV n No se suele hacer un modelado particular del mismo n Es innegable la variación de energía de la señal a lo largo del discurso, especialmente en los inicios y finales de grupos fónicos n En los CTV basados en concatenación de unidades acústicas, se tiene en cuenta indirectamente (contexto de la selección) n El acento de intensidad es una mala denominación, de acuerdo a algunos experimentos — Ejemplo: depósito, deposito, depositó TELEFÓNICA I+D 01 Generador de parámetros prosódicos (VI) Duración (I) n Intervalo de tiempo que dura cada sonido (también los silencios) n Es un parámetro tanto segmental como suprasegmental n — Resulta un valor numérico (nº de milisegundos) asociado a cada sonido — Depende de factores más allá de cada sonido particular Se construyen unos modelos estadísticos multiplicativos, ajustados para la voz de un locutor — A partir de las grabaciones, segmentadas y etiquetadas — El segmentado y etiquetado se hace de forma semiautomática TELEFÓNICA I+D 01 Generador de parámetros prosódicos (VII) Duración (II). Segmentado y etiquetado semiautomáticos TELEFÓNICA I+D 01 Generador de parámetros prosódicos (VIII) Duración (III) n A partir del corpus de voz, segmentado y etiquetado, se caracterizan todos los alófonos — Identidad (combinada con el acento) — Duración — Clase del alófono — Contexto (dos posiciones anteriores y dos posteriores) – — Clase de los contextos, combinada con acento Longitud, y distancia desde el principio y final del grupo fónico (nº de sílabas) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (IX) Duración (IV) n A partir del corpus de voz, segmentado y etiquetado, se caracterizan todos los alófonos (cont.) — Longitud, y distancia desde el principio y final de la palabra (nº de sílabas) — Distancia desde el principio y final de la frase entonativa (nº de sílabas) — Ídem respecto a límites sintácticos — Si el alófono se encuentra entre vocales (o no) — Si la palabra es tónica (o no) — La modalidad oracional — … TELEFÓNICA I+D 01 Generador de parámetros prosódicos (X) Duración (V) n Hay sonidos más susceptibles de modificar su duración que otros n Los sonidos se agrupan en clases, y se ajusta un modelo estadístico para cada clase — Vocales — Nasales — Oclusivas sordas — Laterales — Oclusivas sonoras — Laterales trabadas — Fricativas sordas — Vibrantes — Fricativas sonoras — Vibrantes trabadas TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XI) Duración (VI) n El ajuste de cada modelo se realiza mediante análisis de varianza sobre el logaritmo de las duraciones n Dentro de cada modelo, se obtiene — Un valor de duración base para cada alófono de la clase — Unos valores (para cada nivel de los factores) que modifican la duración base (para aumentarla o disminuirla) — Sólo se consideran los factores estadísticamente significativos (los que mejor explican la variabilidad de los datos) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XII) Duración (VII) n Ejemplo: Esto es una prueba — Vocal [e] tónica: 111,91 mseg — Distancia al final de la PAL (1+): 0,98 — Clase – 2 (silencio): 1,14 — Palabra tónica (SÍ): 0,99 — Clase – 1 (silencio): 1,12 — Distancia al inicio del LS (0): 0,99 — Clase + 1 (fricativa sorda): 0,93 — Distancia al final del LS (1): 1,00 — Clase + 2 (oclusiva sorda): 0,93 — Distancia al inicio de la FE (0): 1,03 — Entre vocales (NO): 0,98 — Distancia al final de la FE (3+): 0,95 — Distancia al inicio del GF (0): 1,00 — Modalidad oracional (AFIRM): 0,98 — Longitud del GF (5+): 1,01 — Distancia al final del GF (3+): 1,00 — Distancia al inicio de la PAL (0): 1,01 — Longitud de la PAL (2); 1,00 TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XIII) Contorno de F0 (I) n El procedimiento empleado en el CTV de TI+D ha cambiado a lo largo del tiempo. n Otros sistemas pueden tener procedimientos muy distintos n Una aproximación habitual (usada anteriormente en el CTV de TI+D) consiste en: — Escoger una serie de contornos de F0 prototípicos de la base de datos de voz del locutor de referencia, que componen un inventario de contornos de F0 — Se escoge un contorno para cada tipo de grupo fónico (etiqueta de pausa, número de tónicas, posición del grupo fónico dentro de la oración, número de átonas iniciales, número de átonas finales…) — El contorno queda representado por un conjunto de valores de F0 correspondientes a puntos del mismo (inicio, medio y final de vocales tónicas, punto medio de las átonas anteriores, inicio del grupo, final del grupo…) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XIV) Contorno de F0 (II) n Una aproximación habitual (usada anteriormente en el CTV de TI+D) consiste en (cont.): — Cuando hay que generar el contorno correspondiente a un texto, se hace para cada grupo fónico aisladamente — Se caracteriza el grupo fónico (etiqueta de pausa, número de tónicas, número de átonas iniciales, número de átonas finales, posición dentro de la oración…) — Se busca el contorno prototípico disponible más semejante – — La realidad de los textos siempre supera en variedad a lo que tengamos en nuestra base de datos de contornos prototípicos Se trasladan los puntos del prototipo a los puntos del contorno objetivo, y se interpolan valores si es necesario TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XV) Contorno de F0 (III) n n Ventajas de esta aproximación habitual — Buen nivel de calidad, sobre todo por la continuidad y suavidad — Permite recoger características de un hablante Desventajas de esta aproximación habitual — Falta de variedad y naturalidad – Pocos factores para clasificar los tipos de grupos fónicos – Número de contornos limitado (uno por tipo ) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XVI) Contorno de F0 (IV) n Otra aproximación habitual (no usada por el CTV de TI+D) — En los sistemas basados en concatenación de unidades acústicas seleccionadas con técnicas basadas en corpus — Se confía en que la secuencia de unidades seleccionadas tendrá un contorno de F0 adecuado (por los criterios de selección empleados), resultado de concatenar el F0 original de las unidades — No se quiere modificar el F0 de las unidades seleccionadas para no degradar su calidad acústica — No se genera explícitamente un contorno de F0, ni se impone como objetivo para la síntesis TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XVII) Contorno de F0 (V) n Ventajas de la aproximación de no generar contorno de F0 — n Desventajas — n La calidad acústica es muy buena segmentalmente Es habitual percibir discontinuidades prosódicas (subidas y bajadas de tono inapropiadas) El procedimiento más reciente de generación de contornos de F0 del CTV de TI+D intenta conjugar las ventajas de ambas aproximaciones — Generación de contornos de F0 basada en corpus TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XVIII) Contorno de F0 (VI) n Idea: En lugar de contornos de grupos fónicos completos, se manejan unidades elementales que los constituyen n Podemos construir objetos distintos de los originales TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XIX) Contorno de F0 (VII) n n n Objetos : siguen siendo los grupos fónicos (GF) Piezas (unidades entonativas elementales): los grupos acentuales (GA) — Conjunto de sílabas comprendido entre el inicio de una sílaba tónica (o límite de GF o FE), y el inicio de la siguiente sílaba tónica (o límite de GF o FE) — [La casa de] [Pedro] [es pe-] [-queña] — Se pueden obtener a partir del análisis lingüístico del texto de entrada — El límite entre GA’s facilita su concatenación Nuestro corpus de contornos de F0 ya no será un conjunto de GF s (objetos), sino un conjunto de GA s (piezas) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XX) Contorno de F0 (VIII) n n Tampoco se elegirá un representante prototípico para cada clase — Se crea un inventario de todos los GA s contenidos en el corpus de voz de referencia — Aunque los tenemos que clasificar, cada uno de ellos puede tener otras características únicas Factores de clasificación de los GA s — Nº de átonas tras la tónica inicial — — Nº de tónicas consecutivas (antes y después) Alófonos (o clases) que componen el grupo — Modalidad oracional del enunciado — Presencia (o no) de LS interior o final — — Presencia (o no) de límite de FE o GF al final Posición en la frase del GF en el que se encuentra el GA — … TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XXI) Contorno de F0 (IX) n La construcción de contornos, para cada GF, consiste en: — Ajustarse al objetivo que viene dado por la secuencia de GA s cuyas características (especificación lingüística) se han obtenido mediante el análisis del texto de entrada — Seleccionar la mejor secuencia de los GA s disponibles Suavizado , tras la selección — n La mejor secuencia è la de menor coste o distorsión — Coste de unidad: diferencia entre las características del GA que se quiere sintetizar (objetivo) y las de un GA del inventario disponible — Coste de concatenación: discontinuidad de características en la unión entre dos GA s de los disponibles en el inventario TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XXII) Contorno de F0 (X) n Coste de unidad. Suma ponderada de subcostes p C t (ti , ui ) = ∑ ω tj C tj (ti , ui ) j =1 n ti: GA objetivo (especificación lingüística) n ui: GA de la base de datos prosódica n P. ej.: j = 1 se corresponde con el subcoste por número de átonas después de la tónica inicial. Mide lo parecidos o distintos que son los GA s ti y ui, en cuanto al nº de átonas después de la tónica inicial. — Si coinciden, será 0. Si no coinciden, será mayor que cero (y tanto mayor cuanto más diferentes sean en este aspecto) TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XXIII) Contorno de F0 (XI) n Coste de concatenación. Suma ponderada de subcostes c q C (ui −1 , ui ) = ∑ ω cjC cj (ui −1 , ui ) j =1 n ui-1: GA de la base de datos prosódica, anterior a ui n ui: GA de la base de datos prosódica, posterior a ui-1 n P. ej.: — j = 1 refleja el hecho de que los GA s sean contiguos o no, en el corpus de grabación – Si son contiguos, lo normal es considerar este subcoste y los demás como nulos — j = 2 mide el subcoste por diferencia de F0 entre los GA s. — j = 3 mide la discontinuidad por distancia al límite prosódico o pausa anterior — … TELEFÓNICA I+D 01 Generador de parámetros prosódicos (XXIV) Contorno de F0 (XII) n Coste total acumulado mínimo (búsqueda del camino óptimo) Ct(t1, u1) GA 1 GA 2 Cc(u1, u2) TELEFÓNICA I+D Ct(t3, u3) Ct(t2, u2) Ct(t4, u4) GA 3 Cc(u2, u3) Ct(t5, u5) GA 5 GA 4 Cc(u3, u4) Cc(u4, u5) 01 Generador de parámetros prosódicos (XXV) Contorno de F0 (XIII) n La prosodia resulta decisiva para que el habla sintética suene agradable y natural. Si no se generara una prosodia adecuada, ¿cómo sonaría mi voz? Mi voz sonaría monótona, metálica y robotizada. n Sin modelos de prosodia (duraciones constantes y F0 plano) n Con modelos de prosodia adaptados al locutor humano de referencia TELEFÓNICA I+D 01 Ilustración de las tareas del proceso lingüístico (I) n Texto original El coche del Sr. López corre a 261 Km/h y cuesta unos 2.000.000 eu. . n Detección de final de oración. Primera separación en palabras \mrf=0;68\ \mrp=13;3\ \mrp=31;3\ \mrp=49;4\ TELEFÓNICA I+D \mrp=0;2\ El \mrp=3;5\ coche \mrp=9;3\ del Sr. \mrp=17;5\ López \mrp=23;5\ corre \mrp=29;1\ a 261 \mrp=35;4\ Km/h \mrp=40;1\ y \mrp=42;6\ cuesta unos \mrp=54;7\ 2.000.000 \mrp=62;3\ eu. .¶ 01 Ilustración de las tareas del proceso lingüístico (II) n Expansión e información relativa a palabras el el ## 1 0 ARTI IND_NOMB G_MASCULINO N_SINGULAR 2 SINTAG_SN coche có.che ## 2 1 NOMB G_MASCULINO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SN del del ## 1 0 CNTR IND_NOMB G_MASCULINO N_SINGULAR 3 SINTAG_SPN señor se.ñór ## 2 1 NPRO G_MASCULINO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SPN lópez ló.pez ## 2 1 NPRO G_AMBIGUO N_SINGULAR 5 F_ESTIQUIBIT SINTAG_SPN corre có.rre ## 2 1 VERB 1 SINTAG_SV a a ## 1 0 PREP 1 SINTAG_SPN doscientos dos.cién.tos ## 3 1 NUME G_MAS_APOC 0 F_ESTIQUIBIT SINTAG_SPN sesenta se.sen.ta ## 3 0 NUME 0 F_ESTIQUIBIT SINTAG_SPN y i ## 1 0 NUME 0 F_ESTIQUIBIT SINTAG_SPN un ún ## 1 1 NUME G_MAS_APOC 0 F_ESTIQUIBIT SINTAG_SPN kilómetros ki.ló.me.tros ## 4 1 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN por por ## 1 0 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN hora hó.ra ## 2 1 NOMB 3 F_LOCUCION F_ESTIQUIBIT SINTAG_SPN y i ## 1 0 COOR 1 SINTAG_OTRO cuesta cués.ta ## 2 1 VERB G_FEMENINO N_SINGULAR 6 SINTAG_SV unos u.nos ## 2 0 ARTI G_MASCULINO N_PLURAL 4 SINTAG_SN dos dós ## 1 1 NUME G_AMBIGUO 0 F_ESTIQUIBIT SINTAG_SN millones mi.lló.nes ## 3 1 NOMB G_MASCULINO N_PLURAL 0 F_ESTIQUIBIT SINTAG_SN de de ## 1 0 PREP 2 SINTAG_SPN euros éu.ros ## 2 1 NOMB G_MASCULINO N_PLURAL 3 F_ESTIQUIBIT SINTAG_SPN CONTROL PAU N_PAU_PARRA .¶ 12 4 AFIRM FFRASE TELEFÓNICA I+D 01 Ilustración de las tareas del proceso lingüístico (III) n Inserción de pausas, límites prosódicos y límites de sintagma SINTAG_SN: El_ARTI coche_NOMB _ LIM_SINTAG,N_PAU_SN_DE,3,1 SINTAG_SPN: del_CNTR Señor_NPRO López_NPRO _ PAU,N_PAU_VERBO,8,3 SINTAG_SV: corre_VERB _ LIM_SINTAG,N_PAU_SV_A,2,1 SINTAG_SPN: a_PREP doscientos_NUME sesenta_NUME y_NUME un_NUME kilómetros_NOMB por_NOMB hora_NOMB _ PAU,N_PAU_OR_COOR_COP,18,5 SINTAG_OTRO: y_COOR _ LIM_SINTAG,N_PAU_CONJ_ANTEP,1,0 SINTAG_SV: cuesta_VERB _ LIM_SINTAG,N_PAU_VERBO_SN,2,1 SINTAG_SN: unos_ARTI dos_NUME millones_NOMB _ LIM_SINTAG,N_PAU_SN_DE,6,2 SINTAG_SPN: de_PREP euros_NOMB .¶ PAU,N_PAU_PARRA,12,4 FFRASE TELEFÓNICA I+D 01 Ilustración de las tareas del proceso lingüístico (IV) n Información sobre grupos fónicos y acentuales \mrf=0;68\ \mrp=17;5\ \mrp=35;4\ \mrp=54;7\ \mrp=0;2\ El \mrp=3;5\ coche \mrp=9;3\ del \mrp=13;3\ Sr. López \mrp=23;5\ corre \mrp=29;1\ a \mrp=31;3\ 261 Km/h \mrp=40;1\ y \mrp=42;6\ cuesta \mrp=49;4\ unos 2.000.000 \mrp=62;3\ eu. .¶ El coche del Señor López \pau=N_PAU_VERBO\ corre a doscientos sesenta y un kilómetros por hora \pau=N_PAU_OR_COOR_COP\ y cuesta unos dos millones de euros .¶ 38 3 kk 0 1 3 8 3 N_PAU_VERBO AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO a.ta.a.at.ta. 2 3 18 5 N_PAU_OR_COOR_COP AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO ta.a.ata.aaa.a.t.ataa.a.ta. 3 3 12 4 N_PAU_PARRA AFIRM NEUTRO INT_VIEJA NEUTRA NINGUNO a.ta.aa.t.ata.a.ta. TELEFÓNICA I+D 01 Ilustración de las tareas del proceso lingüístico (V) n Transcripción grafema – alófono e l · k 'o tS e · D e l · s e J 'o r · l 'o p e T · si k 'o rr e · a · D o s T i 'e n t o s · s e s e n t a · i · 'u n · k i l 'o m e t r o s · p o r · 'o r a · si i · k u 'e s t a · u n o s · D 'o s · m i L 'o n e s · D e · 'e u r o s · si TELEFÓNICA I+D 01 Ilustración de las tareas del proceso lingüístico (VI) n Asignación de parámetros prosódicos e 0 l 0 # ARTI k 0 o 1 tS 0 e 0 # NOMB D 0 e 0 l 0 # CNTR s 0 e 0 J 0 o 1 r 0 # NPRO l 0 o 1 p 0 e 0 TELEFÓNICA I+D 0 1 0 1 56 73 1 79 58 116 64 2 49 50 54 1 89 48 100 62 84 2 56 68 89 100 191 0 169 219 0 0 182 0 0 223 0 235 173 0 0 228 0 222 0 0 0 0 0 0 0 0 0 0 0 143 170 0 0 154 0 170 0 0 143 0 162 159 151 205 201 220 0 207 0 228 0 199 0 224 T 0 # NPRO si 0 k 0 o 1 rr 0 e 0 # VERB a 0 # PREP D 0 o 0 s 0 T 0 i 0 e 1 n 0 t 0 o 0 s 0 # NUME s 0 ... 1 1 0 1 78 2 283 107 72 80 69 2 64 1 51 59 61 65 46 44 74 47 61 56 3 49 0 0 0 N_PAU_VERBO 189 0 207 228 0 0 0 239 0 0 236 0 213 0 0 0 0 0 0 156 167 0 0 0 0 0 0 173 0 0 0 176 0 0 195 0 0 162 0 0 0 186 201 0 172 0 0 0 0 0 0 TELEFÓNICA I+D