Síntesis de habla
La síntesis de habla es la producción artificial del habla. Un sistema computarizado que es usado con este propósito es llamado computadora de habla o sintetizador de voz y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.El habla sintetizada puede ser creada a través de la concatenación de fragmentos de habla grabados que son almacenados en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos y difonos permite un mayor rango sonidos pero carece de claridad. Para usos específicos, el tamaño del almacenamiento de palabras completas u oraciones permite un mayor calidad de audio. De manera alternativa, un sintetizador puede incorporar un modelo de tracto vocal u otras características de la voz humana para recrear completamente una voz ""sintética"".La calidad del sintetizador de voz es evaluado por la similaridad que tenga con la voz humana y su habilidad para ser entendido de manera clara. Un programa inteligible convierte el texto al habla permite que las personas con discapacidades visuales o dificultades para leer pueden escuchar textos en una computadora. Varios sistemas operativos de computadora tienen sintetizadores de voz integrados desde principios de los noventas.Un sistema o ""motor"" de texto a habla (TTS) esta compuesto de dos partes: un front-end y back-end. El front-end tiene dos tareas principales. Primero, convertir el texto con caracteres, números, símbolos y abreviaciones en su equivalente en palabras escritas. Este proceso es llamado como ""normalización del texto"", ""pre-procesamiento"" o tokenización, Posteriormente el front-end asigna una transcripción fonética a cada palabra, marca y divide el texto en unidades prosódicas, como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas a las palabras es llamado conversion ""texto a fonema"" o ""grafema a fonema"". La información de transcripciones fonéticas o prosódicas preparan la información de la representación simbólica lingüística que es el resultado del front-end. El back-end, comúnmente referido como el ""sintetizador"", convierte la representación simbólica lingüística en sonido. En algunos sistemas, esta parte incluye el computo de ""intención prosódica"" (tono del perfil, duración de los fonemas), el cual es implementado en la voz de salida.