El sistema de conversión de texto a voz

camiloripiTrabajo2 de Febrero de 2015

1.393 Palabras (6 Páginas)257 Visitas

Página 1 de 6

Como parte del proceso de análisis y desarrollo de la aplicación se decidió investigar acerca de la conversion de texto a habla, tambien conocida como sintesis de voz, esta abarca todas las tecnicas necesarias para transformar un texto en un mensaje hablado. Hay que tener en cuenta que la voz generada, aunque cada vez mas natural, todavia no alcanza la calidad de una voz humana normal.

Los sistemas de conversion de texto a voz pueden dividirse en dos modulos fundamentales. El procesador linguistico determina, a partir de un texto, que sonidos se han de pronunciar y como se han de pronunciar. El generador de señal produce una señal de voz a partir de esa descripcion.

Para determinar que sonidos se han de pronunciar se siguen varios procesos: determinar la estructura del texto (listas, parrafos, tablas, etc.), normalizar los caracteres escritos de forma no explicita (numeros, abreviaturas, acronimos, expresiones de fechas, horas, codigos, etc.), definir los lugares en los que se realizaran pausas en la lectura y transcribir foneticamente cada palabra. En cuanto al como se han de pronunciar, consiste en determinar la duracion de cada sonido, el contorno de la frecuencia fundamental y la curva de intensidad. Estas características es lo que se denomina prosodia que influye entre otros aspectos en el ritmo del habla, la entonación, el acento y el énfasis. En la generacion de voz sintetica, la calidad de los modelos prosodicos es lo que determina, en gran medida, la naturalidad del habla.

El segundo modulo fundamental es el que a partir de la descripcion linguistica del primer modulo genera la voz. Basicamente hay tres formas de generar voz. La primera es lo que se conoce como sintesis articulatoria que genera la voz a partir de un modelo matematico y detallado del aparato fonador humano, incluyendo los pulmones, articuladores, etc. Este tipo de sintesis todavia no se ha estudiado con profundidad. Actualmente produce voz de baja calidad y con un corte computacional elevado.

La segunda forma de generar voz es lo que se denomina sintesis por reglas y, en particular, sintesis por formantes. En este tipo de sintesis se diseña un modelo de generacion en el que cada sonido viene determinado por unos pocos parametros. Por ejemplo, en el sintetizador de formantes, los parametros incluyen la caracterizacion de los distintos formantes (frecuencias centrales, ancho de banda, amplitud), informacion sobre la velocidad de vibracion de las cuerdas glotales, sobre el pulso glotal, etc. Para obtener voz de calidad es necesario modelar adecuadamente no solo cada sonido, sino la evolucion de cada parametro en las transiciones entre sonidos. Con la desventaja de generar una voz poco natural, aunque por otro lado, requieren poca memoria para almacenar las reglas, por lo que son una alternativa muy valida para sistemas de sintesis que se deban instalar a traves de internet o que residan en dispositivos con poca memoria (moviles, PDA’s, etc).

Finalmente, la última forma de generar voz es mediante la concatenación de voz grabada previamente. Los algoritmos que realizan la concatenacion han de suavizar las transiciones para paliar las discontinuidades entre los sonidos. El algoritmo de sintesis busca en la voz grabada los segmentos mas largos y mas acordes al modelo prosodicos y esos son los segmentos de voz que se concatenan. Son sistemas de excelente calidad, poco flexibles, y con grandes exigencias de memoria para almacenar la voz humana.

http://books.google.hn/books?id=uwM52hK0HC8C&pg=PA105&dq=texto+a+voz&hl=en&sa=X&ei=CsQKUae9O4TM9QSqmIHIBQ&ved=0CFwQ6AEwCA#v=onepage&q=texto%20a%20voz&f=false

Si ha hablado recientemente a la compañia telefonica para obtener ayuda sobre un numero, es probable que haya encontrado reconocimiento de voz y sintesis de voz.

La sintesis de voz es el proceso mediante el cual las maquinas, como las computadoras, producen un sonido que se asemeja a las palabras habladas. El reconocimiento de voz se refiere a la capacidad de una maquina para comprender las palabras habladas.

Una operadora automatizada le pide el nombre de la persona cuyo numero telefonico quiere buscar. El nombre que expresa es captado por una unidad de reconocimiento de voz, la cual intenta deletrear el nombre y despues buscarlo en una base de datos. Si existe un nombre y un numero telefonico, una voz sintetizada le proporciona el numero.

El uso de un análisis espectrográfico digital para identificar voces humanas es una parte en evolucion de las actividades para hacer cumplir la ley y la seguridad en el hogar. Las muestras de voz no solo se pueden analizar para confirmar la identidad, sino que la identificacion de una huella vocal en tiempo real sirve para relacionar las voces con grabaciones conocidas.

¿Como funciona la síntesis de voz?

Una unidad de sonido basica, como “ve” o “gas” se denomina fonema. Casi todos los sintetizadores de voz reunen los fonemas para formar palabras. Por ejemplo,

...

Descargar como (para miembros actualizados) txt (10 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com