CARACTERIZACIÓN DE FONEMAS A TRAVES DE LA TECNICA DE COEFICIENTES CEPSTRALES EN ESCALA DE MEL

Yolocuauhtli Salazar MuñózDocumentos de Investigación14 de Octubre de 2020

2.022 Palabras (9 Páginas)196 Visitas

Página 1 de 9

Dra. Yolocuauhtli Salazar Muñoz^[1], Fátima Rodríguez Talavera^[2], Edgar M. Venegas López ^[3], M.C: Pedro Luis Lerma García^[4], M.C. Refugio Muñoz Rios^[5]

Resumen— Los trastornos del habla y del lenguaje son patologías frecuentes en la infancia. Las alteraciones que se dan con mayor frecuencia son las dislalias, la dislexia y la tartamudez. El objetivo del presente estudio es analizar las métricas de la señal producida por infantes al pronunciar diferentes fonemas. Para ello se registró a 18 infantes en edad preescolar pronunciando 6 fonemas. Una vez obtenida la señal, se realiza el procesamiento de la señal, determinando la energía de la señal, la FFT y los Coeficientes Cepstrales en Escala de Mel (MFCC). De esta forma se analizan las diferencias entre los distintos fonemas.

Palabras clave— Trastorno del habla, Coeficientes Cepstrales, Procesamiento Digital de Señales.

Introducción

Los trastornos del habla y del lenguaje son patologías frecuentes en la infancia, que ocupan a padres y profesionales de la salud; tienen una prevalencia cercana al 5-8% en prescolares y un 4% en escolares; en México con una prevalencia del 42% y su mayor importancia radica en el hecho de que altera la capacidad de comunicación del niño con sus padres y tutores. (Calderón Cango, Quizhpi Arichabala, & Medina Valenzuela, 2012).

Las alteraciones del lenguaje oral que se dan con mayor frecuencia en los niños son las dislalias, la dislexia y la tartamudez (que es, probablemente, la disfluencia más seria). Todas ellas se consideran trastornos funcionales que tienen su origen en defectos de audición, retraso mental, afecciones orgánicas como la parálisis cerebral, una lesión en las cuerdas vocales o el paladar hendido, e incluso problemas emocionales. (Rello, 2018)

El reconocimiento de voz es una tecnología biométrica utilizada para identificar la voz de una persona en particular, debido a que la voz humana desempeña un papel muy importante como parámetro métrico. El algoritmo de Coeficientes de Cepstral de Frecuencia de Mel (MFCC) generalmente se prefiere como una técnica de extracción de características para realizar el reconocimiento de voz, ya que implica la generación de coeficientes a partir de la voz del usuario que son únicos para cada usuario (Chakraborty, Talele, & Upadhya, 2014).

La exactitud de un Sistema de Reconocimiento de Voz, entre otros factores. depende de la eficiencia en el instante de detectar el inicio y final de la pronunciación de la palabra, más aún, cuando se encuentra en presencia de ruido de fondo considerable. Peralta & Cotrina muestran la detección de extremos a través de lo que denominan Algoritmo de Coper que incorpora ventajas con relación a los algoritmos utilizados usualmente.(Peralta-Reyes & Cotrina-Atencio, 2014).

La interacción hombre-máquina para todas estas áreas requiere la existencia de algoritmos de análisis de voz, reconocimiento de voz y verificación de voz que sean sólidos con respecto a las fuentes de variabilidad de voz que son características de esta población de hablantes. Los sistemas de reconocimiento de voz automático ASR y subpuntos PV configurados a partir de las expresiones de voz tomadas del dominio de voz deteriorado pueden proporcionar un rendimiento similar de acuerdo con los expertos, para respaldar las aplicaciones CASLT presentadas. (Saz et al., 2009)

Este proyecto tiene como propósito analizar las métricas a través de los MFCC de la señal producida por infantes al pronunciar los fonemas BO, SA, DU, CA, RE, RI.

Descripción del Método

Etapas del procesamiento digital de señales

Para el análisis de la señal digital, se implementa un algoritmo matemático que permita la obtención de los coeficientes cepstrales, a través de varias etapas que se describen a continuación. Figura 1.

[pic 1]

Figura 1. Etapas de procesamiento de la señal para los fonemas BO y SA.

Se realiza la grabación de voz de 18 infantes en edad preescolar, durante la pronunciación de los fonemas BO y SA, bajo la supervisión de un terapeuta de lenguaje.

Tramas

Esta etapa realiza la detección de inicio y fin de una palabra almacenada previamente en un buffer estático, entregando a la etapa posterior la palabra delimitada con su longitud exacta.

El Bloque de Adquisición ira entregando tramas al Detector de Extremos que en un principio las almacenara en un buffer de tamaño fijo para su posterior análisis y delimitación. La detección de extremos se basa en el parámetro COPER, que combina el análisis de la evolución y la energía de cruces por cero de las tramas y de esta manera permite evaluar la evolución de la señal con un solo parámetro.

Se calcula el parámetro COPER de cada trama almacenada en el buffer.

[pic 2]

A partir del análisis del parámetro COPER se determina un Umbral de inicio (Cui) para una correcta delimitación del inicio de la palabra. Cuando un número determinado de tramas supera el Umbral de inicio, se empieza a almacenar dichas tramas en un buffer dinámico PalabraDelimitada[] hasta que es detectado el final de pronunciación.(Reig Albiñana, 2015).

Se detectará el final de la palabra una vez hayan transcurrido N tramas que no superen el Umbral Final (Cuf), en cuyo instante se dejaran de almacenar las tramas y quedara la palabra delimitada en un buffer estático (PalabraDelimitada[]).

Enventanado

Se analizan tramas de 20ms ahí es donde el análisis muestra información entre los diferentes tipos de sonido. Se almacenará cada 20ms la primera es M la segunda 2-M y la traslapa N así hasta que recorra toda la palabra delimitada. Para minimizar las discontinuidades al inicio y final se utiliza la ventana de Hamming.

Como la voz se atenúa, se introduce un filtro para incrementar las frecuencias, se diseña a través de un filtro pasa alto.

FFT, Cepstrum

En esta parte la señal muestreada se convierte al dominio de la frecuencia utilizando la transformada discreta de Fourier. Se calculan los N espectros de frecuencia correspondientes a estas N señales de dominio de tiempo. Por último, los espectros N se sintetizan en un solo espectro de frecuencia.

El cepstrum es la transformada inversa del logaritmo del módulo de la transformada de Fourier.

[pic 3]

Donde:

[pic 4]

Para realizar el reconocimiento de las palabras pronunciadas bastaría conocer solamente las características del tracto vocal ya que la información proveniente de las cuerdas vocales solo proporciona información acerca del locutor. Precisamente este análisis cepstral se utiliza para la separación de estos dos parámetros. (Peralta-Reyes & Cotrina-Atencio, 2014).

Coeficientes Cepstrales en Escala de Mel (MFCC)

Existen varios métodos para la extracción de patrones característicos de la señal de voz con el fin de hacer más ligero el cálculo computacional. Coeficientes Cepstrales en Escala de Mel (MFCC), basadas en criterios perceptuales(Peralta-Reyes & Cotrina-Atencio, 2014)

El cálculo de los MFCC, responde a la siguiente expresión:

[pic 5]

Donde:

k : es la banda de frecuencias.

j : es la trama en curso.

E(j,k) : es la energía de la banda k en la trama j.

NF : es el número de bandas o filtros.

P : es el número total de coeficientes MFCC (10, en nuestro caso).

...

Descargar como (para miembros actualizados) txt (13 Kb) pdf (305 Kb) docx (656 Kb)

Leer 8 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com