ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Sistema Clasificador de Vocales


Enviado por   •  2 de Marzo de 2019  •  Documentos de Investigación  •  1.907 Palabras (8 Páginas)  •  185 Visitas

Página 1 de 8

Sistema Clasificador de Vocales


Canul Tuz Raúl Eduardo
Mérida, Yucatan
eduardoct120@gmail.com



Abstract— El uso de sistemas con la capacidad de recibir ordenes usando la voz es una tendencia que ha ido en aumento en los . El objetivo de este documento es presentar los resultados obtenidos del desarrollo de un sistema clasificador de vocales usando conceptos relacionados con el procesamiento de imágenes y señales. Para el desarrollo del sistema, se usaron los descriptos de razón de ejes y excentricidad para la parte de imágenes, y la frecuencia y picos altos para la parte de señales.(Abstract)

Keywords—Redes Neuronales, Descriptores, Clasificación

  1. Introducción

El uso de reconocimiento de voz como solución para el desarrollo de sistemas, ha ido en aumento gracias a las ventajas que este ofrece [1]. Uno de los principales motivos, es gracias a su aplicación en diversos campos, tales como la medicina. Un ejemplo de esto son el desarrollo de Sillas de ruedas controladas por voz [2].

En este trabajo se presenta los resultados que se obtuvieron de realizar un sistema clasificador de vocales, el cual mediante comandos de voz se le dice al sistema que identifique esa vocal en una imagen proporcionada por el usuario. La aplicación consiste en una interfaz gráfica (GUI) del paquete App Designer de Matlab.

  1. Metodología

  1. Recolección de imágenes y audios para formar la base de datos de entrenamiento y prueba

Para formar la base de datos de entrenamiento y prueba, se procedió a recolectar audios de personas diciendo cada una de las 5 vocales. Se recolectaron 25 audios por vocal, de los cuales 15 de esos audios correspondían a voces de mujeres y 10 a voces de hombre, esto con el fin de tener una diversidad en la base de datos. Dando como resultado un total 125 audios para entrenar al sistema. Posteriormente se procedió a grabar 10 audios de hombre y 10 de mujeres para usarlos en las pruebas del sistema.

Para la parte de imágenes se realizaron planillas de cada una de las vocales en tres tipos de letra: regular, bold e italic. En cada una de las planillas se emplearon tres tipografías diferentes: New Times Row, Arial y Helvetica tal como se aprecia en la Fig.1. [pic 1]

Fig. 1 .- Plantilla de vocales A de tipo de letra regular.

Esto con el fin de abarcar el mayor numero de casos posibles. En cada una de las planillas se contaron con 13 vocales sin rotar, 13 vocales con una rotación de 50º, 13 vocales con rotación de -50º, 13 vocales con rotación de 90º y 13 vocales con una rotación de -90º.  Teniendo al final un total de 15 imágenes de entrenamiento con un total 780 vocales para la parte de entrenamiento. Para las imágenes de prueba se escogieron 5 imágenes de tipo letrero tal como se muestra en la Fig 2.[pic 2]

 

Fig. 2 .-Imagen de prueba

  1. Elección de descriptores de señales

Posteriormente se procedió a elegir los descriptores de señales a utilizar para realizar la clasificación, para ello se hizo apoyo del espacio de características, después de probar con descriptores se obtuvo que una de las mejores combinaciones son la frecuencia y los picos altos de la señal tales como se muestra en la Fig. 3[pic 3]

Fig. 3 .- Espacio de características usando la combinación frecuencia-picos altos.

La frecuencia es una magnitud que mide el número de repeticiones por unidad de tiempo de cualquier fenómeno o suceso periódico [3] y su formula es como lo muestra en (1).

  1. F = 1 / T

  1. Elección de descriptores de imágenes

Tal como en el caso de las señales, se saco el espacio de características como se muestra en la Fig. 4, para poder identificar que combinación de descriptores lograra una sedación de las vocales, después de probar combinaciones, se  logro observar que la combinación de los descriptores razón de ejes, el cual se el resultado de dividir el eje mayor entre el eje menor como se muestra en (2) y la excentricidad, y se define como la relación de la distancia entre los focos de la elipse y su longitud de eje principal [4] tal como se muestra en (3).[pic 4][pic 5]

Fig. 4 .- Espacio de características con los descriptores de Razón de ejes y excentricidad.

  1.  AxisR = Minor Axis / Major Axis
  2.  E = c / a

  1. Entrenamiento

Para el entrenamiento no se siguió una metodología especial para realizar entrenamientos. Para realizar la clasificación de los descriptores de señales e imágenes se utilizaron mapas auto-organizados, el cual es un tipo de red neuronal de entrenamiento no supervisado para generar una representación de las muestras de entrada colocadas en un mapa [5].

Primero se procedió a obtener los dos descriptores para señales en cada uno de los audios de la base de entrenamiento, posteriormente se metieron todos los datos a la red neuronal para entrenarla. Del resultado obtenido del entrenamiento, tal como se puede observar en la Fig. 5 no hay mucha diferencia entre algunas de las neuronas, lo que causa que algunos elementos los clasifique en grupos a los que no pertenece.

[pic 6][pic 7]

Fig. 5 .- Red neuronal obtenida del entrenamiento de las señales.

Posteriormente se procedió a sacar los descriptores razón de ejes y excentricidad en cada una de las imágenes de la base de datos, una vez que se obtuvieron esos dos descriptores en cada una de las imágenes de la base de datos de entrenamiento, se procedió a entrenar la red neuronal correspondiente a imágenes, dando como resultado la red neuronal que se muestra en la Fig. 6.[pic 8]

Fig. 6 .- Red neuronal obtenida del entrenamiento de imágenes.

Como se puede observar, existe una mayor diferencia entre las neuronas a comparación de la red neuronal de señales, pero aún se muestra que en algunas neuronas no hay diferencia significativa, lo que causaría confusión a la hora de clasificar ciertas vocales.

Cabe mencionar que se decidió emplear mapas auto-organizados como algoritmo de clasificación por el apoyo visual que este ofrece en Matlab a comparación del k-means, ademas de obtener una mejor clasificación [6].

  1. Pruebas

Una vez que ambas redes neuronales fueron entrenadas, se procedió a realizar pruebas con las imágenes y audios de la base de datos de prueba.

...

Descargar como (para miembros actualizados)  txt (11.6 Kb)   pdf (386.3 Kb)   docx (1.3 Mb)  
Leer 7 páginas más »
Disponible sólo en Clubensayos.com