ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Reconocimiento de aves amazónicas con técnicas de aprendizaje profundo.


Enviado por   •  5 de Julio de 2016  •  Trabajos  •  2.302 Palabras (10 Páginas)  •  282 Visitas

Página 1 de 10

Reconocimiento de aves amazónicas con técnicas de aprendizaje profundo

Síntesis

Esta tesis realiza el reconocimiento de especies de aves amazónicas, mediante el canto de estas.

El objetivo del presente trabajo es demostrar que las herramientas usadas para reconocimiento de caracteres y voz, se pueden utilizar para el reconocimiento de aves en bioacústica.

Para ello se realiza la clasificación de aves amazónicas, por medio de su canto, para llevar a cabo este objetivo se utilizaron redes neuronales del tipo “aprendizaje profundo” o también llamadas “deep learning”.

La base de datos utilizada tiene 9688 grabaciones, y cada grabación tiene una etiqueta, la etiqueta tiene un código, este código representa la especie a la que pertenece dicha grabación.

En la base de datos se tiene 501 especies diferentes de aves.

Para realizar la tarea de clasificación, el proceso se divide en dos partes, la primera parte es pre procesado y la extracción de características de las grabaciones y la segunda parte es la clasificación de especies usando redes neuronales.

La primera parte nos arroja un conjunto de matrices 240 x 1, cada matriz con una etiqueta (código de especie respectiva).

El conjunto de matrices se divide en dos conjuntos, el conjunto de entrenamiento y el de prueba, ya que el modelo de redes neuronales necesita un conjunto para examinar el aprendizaje.

La red neuronal utilizada es una red del tipo DBN, la cual tiene una estructura de 240 neuronas de entrada, dos capas ocultas de 350 neuronas y una capa de salida de 501 neuronas.

El mejor resultado arrojado, después del entrenamiento es de 64 % de aciertos con el conjunto de prueba, (el conjunto de entrenamiento tiene un 99% de acierto).

Palabras clave: clasificación de aves, deep learning, tensorflow, reconocimiento de aves, segmentación automática de señal de audio.

 

Introducción

Las redes neuronales son un campo antiguo (década de los 80), el cual en los últimos años tuvo grandes avances y mejoras, gracias a grandes bases de datos y la evolución de las tarjetas gráficas GPU, también  gracias a muevas tool box como theano, caffe y tensorflow, se pueden entrenar redes neuronales con grandes cantidades de datos en computadoras personales.

Las redes neuronales son usadas en muchos campos de la ciencia, como reconocimiento de caracteres, reconocimiento de imágenes, escritura a mano, procesado de señales y control automático, entre muchas más áreas.

Un campo muy explorado es el reconocimiento de voz por medio redes neuronales, pero un campo poco desarrollado es el de bioacústica con redes neuronales, el cual usa redes neuronales para el reconocimiento de especies animales, favoreciendo el estudio de las mimas.

Objetivo

 

El objetivo del presente trabajo es demostrar que las redes neuronales, pueden ser utilizadas para el reconocimiento de aves en bioacústica.

El presente trabajo utiliza grabaciones de aves de la región amazónica, para entrenar una red neuronal, la cual posteriormente clasificara aves por medio de grabaciones no “vistas”.

 

Este proceso es similar al reconocimiento de voz, rostros o sonidos, mediante redes neuronales.

Proceso

Para realizar el reconocimiento de especies de aves mediantes redes neuronales, el trabajo se divide en dos etapas, la primera es el procesamiento y segmentación de las señales y la segunda etapa es el entrenamiento de las redes neuronales.

[pic 1]

Procesamiento de la señal

Para el procesamiento de las señales, es necesario, filtrar el de ruido, eliminar silencios o sonidos ajenos a las aves, segmentar las grabaciones y extraer las características mediante el algoritmo MFCC.

 [pic 2]

Filtrado de señales

Se tiene una base de datos con 9688 grabaciones de audio en formato mp3 y 16 bits, con frecuencia de muestreo de 44100 muestras por segundo (calidad CD).

El proceso de filtrado comienza con un filtro pasa bajos, posteriormente se aplica un filtro pasa banda, después se calcula la frecuencia fundamental (mediante fft) para aplicar un filtro pasa banda alrededor de frecuencia fundamental y por último se realiza se diezma la frecuencia de muestreo a 11025 muestras por segundo.

[pic 3] 

A cada grabación se aplica un filtro pasa bajos con las siguientes características:

Tipo de filtro

frecuencia de paso

frecuencia de paro

Rizo máximo en banda de paso

Atenuación máxima en banda de paro

Butterwoed pasa bajos

5000 Hz

6000Hz

1 DB

50 Db

[pic 4]

Respuesta en frecuencia del filtro pasa bajos

 Posteriormente se aplica un filtro pasa banda con las siguientes características:

                        

Tipo de filtro

frecuencia de paso

frecuencia de paro

Rizo máximo en banda de paso

Atenuación máxima en banda de paro

Butterwoed pasa banda

300 - 5000 Hz

100 - 10000Hz

5 DB

50 Db

[pic 5]

Respuesta en frecuencia del filtro pasa banda

Posteriormente se calcula la frecuencia fundamental, con la transformada rápida de Fourier y se aplica un filtro pasa banda con las siguientes características.

Tipo de filtro

frecuencia de paso

frecuencia de paro

Rizo máximo en banda de paso

Atenuación máxima en banda de paro

Butterwoed pasa banda

(Fo*0.5)Hz – (Fo*1.5)Hz

100 - 10000Hz

5 DB

35 Db

[pic 6]

Respuesta en frecuencia del filtro pasa banda y Fo dinámico (Fo = 2437)

...

Descargar como (para miembros actualizados)  txt (15.1 Kb)   pdf (716.4 Kb)   docx (928 Kb)  
Leer 9 páginas más »
Disponible sólo en Clubensayos.com