Reconocimiento de aves amazónicas con técnicas de aprendizaje profundo.

Rodrigo_gantierTrabajo5 de Julio de 2016

2.302 Palabras (10 Páginas)375 Visitas

Página 1 de 10

Reconocimiento de aves amazónicas con técnicas de aprendizaje profundo

Síntesis

Esta tesis realiza el reconocimiento de especies de aves amazónicas, mediante el canto de estas.

El objetivo del presente trabajo es demostrar que las herramientas usadas para reconocimiento de caracteres y voz, se pueden utilizar para el reconocimiento de aves en bioacústica.

Para ello se realiza la clasificación de aves amazónicas, por medio de su canto, para llevar a cabo este objetivo se utilizaron redes neuronales del tipo “aprendizaje profundo” o también llamadas “deep learning”.

La base de datos utilizada tiene 9688 grabaciones, y cada grabación tiene una etiqueta, la etiqueta tiene un código, este código representa la especie a la que pertenece dicha grabación.

En la base de datos se tiene 501 especies diferentes de aves.

Para realizar la tarea de clasificación, el proceso se divide en dos partes, la primera parte es pre procesado y la extracción de características de las grabaciones y la segunda parte es la clasificación de especies usando redes neuronales.

La primera parte nos arroja un conjunto de matrices 240 x 1, cada matriz con una etiqueta (código de especie respectiva).

El conjunto de matrices se divide en dos conjuntos, el conjunto de entrenamiento y el de prueba, ya que el modelo de redes neuronales necesita un conjunto para examinar el aprendizaje.

La red neuronal utilizada es una red del tipo DBN, la cual tiene una estructura de 240 neuronas de entrada, dos capas ocultas de 350 neuronas y una capa de salida de 501 neuronas.

El mejor resultado arrojado, después del entrenamiento es de 64 % de aciertos con el conjunto de prueba, (el conjunto de entrenamiento tiene un 99% de acierto).

Palabras clave: clasificación de aves, deep learning, tensorflow, reconocimiento de aves, segmentación automática de señal de audio.

Introducción

Las redes neuronales son un campo antiguo (década de los 80), el cual en los últimos años tuvo grandes avances y mejoras, gracias a grandes bases de datos y la evolución de las tarjetas gráficas GPU, también gracias a muevas tool box como theano, caffe y tensorflow, se pueden entrenar redes neuronales con grandes cantidades de datos en computadoras personales.

Las redes neuronales son usadas en muchos campos de la ciencia, como reconocimiento de caracteres, reconocimiento de imágenes, escritura a mano, procesado de señales y control automático, entre muchas más áreas.

Un campo muy explorado es el reconocimiento de voz por medio redes neuronales, pero un campo poco desarrollado es el de bioacústica con redes neuronales, el cual usa redes neuronales para el reconocimiento de especies animales, favoreciendo el estudio de las mimas.

Objetivo

El objetivo del presente trabajo es demostrar que las redes neuronales, pueden ser utilizadas para el reconocimiento de aves en bioacústica.

El presente trabajo utiliza grabaciones de aves de la región amazónica, para entrenar una red neuronal, la cual posteriormente clasificara aves por medio de grabaciones no “vistas”.

Este proceso es similar al reconocimiento de voz, rostros o sonidos, mediante redes neuronales.

Proceso

Para realizar el reconocimiento de especies de aves mediantes redes neuronales, el trabajo se divide en dos etapas, la primera es el procesamiento y segmentación de las señales y la segunda etapa es el entrenamiento de las redes neuronales.

[pic 1]

Procesamiento de la señal

Para el procesamiento de las señales, es necesario, filtrar el de ruido, eliminar silencios o sonidos ajenos a las aves, segmentar las grabaciones y extraer las características mediante el algoritmo MFCC.

[pic 2]

Filtrado de señales

Se tiene una base de datos con 9688 grabaciones de audio en formato mp3 y 16 bits, con frecuencia de muestreo de 44100 muestras por segundo (calidad CD).

El proceso de filtrado comienza con un filtro pasa bajos, posteriormente se aplica un filtro pasa banda, después se calcula la frecuencia fundamental (mediante fft) para aplicar un filtro pasa banda alrededor de frecuencia fundamental y por último se realiza se diezma la frecuencia de muestreo a 11025 muestras por segundo.

[pic 3]

A cada grabación se aplica un filtro pasa bajos con las siguientes características:

Tipo de filtro	frecuencia de paso	frecuencia de paro	Rizo máximo en banda de paso	Atenuación máxima en banda de paro
Butterwoed pasa bajos	5000 Hz	6000Hz	1 DB	50 Db

[pic 4]

Respuesta en frecuencia del filtro pasa bajos

Posteriormente se aplica un filtro pasa banda con las siguientes características:

Tipo de filtro	frecuencia de paso	frecuencia de paro	Rizo máximo en banda de paso	Atenuación máxima en banda de paro
Butterwoed pasa banda	300 - 5000 Hz	100 - 10000Hz	5 DB	50 Db

[pic 5]

Respuesta en frecuencia del filtro pasa banda

Posteriormente se calcula la frecuencia fundamental, con la transformada rápida de Fourier y se aplica un filtro pasa banda con las siguientes características.

Tipo de filtro	frecuencia de paso	frecuencia de paro	Rizo máximo en banda de paso	Atenuación máxima en banda de paro
Butterwoed pasa banda	(Fo0.5)Hz – (Fo1.5)Hz	100 - 10000Hz	5 DB	35 Db

[pic 6]

Respuesta en frecuencia del filtro pasa banda y Fo dinámico (Fo = 2437)

Por último se realiza el diezmo de la frecuencia de muestreo, dividiendo esta entre 4, esto nos da señales con una frecuencia máxima de 5512,5 Hz.

Eliminación de silencios

Para eliminar los silencios de las señales, en primer lugar se calcula el RMS de cada señal, después se utiliza el 50% de este valor como parámetro, valores menores a este se consideran silencios y por lo cual serán eliminados de las señales de audio.

Para detectar zonas de silencios, se utilizó una ventana de 10ms, que muestrea la señal y calcula el RMS de la muestra, si el valor RMS de esta venta no supera el parámetro de silencio establecido, se suprime.

Segmentar la señal

Cada señal de audio tiene partes que contienen sonidos producidos por aves y otras partes contienen ruido y sonidos ajenos a aves, por lo cual, una señal de audio está compuesta por intervalos con útiles e intervalos sin información, por lo que para segmentar las señales se toman, las partes relevantes, convirtiéndolas en señales individuales de audio.

A continuación se muestra graficas de estos resultados, comparando una señal original, convertida en nuevas señales.

[pic 7]

Señal original

[pic 8]

[pic 9]

Señal original

[pic 10]

Señal segmentada (señal con 6 segmentos)

Como se ve en las gráficas, se extraen las partes de la señal que tienen información relevante y estas se convierten en nuevas señales individuales.

Extracción de características

La extracción de las señales, se realiza para facilitar y hacer más eficiente (computacionalmente) el proceso de aprendizaje para las redes neuronales.

En la etapa anterior, se segmentó las señales de audio, estas señales conservan la etiqueta (especie a la cual corresponde la grabación) de la grabación original, es decir cada pequeña señal, contiene la misma etiqueta que tenía la grabación original.

...

Descargar como (para miembros actualizados) txt (15 Kb) pdf (716 Kb) docx (928 Kb)

Leer 9 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com