Taxonomía Del Aprendizaje

rutsequea22 de Noviembre de 2011

1.582 Palabras (7 Páginas)927 Visitas

Página 1 de 7

1.1.7.1

Taxonomía del aprendizaje

El proceso de aprender una forma se puede llevar a cabo mediante instrucción directa por parte del "maestro", es decir mediante transferencia sin más del procedimiento para reconocerla (p.e: mediante programación, introducción de reglas). Ello se conoce como aprendizaje deductivo. Por el contrario, en el aprendizaje inductivo, el sistema debe llevar a cabo algún proceso de abstracción (generar formas) por sí mismo. Ello hace imprescindible la utilización de ejemplos, que el sistema analiza y clasifica sin ayuda (aprendizaje no supervisado) o con ayuda del maestro (aprendizaje supervisado) (figura 1.7).

En el caso del aprendizaje supervisado activo o informante, el sistema estudia los ejemplos y sugiere otros nuevos; el maestro le dice cómo clasificarlos. Si el aprendizaje es pasivo o textual el sistema no genera nuevos ejemplos y la labor del maestro se limita a clasificar los ejemplos iniciales. Los ejemplos en el aprendizaje supervisado pueden ser sólo positivos (son de esa forma) o positivos y negativos (no son de esa forma).

En general en el aprendizaje inductivo las únicas abstracciones que se le piden al sistema se refieren a la generación de nuevas formas. El resto de la información (representación más adecuada, tipo de estructura, método de identificación apropiado, etc...) se le proporciona de manera deductiva. Nada impide sin embargo que el sistema sea capaz de abstraer (generar hipótesis) en este campo también, aunque usualmente no es necesario (ni fácil).

Adquisición, parametrización y etiquetado en RAH

En reconocimiento del habla, los objetos son señales sonoras (ondas de presión en el aire) que representan palabras o frases. Es pues necesario utilizar una etapa de representación, que transforme estas señales en algo más conveniente para su utilización por el módulo de interpretación. En la actualidad, la etapa de representación de objetos en reconocimiento del habla está típicamente compuesta por tres subniveles: el preproceso, la parametrización y el etiquetado (que puede considerarse un nivel superior de parametrización) (figura 1.8).

* El primer subnivel, el del preproceso está formado por el conjunto mecánico - eléctrico - electrónico constituído por el micrófono (que transforma la onda sonora de presión en onda eléctrica), el filtro (que suprime componentes indeseables de la onda eléctrica) y el conversor analógico/digital (AD) (que transforma la onda eléctrica en una serie de medidas de amplitud).

* El segundo subnivel, el de parametrización, tiene como objetivo típico el de reducir la enorme cantidad de información proveniente del nivel anterior (~120000 bits/sg.) en algo más manejable (~5000 bits/sg.) .

La parametrización efectúa usualmente un cambio de espacio de representación, pasando de un espacio de una dimensión (tiempo) a otro de dos dimensiones (típicamente tiempo/frecuencia), siendo por lo tanto una transformación de tipo estrictamente matemático, que transforma una serie de medidas de amplitud en una serie de vectores de parámetros [Casacuberta,87].

El tipo de parametrización varía de un sistema a otro, los más utilizados son: el banco de filtros, los coeficientes de predicción lineal, y los coeficientes cepstrales [Makhoul,75] [Rabiner,78] [Benedí,89]. El autor, en un trabajo anterior, propuso y estudió para este fin la los valores de la función de autocorrelación de la señal muestreada a un bit [Rulot,85].

* El tercer subnivel, el etiquetado o cuantificación vectorial, no siempre se halla presente, pero es muy utilizado en los sistemas que utilizan la aproximación estructural en RAH, puesto que permite una reducción aún mayor de la cantidad de información (~300 bits/sg.) y proporciona una representación extremadamente adecuada para aplicar los métodos estructurales (gramáticas, Modelos de markov,...).

El etiquetado se lleva a cabo normalmente mediante algún tipo de análisis estadístico que permite clasificar los vectores de parámetros del nivel anterior en una serie reducida de clases, cuyos nombres o símbolos son los que se utilizan en lugar del vector original [Duda,73] [Gray,84].

Figura 1.8 Adquisición, parametrización y etiquetado en RAH.

1.2.2 Estado del Arte

Actualmente existen sistemas capaces de reconocer con porcentajes de aciertos superiores al 98% vocabularios sencillos (palabras bien distintas fonéticamente) y pequeños (del orden del centenar de palabras) de palabras aisladas, todo ello en entornos independientes del locutor y con locutores de ambos sexos. Estos resultados se obtienen incluso en ambientes ruidosos [Rabiner,87] [Loeb,87] [Watanabe,88], pero aunque son suficientes para determinadas aplicaciones puntuales, no permiten una comunicación hombre-máquina realmente fiable. En el estado actual de la técnica, conseguir más del 99% de aciertos es posible únicamente imponiendo condiciones más restrictivas, por ejemplo suprimiendo el ruido (este trabajo) o restringiéndose a locutores de un único sexo [Lippmann,87].

La mayoría de estos sistemas se basan en métodos globales, aunque la tendencia actual es utilizar un modelo estructural proveniente de la teoría de la información: los HMM ("Hidden Markov Models": Modelos Ocultos de Markov) [Rabiner,83]. Empleando

...

Descargar como (para miembros actualizados) txt (11 Kb)

Leer 6 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com