Aprendizaje Por Reforzamiento

anamirabal10 de Febrero de 2012

1.351 Palabras (6 Páginas)958 Visitas

Página 1 de 6

Aprendizaje por reforzamiento

Define la manera de comportarse de un agente a un tiempo dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicología se conoce como reglas estimulo-respuesta o asociaciones. Este elemento es central ya que por si sólo es suficiente para determinar el comportamiento.

Función de reforzamiento

Define la meta en un problema de RL, al mapear cada percepción del agente (estado del ambiente o par estado, acción) a un número (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la función define qué eventos son buenos y malos para el agente, por lo que la función es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la política, por ej., si una acción elegida por la política recibe una recompensa muy baja, la política debe cambiarse para elegir una acción diferente en esa situación. Una función de reforzamiento por lo general es estocástica. Es un fortalecimiento del ser humano para poder comprender de la mejor manera cualquier lectura.

Función de evaluación

Si aprendizaje es “Cualquier cambio relativamente permanente en la conducta que ocurre como resultado de la experiencia”...

Reforzamiento es el acto de acentuar una conducta incrementando la probabilidad de que se repita.

Mientras que la función de reforzamiento indica lo que es bueno en lo inmediato, la función de evaluación lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, el val también sirve mucho leer poquito por or representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podría conducir. La mayoría de los algoritmos RL operan estimando la función de valuación, aunque los algoritmos genéticos, la programación genética, y el recocido simulado, pueden resolver problemas de RL sin considerar valores, buscando directamente en el espacio de políticas. Observen que en éstos métodos evolutivos operan bajo un concepto diferente de interacción dado por el valor de adaptación.

Modelo del ambiente

Los modelos mimetizan el medio ambiente, dados un estado y una acción, el modelo debería predecir el estado resultante y la recompensa próximos. Los modelos se utilizan para planear, es decir, decidir sobre un curso de acción que involucra situaciones futuras, antes de que estas se presenten. La incorporación de modelos y planificación en RL es un desarrollo reciente, RL clásico puede verse como la anti-planificación. Ahora es claro que los métodos RL están estrechamente relacionados a los métodos de programación dinámica. Así los algoritmos RL pueden verse en un continuo entre las estrategias ensayo-error y la planificación deliberativa. Ovidio de León Crisóstomo dice en su investigación que los tipos de aprendizajes es cuando el niño adquiere conocimientos diferentes y los descubre en diferentes ambientes.

Reforzamiento del comportamiento deseable:

Reforzador

Este hecho nos sugiere que puede establecerse una distinción entre reforzadores primarios y secundarios. Un reforzador primario satisface alguna necesidad biológica y funciona de modo natural, independientemente a la experiencia previa de una persona. El alimento para alguien que siente hambre, el calor para quien tiene frío y el alivio para el que experimenta dolor deben clasificarse como reforzadores primarios. En contraste, un reforzador secundario es un estimulo que funciona como reforzador en consecuencia de su asociación con un reforzador primario. Por ejemplo, sabemos que el dinero es valioso debido a que hemos aprendido que nos permite obtener otros objetos deseables, incluyendo reforzadores primarios como la comida y el abrigo. En este sentido el dinero se convierte como reforzador secundario.

Reforzadores positivos, negativos y castigo:

Los reforzadores se pueden concebir en función de recompensas.

Reforzador positivo: el salario que reciben los trabajadores al término de la semana, por ejemplo, aumenta la probabilidad de que regresen a sus trabajos la semana siguiente.

Reforzador negativo: si la radio tiene

...

Descargar como (para miembros actualizados) txt (9 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com