Condicionamiento Operante

soun19 de Mayo de 2013

3.403 Palabras (14 Páginas)436 Visitas

Página 1 de 14

• Tipos básicos de condicionamiento operante

Los cuatro tipos básicos de condicionamiento operante se producen como resultado del entrenamiento de un organismo mediante el establecimiento de una contingencia entre una R. operante y uno de los cuatro consecuentes básicos.

• Reforzamiento positivo: Administración de un evento siguiendo contingentemente a una R dada, que tiene como efecto un aumento en la fuerza, la probabilidad o la tasa de ésta. Normalmente se trata de un estímulo apetitivo o de la posibilidad de realizar una conducta de alta probabilidad..

Ejemplo: cada vez que una rata presiona una palanca (R), se le administra como consecuente un trozo de comida; se puede observar que la rata cada vez presiona más frecuentemente la palanca

El tipo de CO que resulta de aplicar sistemáticamente reforzadores positivos a una respuesta se conoce comoentrenamiento de recompensa.

• Reforzamiento negativo: Omisión o interrupción de un suceso (típicamente, un E aversivo) de forma contingente con la emisión de una R, a resultas de lo cual se produce un aumento en la fuerza, la probabilidad o la tasa de ésta.

Ejemplo: cada vez que una rata se desplaza al lado opuesto de la jaula (R), como consecuente se interrumpe una descarga eléctrica que se le estaba aplicando; se puede observar que la rata cada vez cambia de lado más frecuentemente.

La aplicación sistemática de reforzadores negativos a una R se conoce como entrenamiento de evitación oentrenamiento de escape, dependiendo de si el organismo puede mediante la R llegar a “prevenir” la aparición del E. aversivo (evitación) o sólo puede interrumpirlo, acortando su duración, una vez administrado (escape)

• Castigo positivo: Administración de un suceso (en el caso típico, un E aversivo) siguiendo contingentemente a una R dada, que tiene como efecto una disminución en la fuerza, la probabilidad o la tasa de ésta.

Ejemplo: cada vez que una oveja entra en contacto con la cerca en la que está encerrada (R), como consecuente se le administra una descarga eléctrica; se puede observar que la oveja cada vez toca menos frecuentemente la cerca.

La aplicación sistemática de castigos positivos a una R se conoce como entrenamiento de castigo.

Castigo negativo: Omisión o interrupción de un estímulo de forma contingente con la emisión de una R, a resultas de lo cual se produce una disminución en la fuerza, la probabilidad o la tasa de ésta.

Ejemplo: cada vez que una rata que está recibiendo pequeños fragmentos de comida cada 15 segundos toca la pared del fondo de la jaula, se le elimina la siguiente administración de comida que correspondiera; se puede observar que cada vez se acerca menos a dicha pared.

La aplicación sistemática de castigos negativos a una R se conoce como entrenamiento de omisión.

REFORZADOR : Tiende a aumentar la fuerza de la R a la que sigue CASTIGO :

Tiende a disminuir la fuerza de la R a la que sigue

POSITIVO : Se administra un estímulo Reforzamiento positivo

Entrenamiento de recompensa.

Ej. : Administrar comida tras la respuesta.

R aumenta.

Se usa una recompensa (estímulo o suceso apetitivo). Castigo positivo

Entrenamiento de castigo.

Ej. : Administrar descarga tras la respuesta.

R disminuye.

Se usa un estímulo aversivo

NEGATIVO :Se omite un estímulo Reforzamiento negativo

Entrenamiento de escape

Ej. : Detener una descarga eléctrica tras la respuesta

Entrenamiento de evitación

Ej. : Si se da R, omitir una descarga que se hubiera dado en caso contrario.

R aumenta.

Se usa un estímulo aversivo Castigo negativo

Entrenamiento de omisión

Ej. : Se deja de dar comida al organismo cada vez que da R.

• Disminuye

Se usa estímulo apetitivo

• Entrenamiento de recompensa: Principales factores

• Magnitud del reforzador

Aumentos en la cantidad de la recompensa mejoran la actuación.

Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como reforzador agua azucarada se mejora el nivel de ejecución respecto al uso de agua pura. Caso extremo: los experimentos de Olds con estimulación directa de los centros cerebrales del placer.

• Demora de la recompensa

Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en el sentido de que a mayor demora, menos RC. A partir de un determinado punto, el organismo no aprende.

Demoras superiores a unos 30 sg. parecen no producir ya CO, aunque hay variaciones entre especies y sistemas de respuesta. Por ejemplo: con ratas, laberintos y comida, la demora tolerada por los organismos para lograr un nivel alto de aprendizaje se sitúa entre 2 sg. y 5 sg.

Sin embargo, en la mayoría de las situaciones se consiguen incluso niveles altos de aprendizaje con demoras mayores, debido a la acción de claves estimulares (e.g., el 'clic' de la palanca) que actúan como reforzadores secundarios o reforzadores condicionados (ver más adelante).

• Impulso

Es un constructo teórico que se refiere al estado motivacional del organismo respecto a aquello que vamos a usar como recompensa.

Se mide en términos de porcentaje del peso perdido, nº de horas de privación de agua, etc.

El resultado general es que la actuación es tanto mejor cuanto mayor es el impulso (más peso perdido, más horas de privación, etc.), salvo en casos extremos.

• Programas de refuerzo

Hasta ahora hemos considerado sólo el caso en que la realización por parte del organismo de la conducta elegida vasiempre seguida de la consecuencia establecida (la probabilidad del estímulo reforzador dada la respuesta operante es igual a 1). Esto (que constituye una contingencia total) es lo que se denomina refuerzo continuo

El refuerzo contínuo no es la única (ni la más eficaz) alternativa para el aprendizaje por CO; por el contrario, constituye sólo un caso muy particular. Los casos en que la relación respuesta-consecuente no es completa (es decir, no cualquier emisión de la respuesta va seguida del consecuente) se denominan situaciones de refuerzo parcial (. Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales (ajenas al laboratorio o la clínica).

Un programa de refuerzo es una regla que especifica exactamente bajo qué condiciones la emisión de la respuesta va a ser seguida del reforzador.

Los programas de reforzamiento son, según muchos autores, una de las variables independientes más poderosas de la psicología, en el sentido de que conociendo el programa concreto administrado a un organismo, se pueden predecir confiablemente muchas cosas respecto a la conducta adquirida.

• Programas básicos.

Los programas básicos (también llamados "simples") pueden ser

De razón: se administra el reforzador sólo tras la emisión de un número determinado de respuestas.

De intervalo: se administra el reforzador a la primera respuesta que se produce una vez transcurrido un intervalo de tiempo establecido, contado desde el último reforzador.

A su vez, la razón o el intervalo pueden ser

Fijos : con el mismo valor a lo largo de toda la adquisición

Variables: con distintos valores a lo largo de la sesión, que oscilan en torno a un promedio.

Esto da lugar a los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n, donde n es el valor de la razón o el intervalo (o su promedio, si es un programa variable).

En la aplicación de un programa de reforzamiento a un organismo que no ha sido objeto de aprendizaje previo, normalmente se comienza por un proceso de moldeado, luego se sigue con reforzamiento contínuo y finalmente se va progresivamente aumentando las exigencias hasta llegar al programa deseado.

• Razón fija

Se administra un estímulo reforzador por cada n respuestas. En un programa RF-10, cada décima emisión de la R va seguida de una recompensa.

Este programa produce una tasa de respuesta típicamente alta y estable. Si la razón es alta, a menudo el organismo se toma pausas inmediatamente a continuación de la administración del reforzador.

• Razón variable

Los programas de razón variable son especialmente importantes, ya que (dentro de los simples) son los que más se aproximan a las situaciones naturales.

Un programa RV especifica que el reforzador se administra tras un número de respuestas que varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se puede administrar tras 7, 3, 11, 2, 3, 5... respuestas, de forma que el promedio total sea 5 respuestas a lo largo de la sesión.

Los programas RV generan la tasa de respuestas más alta (lo que se manifiesta en el registro acumulativo por una gran pendiente) y constante (no aparecen pausas, excepto en el caso de razones muy grandes).

• Intervalo fijo

En los programas IF se administra el reforzador a la primera emisión de la respuesta una vez transcurrido un intervalo desde la anterior emisión del reforzador. Es decir, cada reforzador inicia un intervalo en el cual las Rs no son recompensadas.

El organismo aprende a anticipar cuándo

...

Descargar como (para miembros actualizados) txt (17 Kb)

Leer 13 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com