ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Tipos De Aprendizaje


Enviado por   •  21 de Febrero de 2014  •  652 Palabras (3 Páginas)  •  177 Visitas

Página 1 de 3

Enfoque pedagógico[editar]

Aprendizaje por reforzamiento[editar]

Define la manera de comportarse de un agente a un espacio dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicología se conoce como reglas estímulo-respuesta o asociaciones. Este elemento es central ya que por si sólo es suficiente para determinar el comportamiento.

Función de reforzamiento[editar]

Define la meta en un problema de RL, al mapear cada percepción del agente (estado del ambiente o par estado, acción) a un número (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la función define qué eventos son buenos y malos para el agente, por lo que la función es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la política, por ej., si una acción elegida por la política recibe una recompensa muy baja, la política debe cambiarse para elegir una acción diferente en esa situación. Una función de reforzamiento por lo general es estocástica. Es un fortalecimiento del ser humano para poder comprender de la mejor manera cualquier lectura.

Función de evaluación[editar]

Mientras que la función de reforzamiento indica lo que es bueno en lo inmediato, la función de evaluación lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, el valor representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podría conducir. La mayoría de los algoritmos RL operan estimando la función de valuación, aunque los algoritmos genéticos, la programación genética, y el recocido simulado, pueden resolver problemas de RL sin considerar valores, buscando directamente en el espacio de políticas.

Modelo del ambiente[editar]

Los modelos mimetizan el medio ambiente, dados un estado y una acción, el modelo debería predecir el estado resultante y la recompensa próximos. Los modelos se utilizan para planear, es decir, decidir sobre un curso de acción que involucra situaciones futuras, antes de que estas se presenten. La incorporación de modelos y planificación en RL es un desarrollo reciente, RL clásico puede verse como la anti-planificación. Ahora es claro que los métodos RL están estrechamente relacionados a los métodos de programación dinámica. Así los algoritmos RL pueden verse en un continuo entre las estrategias ensayo-error y la planificación deliberativa.

Aprendizaje por observación[editar]

Albert Bandura consideraba que podemos aprender por observación o imitación. Si todo el aprendizaje fuera resultado de recompensas y castigos

...

Descargar como (para miembros actualizados) txt (4 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com