Geocronologia INGENIERIA EN SISTEMAS COMPUTACIONALES

Ray Baltazar CruzEnsayo12 de Septiembre de 2017

1.023 Palabras (5 Páginas)298 Visitas

Página 1 de 5

[pic 1]

INSTITUTO TECNOLÓGICO NACIONAL DE MEXICO

INSTITUTO TECNOLOGICO DE CIUDAD MADERO

INGENIERIA EN SISTEMAS COMPUTACIONALES

MATERIA:

TOPICOS 2

ALUMNO:

RAYMUNDO BALTAZAR CRUZ

NUM. CONTROL:

12071865

HORA:

15:00-16:00

PROFESOR:

MARCO AGUIRRE IAM

NOMBRE DE LA INVESTIGACION:

ALGORITMO SARSA-LAMBDA

Estado-Acción-Recompensa-Estado-Acción (SARSA) es un algoritmo de aprendizaje de un proceso de decisión de Markov política, que se utiliza en el aprendizaje por refuerzo área de aprendizaje automático . Fue introducido en una nota técnica donde el nombre SARSA alternativo sólo se menciona como una nota al pie.

Este nombre refleja simplemente el hecho de que la principal función de la actualización del valor Q depende del estado actual del agente "S 1", la acción del agente elige "A 1", el premio "R", el agente obtiene por elegir este la acción, el estado "S 2" que el agente estará ahora en después de tomar esa acción, y, finalmente, la siguiente acción "a 2" el agente elegirá en su nuevo estado. Teniendo cada letra en el quíntuple (s t, a t, r t, s t + 1, un t + 1) se obtiene la palabra SARSA.

La idea en Sarsa (λ) es aplicar el método de predicción TD (λ)

Acción en lugar de a los estados. Entonces, necesitamos un rastro no sólo Para cada estado, pero para cada par de acciones de estado. Sea Zt (s, a) la traza de Par de acción de estado s, a. De lo contrario, el método es como TD (λ), sustituyendo Variables de estado-acción para variables de estado-Qt (s, a) para Vt (s) y Zt (s, a) para Zt (s):

Qt+1(s, a) = Qt(s, a) + αδtZt(s, a), para toda s, a

Done:

δt = Rt+1 + γQt(St+1, At+1) − Qt(St , At)

[pic 2]

La figura 7.10 muestra el diagrama de respaldo para Sarsa (λ). Observe la similitud con El diagrama del algoritmo TD (λ) (Figura 7.3). La primera copia de seguridad mira hacia adelante Un paso completo, al par de estado-acción siguiente, el segundo mira adelante dos pasos,

[pic 3]

y así. Una copia de seguridad final se basa en el retorno completo. La ponderación de Cada copia de seguridad es igual que en TD (λ) y el λ-return algoritmo.

ALGORITMO [pic 4]

Un agente SARSA interactuará con el entorno y actualizará la política basada en las acciones tomadas, conocido como un algoritmo de aprendizaje sobre políticas. Como se ha expresado anteriormente, el valor de Q para una acción de estado se actualiza por un error, ajustado por la velocidad de aprendizaje alfa. Los valores Q representan la posible recompensa recibida en la siguiente etapa de interposición a en el estado s, además de la recompensa futura descontado recibidas de la siguiente observación del estado-acción. Watkin Q-aprendizaje fue creado como una alternativa a la existente técnica de diferencia temporal y que actualiza la política basada en el premio máximo de acciones disponibles.

...

Descargar como (para miembros actualizados) txt (7 Kb) pdf (712 Kb) docx (1 Mb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com