Geocronologia INGENIERIA EN SISTEMAS COMPUTACIONALES
Enviado por Ray Baltazar Cruz • 12 de Septiembre de 2017 • Ensayo • 1.023 Palabras (5 Páginas) • 250 Visitas
[pic 1]
INSTITUTO TECNOLÓGICO NACIONAL DE MEXICO
INSTITUTO TECNOLOGICO DE CIUDAD MADERO
INGENIERIA EN SISTEMAS COMPUTACIONALES
MATERIA:
TOPICOS 2
ALUMNO:
RAYMUNDO BALTAZAR CRUZ
NUM. CONTROL:
12071865
HORA:
15:00-16:00
PROFESOR:
MARCO AGUIRRE IAM
NOMBRE DE LA INVESTIGACION:
ALGORITMO SARSA-LAMBDA
ALGORITMO SARSA-LAMBDA
Estado-Acción-Recompensa-Estado-Acción (SARSA) es un algoritmo de aprendizaje de un proceso de decisión de Markov política, que se utiliza en el aprendizaje por refuerzo área de aprendizaje automático . Fue introducido en una nota técnica donde el nombre SARSA alternativo sólo se menciona como una nota al pie.
Este nombre refleja simplemente el hecho de que la principal función de la actualización del valor Q depende del estado actual del agente "S 1", la acción del agente elige "A 1", el premio "R", el agente obtiene por elegir este la acción, el estado "S 2" que el agente estará ahora en después de tomar esa acción, y, finalmente, la siguiente acción "a 2" el agente elegirá en su nuevo estado. Teniendo cada letra en el quíntuple (s t, a t, r t, s t + 1, un t + 1) se obtiene la palabra SARSA.
La idea en Sarsa (λ) es aplicar el método de predicción TD (λ)
Acción en lugar de a los estados. Entonces, necesitamos un rastro no sólo Para cada estado, pero para cada par de acciones de estado. Sea Zt (s, a) la traza de Par de acción de estado s, a. De lo contrario, el método es como TD (λ), sustituyendo Variables de estado-acción para variables de estado-Qt (s, a) para Vt (s) y Zt (s, a) para Zt (s):
Qt+1(s, a) = Qt(s, a) + αδtZt(s, a), para toda s, a
Done:
δt = Rt+1 + γQt(St+1, At+1) − Qt(St , At)
Y
[pic 2]
La figura 7.10 muestra el diagrama de respaldo para Sarsa (λ). Observe la similitud con El diagrama del algoritmo TD (λ) (Figura 7.3). La primera copia de seguridad mira hacia adelante Un paso completo, al par de estado-acción siguiente, el segundo mira adelante dos pasos,
[pic 3]
y así. Una copia de seguridad final se basa en el retorno completo. La ponderación de Cada copia de seguridad es igual que en TD (λ) y el λ-return algoritmo.
ALGORITMO [pic 4]
Un agente SARSA interactuará con el entorno y actualizará la política basada en las acciones tomadas, conocido como un algoritmo de aprendizaje sobre políticas. Como se ha expresado anteriormente, el valor de Q para una acción de estado se actualiza por un error, ajustado por la velocidad de aprendizaje alfa. Los valores Q representan la posible recompensa recibida en la siguiente etapa de interposición a en el estado s, además de la recompensa futura descontado recibidas de la siguiente observación del estado-acción. Watkin Q-aprendizaje fue creado como una alternativa a la existente técnica de diferencia temporal y que actualiza la política basada en el premio máximo de acciones disponibles.
...