0% found this document useful (0 votes)

26 views

9 Sqoop Notes

The document discusses policy gradient algorithms for reinforcement learning. It covers: 1) How policy gradients directly optimize the reinforcement learning objective by taking gradients of the expected return with respect to the policy parameters. 2) Methods for reducing the high variance in policy gradient estimates, including using baselines and importance sampling. 3) Practical considerations for implementing policy gradients in deep reinforcement learning problems using tools like automatic differentiation.

Uploaded by

pavancreative81

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views

9 Sqoop Notes

Uploaded by

pavancreative81

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 35

Policy Gradients

CS 294-112: Deep Reinforcement Learning

Sergey Levine
Class Notes
1. Homework 1 milestone due today (11:59 pm)!
• Don’t be late!
2. Remember to start forming final project groups
Today’s Lecture
1. The policy gradient algorithm
2. What does the policy gradient do?
3. Basic variance reduction: causality
4. Basic variance reduction: baselines
5. Policy gradient examples
• Goals:
• Understand policy gradient reinforcement learning
• Understand practical considerations for policy gradients
The goal of reinforcement learning
we’ll come back to partially observed later
The goal of reinforcement learning

infinite horizon case finite horizon case

Evaluating the objective
Direct policy differentiation
a convenient identity
Direct policy differentiation
Evaluating the policy gradient

fit a model to
estimate return

generate samples
(i.e. run the policy)

improve the policy

Evaluating the policy gradient
Comparison to maximum likelihood

training supervised
data learning
Example: Gaussian policies
What did we just do?

good stuff is made more likely

bad stuff is made less likely
simply formalizes the notion of “trial and error”!
Partial observability
What is wrong with the policy gradient?

high variance

slow convergence
hard to choose learning rate

(image from Peters & Schaal 2008)

Review
• Evaluating the RL objective
• Generate samples
fit a model to
• Evaluating the policy gradient estimate return

• Log-gradient trick generate

samples (i.e.
• Generate samples run the policy)

• Understanding the policy gradient improve the

• Formalization of trial-and-error policy

• Partial observability
• Works just fine
• What is wrong with policy gradient?
Break
Reducing variance

“reward to go”
a convenient identity
Baselines

but… are we allowed to do that??

subtracting a baseline is unbiased in expectation!

average reward is not the best baseline, but it’s pretty good!
Analyzing variance

This is just expected reward, but weighted

by gradient magnitudes!
Review
• The high variance of policy gradient
• Exploiting causality fit a model to
• Future doesn’t affect the past estimate return

• Baselines generate
samples (i.e.
• Unbiased! run the policy)

• Analyzing variance improve the

policy
• Can derive optimal baselines
Policy gradient is on-policy

• Neural networks change only a little bit

with each gradient step
• On-policy learning can be extremely
inefficient!
Off-policy learning & importance sampling
importance sampling
Deriving the policy gradient with IS
a convenient identity
The off-policy policy gradient
A first-order approximation for IS (preview)

We’ll see why this is reasonable

later in the course!
Policy gradient with automatic differentiation
Policy gradient with automatic differentiation
Pseudocode example (with discrete actions):

Maximum likelihood:
# Given:
# actions - (N*T) x Da tensor of actions
# states - (N*T) x Ds tensor of states
# Build the graph:
logits = policy.predictions(states) # This should return (N*T) x Da tensor of action logits
negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=actions, logits=logits)
loss = tf.reduce_mean(negative_likelihoods)
gradients = loss.gradients(loss, variables)
Policy gradient with automatic differentiation
Pseudocode example (with discrete actions):

Policy gradient:
# Given:
# actions - (N*T) x Da tensor of actions
# states - (N*T) x Ds tensor of states
# q_values – (N*T) x 1 tensor of estimated state-action values
# Build the graph:
logits = policy.predictions(states) # This should return (N*T) x Da tensor of action logits
negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=actions, logits=logits)
weighted_negative_likelihoods = tf.multiply(negative_likelihoods, q_values)
loss = tf.reduce_mean(weighted_negative_likelihoods)
gradients = loss.gradients(loss, variables)

q_values
Policy gradient in practice
• Remember that the gradient has high variance
• This isn’t the same as supervised learning!
• Gradients will be really noisy!
• Consider using much larger batches
• Tweaking learning rates is very hard
• Adaptive step size rules like ADAM can be OK-ish
• We’ll learn about policy gradient-specific learning rate adjustment methods
later!
Review
• Policy gradient is on-policy
• Can derive off-policy variant
fit a model to
• Use importance sampling estimate return
• Exponential scaling in T
generate
• Can ignore state portion samples (i.e.
(approximation) run the policy)

• Can implement with automatic improve the

differentiation – need to know what policy

to backpropagate
• Practical considerations: batch size,
learning rates, optimizers
Advanced policy gradient topics

• What more is there?

• Next time: introduce value functions and Q-functions
• Later in the class: natural gradient and automatic step size
adjustment
Example: policy gradient with importance sampling

• Incorporate example
demonstrations using
importance sampling
• Neural network policies

Levine, Koltun ‘13

Example: trust region policy optimization
• Natural gradient with
automatic step
adjustment (we’ll
learn about this later)
• Discrete and
continuous actions
• Code available (see
Duan et al. ‘16)

Schulman, Levine, Moritz, Jordan, Abbeel. ‘15

Policy gradients suggested readings
• Classic papers
• Williams (1992). Simple statistical gradient-following algorithms for connectionist
reinforcement learning: introduces REINFORCE algorithm
• Baxter & Bartlett (2001). Infinite-horizon policy-gradient estimation: temporally
decomposed policy gradient (not the first paper on this! see actor-critic section later)
• Peters & Schaal (2008). Reinforcement learning of motor skills with policy gradients:
very accessible overview of optimal baselines and natural gradient
• Deep reinforcement learning policy gradient papers
• Levine & Koltun (2013). Guided policy search: deep RL with importance sampled policy
gradient (unrelated to later discussion of guided policy search)
• Schulman, L., Moritz, Jordan, Abbeel (2015). Trust region policy optimization: deep RL
with natural policy gradient and adaptive step size
• Schulman, Wolski, Dhariwal, Radford, Klimov (2017). Proximal policy optimization
algorithms: deep RL with importance sampled policy gradient

Larceny Cases
No ratings yet
Larceny Cases
17 pages
Machine Learning Interview Questions
From Everand
Machine Learning Interview Questions
Tech Interviews
4.5/5 (2)
Đề Cương Môn Tiếng Anh Chuyên Ngành Ngành: Dược
75% (8)
Đề Cương Môn Tiếng Anh Chuyên Ngành Ngành: Dược
11 pages
Government and Administration in Zambia Exam Type Questions and Answers
100% (2)
Government and Administration in Zambia Exam Type Questions and Answers
20 pages
GRADE 11 Life Sciences Lesson Plans PDF
89% (9)
GRADE 11 Life Sciences Lesson Plans PDF
29 pages
Lec 5 Policy Gradients
No ratings yet
Lec 5 Policy Gradients
40 pages
13 ML Reinforcement Learning - Policy Search
No ratings yet
13 ML Reinforcement Learning - Policy Search
10 pages
cs224r_L04_Actor_Critic
No ratings yet
cs224r_L04_Actor_Critic
89 pages
cs224r_L03_MDP_PG
No ratings yet
cs224r_L03_MDP_PG
30 pages
Unit 5 - Policy Based
No ratings yet
Unit 5 - Policy Based
30 pages
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
No ratings yet
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
10 pages
rl-3
No ratings yet
rl-3
31 pages
13_RL_3
No ratings yet
13_RL_3
48 pages
Policy-Based Reinforcement Learning: Shusen Wang
No ratings yet
Policy-Based Reinforcement Learning: Shusen Wang
46 pages
rl5
No ratings yet
rl5
26 pages
Policy Gradient Methods
No ratings yet
Policy Gradient Methods
70 pages
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
No ratings yet
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
46 pages
Assignment 2 - Policy Gradients
No ratings yet
Assignment 2 - Policy Gradients
7 pages
07 Deep Reinforcement Learning (John)
No ratings yet
07 Deep Reinforcement Learning (John)
52 pages
Natural Actor-Critic: Abstract. This Paper Investigates A Novel Model-Free Reinforcement
No ratings yet
Natural Actor-Critic: Abstract. This Paper Investigates A Novel Model-Free Reinforcement
12 pages
Introduction To Reinforcement Learning: Instructor: Sergey Levine UC Berkeley
No ratings yet
Introduction To Reinforcement Learning: Instructor: Sergey Levine UC Berkeley
46 pages
DRL
No ratings yet
DRL
9 pages
Bridging The Gap Between Value and Policy Based Reinforcement Learning
No ratings yet
Bridging The Gap Between Value and Policy Based Reinforcement Learning
21 pages
Lecture 7: Policy Gradient: David Silver
No ratings yet
Lecture 7: Policy Gradient: David Silver
41 pages
2023_week5_policy
No ratings yet
2023_week5_policy
62 pages
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
No ratings yet
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
35 pages
Deep Reinforcement Learning
No ratings yet
Deep Reinforcement Learning
93 pages
PowerPoint Presentation
No ratings yet
PowerPoint Presentation
35 pages
PolicyGradient
No ratings yet
PolicyGradient
33 pages
5 - Policy Gradient Methods
No ratings yet
5 - Policy Gradient Methods
57 pages
Policy_Approximation_Document
No ratings yet
Policy_Approximation_Document
2 pages
13_RL_4
No ratings yet
13_RL_4
48 pages
Serge Levine Course Introduction To Reinforcement Learning 6 Value Function
No ratings yet
Serge Levine Course Introduction To Reinforcement Learning 6 Value Function
27 pages
Module 04
No ratings yet
Module 04
63 pages
20AI903_RL_UNIT 4
No ratings yet
20AI903_RL_UNIT 4
49 pages
Policy Gradient Methods
No ratings yet
Policy Gradient Methods
28 pages
Planning and Optimal Control Policy Gradient Methods
No ratings yet
Planning and Optimal Control Policy Gradient Methods
34 pages
High-Dimensional Continuous Control Using Generalized Advantage Estimation-1506.02438v5
No ratings yet
High-Dimensional Continuous Control Using Generalized Advantage Estimation-1506.02438v5
14 pages
An Introduction To Policy Search Methods: Thomas Furmston
No ratings yet
An Introduction To Policy Search Methods: Thomas Furmston
33 pages
SP14 CS188 Lecture 10 - Reinforcement Learning I
No ratings yet
SP14 CS188 Lecture 10 - Reinforcement Learning I
35 pages
Report On Reinforcement Learning
No ratings yet
Report On Reinforcement Learning
26 pages
Reinforcement Learning With MATLAB: Understanding Training and Deployment
No ratings yet
Reinforcement Learning With MATLAB: Understanding Training and Deployment
39 pages
A3C-GS Adaptive Moment Gradient Sharing With Locks For Asynchronous ActorCritic Agents
No ratings yet
A3C-GS Adaptive Moment Gradient Sharing With Locks For Asynchronous ActorCritic Agents
15 pages
Reinforcement Learning (Part 2) : Nguyen Do Van, PHD
No ratings yet
Reinforcement Learning (Part 2) : Nguyen Do Van, PHD
46 pages
Drive in Trafic PDF
No ratings yet
Drive in Trafic PDF
20 pages
16 RL PDF
No ratings yet
16 RL PDF
87 pages
Lec 04 Reinforcement Learning
No ratings yet
Lec 04 Reinforcement Learning
57 pages
slidedeck_8_MAS_2021_22_RL_4_Policy_Grad_dQN
No ratings yet
slidedeck_8_MAS_2021_22_RL_4_Policy_Grad_dQN
34 pages
Abdolmaleki et al. - 2018 - Maximum a Posteriori Policy Optimisation
No ratings yet
Abdolmaleki et al. - 2018 - Maximum a Posteriori Policy Optimisation
23 pages
EE675A Lecture 16
No ratings yet
EE675A Lecture 16
6 pages
lecture-06
No ratings yet
lecture-06
98 pages
Lecture Notes v1.0 687 F22
No ratings yet
Lecture Notes v1.0 687 F22
115 pages
Lecture 30 Reinforcement-Learning
No ratings yet
Lecture 30 Reinforcement-Learning
50 pages
DD2431 Machine Learning Lab 4: Reinforcement Learning Python Version
No ratings yet
DD2431 Machine Learning Lab 4: Reinforcement Learning Python Version
9 pages
SRE_Report_merged
No ratings yet
SRE_Report_merged
16 pages
cs224r_L05_QLearning
No ratings yet
cs224r_L05_QLearning
40 pages
Chapter 12
No ratings yet
Chapter 12
17 pages
Add-On DRL CS06
No ratings yet
Add-On DRL CS06
23 pages
Sdfesdf
No ratings yet
Sdfesdf
23 pages
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
No ratings yet
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
36 pages
Actor-Critic Policy Optimization in Partially Observable Multiagent Environments 1810.09026
No ratings yet
Actor-Critic Policy Optimization in Partially Observable Multiagent Environments 1810.09026
28 pages
Reinforcement Learning MY101
No ratings yet
Reinforcement Learning MY101
15 pages
RL Intro-2
No ratings yet
RL Intro-2
24 pages
Policy_Gradient_Methods_for_Reinforcement_Learning
No ratings yet
Policy_Gradient_Methods_for_Reinforcement_Learning
5 pages
AD English 1
No ratings yet
AD English 1
14 pages
Preprocessing-Featue Engineering
No ratings yet
Preprocessing-Featue Engineering
16 pages
Unsupervised Learning: Neighbor Embedding
No ratings yet
Unsupervised Learning: Neighbor Embedding
15 pages
ML at Icl Reinforcement Learning: in A Nutshell
No ratings yet
ML at Icl Reinforcement Learning: in A Nutshell
60 pages
Large Scale Deep Learning
No ratings yet
Large Scale Deep Learning
170 pages
9 Sqoop Notes PDF
No ratings yet
9 Sqoop Notes PDF
17 pages
CSC 211: Design Patterns Lab 12: Proxy Pattern
No ratings yet
CSC 211: Design Patterns Lab 12: Proxy Pattern
1 page
Jan 2017 Yoga
100% (1)
Jan 2017 Yoga
56 pages
People Vs Ramos
No ratings yet
People Vs Ramos
17 pages
Gavorel Latrodectus - Monster
No ratings yet
Gavorel Latrodectus - Monster
2 pages
Applying Basic First Aid
No ratings yet
Applying Basic First Aid
34 pages
Lekha Vs P. Anil Kumar AIR 2006: Damodaram Sanjivayya National Law Universityvisakhapatnam, A.P., India
No ratings yet
Lekha Vs P. Anil Kumar AIR 2006: Damodaram Sanjivayya National Law Universityvisakhapatnam, A.P., India
16 pages
STMT BBOO 001 BBMG000013 Apr2020
No ratings yet
STMT BBOO 001 BBMG000013 Apr2020
5 pages
The Fall of The House of Usher Etext
No ratings yet
The Fall of The House of Usher Etext
15 pages
Manato Marketing Resume
No ratings yet
Manato Marketing Resume
1 page
8th Elemental History
No ratings yet
8th Elemental History
3 pages
PJ Harvey Good Fortune
No ratings yet
PJ Harvey Good Fortune
3 pages
Vaginal Hysterectomy Vs Abdominal Hysterectomy
No ratings yet
Vaginal Hysterectomy Vs Abdominal Hysterectomy
6 pages
Effect of Nepotism on Productivity among Public Servants in Nigeria
No ratings yet
Effect of Nepotism on Productivity among Public Servants in Nigeria
26 pages
de La Peña Vs Hidalgo, G.R. No. L-5486
No ratings yet
de La Peña Vs Hidalgo, G.R. No. L-5486
18 pages
Love of Life - Albert Camus On Happiness, Despair, The Art of Awareness, and Why We Travel - Brain Pickings
No ratings yet
Love of Life - Albert Camus On Happiness, Despair, The Art of Awareness, and Why We Travel - Brain Pickings
2 pages
B2B Marketing PPT 21
No ratings yet
B2B Marketing PPT 21
14 pages
MODULE 2 Eng6100
No ratings yet
MODULE 2 Eng6100
5 pages
HANDOUT 1 ISF Week-2
No ratings yet
HANDOUT 1 ISF Week-2
7 pages
Unit of Work English Stage 2 Aboriginal Culture
No ratings yet
Unit of Work English Stage 2 Aboriginal Culture
8 pages
Verbs, Verbs, Verbs: (Also: Auxiliary, Transitive, Intransitive)
No ratings yet
Verbs, Verbs, Verbs: (Also: Auxiliary, Transitive, Intransitive)
35 pages
Dysphagic Patients With Tracheotomies: A Multidisciplinary Approach To Treatment and Decannulation Management
No ratings yet
Dysphagic Patients With Tracheotomies: A Multidisciplinary Approach To Treatment and Decannulation Management
11 pages
Media Literacy Education An Overview and Impact On Critical Thinking Skills - Group 6
No ratings yet
Media Literacy Education An Overview and Impact On Critical Thinking Skills - Group 6
34 pages
A2 - Unit 7 - Practice Quiz - Revisión Del Intento
No ratings yet
A2 - Unit 7 - Practice Quiz - Revisión Del Intento
3 pages
Art of Two Germanys Cold War Cultures
No ratings yet
Art of Two Germanys Cold War Cultures
4 pages
Rapid Trance Formations Basic Hypnosis Manual
100% (11)
Rapid Trance Formations Basic Hypnosis Manual
28 pages
Ventilation Pow
No ratings yet
Ventilation Pow
72 pages
Cost Behaviour, Cost Drivers and Cost Estimation: Answers To Review Questions
No ratings yet
Cost Behaviour, Cost Drivers and Cost Estimation: Answers To Review Questions
29 pages
What Is Empathy
No ratings yet
What Is Empathy
17 pages

9 Sqoop Notes

Uploaded by

9 Sqoop Notes

Uploaded by

Policy Gradients

CS 294-112: Deep Reinforcement Learning

infinite horizon case finite horizon case

improve the policy

good stuff is made more likely

(image from Peters & Schaal 2008)

• Log-gradient trick generate

• Understanding the policy gradient improve the

but… are we allowed to do that??

subtracting a baseline is unbiased in expectation!

This is just expected reward, but weighted

• Analyzing variance improve the

• Neural networks change only a little bit

We’ll see why this is reasonable

• Can implement with automatic improve the

• What more is there?

Levine, Koltun ‘13

Schulman, Levine, Moritz, Jordan, Abbeel. ‘15

You might also like