0% found this document useful (0 votes)

10 views30 pages

AIML Unit - 3 MDP New

The document discusses various aspects of planning agents, focusing on static and dynamic environments, as well as fully and partially observable environments. It introduces Markov Decision Processes (MDPs), detailing their components, objectives, and the role of the discount factor. Additionally, it covers policy evaluation methods, value iteration, and policy iteration techniques for optimizing decision-making in MDPs.

Uploaded by

shyam.aggarwal043

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views30 pages

AIML Unit - 3 MDP New

Uploaded by

shyam.aggarwal043

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 30

Planning Agent

Static vs. Dynamic

Environment
Fully
vs.
Partially
Deterministic
Observable vs.
What action Stochastic
next?

Perfect Instantaneous
vs. vs.
Noisy Durative

Percepts Actions
2
Search Algorithms
Static

Environment

Fully
Observable
Deterministic
What action
next?

Instantaneous
Perfect

Percepts Actions
3
Stochastic Planning: MDPs
Static

Environment

Fully
Observable
Stochastic
What action
next?

Instantaneous
Perfect

Percepts Actions
4
MDP vs. Decision Theory

• Decision theory – episodic

• MDP -- sequential

5
Markov Decision Process (MDP)

• S: A set of states factored

Factored MDP
• A: A set of actions
• T(s,a,s’): transition model
• C(s,a,s’): cost model
absorbing/
• G: set of goals non-absorbing
• s0: start state
• : discount factor
• R(s,a,s’): reward model

6
Objective of an MDP

• Find a policy : S → A

• which optimizes
• minimizes discounted expected cost to reach a goal
• maximizes or expected reward
• maximizes undiscount. expected (reward-cost)

• given a horizon
• finite
• infinite
• indefinite

• assuming full observability 7

Role of Discount Factor ()

• Keep the total reward/total cost finite

• useful for infinite horizon problems

• Intuition (economics):
• Money today is worth more than money tomorrow.

• Total reward: r1 + r2 + 2r3 + …

• Total cost: c1 + c2 + 2c3 + …

8
Examples of MDPs

• Goal-directed, Indefinite Horizon, Cost Minimization MDP

• <S, A, T, C, G, s0>
• Most often studied in planning, graph theory communities

• Infinite Horizon, Discounted Reward Maximization MDP

• <S, A, T, R, > most popular
• Most often studied in machine learning, economics, operations
research communities

• Oversubscription Planning: Non absorbing goals, Reward Max. MDP

• <S, A, T, G, R, s0>
• Relatively recent model

9
Acyclic vs. Cyclic MDPs
a P b P
a b
0.6 0.4 0.5 0.5 0.6 0.4 0.5 0.5

Q R S T R S T

c c c c c c c

G G
C(a) = 5, C(b) = 10, C(c) =1
• infinite loop
• V(Q/R/S/T) = 1 • V(R/S/T) = 1
• V(P) = 6 • Q(P,b) = 11
• Q(P,a) = ????
• suppose I decide to take a in P
• Q(P,a) = 5+ 0.4*1 + 0.6Q(P,a)
10
•➔ = 13.5
Brute force Algorithm

11
Policy Evaluation

12
Deterministic MDPs

13
Acyclic MDPs

14
General MDPs can be cyclic!

15
General SSPs can be cyclic!

16
Policy Evaluation (Approach 1)

▪ Solving the System of Linear Equations

[C(s; ¼(s); s0) + V ¼(s0)]

▪ |S| variables.
▪ O(|S|3) running time

17
Iterative Policy Evaluation

18
Policy Evaluation (Approach 2)

19
Iterative Policy Evaluation

iteration n

s-consistency

termination
condition20
Convergence & Optimality

21
Policy Evaluation → Value Iteration
(Bellman Equations for MDP1)

22
Bellman Equations for MDP2

23
Fixed Point Computation in VI

24
Example

a20 a40
a00 s2 s4 C=5
a41
a21 a1 C=2 Pr=0.6
s0 a3 sg
Pr=0.4
a01 s1 s3

25
Bellman Backup
a40 Q1(s4,a40) = 5 + 0
s4 C=5 Q1(s4,a41) = 2+ 0.6£ 0
a41
Pr=0.6
+ 0.4£ 2
a3 C=2 sg = 2.8
Pr=0.4
s3 min

agreedy = a41
C=5 a40 sg V0= 0

V1= 2.8
C=2
s4 a41

s3 V0= 2
Value Iteration [Bellman 57]

No restriction on initial value function

iteration n

²-consistency

termination
condition
27
Example
(all actions cost 1 unless otherwise stated)
a20 a40
a00 s2 s4 C=5
a41
a21 a1 C=2 Pr=0.6
s0 a3 sg
Pr=0.4
a01 s1 s3
n Vn(s0) Vn(s1) Vn(s2) Vn(s3) Vn(s4)
0 3 3 2 2 1
1 3 3 2 2 2.8
2 3 3 3.8 3.8 2.8
3 4 4.8 3.8 3.8 3.52
4 4.8 4.8 4.52 4.52 3.52
5 5.52 5.52 4.52 4.52 3.808
28
20 5.99921 5.99921 4.99969 4.99969 3.99969
Changing the Search Space

• Value Iteration
• Search in value space
• Compute the resulting policy

• Policy Iteration
• Search in policy space
• Compute the resulting value

40
Policy iteration [Howard’60]

• assign an arbitrary assignment of 0 to each state.

• repeat costly: O(n3)

• Policy Evaluation: compute Vn+1: the evaluation of n
• Policy Improvement: for all states s
• compute n+1(s): argmina2 Ap(s)Qn+1(s,a)
• until n+1 = n approximate
Modified by value iteration
Policy Iteration using fixed policy
Advantage
• searching in a finite (policy) space as opposed to
uncountably infinite (value) space ⇒ convergence in fewer
number of iterations.
• all other properties follow! 41
Modified Policy iteration

• assign an arbitrary assignment of 0 to each state.

• repeat
• Policy Evaluation: compute Vn+1 the approx. evaluation of n
• Policy Improvement: for all states s
• compute n+1(s): argmina2 Ap(s)Qn+1(s,a)
• until n+1 = n

Advantage
• probably the most competitive synchronous dynamic
programming algorithm.

15 MDP
No ratings yet
15 MDP
35 pages
Tut21 RL
No ratings yet
Tut21 RL
101 pages
L12 Markov Decision Processes
No ratings yet
L12 Markov Decision Processes
64 pages
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
No ratings yet
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
40 pages
A17 Complexdecisions
No ratings yet
A17 Complexdecisions
28 pages
Lecture Notes
No ratings yet
Lecture Notes
29 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
101 pages
M 2
No ratings yet
M 2
12 pages
2024 MDPs Part 1
No ratings yet
2024 MDPs Part 1
59 pages
06 MDP
No ratings yet
06 MDP
89 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
Markov Decision & RL Overview
No ratings yet
Markov Decision & RL Overview
39 pages
RL DQN PG
No ratings yet
RL DQN PG
65 pages
EE290 Lecture 16
No ratings yet
EE290 Lecture 16
4 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
43 pages
MDP Basics for AI Researchers
No ratings yet
MDP Basics for AI Researchers
22 pages
MDP Basics for AI Researchers
No ratings yet
MDP Basics for AI Researchers
23 pages
Conjugate Markov Decision Processes
No ratings yet
Conjugate Markov Decision Processes
8 pages
Lecture4 Model Free Prediction
No ratings yet
Lecture4 Model Free Prediction
34 pages
Markov Decision
100% (3)
Markov Decision
212 pages
AI Decision Making & RL Guide
No ratings yet
AI Decision Making & RL Guide
18 pages
Class Notes 2
No ratings yet
Class Notes 2
6 pages
DSA5102 Lecture11
No ratings yet
DSA5102 Lecture11
44 pages
Markovian Decision Process
No ratings yet
Markovian Decision Process
27 pages
DRL #4-5 - Introducing MDP and Dynamic Programming Solution
No ratings yet
DRL #4-5 - Introducing MDP and Dynamic Programming Solution
74 pages
RL Unit-Ii
No ratings yet
RL Unit-Ii
14 pages
Unit-5 Ai
No ratings yet
Unit-5 Ai
19 pages
Add-On DRL CS06
No ratings yet
Add-On DRL CS06
23 pages
Unit-4 of Ai
No ratings yet
Unit-4 of Ai
9 pages
Unit 5 Reinforcement Learning Notes
No ratings yet
Unit 5 Reinforcement Learning Notes
20 pages
CS229
No ratings yet
CS229
17 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
15 pages
Non-Maximizing Policies That Fulfill Multi-Criterion Aspirations in Expectation
No ratings yet
Non-Maximizing Policies That Fulfill Multi-Criterion Aspirations in Expectation
19 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
7 pages
Experiment 4
No ratings yet
Experiment 4
7 pages
242 Sheet 02 03
No ratings yet
242 Sheet 02 03
5 pages
Sp14 Cs188 Lecture 9 - Mdps II
No ratings yet
Sp14 Cs188 Lecture 9 - Mdps II
48 pages
MDPs: Policies, Search & Utility
No ratings yet
MDPs: Policies, Search & Utility
13 pages
RL Module 4
No ratings yet
RL Module 4
50 pages
2025 - MDPs 1
No ratings yet
2025 - MDPs 1
62 pages
MIT 6.036 Lecture
No ratings yet
MIT 6.036 Lecture
64 pages
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
No ratings yet
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
14 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
62 pages
A Tutorial For Reinforcement Learning
No ratings yet
A Tutorial For Reinforcement Learning
17 pages
20ai903 - RL - Unit 2
No ratings yet
20ai903 - RL - Unit 2
27 pages
Lec 09
No ratings yet
Lec 09
51 pages
19.5 Markov Decision Processes: Resolving Unbounded Expected Rewards
No ratings yet
19.5 Markov Decision Processes: Resolving Unbounded Expected Rewards
13 pages
A Tutorial For Reinforcement Learning
No ratings yet
A Tutorial For Reinforcement Learning
14 pages
L12 Reinforcement Learning 2
No ratings yet
L12 Reinforcement Learning 2
26 pages
Sp14 Cs188 Lecture 8 - Mdps I
No ratings yet
Sp14 Cs188 Lecture 8 - Mdps I
50 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
66 pages
Markov Decision
No ratings yet
Markov Decision
4 pages
Reinforcement Learning Note
No ratings yet
Reinforcement Learning Note
16 pages
Markov Decision Processes Overview
No ratings yet
Markov Decision Processes Overview
14 pages
Cs229-Notes12 Reinforcement in Control
No ratings yet
Cs229-Notes12 Reinforcement in Control
17 pages
Markov Decision Processes Overview
No ratings yet
Markov Decision Processes Overview
111 pages
Experiment 3
No ratings yet
Experiment 3
6 pages
Term 2 - Week 14 - Activity 1 - Angles in Circles
No ratings yet
Term 2 - Week 14 - Activity 1 - Angles in Circles
2 pages
BTCS9202 Data Sciences Lab Manual
No ratings yet
BTCS9202 Data Sciences Lab Manual
39 pages
Euclid's Algorithm: ENGI 1331: Exam 2 Review - Additional Practice Problems Fall 2020
No ratings yet
Euclid's Algorithm: ENGI 1331: Exam 2 Review - Additional Practice Problems Fall 2020
4 pages
Pavement Condition Assessment Using Soft Computing Techniques
No ratings yet
Pavement Condition Assessment Using Soft Computing Techniques
18 pages
Linear Differential Equation
No ratings yet
Linear Differential Equation
35 pages
Name: - : Inquiry Question
No ratings yet
Name: - : Inquiry Question
14 pages
Sneed-Structuralism and Scientific Realism (1983)
No ratings yet
Sneed-Structuralism and Scientific Realism (1983)
26 pages
Unit 5
No ratings yet
Unit 5
25 pages
Mathieu Et Al 2008 Mediational Inferences in Organizational Research Then Now and Beyond
No ratings yet
Mathieu Et Al 2008 Mediational Inferences in Organizational Research Then Now and Beyond
21 pages
Lecture 17
No ratings yet
Lecture 17
2 pages
Residual Offset in Silicon Hall-Effect Sensor Analytical Formula Stress Effects and Implications For Octagonal Hall Plate Geometry
No ratings yet
Residual Offset in Silicon Hall-Effect Sensor Analytical Formula Stress Effects and Implications For Octagonal Hall Plate Geometry
9 pages
Cambridge International As A Level Mathematics Probability Statistics 1 Practice Book Cambridge International Download
No ratings yet
Cambridge International As A Level Mathematics Probability Statistics 1 Practice Book Cambridge International Download
44 pages
Nernst Heat Theorem
No ratings yet
Nernst Heat Theorem
10 pages
Friction Losses in Pipes Consisting of Bends and Elbows
86% (28)
Friction Losses in Pipes Consisting of Bends and Elbows
11 pages
Cot Math 4 q2 - Week6 2022
No ratings yet
Cot Math 4 q2 - Week6 2022
12 pages
Form 5 Matrix Exercises
No ratings yet
Form 5 Matrix Exercises
4 pages
Cooling Tower
No ratings yet
Cooling Tower
10 pages
Mathematics Formula Sheet Class 12
75% (4)
Mathematics Formula Sheet Class 12
28 pages
Math8 - q1 - Mod5a - Multiplying and Dividing Rational Algebraic Expressions - 08092020
No ratings yet
Math8 - q1 - Mod5a - Multiplying and Dividing Rational Algebraic Expressions - 08092020
23 pages
2021 Article
No ratings yet
2021 Article
17 pages
10th Maths - Monday Test-2
No ratings yet
10th Maths - Monday Test-2
8 pages
Wet-Gas Metering for Beginners
No ratings yet
Wet-Gas Metering for Beginners
28 pages
A-Thurs-O2 Absorption-Report
No ratings yet
A-Thurs-O2 Absorption-Report
25 pages
Jurnal JP - Peran Masa Kerja Dan Gaya Komunikasi Terhadap Kinerja Karyawan Dengan Motivasi Karyawan Sebagai Mediator Pada PT Gajah Tunggal TBK
No ratings yet
Jurnal JP - Peran Masa Kerja Dan Gaya Komunikasi Terhadap Kinerja Karyawan Dengan Motivasi Karyawan Sebagai Mediator Pada PT Gajah Tunggal TBK
13 pages
Mid Term Exam SQL
100% (1)
Mid Term Exam SQL
17 pages
GM and Pre Cal PT
No ratings yet
GM and Pre Cal PT
3 pages
Muthayammal College of Arts and Science Rasipuram: Assignment No - 2
No ratings yet
Muthayammal College of Arts and Science Rasipuram: Assignment No - 2
9 pages
s.3 Mathematics Paper 2
100% (1)
s.3 Mathematics Paper 2
5 pages
Excel Assignment PDF
No ratings yet
Excel Assignment PDF
5 pages
Strategies in Teaching Math Vocabulary and Concepts
No ratings yet
Strategies in Teaching Math Vocabulary and Concepts
6 pages

AIML Unit - 3 MDP New

Uploaded by

AIML Unit - 3 MDP New

Uploaded by

Planning Agent

Static vs. Dynamic

• Decision theory – episodic

• S: A set of states factored

• assuming full observability 7

• Keep the total reward/total cost finite

• Total reward: r1 + r2 + 2r3 + …

• Goal-directed, Indefinite Horizon, Cost Minimization MDP

• Infinite Horizon, Discounted Reward Maximization MDP

• Oversubscription Planning: Non absorbing goals, Reward Max. MDP

▪ Solving the System of Linear Equations

[C(s; ¼(s); s0) + V ¼(s0)]

No restriction on initial value function

• assign an arbitrary assignment of 0 to each state.

• repeat costly: O(n3)

• assign an arbitrary assignment of 0 to each state.

You might also like