Planning and Optimization F6. Determinization-based Algorithms - PowerPoint PPT Presentation

Planning and Optimization F6. Determinization-based Algorithms Gabriele R¨ oger and Thomas Keller Universit¨ at Basel November 28, 2018

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Content of this Course Tasks Progression/ Regression Classical Complexity Heuristics Planning MDPs Blind Methods Probabilistic Heuristic Search Monte-Carlo Methods

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinizations in Practice The winners of all probabilistic tracks of the International Planning Competition use determinization: 2004: FF-Replan (Yoon, Fern & Givan) interleaved planning & execution of plan in determinization 2006: FPG (Buffet & Aberdeen) learns a policy utilizing FF-Replan 2008: RFF (Teichteil-K¨ onigsbuch, Infantes & Kuter) extends determinization-based plan to policy 2011 and 2014: Prost -2011 (Keller & Eyerich) and Prost -2014 (Keller & Geißer) use determinization-based lookahead heuristic 2018: Prost -DD (Geißer & Speck) use BDD representation of determinization as heuristic

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinize, Plan & Execute

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinize, Plan & Execute: Idea Use determinization in combination with interleaved planning & execution in determinize-plan-execute-monitor cycle for SSP T : compute determinization T d of T use classical planner to plan action a for the current state s 0 in T d execute a observe new current state s ′ update T by setting s 0 := s ′ repeat until s 0 ∈ S ⋆

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinize, Plan & Execute in Practice + well-suited if uncertainty has certain form (e.g., actions can fail or succeed) + well-suited if information on probabilities noisy (e.g., path planning for robots in uncertain terrain) + exponential blowup through parallel probabilistic effects can be avoided (with polynomial increase of plan length) - no technique that mitigates other weaknesses of determinizations - gets stuck in cycle in worst case

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinize, Plan & Execute: Implementation Implemented in FF-Replan (Yoon, Fern & Givan) uses classical planner FF (Hoffmann & Nebel) winner of IPC 2004 top performer in IPC 2006, but no official competitor (used as baseline) led to discussions if competition domains are probabilistically interesting

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement: Idea Plan for determinization can be seen as partial policy for all states reached by plan Usually not executable, as some outcomes not covered by partial policy Recursively plan in determinization from such an uncovered state and merge plans into policy graph Partial policy induced by policy graph becomes executable eventually

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement: Algorithm 1 Compute determinization T d of input SSP T and set s := s 0 2 Compute plan in T d from s and add all states in plan to policy graph 3 Add all uncovered outcomes to policy graph 4 Run VI on policy graph and collect all states in current solution graph without policy mapping 5 Compute probability to end up in uncovered state; terminate if smaller than some threshold 6 Choose uncovered state s ′ in best solution graph and set s := s ′ ; repeat from 2

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement: Example � Blackboard

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement in Practice + optimal in the limit (if provided with unbounded deliberation time and memory) - order in which policy graph is extended depends only on determinization and hence on plan cost (optimistic) - while probabilities (and hence expected cost) are ignored - weaknesses of determinizations affect early policies

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization Guided Policy Refinement: Implementation Implemented in RFF (Teichteil-K¨ onigsbuch, Infantes & Kuter) uses classical planner FF (Hoffmann & Nebel) winner of IPC 2008 near-optimal for many benchmark problems

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Lookahead in FH-MDPs

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Determinization for FH-MDPs Determinization of FH-MDP is no classical planning task: But: the finite horizon can be compiled into a goal: add finite-domain variable v h with dom( v h ) = { 0 , . . . , H } s 0 ( h ) = H introduce S ⋆ := { s ∈ S | s ( h ) = 0 } add effect s ( h ) := s ( h ) − 1 to all operators However: compilation of state-dependent rewards to state-independent costs leads to exponential blowup ⇒ Compilation not always possible, cannot use classical planner

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Lookahead Heuristic: Idea Use determinization as heuristic: Search directly in determinized FH-MDP ( ⇒ a deterministic FH-MDP) Use most likely determinization for small branching factor To balance computation time, limit search horizon and use iterative deepening search that stops after time limit is reached ⇒ efficient lookahead in most likely future

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Lookahead Heuristic in Practice + supports state-dependent rewards + balances accuracy and computation time - probabilities (and hence expected cost) are ignored - heuristic prone to weaknesses of determinizations + used only as heuristic ⇒ search can overcome weaknesses

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Lookahead Heuristic: Implementation Implemented in Prost -2011 (Keller & Eyerich) and Prost -2014 (Keller & Geißer) winner of IPC 2011 and 2014 despite simplicity well-suited to guide search

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Summary

Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Summary Winners of all probabilistic tracks of International Planning Competition use determinization FF-Replan uses determinize-plan-execute-monitor cycle RFF iteratively refines determinization-based plans to policy Prost uses determinization result as heuristic

Planning and Optimization F6. Determinization-based Algorithms - PowerPoint PPT Presentation

Planning and Optimization F6. Determinization-based Algorithms Gabriele R oger and Thomas Keller Universit at Basel November 28, 2018 Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Content of this

15-780: Optimization J. Zico Kolter March 14-16, 2015 1 Outline Introduction to optimization

Convex Optimization 4. Convex Optimization Problems Prof. Ying Cui Department of Electrical

P2P Combinatorial Optimization Amir H. Payberah (amir@sics.se) P2P Combinatorial Optimization, 13

Classical Planning Systems ICS 271 Fall 2014 Outline: Planning Planning environments

Planning and Optimization December 4, 2019 G1. Factored MDPs G1.1 Factored MDPs Planning and

Planning and Optimization October 16, 2019 C2. Delete Relaxation: Properties of Relaxed

Planning 2.0 BLMs Final Planning Rule http://www.blm.gov/plan2 1 Planning 2.0 Outline

Classical Planning Systems Chapter 10 R&N ICS 271 Fall 2016 Outline: Planning Planning

Convex Optimization by Stephen Boyd, and Lieven Vandenberghe. Optimization for Machine Learning by

Evolutionary Algorithm 2. Swarm Intelligence and Ant Colony Optimization Ant Colony Optimization

CS675: Convex and Combinatorial Optimization Fall 2019 Convex Optimization Problems Instructor:

CS675: Convex and Combinatorial Optimization Spring 2018 Convex Optimization Problems

Five Steps to Optimization Five Steps to Optimization Beyond Best Practices Beyond Best

Introduction to Optimization Dr. Mihail October 23, 2018 (Dr. Mihail) Optimization October 23,

Optimization of HPSG Grammar Implementations in Trale Georgiana Dinu Optimization of HPSG

Search Engine Optimization What is Search Engine Optimization Search Engine Optimization is the

Compiling Techniques Lecture 5: Top-Down Parsing Christophe Dubach 24 September 2019 Christophe

Grouping and capturing REGULAR EX P RES S ION S IN P YTH ON Maria Eugenia Inzaugarat Data

Introduction to Lexical Analysis Identifies tokens in input string Issues in lexical

CS 188: Artificial Intelligence Markov Decision Processes II Instructor: Anca Dragan University

How Much Lookahead is Needed to Win Infinite Games? Joint work with Felix Klein (Saarland

JavaCC: SimpleExamples This directory contains five examples to get you started using JavaCC. Each

Packrat Parsin g: Sim ple, Powerfu l, Lazy, Lin ear Tim e Bryan Ford Massachusetts Institute of

Parser Larissa von Witte Institut fr Softwaretechnik und Programmiersprachen 11. Januar 2016

Planning and Optimization F6. Determinization-based Algorithms - PowerPoint PPT Presentation

Planning and Optimization F6. Determinization-based Algorithms Gabriele R oger and Thomas Keller Universit at Basel November 28, 2018 Determinize, Plan & Execute Policy Refinement Lookahead in FH-MDPs Summary Content of this

15-780: Optimization J. Zico Kolter March 14-16, 2015 1 Outline Introduction to optimization

Convex Optimization 4. Convex Optimization Problems Prof. Ying Cui Department of Electrical

P2P Combinatorial Optimization Amir H. Payberah (amir@sics.se) P2P Combinatorial Optimization, 13

Classical Planning Systems ICS 271 Fall 2014 Outline: Planning Planning environments

Planning and Optimization December 4, 2019 G1. Factored MDPs G1.1 Factored MDPs Planning and

Planning and Optimization October 16, 2019 C2. Delete Relaxation: Properties of Relaxed

Planning 2.0 BLMs Final Planning Rule http://www.blm.gov/plan2 1 Planning 2.0 Outline

Classical Planning Systems Chapter 10 R&amp;N ICS 271 Fall 2016 Outline: Planning Planning

Convex Optimization by Stephen Boyd, and Lieven Vandenberghe. Optimization for Machine Learning by

Evolutionary Algorithm 2. Swarm Intelligence and Ant Colony Optimization Ant Colony Optimization

CS675: Convex and Combinatorial Optimization Fall 2019 Convex Optimization Problems Instructor:

CS675: Convex and Combinatorial Optimization Spring 2018 Convex Optimization Problems

Five Steps to Optimization Five Steps to Optimization Beyond Best Practices Beyond Best

Introduction to Optimization Dr. Mihail October 23, 2018 (Dr. Mihail) Optimization October 23,

Optimization of HPSG Grammar Implementations in Trale Georgiana Dinu Optimization of HPSG

Search Engine Optimization What is Search Engine Optimization Search Engine Optimization is the

Compiling Techniques Lecture 5: Top-Down Parsing Christophe Dubach 24 September 2019 Christophe

Grouping and capturing REGULAR EX P RES S ION S IN P YTH ON Maria Eugenia Inzaugarat Data

Introduction to Lexical Analysis Identifies tokens in input string Issues in lexical

CS 188: Artificial Intelligence Markov Decision Processes II Instructor: Anca Dragan University

How Much Lookahead is Needed to Win Infinite Games? Joint work with Felix Klein (Saarland

JavaCC: SimpleExamples This directory contains five examples to get you started using JavaCC. Each

Packrat Parsin g: Sim ple, Powerfu l, Lazy, Lin ear Tim e Bryan Ford Massachusetts Institute of

Parser Larissa von Witte Institut fr Softwaretechnik und Programmiersprachen 11. Januar 2016

Classical Planning Systems Chapter 10 R&N ICS 271 Fall 2016 Outline: Planning Planning