Improving Imitation Learning with Reinforcement Learning Niklas - PowerPoint PPT Presentation

MIN Faculty Department of Informatics Improving Imitation Learning with Reinforcement Learning Niklas Fiedler University of Hamburg Faculty of Mathematics, Informatics and Natural Sciences Department of Informatics Technical Aspects of Multimodal Systems November 26, 2019 N. Fiedler – Improving Imitation Learning with Reinforcement Learning 1 / 23

Outline Introduction Imitation Learning Combining RL and IL Conclusion 1. Introduction Motivation 2. Imitation Learning Demonstration Methods Behavioral Cloning Inverse Reinforcement Learning 3. Combining Reinforcement Learning and Imitation Learning BC Application IRL Application 4. Conclusion N. Fiedler – Improving Imitation Learning with Reinforcement Learning 2 / 23

Goal Introduction Imitation Learning Combining RL and IL Conclusion ◮ Imitate expert behavior ◮ Improve learning by including knowledge given by demonstration ◮ Learn expert policies → Make use of expert demonstrations N. Fiedler – Improving Imitation Learning with Reinforcement Learning 3 / 23

Motivation Humans are Awesome Introduction Imitation Learning Combining RL and IL Conclusion https://rejectedprincesses.tumblr.com/post/150495232038/ chynara-madinkulova-long-hair-and-aida-akmatova N. Fiedler – Improving Imitation Learning with Reinforcement Learning 4 / 23

Motivation Learning from Demonstration Introduction Imitation Learning Combining RL and IL Conclusion Learning from experts is natural behavior [Haw50], https://www.wakecounseling.com/therapy-blog/play-therapy N. Fiedler – Improving Imitation Learning with Reinforcement Learning 5 / 23

Imitation Learning Introduction Imitation Learning Combining RL and IL Conclusion Method to learn a behavior based on a demonstration Various forms of demonstration. Two prominent methods of implementation: 1. Behavioral Cloning 2. Inverse Reinforcement Learning N. Fiedler – Improving Imitation Learning with Reinforcement Learning 6 / 23

Demonstration Methods Introduction Imitation Learning Combining RL and IL Conclusion Virtual/Augumented Reality Tracking of Human Motions Video Stream Teleoperation s3.ap-south-1.amazonaws.com/kidobotikz.sprw/master/assets/images/blog/blog-2018110811630.jpg siamagazin.com/bimanual-teleoperation-of-a-compliant-whole-body-controlled-humanoid-robot/ https://ar-tracking.com/applications/motion-capture/ https://www.youtube.com/watch?v=5BTIE_fhReo N. Fiedler – Improving Imitation Learning with Reinforcement Learning 7 / 23

Behavioral Cloning Introduction Imitation Learning Combining RL and IL Conclusion ◮ Training a direct link between demonstrated input and output ◮ Large amounts of training data necessary ◮ Poor generalization N. Fiedler – Improving Imitation Learning with Reinforcement Learning 8 / 23

Behavioral Cloning Video Introduction Imitation Learning Combining RL and IL Conclusion https://www.youtube.com/watch?v=5BTIE_fhReo N. Fiedler – Improving Imitation Learning with Reinforcement Learning 9 / 23

Inverse Reinforcement Learning Reinforcement Learning Introduction Imitation Learning Combining RL and IL Conclusion N. Fiedler – Improving Imitation Learning with Reinforcement Learning 10 / 23

Inverse Reinforcement Learning Reinforcement Learning vs. Inversed Reinforcement Learning Introduction Imitation Learning Combining RL and IL Conclusion RL IRL (partially observed) policy π or history given reward function R sampled from that policy reward function R optimal policy π searching for which given behavior for given reward is optimal https://thinkingwires.com/posts/2018-02-13-irl-tutorial-1.html N. Fiedler – Improving Imitation Learning with Reinforcement Learning 11 / 23

Inverse Reinforcement Learning Introduction Imitation Learning Combining RL and IL Conclusion https://medium.com/@sanketgujar95/generative-adversarial-imitation-learning-266f45634e60 N. Fiedler – Improving Imitation Learning with Reinforcement Learning 12 / 23

Imitation Learning Behavioral Cloning vs. Inversed Reinforcement Learning Introduction Imitation Learning Combining RL and IL Conclusion Inversed Reinforcement Behavioral Cloning Learning ◮ Weak generalization ◮ Strong generalization ◮ Relatively low ◮ Large computational effort computational effort ◮ Complex structure N. Fiedler – Improving Imitation Learning with Reinforcement Learning 13 / 23

Combining Reinforcement Learning and Imitation Learning Introduction Imitation Learning Combining RL and IL Conclusion ◮ Reducing the impact of shortcomings of both methods ◮ Applications should outperform demonstrators after RL applications ◮ Accelerated training process ◮ Extending the capabilities learned with imitation learning N. Fiedler – Improving Imitation Learning with Reinforcement Learning 14 / 23

BC Application Introduction Imitation Learning Combining RL and IL Conclusion Overcoming Exploration in Reinforcement Learning with Demonstrations Ashvin Nair 12 , Bob McGrew 1 , Marcin Andrychowicz 1 , Wojciech Zaremba 1 and Pieter Abbeel 12 2018 IEEE International Conference on Robotics and Automation (ICRA) 1 OpenAI 2 University of California, Berkeley N. Fiedler – Improving Imitation Learning with Reinforcement Learning 15 / 23

BC Application Goal Introduction Imitation Learning Combining RL and IL Conclusion Pushing Sliding Pick and Place [NMA + 18] N. Fiedler – Improving Imitation Learning with Reinforcement Learning 16 / 23

BC Application Results Introduction Imitation Learning Combining RL and IL Conclusion [NMA + 18] N. Fiedler – Improving Imitation Learning with Reinforcement Learning 17 / 23

IRL Application Introduction Imitation Learning Combining RL and IL Conclusion Reinforcement and Imitation Learning for Diverse Visuomotor Skills Yuke Zhu 1 , Ziyu Wang 2 , Josh Merel 2 , Andrei Rusu 2 , Tom Erez 2 , Serkan Cabi 2 , Saran Tunyasuvunakool 2 , Janos Kramar 2 , Raia Hadsell 2 , Nando de Freitas 2 and Nicolas Heess 2 1 Computer Science Department, Stanford University 2 OpenAI N. Fiedler – Improving Imitation Learning with Reinforcement Learning 18 / 23

IRL Application Goal Introduction Imitation Learning Combining RL and IL Conclusion [ZWM + 18] N. Fiedler – Improving Imitation Learning with Reinforcement Learning 19 / 23

IRL Application Method Introduction Imitation Learning Combining RL and IL Conclusion [ZWM + 18] N. Fiedler – Improving Imitation Learning with Reinforcement Learning 20 / 23

IRL Example Results - Block stacking Introduction Imitation Learning Combining RL and IL Conclusion [ZWM + 18] N. Fiedler – Improving Imitation Learning with Reinforcement Learning 21 / 23

Combining Reinforcement Learning and Imitation Learning Comparison Introduction Imitation Learning Combining RL and IL Conclusion IRL Approach BC Approach ◮ Inversed Reinforcement ◮ Behavioral Cloning Learning ◮ Simulation only ◮ Policies transferred to real robot ◮ Goal : improve training ◮ Goal : improve result performance and task complexity performance and task complexity N. Fiedler – Improving Imitation Learning with Reinforcement Learning 22 / 23

Improving Imitation Learning with Reinforcement Learning Niklas - PowerPoint PPT Presentation

MIN Faculty Department of Informatics Improving Imitation Learning with Reinforcement Learning Niklas Fiedler University of Hamburg Faculty of Mathematics, Informatics and Natural Sciences Department of Informatics Technical Aspects of

Why do imitation and analogy fail? Why do imitation and analogy fail? Imitation Imitation

Learning to Optimize as Policy Learning Yisong Yue Policy Learning (Reinforcement &

Reinforcement Learning AIMA Chapters: 21.1, 21.2, 21.3. Sutton and Barto, Reinforcement Learning:

Implicit Imitation in Multiagent Reinforcement Learning Bob Price and Craig Boutilier Slide 1

CSC2621 Topics in Robotics Reinforcement Learning in Robotics Week 2: Supervised & Imitation

Imitation Learning Initial Concept and Approaches Nguyen, Thi Linh Chi Outline Motivation

Implicit Imitation in Multiagent Reinforcement Learning Bob Price and Craig Boutilier Slides:

Reinforcement Learning Timothy Chou Charlie Tong Vincent Zhuang April 19, 2016 Reinforcement

Table of Contents Behavioral Cloning 1 Inverse Reinforcement Learning 2 Apprenticeship

Imitation Learning Spring 2019, CMU 10-403 Katerina Fragkiadaki Reinforcement learning Agent

Maximum Entropy Inverse RL, Adversarial imitation learning Katerina Fragkiadaki Reinforcement

Maximum Entropy Inverse RL, Adversarial imitation learning Katerina Fragkiadaki Reinforcement

RL Overview of topics About Reinforcement Learning The Reinforcement Learning Problem

FAIC Foreign Accent Imitation Corpus Sara Neuhauser University of Jena, Germany IAFPA 2011

Imitation Theory and Experimental Evidence Joerg Oechssler University of Heidelberg

Imitation as a Stepping Stone to Innovation Amy Jocelyn Glass Texas A&M University Shift

License Introduction to Version Control with Git Andreas Skielboe 1 All images adapted from Pro

Imitating Latent Policies from Observation Ashley D. Edwards, Himanshu Sahni, Yannick Schroecker,

MODEL-BASED API TESTING FOR SMT SOLVERS Aina Niemetz , Mathias Preiner , Armin

Schema validation and evolution for PGs Eugenia Oshurko (ENS Lyon) 7 March 2019 Main ideas

Coarse Classification of Binary Minimal Clones Zarathustra Brady Minimal clones A clone C is

Rcpp classes and vectors Romain Franois Consulting Datactive, ThinkR DataCamp Optimizing R

Scalable Detection of Semantic Clones Mark Gabel Lingxiao Jiang Zhendong Su Motivation

Reverse engineering Reverse engineer Did anyone analyze f1 something similar A binary file f2

Improving Imitation Learning with Reinforcement Learning Niklas - PowerPoint PPT Presentation

MIN Faculty Department of Informatics Improving Imitation Learning with Reinforcement Learning Niklas Fiedler University of Hamburg Faculty of Mathematics, Informatics and Natural Sciences Department of Informatics Technical Aspects of

Why do imitation and analogy fail? Why do imitation and analogy fail? Imitation Imitation

Learning to Optimize as Policy Learning Yisong Yue Policy Learning (Reinforcement &amp;

Reinforcement Learning AIMA Chapters: 21.1, 21.2, 21.3. Sutton and Barto, Reinforcement Learning:

Implicit Imitation in Multiagent Reinforcement Learning Bob Price and Craig Boutilier Slide 1

CSC2621 Topics in Robotics Reinforcement Learning in Robotics Week 2: Supervised &amp; Imitation

Imitation Learning Initial Concept and Approaches Nguyen, Thi Linh Chi Outline Motivation

Implicit Imitation in Multiagent Reinforcement Learning Bob Price and Craig Boutilier Slides:

Reinforcement Learning Timothy Chou Charlie Tong Vincent Zhuang April 19, 2016 Reinforcement

Table of Contents Behavioral Cloning 1 Inverse Reinforcement Learning 2 Apprenticeship

Imitation Learning Spring 2019, CMU 10-403 Katerina Fragkiadaki Reinforcement learning Agent

Maximum Entropy Inverse RL, Adversarial imitation learning Katerina Fragkiadaki Reinforcement

Maximum Entropy Inverse RL, Adversarial imitation learning Katerina Fragkiadaki Reinforcement

RL Overview of topics About Reinforcement Learning The Reinforcement Learning Problem

FAIC Foreign Accent Imitation Corpus Sara Neuhauser University of Jena, Germany IAFPA 2011

Imitation Theory and Experimental Evidence Joerg Oechssler University of Heidelberg

Imitation as a Stepping Stone to Innovation Amy Jocelyn Glass Texas A&amp;M University Shift

License Introduction to Version Control with Git Andreas Skielboe 1 All images adapted from Pro

Imitating Latent Policies from Observation Ashley D. Edwards, Himanshu Sahni, Yannick Schroecker,

MODEL-BASED API TESTING FOR SMT SOLVERS Aina Niemetz , Mathias Preiner , Armin

Schema validation and evolution for PGs Eugenia Oshurko (ENS Lyon) 7 March 2019 Main ideas

Coarse Classification of Binary Minimal Clones Zarathustra Brady Minimal clones A clone C is

Rcpp classes and vectors Romain Franois Consulting Datactive, ThinkR DataCamp Optimizing R

Scalable Detection of Semantic Clones Mark Gabel Lingxiao Jiang Zhendong Su Motivation

Reverse engineering Reverse engineer Did anyone analyze f1 something similar A binary file f2

Learning to Optimize as Policy Learning Yisong Yue Policy Learning (Reinforcement &

CSC2621 Topics in Robotics Reinforcement Learning in Robotics Week 2: Supervised & Imitation

Imitation as a Stepping Stone to Innovation Amy Jocelyn Glass Texas A&M University Shift