a deep journey of playing games with rl
play

A Deep Journey of Playing Games with RL NSE Seminar Kim Hammar - PowerPoint PPT Presentation

Intro AlphaGo AlphaGo Zero AlphaZero Summary A Deep Journey of Playing Games with RL NSE Seminar Kim Hammar kimham@kth.se January 31, 2020 1 / 41 2 / 41 Why Combine the two? Branching factor = 3 VA


  1. Intro AlphaGo AlphaGo Zero AlphaZero Summary A Deep Journey of Playing Games with RL NSE Seminar Kim Hammar kimham@kth.se January 31, 2020 1 / 41

  2. 2 / 41 Why Combine the two? Branching factor = 3 香 桂 香 歩 角 銀 香 桂 VA LV E 歩 歩 角 銀 金 R 歩 桂 x 1 , 3 x 0 , 3 歩 香 金 Ply 3 歩 角 桂 歩 銀 玉 香 歩 歩 歩 角 歩 銀 金 金 歩 桂 歩 玉 歩 歩 香 香 歩 歩 金 金 銀 歩 歩 角 歩 桂 桂 銀 歩 玉 桂 歩 歩 歩 金 歩 銀 香 角 歩 歩 歩 角 角 歩 銀 銀 歩 歩 玉 金 角 香 歩 歩 歩 歩 歩 銀 桂 x 1 , 2 x 0 , 2 香 桂 角 歩 歩 歩 歩 歩 金 金 歩 金 歩 角 香 銀 歩 歩 歩 歩 歩 歩 玉 歩 桂 桂 歩 歩 歩 歩 銀 Depth = 3 香 角 金 歩 歩 歩 歩 歩 玉 玉 歩 金 角 香 銀 歩 歩 歩 歩 歩 銀 歩 桂 ˆ y Ply 2 香 桂 角 歩 歩 歩 歩 歩 歩 金 歩 金 角 香 銀 金 歩 歩 歩 歩 歩 桂 桂 歩 歩 玉 歩 歩 歩 歩 歩 歩 銀 銀 香 角 金 歩 歩 歩 金 歩 歩 歩 歩 歩 角 桂 桂 香 桂 銀 歩 玉 歩 歩 歩 歩 香 香 角 角 金 歩 歩 歩 銀 歩 角 歩 歩 歩 角 角 香 香 x 1 , 1 x 0 , 1 銀 玉 金 歩 歩 歩 歩 桂 桂 歩 歩 銀 歩 桂 角 歩 歩 歩 金 金 歩 香 歩 銀 銀 玉 歩 歩 桂 歩 歩 歩 金 金 歩 銀 歩 歩 角 歩 玉 金 香 歩 歩 銀 歩 歩 桂 角 歩 金 香 歩 Ply 1 玉 玉 桂 歩 歩 b 1 b 0 金 金 銀 角 歩 歩 歩 桂 香 銀 銀 角 角 歩 歩 香 桂 桂 香 香 P P P p P P s t + 1 p P P p P P P Environment p p k P P p p P k P Action a t p p p P P k P V V V V V r t + 1 b p Q k P N N N N N O O O O O b p Q k P C C C C C b p p Q k k P P r t s t b K N Q b K Q N b b K N Q Q K r N Agent K r N r K K N N r r r r Games AI & Machine Learning Why Games Summary AlphaZero AlphaGo Zero AlphaGo Intro

  3. Intro AlphaGo AlphaGo Zero AlphaZero Summary Why Games AI & Machine Learning Games r r r r N N r K K N K r N K r Agent Q Q N K b b N Q K b Q N K b Action a t P P k k Q p p b s t r t P k Q p b C C C C C P k Q p b P P p p r t + 1 O O O O O P k p N N N N N P p V V V V V P k p P p P k p P p P P Environment P p P P P p s t + 1 P P P 香 香 桂 桂 香 銀 銀 歩 歩 角 角 角 角 桂 歩 歩 香 金 金 歩 角 角 桂 銀 b 0 b 1 歩 歩 香 歩 金 玉 玉 Ply 1 歩 角 角 歩 歩 銀 歩 香 桂 金 玉 歩 歩 角 角 歩 歩 銀 歩 金 金 歩 歩 歩 香 桂 歩 歩 玉 銀 銀 歩 歩 角 角 銀 歩 金 金 歩 歩 歩 歩 桂 歩 玉 歩 桂 桂 歩 歩 歩 金 歩 金 銀 香 香 角 角 角 角 歩 歩 歩 歩 角 角 歩 銀 歩 歩 歩 角 角 桂 香 香 x 0 , 1 x 1 , 1 桂 桂 歩 歩 歩 歩 歩 金 歩 玉 金 歩 歩 銀 香 角 角 歩 歩 歩 歩 歩 歩 角 桂 香 桂 銀 銀 歩 歩 歩 歩 歩 歩 玉 歩 歩 歩 銀 Depth = 3 香 角 角 金 金 歩 歩 歩 歩 歩 歩 金 角 香 銀 歩 歩 歩 歩 歩 歩 銀 桂 Ply 2 y ˆ 香 桂 角 角 金 玉 玉 歩 歩 歩 歩 歩 歩 金 歩 角 香 銀 歩 歩 歩 歩 歩 歩 銀 歩 桂 香 桂 歩 角 角 玉 歩 歩 歩 歩 歩 歩 角 香 銀 歩 金 歩 金 金 歩 歩 歩 歩 歩 桂 x 0 , 2 x 1 , 2 桂 玉 歩 歩 歩 歩 香 角 角 金 歩 金 銀 歩 銀 角 角 歩 歩 歩 歩 角 香 桂 銀 玉 歩 歩 桂 桂 歩 歩 歩 金 金 歩 銀 歩 角 歩 歩 銀 歩 桂 香 歩 香 歩 金 玉 銀 歩 歩 角 歩 金 歩 香 歩 玉 銀 歩 桂 角 歩 Ply 3 金 香 歩 x 0 , 3 x 1 , 3 銀 桂 角 歩 金 香 歩 歩 桂 銀 角 歩 VA LV E R 桂 香 Branching factor = 3 香 Why Combine the two? ▸ AI & Games have a long history (Turing ’50& Minsky 60’) ▸ Simple to evaluate, reproducible, controllable, quick feedback loop ▸ Common benchmark for the research community 2 / 41

  4. Intro AlphaGo AlphaGo Zero AlphaZero Summary 1997: DeepBlue 1 vs Kasparov 2em1 1 Murray Campbell, A. Joseph Hoane, and Feng-hsiung Hsu. “Deep Blue”. In: Artif. Intell. 134.1–2 (Jan. 2002), 57–83. issn : 0004-3702. doi : 10.1016/S0004- 3702(01)00129- 1 . url : https://doi.org/10.1016/S0004-3702(01)00129-1 . 3 / 41

  5. Intro AlphaGo AlphaGo Zero AlphaZero Summary 1992: Tesauro’s TD-Gammon 2 2em1 2 Gerald Tesauro. “TD-Gammon, a Self-Teaching Backgammon Program, Achieves Master-Level Play”. In: Neural Comput. 6.2 (Mar. 1994), 215–219. issn : 0899-7667. doi : 10.1162/neco.1994.6.2.215 . url : https://doi.org/10.1162/neco.1994.6.2.215 . 4 / 41

  6. Intro AlphaGo AlphaGo Zero AlphaZero Summary 1959: Arthur Samuel’s Checkers Player 3 2em1 3 A. L. Samuel. “Some Studies in Machine Learning Using the Game of Checkers”. In: IBM J. Res. Dev. 3.3 (July 1959), 210–229. issn : 0018-8646. doi : 10.1147/rd.33.0210 . url : https://doi.org/10.1147/rd.33.0210 , A. L. Samuel. “Some Studies in Machine Learning Using the Game of Checkers”. In: IBM J. Res. Dev. 3.3 (July 1959), 210–229. issn : 0018-8646. doi : 10.1147/rd.33.0210 . url : https://doi.org/10.1147/rd.33.0210 . 5 / 41

  7. Intro AlphaGo AlphaGo Zero AlphaZero Summary 6 / 41

  8. Intro AlphaGo AlphaGo Zero AlphaZero Summary 7 / 41

  9. Intro AlphaGo AlphaGo Zero AlphaZero Summary Papers in Focus Today ▸ AlphaGo 4 ▸ AlphaGo Zero 5 ▸ AlphaZero 6 AlphaGo AlphaGo Zero Alpha Zero Nature, 6.5k citations Nature, 2.5k citations Science, 400 citations 2016 2017 2018 2em1 4 David Silver et al. “Mastering the Game of Go with Deep Neural Networks and Tree Search”. In: Nature 529.7587 (Jan. 2016), pp. 484–489. doi : 10.1038/nature16961 . 2em1 5 David Silver et al. “Mastering the game of Go without human knowledge”. In: Nature 550 (Oct. 2017), pp. 354–. url : http://dx.doi.org/10.1038/nature24270 . 2em1 6 David Silver et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”. In: Science 362.6419 (2018), pp. 1140–1144. url : http : //science.sciencemag.org/content/362/6419/1140/tab-pdf . 8 / 41

  10. Intro AlphaGo AlphaGo Zero AlphaZero Summary The Reinforcement Learning Problem ▸ Notation; policy : π , state : s , reward : r , action : a ▸ Agent’s goal: maximize reward, R t = ∞ 0 ≤ γ ≤ 1 ∑ γ k r t + k + 1 k = 0 ▸ RL’s goal, find optimal policy π ∗ = max π E [ R ∣ π ] Agent Action a t s t r t r t + 1 Environment s t + 1 9 / 41

  11. Intro AlphaGo AlphaGo Zero AlphaZero Summary RL Examples: Elevator (Crites & Barto ’95 7 ) select(up,down,wait,stop at floor 1 , ⋯ ,n ) a t + 1 y ˆ x 1 , 1 x 1 , 2 x 1 , 3 b 1 x 0 , 1 x 0 , 2 x 0 , 3 b 0 Elevator Agent r t + 1 Observations ElevatorPosition Reward ∈ R 2em1 7 Robert H. Crites and Andrew G. Barto. “Improving Elevator Performance Using Re- inforcement Learning”. In: Proceedings of the 8th International Conference on Neural Information Processing Systems . NIPS’95. Denver, Colorado: MIT Press, 1995, 1017–1023. 10 / 41

  12. Intro AlphaGo AlphaGo Zero AlphaZero Summary RL Examples: Atari (Mnih ’15) 8 a t + 1 ⋯ Q ( s,a 1 ) Q ( s,a 18 ) DQN Agent r t + 1 Observations Reward ∈ R Screen frames ∈ R 4 × 84 × 84 2em1 8 Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (Feb. 2015), pp. 529–533. issn : 00280836. url : http://dx.doi.org/10.1038/ nature14236 . 11 / 41

  13. Intro AlphaGo AlphaGo Zero AlphaZero Summary How to Act Optimally? (Bellman 57’ 9 ) ∞ optimal ( s t ) = max E [ γ k − 1 r t + k ∣ s t ] ∑ π k = 1 2em1 9 Richard Bellman. Dynamic Programming . Dover Publications, 1957. isbn : 9780486428093. 12 / 41

  14. Intro AlphaGo AlphaGo Zero AlphaZero Summary How to Act Optimally? (Bellman 57’ 10 ) ∞ optimal ( s t ) = max E [ γ k − 1 r t + k ∣ s t ] ∑ π k = 1 ∞ = max E [ r t + 1 γ k − 1 r t + k ∣ s t ] ∑ π k = 2 ∞ = max a t E [ r t + 1 + max E [ ∑ γ k − 1 r t + k ∣ s t + 1 ]∣ s t ] π k = 2 = max a t E [ r t + 1 + γ max E [ ∞ γ k − 2 r t + k ∣ s t + 1 ]∣ s t ] ∑ π k = 2 ∞ = max a t E [ r t + 1 + γ max E [ γ k − 2 r t + k ∣ s t + 1 ]∣ s t ] ∑ π k = 2 = max a t E [ r t + 1 + γoptimal ( s t + 1 )∣ s t ] 12 / 41 2em1 10 Richard Bellman. Dynamic Programming . Dover Publications, 1957. isbn : 9780486428093.

  15. Intro AlphaGo AlphaGo Zero AlphaZero Summary Reinforcement Learning: An Overview Deep Reinforcement Learning Gradient ∇ θ L ( y, ˆ y ) b 0 b 1 ⎛ ⎞ x 1 ⎜ ⎟ ⋮ x 0 , 1 x 1 , 1 ⎜ ⎟ y ˆ L ( y, ˆ y ) ⎝ ⎠ y ˆ x n x 0 , 2 x 1 , 2 C C C C C O O O O O x 0 , 3 x 1 , 3 N N N N N V V V V V Features Model θ Prediction Loss Algorithms: DQN, DDPG, Double-DQN 13 / 41

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend