cse 473 ar ficial intelligence
play

CSE 473: Ar+ficial Intelligence Reinforcement Learning - PowerPoint PPT Presentation

CSE 473: Ar+ficial Intelligence Reinforcement Learning Dan Weld University of Washington [Most of these slides were created by Dan Klein and Pieter


  1. CSE ¡473: ¡Ar+ficial ¡Intelligence ¡ ¡ Reinforcement ¡Learning ¡ Dan ¡Weld ¡ University ¡of ¡Washington ¡ [Most ¡of ¡these ¡slides ¡were ¡created ¡by ¡Dan ¡Klein ¡and ¡Pieter ¡Abbeel ¡for ¡CS188 ¡Intro ¡to ¡AI ¡at ¡UC ¡Berkeley. ¡ ¡All ¡CS188 ¡materials ¡are ¡available ¡at ¡hNp://ai.berkeley.edu.] ¡

  2. Midterm ¡Postmortem ¡ § It ¡was ¡long, ¡hard… ¡ L ¡ § Max ¡ ¡ ¡41 ¡ ¡ § Min ¡ ¡ ¡13 ¡ § Mean ¡& ¡Median ¡27 ¡ § Final ¡ § Will ¡include ¡some ¡of ¡the ¡midterm ¡problems ¡

  3. Office ¡Hour ¡Change ¡(this ¡week) ¡ § Thurs ¡10-­‑11am ¡ § CSE ¡588 ¡ § (Not ¡Fri) ¡ “Listen Simkins, when I said that you could always come to me with your problems, I meant during office hours!”

  4. Reinforcement ¡Learning ¡

  5. Two ¡Key ¡Ideas ¡ § Credit ¡assignment ¡problem ¡ § Explora+on-­‑exploita+on ¡tradeoff ¡

  6. Reinforcement ¡Learning ¡ ¡ Agent ¡ State: ¡s ¡ Ac+ons: ¡a ¡ Reward: ¡r ¡ Environment ¡ § Basic ¡idea: ¡ § Receive ¡feedback ¡in ¡the ¡form ¡of ¡rewards ¡ § Agent’s ¡u+lity ¡is ¡defined ¡by ¡the ¡reward ¡func+on ¡ § Must ¡(learn ¡to) ¡act ¡so ¡as ¡to ¡maximize ¡expected ¡rewards ¡ § All ¡learning ¡is ¡based ¡on ¡observed ¡samples ¡of ¡outcomes! ¡

  7. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 7

  8. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 8

  9. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 9

  10. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 10

  11. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 11

  12. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 13, “ = 0, “ = 2 12

  13. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 13, “ = 0, “ = 2 “ “ “ 54, “ = 0, “ = 2 13

  14. The “ Credit Assignment ” Problem I ’ m in state 43, reward = 0, action = 2 “ “ “ 39, “ = 0, “ = 4 “ “ “ 22, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 21, “ = 0, “ = 1 “ “ “ 13, “ = 0, “ = 2 “ “ “ 54, “ = 0, “ = 2 “ “ “ 26, “ = 100 , Yippee! I got to a state with a big reward! But which of my actions along the way actually helped me get there?? This is the Credit Assignment problem. 14

  15. Exploration-Exploitation tradeoff § You have visited part of the state space and found a reward of 100 § is this the best you can hope for??? § Exploitation : should I stick with what I know and find a good policy w.r.t. this knowledge? § at risk of missing out on a better reward somewhere § Exploration : should I look for states w/ more reward? § at risk of wasting time & getting some negative reward 15

  16. Example: Animal Learning § RL studied experimentally for more than 60 years in psychology § Rewards: food, pain, hunger, drugs, etc. § Mechanisms and sophistication debated § Example: foraging § Bees learn near-optimal foraging plan in field of artificial flowers with controlled nectar supplies § Bees have a direct neural connection from nectar intake measurement to motor planning area

  17. Example: Backgammon § Reward only for win / loss in terminal states, zero otherwise § TD-Gammon learns a function approximation to V(s) using a neural network § Combined with depth 3 search, one of the top 3 players in the world § You could imagine training Pacman this way … § … but it ’ s tricky! (It ’ s also P3)

  18. Demos ¡ § hNp://inst.eecs.berkeley.edu/~ee128/fa11/videos.html ¡ 18

  19. Extreme Driving http://www.youtube.com/watch?v=gzI54rm9m1Q 19

  20. Example: ¡Learning ¡to ¡Walk ¡ Ini+al ¡ A ¡Learning ¡Trial ¡ Aher ¡Learning ¡[1K ¡Trials] ¡ [Kohl ¡and ¡Stone, ¡ICRA ¡2004] ¡

  21. Example: ¡Learning ¡to ¡Walk ¡ Ini+al ¡ [Kohl ¡and ¡Stone, ¡ICRA ¡2004] ¡ [Video: ¡AIBO ¡WALK ¡– ¡ini+al] ¡

  22. Example: ¡Learning ¡to ¡Walk ¡ Training ¡ [Kohl ¡and ¡Stone, ¡ICRA ¡2004] ¡ [Video: ¡AIBO ¡WALK ¡– ¡training] ¡

  23. Example: ¡Learning ¡to ¡Walk ¡ Finished ¡ [Kohl ¡and ¡Stone, ¡ICRA ¡2004] ¡ [Video: ¡AIBO ¡WALK ¡– ¡finished] ¡

  24. Example: ¡Sidewinding ¡ [Andrew ¡Ng] ¡ [Video: ¡SNAKE ¡– ¡climbStep+sidewinding] ¡

  25. Example: ¡Toddler ¡Robot ¡ [Tedrake, ¡Zhang ¡and ¡Seung, ¡2005] ¡ [Video: ¡TODDLER ¡– ¡40s] ¡

  26. The ¡Crawler! ¡ [Demo: ¡Crawler ¡Bot ¡(L10D1)] ¡[You, ¡in ¡Project ¡3] ¡

  27. Video ¡of ¡Demo ¡Crawler ¡Bot ¡

  28. Other Applications § Robotic control § helicopter maneuvering, autonomous vehicles § Mars rover - path planning, oversubscription planning § elevator planning § Game playing - backgammon, tetris, checkers § Neuroscience § Computational Finance, Sequential Auctions § Assisting elderly in simple tasks § Spoken dialog management § Communication Networks – switching, routing, flow control § War planning, evacuation planning

  29. Reinforcement ¡Learning ¡ § S+ll ¡assume ¡a ¡Markov ¡decision ¡process ¡(MDP): ¡ § A ¡set ¡of ¡states ¡s ¡ ∈ ¡S ¡ § A ¡set ¡of ¡ac+ons ¡(per ¡state) ¡A ¡ § A ¡model ¡T(s,a,s’) ¡ § A ¡reward ¡func+on ¡R(s,a,s’) ¡& ¡discount ¡γ ¡ § S+ll ¡looking ¡for ¡a ¡policy ¡ π (s) ¡ § New ¡twist: ¡don’t ¡know ¡T ¡or ¡R ¡ § I.e. ¡we ¡don’t ¡know ¡which ¡states ¡are ¡good ¡or ¡what ¡the ¡ac+ons ¡do ¡ § Must ¡actually ¡try ¡ac+ons ¡and ¡states ¡out ¡to ¡learn ¡

  30. Overview ¡ § Offline ¡Planning ¡(MDPs) ¡ § Value ¡itera+on, ¡policy ¡itera+on ¡ § Online: ¡Reinforcement ¡Learning ¡ § Model-­‑Based ¡ § Model-­‑Free ¡ § Passive ¡ § Ac+ve ¡

  31. Offline ¡(MDPs) ¡vs. ¡Online ¡(RL) ¡ Offline ¡Solu+on ¡ Online ¡Learning ¡

  32. Passive ¡Reinforcement ¡Learning ¡

  33. Passive ¡Reinforcement ¡Learning ¡ § Simplified ¡task: ¡policy ¡evalua+on ¡ § Input: ¡a ¡fixed ¡policy ¡ π (s) ¡ § You ¡don’t ¡know ¡the ¡transi+ons ¡T(s,a,s’) ¡ § You ¡don’t ¡know ¡the ¡rewards ¡R(s,a,s’) ¡ § Goal: ¡learn ¡the ¡state ¡values ¡ § In ¡this ¡case: ¡ § Learner ¡is ¡“along ¡for ¡the ¡ride” ¡ § No ¡choice ¡about ¡what ¡ac+ons ¡to ¡take ¡ § Just ¡execute ¡the ¡policy ¡and ¡learn ¡from ¡experience ¡ § This ¡is ¡NOT ¡offline ¡planning! ¡ ¡You ¡actually ¡take ¡ac+ons ¡in ¡the ¡world. ¡

  34. Model-­‑Based ¡Learning ¡

  35. Model-­‑Based ¡Learning ¡ § Model-­‑Based ¡Idea: ¡ § Learn ¡an ¡approximate ¡model ¡based ¡on ¡experiences ¡ § Solve ¡for ¡values ¡as ¡if ¡the ¡learned ¡model ¡were ¡correct ¡ § Step ¡1: ¡Learn ¡empirical ¡MDP ¡model ¡ § Count ¡outcomes ¡s’ ¡for ¡each ¡s, ¡a ¡ § Normalize ¡to ¡give ¡an ¡es+mate ¡of ¡ § Discover ¡each ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ when ¡we ¡experience ¡(s, ¡a, ¡s’) ¡ § Step ¡2: ¡Solve ¡the ¡learned ¡MDP ¡ § For ¡example, ¡use ¡value ¡itera+on, ¡as ¡before ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend