Learning to Select Expert Demonstra4ons for Deformable - - PowerPoint PPT Presentation

learning to select expert demonstra4ons for deformable
SMART_READER_LITE
LIVE PREVIEW

Learning to Select Expert Demonstra4ons for Deformable - - PowerPoint PPT Presentation

Learning to Select Expert Demonstra4ons for Deformable Object Manipula4on Dylan Hadfield-Menell, Alex Lee, Sandy Huang, Eric Tzeng, Pieter Abbeel Workshop on


slide-1
SLIDE 1

Learning ¡to ¡Select ¡Expert ¡Demonstra4ons ¡ for ¡Deformable ¡Object ¡Manipula4on ¡

Dylan ¡Hadfield-­‑Menell, ¡Alex ¡Lee, ¡Sandy ¡Huang, ¡Eric ¡Tzeng, ¡Pieter ¡Abbeel ¡ Workshop ¡on ¡Informa4on-­‑Based ¡Grasp ¡and ¡Manipula4on ¡Planning ¡ July ¡13, ¡2014 ¡ RSS ¡2014 ¡

slide-2
SLIDE 2

Vision ¡

  • We’d ¡like ¡robots ¡to ¡be ¡able ¡to ¡do ¡lots ¡of ¡things ¡
  • Need ¡deformable ¡object ¡manipula4on ¡
  • Ease ¡of ¡programming ¡
slide-3
SLIDE 3

Deformable ¡Object ¡Manipula4on ¡

  • High-­‑Dimensional, ¡Con4nuous ¡State ¡and ¡

Ac4on ¡Spaces ¡

  • Long ¡Time ¡Horizons ¡
  • Complex ¡Dynamics ¡
  • Example: ¡Knot-­‑Tying ¡with ¡the ¡PR2 ¡

S ⊂ R230 A ⊂ R14 H ≈ 100

slide-4
SLIDE 4

Trajectory ¡Transfer ¡

  • Planning ¡for ¡deformable ¡object ¡manipula4on ¡

is ¡a ¡serious ¡challenge ¡

– Substan4al ¡improvements ¡in ¡exis4ng ¡methods ¡ before ¡tractability ¡

  • Solu4on: ¡Don’t ¡plan! ¡ ¡

– modify ¡demonstra4on ¡trajectories ¡to ¡fit ¡the ¡ current ¡situa4on ¡

slide-5
SLIDE 5

Trajectory ¡demonstra4on ¡ ¡ ¡ What ¡trajectory ¡here? ¡

Train ¡situa4on: ¡

¡

¡ Test ¡situa4on: ¡

? ¡

Trajectory ¡Transfer: ¡Cartoon ¡Problem ¡ Se\ng ¡

Samples ¡of ¡ f ¡: ¡R3 ¡à ¡R3 ¡

slide-6
SLIDE 6

Transferring ¡a ¡Trajectory ¡

Transform ¡ Trajectory ¡ Trajectory ¡ {pi} ¡Scene ¡{xi} Test ¡ ¡Scene ¡ {yi} Demonstra4on ¡ Execu4on ¡ ¡

  • n ¡Robot ¡

{p0

i}

Trajectory ¡ Following ¡

f ∗

min

p0

i

||f ⇤(pi) − p0

i||

f ∗({pi})

Fit ¡ ¡ Transfer ¡ ¡ Func4on ¡

slide-7
SLIDE 7

Example ¡Trajectory ¡Transfer ¡

  • J. ¡Schulman, ¡J. ¡Ho, ¡C. ¡Lee, ¡P. ¡Abbeel. ¡‘Generaliza4on ¡of ¡robo4c ¡manipula4on ¡through ¡the ¡use ¡of ¡

non-­‑rigid ¡registra4on.’ ¡ISRR ¡2013. ¡

  • J. ¡Schulman, ¡A. ¡Gupta, ¡S. ¡Venkatesan, ¡M. ¡Taylor-­‑Frederick, ¡P. ¡Abbeel. ¡‘A ¡case ¡study ¡of ¡ ¡trajectory ¡

transfer ¡through ¡non-­‑rigid ¡registra4on ¡for ¡a ¡simplified ¡suturing ¡scenario.’ ¡IROS ¡2013. ¡

  • A. ¡Lee, ¡S. ¡Huang, ¡D. ¡Hadfield-­‑Menell, ¡E. ¡Tzeng, ¡P. ¡Abbeel. ¡‘Unifying ¡scene ¡registra4on ¡and ¡trajectory ¡
  • p4miza4on ¡for ¡learning ¡from ¡demonstra4ons ¡with ¡applica4on ¡to ¡manipula4on ¡of ¡deformable ¡
  • bjects.’ ¡IROS ¡2014 ¡
slide-8
SLIDE 8

Fit ¡ ¡ Transfer ¡ ¡ Func4on ¡ Transform ¡ Trajectory ¡ Test ¡ ¡Scene ¡ {yi} Demonstra4on ¡ Library ¡ ¡ ¡ ¡ Execu4on ¡ ¡

  • n ¡Robot ¡

{p0

i}

¡Scene ¡{x(0)

i }

D

Trajectory ¡{p(0)

i }

Demonstra4on ¡ Selec4on ¡

argmax

d∈D

{x(j∗)

i

} {p(j∗)

i

}

Trajectory ¡ Following ¡

f ∗

f ∗({p(j∗)

i

})

min

p0

i

||f ⇤(pi) − p0

i||

slide-9
SLIDE 9

How ¡do ¡we ¡ ¡select ¡the ¡‘best’ ¡ Demonstra4on? ¡

  • Different ¡demonstra4ons ¡may ¡have ¡very ¡

different ¡results ¡under ¡transfer ¡

– Selec4ng ¡the ¡wrong ¡one ¡may ¡move ¡to ¡a ¡state ¡ where ¡we ¡don’t ¡have ¡good ¡demonstra4ons! ¡

  • [Schulman ¡et ¡al. ¡ISRR ¡2013] ¡

– Select ¡nearest ¡neighbor ¡with ¡respect ¡to ¡rigidity ¡of ¡ the ¡transforma4on ¡ ¡

  • How ¡to ¡improve ¡on ¡this? ¡

– Need ¡a ¡framework ¡for ¡demonstra4on ¡selec4on! ¡

slide-10
SLIDE 10

Demo ¡+ ¡Transfer ¡Method ¡è ¡Policy ¡

Transform ¡ Trajectory ¡ Fit ¡ ¡ Transfer ¡ ¡ Func4on ¡ Trajectory ¡ Following ¡ min

p0

i

||f ⇤(pi) − p0

i||

Demonstra4on ¡ New ¡Scene ¡ New ¡Trajectory ¡ ¡ ¡ ¡

πd

d

slide-11
SLIDE 11

Demo ¡+ ¡Transfer ¡Method ¡è ¡Policy ¡

New ¡Scene ¡ New ¡Trajectory ¡

πd

Trajectory ¡ Controller ¡

  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡specifies ¡an ¡op#on ¡

– Op4on ¡= ¡policy ¡+ ¡termina4on ¡ condi4on ¡ – Selec4ng ¡an ¡op4on ¡runs ¡the ¡ corresponding ¡policy ¡un4l ¡the ¡ termina4on ¡condi4on ¡

¡

πd

M

Original ¡(intractable) ¡MDP ¡ Demonstra4on ¡Library ¡ Op4ons ¡MDP ¡

D

MD

slide-12
SLIDE 12

vs ¡ ¡ ¡

M MD

R230 R230

R14

|D| ≈ 150

≈ 100

≈ 4

|S|

|A|

H

slide-13
SLIDE 13

Takeaways ¡

  • Heuris4c ¡Method ¡from ¡ISRR ¡paper ¡is ¡a ¡policy ¡

for ¡ ¡

  • Learning ¡policies ¡is ¡something ¡we ¡know ¡how ¡

to ¡do ¡

  • Can ¡we ¡apply ¡that ¡here? ¡

– State ¡space ¡is ¡s4ll ¡a ¡challenge ¡

  • Solu4on: ¡use ¡expert ¡knowledge ¡again ¡

– This ¡4me ¡about ¡which ¡demonstra4ons ¡to ¡transfer ¡

MD

slide-14
SLIDE 14

Max-­‑Margin ¡Policy ¡Cloning ¡

φ1 φ2

Expert ¡Transfer ¡ Selec4on ¡ Subop4mal ¡Transfer ¡ Selec4ons ¡ Maximum ¡Margin ¡ Separator ¡

slide-15
SLIDE 15

Max-­‑Margin ¡Policy ¡Cloning ¡

min

w

w>w s.t. w>φ(s, dexp) ≥ w>φ(s, d0) + 1; ∀s

Maximize ¡the ¡Margin ¡ Prefer ¡Expert ¡ Selec4ons ¡

Details ¡

  • Expert ¡Selec4ons ¡gathered ¡by ¡watching ¡mul4ple ¡

transfers ¡from ¡same ¡state ¡and ¡selec4ng ¡`best’ ¡

  • Structured ¡margin ¡to ¡capture ¡similarity ¡between ¡

demonstra4ons ¡

  • Slack ¡variables ¡to ¡cope ¡with ¡sub-­‑op4mality ¡in ¡choices ¡
slide-16
SLIDE 16

Max-­‑Margin ¡Q-­‑func4on ¡Es4ma4on ¡

  • Policy ¡Cloning ¡is ¡good, ¡but ¡has ¡some ¡drawbacks ¡

– Ranking ¡func4on ¡has ¡no ¡natural ¡interpreta4on ¡ – No ¡direct ¡no4on ¡of ¡progress ¡ – No ¡comparisons ¡between ¡states ¡

  • We ¡have ¡a ¡bunch ¡of ¡other ¡informa4on ¡

– Cost ¡func4on ¡for ¡MDP, ¡Bellman ¡constraints ¡on ¡value ¡ func4on…etc ¡

  • Solu4on: ¡modify ¡Max-­‑Margin ¡Policy ¡Cloning ¡to ¡

learn ¡an ¡approximate ¡Q-­‑func4on ¡

slide-17
SLIDE 17

Max-­‑Margin ¡Q-­‑func4on ¡Es4ma4on ¡

Maximize ¡the ¡Margin ¡ Minimize ¡Bellman ¡ Error ¡ Prefer ¡Expert ¡ Selec4ons ¡

min

w,ξi w>w +

X |ξi| s.t. w>φ(si, dexp(si) = w>φ(si+1, dexp(si+1) − γC + ξi w>φ(s, dexp(s)) ≥ w>φ(s, d0) + 1; ∀s

slide-18
SLIDE 18

Evalua4on ¡on ¡Overhand ¡Knot-­‑Tying ¡

  • Distribu4on ¡over ¡ini4al ¡states ¡

– Ini4al ¡states ¡from ¡demonstra4ons ¡with ¡10cm ¡perturba4ons ¡at ¡7 ¡ random ¡loca4ons ¡along ¡rope ¡

  • Compare ¡success ¡rate ¡for ¡tying ¡overhand ¡knot ¡on ¡500 ¡perturbed ¡

instances ¡

Example ¡Ini4al ¡State ¡ Samples ¡from ¡Perturbed ¡Distribu4on ¡

slide-19
SLIDE 19

Evalua4on ¡on ¡Overhand ¡Knot-­‑Tying ¡

0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡ 80 ¡ 90 ¡ [Schulman ¡et ¡al. ¡ISRR ¡'13] ¡ Max ¡Margin ¡Policy ¡Cloning ¡ Max ¡Margin ¡Q-­‑func4on ¡ Es4ma4on ¡ % ¡of ¡Problems ¡Solved ¡

Success ¡Rate ¡

56% ¡ 72% ¡ 79% ¡

slide-20
SLIDE 20

Search ¡

  • We ¡have ¡an ¡es4mate ¡of ¡the ¡Q-­‑func4on ¡
  • If ¡we ¡have ¡access ¡to ¡a ¡simulator, ¡we ¡can ¡do ¡a ¡

local ¡expansion ¡of ¡the ¡state ¡space ¡graph ¡

  • Select ¡the ¡ac4on ¡that ¡maximizes ¡the ¡Q-­‑

func4on ¡at ¡the ¡search ¡horizon ¡

  • Large ¡Branching ¡Factor ¡à ¡Beam ¡Search ¡
slide-21
SLIDE 21

Evalua4on ¡on ¡Overhand ¡Knot-­‑Tying ¡

0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡ 80 ¡ 90 ¡ 100 ¡ [Schulman ¡et ¡al. ¡ '13] ¡ Max ¡Margin ¡Policy ¡ Cloning ¡ Max ¡Margin ¡Q-­‑ func4on ¡Es4ma4on ¡ Beam ¡Search ¡ (Width ¡10, ¡Depth ¡2) ¡ % ¡of ¡problems ¡solved ¡ ¡

Success ¡Rate ¡

56% ¡ 72% ¡ 79% ¡ 94% ¡

slide-22
SLIDE 22

Next ¡Steps ¡

  • More ¡difficult ¡tasks ¡

– More ¡complex ¡knots ¡à ¡longer ¡4me ¡horizon ¡

  • Other ¡robots ¡

– Humanoid ¡robot ¡demonstra4on ¡from ¡mo4on ¡ capture ¡ – More ¡complicated ¡end ¡effectors ¡

  • Transferring ¡more ¡than ¡trajectories? ¡

– Linear ¡Feedback ¡controllers? ¡Arbitrary ¡policies? ¡ ¡