Le Learning De Deep Co Control Po Policies fo for Au Autonomous - - PowerPoint PPT Presentation

le learning de deep co control po policies fo for au
SMART_READER_LITE
LIVE PREVIEW

Le Learning De Deep Co Control Po Policies fo for Au Autonomous - - PowerPoint PPT Presentation

Le Learning De Deep Co Control Po Policies fo for Au Autonomous Ae Aerial Ve Vehicles wi with MP MPC- -Gu Guided Po Policy Se Search Tianhao Zhang, Gregory Kahn, Sergey Levine, Pieter Abbeel


slide-1
SLIDE 1

Le Learning De Deep Co Control Po Policies fo for Au Autonomous Ae Aerial Ve Vehicles wi with MP MPC-­‑

  • ­‑Gu

Guided Po Policy Se Search

Tianhao ¡Zhang, ¡Gregory ¡Kahn, ¡Sergey ¡Levine, ¡Pieter ¡Abbeel

Berkeley ¡Artificial ¡Intelligence ¡Research ¡Laboratory ¡(BAIR)

slide-2
SLIDE 2

Mo Motivation

  • Enable ¡autonomous ¡aerial ¡vehicles ¡(AAVs)

to ¡navigate ¡complex, ¡unstructured ¡environments

slide-3
SLIDE 3

Ch Challenges

  • Complex, ¡unstructured ¡environments
  • no ¡explicit ¡state ¡estimation
  • Use ¡raw ¡observations ¡from ¡onboard ¡sensors
  • high ¡dimensionality ¡ and ¡non-­‑linearity
  • Real-­‑time ¡evaluation ¡at ¡test ¡time
  • computationally ¡efficient
  • Robust ¡to ¡model ¡errors ¡and ¡environment ¡

disturbances

  • flying ¡systems ¡are ¡prone ¡to ¡catastrophic ¡failures

Guided ¡Policy ¡Search ¡* ¡ Model ¡Predictive ¡Control

* ¡S. ¡Levine ¡& ¡P . ¡Abbeel. ¡"Learning ¡neural ¡network ¡policies ¡with ¡guided ¡policy ¡search ¡under ¡unknown ¡dynamics." NIPS. ¡2014.

  • S. ¡Levine ¡et ¡al. ¡"End-­‑to-­‑end ¡training ¡of ¡deep ¡visuomotor policies." JMLR. 2015.
slide-4
SLIDE 4

Ap Approach: ¡ ¡MPC-­‑

  • ­‑GP

GPS

  • Guided ¡Policy ¡Search ¡(GPS)
  • Trajectory ¡optimization
  • Supervised ¡ learning
  • Policy ¡agreement
  • MPC-­‑GPS
  • Substitute ¡offline ¡trajectory ¡
  • ptimization ¡for ¡online ¡MPC

Trajectory ¡ Optimization Objective ¡Cost Execute

  • n ¡Robot

Train ¡Neural ¡ Network Policy ¡ Agreement ¡Cost Online ¡MPC

slide-5
SLIDE 5

Ap Approach: ¡ ¡MPC-­‑

  • ­‑GP

GPS ¡ ¡(cont.)

  • Training: ¡
  • use ¡instrumented ¡setup ¡to ¡obtain ¡

full ¡state ¡information ¡ x

  • MPC ¡uses ¡x to ¡generate ¡trajectories
  • Record ¡observations ¡o
  • Policy ¡is ¡trained ¡to ¡map ¡from ¡o to ¡u
  • Test:
  • No ¡need ¡for ¡instrumented ¡ setup
  • Policy ¡runs ¡in ¡closed ¡loop
slide-6
SLIDE 6

Ex Experiment ¡ ¡Ov Overview

Hallway Cylinder

  • no ¡model ¡error
  • 0.05kg mass ¡error
  • 8% rotor ¡bias
  • perturbed ¡ model ¡params

Training ¡ Environments Model ¡Errors

slide-7
SLIDE 7

Ex Experimental ¡ ¡Evaluation

Baseline MPC-­‑GPS

Cylinder ¡-­‑ 0.05kg ¡mass ¡error

slide-8
SLIDE 8

Ex Experimental ¡ ¡Ev Evaluation ¡ ¡(cont.)

2x

slide-9
SLIDE 9

Ex Experimental ¡ ¡Evaluation ¡ ¡(cont.)

3x

slide-10
SLIDE 10

Thank ¡you!