Online Convex Optimization Using Predictions Niangjun Chen - - PowerPoint PPT Presentation

online convex optimization using predictions
SMART_READER_LITE
LIVE PREVIEW

Online Convex Optimization Using Predictions Niangjun Chen - - PowerPoint PPT Presentation

Online Convex Optimization Using Predictions Niangjun Chen Joint work with Anish Agarwal, Lachlan Andrew, Siddharth Barman, and Adam Wierman 1 " " ( "


slide-1
SLIDE 1

Online ¡Convex ¡Optimization ¡ Using ¡Predictions

Niangjun ¡Chen ¡

Joint ¡work ¡with ¡Anish ¡Agarwal, ¡Lachlan ¡Andrew, ¡Siddharth Barman, ¡and ¡Adam ¡Wierman

1

slide-2
SLIDE 2

𝑑" 𝑑"(𝑦") 𝑦" 𝐺

2

slide-3
SLIDE 3

𝛾‖𝑦) − 𝑦"‖ 𝑦" 𝑦) 𝑑) 𝑦) 𝐺 𝑑)

3

slide-4
SLIDE 4

𝑦+ 𝑑+ 𝑑+(𝑦+) 𝛾‖𝑦+ − 𝑦)‖ 𝑦" 𝑦) 𝐺 min

/0∈2 ¡4 ¡𝑑5 𝑦5

  • 5

+ 𝛾‖𝑦5 − 𝑦58"‖ ¡

  • nline

𝑦", 𝑑", 𝑦), 𝑑), 𝑦+, 𝑑+ …

switching ¡cost

Goal: ¡ ¡Algorithms ¡to ¡minimize ¡cost

convex

4

slide-5
SLIDE 5

Dynamic ¡capacity ¡management ¡in ¡data ¡centers ¡[Tu et ¡al. ¡2013] Power ¡system ¡generation/load ¡scheduling[Lu ¡et ¡al. ¡ ¡2013] ¡ Portfolio ¡management ¡[Cover ¡1991][Boyd ¡et ¡al. ¡2012] Video ¡streaming ¡[Sen ¡et ¡al. ¡2000][Liu ¡et ¡al. ¡2008] Network ¡routing ¡[Bansal ¡et ¡al. ¡2003][Kodialam et ¡al. ¡2003] Geographical ¡load ¡balancing ¡[Hindman et ¡al. ¡2011] ¡[Lin ¡et ¡al. ¡2012] … ¡

Lots ¡of ¡applications ¡…

5

slide-6
SLIDE 6

In ¡most ¡applications, ¡predictions ¡are ¡crucial

But ¡we ¡do ¡not ¡have ¡a ¡good ¡understanding ¡about ¡how ¡(imperfect) ¡predictions impact ¡online ¡algorithm ¡design

6

slide-7
SLIDE 7

This ¡talk: ¡Online ¡Convex ¡Optimization ¡Using ¡Predictions

7

slide-8
SLIDE 8

𝑑" 𝑑"(𝑦") 𝑦" 𝐺 𝑑"|< 𝑑)|< 𝑑+|<

8

slide-9
SLIDE 9

𝛾‖𝑦) − 𝑦"‖ 𝑦" 𝑦) 𝑑) 𝑑) 𝑦) 𝐺 𝑑)|" 𝑑+|" 𝑑=|"

9

slide-10
SLIDE 10

𝑦+ 𝑑+ 𝑑+(𝑦+) 𝛾‖𝑦+ − 𝑦)‖ 𝑦" 𝑦) 𝐺 𝑑+|) 𝑑=|) 𝑑>|)

10

slide-11
SLIDE 11

min

/0∈2 4 𝑑 𝑦5, 𝑧5

  • 5

+ 𝛾‖𝑦5 − 𝑦58"‖ ¡

switching ¡cost

  • nline

𝑦", 𝑧", 𝑦), 𝑧), 𝑦+, 𝑧+ …

convex

Online ¡convex ¡optimization ¡using ¡predictions

e.g. ¡online ¡tracking ¡cost 𝑑(𝑦5, 𝑧5) = 1 2 𝑧5 − 𝐿𝑦5

)

Time Information ¡Available Decision 1 𝑧"|< 𝑧)|< 𝑧+|< … ¡ 𝑦" 2 𝑧" 𝑧)|" 𝑧+|" … 𝑦) 3 𝑧" 𝑧) 𝑧+|) … 𝑦+ 4 𝑧" 𝑧) 𝑧+ … 𝑦= ¡

Given ¡ ¡prediction ¡of ¡𝑧5 ¡at ¡time ¡𝜐, 𝑧5|E

11

slide-12
SLIDE 12

How ¡do ¡algorithms ¡model ¡prediction ¡noise?

ØLearning ¡and ¡Algorithms: Perfect ¡lookahead model ¡

(Near) ¡perfect ¡lookahead for ¡𝑥 time ¡steps ¡and ¡then ¡adversarial

Both ¡too ¡optimistic ¡and ¡pessimistic ØControl ¡and ¡Signal ¡Processing: Stochastic ¡model

Assume ¡a ¡stochastic ¡process ¡and ¡derive ¡optimal ¡predictor

Too ¡sensitive ¡to ¡assumptions ØSystems ¡Design: ¡Numeric ¡evaluation ¡

Test ¡predictor ¡given ¡historic ¡traces

No ¡guarantee ¡for ¡performance

Worst ¡case ¡analysis Average ¡case ¡analysis

12

slide-13
SLIDE 13

Ou Our ¡ ¡contribution: ¡ ¡a ¡ a ¡gen ener eral ¡ al ¡an and ¡ ¡tr trac actab able ¡ le ¡ mo model ¡ ¡for ¡ r ¡prediction ¡ ¡

Key ¡message: ¡prediction ¡allows

  • 1. Overcoming ¡“impossibility” ¡results ¡for ¡OCO ¡with ¡minimal ¡structural ¡

assumption

  • 2. Mixture ¡of ¡average ¡case ¡and ¡worst ¡case ¡analysis

13

slide-14
SLIDE 14

Outline

  • 1. Background ¡: ¡regret ¡and ¡competitive ¡ratio

OCO ¡without ¡prediction OCO ¡with ¡worst ¡case ¡prediction

  • 2. Our ¡prediction ¡noise ¡model
  • 3. Algorithm ¡design
  • 4. OCO ¡with ¡stochastic ¡prediction ¡noise ¡

14

slide-15
SLIDE 15

Two ¡communities, ¡two ¡metrics

¡Online ¡Learning

Regret(Alg) = ¡ supy[Cost(Alg) ¡– ¡Cost(STA)] Goal: ¡sublinear ¡regret

Online ¡Algorithm

Competitive ¡ratio(Alg) = ¡supy Cost Alg Cost OPT Goal: ¡constant ¡competitive ¡ratio

Real ¡applications ¡want ¡both

15

slide-16
SLIDE 16

ØSublinear regret? ØConstant ¡CR? ØSublinear regret ¡and ¡constant ¡CR? Yes, ¡[Kivinen & ¡Vempala 2002] ¡[Bansal ¡et ¡al. ¡2003] [Zinkevich 2003] ¡[Hazan et ¡al. ¡2007] ¡[Lin ¡et ¡al. ¡2012] ¡… Yes, ¡but ¡only ¡for ¡scalar ¡case ¡ [Blum ¡et ¡al. ¡1992] ¡[Borodin ¡et ¡al. ¡1992][Blum ¡& ¡Burch ¡2000] [Lin ¡et ¡al. ¡2011][Lin ¡et ¡al. ¡2012] ¡… Not ¡even ¡in ¡scalar ¡case! ¡[Andrew ¡et ¡al. ¡2013]

16

Guarantees ¡without ¡prediction

slide-17
SLIDE 17

1st cut, ¡perfect ¡lookahead: ¡ 𝑧5|E = 𝑧5 for ¡any ¡time ¡𝑢 ≤ 𝜐 + 𝑥 ¡ ØSublinear ¡regret? ØConstant ¡CR? ØSublinear regret ¡and ¡constant ¡CR?

Yes, ¡[Kivinen & ¡Vempala 2002] ¡[Bansal ¡et ¡al. ¡2003] ¡ [Zinkevich 2003] ¡[Hazan et ¡al. ¡2007] ¡[Lin ¡et ¡al. ¡2012] ¡… Yes ¡in ¡general [Lin ¡et ¡al. ¡2013] Not ¡without ¡a ¡lot ¡of ¡prediction ¡[Chen ¡et ¡al. ¡2015]

17

Guarantees ¡with ¡prediction

slide-18
SLIDE 18

Theorem: ¡ An ¡online ¡algorithm ¡with ¡perfect ¡lookahead requires ¡unbounded ¡lookahead window ¡𝑥 to ¡simultaneously ¡achieve ¡sublinear ¡regret ¡and a ¡constant ¡competitive ¡ratio. 𝑥 = 𝜕 1 as ¡𝑈 grows We ¡may ¡be ¡using ¡the ¡wrong ¡prediction ¡model

18

slide-19
SLIDE 19

Outline

  • 1. Background ¡: ¡regret ¡and ¡competitive ¡ratio

OCO ¡without ¡prediction OCO ¡with ¡worst ¡case ¡prediction

  • 2. Our ¡prediction ¡noise ¡model
  • 3. Algorithm ¡design
  • 4. OCO ¡with ¡stochastic ¡prediction ¡noise ¡

19

slide-20
SLIDE 20

Ø Predictions ¡are ¡“refined” ¡as ¡time ¡goes ¡forward Ø Predictions ¡are ¡more ¡noisy ¡as ¡you ¡look ¡ further ¡ahead Ø Prediction ¡errors ¡can ¡be ¡correlated Ø Should ¡be ¡general ¡enough ¡to ¡incorporate detailed ¡models

20

What ¡do ¡we ¡want ¡in ¡a ¡prediction ¡noise ¡model?

slide-21
SLIDE 21

A ¡more ¡realistic ¡prediction ¡noise ¡model

prediction ¡error Prediction ¡for ¡time ¡𝑢 given ¡to ¡ algorithm ¡at ¡time ¡𝜐

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

Realization ¡that ¡algorithm ¡is ¡trying ¡to ¡track

21

slide-22
SLIDE 22

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

Per-­‑step ¡noise

A ¡more ¡realistic ¡prediction ¡noise ¡model

22

slide-23
SLIDE 23

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

Weighting ¡factor

How ¡important ¡is ¡the ¡noise ¡at ¡time ¡ ¡𝑢 − 𝑡 for ¡the ¡prediction ¡of ¡𝑢?

A ¡more ¡realistic ¡prediction ¡noise ¡model

23

slide-24
SLIDE 24

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

prediction ¡error

  • Predictions ¡are ¡“refined” ¡as ¡time ¡goes ¡forward
  • Predictions ¡are ¡more ¡noisy ¡as ¡you ¡look ¡further ¡ahead

𝔽 𝑧5 − 𝑧5|E

)

= 𝜏) 4 𝑔 𝑡

) 58E8" Z[<

  • Prediction ¡errors ¡can ¡be ¡correlated
  • Form ¡of ¡errors ¡matches ¡many ¡classic ¡models

A ¡more ¡realistic ¡prediction ¡noise ¡model

24

slide-25
SLIDE 25

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

This ¡form ¡of ¡prediction ¡error ¡matches ¡what ¡occurs ¡in

  • Prediction ¡of ¡a ¡wide-­‑sense ¡stationary ¡ ¡process ¡using ¡a ¡Weiner ¡filter
  • Prediction ¡of ¡a ¡linear ¡dynamical ¡system ¡using ¡a ¡Kalman filter

prediction ¡error

A ¡more ¡realistic ¡prediction ¡noise ¡model

25

slide-26
SLIDE 26

𝑧5 = 𝑧5|E + 4 𝑔 𝑢 − 𝑡 𝑓(𝑡)

5 Z[E\"

Key ¡observation: ¡No ¡assumption ¡about ¡𝑧5 ¡or ¡ how ¡predictions ¡are ¡made

Allows ¡adversarial ¡analysis using ¡stochastic ¡prediction ¡noise

𝐒𝐟𝐡𝐬𝐟𝐮 𝐁𝐦𝐡 = sup

h

𝔽i ¡cost(Alg) − cost(STA) 𝐃𝐩𝐧𝐪𝐟𝐮𝐣𝐮𝐣𝐰𝐟 ¡𝐒𝐛𝐮𝐣𝐩 𝐁𝐦𝐡 = sup

r

𝔽i cost(Alg) cost(Opt)

A ¡more ¡realistic ¡prediction ¡noise ¡model

26

slide-27
SLIDE 27

Outline

  • 1. Background ¡: ¡regret ¡and ¡competitive ¡ratio

OCO ¡without ¡prediction OCO ¡with ¡worst ¡case ¡prediction

  • 2. Our ¡prediction ¡noise ¡model
  • 3. Algorithm ¡design
  • 4. OCO ¡with ¡stochastic ¡prediction ¡noise ¡

27

slide-28
SLIDE 28

A ¡natural ¡suggestion: ¡ Model ¡Predictive ¡Control ¡(MPC)

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5, 𝑧5\s\)|5, … 𝑦5\", 𝑦5\), … , 𝑦5\s = argmin 4 1 2 𝑧Z|5 − 𝐿𝑦5

)

+ 𝛾 𝑦5 − 𝑦58"

" 5\s Z[5\"

28

slide-29
SLIDE 29

A ¡natural ¡suggestion: ¡ Model ¡Predictive ¡Control ¡(MPC)

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5, 𝑧5\s\)|5, … 𝑧5\)|5\", 𝑧5\+|5\", … , 𝑧5\s\"|5\", 𝑧5\s\)|5\", 𝑧5\s\+|5\", … 𝑦5\), 𝑦5\+, … 𝑦5\s\"

29

slide-30
SLIDE 30

A ¡natural ¡suggestion: ¡ Model ¡Predictive ¡Control ¡(MPC)

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5, 𝑧5\s\)|5, … 𝑧5\)|5\", 𝑧5\+|5\", … , 𝑧5\s\"|5\", 𝑧5\s\)|5\", 𝑧5\s\+|5\", … 𝑦5\+, 𝑦5\=, … 𝑦5\s\) 𝑧5\+|5\), 𝑧5\=|5\), … , 𝑧5\s\)|5\), 𝑧5\s\+|5\), 𝑧5\s\=|5\), …

But ¡MPC ¡doesn’t ¡work ¡well ¡in ¡this ¡setting ¡… ¡

30

slide-31
SLIDE 31

A ¡more ¡stable ¡alternative: ¡ Averaging ¡Fixed ¡Horizon ¡Control ¡(AFHC)

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5\s, 𝑧5\s\)|5\s, …

Fixed ¡Horizon ¡Control ¡(FHC)

𝑦5\", 𝑦5\), … , 𝑦5\s ¡= argmin

4 1 2 𝑧Z|5 − 𝐿𝑦5

)

+ 𝛾 𝑦5 − 𝑦58"

" 5\s Z[5\"

31

slide-32
SLIDE 32

A ¡more ¡stable ¡alternative: ¡ Averaging ¡Fixed ¡Horizon ¡Control ¡(AFHC)

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5\s, 𝑧5\s\)|5\s, …

Fixed ¡Horizon ¡Control ¡(FHC)

𝑦5\", 𝑦5\), … , 𝑦5\s 𝑦5\s\", 𝑦5\s\), … , 𝑦5\)s

32

slide-33
SLIDE 33

A ¡more ¡stable ¡alternative: ¡ Averaging ¡Fixed ¡Horizon ¡Control ¡(AFHC) …

Average ¡choices ¡of ¡FHC ¡algorithms ¡ 𝑦v2wx = "

y ∑

𝑦2wx

{ s {["

𝑥 FHC ¡algorithms

𝑧5\"|5, 𝑧5\)|5, … , 𝑧5\s|5, 𝑧5\s\"|5\s, 𝑧5\s\)|5\s, …

𝑧5\)|5\", 𝑧5\+|5\", … , 𝑧5\s\"|5\", 𝑧5\s\)|5\s\", 𝑧5\s\+|5\s\", … 𝑧5\+|5\), 𝑧5\=|5\), … , 𝑧5\s\)|5\), 𝑧5\s\+|5\s\), 𝑧5\s\=|5\s\), … 𝑧5\=|5\+, 𝑧5\>|5\+, … , 𝑧5\s\+|5\+, 𝑧5\s\=|5\s\+, 𝑧5\s\>|5\s\+, …

33

slide-34
SLIDE 34

Outline

  • 1. Background ¡: ¡regret ¡and ¡competitive ¡ratio

OCO ¡without ¡prediction OCO ¡with ¡worst ¡case ¡prediction

  • 2. Our ¡prediction ¡noise ¡model
  • 3. Algorithm ¡design
  • 4. OCO ¡with ¡stochastic ¡prediction ¡noise ¡

34

slide-35
SLIDE 35

Theorem: AFHC(𝑥) ¡with ¡𝑥 = 𝑃(1) has ¡sublinear ¡regret ¡ and ¡is ¡constant ¡competitive ¡(in ¡expectation) ¡when ¡ 𝑑𝑝𝑡𝑢 𝑃𝑄𝑈 = 𝛻 𝑈 , and ¡ ¡𝑑𝑝𝑡𝑢 𝑇𝑈𝐵 ≥ 𝛽"𝑈 ¡ − 𝑝 𝑈 .

35

slide-36
SLIDE 36

No ¡online ¡algorithm ¡can ¡do ¡well ¡if ¡cost 𝑃𝑄𝑈 ∈ 𝑝 𝑈 or ¡ cost(𝑇𝑈𝐵) ≤ 𝑆i

"/) )

− 𝛿 𝑈 for ¡some ¡𝛿 > 0.

Theorem: ¡Any ¡online ¡algorithm ¡that ¡chooses ¡action ¡independent ¡of ¡𝑓(𝑢) has ¡cost ¡at ¡least ¡ 𝑆i

"/) )

𝑈 + 𝑝(𝑈) Theorem: AFHC(𝑥) ¡with ¡𝑥 = 𝑃(1) has ¡sublinear ¡regret ¡ and ¡is ¡constant ¡competitive ¡(in ¡expectation) ¡when ¡ 𝐝𝐩𝐭𝐮 𝑷𝑸𝑼 = 𝛁 𝑼 , 𝐛𝐨𝐞 ¡𝐝𝐩𝐭𝐮 𝑻𝑼𝑩 ≥ 𝜷𝟐𝑼 ¡ − 𝒑 𝑼 .

How ¡tight ¡is ¡this ¡condition?

36

slide-37
SLIDE 37

We ¡can ¡compute ¡the ¡optimal ¡lookahead 𝑥

Lemma: ¡sup

h

𝔽 𝑑𝑝𝑡𝑢 𝐵𝐺𝐼𝐷 − 𝑑𝑝𝑡𝑢(𝑃𝑄𝑈) ≤ ›

s 𝐺 𝑥 + 𝑕(𝛾, 𝐿, 𝑥)

Theorem: AFHC(𝐱) ¡with ¡𝑥 = 𝑃(1) has ¡sublinear ¡regret ¡ and ¡is ¡constant ¡competitive ¡(in ¡expectation) ¡when ¡ 𝑑𝑝𝑡𝑢 𝑃𝑄𝑈 = 𝛻 𝑈 , 𝑏𝑜𝑒 ¡𝑑𝑝𝑡𝑢 𝑇𝑈𝐵 ≥ 𝛽"𝑈 ¡ − 𝑝 𝑈 .

How ¡to ¡choose ¡w?

Cumulative ¡prediction ¡error ¡

  • ver ¡w ¡timesteps

Loss ¡due ¡to ¡switching

37

slide-38
SLIDE 38

Theorem: AFHC(𝑥) ¡with ¡𝑥 = 𝑃(1) has ¡sublinear regret ¡and ¡is ¡constant ¡competitive ¡(in ¡expectation) when ¡cost 𝑃𝑄𝑈 = Ω 𝑈 , and ¡cost STA ≥ 𝛽"𝑈 ¡ − 𝑝 𝑈 . Theorem: ¡When ¡𝑓(𝑢) is ¡independent, ¡sub-­‑Gaussian ¡for ¡all ¡t, ¡for ¡sufficiently ¡large ¡u, ¡ ∃a, b, c > 0 such ¡that ℙ cost AFHC − cost Opt > 𝑢 + 𝜈 ≤ 𝑑 ⋅ exp − 𝑢) 𝑏 + 𝑐𝑢

Intuition: ¡the ¡competitive ¡difference ¡of ¡AFHC ¡is ¡a ¡“smooth” ¡function ¡of ¡𝑓(𝑢) How ¡likely ¡is ¡large ¡deviation ¡from ¡expected ¡performance ¡for ¡AFHC?

38

slide-39
SLIDE 39

Ou Our ¡ ¡contribution: ¡ ¡a ¡ a ¡gen ener eral ¡ al ¡an and ¡ ¡tr trac actab able ¡ le ¡ mo model ¡ ¡for ¡ r ¡prediction ¡ ¡

Key ¡message: ¡prediction ¡allows

  • 1. Overcoming ¡“impossibility” ¡results ¡for ¡OCO ¡with ¡minimal ¡structural ¡

assumption AFHC ¡can ¡achieve ¡sublinear regret and ¡constant ¡CR

  • 2. Balance ¡between ¡average ¡case ¡and ¡worst ¡case ¡analysis

Concentration ¡of ¡AFHC ¡around ¡its ¡mean ¡performance

39

slide-40
SLIDE 40

Online ¡Convex ¡Optimization ¡ Using ¡Predictions

Niangjun ¡Chen ¡

Joint ¡work ¡with ¡Anish ¡Agarwal, ¡Lachlan ¡Andrew, ¡Sid ¡Barman, ¡and ¡Adam ¡Wierman

40