Bandit op*miza*on with large strategy sets Alexandre - - PowerPoint PPT Presentation

bandit op miza on with large strategy sets
SMART_READER_LITE
LIVE PREVIEW

Bandit op*miza*on with large strategy sets Alexandre - - PowerPoint PPT Presentation

Bandit op*miza*on with large strategy sets Alexandre Prou*ere Joint work with Richard Combes Alexandre Prou-re Docent lecture October 11, 2013


slide-1
SLIDE 1

Bandit ¡op*miza*on ¡with ¡large ¡ strategy ¡sets ¡ ¡ ¡ ¡

Alexandre ¡Prou-ère ¡ Docent ¡lecture ¡

1 ¡

Alexandre ¡Prou*ere ¡ Joint ¡work ¡with ¡Richard ¡Combes ¡ ¡ October ¡11, ¡2013 ¡

slide-2
SLIDE 2

Outline ¡

  • 1. Mo-va-on ¡
  • 2. Bandit ¡op-miza-on: ¡background ¡
  • 3. Graphically ¡unimodal ¡bandits ¡
  • 4. Applica-ons ¡

2 ¡

slide-3
SLIDE 3
  • 1. ¡Mo-va-on ¡

3 ¡

slide-4
SLIDE 4

Rate ¡adapta-on ¡in ¡802.11 ¡

Adap-ng ¡the ¡modula-on/coding ¡scheme ¡to ¡the ¡radio ¡environment ¡

4 ¡

¡

  • ­‑ 802.11 ¡a/b/g ¡

Yes/No ¡

r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN

rates ¡ Success ¡probabili-es ¡ Throughputs ¡

µi = riθi

  • ­‑ Op-mal ¡sequen-al ¡rate ¡selec-on? ¡

9 ¡ 12 ¡ 18 ¡ 24 ¡ 36 ¡ 48 ¡ 54 ¡ ¡ ¡ ¡(Mbit/s) ¡ 6 ¡

slide-5
SLIDE 5

Rate ¡adapta-on ¡in ¡802.11 ¡

5 ¡

  • ­‑ 802.11 ¡n/ac ¡MIMO ¡

¡Rate ¡+ ¡MIMO ¡mode ¡ ¡ ¡ ¡ ¡ ¡

  • ­‑ Example: ¡two ¡modes, ¡single-­‑stream ¡(SS) ¡or ¡double-­‑stream ¡(DS) ¡

13.5 ¡ 27 ¡ 40.5 ¡ 54 ¡ 81 ¡ 108 ¡ 121.5 ¡ 135 ¡ 108 ¡ 81 ¡ 54 ¡ 27 ¡ 162 ¡ 216 ¡ 243 ¡ 270 ¡ DS ¡ SS ¡ ¡

slide-6
SLIDE 6

CTR ¡es-ma-on ¡in ¡Ad ¡Auc-ons ¡

  • ­‑ Current ¡prac-ce: ¡ ¡

ü Bayesian ¡es-mator ¡(graphical ¡models ¡+ ¡EP) ¡ ü Minimize ¡the ¡mean ¡square ¡error ¡on ¡CTRs ¡ ü Underlying ¡assump-on: ¡a ¡sta-c ¡system ¡

  • ­‑ A ¡dynamic ¡system ¡(changing ¡ads, ¡changing ¡CTRs, ¡…) ¡
  • ­‑ … ¡but ¡most ¡importantly ¡our ¡goal ¡is ¡to ¡maximize ¡profit ¡

not ¡minimize ¡CTR ¡es-ma-on ¡error! ¡ ¡ ¡

slide-7
SLIDE 7

CTR ¡bandits ¡

  • ­‑ CTR ¡matrix: ¡
  • ­‑ Profit ¡acer ¡T ¡queries: ¡

Queries ¡(n ¡> ¡109) ¡ Ads ¡(m ¡> ¡106) ¡ i ¡ j ¡

µij

profit(T) =

T

X

t=1

bi(t)j(t)Xi(t)j(t) Xij ∼ Ber(µij)

slide-8
SLIDE 8

Online ¡decision ¡problem ¡

Queries ¡(> ¡109) ¡ Ads ¡(> ¡106) ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ j ¡ Click ¡ No ¡click ¡

slide-9
SLIDE 9

Online ¡decision ¡problem ¡

Queries ¡(> ¡109) ¡ Ads ¡(> ¡106) ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ j ¡

slide-10
SLIDE 10

Online ¡decision ¡problem ¡

Queries ¡(> ¡109) ¡ Ads ¡(> ¡106) ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 0 ¡

slide-11
SLIDE 11
  • 2. ¡Bandit ¡op-miza-on ¡

11 ¡

slide-12
SLIDE 12

Bandit ¡op-miza-on ¡

A ¡sequen-al ¡decision ¡problem ¡(Thompson ¡1933) ¡ ¡ ¡

– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ 1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

12 ¡

slide-13
SLIDE 13

A ¡sequen-al ¡decision ¡problem ¡(Thompson ¡1933) ¡ ¡ ¡

– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ – Bandit ¡feedback: ¡only ¡rewards ¡of ¡chosen ¡ac-ons ¡are ¡observed ¡ 1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Bandit ¡op-miza-on ¡

13 ¡

slide-14
SLIDE 14

A ¡sequen-al ¡decision ¡problem ¡(Thompson ¡1933) ¡ ¡ ¡

– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ – Bandit ¡feedback: ¡only ¡rewards ¡of ¡chosen ¡ac-ons ¡are ¡observed ¡ – Goal: ¡maximize ¡the ¡cumula-ve ¡reward ¡(up ¡to ¡step ¡T), ¡i.e., ¡strike ¡the ¡

  • p-mal ¡explora-on-­‑exploita-on ¡trade-­‑off ¡

1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Bandit ¡op-miza-on ¡

14 ¡

slide-15
SLIDE 15

Regret ¡

15 ¡

  • me ¡

instantaneous ¡ reward ¡ unknown ¡best ¡ac-on ¡ your ¡algorithm ¡

slide-16
SLIDE 16

Regret ¡

16 ¡

  • me ¡

Objec-ve: ¡to ¡iden-fy ¡the ¡best ¡ac-on ¡with ¡minimum ¡explora-on, ¡ i.e., ¡to ¡minimize ¡regret ¡(to ¡maximize ¡the ¡“convergence ¡rate”) ¡ ¡ Par-cularly ¡relevant ¡when ¡the ¡best ¡ac-on ¡evolves ¡– ¡for ¡tracking ¡ problems ¡

instantaneous ¡ reward ¡ unknown ¡best ¡ac-on ¡

regret ¡

your ¡algorithm ¡

slide-17
SLIDE 17

Stochas-c ¡Bandits ¡

Robbins ¡1952 ¡

  • ­‑ K ¡arms ¡/ ¡decisions ¡/ ¡ac-ons ¡
  • ­‑ Unknown ¡i.i.d. ¡rewards: ¡
  • ­‑ Lack ¡of ¡structure: ¡
  • ­‑ Under ¡online ¡algorithm ¡ ¡ ¡ ¡, ¡arm ¡selected ¡at ¡-me ¡ ¡ ¡: ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡func-on ¡of ¡history ¡ ¡ ¡ ¡

  • ­‑ Regret ¡up ¡to ¡-me ¡ ¡ ¡ ¡: ¡

¡

Rπ(T) = max

i=1,...,K E T

X

t=1

Xi,t − E

T

X

t=1

XIπ

t ,t

Xi,t ∼ Ber(µi), µ? = max

i

µi = µi? µi ∈ [0, 1], ∀i ∈ {1, . . . , K} Iπ

t

(Iπ

1 , XIπ

1 ,1, . . . , Iπ

t−1, XIπ

t−1,t−1)

π t T

17 ¡

slide-18
SLIDE 18

Stochas-c ¡Bandits ¡

¡

  • ­‑ Asympto-c ¡regret ¡lower ¡bound ¡(no ¡algorithm ¡can ¡beat ¡this ¡

performance) ¡

  • ­‑ Uniformly ¡good ¡algorithm: ¡

¡ Theorem ¡(Lai-­‑Robbins ¡1985) ¡For ¡any ¡uniformly ¡good ¡policy ¡ ¡

lim inf

T !1

R⇡(T) log(T) ≥ X

i6=i?

µ? − µi KL(µi, µ?)

KL ¡divergence ¡number: ¡ ¡ Regret ¡linear ¡in ¡the ¡number ¡of ¡arms, ¡and ¡propor-onal ¡to ¡ ¡

1 (µ? − µi) π KL(p, q) = p log(p q ) + (1 − p) log(1 − p 1 − q )

18 ¡

E[ti(T)] = o(T ↵), 8α > 0, 8µ, 8i 6= i?

slide-19
SLIDE 19

The ¡change-­‑of-­‑measure ¡argument ¡

19 ¡

2 ¡ 3 ¡ 4 ¡ 5 ¡ arms ¡ 1 ¡

µi i i? k k

To ¡iden-fy ¡the ¡minimum ¡number ¡of ¡-mes ¡sub-­‑op-mal ¡arm ¡ ¡ ¡ ¡ ¡ must ¡be ¡played, ¡find ¡the ¡most ¡confusing ¡parameters ¡

slide-20
SLIDE 20

The ¡change-­‑of-­‑measure ¡argument ¡

20 ¡

2 ¡ 3 ¡ 4 ¡ 5 ¡ arms ¡ 1 ¡

The ¡most ¡confusing ¡ ¡ ¡ ¡ ¡

¡ ¡ ¡ ¡ ¡played ¡~ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡-mes, ¡yielding ¡a ¡regret ¡ ¡ ¡

µi i i? k µ0 log(T) KL(µk, µ?) k µ? − µk KL(µk, µ?) log(T)

To ¡iden-fy ¡the ¡minimum ¡number ¡of ¡-mes ¡sub-­‑op-mal ¡arm ¡ ¡ ¡ ¡ ¡ must ¡be ¡played, ¡find ¡the ¡most ¡confusing ¡parameters ¡

k

slide-21
SLIDE 21

Algorithms ¡

  • ­‑ Op-mal ¡but ¡complicated ¡policy ¡(Lai-­‑Robbins ¡1985) ¡
  • ­‑ Simpler ¡and ¡op-mal ¡algorithms ¡(Agrawal ¡1995) ¡
  • ­‑ ε-­‑greedy ¡algorithm, ¡ε=1/t ¡logarithmic ¡regret ¡
  • ­‑ UCB ¡algorithm ¡(Auer ¡et ¡al. ¡2002): ¡a ¡simple ¡subop-mal ¡index ¡

policy ¡ ¡

  • ­‑ KL-­‑UCB ¡(Garivier-­‑Cappe ¡2011): ¡claiming ¡back ¡op-mality ¡

¡ ¡ ¡ ¡ ¡Index-­‑based ¡policy, ¡index ¡of ¡arm ¡i ¡ ¡ ¡ ¡ ¡

1 ni(t)

ni(t)

X

t=1

Xi,t + s 2 log(t) ni(t) max ⇢ q ≤ 1 : ni(t)KL(ˆ µi(t), q) ≤ log(t) + 3 log log(t)

  • 21 ¡
slide-22
SLIDE 22

Bandit ¡classifica-on ¡

  • ­‑ Unstructured ¡bandits: ¡average ¡rewards ¡are ¡not ¡related ¡

¡

  • ­‑ Structured ¡bandits: ¡the ¡decision ¡maker ¡knows ¡that ¡average ¡

rewards ¡are ¡related ¡

  • ­‑ The ¡rewards ¡observed ¡for ¡a ¡given ¡ac-on ¡provide ¡side-­‑informa-on ¡

about ¡the ¡average ¡rewards ¡of ¡other ¡ac-ons ¡

  • ­‑ How ¡can ¡we ¡exploit ¡this ¡side-­‑informa-on ¡op-mally? ¡ ¡

¡

22 ¡

µ = (µ1, . . . , µK) ∈ Θ Θ =

K

Y

i=1

[ai, bi] µ1 µ2 µ1 µ2 Θ 6=

K

Y

i=1

[ai, bi] Θ Θ

slide-23
SLIDE 23

Bandit ¡classifica-on ¡

(Decision ¡set/Time ¡horizon) ¡ 0 ¡

∞ ¡

Lai-­‑Robbins ¡1985 ¡ Infinite ¡Bandits: ¡ Berry ¡et ¡al. ¡1997 ¡ Wang ¡et ¡al. ¡2008 ¡ Bonald-­‑P. ¡2013 ¡ ¡ Bandits ¡with ¡structure: ¡ Combinatorial ¡bandits ¡ Con-nuous ¡bandits: ¡ ¡ ¡ ¡ ¡ ¡Linear ¡bandits ¡ ¡ ¡ ¡ ¡ ¡Convex ¡bandits ¡ ¡ ¡ ¡ ¡ ¡Unimodal ¡bandits ¡ Agrawal ¡1995 ¡ Kleinberg-­‑Slivkins ¡2005 ¡ Bubeck ¡et ¡al. ¡2011 ¡… ¡ ¡ ¡ Lai ¡ ¡ Agrawal-­‑Teneketzis-­‑Anantharam ¡1989 ¡ Kumar ¡1985 ¡ Borkar-­‑Varaiya ¡1979 ¡ Op-mal ¡control ¡of ¡Markov ¡Chains ¡

23 ¡

K/T

slide-24
SLIDE 24

A ¡few ¡papers ¡since ¡2005 ¡ ¡

See ¡ICML ¡tutorial ¡2011: ¡Audibert-­‑Munos ¡

24 ¡

slide-25
SLIDE 25
  • 2. ¡Graphically ¡unimodal ¡bandits ¡

¡

25 ¡

slide-26
SLIDE 26

Ac-ons ¡and ¡rewards ¡

26 ¡

G = (V, E)

slide-27
SLIDE 27

Ac-ons ¡and ¡rewards ¡

27 ¡

G = (V, E)

Ac-ons ¡

slide-28
SLIDE 28

Ac-ons ¡and ¡rewards ¡

28 ¡

i j

Graphical ¡unimodality: ¡from ¡any ¡vertex, ¡there ¡is ¡a ¡path ¡with ¡ increasing ¡rewards ¡to ¡the ¡best ¡vertex. ¡ ¡ Related ¡work: ¡Yu-­‑Mannor ¡2011 ¡(sub-­‑op-mal ¡algorithms) ¡

µ = (µi)i∈V ∈ UG G = (V, E) µj > µi k?

slide-29
SLIDE 29

Average ¡rewards ¡

29 ¡

  • ­‑ Linear ¡structure: ¡at ¡-me ¡ ¡ ¡, ¡ac-on ¡ ¡ ¡ ¡yields ¡a ¡reward ¡ ¡ ¡

¡ ¡ ¡ ¡Op-mal ¡ac-on: ¡ ¡

  • ­‑ Graphical ¡unimodality ¡w.r.t. ¡some ¡known ¡graph ¡

¡

r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN µi = riθi known ¡ unknown ¡ Average ¡rewards ¡ ∈ [0, 1] t i riXi,t Xi,t ∼ Ber(θi) G k?, µ? = µk?

slide-30
SLIDE 30

Graphically ¡unimodal ¡bandits ¡

30 ¡

i j

How ¡can ¡the ¡reward ¡structure ¡be ¡op-mally ¡exploited? ¡ How ¡does ¡regret ¡scale ¡with ¡the ¡graph ¡size ¡and ¡topology? ¡

G = (V, E) µj > µi k?

slide-31
SLIDE 31

Controlled ¡Markov ¡Chains ¡

31 ¡

x y p(x, y; u, θ)

  • ­‑ Finite ¡state ¡and ¡ac-on ¡

spaces ¡

  • ­‑ Unknown ¡parameter ¡

¡ ¡ ¡ ¡ ¡: ¡compact ¡metric ¡space ¡

¡ ¡ ¡ ¡ θ ∈ Θ Θ

  • ­‑ Control: ¡finite ¡set ¡of ¡irreducible ¡control ¡laws ¡

¡

  • ­‑ Op-mal ¡control ¡law: ¡
  • ­‑ Regret: ¡ ¡ ¡

¡ ¡

reward: ¡ ¡r(x, u)

g : X → U µg(θ) = X

x∈X

πg

θ(x)r(x, g(x))

g? Rπ(T) = Tµg?(θ) − E

T

X

t=1

r(Xt, gπ(Xt))

Kumar, ¡Lai, ¡Borkar, ¡Varaiya, ¡… ¡ ¡

slide-32
SLIDE 32

Regret ¡lower ¡bound ¡

32 ¡

  • ­‑ KL ¡number ¡under ¡policy ¡ ¡ ¡ ¡: ¡

¡

  • ­‑ Bad ¡parameter ¡set: ¡
  • ­‑ Lower ¡bound ¡(Graves-­‑Lai’97): ¡ lim inf

T →∞

Rπ(T) log(T) ≥ c(θ) c(θ) = Ig(θ, λ) = X

x,y

πg

θ(x)p(x, y; g(x), θ) log p(x, y; g(x), θ)

p(x, y; g(x), λ) B(θ) = {λ ∈ Θ : g? not opt., Ig?(θ, λ) = 0} inf X

g6=g?

cg(µg?(θ) − µg(θ)) s.t. inf

λ2B(θ)

X

g6=g?

cgIg(θ, λ) ≥ 1 g

slide-33
SLIDE 33

Applica-on ¡to ¡graphically ¡unimodal ¡ bandits ¡

33 ¡

  • ­‑ State ¡space: ¡set ¡of ¡possible ¡rewards ¡
  • ­‑ Control ¡laws: ¡constant ¡mappings ¡to ¡the ¡set ¡of ¡ac-ons, ¡

e.g. ¡

  • ­‑ Transi-ons ¡(i.i.d. ¡process): ¡ ¡ ¡
  • ­‑ Average ¡rewards: ¡

g = k p(x, y : k, θ) = ⇢ θk if y = rk 1 − θk if y = 0 µg(θ) = rkθk = µk g = k

slide-34
SLIDE 34

Fundamental ¡performance ¡limit ¡

34 ¡

k N(k) N(k) = {l ∈ N(k) : rkθk ≤ rl}

Theorem: ¡For ¡any ¡uniformly ¡good ¡algorithm ¡ ¡ The ¡performance ¡limit ¡does ¡not ¡depend ¡on ¡the ¡size ¡of ¡ ¡ the ¡decision ¡space! ¡Structure ¡could ¡really ¡help. ¡ ¡

π lim inf

T →∞

Rπ(T) log(T) ≥ cG(θ) cG(θ) = X

k∈N(k?)

rk?θk? − rkθk KL(θk, rk?θk?

rk

)

slide-35
SLIDE 35

Proof ¡

35 ¡

inf X

g6=g?

cg(µg?(θ) − µg(θ)) s.t. inf

λ2B(θ)

X

g6=g?

cgIg(θ, λ) ≥ 1

2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ ¡ ¡ ¡ac-ons ¡ 1 ¡

The ¡most ¡confusing ¡ ¡ µi µ λ

Example: ¡classical ¡unimodality ¡

slide-36
SLIDE 36

Op-mal ¡Ac-on ¡Sampling ¡

36 ¡

  • ­‑ Empirical ¡average ¡reward: ¡

¡

  • ­‑ Leader ¡at ¡-me ¡n: ¡
  • ­‑ Number ¡of ¡-mes ¡k ¡has ¡been ¡the ¡leader: ¡
  • ­‑ Index ¡of ¡k: ¡

ˆ µk(n) = 1 tk(n)

tk(n)

X

s=1

rkXk(s) bk(n) = max ⇢ q ∈ [0, rk] : tk(n)KL ✓ ˆ µk(n) rk , q rk ◆ ≤ log(lL(n)(n)) + c log log(lL(n)(n))

  • lk(n) =

n

X

s=1

1L(s)=k L(n) ∈ arg max

k

ˆ µk(n)

slide-37
SLIDE 37

Op-mal ¡Ac-on ¡Sampling ¡

37 ¡

Theorem: ¡For ¡any ¡ ¡ ¡ Algorithm ¡– ¡Op-mal ¡Ac-on ¡Sampling ¡(OAS) ¡ For ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡select ¡ac-on ¡ For ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡select ¡ac-on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡

n = 1, . . . , K k(n) = n n ≥ K + 1 k(n) µ ∈ UG, lim sup

T →∞

ROAS(T) log(T) ≤ cG(θ). k(n) = ( L(n) if (lL(n)(n) − 1)/(γ + 1) ∈ N, arg max

k∈N(L(n)) bk(n)

  • therwise.
slide-38
SLIDE 38

Proof ¡

38 ¡

RORS(T) ≤rK X

k6=k?

E[lk(T)] + X

k2N(k?)

(rk?θk? − rkθk)E[

T

X

t=1

1L(t)=k?,k(t)=k]

First ¡term ¡ ¡ Second ¡term ¡ ¡ Devia-on ¡bounds ¡(refined ¡concentra-on ¡inequali-es) ¡+ ¡ further ¡decomposi-on ¡of ¡the ¡set ¡of ¡events ¡ Finite ¡-me ¡analysis ¡

≤ O(log log(T)) ≤ (1 + ✏)c(✓) log(T) + O(log log(T)) ROAS(T) ≤ rK X

k6=k?

E[lk(T)]

slide-39
SLIDE 39

Non-­‑sta-onary ¡environments ¡

39 ¡

  • ­‑ Average ¡rewards ¡may ¡evolve ¡over ¡-me: ¡ ¡
  • ­‑ Best ¡decision ¡at ¡-me ¡t: ¡
  • ­‑ Goal: ¡track ¡the ¡best ¡decision ¡
  • ­‑ Regret: ¡

¡

  • ­‑ Sub-­‑linear ¡regret ¡cannot ¡be ¡achieved ¡(Garivier-­‑Moulines ¡2011) ¡ ¡
  • ­‑ Assump-ons: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡σ-­‑Lipschitz, ¡and ¡ ¡ ¡

¡

θ(t) k?(t) Rπ(T) =

T

X

t=1

  • rk?(t)θk?(t)(t) − rk⇡(t)θk⇡(t)(t)
  • θ(t)

lim sup

T →∞

1 T

T

X

n=1

X

k,k0∈N(k)

1|rkθk(n)−rk0θk0(n)|≥∆ ≤ φ(K)∆

slide-40
SLIDE 40

OAS ¡with ¡Sliding ¡Window ¡

40 ¡

Theorem: ¡Under ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡SW-­‑OAS ¡ ¡ ¡ ¡

  • ­‑ SW-­‑OAS ¡(applies ¡OAS ¡over ¡a ¡sliding ¡window ¡of ¡size ¡τ) ¡
  • ­‑ Graphical ¡unimodality ¡holds ¡at ¡any ¡-me ¡
  • ­‑ Parameters: ¡ ¡

¡ τ = σ−3/4 log(1/σ)/8, ∆ = σ1/4 log(1/σ) lim sup

T

Rπ(T) T ≤ Cφ(K)σ

1 4 log(1/σ)(1 + Ko(1)),

σ → 0+ π =

slide-41
SLIDE 41

OAS ¡with ¡Sliding ¡Window ¡

41 ¡

  • ­‑ Analysis ¡made ¡complicated ¡by ¡the ¡smoothness ¡of ¡the ¡rewards ¡
  • vs. ¡-me ¡(previous ¡analysis ¡by ¡Garivier-­‑Moulines ¡assumes ¡

separa-on ¡of ¡rewards ¡at ¡any ¡-me) ¡

  • ­‑ Sub-­‑logarithmic ¡terms ¡are ¡essen-al ¡in ¡the ¡regret ¡analysis ¡
  • ­‑ Upper ¡bound ¡on ¡regret ¡per ¡-me ¡unit: ¡
  • ­‑

Tends ¡to ¡zero ¡when ¡the ¡evolu-on ¡of ¡average ¡rewards ¡gets ¡smoother ¡

  • ­‑

Does ¡not ¡depend ¡on ¡the ¡size ¡of ¡the ¡decision ¡space ¡if ¡ ¡

¡ σ1/4 log(1/σ) → 0, as σ → 0+ φ(K) ≤ C

slide-42
SLIDE 42
  • 3. ¡Rate ¡adapta-on ¡in ¡802.11 ¡

with ¡R. ¡Combes, ¡D. ¡Yun, ¡J. ¡Ok, ¡Y. ¡Yi ¡ ¡

¡

42 ¡

slide-43
SLIDE 43

Rate ¡adapta-on ¡in ¡802.11 ¡

Adap-ng ¡the ¡modula-on/coding ¡scheme ¡to ¡the ¡radio ¡environment ¡

43 ¡

¡

  • ­‑ 802.11 ¡a/b/g ¡

Yes/No ¡

r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN

rates ¡ Success ¡probabili-es ¡ Throughputs ¡

µi = riθi θ1 > θ2 > . . . > θN

  • ­‑ Structure: ¡unimodality ¡+ ¡

9 ¡ 12 ¡ 18 ¡ 24 ¡ 36 ¡ 48 ¡ 54 ¡ ¡ ¡ ¡(Mbit/s) ¡ 6 ¡

G

slide-44
SLIDE 44

Rate ¡adapta-on ¡in ¡802.11 ¡

44 ¡

  • ­‑ 802.11 ¡n/ac ¡MIMO ¡

¡Rate ¡+ ¡MIMO ¡mode ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(32 ¡combina-ons ¡in ¡n) ¡ ¡ ¡ ¡ ¡ ¡

  • ­‑ Example: ¡two ¡modes, ¡single-­‑stream ¡(SS) ¡or ¡double-­‑stream ¡(DS) ¡

G

13.5 ¡ 27 ¡ 40.5 ¡ 54 ¡ 81 ¡ 108 ¡ 121.5 ¡ 135 ¡ 108 ¡ 81 ¡ 54 ¡ 27 ¡ 162 ¡ 216 ¡ 243 ¡ 270 ¡ DS ¡ SS ¡ ¡

slide-45
SLIDE 45

State-­‑of-­‑the-­‑art ¡

45 ¡

  • ­‑ ARF ¡(Auto ¡Rate ¡Fallback): ¡acer ¡n ¡successive ¡successes, ¡probe ¡a ¡

higher ¡rate; ¡acer ¡two ¡consecu-ve ¡failures ¡reduce ¡the ¡rate ¡

  • ­‑ AARF: ¡vary ¡n ¡dynamically ¡depending ¡on ¡the ¡speed ¡at ¡which ¡the ¡

radio ¡environment ¡evolves ¡

  • ­‑ SampleRate: ¡based ¡on ¡achieved ¡throughputs ¡over ¡a ¡sliding ¡

window, ¡explore ¡a ¡new ¡rate ¡every ¡10 ¡packets ¡

  • ­‑ Measurement ¡based ¡approaches: ¡Map ¡SNR ¡to ¡packet ¡error ¡rate ¡

(does ¡not ¡work ¡– ¡OFDM): ¡RBAR, ¡OAR, ¡CHARM, ¡… ¡

  • ­‑ 802.11n ¡MIMO: ¡MiRA, ¡RAMAS, ¡… ¡

¡ All ¡exis-ng ¡algorithms ¡are ¡heuris-cs. ¡ ¡ Rate ¡adapta-on ¡design: ¡a ¡graphically ¡unimodal ¡bandit ¡with ¡large ¡ strategy ¡set ¡

slide-46
SLIDE 46

Op-mal ¡Rate ¡Sampling ¡

46 ¡

ORS ¡is ¡asympto-cally ¡op-mal ¡(minimizes ¡regret) ¡ Its ¡performance ¡does ¡not ¡depend ¡on ¡the ¡number ¡of ¡possible ¡ rates! ¡ ¡ ¡ For ¡non-­‑sta-onary ¡environments: ¡SW-­‑ORS ¡(ORS ¡with ¡sliding ¡ window) ¡ Algorithm ¡– ¡Op-mal ¡Rate ¡Sampling ¡(ORS) ¡ For ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡select ¡ac-on ¡ For ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡select ¡ac-on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡

n = 1, . . . , K k(n) = n n ≥ K + 1 k(n) k(n) = ( L(n) if (lL(n)(n) − 1)/(γ + 1) ∈ N, arg max

k∈N(L(n)) bk(n)

  • therwise.
slide-47
SLIDE 47

802.11g ¡– ¡sta-onary ¡environment ¡

47 ¡

20 40 60 80 100 500 1000 1500 2000 2500 3000 3500 4000

Time (s)

Regret

SampleRate SW−G−ORS G−ORS

GRADUAL ¡(success ¡prob. ¡smoothly ¡decreases ¡with ¡rate) ¡

slide-48
SLIDE 48

802.11g ¡– ¡sta-onary ¡environment ¡

48 ¡

STEEP ¡(success ¡prob. ¡is ¡either ¡close ¡to ¡1 ¡or ¡to ¡0) ¡

20 40 60 80 100 200 400 600 800 1000 1200 1400 1600 1800 2000

Time (s)

Regret

SampleRate SW−G−ORS G−ORS

slide-49
SLIDE 49

802.11g ¡– ¡non-­‑sta-onary ¡environment ¡

49 ¡

50 100 150 200 250 300 5 10 15 20 25 30 35 40 45 50 55

Time (s) Instantaneous Throughput (Mbps)

54Mbps 48Mbps 36Mbps 24Mbps 18Mbps 12Mbps 9Mbps 6Mbps

TRACES ¡

slide-50
SLIDE 50

802.11g ¡– ¡non-­‑sta-onary ¡environment ¡

50 ¡

RESULTS ¡

50 100 150 200 250 300 5 10 15 20 25 30 35 40 45 50 55

Time (s) Instantaneous Throughput (Mbps)

Oracle SW−G−ORS SampleRate

slide-51
SLIDE 51

Summary ¡ ¡

51 ¡

  • ­‑ Regret ¡minimiza-on: ¡the ¡right ¡objec-ve ¡for ¡tracking ¡
  • p-mal ¡opera-ng ¡points ¡in ¡changing ¡environments ¡
  • ­‑ A ¡solu-on ¡to ¡graphically ¡unimodal ¡bandit ¡problems, ¡an ¡

important ¡class ¡of ¡structured ¡bandits ¡

  • ­‑ Lower ¡bound ¡on ¡regret ¡
  • ­‑ Asympto-cally ¡op-mal ¡and ¡simple ¡algorithms ¡
  • ­‑ Non-­‑sta-onary ¡analysis ¡
  • ­‑ Applica-on ¡to ¡rate ¡adapta-on ¡in ¡802.11 ¡systems ¡ ¡
  • ­‑ An ¡op-mal ¡algorithm: ¡ORS ¡
  • ­‑ The ¡regret ¡under ¡ORS ¡does ¡not ¡depend ¡on ¡the ¡number ¡of ¡

available ¡decisions ¡(crucial!) ¡

  • ­‑ Numerical ¡valida-on ¡using ¡simula-ons ¡and ¡test-­‑beds ¡
slide-52
SLIDE 52

Current ¡work ¡

52 ¡

¡

  • ­‑ Other ¡applica-ons ¡of ¡structured ¡bandits ¡
  • ­‑ Wireless ¡systems: ¡large ¡MIMO, ¡scheduling, ¡spectrum ¡sharing ¡ ¡
  • ­‑ Online ¡clustering ¡
  • ­‑ Recommenda-on ¡systems ¡
  • ­‑ Pricing ¡
  • ­‑ … ¡
slide-53
SLIDE 53

Future ¡work ¡

53 ¡

¡ ¡

  • ­‑ What ¡can ¡we ¡do ¡when ¡the ¡size ¡of ¡the ¡decision ¡space ¡and ¡

the ¡-me ¡horizon ¡are ¡comparable? ¡ ¡

Decision ¡set/Time ¡horizon ¡ 0 ¡

∞ ¡

Infinite ¡bandits ¡ solved ¡(Bonald-­‑P.) ¡ Structured ¡bandits ¡ solved ¡(stoch. ¡control) ¡

? ¡

slide-54
SLIDE 54

54 ¡

¡ ¡ ¡ rcombes@kth.se ¡ h{p://sites.google.com/site/ richardcombesresearch/ ¡ ¡ ¡ alepro@kth.se ¡ h{p://people.kth.se/~alepro ¡