Bandit ¡op*miza*on ¡with ¡large ¡ strategy ¡sets ¡ ¡ ¡ ¡
Alexandre ¡Prou-ère ¡ Docent ¡lecture ¡
1 ¡
Bandit op*miza*on with large strategy sets Alexandre - - PowerPoint PPT Presentation
Bandit op*miza*on with large strategy sets Alexandre Prou*ere Joint work with Richard Combes Alexandre Prou-re Docent lecture October 11, 2013
1 ¡
2 ¡
3 ¡
4 ¡
Yes/No ¡
r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN
rates ¡ Success ¡probabili-es ¡ Throughputs ¡
µi = riθi
9 ¡ 12 ¡ 18 ¡ 24 ¡ 36 ¡ 48 ¡ 54 ¡ ¡ ¡ ¡(Mbit/s) ¡ 6 ¡
5 ¡
13.5 ¡ 27 ¡ 40.5 ¡ 54 ¡ 81 ¡ 108 ¡ 121.5 ¡ 135 ¡ 108 ¡ 81 ¡ 54 ¡ 27 ¡ 162 ¡ 216 ¡ 243 ¡ 270 ¡ DS ¡ SS ¡ ¡
ü Bayesian ¡es-mator ¡(graphical ¡models ¡+ ¡EP) ¡ ü Minimize ¡the ¡mean ¡square ¡error ¡on ¡CTRs ¡ ü Underlying ¡assump-on: ¡a ¡sta-c ¡system ¡
profit(T) =
T
X
t=1
bi(t)j(t)Xi(t)j(t) Xij ∼ Ber(µij)
11 ¡
– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ 1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
12 ¡
– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ – Bandit ¡feedback: ¡only ¡rewards ¡of ¡chosen ¡ac-ons ¡are ¡observed ¡ 1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
13 ¡
– A ¡set ¡of ¡possible ¡ac-ons ¡at ¡each ¡step ¡ – Unknown ¡sequence ¡of ¡rewards ¡for ¡each ¡ac-on ¡ – Bandit ¡feedback: ¡only ¡rewards ¡of ¡chosen ¡ac-ons ¡are ¡observed ¡ – Goal: ¡maximize ¡the ¡cumula-ve ¡reward ¡(up ¡to ¡step ¡T), ¡i.e., ¡strike ¡the ¡
1 ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡pa-ents ¡ D ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ D ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡ ¡ ¡D ¡ ¡ ¡….. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
14 ¡
15 ¡
instantaneous ¡ reward ¡ unknown ¡best ¡ac-on ¡ your ¡algorithm ¡
16 ¡
instantaneous ¡ reward ¡ unknown ¡best ¡ac-on ¡
your ¡algorithm ¡
Rπ(T) = max
i=1,...,K E T
X
t=1
Xi,t − E
T
X
t=1
XIπ
t ,t
Xi,t ∼ Ber(µi), µ? = max
i
µi = µi? µi ∈ [0, 1], ∀i ∈ {1, . . . , K} Iπ
t
(Iπ
1 , XIπ
1 ,1, . . . , Iπ
t−1, XIπ
t−1,t−1)
π t T
17 ¡
lim inf
T !1
R⇡(T) log(T) ≥ X
i6=i?
µ? − µi KL(µi, µ?)
1 (µ? − µi) π KL(p, q) = p log(p q ) + (1 − p) log(1 − p 1 − q )
18 ¡
E[ti(T)] = o(T ↵), 8α > 0, 8µ, 8i 6= i?
19 ¡
2 ¡ 3 ¡ 4 ¡ 5 ¡ arms ¡ 1 ¡
µi i i? k k
20 ¡
2 ¡ 3 ¡ 4 ¡ 5 ¡ arms ¡ 1 ¡
µi i i? k µ0 log(T) KL(µk, µ?) k µ? − µk KL(µk, µ?) log(T)
k
1 ni(t)
ni(t)
X
t=1
Xi,t + s 2 log(t) ni(t) max ⇢ q ≤ 1 : ni(t)KL(ˆ µi(t), q) ≤ log(t) + 3 log log(t)
about ¡the ¡average ¡rewards ¡of ¡other ¡ac-ons ¡
22 ¡
µ = (µ1, . . . , µK) ∈ Θ Θ =
K
Y
i=1
[ai, bi] µ1 µ2 µ1 µ2 Θ 6=
K
Y
i=1
[ai, bi] Θ Θ
(Decision ¡set/Time ¡horizon) ¡ 0 ¡
Lai-‑Robbins ¡1985 ¡ Infinite ¡Bandits: ¡ Berry ¡et ¡al. ¡1997 ¡ Wang ¡et ¡al. ¡2008 ¡ Bonald-‑P. ¡2013 ¡ ¡ Bandits ¡with ¡structure: ¡ Combinatorial ¡bandits ¡ Con-nuous ¡bandits: ¡ ¡ ¡ ¡ ¡ ¡Linear ¡bandits ¡ ¡ ¡ ¡ ¡ ¡Convex ¡bandits ¡ ¡ ¡ ¡ ¡ ¡Unimodal ¡bandits ¡ Agrawal ¡1995 ¡ Kleinberg-‑Slivkins ¡2005 ¡ Bubeck ¡et ¡al. ¡2011 ¡… ¡ ¡ ¡ Lai ¡ ¡ Agrawal-‑Teneketzis-‑Anantharam ¡1989 ¡ Kumar ¡1985 ¡ Borkar-‑Varaiya ¡1979 ¡ Op-mal ¡control ¡of ¡Markov ¡Chains ¡
23 ¡
K/T
24 ¡
25 ¡
26 ¡
G = (V, E)
27 ¡
G = (V, E)
28 ¡
i j
µ = (µi)i∈V ∈ UG G = (V, E) µj > µi k?
29 ¡
r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN µi = riθi known ¡ unknown ¡ Average ¡rewards ¡ ∈ [0, 1] t i riXi,t Xi,t ∼ Ber(θi) G k?, µ? = µk?
30 ¡
i j
G = (V, E) µj > µi k?
31 ¡
x y p(x, y; u, θ)
reward: ¡ ¡r(x, u)
g : X → U µg(θ) = X
x∈X
πg
θ(x)r(x, g(x))
g? Rπ(T) = Tµg?(θ) − E
T
X
t=1
r(Xt, gπ(Xt))
32 ¡
T →∞
Rπ(T) log(T) ≥ c(θ) c(θ) = Ig(θ, λ) = X
x,y
πg
θ(x)p(x, y; g(x), θ) log p(x, y; g(x), θ)
p(x, y; g(x), λ) B(θ) = {λ ∈ Θ : g? not opt., Ig?(θ, λ) = 0} inf X
g6=g?
cg(µg?(θ) − µg(θ)) s.t. inf
λ2B(θ)
X
g6=g?
cgIg(θ, λ) ≥ 1 g
33 ¡
g = k p(x, y : k, θ) = ⇢ θk if y = rk 1 − θk if y = 0 µg(θ) = rkθk = µk g = k
34 ¡
k N(k) N(k) = {l ∈ N(k) : rkθk ≤ rl}
π lim inf
T →∞
Rπ(T) log(T) ≥ cG(θ) cG(θ) = X
k∈N(k?)
rk?θk? − rkθk KL(θk, rk?θk?
rk
)
35 ¡
inf X
g6=g?
cg(µg?(θ) − µg(θ)) s.t. inf
λ2B(θ)
X
g6=g?
cgIg(θ, λ) ≥ 1
2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ ¡ ¡ ¡ac-ons ¡ 1 ¡
36 ¡
ˆ µk(n) = 1 tk(n)
tk(n)
X
s=1
rkXk(s) bk(n) = max ⇢ q ∈ [0, rk] : tk(n)KL ✓ ˆ µk(n) rk , q rk ◆ ≤ log(lL(n)(n)) + c log log(lL(n)(n))
n
X
s=1
1L(s)=k L(n) ∈ arg max
k
ˆ µk(n)
37 ¡
n = 1, . . . , K k(n) = n n ≥ K + 1 k(n) µ ∈ UG, lim sup
T →∞
ROAS(T) log(T) ≤ cG(θ). k(n) = ( L(n) if (lL(n)(n) − 1)/(γ + 1) ∈ N, arg max
k∈N(L(n)) bk(n)
38 ¡
RORS(T) ≤rK X
k6=k?
E[lk(T)] + X
k2N(k?)
(rk?θk? − rkθk)E[
T
X
t=1
1L(t)=k?,k(t)=k]
≤ O(log log(T)) ≤ (1 + ✏)c(✓) log(T) + O(log log(T)) ROAS(T) ≤ rK X
k6=k?
E[lk(T)]
39 ¡
θ(t) k?(t) Rπ(T) =
T
X
t=1
lim sup
T →∞
1 T
T
X
n=1
X
k,k0∈N(k)
1|rkθk(n)−rk0θk0(n)|≥∆ ≤ φ(K)∆
40 ¡
T
Rπ(T) T ≤ Cφ(K)σ
1 4 log(1/σ)(1 + Ko(1)),
σ → 0+ π =
41 ¡
Tends ¡to ¡zero ¡when ¡the ¡evolu-on ¡of ¡average ¡rewards ¡gets ¡smoother ¡
Does ¡not ¡depend ¡on ¡the ¡size ¡of ¡the ¡decision ¡space ¡if ¡ ¡
¡
42 ¡
43 ¡
Yes/No ¡
r1 r2 . . . rN θ1 θ2 . . . θN µ1 µ2 . . . µN
rates ¡ Success ¡probabili-es ¡ Throughputs ¡
µi = riθi θ1 > θ2 > . . . > θN
9 ¡ 12 ¡ 18 ¡ 24 ¡ 36 ¡ 48 ¡ 54 ¡ ¡ ¡ ¡(Mbit/s) ¡ 6 ¡
G
44 ¡
G
13.5 ¡ 27 ¡ 40.5 ¡ 54 ¡ 81 ¡ 108 ¡ 121.5 ¡ 135 ¡ 108 ¡ 81 ¡ 54 ¡ 27 ¡ 162 ¡ 216 ¡ 243 ¡ 270 ¡ DS ¡ SS ¡ ¡
45 ¡
46 ¡
n = 1, . . . , K k(n) = n n ≥ K + 1 k(n) k(n) = ( L(n) if (lL(n)(n) − 1)/(γ + 1) ∈ N, arg max
k∈N(L(n)) bk(n)
47 ¡
20 40 60 80 100 500 1000 1500 2000 2500 3000 3500 4000
Time (s)
Regret
SampleRate SW−G−ORS G−ORS
48 ¡
20 40 60 80 100 200 400 600 800 1000 1200 1400 1600 1800 2000
Time (s)
Regret
SampleRate SW−G−ORS G−ORS
49 ¡
50 100 150 200 250 300 5 10 15 20 25 30 35 40 45 50 55
Time (s) Instantaneous Throughput (Mbps)
54Mbps 48Mbps 36Mbps 24Mbps 18Mbps 12Mbps 9Mbps 6Mbps
50 ¡
50 100 150 200 250 300 5 10 15 20 25 30 35 40 45 50 55
Time (s) Instantaneous Throughput (Mbps)
Oracle SW−G−ORS SampleRate
51 ¡
available ¡decisions ¡(crucial!) ¡
52 ¡
53 ¡
Decision ¡set/Time ¡horizon ¡ 0 ¡
Infinite ¡bandits ¡ solved ¡(Bonald-‑P.) ¡ Structured ¡bandits ¡ solved ¡(stoch. ¡control) ¡
54 ¡