Ac#ve Learning and Search on Low-Rank Matrices Dougal J. - - PowerPoint PPT Presentation

ac ve learning and search on low rank matrices
SMART_READER_LITE
LIVE PREVIEW

Ac#ve Learning and Search on Low-Rank Matrices Dougal J. - - PowerPoint PPT Presentation

Ac#ve Learning and Search on Low-Rank Matrices Dougal J. Sutherland with Barnabs Pczos and Jeff Schneider Collabora#ve predic#on NeHlix problem:


slide-1
SLIDE 1

Ac#ve ¡Learning ¡and ¡Search ¡

  • n ¡Low-­‑Rank ¡Matrices ¡

Dougal ¡J. ¡Sutherland ¡

with ¡Barnabás ¡Póczos ¡and ¡Jeff ¡Schneider ¡

slide-2
SLIDE 2

Collabora#ve ¡predic#on ¡

  • “NeHlix ¡problem”: ¡how ¡can ¡we ¡predict ¡whether ¡users ¡

will ¡like ¡movies? ¡

  • Basic ¡idea: ¡similar ¡users ¡should ¡have ¡similar ¡feelings ¡

about ¡similar ¡items ¡

  • Actually: ¡assume ¡the ¡ra#ngs ¡matrix ¡is ¡low ¡rank ¡

≈ ⋅

User ¡latent ¡factors ¡U Ra#ngs ¡matrix ¡ R Item ¡latent ¡factors ¡ V T Alice ¡ Bob ¡ Carlos ¡ 2 ¡ 3 ¡ 3 ¡ 5 ¡ 2 ¡ 5 ¡ 3 ¡ 5 ¡ 4 ¡ 3 ¡ 0.1 ¡ 2.5 ¡ 3.6 ¡ 1.1 ¡ 0.4 ¡ 4.7 ¡ Alice ¡ Bob ¡ Carlos ¡ 0.1 ¡ 0.0 ¡ 0.6 ¡ 0.5 ¡ 0.5 ¡ 1.1 ¡ 0.8 ¡ 1.2 ¡ 1.9 ¡ 0.6 ¡ 2 ¡ 5 ¡ 5 ¡ 5 ¡ 4 ¡

slide-3
SLIDE 3

Widely ¡applicable ¡

Erikkson ¡& ¡van ¡den ¡Hengel, ¡CVPR ¡2010 ¡ Adams, ¡Dahl, ¡& ¡Murray, ¡UAI ¡2010 ¡

slide-4
SLIDE 4

Ac$ve ¡collabora#ve ¡predic#on ¡

In ¡prac#ce, ¡we ¡rarely ¡have ¡a ¡fixed ¡training ¡set. ¡ Some#mes ¡we ¡can ¡choose ¡to ¡query ¡specific ¡points; ¡we ¡ want ¡the ¡algorithm ¡to ¡tell ¡us ¡which ¡ones ¡to ¡try. ¡

slide-5
SLIDE 5

Overall ¡process ¡

Par#ally ¡

  • bserved ¡

input ¡ Imputed ¡ complete ¡ matrix ¡ Point ¡to ¡query ¡

RO ˆ R

slide-6
SLIDE 6

Learning ¡goals ¡

Predic'on: ¡minimize ¡predic#on ¡error ¡on ¡unknown ¡entries ¡ ¡ ¡ Model: ¡minimize ¡uncertainty ¡in ¡the ¡distribu#on ¡of ¡models ¡ ¡ ¡ Magnitude ¡Search: ¡query ¡largest-­‑valued ¡points ¡possible ¡ ¡ ¡ Search: ¡query ¡as ¡many ¡posi#ve ¡points ¡as ¡possible ¡

min E h (Rij ˆ Rij)2 | (i, j) 62 O i max X

(i,j)∈A

Rij max X

(i,j)∈A

(Rij ∈ +) min H [model | RO]

slide-7
SLIDE 7

Probabilis#c ¡Matrix ¡Factoriza#on ¡

Genera#ve ¡model ¡for ¡matrices ¡of ¡fixed ¡rank ¡D ¡

Vj ∼ N

  • 0, σ2

V ID

  • Ui ∼ N
  • 0, σ2

U ID

  • (Salakhutdinov ¡& ¡Mnih, ¡NIPS ¡2007) ¡

¡

ln p(U, V | RO) = 1 2σ2 kI

  • R UV T

k2

F +

1 2σ2

U

kUk2

F +

1 2σ2

V

kV k2

F + C

≈ ⋅

User ¡latent ¡factors ¡U Ra#ngs ¡matrix ¡ R Item ¡latent ¡factors ¡ V T Alice ¡ Bob ¡ Carlos ¡ 2 ¡ 3 ¡ 3 ¡ 5 ¡ 2 ¡ 5 ¡ 3 ¡ 5 ¡ 4 ¡ 3 ¡ 0.1 ¡ 2.5 ¡ 3.6 ¡ 1.1 ¡ 0.4 ¡ 4.7 ¡ Alice ¡ Bob ¡ Carlos ¡ 0.1 ¡ 0 ¡ 0.6 ¡ 0.5 ¡ 0.5 ¡ 1.1 ¡ 0.8 ¡ 1.2 ¡ 1.9 ¡ 0.6 ¡ 2 ¡ 5 ¡ 5 ¡ 5 ¡ 4 ¡

Rij ∼ N

  • U T

i Vj, σ2

slide-8
SLIDE 8

PMF ¡Limita#ons ¡

  • PMF ¡is ¡only ¡really ¡suited ¡to ¡a ¡point ¡es#mate ¡of ¡U, ¡V ¡

¡

  • To ¡do ¡ac#ve ¡learning, ¡we ¡need ¡some ¡informa#on ¡

about ¡our ¡uncertainty ¡in ¡the ¡model ¡and/or ¡the ¡ predic#ons ¡

ln p(U, V | RO) = 1 2σ2 kI

  • R UV T

k2

F +

1 2σ2

U

kUk2

F +

1 2σ2

V

kV k2

F + C

slide-9
SLIDE 9

Varia#onal ¡PMF ¡

One ¡way ¡to ¡get ¡posterior ¡distribu#on ¡info: ¡

  • Approximate ¡joint ¡distribu#on ¡p(U, ¡V) ¡with ¡a ¡

parametric ¡family ¡q(U, ¡V) ¡

  • Find ¡best ¡parameters ¡by ¡minimizing ¡KL ¡divergence ¡

KL(qkp) = Z q(U, V ) ln q(U, V ) p(U, V | RO)d{U, V } = H[q] Eq [ln p(U, V | RO)] = H[q] C + 1 2σ2

U N

X

i=1 D

X

k=1

Eq[U 2

ik] +

1 2σ2

V M

X

j=1 D

X

k=1

Eq[V 2

jk]

+ 1 2σ2

N

X

i=1 M

X

j=1

D X

k=1 D

X

`=1

Eq[UkiVkjU`iV`j] 2Rij

D

X

k=1

Eq[UkiVkj] + R2

ij

!

slide-10
SLIDE 10

Varia#onal ¡PMF: ¡full ¡normal ¡

  • One ¡op#on: ¡normal ¡over ¡vector ¡of ¡entries ¡in ¡U, ¡V ¡

– Expecta#ons ¡we ¡need ¡are ¡in ¡closed ¡form ¡(Isserlis’ ¡Thm.) ¡ – Can ¡op#mize ¡with ¡projected ¡gradient ¡descent ¡ – O(D2 ¡(N+M)2) ¡memory, ¡O(D3 ¡(N+M)3) ¡#me ¡to ¡project ¡

U11 ¡ U12 ¡ U21 ¡ U22 ¡ U31 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡ U11 ¡ U12 ¡ U21 ¡ U22 ¡ U32 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡ U11 ¡ U12 ¡ U21 ¡ U22 ¡ U31 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡

Mean ¡µ ¡ D(N+M) ¡ cov ¡Σ ¡ (D(N+M))2 ¡

slide-11
SLIDE 11

Varia#onal ¡PMF: ¡fully ¡factorized ¡

  • Another: ¡assume ¡each ¡element ¡of ¡U ¡and ¡V ¡is ¡independent ¡

– (Silva ¡& ¡Carin, ¡KDD ¡2012) ¡ – O(D ¡(N+M)) ¡memory, ¡projec#on ¡is ¡trivial ¡

U11 ¡ U12 ¡ U21 ¡ U22 ¡ U31 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡ U11 ¡ U12 ¡ U21 ¡ U22 ¡ U32 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡ U11 ¡ U12 ¡ U21 ¡ U22 ¡ U31 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡

Mean ¡µ ¡ D(N+M) ¡ diagonal ¡cov ¡Σ ¡ (D(N+M)) ¡

slide-12
SLIDE 12

Varia#onal ¡PMF: ¡matrix ¡normal ¡

  • In ¡between: ¡matrix ¡normal ¡over ¡stacked ¡U, ¡V ¡

– Decompose ¡cov ¡into ¡user/item ¡covariance ¡+ ¡latent ¡d ¡covariance ¡ – Expecta#ons ¡/ ¡gradient ¡descent ¡basically ¡the ¡same ¡ – O(D2 ¡+ ¡(N+M)2) ¡memory, ¡O(D3 ¡+ ¡(N+M)3) ¡#me ¡to ¡project ¡

U11 ¡ U12 ¡ U21 ¡ U22 ¡ U31 ¡ U32 ¡ V11 ¡ V12 ¡ V21 ¡ V22 ¡ U1 ¡ U2 ¡ U3 ¡ V1 ¡ V2 ¡ U1 ¡ U2 ¡ U3 ¡ V1 ¡ V2 ¡

Mean ¡µ ¡ D(N+M) ¡ row ¡cov ¡Σ ¡ (N+M)2 ¡

1 ¡ 2 ¡ 1 ¡ 2 ¡

column ¡cov ¡Ω ¡ D2 ¡

slide-13
SLIDE 13

Markov ¡chain ¡Monte ¡Carlo ¡

Another ¡way ¡to ¡get ¡posterior ¡info ¡for ¡PMF ¡is ¡to ¡get ¡ samples ¡from ¡it ¡(approximately, ¡asympto#cally…). ¡ BPMF ¡(Salakhutdinov ¡& ¡Mnih, ¡ICML ¡2008) ¡lets ¡normal ¡priors ¡on ¡U ¡ and ¡V ¡have ¡arbitrary ¡means/covariances, ¡with ¡ Gaussian-­‑Wishart ¡hyperpriors. ¡

– Can ¡sample ¡through ¡Gibbs ¡ – We ¡use ¡Hamiltonian ¡MCMC ¡with ¡the ¡No-­‑U-­‑Turn ¡Sampler ¡

(Hoffman ¡& ¡Gelman, ¡JMLR ¡in ¡press) ¡

slide-14
SLIDE 14

Myopic ¡selec#on ¡criteria ¡

– Predic'on: ¡element ¡with ¡highest ¡variance ¡(uncertainty ¡sampling) ¡ ¡ – Model: ¡? ¡ ¡ – Magnitude ¡search: ¡element ¡with ¡highest ¡mean ¡ ¡ ¡ – Search: ¡element ¡with ¡highest ¡probability ¡of ¡being ¡posi#ve ¡ arg max(i,j) E[Rij] arg max(i,j) Var[Rij] arg max(i,j) P[Rij ∈ +]

slide-15
SLIDE 15

Lookahead ¡criteria ¡

Integrate ¡over ¡possible ¡outcomes ¡(Garneq ¡et ¡al., ¡ICML ¡2012) ¡ ¡ ¡

– Predic'on: ¡ ¡entropy ¡of ¡predicted ¡matrix ¡ ¡ – Model: ¡entropy ¡of ¡posterior ¡over ¡U ¡and ¡V ¡ ¡ – Magnitude ¡search: ¡mean ¡of ¡found ¡elements ¡ ¡ – Search: ¡expected ¡number ¡of ¡posi#ves ¡found ¡ f(q) = H[R] f(q) = H[U, V ] f(q) = (Rij ∈ +) + max

(k,l)∈P−(i,j) P(Rkl ∈ +)

f(q) = Rij + max

(k,l)∈P−(i,j) E[Rkl]

Z

x

dˆ P(Rij = x) E [f(q) | RO, Rij = x]

slide-16
SLIDE 16

Other ¡work ¡

  • Only ¡deals ¡with ¡Predic'on ¡goal ¡

¡

  • Substan#al ¡amount ¡of ¡work ¡on ¡ac#ve ¡learning ¡for ¡

recommender ¡systems, ¡especially ¡the ¡new ¡user ¡case ¡ ¡

  • Liqle ¡for ¡general ¡matrix ¡factoriza#on ¡serngs: ¡

– Silva ¡& ¡Carin, ¡KDD ¡2012 ¡

  • assumes ¡fully ¡factorized ¡distribu#on: ¡more ¡limited ¡model ¡
  • handles ¡much ¡larger ¡datasets ¡

– Rish ¡& ¡Tesauro, ¡ISAIM ¡2008 ¡workshop ¡

  • uses ¡max-­‑margin ¡matrix ¡factoriza#on ¡
  • picks ¡points ¡near ¡the ¡boundary ¡
slide-17
SLIDE 17

Toy ¡problems ¡

−130 −120 −110 −100 −90 −80 −70 −60 100 200 300 400 500 600 700 −50.8 −50.7 −50.6 −50.5 −50.4 −50.3 −50.2 −50.1 −50.0 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8

MCMC ¡ Matrix ¡normal ¡varia#onal ¡

Var[Rij] E [H [R]] Eq [H [U, V ]] Varq[Rij]

slide-18
SLIDE 18

Toy ¡problems ¡

Predic'on ¡results ¡on ¡10x10 ¡rank-­‑4 ¡matrices, ¡vals ¡1 ¡to ¡5. ¡

slide-19
SLIDE 19

Toy ¡problems ¡

Predic'on ¡results ¡on ¡10x10 ¡rank-­‑4 ¡matrices, ¡vals ¡1 ¡to ¡5. ¡

slide-20
SLIDE 20

Toy ¡problems ¡

Search ¡results ¡on ¡10x10 ¡rank-­‑4 ¡matrices, ¡vals ¡1 ¡to ¡5. ¡

slide-21
SLIDE 21

MovieLens ¡

Most ¡of ¡MovieLens-­‑100k: ¡472 ¡users ¡x ¡413 ¡movies, ¡~60k ¡ ra#ngs. ¡Start ¡with ¡5% ¡known; ¡test ¡on ¡a ¡different ¡5%. ¡

slide-22
SLIDE 22

DrugBank ¡

Predict ¡interac#ons ¡between ¡drugs ¡and ¡“targets.” ¡

– Used ¡a ¡subset ¡of ¡94 ¡drugs ¡x ¡425 ¡targets: ¡4% ¡posi#ve. ¡ – Start ¡with ¡500 ¡points ¡known: ¡one ¡interac#on ¡per ¡drug, ¡ enough ¡non-­‑interac#on ¡so ¡every ¡column ¡has ¡an ¡entry. ¡ – Test ¡on ¡500 ¡posi#ves, ¡1000 ¡nega#ves; ¡run ¡for ¡200 ¡steps. ¡

slide-23
SLIDE 23

Future ¡work ¡

  • Scalability: ¡

– schemes ¡for ¡choosing ¡points ¡to ¡evaluate ¡in ¡lookahead ¡ – minibatch/parallel ¡MCMC ¡sampling ¡ ¡

  • Other, ¡more ¡restricted ¡varia#onal ¡approxima#ons ¡
  • Batch ¡selec#on ¡criteria ¡
  • Integrate ¡with ¡side ¡informa#on ¡on ¡points ¡

– e.g. ¡via ¡GP ¡priors ¡on ¡covariance ¡matrices ¡

slide-24
SLIDE 24

Summary ¡

  • Collabora#ve ¡predic#on ¡via ¡matrix ¡comple#on ¡
  • Ac#ve ¡learning/search ¡to ¡support ¡data ¡collec#on ¡
  • Need ¡distribu#on ¡informa#on ¡for ¡the ¡criteria: ¡

– Varia#onal ¡approxima#ons ¡ – MCMC ¡sampling ¡

  • Experiments ¡

– Toy ¡problems ¡ – MovieLens ¡ – DrugBank ¡