Linguis'c ¡Structured ¡Sparsity ¡ ¡ in ¡Text ¡Categoriza'on ¡
Dani ¡Yogatama ¡and ¡Noah ¡A. ¡Smith ¡ Language ¡Technologies ¡Ins'tute ¡ Carnegie ¡Mellon ¡University ¡ {dyogatama,nasmith}@cs.cmu.edu
Linguis'c Structured Sparsity in Text Categoriza'on Dani - - PowerPoint PPT Presentation
Linguis'c Structured Sparsity in Text Categoriza'on Dani Yogatama and Noah A. Smith Language Technologies Ins'tute Carnegie Mellon University
Dani ¡Yogatama ¡and ¡Noah ¡A. ¡Smith ¡ Language ¡Technologies ¡Ins'tute ¡ Carnegie ¡Mellon ¡University ¡ {dyogatama,nasmith}@cs.cmu.edu
Dani ¡Yogatama ¡ ¡ ¡
together ¡
define ¡feathers ¡(flocks) ¡instead ¡of ¡ features ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
1 acting 1 at 1 back 1 basics 1 big 1 bit 1 brutality 1 but 1 cheek 1 crudest 1 dagerous … 6 the …
1 acting 1 at 1 back 1 basics 1 big 1 bit 1 brutality 1 but 1 cheek 1 crudest 1 dagerous … 6 the …
wacting wat wback wbasics wbig wbit wbrutality wbut wcheek wcrudest wdagerous … wthe …
sign (f(document) · w)
1 acting 1 at 1 back 1 basics 1 big 1 bit 1 brutality 1 but 1 cheek 1 crudest 1 dagerous … 6 the …
syntac'c ¡ classes ¡
topics ¡ ¡
(and ¡many ¡more!) ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
syntac'c ¡ classes ¡
topics ¡ ¡
(and ¡many ¡more!) ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
syntac'c ¡ classes ¡
topics ¡ ¡
(and ¡many ¡more!) ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
syntac'c ¡ classes ¡
topics ¡ ¡
(and ¡many ¡more!) ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
“fit ¡the ¡data” ¡
(e.g., ¡log-‑likelihood ¡of ¡yn ¡given ¡dn, ¡ hinge ¡loss, ¡...) ¡
¡ “generalize” ¡ (e.g., ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡; ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡) ¡
ˆ w = arg min
w N
X
n=1
L(f(dn), yn; w) + R(w)
λkwk2
2
λkwk1
group ¡1 ¡ group ¡2 ¡ group ¡3 ¡ w1 w2 w3 no ¡sparsity ¡ classic ¡sparsity ¡ group ¡sparsity ¡
R(w) = X
g
λgkwgk2
R(w) = X
g
λgkwgk2 In ¡NLP: ¡
group ¡sparsity ¡
ˆ w = arg min
w N
X
n=1
L(f(dn), yn; w) + R(w)
ˆ w = arg min
w N
X
n=1
L(f(dn), yn; w) + R(w)
ˆ w = arg min
w N
X
n=1
L(f(dn), yn; w) s.t. R(w) ≤ τ
“Tikhonov” ¡regulariza'on ¡ “Ivanov” ¡regulariza'on ¡
R(w) = |w1| + |w2| + |w3|
〈w1, w2〉 w3
Mar'ns ¡et ¡al., ¡EACL ¡2014 ¡tutorial ¡on ¡structured ¡sparsity ¡in ¡NLP ¡ L
ˆ w = arg min
w N
X
n=1
L(f(dn), yn; w) s.t. R(w) ≤ τ
R(w) = |w1| + |w2| + |w3| R(w) = ||〈w1, w2〉||2 + |w3|
〈w1, w2〉 w3 〈w1, w2〉 w3
Mar'ns ¡et ¡al., ¡EACL ¡2014 ¡tutorial ¡on ¡structured ¡sparsity ¡in ¡NLP ¡ L L L L
Back ¡to ¡NLP ¡... ¡
sentence ¡is ¡irrelevant ¡to ¡the ¡task. ¡
R(w) =
N
X
n=1 Sn
X
s=1
λn,skwn,sk2
Yogatama ¡and ¡Smith ¡(ICML ¡2014) ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
1 acting 1 at 1 back 1 basics 1 big 1 bit 1 brutality 1 but 1 cheek 1 crudest 1 dagerous … 6 the …
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
1 acting 1 at 1 back 1 basics 1 big 1 bit 1 brutality 1 but 1 cheek 1 crudest 1 dagerous … 6 the …
More ¡Linguis'c ¡Structure ¡Regularizers ¡
¡ ¡ ¡ ¡ ¡
groups ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ the ¡ ✓ ¡ ✓ ¡ ✓ ¡ actors ¡ ✓ ¡ ✓ ¡ ✓ ¡ are ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ fantas'c ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ . ¡ ✓ ¡ ✓ ¡ ✓ ¡ words/features ¡
More ¡Linguis'c ¡Structure ¡Regularizers ¡
¡ ¡ ¡ ¡ ¡
groups ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ the ¡ ✓ ¡ ✓ ¡ ✓ ¡ actors ¡ ✓ ¡ ✓ ¡ ✓ ¡ are ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ fantas'c ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ . ¡ ✓ ¡ ✓ ¡ ✓ ¡ words/features ¡
More ¡Linguis'c ¡Structure ¡Regularizers ¡
¡ ¡ ¡ ¡ ¡
groups ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ the ¡ ✓ ¡ ✓ ¡ ✓ ¡ actors ¡ ✓ ¡ ✓ ¡ ✓ ¡ are ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ fantas'c ¡ ✓ ¡ ✓ ¡ ✓ ¡ ✓ ¡ . ¡ ✓ ¡ ✓ ¡ ✓ ¡ words/features ¡
Sparse ¡Group ¡Lasso ¡
min
w R(w) + λkwk1 + N
X
n=1
L(f(dn), yn; w)
Op'miza'on ¡
min
w R(w) + λkwk1 + N
X
n=1
L(f(dn), yn; w)
Op'miza'on ¡
min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) s.t. v = Mw min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
separate ¡w ¡from ¡“copies” ¡v, ¡ constraint ¡forces ¡agreement ¡
min
w R(w) + λkwk1 + N
X
n=1
L(f(dn), yn; w)
Op'miza'on ¡
min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) s.t. v = Mw min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
separate ¡w ¡from ¡“copies” ¡v, ¡ constraint ¡forces ¡agreement ¡
Op'miza'on ¡
min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) s.t. v = Mw
separate ¡w ¡from ¡“copies” ¡v, ¡ constraint ¡forces ¡agreement ¡
“augmented ¡Lagrangian” ¡
min
w,v max u
R(v) + λkwk1 +
N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
Op'miza'on ¡
min
w,v R(v) + λkwk1 + N
X
n=1
L(f(dn), yn; w) s.t. v = Mw
ADMM: ¡ Alterna'ng ¡ Direc'ons ¡
alterna'ng, ¡blockwise ¡updates ¡of ¡w ¡and ¡v
Method ¡of ¡ Mul'pliers ¡
a ¡“faster” ¡version ¡of ¡dual ¡ascent ¡for ¡solving ¡the ¡ augmented ¡Lagrangian ¡(Hestenes ¡’69; ¡Powell ¡’69) ¡ (Glowinski ¡& ¡Marroco ¡‘75; ¡Gabay ¡& ¡Mercier ¡’76) ¡
separate ¡w ¡from ¡“copies” ¡v, ¡ constraint ¡forces ¡agreement ¡
min
w,v max u
R(v) + λkwk1 +
N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
w ¡update ¡≈ ¡loss ¡minimiza'on ¡with ¡elas'c ¡net ¡regulariza'on ¡(Zou ¡& ¡Has'e ¡’05) ¡ constant ¡
min
w,v max u
R(v) + λkwk1 +
N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
zn,s = Md,sw ud,s ρ vn,s = if kzn,sk2 τ kzn,sk2 τ kzn,sk2 zn,s
v ¡updates: ¡ ¡proximal ¡operator ¡for ¡each ¡group: ¡
min
w,v max u
R(v) + λkwk1 +
N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
simple ¡dual ¡update ¡u ¡
min
w,v max u
R(v) + λkwk1 +
N
X
n=1
L(f(dn), yn; w) + u · (v Mw) + ρ 2kv Mwk2
2
but ¡somehow ¡“informed” ¡by ¡structure ¡
this film is one big joke : you have all the basics elements
passion , etc . ) and gangster flicks ( brutality , dagerous machinations , the mysterious don , etc. ) , but it is all done with the crudest humor . it ’ s the kind of thing you either like viserally and immediately ” get ” or you don ’ t . that is a matter of taste and expectations . i enjoyed it and it took me back to the mid80s , when nicolson and turner were in their primes . the acting is very good , if a bit
1.52 ¡ 1.02 ¡ 1.01 ¡ 1.01 ¡ 1.00 ¡
p(y = 1 | d) p(y = 1 | d \ s)
¡
50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡ Movies ¡(Socher ¡et ¡al., ¡2013) ¡ Votes ¡(Thomas ¡et ¡al., ¡2006) ¡ m.f.c. ¡ lasso ¡ ridge ¡ elas'c ¡ ¡ ¡ ¡ sentence ¡ parse ¡ Brown ¡ LDA ¡
baselines ¡
* ¡* ¡ * ¡* ¡
50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡ 90 ¡ Science ¡(Yogatama ¡et ¡al., ¡2011) ¡ Bills ¡(Yano ¡et ¡al., ¡2012) ¡ m.f.c. ¡ lasso ¡ ridge ¡ elas'c ¡ ¡ ¡ ¡ sentence ¡ parse ¡ Brown ¡ LDA ¡
baselines ¡
* ¡* ¡* ¡* ¡ ¡
50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡ 90 ¡ 95 ¡ 100 ¡
Science ¡(med/space) ¡ Sports ¡(baseball/ hockey) ¡ Religion ¡(atheism/ chris'an) ¡ Computer ¡(pc/mac) ¡
m.f.c. ¡ lasso ¡ ridge ¡ elas'c ¡ ¡ ¡ ¡ sentence ¡ parse ¡ Brown ¡ LDA ¡
baselines ¡
**** ¡ **** ¡ **** ¡ **** ¡
50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡ 90 ¡ 95 ¡ 100 ¡ Science ¡ Sports ¡ Religion ¡ Computer ¡ best ¡baseline ¡ lasso ¡+ ¡Brown ¡ ridge ¡+ ¡Brown ¡ elas'c ¡+ ¡Brown ¡
add ¡ features ¡
80 ¡ 82 ¡ 84 ¡ 86 ¡ 88 ¡ 90 ¡ 92 ¡ 94 ¡ 96 ¡ 98 ¡ 100 ¡ Science ¡ Sports ¡ Religion ¡ Computer ¡ best ¡baseline ¡ lasso ¡+ ¡LDA ¡ ridge ¡+ ¡LDA ¡ elas'c ¡+ ¡LDA ¡
add ¡ features ¡
together ¡
define ¡feathers ¡(flocks) ¡instead ¡of ¡ features ¡
¡ ¡ Acknowledgments: ¡ ¡Google, ¡IARPA, ¡Piosburgh ¡Supercompu'ng ¡Center ¡