Approximation-‑aware ¡ ¡ Dependency ¡Parsing ¡by ¡ ¡ Belief ¡Propagation ¡
September ¡19, ¡2015 ¡ TACL ¡at ¡EMNLP ¡
1 ¡
Approximation-aware Dependency Parsing by Belief - - PowerPoint PPT Presentation
Approximation-aware Dependency Parsing by Belief Propagation Matt Gormley Mark Dredze Jason Eisner September 19, 2015 TACL at EMNLP 1
1 ¡
2 ¡
with ¡exact ¡inference: ¡ with ¡approx. ¡inference: ¡
3 ¡
… ¡ … ¡ … ¡
4 ¡
… ¡ … ¡ … ¡
…" …" …" …" …" …" …" Chart parser:
5 ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
Low-Resource Semantic Role Labeling M a t t h e w R . G(Eaton ¡& ¡Ghahramani, ¡2009) ¡ (Stoyanov ¡et ¡al., ¡2011) ¡
6 ¡
7 ¡
8 ¡
Mathematical ¡ Modeling ¡
True ¡ False ¡ True ¡ 2 ¡ 9 ¡ False ¡ 4 ¡ 2 ¡
True ¡ 0.1 ¡ False ¡ 5.2 ¡
9 ¡ Y2,1 Y1,2 Y3,2 Y2,3 Y3,1 Y1,3 Y4,3 Y3,4 Y4,2 Y2,4 Y4,1 Y1,4 Y0,1 Y0,3 Y0,4 Y0,2
10 ¡
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
Left ¡ arc ¡ Right ¡ arc ¡
Y2,1 Y1,2 Y3,2 Y2,3 Y3,1 Y1,3 Y4,3 Y3,4 Y4,2 Y2,4 Y4,1 Y1,4 Y0,1 Y0,3 Y0,4 Y0,2
11 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
Left ¡ arc ¡ Right ¡ arc ¡
12 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
13 ¡ ✔
✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
14 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ PTree: ¡Hard ¡constraint, ¡ multiplying ¡in ¡1 ¡if ¡the ¡ variables ¡form ¡a ¡tree ¡ and ¡0 ¡otherwise. ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
15 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ PTree: ¡Hard ¡constraint, ¡ multiplying ¡in ¡1 ¡if ¡the ¡ variables ¡form ¡a ¡tree ¡ and ¡0 ¡otherwise. ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
16 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ PTree: ¡Hard ¡constraint, ¡ multiplying ¡in ¡1 ¡if ¡the ¡ variables ¡form ¡a ¡tree ¡ and ¡0 ¡otherwise. ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡ Grandparent: ¡local ¡
grandparent, ¡head, ¡ and ¡modifier ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
17 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡ PTree: ¡Hard ¡constraint, ¡ multiplying ¡in ¡1 ¡if ¡the ¡ variables ¡form ¡a ¡tree ¡ and ¡0 ¡otherwise. ¡ Unary: ¡local ¡opinion ¡ about ¡one ¡edge ¡ Sibling: ¡local ¡opinion ¡ about ¡pair ¡of ¡arbitrary ¡ siblings ¡ Grandparent: ¡local ¡
grandparent, ¡head, ¡ and ¡modifier ¡
(Riedel ¡and ¡Smith, ¡2010) ¡ (Martins ¡et ¡al., ¡2010) ¡
(Riedel ¡and ¡Smith, ¡2010) ¡ (Martins ¡et ¡al., ¡2010) ¡
Y2,1 Y1,2 Y3,2 Y2,3 Y3,1 Y1,3 Y4,3 Y3,4 Y4,2 Y2,4 Y4,1 Y1,4 Y0,1 Y0,3 Y0,4 Y0,2
19 ¡
20 ¡
(Inference ¡is ¡usually ¡ called ¡as ¡a ¡subroutine ¡ in ¡learning) ¡
time flies like an arrow
time flies like an arrow
pθ( ) = 0.50
21 ¡
(Inference ¡is ¡usually ¡ called ¡as ¡a ¡subroutine ¡ in ¡learning) ¡
time flies like an arrow
time flies like an arrow
pθ( ) = 0.50
22 ¡
(Inference ¡is ¡usually ¡ called ¡as ¡a ¡subroutine ¡ in ¡learning) ¡
time flies like an arrow
time flies like an arrow
pθ( ) = 0.50
Machine ¡ Learning ¡ Conditional ¡Log-‑likelihood ¡Training ¡
Such ¡that ¡derivative ¡in ¡#3 ¡is ¡ea ¡
Assign ¡high ¡probability ¡to ¡the ¡ things ¡we ¡observe ¡and ¡low ¡ probability ¡to ¡everything ¡else ¡
23 ¡
(3. ¡comes ¡from ¡log-‑linear ¡factors) ¡
Assign ¡high ¡probability ¡to ¡the ¡ things ¡we ¡observe ¡and ¡low ¡ probability ¡to ¡everything ¡else ¡
24 ¡
Machine ¡ Learning ¡
25 ¡
Machine ¡ Learning ¡
26 ¡
27 ¡ ✔
0 ¡ 2 ¡ 1 ¡ 3 ¡ 4 ¡ Juan_Carlos ¡ su ¡ abdica ¡ reino ¡ <WALL> ¡
(Smith ¡& ¡Eisner, ¡2008) ¡
Inference ¡
28 ¡
29 ¡
… ¡ Model ¡ parameters ¡ Factors ¡ … ¡
30 ¡
… ¡ Model ¡ parameters ¡ Factors ¡ … ¡ … ¡ Messages ¡ at ¡time ¡t=1 … ¡ Messages ¡ at ¡time ¡t=0
31 ¡
… ¡ Model ¡ parameters ¡ Factors ¡ … ¡ … ¡ Messages ¡ at ¡time ¡t=1 … ¡ Messages ¡ at ¡time ¡t=0
32 ¡
… ¡ Model ¡ parameters ¡ Factors ¡ … ¡ … ¡ Messages ¡ at ¡time ¡t=1 … ¡ Messages ¡ at ¡time ¡t=0
33 ¡
… ¡ Model ¡ parameters ¡ Decode ¡/ ¡Loss Factors ¡ … ¡ … ¡ Beliefs Messages ¡ ¡ at ¡time ¡t=3 … ¡ Messages ¡ at ¡time ¡t=2 … ¡ … ¡ Messages ¡ at ¡time ¡t=1 … ¡ Messages ¡ at ¡time ¡t=0
34 ¡
… ¡ Model ¡ parameters ¡ Decode ¡/ ¡Loss Factors ¡ … ¡ … ¡ Beliefs Messages ¡ ¡ at ¡time ¡t=3 … ¡ Messages ¡ at ¡time ¡t=2 … ¡ … ¡ Messages ¡ at ¡time ¡t=1 … ¡ Messages ¡ at ¡time ¡t=0
35 ¡
… ¡ … ¡ … ¡ … ¡ … ¡ … ¡ … ¡
Chart ¡parser: ¡
36 ¡
Machine ¡ Learning ¡
…" …" …" …" …" …" …" Chart parser:
37 ¡
38 ¡
88 ¡ 89 ¡ 90 ¡ 91 ¡ 92 ¡ 93 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ Unlabeled ¡Attachment ¡Score ¡ (UAS) ¡ # ¡Iterations ¡of ¡BP ¡ CLL ¡ Backprop ¡ Faster ¡ More ¡accurate ¡ Dependency ¡Parsing ¡
39 ¡
90 ¡ 91 ¡ 92 ¡ 93 ¡ Unlabeled ¡Attachement ¡Score ¡(UAS) ¡ CLL ¡ Backprop ¡ Richer ¡Models ¡ More ¡accurate ¡ Dependency ¡Parsing ¡
40 ¡
TRAIN INFERENCE DEV UAS TEST UAS CLL Exact 91.99 91.62 CLL BP 4 iters 91.37 91.25 L2 Exact 91.91 91.66 L2 BP 4 iters 91.83 91.63
90.5 91 91.5 92 92.5 Unary Grand. Sib. Grand.+Sib. UAS CLL
L2 L2+AR 88.0 89.0 90.0 91.0 92.0 93.0 1 2 3 4 5 6 7 8 UAS # Iterations of BP CLL L2 L2+AR
41 ¡
Machine ¡ Learning ¡
(Domke, ¡2010; ¡Domke, ¡2011; ¡Stoyanov ¡et ¡al., ¡2011; ¡ ¡ Ross ¡et ¡al., ¡2011; ¡Stoyanov ¡& ¡Eisner, ¡2012; ¡Hershey ¡et ¡al., ¡2014) ¡
stability, ¡efficiency, ¡backprop ¡through ¡structured ¡factors, ¡annealing ¡ a ¡decoder’s ¡argmin) ¡
42 ¡
Machine ¡ Learning ¡
43 ¡