greed is good if randomized new inference for dependency
play

Greed is Good if Randomized: New Inference for Dependency - PowerPoint PPT Presentation

Greed is Good if Randomized: New Inference for Dependency Parsing Yuan Zhang CSAIL, MIT Joint work with Tao Lei, Regina Barzilay, and Tommi Jaakkola 1 Inference vs. Scoring Exact Inference


  1. Greed ¡is ¡Good ¡if ¡Randomized: ¡New ¡Inference ¡ for ¡Dependency ¡Parsing ¡ Yuan Zhang CSAIL, MIT Joint work with Tao Lei, Regina Barzilay, and Tommi Jaakkola 1 ¡

  2. Inference vs. Scoring Exact ¡ Inference ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ 2 ¡

  3. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Inference ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ 3 ¡

  4. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ 4 ¡

  5. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Dual ¡ DecomposiKon ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ • Dual ¡DecomposiKon: ¡search ¡in ¡full ¡space ¡ 5 ¡

  6. Parsing Complexity • High-­‑order ¡parsing ¡is ¡NP-­‑hard ¡(McDonald ¡et ¡al., ¡2006) ¡ • Hypothesis: ¡parsing ¡is ¡easy ¡on ¡average ¡ • Many ¡NP-­‑hard ¡problems ¡are ¡easy ¡on ¡average ¡ - MAX-­‑SAT ¡(Resende ¡et ¡al., ¡1997) ¡ - Set ¡cover ¡(Hochbaum, ¡1982) ¡ 6 ¡

  7. Parsing Complexity • High-­‑order ¡parsing ¡is ¡NP-­‑hard ¡(McDonald ¡et ¡al., ¡2006) ¡ • Hypothesis: ¡parsing ¡is ¡easy ¡on ¡average ¡ • Many ¡NP-­‑hard ¡problems ¡are ¡easy ¡on ¡average ¡ - MAX-­‑SAT ¡(Resende ¡et ¡al., ¡1997) ¡ - Set ¡cover ¡(Hochbaum, ¡1982) ¡ We ¡show ¡ • Analysis ¡on ¡average ¡parsing ¡complexity ¡ • A ¡simple ¡inference ¡algorithm ¡based ¡on ¡the ¡analysis ¡ 7 ¡

  8. Our Approach Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Dual ¡ Our ¡ ¡ ¡ ¡ ¡ ¡ DecomposiKon ¡ Approach ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ • Dual ¡DecomposiKon: ¡search ¡in ¡full ¡space ¡ 8 ¡

  9. Core Idea • Climb ¡to ¡the ¡opKmal ¡tree ¡in ¡a ¡few ¡small ¡greedy ¡steps ¡ Randomized ¡Hill-­‑climbing ¡ For ¡ k ¡ = ¡1 ¡to ¡ K ¡ 1) Randomly ¡sample ¡a ¡dependency ¡tree ¡ 2) Greedily ¡improve ¡the ¡tree ¡one ¡edge ¡at ¡a ¡Kme ¡ 3) Repeat ¡(2) ¡unKl ¡converge ¡ Select ¡the ¡tree ¡with ¡the ¡highest ¡score ¡ ¡ 9 ¡

  10. Core Idea • Climb ¡to ¡the ¡opKmal ¡tree ¡in ¡a ¡few ¡small ¡greedy ¡steps ¡ Randomized ¡Hill-­‑climbing ¡ For ¡ k ¡ = ¡1 ¡to ¡ K ¡ 1) Randomly ¡sample ¡a ¡dependency ¡tree ¡ 2) Greedily ¡improve ¡the ¡tree ¡one ¡edge ¡at ¡a ¡Kme ¡ 3) Repeat ¡(2) ¡unKl ¡converge ¡ Select ¡the ¡tree ¡with ¡the ¡highest ¡score ¡ ¡ That’s ¡it! ¡ 10 ¡

  11. It Works! Dual ¡ Turbo ¡ 88.73% ¡ Decomposi;on ¡ Our ¡Full ¡ 89.44% ¡ Parsing ¡Performance ¡on ¡CoNLL ¡Dataset ¡ 11 ¡

  12. Example “ ¡I ¡ate ¡an ¡apple ¡today” ¡ 12 ¡

  13. Example Initial tree ROOT ¡ apple ate today I an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ 13 ¡

  14. Example Initial tree ROOT ¡ apple ate today I an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 14 ¡

  15. Example Initial tree ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 15 ¡

  16. Example ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 16 ¡

  17. Example ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 17 ¡

  18. Example ROOT ¡ apple apple today ate ate an today an I I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 18 ¡

  19. Example ROOT ¡ apple apple today ate ate an today an I I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 19 ¡

  20. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 20 ¡

  21. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 21 ¡

  22. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 22 ¡

  23. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 23 ¡

  24. Example ROOT ¡ apple ate today ate I apple today an an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 24 ¡

  25. Example ROOT ¡ ate I apple today an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 25 ¡

  26. Why Greedy Has a Chance to Work ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) Reachability : ¡transforming ¡any ¡tree ¡to ¡any ¡other ¡tree ¡ • maintaining ¡the ¡structure ¡a ¡valid ¡tree ¡at ¡any ¡point ¡ • using ¡as ¡few ¡as ¡ d ¡steps ¡( d ¡: ¡head ¡differences/hamming ¡distance) ¡ 26 ¡

  27. Greedy Hill-climbing ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) 27 ¡

  28. Greedy Hill-climbing ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) Arbitrary ¡features ¡in ¡the ¡scoring ¡func;on ¡ 28 ¡

  29. Challenge: Local Optimum ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) global ¡opKmum ¡ local ¡opKmum ¡ score ¡ S tree ¡ y 29 ¡

  30. Hill-climbing with Restarts ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an score ¡ S tree ¡ y Overcome ¡local ¡opKma ¡via ¡restarts ¡ 30 ¡

  31. Hill-climbing with Restarts ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) y (0) y ( T ) Random ¡ iniKalizaKon ¡ max ¡ Hill-­‑climbing ¡ (e.g. ¡uniform) ¡ …… ¡ …… ¡ y (0) y ( T ) Overcome ¡local ¡opKma ¡via ¡restarts ¡ 31 ¡

  32. Learning Algorithm • Follow ¡common ¡max-­‑margin ¡framework ¡ S ( x , ˆ y ) ≥ S ( x , y ) + | ˆ ∀ y ∈ T ( x ) y − y | − ξ § ¡ ¡ ¡ ¡ ¡is ¡the ¡gold ¡tree ¡ ˆ y 32 ¡

  33. Learning Algorithm • Follow ¡common ¡max-­‑margin ¡framework ¡ S ( x , ˆ y ) ≥ S ( x , y ) + | ˆ ∀ y ∈ T ( x ) y − y | − ξ § ¡ ¡ ¡ ¡ ¡is ¡the ¡gold ¡tree ¡ ˆ y • Adopt ¡passive-­‑aggressive ¡online ¡learning ¡framework ¡(Crammer ¡et ¡ al. ¡2006) ¡ ¡ • Decode ¡with ¡our ¡randomized ¡greedy ¡algorithm ¡ ¡ 33 ¡

  34. Analysis 34 ¡

  35. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ 35 ¡

  36. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ ? High-­‑order ¡ 36 ¡

  37. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ ? High-­‑order ¡ 37 ¡

  38. Search Space Complexity: First-order 10 ¡words ¡ 38 ¡

  39. Search Space Complexity: First-order ≈ ¡2 ¡billion ¡trees ¡ 10 ¡words ¡ 39 ¡

  40. Search Space Complexity: First-order ≈ ¡2 ¡billion ¡trees ¡ 10 ¡words ¡ < ¡512 ¡local ¡opKma ¡ 40 ¡

  41. Search Space Complexity: First-order Theorem : ¡For ¡any ¡first-­‑order ¡scoring ¡funcKon: ¡ • there ¡are ¡at ¡most ¡2 n-­‑1 ¡locally ¡opKmal ¡trees ¡ • this ¡upper ¡bound ¡is ¡ .ght ¡ 41 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend