Natural Language Processing Berkeley N L - - PowerPoint PPT Presentation

natural language processing
SMART_READER_LITE
LIVE PREVIEW

Natural Language Processing Berkeley N L - - PowerPoint PPT Presentation

Natural Language Processing Berkeley N L P Coreference Resolu4on and En4ty Linking UC Berkeley Sentence-level Analysis S Who is


slide-1
SLIDE 1

Berkeley ¡ N ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡P ¡

Natural ¡Language ¡Processing ¡

Coreference ¡Resolu4on ¡and ¡En4ty ¡Linking ¡ UC ¡Berkeley ¡

slide-2
SLIDE 2

Sentence-­‑level ¡Analysis ¡

… ¡He ¡signed ¡the ¡bill ¡ ¡last ¡Thursday ¡… ¡

Who ¡is ¡he? ¡

  • e. ¡sign(e, ¡he, ¡bill) ¡& ¡date(e, ¡last ¡Thursday) ¡

NP ¡ VP ¡ NP ¡ S ¡ NP ¡ VBZ ¡ PRP ¡

slide-3
SLIDE 3

Document-­‑level ¡Analysis ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

slide-4
SLIDE 4

Document-­‑level ¡Analysis ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

slide-5
SLIDE 5

Document-­‑level ¡Analysis ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

slide-6
SLIDE 6

Narra4ve ¡Structure ¡

Events ¡ En44es ¡ Text ¡ Discourse ¡(rhetorical, ¡temporal ¡structure) ¡

slide-7
SLIDE 7

En4ty ¡Analysis ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡ Cluster ¡1 ¡ Cluster ¡3 ¡ Cluster ¡2 ¡

en.wikipedia.org/wiki/Barack_Obama .../wiki/United_States_Congress .../wiki/Edward_M._Kennedy_Serve_America_Act

slide-8
SLIDE 8

Coreference ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡Act ¡aKer ¡ Congress’s ¡vote. ¡He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡The ¡president ¡ said ¡it ¡would ¡greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡Act ¡aKer ¡ Congress’s ¡vote. ¡He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡The ¡president ¡ said ¡it ¡would ¡greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

Output: ¡clustering ¡of ¡the ¡men4ons ¡in ¡text ¡ Input: ¡text ¡(and ¡men4ons) ¡

slide-9
SLIDE 9

Pragma4cs ¡101 ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ President ¡Barack ¡Obama ¡signed ¡the ¡Serve ¡ America ¡Act ¡last ¡Thursday. ¡ President ¡Barack ¡Obama ¡said ¡… ¡

slide-10
SLIDE 10

Pragma4cs ¡101 ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ President ¡Barack ¡Obama ¡said ¡… ¡

slide-11
SLIDE 11

Pragma4cs ¡101 ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ The ¡president ¡said ¡… ¡ Proper ¡name ¡ Nominal ¡ Pronoun ¡ Specificity ¡ Salience ¡required ¡

slide-12
SLIDE 12

Pragma4cs ¡101 ¡

He ¡ ¡ President ¡Barack ¡Obama ¡

anaphor ¡ ¡ antecedent ¡

  • Coreference ¡is ¡answering ¡the ¡ques4on ¡“who ¡is ¡

my ¡antecedent?” ¡for ¡each ¡men4on ¡

  • Propers, ¡nominals, ¡and ¡pronouns ¡resolve ¡

differently! ¡

slide-13
SLIDE 13

Proper ¡Names ¡

  • Introduce ¡new ¡en44es ¡and ¡give ¡informa4on: ¡

President ¡Barack ¡Obama, ¡44th ¡president ¡of ¡ the ¡United ¡States, ¡… ¡ President ¡Obama ¡ Obama ¡

  • Main ¡cue: ¡lexical ¡overlap ¡
slide-14
SLIDE 14

Pronouns ¡

President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡ Act ¡aKer ¡Congress’s ¡vote. ¡He ¡… ¡ President ¡Obama ¡met ¡with ¡Chancellor ¡Merkel. ¡He ¡… ¡ President ¡Obama ¡met ¡with ¡President ¡Hollande ¡aKer ¡ he… ¡

  • Main ¡cues: ¡agreement, ¡salience ¡

flew ¡in ¡from ¡Paris. ¡ signed ¡the ¡bill. ¡

slide-15
SLIDE 15

Nominal ¡References ¡

President ¡Obama ¡… ¡The ¡president ¡ Serve ¡America ¡Act ¡… ¡The ¡bill ¡ Barack ¡Obama ¡and ¡Angela ¡Merkel ¡… ¡The ¡leaders ¡

  • Main ¡cues: ¡lexical ¡seman4cs, ¡world ¡

knowledge, ¡salience ¡ NBC ¡… ¡The ¡network ¡

slide-16
SLIDE 16

What ¡do ¡we ¡need ¡to ¡capture? ¡

“A ¡men4on ¡refers ¡to ¡the ¡closest ¡compa4ble ¡ antecedent” ¡

  • Seman4c ¡compa4bility: ¡agreement ¡in ¡number, ¡

gender, ¡animacy, ¡seman4c ¡type, ¡iden4ty ¡

Haghighi ¡and ¡Klein ¡(2009), ¡Raghunathan ¡et ¡al. ¡(2010) ¡

  • Salience: ¡distance ¡to ¡previous ¡men4on ¡
  • A ¡rule-­‑based ¡system ¡based ¡on ¡this ¡principal ¡

won ¡the ¡CoNLL ¡2011 ¡bakeoff! ¡

slide-17
SLIDE 17

Problem: ¡Robustness ¡

  • Number ¡and ¡gender ¡are ¡misiden4fied ¡
  • Generic ¡men4ons ¡oKen ¡don’t ¡corefer ¡(officials) ¡
  • Seman4c ¡similarity ¡is ¡a ¡soK ¡concept ¡

(some4mes ¡Washington ¡and ¡the ¡US ¡corefer) ¡

  • Even ¡head ¡match ¡is ¡not ¡always ¡reliable ¡(Gaza ¡

Strip ¡and ¡Southern ¡Gaza ¡Strip) ¡

slide-18
SLIDE 18

Learning-­‑based ¡Coreference ¡

President ¡ Obama ¡ the ¡Serve ¡ America ¡Act ¡ Congress ¡ He ¡

New ¡ New ¡ New ¡ New ¡ 3 ¡ 2 ¡ 1 ¡ 2 ¡ 1 ¡ 1 ¡

slide-19
SLIDE 19

Features ¡

… ¡vote ¡. ¡He ¡signed ¡ Barack ¡Obama ¡received ¡… ¡ ¡

X ¡received—he ¡ PROPER—X ¡signed ¡ PROPER—he ¡ [new] ¡PRONOUN ¡ [new] ¡he ¡ [new] ¡X ¡signed ¡ [new] ¡. ¡X ¡ Length ¡= ¡2 ¡ Type ¡= ¡PROPER, ¡Male, ¡sing. ¡ Type ¡= ¡PRONOUN, ¡Male, ¡sing. ¡ Length ¡= ¡1 ¡

  • Ment. ¡distance=3 ¡

No ¡head ¡match ¡

  • Ant. ¡Length ¡2 ¡
  • Anaph. ¡Length ¡1 ¡

[new] ¡Length ¡1 ¡ Male—he ¡ Obama—he ¡ Barack—he ¡

slide-20
SLIDE 20

What ¡else ¡do ¡these ¡capture? ¡

  • Centering: ¡progression ¡of ¡men4on ¡posi4ons ¡tell ¡us ¡

something ¡about ¡discourse ¡status ¡

  • X ¡discussed—X ¡announced ¡
  • Definiteness: ¡the ¡president ¡is ¡probably ¡a ¡president ¡

already ¡in ¡the ¡discourse ¡

  • [new] ¡First ¡word ¡= ¡the ¡

Barack ¡Obama ¡met ¡with ¡Harry ¡Reid ¡on ¡Monday. ¡ He ¡discussed ¡several ¡key ¡poli4cal ¡issues ¡with ¡Reid. ¡ On ¡Tuesday, ¡he ¡announced ¡a ¡new ¡ini4a4ve. ¡ he ¡ ¡

slide-21
SLIDE 21

Datasets ¡

  • OntoNotes ¡dataset: ¡4000 ¡documents ¡(mix ¡of ¡news, ¡

conversa4ons, ¡web) ¡with ¡parses, ¡named ¡en44es, ¡ coreference ¡

  • You ¡have ¡to ¡predict ¡your ¡own ¡en44es, ¡and ¡single-­‑

men4on ¡en44es ¡are ¡not ¡annotated ¡

slide-22
SLIDE 22

Metrics ¡

Randall ¡Munroe; ¡hnp://xkcd.com/927 ¡

coref ¡metrics ¡

slide-23
SLIDE 23

Metrics ¡

  • MUC: ¡“How ¡many ¡antecedents ¡did ¡you ¡get ¡

right?” ¡(linear ¡in ¡cluster ¡size) ¡

  • B3: ¡“How ¡many ¡edges ¡in ¡predicted ¡clusters ¡did ¡you ¡

get ¡right?” ¡(quadra4c ¡in ¡cluster ¡size) ¡

  • CEAF: ¡“Do ¡a ¡maximum ¡matching ¡between ¡predicted ¡

and ¡gold ¡en44es; ¡how ¡close ¡are ¡they?” ¡(???) ¡

  • CEAF-­‑M, ¡BLANC, ¡etc. ¡
  • CoNLL ¡= ¡(MUC ¡+ ¡B3 ¡+ ¡CEAF)/3 ¡
slide-24
SLIDE 24

Results ¡

50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡

Stanford ¡ Berkeley ¡ Human ¡

57 ¡ 61 ¡ 75 ¡

slide-25
SLIDE 25

Results ¡

50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡

Stanford ¡ Berkeley ¡ Human ¡

57 ¡ 61 ¡ 75 ¡

slide-26
SLIDE 26

Error ¡Analysis ¡

slide-27
SLIDE 27

Error ¡Analysis ¡

slide-28
SLIDE 28

Error ¡Analysis ¡

slide-29
SLIDE 29

Error ¡Analysis ¡

slide-30
SLIDE 30

World ¡Knowledge ¡

America ¡Online ¡announced ¡on ¡Monday ¡that ¡the ¡ company ¡plans ¡to ¡update ¡its ¡instant ¡messaging ¡

  • service. ¡

America ¡Online ¡announced ¡on ¡Monday ¡that ¡the ¡ company ¡plans ¡to ¡update ¡its ¡instant ¡messaging ¡

  • service. ¡

Predic4on: ¡

slide-31
SLIDE 31

World ¡Knowledge ¡

slide-32
SLIDE 32

En4ty ¡Resolu4on ¡

Barack ¡Obama ¡

en.wikipedia.org/wiki/Barack_Obama

Michael ¡Jordan ¡

en.wikipedia.org/wiki/Michael_Jordan en.wikipedia.org/wiki/Michael_I._Jordan

slide-33
SLIDE 33

En4ty ¡Resolu4on ¡

  • Mul4class ¡decision ¡with ¡4 ¡million ¡classes ¡
  • The ¡outputs ¡are ¡structured ¡objects! ¡

Michael_I._Jordan

slide-34
SLIDE 34

Baseline ¡

… ¡ … ¡ … ¡ … ¡

Michael_Jordan Michael_I._Jordan

Cucerzan ¡(2007), ¡Milne ¡and ¡Winen ¡(2008) ¡

Michael_Jordan Michael_I._Jordan Michael ¡Jordan ¡ 0.5 ¡ 0.5 ¡

slide-35
SLIDE 35

Choosing ¡the ¡Right ¡Query ¡

Durren ¡and ¡Klein ¡(2014) ¡

professor ¡Michael ¡Jordan ¡

professor ¡Michael ¡Jordan ¡ Michael ¡Jordan ¡ Jordan ¡ Jordan_(country) ... Michael_Jordan Michael_I._Jordan none

slide-36
SLIDE 36

Incorpora4ng ¡Context ¡

Ra4nov ¡et ¡al. ¡(2011) ¡

basketball: ¡50 ¡ Bulls: ¡26 ¡ NBA: ¡30 ¡ game: ¡22 ¡ professor: ¡12 ¡ Bayesian: ¡5 ¡ learning: ¡10 ¡ PhD: ¡3 ¡ Michael ¡Jordan ¡gave ¡a ¡ talk ¡at ¡the ¡Big ¡Data ¡

  • Bootcamp. ¡The ¡professor ¡

covered ¡basic ¡machine ¡ learning ¡techniques… ¡ professor: ¡1 ¡ learning: ¡1 ¡ basketball: ¡0 ¡ cosine ¡ distance ¡

slide-37
SLIDE 37

Global ¡Inference ¡

Figure ¡from ¡Hoffart ¡et ¡al. ¡(2011) ¡

slide-38
SLIDE 38

Cross-­‑Task ¡Modeling ¡

Cheng ¡and ¡Roth ¡(2013), ¡Hajishirzi ¡et ¡al. ¡(2013), ¡Durren ¡and ¡Klein ¡(2014) ¡

Michael ¡Jordan ¡hosted ¡the ¡Big ¡Data ¡Bootcamp ¡last ¡fall. ¡ As ¡part ¡of ¡the ¡workshop, ¡Professor ¡Jordan ¡gave ¡a ¡talk. ¡

slide-39
SLIDE 39

A ¡Joint ¡Model ¡of ¡“Everything” ¡

Durren ¡and ¡Klein ¡(2014) ¡

slide-40
SLIDE 40

A ¡Joint ¡Model ¡of ¡“Everything” ¡

Durren ¡and ¡Klein ¡(2014) ¡

slide-41
SLIDE 41

A ¡Joint ¡Model ¡of ¡“Everything” ¡

Seman4c ¡type ¡ Coreference ¡ En4ty ¡Link ¡

Michael ¡Jordan ¡ Professor ¡Jordan ¡ “These ¡men4ons ¡ should ¡have ¡the ¡same ¡ en4ty ¡link” ¡

PERSON, ¡ EVENT, ¡... ¡

slide-42
SLIDE 42

Michael ¡Jordan ¡ Professor ¡Jordan ¡

PERSON, ¡ EVENT, ¡... ¡

Same ¡type, ¡ 4e ¡predic4ons ¡to ¡ words, ¡etc. ¡

A ¡Joint ¡Model ¡of ¡“Everything” ¡

Seman4c ¡type ¡ Coreference ¡ En4ty ¡Link ¡

slide-43
SLIDE 43

Michael ¡Jordan ¡

… ¡

PERSON ¡

A ¡Joint ¡Model ¡of ¡“Everything” ¡

slide-44
SLIDE 44

A ¡Joint ¡Model ¡of ¡“Everything” ¡

slide-45
SLIDE 45

Inference ¡

  • S4ll ¡technically ¡intractable: ¡graphical ¡model ¡with ¡

cliques ¡of ¡size ¡O(size ¡of ¡largest ¡coref ¡cluster) ¡

  • Do ¡inference ¡(compute ¡marginals) ¡with ¡belief ¡

propaga4on ¡(sum-­‑product) ¡

  • Coreference ¡arcs ¡induce ¡a ¡subtree; ¡model ¡would ¡be ¡

fully ¡tractable ¡if ¡coreference ¡were ¡fixed, ¡and ¡many ¡ arcs ¡are ¡nearly ¡fixed ¡in ¡prac4ce ¡

  • Coarse-­‑to-­‑fine: ¡coreference ¡model ¡used ¡in ¡isola4on ¡

to ¡prune ¡crazy ¡decisions; ¡now ¡more ¡like ¡O(n) ¡nodes ¡

slide-46
SLIDE 46

Inference ¡

  • Coreference ¡arcs ¡induce ¡a ¡subtree; ¡model ¡would ¡be ¡

fully ¡tractable ¡if ¡coreference ¡were ¡fixed, ¡and ¡many ¡ arcs ¡are ¡nearly ¡fixed ¡in ¡prac4ce ¡

Coref ¡ Seman4c ¡ Types ¡ Men4ons ¡1, ¡3, ¡4, ¡5 ¡are ¡in ¡a ¡cluster ¡

slide-47
SLIDE 47

Results ¡on ¡NER ¡

slide-48
SLIDE 48

Results ¡on ¡Coreference ¡

slide-49
SLIDE 49

Results ¡on ¡En4ty ¡Linking ¡

slide-50
SLIDE 50

Informa4on ¡Extrac4on ¡

Knowledge ¡Base ¡ Knowledge ¡ Base ¡

Barack_Obama born_in Honolulu Barack_Obama Serve_America_Act signed

Expanded ¡Knowledge ¡Base ¡

President ¡Barack ¡Obama ¡ received ¡the ¡Serve ¡America ¡ Act ¡aKer ¡Congress’s ¡vote… ¡

Honolulu located_in Hawai’i Barack_Obama born_in Honolulu Honolulu located_in Hawai’i

slide-51
SLIDE 51

Template-­‑Based ¡

He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ ¡

Pre-­‑specified ¡“signing” ¡frame ¡

  • Signer ¡
  • Bill ¡
  • Date ¡

Barack_Obama Edward_M._Kennedy_Serve_America_Act Barack_Obama Edward_M._Kennedy_Serve_America_Act

April ¡21, ¡2009 ¡

  • Requires ¡manual ¡crea4on ¡of ¡templates ¡
slide-52
SLIDE 52

Open ¡IE ¡

He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ ¡

Barack_Obama Edward_M._Kennedy_Serve_America_Act

No ¡templates, ¡just ¡triples ¡

Barack_Obama Edward_M._Kennedy_Serve_America_Act

signed Fader ¡et ¡al. ¡(2011) ¡

  • Where ¡did ¡the ¡date ¡go? ¡
  • Hard ¡to ¡evaluate ¡precision ¡
slide-53
SLIDE 53

Ambigui4es ¡

  • I ¡made ¡a ¡similar ¡product ¡line ¡and ¡I ¡produced ¡it ¡
  • cheaper. ¡
  • The ¡network’s ¡staff ¡says ¡it ¡s4ll ¡has ¡plenty ¡to ¡do. ¡
  • He ¡is ¡my—she ¡is ¡my ¡Goddess. ¡