natural language processing
play

Natural Language Processing Berkeley N L - PowerPoint PPT Presentation

Natural Language Processing Berkeley N L P Coreference Resolu4on and En4ty Linking UC Berkeley Sentence-level Analysis S Who is


  1. Natural ¡Language ¡Processing ¡ Berkeley ¡ N ¡ ¡ ¡ ¡L ¡ ¡ ¡ ¡P ¡ Coreference ¡Resolu4on ¡and ¡En4ty ¡Linking ¡ UC ¡Berkeley ¡

  2. Sentence-­‑level ¡Analysis ¡ S ¡ Who ¡is ¡he? ¡ VP ¡ NP ¡ PRP ¡ VBZ ¡ NP ¡ NP ¡ … ¡He ¡signed ¡the ¡bill ¡ ¡last ¡Thursday ¡… ¡ e. ¡sign(e, ¡he, ¡bill) ¡& ¡date(e, ¡last ¡Thursday) ¡

  3. Document-­‑level ¡Analysis ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

  4. Document-­‑level ¡Analysis ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

  5. Document-­‑level ¡Analysis ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

  6. Narra4ve ¡Structure ¡ Discourse ¡(rhetorical, ¡temporal ¡structure) ¡ Events ¡ En44es ¡ Text ¡

  7. En4ty ¡Analysis ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡He ¡signed ¡the ¡ bill ¡last ¡Thursday. ¡The ¡president ¡said ¡it ¡would ¡ greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡ Cluster ¡1 ¡ en.wikipedia.org/wiki/Barack_Obama � Cluster ¡2 ¡ .../wiki/Edward_M._Kennedy_Serve_America_Act � Cluster ¡3 ¡ .../wiki/United_States_Congress �

  8. Coreference ¡ Input: ¡text ¡(and ¡men4ons) ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡Act ¡aKer ¡ Congress’s ¡vote. ¡He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡The ¡president ¡ said ¡it ¡would ¡greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡ Output: ¡clustering ¡of ¡the ¡men4ons ¡in ¡text ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡Act ¡aKer ¡ Congress’s ¡vote. ¡He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡The ¡president ¡ said ¡it ¡would ¡greatly ¡increase ¡service ¡opportuni4es ¡for ¡the ¡ American ¡people. ¡

  9. Pragma4cs ¡101 ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ President ¡Barack ¡Obama ¡signed ¡the ¡Serve ¡ America ¡Act ¡last ¡Thursday. ¡ President ¡Barack ¡Obama ¡said ¡… ¡

  10. Pragma4cs ¡101 ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ President ¡Barack ¡Obama ¡said ¡… ¡

  11. Pragma4cs ¡101 ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡ America ¡Act ¡aKer ¡Congress’s ¡vote. ¡ He ¡signed ¡the ¡bill ¡last ¡Thursday. ¡ The ¡president ¡said ¡… ¡ Nominal ¡ Pronoun ¡ Proper ¡name ¡ Specificity ¡ Salience ¡required ¡

  12. Pragma4cs ¡101 ¡ He ¡ ¡ President ¡Barack ¡Obama ¡ antecedent ¡ anaphor ¡ ¡ • Coreference ¡is ¡answering ¡the ¡ques4on ¡“who ¡is ¡ my ¡antecedent?” ¡for ¡each ¡men4on ¡ • Propers, ¡nominals, ¡and ¡pronouns ¡resolve ¡ differently! ¡

  13. Proper ¡Names ¡ • Introduce ¡new ¡en44es ¡and ¡give ¡informa4on: ¡ President ¡Barack ¡Obama, ¡44th ¡president ¡of ¡ the ¡United ¡States, ¡… ¡ President ¡Obama ¡ Obama ¡ • Main ¡cue: ¡lexical ¡overlap ¡

  14. Pronouns ¡ President ¡Barack ¡Obama ¡received ¡the ¡Serve ¡America ¡ Act ¡aKer ¡Congress’s ¡vote. ¡ He ¡… ¡ President ¡Obama ¡met ¡with ¡Chancellor ¡Merkel. ¡ He ¡ … ¡ President ¡Obama ¡met ¡with ¡President ¡Hollande ¡aKer ¡ flew ¡in ¡from ¡Paris. ¡ signed ¡the ¡bill. ¡ he… ¡ • Main ¡cues: ¡agreement, ¡salience ¡

  15. Nominal ¡References ¡ President ¡Obama ¡… ¡The ¡president ¡ Serve ¡America ¡Act ¡… ¡The ¡bill ¡ Barack ¡Obama ¡and ¡Angela ¡Merkel ¡… ¡The ¡leaders ¡ NBC ¡… ¡The ¡network ¡ • Main ¡cues: ¡lexical ¡seman4cs, ¡world ¡ knowledge, ¡salience ¡

  16. What ¡do ¡we ¡need ¡to ¡capture? ¡ • Salience: ¡distance ¡to ¡previous ¡men4on ¡ • Seman4c ¡compa4bility: ¡agreement ¡in ¡number, ¡ gender, ¡animacy, ¡seman4c ¡type, ¡iden4ty ¡ “A ¡men4on ¡refers ¡to ¡the ¡closest ¡compa4ble ¡ antecedent” ¡ • A ¡rule-­‑based ¡system ¡based ¡on ¡this ¡principal ¡ won ¡the ¡CoNLL ¡2011 ¡bakeoff! ¡ Haghighi ¡and ¡Klein ¡(2009), ¡Raghunathan ¡et ¡al. ¡(2010) ¡

  17. Problem: ¡Robustness ¡ • Number ¡and ¡gender ¡are ¡misiden4fied ¡ • Generic ¡men4ons ¡oKen ¡don’t ¡corefer ¡( officials ) ¡ • Seman4c ¡similarity ¡is ¡a ¡soK ¡concept ¡ (some4mes ¡ Washington ¡and ¡ the ¡US ¡ corefer) ¡ • Even ¡head ¡match ¡is ¡not ¡always ¡reliable ¡( Gaza ¡ Strip ¡and ¡ Southern ¡Gaza ¡Strip ) ¡

  18. Learning-­‑based ¡Coreference ¡ New ¡ New ¡ New ¡ New ¡ 1 ¡ 1 ¡ 2 ¡ 1 ¡ 2 ¡ 3 ¡ President ¡ the ¡Serve ¡ Congress ¡ He ¡ Obama ¡ America ¡Act ¡

  19. Features ¡ Ment. ¡distance=3 ¡ No ¡head ¡match ¡ [new] ¡PRONOUN ¡ [new] ¡ he ¡ PROPER —he ¡ Male—he ¡ Obama—he ¡ [new] ¡ X ¡signed ¡ Barack—he ¡ X ¡received—he ¡ PROPER —X ¡signed ¡ [new] ¡. ¡ X ¡ Anaph. ¡ Length ¡1 ¡ [new] ¡Length ¡1 ¡ Ant . ¡ Length ¡2 ¡ Barack ¡Obama ¡received ¡ … ¡ ¡ … ¡ vote ¡ . ¡He ¡signed ¡ Type ¡= ¡PRONOUN, ¡Male, ¡sing. ¡ Type ¡= ¡PROPER, ¡Male, ¡sing. ¡ Length ¡= ¡2 ¡ Length ¡= ¡1 ¡

  20. What ¡else ¡do ¡these ¡capture? ¡ • Centering: ¡progression ¡of ¡men4on ¡posi4ons ¡tell ¡us ¡ something ¡about ¡discourse ¡status ¡ Barack ¡Obama ¡met ¡with ¡Harry ¡Reid ¡on ¡Monday. ¡ He ¡discussed ¡several ¡key ¡poli4cal ¡issues ¡with ¡Reid. ¡ On ¡Tuesday, ¡he ¡announced ¡a ¡new ¡ini4a4ve. ¡ he ¡ ¡ • X ¡ discussed —X ¡ announced ¡ • Definiteness: ¡ the ¡president ¡is ¡probably ¡a ¡president ¡ already ¡in ¡the ¡discourse ¡ • [new] ¡First ¡word ¡= ¡ the ¡

  21. Datasets ¡ • OntoNotes ¡dataset: ¡4000 ¡documents ¡(mix ¡of ¡news, ¡ conversa4ons, ¡web) ¡with ¡parses, ¡named ¡en44es, ¡ coreference ¡ • You ¡have ¡to ¡predict ¡your ¡own ¡en44es, ¡and ¡single-­‑ men4on ¡en44es ¡are ¡not ¡annotated ¡

  22. Metrics ¡ coref ¡metrics ¡ Randall ¡Munroe; ¡hnp://xkcd.com/927 ¡

  23. Metrics ¡ • MUC: ¡“How ¡many ¡antecedents ¡did ¡you ¡get ¡ right?” ¡(linear ¡in ¡cluster ¡size) ¡ • B 3 : ¡“How ¡many ¡edges ¡in ¡predicted ¡clusters ¡did ¡you ¡ get ¡right?” ¡(quadra4c ¡in ¡cluster ¡size) ¡ • CEAF: ¡“Do ¡a ¡maximum ¡matching ¡between ¡predicted ¡ and ¡gold ¡en44es; ¡how ¡close ¡are ¡they?” ¡(???) ¡ • CEAF-­‑M, ¡BLANC, ¡etc. ¡ • CoNLL ¡= ¡(MUC ¡+ ¡B 3 ¡+ ¡CEAF)/3 ¡

  24. Results ¡ 75 ¡ 75 ¡ 70 ¡ Stanford ¡ 65 ¡ Berkeley ¡ Human ¡ 61 ¡ 60 ¡ 57 ¡ 55 ¡ 50 ¡

  25. Results ¡ 75 ¡ 75 ¡ 70 ¡ Stanford ¡ 65 ¡ Berkeley ¡ Human ¡ 61 ¡ 60 ¡ 57 ¡ 55 ¡ 50 ¡

  26. Error ¡Analysis ¡

  27. Error ¡Analysis ¡

  28. Error ¡Analysis ¡

  29. Error ¡Analysis ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend