av avirup sil ge geor orgiana dinu dinu and and radu radu
play

Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor - PowerPoint PPT Presentation

Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor orian IB IBM M T.J. Watson on Research Center Yor orktow own Heights, NY NY Gaithersburg, MD General Architecture for the IBM Entity Discovery &


  1. Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor orian IB IBM M T.J. Watson on Research Center Yor orktow own Heights, NY NY Gaithersburg, ¡MD ¡

  2. ¡ General Architecture for the IBM Entity Discovery & Linking (EDL) System § Mention Detection § Entity Linking & Clustering ¡ Adjusting the system to the TAC Trilingual EDL T ask ¡ Experiments and Results 2 ¡

  3. IBM MD IB IBM M EL EL Experiments Conclusion ¡ Standard IOB sequence classifier, trained on the task ¡ 2 main classifiers: CRF and Neural Network-based ¡ The Spanish system was jointly trained on English and Spanish ¡ Chinese system is a character-based system 3 ¡

  4. IBM MD IB IBM M EL EL Experiments Conclusion P ( y t | X , y t − 1 ) • Computed the probability: P ( y t | X , y t − 1 ) using a neural network • Uses Viterbi to find the best tag sequence • Contrary to popular belief, it does better when trained with linguistic features! 4 ¡

  5. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Both systems are high precision ¡ We combine them as follows § Start with the “best” system § For each consequent system ▪ Add any mentions that do not overlap with the current output CRF ¡ NN ¡ Combina0on ¡ English ¡ 0.715 ¡ 0.718 ¡ 0.727 ¡ Spanish ¡ 0.703 ¡ 0.698 ¡ 0.752 ¡ 5 ¡

  6. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Some “interesting” examples m.07_m9_ ¡ NIL01468 ¡ m.045m1_ ¡ NIL01371 ¡ m.0_6t_z8 ¡ m.02j9z ¡ HitlerWasASexyMofo ¡ Jesus_was_a_Panda ¡ EU ¡ ¡ Some others m.034ls ¡ m.019x9z ¡ ¡ m.019x9z ¡ m.019x9z ¡ (George ¡H.W. ¡Bush) ¡ ¡ ¡ ¡ ¡ ¡(Jeb ¡Bush) ¡ m.019x9z ¡ m.019x9z ¡ grandfather ¡ Jeb ¡Bush ¡ Jeb ¡Bush ¡ TEDL15_EVAL_22905 ¡ TEDL15_EVAL_22905 ¡ TEDL15_EVAL_27473 ¡ m.0345h ¡ NIL00929 ¡ NIL00009 ¡ NIL00009 ¡ m.0345h ¡ Germany ¡ Dylann ¡Roof ¡ TEDL15_EVAL_04270 ¡ TEDL15_EVAL_03416 ¡… ¡(21 ¡of ¡them) ¡ 6 ¡

  7. IBM MD IB IBM M EL EL Experiments Conclusion ¡ Reference Knowledge Base ¡ Preprocessing for IBM EL System ¡ Our Re-ranking model (and using the same model for other languages) ¡ Experiments 7 ¡

  8. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia § April 2014 dump of the English corpus § ~4.3M Pages (unique KB ids/titles) § T ext § Redirects § Inlinks § Outlinks § Categories § Pr(title|mention) : prior probability 8 ¡

  9. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia § April 2014 dump § ~4.3M KB Ids § T ext § Redirects § Inlinks § Outlinks § Categor ories § Pr(title|mention) : prior probability 9 ¡

  10. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia On ¡June ¡29, ¡2012, ¡Holmes ¡had ¡filed ¡for ¡divorce ¡from ¡Cruise ¡in ¡ § April 2014 dump New ¡York ¡aIer ¡five ¡years ¡of ¡marriage.[100][101] ¡ § ~4.3M KB Ids Ethan ¡Hunt ¡(Cruise) ¡while ¡vacaPoning ¡is ¡alerted… ¡ § T ext § Redirects Cruise ¡joined ¡in ¡and ¡made ¡his ¡debut ¡for ¡Arsenal ¡F.C. ¡Reserves… ¡ § Inlinks … ¡ § Outlinks Thomas ¡Cruise ¡(footballer) ¡ Tom ¡Cruise ¡ § Categories § Pr Pr(title|mention on) : prior or prob obability 10 ¡

  11. ¡ Reference Knowledge Base ¡ Preprocessing for IBM EL System ¡ Our Re-ranking model ¡ Experiments 11 ¡

  12. IBM MD IBM IB M EL EL Experiments Conclusion IBM ¡SIRE ¡ “..Broad ¡catapulted ¡England ¡ ¡ “ [Broad] ¡ catapulted ¡ [England] ¡ ¡ to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ to ¡a ¡74-­‑run ¡win ¡over ¡ [Australia] … ¡ … ¡ 1. 1. Mention Me on … ¡ Tim ¡Bresnan ¡had ¡opener ¡David ¡ Detection on [Tim ¡Bresnan] ¡ had ¡opener ¡ ¡ Warner..” ¡ 2. 2. In In-Doc oc Cor oref [David ¡Warner] ..” ¡ Ex Extracted T ext T ext with mention ons Any Web Doc ocument Partition on the mention ons into o sets of mention ons 12 ¡

  13. IBM MD IBM IB M EL EL Experiments Conclusion IBM ¡SIRE ¡ “..Broad ¡catapulted ¡England ¡ ¡ “Stuart ¡Broad ¡catapulted ¡England ¡ ¡ Broa oad; En England; Australia to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ … ¡ 1. 1. Me Mention on … ¡ Tim ¡Bresnan ¡had ¡opener ¡David ¡ Tim Br Tim Bresnan; David W esnan; David War arner ner Detection on Tim ¡Bresnan ¡had ¡opener ¡David ¡ Warner..” ¡ 2. 2. In-Doc In oc Cor oref Warner..” ¡ Ex Extracted T ext T ext with mention ons Any Web Doc ocument Partition on the “ Men0on-­‑En0ty ¡Link ” ¡Tuples: ¡ mention ons into o sets [Broad] ¡ ¡ ¡; ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[England] ¡ ¡; ¡ ¡ ¡[Australia] ¡ of mention ons Ex Extract top op-K ¡ Candidate Candidate ¡ Connected ¡Component ¡1 ¡ • Entity Li En Links Stuart ¡ Neil England MenPons: ¡ England • Broad Broad England Broad ¡ Broad; ¡England; ¡Australia ¡ Rugby • Ins. Cricket ¡ Connected ¡Component ¡2 ¡ Team • Team ¡ MenPons: ¡ • Tim ¡Bresnan; ¡David ¡Warner ¡ • [Tim ¡Bresnan] ¡; ¡[David ¡Warner] ¡ … ¡ • Con onnected Com ompon onents … ¡ 13 ¡

  14. IBM MD IBM IB M EL EL Experiments Conclusion Mention Me on-En Entity_Li _Link T Tuples: uples: 1. { [Broa oad], Stuart_Broad , [En England], England_Cricket_Team,[ Australia Australia ], Australia_Cricket_Team } “Broad; England; Australia” Con onnected Com ompon onent 2. { [Broa oad], Neil Broad , [En England], England, [ Australia ], Australia } 3. … 4. { [Broad], Neil Broad, [England], England, [Australia], Australia_Cricket_T eam} 5. … Mention Me on-En Entity_Li _Link T Tuples: uples: “ Tim Bresnan; David Warner ” 1. { [Tim Br [Tim Bresnan] esnan], Tim_Bresnan , [David W [David War arner] ner], David_Warner_(actor) } Con onnected Com ompon onent 2. {{ [Tim Br Tim Bresnan esnan], Tim_Bresnan, [David W David War arner ner], David_Warner_(cricketer)} 3. … ¡ Re-ranking mod odel: ¡ Classifier Classifier: Maximum En Ma Entrop opy § 14 ¡

  15. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Local Features § Cosine Similarity § Domain Independent features § Count All (Category, Redirect Links, InLinks, Outlinks,..) § Count Unique (Category, Redirect Links, InLinks, Outlinks,..) ¡ Global Features § Features from Entity Links § Categor orical Relation on Cou ount § En Entity-Type-PMI MI § NIL Detector Features § T oken-level features § Link Overlap 15 ¡

  16. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Knowledge-base Independent features from Sil et.al. 2012 are ported to Wikipedia ¡ Example of such a feature: Count All (OutLinks) T ext: “… [Broa oad] catapulted [En England] to a 74-run win over [Australia] [Australia] in the [Ashes] [Ashes] T est series thanks to [Tim Br [Tim Bresnan] esnan] ...” ID Name Outlinks ID ID Na Name Outlinks Outlinks Neil_Broad Neil ¡Broad Australia, ¡Grand ¡Slam, ¡… Stuart_Broad Stuart Broad England; Australia; Ashes; Tim Bresnan, … Count All (Outlinks) {([Broad], Stuart_Broad)} Count All (Outlinks) {([Broad], Neil_Broad)} = Count<Outlink_1> + Count<Outlink_2> + .. = Count<Outlink_1> + Count<Outlink_2> + .. = Count<England> + Count<Australia> +… = Count<Australia> + Count<Grad Slam> +… = 1 + 1 + 1 + 1 +.. = 4 = 1 + 0 +.. = 1 16 ¡

  17. IBM MD IBM IB M EL EL Experiments Conclusion “ ..seam bowler [Broa England] to a 74-run win ” oad] catapulted [En England ¡ seam ¡bowler ¡ Obtain the embeddings [Mi Mikol olov ov13] of words from input and Wiki target 1. 2. Sum up all the embeddings from input and Wiki target 3. Compute: Cosine_Similarity (InputDoc, Wiki (Stuart_Broad) ) > Cosine_Similarity (InputDoc, Wiki (Neil_Broad) ) § 17 ¡

  18. IBM MD IB IBM M EL EL Experiments Conclusion “ ..seam bowler [Broa England] to a 74-run win ” oad] catapulted [En England ¡ seam ¡bowler ¡ Cosine_Similarity (InputDoc, Wiki (Stuart_Broad) ) > Cosine_Similarity (InputDoc, Wiki (Neil_Broad) ) 18 ¡

  19. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Use Category Relations between entities in Wikipedia ¡ Ex Example: [Broad] was helped by [Tim Bresnan] [Broad] was helped by [Tim Bresnan] Neil_Broad ¡ Tim_Bresnan ¡ Stuart_Broad ¡ Tim_Bresnan ¡ Relationship in Wikipedia No relation No onship! English Cricketers In Indicates: A Poor oor Ma Match! 19 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend