Entity Linking with Multiple Knowledge Bases Bianca Pereira MSc. / - - PowerPoint PPT Presentation

entity linking with multiple knowledge bases
SMART_READER_LITE
LIVE PREVIEW

Entity Linking with Multiple Knowledge Bases Bianca Pereira MSc. / - - PowerPoint PPT Presentation

Entity Linking with Multiple Knowledge Bases Bianca Pereira MSc. / PhD Day November 2015 Motivation Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.


slide-1
SLIDE 1

Entity Linking with Multiple Knowledge Bases

Bianca Pereira

  • MSc. / PhD Day – November 2015
slide-2
SLIDE 2

Motivation

Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.

h"ps://en.wikipedia.org/wiki/Knowledge_base ¡ h"ps://en.wikipedia.org/wiki/En8ty_linking ¡

slide-3
SLIDE 3

Motivation

Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.

slide-4
SLIDE 4

Entity Linking with Multiple Knowledge Bases

  • Each Linked Data Knowledge Base is structured and described in its own way.
  • It is not feasible to have one Entity Linking solution for each Knowledge Base

available. What do they have in common? Linked Data Principles (Linked Data Design Issues, 2005)

  • 1. Use URIs as names for things.
  • 2. Use HTTP URIs so that people can look up those names.
  • 3. When someone looks up a URI, provide useful information, using the

standards (RDF*, SPARQL)

  • 4. Include links to other URIs so that they can discover more things
slide-5
SLIDE 5

State-of-the-art

Men8on ¡ Recogni8on ¡ Candidate ¡ Genera8on ¡ Candidate ¡ Selec8on ¡ En8ty ¡ Disambigua8on ¡ Men8on ¡1 ¡ Men8on ¡2 ¡ Men8on ¡3 ¡ Men8on ¡4 ¡ c4 ¡ c5 ¡ c1 ¡ c2 ¡ c3 ¡ c10 ¡ c9 ¡ c6 ¡ c8 ¡ c7 ¡ c4 ¡ c5 ¡ c6 ¡ c9 ¡ c1 ¡ Men8on ¡5 ¡ c10 ¡ NIL ¡

slide-6
SLIDE 6

State-of-the-art

Men8on ¡ Recogni8on ¡ Candidate ¡ Genera8on ¡ Candidate ¡ Selec8on ¡ En8ty ¡ Disambigua8on ¡

Features

  • Popularity
  • Prior probability, inDegree, outDegree, size of textual

description, page rank, generality

  • Contextual
  • Surrounding words, keywords, whole document
  • Coherence
  • Intersection of neighborhood, distance, category
slide-7
SLIDE 7

State-of-the-art

Solu)on ¡ Popularity ¡ Contextual ¡ Coherence ¡ Ceccareli ¡et ¡al. ¡2013 ¡ X ¡ X ¡ Cucerzan ¡2007 ¡ X ¡ X ¡ Dredze ¡et ¡al. ¡2010 ¡ X ¡ X ¡ Han ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Hoffart ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Kulkarni ¡et ¡al. ¡2009 ¡ X ¡ X ¡ X ¡ Mendes ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Milne ¡and ¡Wi"en ¡2008 ¡ X ¡ X ¡ X ¡ Ra8nov ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Usbeck ¡et ¡al. ¡2014 ¡ X ¡ Zheng ¡et ¡al. ¡2010 ¡ X ¡

slide-8
SLIDE 8

Knowledge Base Segmentation

Goal: Explore the use of Knowledge Base segmentation to decrease ambiguity for Entity Disambiguation.

  • Knowledge Base Segmentation using Coherence
  • Knowledge Base Segmentation using Popularity
slide-9
SLIDE 9

Knowledge Base Segmentation Based on Coherence

Premise: Entities appearing in the same discourse are more closely related in the Knowledge Base than those that do not appear in the same discourse. Segmenta8on ¡based ¡on ¡dense ¡subgraphs ¡ (LancichineX ¡et ¡al. ¡2001) ¡ Segmenta8on ¡centered ¡in ¡popular ¡en88es ¡

slide-10
SLIDE 10

Knowledge Base Segmentation Based on Coherence

TAC-KBP 2014 EDL Task

  • More than 800,000 entities and more than 2.5 million relations extracted from

Wikipedia 2008 Infoboxes.

  • Train set: 158 documents, 5786 mentions being 2553 NIL.
  • Test set: 139 documents, 5234 mentions being 2414 NIL.

Evaluation

  • Accuracy (Does the modularization keep the correct candidate?)
  • What is the impact in the precision of disambiguation?
slide-11
SLIDE 11

Knowledge Base Segmentation Based on Coherence

Accuracy ¡ Method ¡ Train ¡ Test ¡ Dense ¡(smallest) ¡ 0.18 ¡ 0.17 ¡ Dense ¡(all) ¡ 0.32 ¡ 0.34 ¡ En8ty ¡(smallest) ¡ 0.45 ¡ 0.53 ¡ En8ty ¡(All) ¡ 0.46 ¡ 0.54 ¡ Impact ¡on ¡Disambigua)on ¡Precision ¡ Method ¡ Train ¡ Test ¡ BF ¡+ ¡HITS ¡ ¡ MW ¡+ ¡PR ¡ BF ¡+ ¡HITS ¡ MW ¡+ ¡PR ¡ None ¡ 0.362 ¡ 0.336 ¡ 0.404 ¡ 0.367 ¡ Dense ¡(smallest) ¡ 0.288 ¡ 0.288 ¡ 0.285 ¡ 0.285 ¡ Dense ¡(all) ¡ 0.340 ¡ 0.287 ¡ 0.421 ¡ 0.309 ¡ En8ty ¡(smallest) ¡ 0.242 ¡ 0.211 ¡ 0.307 ¡ 0.303 ¡ En8ty ¡(All) ¡ 0.240 ¡ 0.213 ¡ 0.296 ¡ 0.288 ¡

slide-12
SLIDE 12

Knowledge Base Segmentation Based on Coherence

Observations:

  • NIL mentions deeply affect the disambiguation.
  • Candidates for NIL entities cluster
  • Correct candidates do not cluster.
  • Incorrect Premise
  • Entities appearing in the same discourse are not necessarily

more closely related than those that do not appear in the discourse. Need for a solution that allows navigation in the graph of the Knowledge Base without requiring dense clusters.

slide-13
SLIDE 13

Knowledge Base Segmentation based on Popularity

Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. LESS ¡ AMBIGUITY ¡ MORE ¡ AMBIGUITY ¡ Earth ¡ Ireland ¡ Brazil ¡ U.S. ¡ Canada ¡ Dublin ¡ Galway ¡ Niterói ¡ Aracaju ¡ Dublin ¡ Sea"le ¡ Dublin ¡

… ¡ … ¡ … ¡ … ¡ … ¡ … ¡ … ¡

slide-14
SLIDE 14

Knowledge Base Segmentation based on Popularity

Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. Men8on ¡1 ¡ Men8on ¡2 ¡ Men8on ¡3 ¡ Men8on ¡4 ¡ C4_2 ¡ C5_3 ¡ C1_1 ¡ C2_2 ¡ C3_2 ¡ C10_2 ¡ C9_2 ¡ C6_2 ¡ C8_3 ¡ C7_2 ¡ C6_2 ¡ C8_3 ¡

slide-15
SLIDE 15

Knowledge Base Segmentation based on Popularity

  • 20 Reuters articles from CoNLL
  • Multiple Interpretations
  • Metonymy
  • 1 annotator
  • Annotation time – 17 hours
  • 24.5 mentions per article
  • 15.18 Candidates/mention
  • 192 NILs
  • 298 non NILs
  • 1.08 Candidates/mention
  • 251 NILs
  • 239 non NILs
slide-16
SLIDE 16

Knowledge Base Segmentation based on Popularity

0.905 ¡ 0.91 ¡ 0.915 ¡ 0.92 ¡ 0.925 ¡ 0.93 ¡ 0.935 ¡ 0.94 ¡ 0.945 ¡ 0.95 ¡ 0.955 ¡ 0.96 ¡

Precision ¡ Recall ¡ Fscore ¡

0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ 1 ¡

Precision ¡ Recall ¡ Fscore ¡

MW ¡+ ¡PR ¡ Baseline ¡ BF ¡(2 ¡hops) ¡+ ¡HITS ¡ BF ¡(1 ¡hop) ¡+ ¡HITS ¡ Hierarchical ¡(0.6) ¡ Hierarchical ¡(1) ¡

slide-17
SLIDE 17

Conclusions and Future Work

  • NIL is still a big challenge in Entity Linking.
  • Entities are related through discourse but not necessarily closely related in the

Knowledge Base.

  • Disambiguation based on navigation between segments of different level of

generality seems promising.

  • Explore the use of popularity with other types of relations.
  • Resolve which Knowledge Base has the most relevant sense for what is

represented in the text.

  • Use of contextual clues. How to provide lexicalization to Knowledge Bases

without text?

  • Explore impact of KB model in Entity Linking.
  • Entity -> entity vs entity -> relator -> entity