SLIDE 1 Entity Linking with Multiple Knowledge Bases
Bianca Pereira
- MSc. / PhD Day – November 2015
SLIDE 2 Motivation
Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.
h"ps://en.wikipedia.org/wiki/Knowledge_base ¡ h"ps://en.wikipedia.org/wiki/En8ty_linking ¡
SLIDE 3
Motivation
Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.
SLIDE 4 Entity Linking with Multiple Knowledge Bases
- Each Linked Data Knowledge Base is structured and described in its own way.
- It is not feasible to have one Entity Linking solution for each Knowledge Base
available. What do they have in common? Linked Data Principles (Linked Data Design Issues, 2005)
- 1. Use URIs as names for things.
- 2. Use HTTP URIs so that people can look up those names.
- 3. When someone looks up a URI, provide useful information, using the
standards (RDF*, SPARQL)
- 4. Include links to other URIs so that they can discover more things
SLIDE 5
State-of-the-art
Men8on ¡ Recogni8on ¡ Candidate ¡ Genera8on ¡ Candidate ¡ Selec8on ¡ En8ty ¡ Disambigua8on ¡ Men8on ¡1 ¡ Men8on ¡2 ¡ Men8on ¡3 ¡ Men8on ¡4 ¡ c4 ¡ c5 ¡ c1 ¡ c2 ¡ c3 ¡ c10 ¡ c9 ¡ c6 ¡ c8 ¡ c7 ¡ c4 ¡ c5 ¡ c6 ¡ c9 ¡ c1 ¡ Men8on ¡5 ¡ c10 ¡ NIL ¡
SLIDE 6 State-of-the-art
Men8on ¡ Recogni8on ¡ Candidate ¡ Genera8on ¡ Candidate ¡ Selec8on ¡ En8ty ¡ Disambigua8on ¡
Features
- Popularity
- Prior probability, inDegree, outDegree, size of textual
description, page rank, generality
- Contextual
- Surrounding words, keywords, whole document
- Coherence
- Intersection of neighborhood, distance, category
SLIDE 7
State-of-the-art
Solu)on ¡ Popularity ¡ Contextual ¡ Coherence ¡ Ceccareli ¡et ¡al. ¡2013 ¡ X ¡ X ¡ Cucerzan ¡2007 ¡ X ¡ X ¡ Dredze ¡et ¡al. ¡2010 ¡ X ¡ X ¡ Han ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Hoffart ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Kulkarni ¡et ¡al. ¡2009 ¡ X ¡ X ¡ X ¡ Mendes ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Milne ¡and ¡Wi"en ¡2008 ¡ X ¡ X ¡ X ¡ Ra8nov ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Usbeck ¡et ¡al. ¡2014 ¡ X ¡ Zheng ¡et ¡al. ¡2010 ¡ X ¡
SLIDE 8 Knowledge Base Segmentation
Goal: Explore the use of Knowledge Base segmentation to decrease ambiguity for Entity Disambiguation.
- Knowledge Base Segmentation using Coherence
- Knowledge Base Segmentation using Popularity
SLIDE 9
Knowledge Base Segmentation Based on Coherence
Premise: Entities appearing in the same discourse are more closely related in the Knowledge Base than those that do not appear in the same discourse. Segmenta8on ¡based ¡on ¡dense ¡subgraphs ¡ (LancichineX ¡et ¡al. ¡2001) ¡ Segmenta8on ¡centered ¡in ¡popular ¡en88es ¡
SLIDE 10 Knowledge Base Segmentation Based on Coherence
TAC-KBP 2014 EDL Task
- More than 800,000 entities and more than 2.5 million relations extracted from
Wikipedia 2008 Infoboxes.
- Train set: 158 documents, 5786 mentions being 2553 NIL.
- Test set: 139 documents, 5234 mentions being 2414 NIL.
Evaluation
- Accuracy (Does the modularization keep the correct candidate?)
- What is the impact in the precision of disambiguation?
SLIDE 11
Knowledge Base Segmentation Based on Coherence
Accuracy ¡ Method ¡ Train ¡ Test ¡ Dense ¡(smallest) ¡ 0.18 ¡ 0.17 ¡ Dense ¡(all) ¡ 0.32 ¡ 0.34 ¡ En8ty ¡(smallest) ¡ 0.45 ¡ 0.53 ¡ En8ty ¡(All) ¡ 0.46 ¡ 0.54 ¡ Impact ¡on ¡Disambigua)on ¡Precision ¡ Method ¡ Train ¡ Test ¡ BF ¡+ ¡HITS ¡ ¡ MW ¡+ ¡PR ¡ BF ¡+ ¡HITS ¡ MW ¡+ ¡PR ¡ None ¡ 0.362 ¡ 0.336 ¡ 0.404 ¡ 0.367 ¡ Dense ¡(smallest) ¡ 0.288 ¡ 0.288 ¡ 0.285 ¡ 0.285 ¡ Dense ¡(all) ¡ 0.340 ¡ 0.287 ¡ 0.421 ¡ 0.309 ¡ En8ty ¡(smallest) ¡ 0.242 ¡ 0.211 ¡ 0.307 ¡ 0.303 ¡ En8ty ¡(All) ¡ 0.240 ¡ 0.213 ¡ 0.296 ¡ 0.288 ¡
SLIDE 12 Knowledge Base Segmentation Based on Coherence
Observations:
- NIL mentions deeply affect the disambiguation.
- Candidates for NIL entities cluster
- Correct candidates do not cluster.
- Incorrect Premise
- Entities appearing in the same discourse are not necessarily
more closely related than those that do not appear in the discourse. Need for a solution that allows navigation in the graph of the Knowledge Base without requiring dense clusters.
SLIDE 13
Knowledge Base Segmentation based on Popularity
Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. LESS ¡ AMBIGUITY ¡ MORE ¡ AMBIGUITY ¡ Earth ¡ Ireland ¡ Brazil ¡ U.S. ¡ Canada ¡ Dublin ¡ Galway ¡ Niterói ¡ Aracaju ¡ Dublin ¡ Sea"le ¡ Dublin ¡
… ¡ … ¡ … ¡ … ¡ … ¡ … ¡ … ¡
SLIDE 14
Knowledge Base Segmentation based on Popularity
Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. Men8on ¡1 ¡ Men8on ¡2 ¡ Men8on ¡3 ¡ Men8on ¡4 ¡ C4_2 ¡ C5_3 ¡ C1_1 ¡ C2_2 ¡ C3_2 ¡ C10_2 ¡ C9_2 ¡ C6_2 ¡ C8_3 ¡ C7_2 ¡ C6_2 ¡ C8_3 ¡
SLIDE 15 Knowledge Base Segmentation based on Popularity
- 20 Reuters articles from CoNLL
- Multiple Interpretations
- Metonymy
- 1 annotator
- Annotation time – 17 hours
- 24.5 mentions per article
- 15.18 Candidates/mention
- 192 NILs
- 298 non NILs
- 1.08 Candidates/mention
- 251 NILs
- 239 non NILs
SLIDE 16 Knowledge Base Segmentation based on Popularity
0.905 ¡ 0.91 ¡ 0.915 ¡ 0.92 ¡ 0.925 ¡ 0.93 ¡ 0.935 ¡ 0.94 ¡ 0.945 ¡ 0.95 ¡ 0.955 ¡ 0.96 ¡
Precision ¡ Recall ¡ Fscore ¡
0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ 1 ¡
Precision ¡ Recall ¡ Fscore ¡
MW ¡+ ¡PR ¡ Baseline ¡ BF ¡(2 ¡hops) ¡+ ¡HITS ¡ BF ¡(1 ¡hop) ¡+ ¡HITS ¡ Hierarchical ¡(0.6) ¡ Hierarchical ¡(1) ¡
SLIDE 17 Conclusions and Future Work
- NIL is still a big challenge in Entity Linking.
- Entities are related through discourse but not necessarily closely related in the
Knowledge Base.
- Disambiguation based on navigation between segments of different level of
generality seems promising.
- Explore the use of popularity with other types of relations.
- Resolve which Knowledge Base has the most relevant sense for what is
represented in the text.
- Use of contextual clues. How to provide lexicalization to Knowledge Bases
without text?
- Explore impact of KB model in Entity Linking.
- Entity -> entity vs entity -> relator -> entity