VISUALIZING THE DRIFT OF LOD USING SELF-ORGANIZING MAPS - - PowerPoint PPT Presentation

visualizing the drift of lod using self organizing maps
SMART_READER_LITE
LIVE PREVIEW

VISUALIZING THE DRIFT OF LOD USING SELF-ORGANIZING MAPS - - PowerPoint PPT Presentation

VISUALIZING THE DRIFT OF LOD USING SELF-ORGANIZING MAPS Albert Meroo-Peuela, Peter WiHek, Sndor Darnyi 1 st DriL-a-LOD Workshop, EKAW #


slide-1
SLIDE 1

‹#› ¡ Het ¡begint ¡met ¡een ¡idee ¡

VISUALIZING ¡THE ¡DRIFT ¡OF ¡LOD ¡ USING ¡SELF-­‑ORGANIZING ¡MAPS ¡

Albert ¡Meroño-­‑Peñuela, ¡Peter ¡WiHek, ¡Sándor ¡Darányi ¡ 1st ¡DriL-­‑a-­‑LOD ¡Workshop, ¡EKAW ¡ 20-­‑11-­‑2016 ¡

slide-2
SLIDE 2

Vrije Universiteit Amsterdam

  • The ¡urge ¡to ¡develop ¡the ¡Web ¡into ¡a ¡globally ¡shared ¡dataspace ¡has ¡turned ¡the ¡Linked ¡

Open ¡Data ¡(LOD) ¡cloud ¡into ¡a ¡massive ¡plaXorm ¡containing ¡100 ¡billion ¡machine-­‑ readable ¡statements ¡

  • Several ¡factors ¡hamper ¡a ¡historical ¡study ¡of ¡the ¡evoluZon ¡of ¡the ¡LOD ¡cloud, ¡and ¡

hence ¡forecasZng ¡its ¡future: ¡ ¡

  • Its ¡ever-­‑growing ¡scale, ¡which ¡makes ¡a ¡global ¡analysis ¡difficult ¡ ¡
  • Its ¡Web-­‑distributed ¡nature, ¡which ¡challenges ¡the ¡analysis ¡of ¡its ¡data ¡
  • The ¡scarcity ¡of ¡regular ¡and ¡Zme-­‑stamped ¡archival ¡dumps ¡
  • In ¡this ¡Web ¡dataspace, ¡dynamics ¡is ¡the ¡norm ¡
  • New ¡data ¡are ¡added ¡
  • Old ¡data ¡are ¡removed ¡
  • Schemata ¡evolve ¡to ¡accommodate ¡new ¡requirements ¡and ¡changes ¡in ¡a ¡domain ¡
  • Terms ¡like ¡semanZc ¡driL ¡are ¡used ¡to ¡refer ¡to ¡problems ¡that ¡arise ¡as ¡a ¡consequence ¡

to ¡this ¡dynamics ¡

  • Several ¡approaches ¡ ¡study ¡semanZc ¡driL ¡over ¡Zme ¡in ¡the ¡context ¡of ¡LOD ¡and ¡the ¡

SemanZc ¡Web, ¡although ¡none ¡of ¡them ¡addresses ¡all ¡of ¡these ¡factors ¡

  • Recently, ¡a ¡scalable ¡implementaZon ¡of ¡self-­‑organizing ¡maps ¡(SOM) ¡has ¡been ¡

developed ¡to ¡visualize ¡the ¡local ¡topology ¡of ¡high-­‑dimensional ¡data ¡

  • We ¡use ¡this ¡methodology ¡to ¡address ¡scalability ¡issues, ¡and ¡the ¡Dynamic ¡Linked ¡Data ¡Observatory ¡(DyLDO), ¡a ¡regular ¡

biweekly, ¡centralized ¡sample ¡of ¡the ¡LOD ¡cloud, ¡as ¡a ¡Zme-­‑stamped ¡collecZon ¡

  • We ¡visualize ¡the ¡driL ¡of ¡Linked ¡Datasets ¡between ¡2012 ¡and ¡2016, ¡finding ¡that ¡datasets ¡with ¡high ¡availability, ¡high ¡

vocabulary ¡reuse, ¡and ¡modeling ¡with ¡commonly ¡used ¡terms ¡in ¡the ¡LOD ¡cloud ¡are ¡beHer ¡traceable ¡across ¡Zme ¡ 2 ¡

INTRODUCTION ¡AND ¡OUTLINE ¡

slide-3
SLIDE 3

Evolving ¡Municipali.es

  • Gemeentegeschiedenis.nl ¡

hHp://www.gemeentegeschiedenis.nl/ ¡ ¡

slide-4
SLIDE 4

Evolving ¡Occupa.ons

  • HISCO ¡

hHp://historyofwork.iisg.nl/ ¡

slide-5
SLIDE 5

Vrije Universiteit Amsterdam

In ¡6 ¡months ¡at ¡the ¡LOD ¡cloud: ¡

§ Documents ¡were ¡unavailable ¡20% ¡of ¡the ¡Zme ¡ § 5% ¡have ¡gone ¡permanently ¡offline ¡

For ¡the ¡ones ¡available ¡online: ¡

§ 62.2% ¡present ¡no ¡change ¡whatsoever ¡ § 8.4% ¡change ¡very ¡frequently ¡ § 23.2% ¡change ¡very ¡infrequently ¡

For ¡the ¡ones ¡that ¡changed: ¡

§ 27.4% ¡updated ¡individual ¡RDF ¡terms ¡ § 23.1% ¡only ¡added ¡triples ¡

5 ¡

CHANGE ¡IN ¡LINKED ¡DATA ¡

  • T. ¡Käfer, ¡A. ¡Abdelrahman, ¡J. ¡Umbrich, ¡P. ¡O’Byrne, ¡A. ¡Hogan. ¡“Observing ¡Linked ¡

Data ¡Dynamics”. ¡ESWC ¡2013 ¡

slide-6
SLIDE 6

Vrije Universiteit Amsterdam

Domain ¡names ¡(i.e. ¡data ¡publishers) ¡are: ¡

§ 44.5% ¡very ¡staZc ¡ § 28.2% ¡have ¡a ¡high ¡raZo ¡of ¡documents ¡that ¡change ¡

infrequently ¡

§ 25% ¡have ¡a ¡high ¡raZo ¡of ¡documents ¡that ¡change ¡frequently ¡

At ¡the ¡RDF ¡level: ¡

§ Object ¡literals ¡are ¡most ¡likely ¡to ¡change ¡ § Schema ¡signatures ¡(predicates, ¡values ¡for ¡rdf:type) ¡change ¡

very ¡infrequently ¡

6 ¡

CHANGE ¡IN ¡LINKED ¡DATA ¡

  • T. ¡Käfer, ¡A. ¡Abdelrahman, ¡J. ¡Umbrich, ¡P. ¡O’Byrne, ¡A. ¡Hogan. ¡“Observing ¡Linked ¡

Data ¡Dynamics”. ¡ESWC ¡2013 ¡

slide-7
SLIDE 7

Vrije Universiteit Amsterdam

¡ Do ¡we ¡have ¡effecZve ¡(efficient ¡& ¡intuiZve) ¡tools ¡to ¡track ¡ and ¡understand ¡fundamental ¡concept ¡change ¡in ¡LOD? ¡ ¡ ¡ ¡ Challenges ¡ ¡

  • 1. Large ¡size ¡
  • 2. Distributed ¡nature ¡
  • 3. Unavailability ¡of ¡4mestamped ¡change ¡events ¡

7 ¡

LOD ¡CHALLENGES ¡FOR ¡CONCEPT ¡DRIFT ¡

slide-8
SLIDE 8

Vrije Universiteit Amsterdam

  • Formal ¡frameworks ¡for ¡a ¡symbolic ¡study ¡of ¡conceptual ¡change ¡

– ¡concept ¡intension, ¡extension, ¡label ¡(Wang ¡et ¡al. ¡2010) ¡

  • Ontology ¡evoluZon ¡– ¡features ¡that ¡explain ¡change ¡in ¡
  • ntologies: ¡structure-­‑based, ¡instance-­‑based, ¡usage-­‑based ¡

(Stojanovic ¡2004) ¡

  • Used ¡to ¡train ¡machine ¡learning ¡classifiers ¡(Pesquita ¡et ¡al. ¡2012, ¡Meroño-­‑Peñuela ¡

et ¡al. ¡2015) ¡

  • RDF ¡Zmestamped ¡dumps ¡are ¡scarce, ¡but ¡
  • LOD ¡Cache ¡hHps://datahub.io/dataset/openlink-­‑lod-­‑cache ¡ ¡
  • Dynamic ¡Linked ¡Data ¡Observatory ¡(DyLDO) ¡(Käfer ¡et ¡al. ¡2013) ¡
  • Self-­‑organizing ¡maps ¡are ¡powerful ¡tools ¡to ¡intuiZvely ¡

comprehend ¡topology ¡(variaZons ¡of) ¡data ¡(Kohonen ¡2001) ¡

  • Current ¡massively ¡parallel ¡implementaZon: ¡Somoclu ¡(WiHek ¡2015) ¡

¡ ¡

8 ¡

CURRENT ¡APPROACHES ¡

slide-9
SLIDE 9

Vrije Universiteit Amsterdam

9 ¡

REQUIREMENTS ¡TO ¡VISUALIZE ¡LOD ¡DRIFTS ¡OVER ¡ TIME ¡

slide-10
SLIDE 10

Dimensionality ¡reducZon ¡is ¡a ¡standard ¡technique ¡in ¡staZsZcal ¡data ¡analysis ¡and ¡machine ¡learning. ¡ ¡ In ¡sparse ¡spaces, ¡such ¡as ¡the ¡ones ¡we ¡obtain ¡from ¡LOD, ¡the ¡global ¡topology ¡of ¡the ¡space ¡is ¡oLen ¡less ¡ important ¡than ¡the ¡local ¡regions ¡where ¡many ¡data ¡instances ¡have ¡overlapping ¡nonzero ¡elements: ¡ techniques ¡that ¡focus ¡on ¡preserving ¡local ¡topology ¡are ¡preferred. ¡ ¡ Self-­‑organizing ¡maps ¡are ¡an ¡example ¡of ¡this ¡type. ¡They ¡were ¡introduced ¡to ¡the ¡study ¡of ¡driLs, ¡enabled ¡at ¡ scale ¡by ¡a ¡massively ¡parallel ¡implementaZon ¡of ¡the ¡methodology. ¡ ALer ¡training ¡a ¡map, ¡each ¡data ¡instance ¡will ¡have ¡a ¡matching ¡point ¡called ¡the ¡best ¡matching ¡unit ¡(BMU) ¡

  • n ¡the ¡map ¡– ¡the ¡immediate ¡surroundings ¡of ¡this ¡point ¡reflect ¡the ¡local ¡topology ¡of ¡the ¡original ¡space. ¡ ¡

Intense ¡colours ¡on ¡the ¡map ¡indicate ¡high ¡distances ¡ ¡between ¡the ¡original ¡data ¡points. ¡ ESOM ¡refers ¡to ¡Emergent ¡Self-­‑Organizing ¡Maps ¡ ¡ ¡

SOM ¡VS ¡ESOM ¡EXAMPLE ¡

slide-11
SLIDE 11

Vrije Universiteit Amsterdam

  • Somoclu: ¡a ¡massively ¡parallel ¡implementaZon ¡of ¡self-­‑
  • rganizing ¡maps ¡
  • SemanZc ¡fields ¡in ¡ESOMs: ¡
  • Embed ¡vector ¡space ¡on ¡a ¡2D ¡surface ¡using ¡ESOMs ¡
  • ResulZng ¡network ¡reflects ¡local ¡topology ¡of ¡the ¡high-­‑dimensional ¡space ¡

¡

11 ¡

PROPOSAL: ¡SOMOCLU ¡+ ¡DyLDO ¡

slide-12
SLIDE 12

Vrije Universiteit Amsterdam

DyLDO: ¡the ¡Dynamic ¡Linked ¡Data ¡Observatory ¡dataset ¡ hHp://swse.deri.org/dyldo/ ¡ ¡

¡(Future ¡work: ¡other ¡datasets) ¡

¡

  • Weekly ¡crawls ¡(Zmestamped!) ¡
  • Linked ¡Data ¡in ¡DataHub ¡and ¡Billion ¡Triple ¡Challenge ¡(BTC) ¡
  • March ¡2012 ¡– ¡March ¡2016 ¡

12 ¡

PROPOSAL: ¡SOMOCLU ¡+ ¡DYLDO ¡

slide-13
SLIDE 13

Vrije Universiteit Amsterdam

From ¡DyLDO ¡snapshots ¡to ¡Somoclu ¡input ¡sparse ¡matrices ¡ ¡

  • 79 ¡DyLDO ¡snapshots ¡(2012-­‑05-­‑13 ¡-­‑ ¡2016-­‑03-­‑27) ¡
  • We ¡consider ¡URIs ¡that ¡appear ¡in ¡predicate ¡posiZon ¡
  • Future ¡work: ¡subject, ¡object ¡posiZon; ¡others ¡
  • Analysis ¡of ¡common ¡graph ¡names ¡and ¡predicates ¡in ¡all ¡

snapshots ¡

  • 275,412 ¡unique ¡predicates ¡p ¡
  • 4,506 ¡unique ¡named ¡graphs ¡ng ¡
  • For ¡each ¡M_i ¡in ¡M ¡= ¡{snapshots}, ¡ng_j ¡= ¡<f_p_1, ¡f_p_2, ¡… ¡

f_p_n>, ¡where ¡f_p_k ¡is ¡the ¡frequency ¡of ¡p_k ¡in ¡the ¡named ¡ graph ¡ng_i ¡for ¡the ¡snapshot ¡M_i ¡ ¡

  • 79 ¡sparse ¡matrices ¡with ¡275,412 ¡dimensions ¡and ¡4,506 ¡

instances ¡

  • Average ¡sparsity ¡(i.e. ¡non-­‑zero ¡elements) ¡of ¡0.03% ¡ ¡

13 ¡

EXPERIMENTS ¡

See ¡hHps://github.com/albertmeronyo/somoclu-­‑dyldo ¡ ¡

slide-14
SLIDE 14

Vrije Universiteit Amsterdam

Using ¡the ¡sparse ¡matrices ¡to ¡train ¡SOMs ¡with ¡Somoclu ¡ ¡ for ¡M_i ¡in ¡M: ¡ ¡if ¡i ¡== ¡1: ¡ ¡ ¡train(rnd_codebook, ¡params_1, ¡M_1) ¡ ¡else: ¡ ¡ ¡train(codebook(M_(i-­‑1)), ¡params_i, ¡M_i) ¡ ¡

§ Parameter ¡tuning ¡(params) ¡

> Toroid ¡topology ¡yields ¡higher ¡quality ¡ > Square-­‑shaped ¡neurons ¡for ¡easier ¡visual ¡treatment ¡ > Map ¡size ¡of ¡15 ¡rows ¡and ¡25 ¡columns ¡due ¡to ¡memory ¡limitaZons ¡ > IniZal ¡map ¡trained ¡for ¡a ¡longer ¡Zme ¡(10 ¡iteraZons ¡instead ¡of ¡3) ¡and ¡at ¡a ¡higher ¡

learning ¡rate ¡(0.1 ¡instead ¡of ¡0.05) ¡

> Output ¡neuron ¡weights ¡of ¡snapshot ¡M_i ¡as ¡a ¡codebook ¡to ¡iniZalize ¡the ¡map ¡of ¡

snapshot ¡M_(i+1) ¡ ¡

14 ¡

EXPERIMENTS ¡

See ¡hHps://github.com/albertmeronyo/somoclu-­‑dyldo ¡ ¡

slide-15
SLIDE 15

Vrije Universiteit Amsterdam

15 ¡

RESULTS ¡

See ¡also ¡hHps://youtu.be/3nK3teAzzCM ¡ See ¡also ¡hHps://youtu.be/XTcsv2i2Hlg ¡ ¡ See ¡also ¡hHps://youtu.be/-­‑UKKIdIyKGA ¡

slide-16
SLIDE 16

Vrije Universiteit Amsterdam

  • 2012-­‑05-­‑13: ¡There ¡are ¡at ¡least ¡three ¡recognizable ¡clusters ¡in ¡

the ¡middle ¡of ¡the ¡map, ¡with ¡sorrounding ¡BMUs ¡

16 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡

salon.com ¡

  • penei.org ¡

steelers.com ¡

slide-17
SLIDE 17

Vrije Universiteit Amsterdam

17 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡

sports-­‑ reference. com ¡/ ¡ snee.com ¡

  • penei.org ¡
  • Get ¡almost ¡perfectly ¡merged ¡together ¡by ¡

2013-­‑04-­‑07 ¡

bbc.co.uk ¡

slide-18
SLIDE 18

Vrije Universiteit Amsterdam

18 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡

sports-­‑ reference. com ¡/ ¡ snee.com ¡

  • 2013-­‑8-­‑11: ¡The ¡clusters ¡have ¡perfectly ¡merged. ¡The ¡

BMUs ¡of ¡the ¡previous ¡key ¡epochs ¡conZnue ¡ appearing ¡as ¡“shared” ¡cluster ¡centers. ¡ ¡

slide-19
SLIDE 19

Vrije Universiteit Amsterdam

19 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡
  • End ¡of ¡2013: ¡BMUs ¡that ¡did ¡qualify ¡as ¡important ¡in ¡

the ¡previous ¡epochs, ¡but ¡that ¡did ¡not ¡make ¡it ¡as ¡ cluster ¡centers, ¡are ¡not ¡that ¡obviously ¡related ¡to ¡the ¡ cluster ¡centers ¡anymore. ¡BBC/OpenEI ¡compete ¡

slide-20
SLIDE 20

Vrije Universiteit Amsterdam

20 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡
  • During ¡2014: ¡BBC ¡clusters ¡get ¡merged, ¡so ¡does ¡the ¡

OpenEI ¡by ¡becoming ¡indisZnguishable ¡within ¡the ¡ BBC ¡cluster. ¡

slide-21
SLIDE 21

Vrije Universiteit Amsterdam

21 ¡

RESULTS ¡

bbc.co.uk ¡

  • penei.org ¡
  • This ¡tendency ¡conZnues ¡unZl ¡the ¡final ¡data ¡epoch ¡in ¡

2016-­‑03-­‑27 ¡

slide-22
SLIDE 22

Vrije Universiteit Amsterdam

Named ¡graphs ¡get ¡clustered ¡together ¡in ¡similar ¡class ¡ profiles ¡that ¡use ¡common ¡vocabulary ¡terms: ¡ ¡

  • The ¡BBC ¡Nature ¡data ¡dataset: ¡RDF ¡(rdf:type), ¡RDFS ¡

(rdfs:label), ¡the ¡Wildlife ¡Ontology, ¡FOAF, ¡Dublin ¡Core ¡ ¡

  • The ¡Open ¡Energy ¡InformaZon ¡wiki ¡export ¡as ¡Linked ¡

Data: ¡RDF ¡(rdf:type), ¡SemanZc ¡MediaWiki, ¡OWL ¡ (owl:imports, ¡owl:sameAs), ¡RDFS ¡(rdfs:label), ¡custom ¡ OpenEI ¡ontological ¡terms ¡ ¡

  • Documents ¡with ¡personal ¡details ¡and ¡FOAF ¡data ¡

(London ¡Olympics, ¡Bob ¡DuCharme, ¡etc): ¡Facebook, ¡ the ¡Open ¡Graph ¡Protocol, ¡XHTML, ¡RDFS ¡ (rdfs:seeAlso), ¡RDF, ¡and ¡FOAF ¡ ¡

22 ¡

DISCUSSION ¡

slide-23
SLIDE 23

Vrije Universiteit Amsterdam

What ¡makes ¡these ¡datasets ¡so ¡different ¡from ¡the ¡ surrounding, ¡planar ¡surface? ¡ ¡

  • The ¡higher ¡number ¡of ¡instances ¡in ¡these ¡datasets ¡using ¡

common ¡terms ¡of ¡the ¡LOD ¡leads ¡to ¡a ¡higher ¡frequency ¡in ¡ their ¡sparse ¡matrices ¡

  • The ¡SOM ¡maps ¡reward ¡the ¡stability ¡of ¡these ¡datasets, ¡versus ¡
  • thers ¡that ¡changed ¡their ¡used ¡vocabularies ¡over ¡Zme ¡
  • These ¡datasets ¡tend ¡to ¡reuse ¡exis4ng ¡vocabularies, ¡instead ¡
  • f ¡minZng ¡their ¡own ¡
  • All ¡of ¡them ¡reuse ¡very ¡common ¡terms ¡that ¡tend ¡appear ¡

elsewhere ¡in ¡the ¡LOD ¡cloud ¡ ¡

¡

23 ¡

DISCUSSION ¡

slide-24
SLIDE 24

Vrije Universiteit Amsterdam

  • Visualizing ¡conceptual ¡change ¡in ¡LOD ¡in ¡an ¡intuiZve ¡and ¡

efficient ¡way ¡using ¡SOM ¡

  • The ¡three ¡challenges ¡of ¡visualizing ¡driL ¡in ¡LOD ¡data: ¡(1) ¡scale; ¡

(2) ¡distribu4on; ¡(3) ¡unavailability ¡of ¡change ¡tracking ¡

  • Requirements ¡concern ¡both ¡data ¡(centralizaZon, ¡sampling, ¡

provenance) ¡and ¡algorithms ¡(dimensionality ¡reducZon, ¡ topology ¡preservaZon, ¡unsupervised ¡learning) ¡

  • Somoclu ¡+ ¡DyLDO ¡= ¡a ¡soluZon ¡saZsfying ¡these ¡requirements ¡
  • Stability ¡is ¡predominant ¡in ¡LOD ¡during ¡2012-­‑2016 ¡
  • SOM ¡rewards ¡datasets ¡with ¡more ¡instances, ¡few ¡changes, ¡high ¡

reuse ¡of ¡terms, ¡and ¡reuse ¡of ¡common ¡LOD ¡terms ¡

  • Future ¡work ¡
  • Varying ¡assumpZons ¡of ¡RDF ¡terms ¡in ¡predicate ¡posiZon ¡
  • Different ¡datasets ¡other ¡than ¡DyLDO ¡
  • Integrate ¡metadata ¡of ¡version ¡control ¡systems ¡(e.g. ¡git) ¡

24 ¡

CONCLUSIONS ¡

slide-25
SLIDE 25

Vrije Universiteit Amsterdam

QuesZons, ¡suggesZons, ¡comments ¡most ¡welcome ¡ ¡ ¡ hHp://www.datalegend.net/ ¡ ¡ hHp://pericles-­‑project.eu/ ¡ ¡

THANK ¡YOU ¡