 
              VISUALIZING ¡THE ¡DRIFT ¡OF ¡LOD ¡ USING ¡SELF-‑ORGANIZING ¡MAPS ¡ Albert ¡Meroño-‑Peñuela, ¡Peter ¡WiHek, ¡ Sándor ¡Darányi ¡ 1 st ¡DriL-‑a-‑LOD ¡Workshop, ¡EKAW ¡ ‹#› ¡ Het ¡begint ¡met ¡een ¡idee ¡ 20-‑11-‑2016 ¡
INTRODUCTION ¡AND ¡OUTLINE ¡ • The ¡urge ¡to ¡develop ¡the ¡Web ¡into ¡a ¡globally ¡shared ¡dataspace ¡has ¡turned ¡the ¡Linked ¡ Open ¡Data ¡(LOD) ¡cloud ¡into ¡a ¡massive ¡plaXorm ¡containing ¡100 ¡billion ¡machine-‑ readable ¡statements ¡ • Several ¡factors ¡hamper ¡a ¡historical ¡study ¡of ¡the ¡evoluZon ¡of ¡the ¡LOD ¡cloud, ¡and ¡ hence ¡forecasZng ¡its ¡future: ¡ ¡ Its ¡ever-‑growing ¡scale, ¡which ¡makes ¡a ¡global ¡analysis ¡difficult ¡ ¡ • Its ¡Web-‑distributed ¡nature, ¡which ¡challenges ¡the ¡analysis ¡of ¡its ¡data ¡ • The ¡scarcity ¡of ¡regular ¡and ¡Zme-‑stamped ¡archival ¡dumps ¡ • In ¡this ¡Web ¡dataspace, ¡dynamics ¡is ¡the ¡norm ¡ • New ¡data ¡are ¡added ¡ • Old ¡data ¡are ¡removed ¡ • Schemata ¡evolve ¡to ¡accommodate ¡new ¡requirements ¡and ¡changes ¡in ¡a ¡domain ¡ • Terms ¡like ¡semanZc ¡driL ¡are ¡used ¡to ¡refer ¡to ¡problems ¡that ¡arise ¡as ¡a ¡consequence ¡ • to ¡this ¡dynamics ¡ • Several ¡approaches ¡ ¡study ¡semanZc ¡driL ¡over ¡Zme ¡in ¡the ¡context ¡of ¡LOD ¡and ¡the ¡ SemanZc ¡Web, ¡although ¡none ¡of ¡them ¡addresses ¡all ¡of ¡these ¡factors ¡ • Recently, ¡a ¡scalable ¡implementaZon ¡of ¡self-‑organizing ¡maps ¡(SOM) ¡has ¡been ¡ developed ¡to ¡visualize ¡the ¡local ¡topology ¡of ¡high-‑dimensional ¡data ¡ We ¡use ¡this ¡methodology ¡to ¡address ¡scalability ¡issues, ¡and ¡the ¡Dynamic ¡Linked ¡Data ¡Observatory ¡(DyLDO), ¡a ¡regular ¡ • biweekly, ¡centralized ¡sample ¡of ¡the ¡LOD ¡cloud, ¡as ¡a ¡Zme-‑stamped ¡collecZon ¡ We ¡visualize ¡the ¡driL ¡of ¡Linked ¡Datasets ¡between ¡2012 ¡and ¡2016, ¡finding ¡that ¡datasets ¡with ¡high ¡availability, ¡high ¡ • vocabulary ¡reuse, ¡and ¡modeling ¡with ¡commonly ¡used ¡terms ¡in ¡the ¡LOD ¡cloud ¡are ¡beHer ¡traceable ¡across ¡Zme ¡ 2 ¡ Vrije Universiteit Amsterdam
Evolving ¡Municipali.es • Gemeentegeschiedenis.nl ¡ hHp://www.gemeentegeschiedenis.nl/ ¡ ¡
Evolving ¡Occupa.ons • HISCO ¡ hHp://historyofwork.iisg.nl/ ¡
CHANGE ¡IN ¡LINKED ¡DATA ¡ In ¡6 ¡months ¡at ¡the ¡LOD ¡cloud: ¡ § Documents ¡were ¡unavailable ¡20% ¡of ¡the ¡Zme ¡ § 5% ¡have ¡gone ¡permanently ¡offline ¡ For ¡the ¡ones ¡available ¡online: ¡ § 62.2% ¡present ¡no ¡change ¡whatsoever ¡ § 8.4% ¡change ¡very ¡frequently ¡ § 23.2% ¡change ¡very ¡infrequently ¡ For ¡the ¡ones ¡that ¡changed: ¡ § 27.4% ¡updated ¡individual ¡RDF ¡terms ¡ § 23.1% ¡only ¡added ¡triples ¡ T. ¡Käfer, ¡A. ¡Abdelrahman, ¡J. ¡Umbrich, ¡P. ¡O’Byrne, ¡A. ¡Hogan. ¡“Observing ¡Linked ¡ 5 ¡ Data ¡Dynamics”. ¡ESWC ¡2013 ¡ Vrije Universiteit Amsterdam
CHANGE ¡IN ¡LINKED ¡DATA ¡ Domain ¡names ¡(i.e. ¡data ¡publishers) ¡are: ¡ § 44.5% ¡very ¡staZc ¡ § 28.2% ¡have ¡a ¡high ¡raZo ¡of ¡documents ¡that ¡change ¡ infrequently ¡ § 25% ¡have ¡a ¡high ¡raZo ¡of ¡documents ¡that ¡change ¡frequently ¡ At ¡the ¡RDF ¡level: ¡ § Object ¡literals ¡are ¡most ¡likely ¡to ¡change ¡ § Schema ¡signatures ¡(predicates, ¡values ¡for ¡rdf:type) ¡change ¡ very ¡infrequently ¡ T. ¡Käfer, ¡A. ¡Abdelrahman, ¡J. ¡Umbrich, ¡P. ¡O’Byrne, ¡A. ¡Hogan. ¡“Observing ¡Linked ¡ 6 ¡ Data ¡Dynamics”. ¡ESWC ¡2013 ¡ Vrije Universiteit Amsterdam
LOD ¡CHALLENGES ¡FOR ¡CONCEPT ¡DRIFT ¡ ¡ Do ¡we ¡have ¡effecZve ¡(efficient ¡& ¡intuiZve) ¡tools ¡to ¡track ¡ and ¡understand ¡fundamental ¡concept ¡change ¡in ¡LOD? ¡ ¡ ¡ ¡ Challenges ¡ ¡ 1. Large ¡ size ¡ 2. Distributed ¡nature ¡ 3. Unavailability ¡of ¡ 4mestamped ¡change ¡events ¡ 7 ¡ Vrije Universiteit Amsterdam
CURRENT ¡APPROACHES ¡ • Formal ¡frameworks ¡for ¡a ¡symbolic ¡study ¡of ¡conceptual ¡change ¡ – ¡concept ¡intension, ¡extension, ¡label ¡(Wang ¡et ¡al. ¡2010) ¡ • Ontology ¡evoluZon ¡– ¡features ¡that ¡explain ¡change ¡in ¡ ontologies: ¡structure-‑based, ¡instance-‑based, ¡usage-‑based ¡ (Stojanovic ¡2004) ¡ Used ¡to ¡train ¡machine ¡learning ¡classifiers ¡(Pesquita ¡et ¡al. ¡2012, ¡Meroño-‑Peñuela ¡ • et ¡al. ¡2015) ¡ • RDF ¡Zmestamped ¡dumps ¡are ¡scarce, ¡but ¡ LOD ¡Cache ¡hHps://datahub.io/dataset/openlink-‑lod-‑cache ¡ ¡ • Dynamic ¡Linked ¡Data ¡Observatory ¡(DyLDO) ¡(Käfer ¡et ¡al. ¡2013) ¡ • • Self-‑organizing ¡maps ¡are ¡powerful ¡tools ¡to ¡intuiZvely ¡ comprehend ¡topology ¡(variaZons ¡of) ¡data ¡(Kohonen ¡2001) ¡ Current ¡massively ¡parallel ¡implementaZon: ¡Somoclu ¡(WiHek ¡2015) ¡ • ¡ ¡ 8 ¡ Vrije Universiteit Amsterdam
REQUIREMENTS ¡TO ¡VISUALIZE ¡LOD ¡DRIFTS ¡OVER ¡ TIME ¡ 9 ¡ Vrije Universiteit Amsterdam
SOM ¡VS ¡ESOM ¡EXAMPLE ¡ Dimensionality ¡reducZon ¡is ¡a ¡standard ¡technique ¡in ¡staZsZcal ¡data ¡analysis ¡and ¡machine ¡learning. ¡ ¡ In ¡sparse ¡spaces, ¡such ¡as ¡the ¡ones ¡we ¡obtain ¡from ¡LOD, ¡the ¡global ¡topology ¡of ¡the ¡space ¡is ¡oLen ¡less ¡ important ¡than ¡the ¡local ¡regions ¡where ¡many ¡data ¡instances ¡have ¡overlapping ¡nonzero ¡elements: ¡ techniques ¡that ¡focus ¡on ¡preserving ¡local ¡topology ¡are ¡preferred. ¡ ¡ Self-‑organizing ¡maps ¡are ¡an ¡example ¡of ¡this ¡type. ¡They ¡were ¡introduced ¡to ¡the ¡study ¡of ¡driLs, ¡enabled ¡at ¡ scale ¡by ¡a ¡massively ¡parallel ¡implementaZon ¡of ¡the ¡methodology. ¡ ALer ¡training ¡a ¡map, ¡each ¡data ¡instance ¡will ¡have ¡a ¡matching ¡point ¡called ¡the ¡best ¡matching ¡unit ¡(BMU) ¡ on ¡the ¡map ¡– ¡the ¡immediate ¡surroundings ¡of ¡this ¡point ¡reflect ¡the ¡local ¡topology ¡of ¡the ¡original ¡space. ¡ ¡ Intense ¡colours ¡on ¡the ¡map ¡indicate ¡high ¡distances ¡ ¡between ¡the ¡original ¡data ¡points. ¡ ESOM ¡refers ¡to ¡Emergent ¡Self-‑Organizing ¡Maps ¡ ¡ ¡
PROPOSAL: ¡SOMOCLU ¡+ ¡DyLDO ¡ • Somoclu: ¡a ¡massively ¡parallel ¡implementaZon ¡of ¡self-‑ organizing ¡maps ¡ • SemanZc ¡fields ¡in ¡ESOMs: ¡ Embed ¡vector ¡space ¡on ¡a ¡2D ¡surface ¡using ¡ESOMs ¡ • ResulZng ¡network ¡reflects ¡local ¡topology ¡of ¡the ¡high-‑dimensional ¡space ¡ • ¡ 11 ¡ Vrije Universiteit Amsterdam
PROPOSAL: ¡SOMOCLU ¡+ ¡DYLDO ¡ DyLDO: ¡the ¡Dynamic ¡Linked ¡Data ¡Observatory ¡dataset ¡ hHp://swse.deri.org/dyldo/ ¡ ¡ ¡(Future ¡work: ¡other ¡datasets) ¡ ¡ Weekly ¡crawls ¡(Zmestamped!) ¡ • Linked ¡Data ¡in ¡DataHub ¡and ¡Billion ¡Triple ¡Challenge ¡(BTC) ¡ • March ¡2012 ¡– ¡March ¡2016 ¡ • 12 ¡ Vrije Universiteit Amsterdam
Recommend
More recommend