The Seman)c Web and its Relevance for Cultural Heritage - - PowerPoint PPT Presentation

the seman c web and its relevance for cultural heritage
SMART_READER_LITE
LIVE PREVIEW

The Seman)c Web and its Relevance for Cultural Heritage - - PowerPoint PPT Presentation

The Seman)c Web and its Relevance for Cultural Heritage (Benjamins et al. 2004) [1] Text Mining for Historical Documents Peter Stahl 23th February 2012


slide-1
SLIDE 1

The ¡Seman)c ¡Web ¡and ¡its ¡Relevance ¡ for ¡Cultural ¡Heritage ¡ (Benjamins ¡et ¡al. ¡2004)[1] ¡

Text ¡Mining ¡for ¡Historical ¡Documents ¡ Peter ¡Stahl ¡ 23th ¡February ¡2012 ¡

slide-2
SLIDE 2

Outline ¡

  • Introduc)on ¡

– What ¡is ¡the ¡Seman)c ¡Web? ¡ – Its ¡benefits ¡and ¡how ¡they ¡are ¡accomplished ¡

  • Two ¡technologies ¡in ¡a ¡bit ¡more ¡detail ¡

– Extensible ¡Markup ¡Language ¡(XML) ¡ – Resource ¡Descrip)on ¡Framework ¡(RDF) ¡

  • Cultural ¡Heritage ¡and ¡the ¡Seman)c ¡Web ¡

– Ontology ¡of ¡Humani)es ¡ – Seman)c ¡Annota)on ¡Tool ¡Support ¡

1/27 ¡

slide-3
SLIDE 3

What ¡is ¡the ¡Seman)c ¡Web?[2] ¡

  • main ¡purpose ¡

– to ¡convert ¡unstructured ¡Web ¡of ¡documents ¡into ¡ ¡ structured ¡Web ¡of ¡linked ¡data ¡ ¡ – Tim ¡Berners-­‑Lee*: ¡“[...] ¡data ¡that ¡can ¡be ¡ processed ¡directly ¡and ¡indirectly ¡by ¡machines“ ¡ – to ¡find, ¡share, ¡combine, ¡and ¡reuse ¡informa)on ¡ more ¡easily ¡ ¡ ¡

2/27 ¡

* ¡inventor ¡of ¡internet; ¡director ¡of ¡World ¡Wide ¡Web ¡Consor)um ¡(W3C) ¡

slide-4
SLIDE 4

Limita)ons ¡of ¡the ¡Current ¡Web ¡

  • web ¡mainly ¡based ¡on ¡documents ¡wri`en ¡in ¡

Hypertext ¡Markup ¡Language ¡(HTML) ¡

– describes ¡elements ¡such ¡as ¡)tles, ¡paragraphs, ¡ lists, ¡simple ¡URLs ¡and ¡their ¡posi)ons ¡on ¡a ¡website ¡ – no ¡way ¡to ¡represent ¡arbitrary ¡real ¡world ¡objects ¡ and ¡their ¡proper)es ¡described ¡in ¡those ¡elements ¡

  • recent ¡HTML ¡standards ¡encourage ¡use ¡of ¡

seman)c ¡tags ¡for ¡formabng ¡

– <em> ¡instead ¡of ¡<i> ¡(emphasis ¡instead ¡of ¡italic) ¡

3/27 ¡

slide-5
SLIDE 5

Seman)c ¡Web ¡Technologies ¡

  • development ¡of ¡languages ¡specifically ¡

designed ¡for ¡data ¡

– Extensible ¡Markup ¡Language ¡(XML) ¡ – Resource ¡Descrip=on ¡Framework ¡(RDF) ¡

  • technologies ¡are ¡combined ¡to ¡supplement ¡or ¡

replace ¡Web ¡content, ¡e.g. ¡

– Extensible ¡HTML ¡(XML ¡+ ¡HTML ¡= ¡XHTML) ¡ – RDF ¡+ ¡XML ¡

4/27 ¡

slide-6
SLIDE 6

Extensible ¡Markup ¡Language[3] ¡

  • provides ¡rules ¡and ¡elemental ¡syntax ¡for ¡content ¡

structure, ¡but ¡associates ¡no ¡seman)cs ¡with ¡ content ¡itself ¡

  • superset ¡of ¡HTML ¡
  • design ¡goals ¡

– simplicity ¡ – generality ¡ – usability ¡over ¡internet ¡ – readable ¡by ¡both ¡humans ¡and ¡machines ¡

  • widely ¡used ¡in ¡other ¡sogware ¡as ¡well, ¡e.g. ¡in ¡
  • ffice ¡applica)ons ¡

5/27 ¡

slide-7
SLIDE 7

XML ¡Proper)es ¡

  • XML ¡document ¡is ¡divided ¡into ¡markup ¡and ¡

content ¡

– strings ¡cons)tu)ng ¡markup ¡begin ¡and ¡end ¡with ¡ characters ¡< ¡and ¡> ¡ – strings ¡which ¡are ¡not ¡markup ¡are ¡content ¡

  • most ¡common ¡markup ¡construct ¡is ¡tag ¡

– start-­‑tags, ¡e.g. ¡ ¡ ¡ ¡ ¡<sec=on> ¡ – end-­‑tags, ¡e.g. ¡ ¡ ¡ ¡ ¡</sec=on> ¡ – empty-­‑element ¡tags, ¡e.g. ¡ ¡<line-­‑break ¡/> ¡

6/27 ¡

slide-8
SLIDE 8

XML ¡Proper)es ¡

  • aCribute ¡is ¡markup ¡construct ¡within ¡tag ¡

– consists ¡of ¡name/value ¡pair ¡ – serves ¡as ¡addi)onal ¡informa)on ¡for ¡a ¡tag ¡ – <img ¡src=“building.jpg“ ¡alt=“Our ¡Coli ¡building“ ¡/> ¡

  • content ¡is ¡placed ¡between ¡start-­‑ ¡and ¡end-­‑tags ¡

– may ¡itself ¡contain ¡markup ¡and ¡other ¡nested ¡ content ¡à ¡resul)ng ¡in ¡tree-­‑like ¡structure ¡

7/27 ¡

slide-9
SLIDE 9

Example: ¡Plain ¡Text ¡

  • sentence ¡in ¡plain ¡format ¡has ¡no ¡par)cular ¡

meaning ¡to ¡computer ¡ 8/27 ¡

slide-10
SLIDE 10

Example: ¡XML ¡markup ¡

  • computer ¡knows ¡that ¡
  • The ¡university ¡is ¡in ¡Saarbrücken ¡is ¡a ¡sentence ¡
  • university ¡is ¡an ¡ins)tu)on ¡
  • Saarbrücken ¡is ¡a ¡loca)on ¡
  • computer ¡doesn‘t ¡know ¡what‘s ¡
  • a ¡sentence ¡
  • an ¡ins)tu)on ¡
  • a ¡loca)on ¡

9/27 ¡

slide-11
SLIDE 11

Example: ¡XML ¡markup ¡with ¡a7ributes ¡

  • problem: ¡ins=tu=on ¡and ¡loca=on ¡are ¡common ¡

words ¡and ¡can ¡be ¡used ¡differently ¡in ¡markups ¡ from ¡other ¡people ¡

  • computer ¡must ¡uniquely ¡iden)fy ¡markup ¡

elements ¡

10/27 ¡

slide-12
SLIDE 12

Example: ¡XML ¡markup ¡with ¡namespaces ¡

  • solu)on: ¡use ¡uniform ¡resource ¡iden=fiers ¡(URI) ¡

that ¡iden)fy ¡namespaces ¡with ¡their ¡own ¡tags ¡ 11/27 ¡

slide-13
SLIDE 13

Interlude: ¡URIs ¡

  • anything ¡can ¡have ¡a ¡URI ¡
  • URLs ¡(L ¡= ¡locator) ¡both ¡iden)fy ¡and ¡locate ¡web ¡

resources, ¡URIs ¡only ¡iden)fy ¡them ¡

– resource ¡may ¡or ¡may ¡not ¡be ¡accessible ¡over ¡internet ¡

  • conven)on: ¡let ¡Web ¡page ¡describe ¡resource ¡to ¡

be ¡iden)fied ¡and ¡let ¡page ¡URL ¡be ¡URI ¡for ¡that ¡ resource ¡

– problem: ¡URI ¡now ¡represents ¡both ¡resource ¡and ¡web ¡ page ¡describing ¡it ¡à ¡recurring ¡point ¡of ¡discussion ¡

12/27 ¡

slide-14
SLIDE 14

XML: ¡Pros ¡& ¡Cons ¡

+ high ¡flexibility ¡and ¡ legibility ¡ + can ¡be ¡easily ¡adapted ¡to ¡ different ¡domains ¡ + mainly ¡self-­‑describing ¡ (i.e. ¡no ¡previous ¡ knowledge ¡of ¡ specifica)on ¡or ¡design ¡ required ¡to ¡understand ¡ what‘s ¡going ¡on) ¡

  • high ¡rate ¡of ¡verbosity ¡

and ¡complexity ¡

  • difficult ¡to ¡map ¡tree ¡

model ¡to ¡type ¡systems ¡

  • f ¡programming ¡

languages ¡

  • does ¡not ¡provide ¡

advanced ¡seman)cs ¡on ¡ its ¡own ¡(e.g. ¡rela)ons ¡ between ¡objects) ¡

13/27 ¡

slide-15
SLIDE 15

Resource ¡Descrip)on ¡Framework[4] ¡

  • problem ¡ ¡

– now ¡data ¡is ¡machine-­‑readable ¡but ¡not ¡yet ¡ machine-­‑processible ¡ – computer ¡cannot ¡yet ¡deal ¡further ¡with ¡data ¡such ¡ as ¡doing ¡inference ¡and ¡other ¡post-­‑processing ¡

  • solu)on: ¡RDF ¡

– statement ¡like ¡simple ¡sentence, ¡almost ¡all ¡words ¡ are ¡URIs ¡ – “anything ¡can ¡say ¡anything ¡about ¡anything“ ¡ ¡

14/27 ¡

slide-16
SLIDE 16

Example: ¡XML ¡markup ¡with ¡RDF ¡

  • RDF ¡specifica)on ¡defines ¡vocabulary ¡
  • can ¡be ¡combined ¡and ¡extended ¡by ¡other ¡

namespaces ¡

  • uses ¡subject-­‑predicate-­‑object ¡expressions ¡

(triples) ¡

  • triples ¡mainly ¡realized ¡by ¡URIs ¡

15/27 ¡

slide-17
SLIDE 17

Example: ¡Minimal ¡RDF ¡graph ¡

  • collec)on ¡of ¡RDF ¡statements ¡represents ¡labeled ¡

directed ¡mul=-­‑graph ¡ 16/27 ¡

slide-18
SLIDE 18

Informa)on ¡Sources ¡for ¡RDF ¡

  • RDF ¡informa)on ¡usually ¡taken ¡from ¡databases ¡
  • URIs ¡given ¡to ¡everything ¡in ¡database ¡
  • intelligent ¡programs ¡link ¡data ¡to ¡each ¡other ¡so ¡

that ¡complex ¡queries ¡on ¡data ¡can ¡be ¡made ¡

17/27 ¡

slide-19
SLIDE 19

Schemas ¡and ¡Ontologies ¡

  • problems ¡again ¡

– any ¡hard-­‑coded ¡informa)on ¡will ¡go ¡out ¡of ¡date ¡ – since ¡most ¡terms ¡are ¡ambiguous, ¡computer ¡cannot ¡ figure ¡out ¡what ¡main ¡meaning ¡of ¡specific ¡term ¡is ¡ – restric)ons ¡on ¡possible ¡rela)ons ¡and ¡meanings ¡ necessary ¡ ¡

  • solu)on: ¡schemas ¡and ¡ontologies ¡

– ontology: ¡explicit ¡specifica)on ¡of ¡abstract ¡concepts ¡ and ¡their ¡rela)ons ¡within ¡a ¡domain ¡ – schema: ¡similar ¡to ¡ontology ¡(in ¡RDF) ¡/ ¡specifies ¡ document ¡layout ¡including ¡elements, ¡tags, ¡a`ributes ¡ (in ¡XML) ¡

18/27 ¡

slide-20
SLIDE 20

RDF: ¡Pros ¡& ¡Cons ¡

+ low ¡rate ¡of ¡verbosity, ¡ high ¡rate ¡of ¡expression ¡ + specifica)on ¡exists ¡for ¡ main ¡vocabulary ¡ + can ¡be ¡extended ¡to ¡new ¡ domains ¡and ¡ vocabularies ¡ + RDF ¡data ¡can ¡be ¡ embedded ¡into ¡HTML ¡ pages ¡

  • which ¡concepts ¡to ¡

consider ¡as ¡resources ¡ and ¡predicates? ¡

  • meaning ¡of ¡exis)ng ¡

resources ¡may ¡change ¡

  • ver ¡)me ¡
  • difficult ¡handling ¡of ¡
  • ntology ¡complexity ¡
  • resource ¡iden)fica)on ¡

problem ¡(URIs ¡vs ¡URLs) ¡

19/27 ¡

slide-21
SLIDE 21

Seman)c ¡Web ¡& ¡Cultural ¡Heritage ¡ (Benjamins ¡et ¡al. ¡2004) ¡

  • huge ¡amount ¡of ¡literature ¡works ¡scanned ¡to ¡

provide ¡be`er ¡access ¡

– informa)on ¡overload: ¡too ¡many ¡databases ¡ available ¡with ¡their ¡own ¡a`ributes ¡and ¡search ¡ facili)es ¡

  • keyword-­‑based ¡search ¡not ¡sufficient, ¡rela)ons ¡

between ¡ar)sts ¡and ¡their ¡works ¡necessary ¡

– à ¡use ¡Seman)c ¡Web ¡technologies ¡

20/27 ¡

slide-22
SLIDE 22

Ontology ¡of ¡Humani)es ¡

  • Basic ¡idea: ¡

– build ¡ontology ¡of ¡Humani)es ¡by ¡involving ¡ professionals ¡ – use ¡it ¡to ¡seman)cally ¡annotate ¡cultural ¡content ¡ – support ¡annota)on ¡process ¡by ¡“intelligent“ ¡editor ¡ – publish ¡results ¡on ¡the ¡Web, ¡with ¡seman)c ¡ naviga)on, ¡search ¡and ¡visualiza)on ¡ – provide ¡methodology ¡for ¡helping ¡others ¡publish ¡ and ¡exploit ¡their ¡content ¡

21/27 ¡

slide-23
SLIDE 23

Crea@on ¡of ¡Ontology ¡

  • Competency ¡Ques)on ¡Methodology ¡
  • experts ¡should ¡come ¡up ¡with ¡ques)ons ¡that ¡
  • ntology ¡should ¡provide ¡answers ¡for ¡
  • answers ¡provide ¡concrete ¡inputs ¡for ¡resources ¡

and ¡rela)onships ¡to ¡include ¡in ¡ontology ¡

22/27 ¡

slide-24
SLIDE 24

Crea)on ¡of ¡Ontology ¡

  • concepts ¡include: ¡

– studies ¡ – profession ¡ – company ¡ – ins)tu)on ¡ – person ¡ – movement ¡ – work ¡etc ¡

  • two ¡types ¡of ¡exis)ng ¡ontologies ¡used: ¡

– general ¡ones ¡to ¡model ¡persons, ¡organiza)ons, ¡events ¡etc ¡ – specific ¡ones ¡to ¡model ¡things ¡in ¡humani)es ¡domain ¡and ¡ rela)ons ¡such ¡as ¡studied_in ¡and ¡inspired_by ¡

23/27 ¡

slide-25
SLIDE 25

Annota)on ¡Tool ¡Support ¡

  • take ¡structured, ¡semi-­‑structured ¡or ¡unstructured ¡

content ¡as ¡input ¡

  • provide ¡same ¡content ¡with ¡seman)c ¡annota)on ¡

as ¡output, ¡providing ¡pointers ¡to ¡ontologies ¡

  • annota)on ¡can ¡be ¡done ¡manually, ¡tool-­‑assisted ¡
  • r ¡fully ¡automa)c ¡
  • type ¡of ¡annota)on ¡depends ¡on ¡rate ¡of ¡content ¡

structure ¡

– more ¡structure ¡à ¡more ¡automa)on ¡

24/27 ¡

slide-26
SLIDE 26

Annota)on ¡Tool ¡Support ¡

  • tools ¡have ¡recommenda)on ¡func)onali)es ¡for ¡selected ¡

words ¡and ¡text ¡parts ¡

  • possible ¡ac)ons: ¡

– add ¡completely ¡new ¡instance ¡to ¡ontology ¡ – modify ¡exis)ng ¡instance ¡with ¡new ¡occurrence ¡ – discard ¡any ¡ontology ¡modifica)on ¡ – more ¡instances ¡in ¡ontology ¡à ¡be`er ¡recommenda)ons ¡

  • tools ¡useful ¡for ¡two ¡kinds ¡of ¡users: ¡

– knowledge ¡engineer: ¡peforms ¡major ¡changes ¡on ¡ontology ¡ – annotator: ¡introduces ¡new ¡instances ¡in ¡ontology ¡and ¡ maintains ¡exis)ng ¡ones ¡

25/27 ¡

slide-27
SLIDE 27

Ontology ¡Crea@on ¡with ¡Protégé ¡

  • open ¡source ¡
  • based ¡on ¡Java ¡
  • h`p://protege.stanford.edu/ ¡

26/27 ¡

slide-28
SLIDE 28

Relevance ¡for ¡Cultural ¡Heritage ¡

  • iden)fy ¡new ¡rela)ons ¡between ¡authors ¡and ¡

their ¡works, ¡inten)ons, ¡lives ¡

  • provide ¡intelligent ¡and ¡convenient ¡access ¡to ¡

very ¡complex ¡informa)on ¡

  • improve ¡and ¡simplify ¡further ¡research ¡in ¡

cultural ¡heritage ¡

27/27 ¡

slide-29
SLIDE 29

Thanks! ¡

slide-30
SLIDE 30

References ¡

1) V. ¡R. ¡Benjamins, ¡J. ¡Contreras, ¡M. ¡Blázquez, ¡J. ¡M. ¡ Dodero, ¡A. ¡Garcia, ¡E. ¡Navas, ¡F. ¡Hernandez, ¡C. ¡

  • Wert. ¡Cultural ¡Heritage ¡and ¡the ¡Seman=c ¡Web. ¡

The ¡Seman)c ¡Web: ¡Research ¡and ¡Applica)ons ¡ Lecture ¡Notes ¡in ¡Computer ¡Science, ¡2004, ¡ Volume ¡3053/2004, ¡pages ¡433-­‑444 ¡ 2) h`p://www.w3.org/2001/sw/ ¡ 3) h`p://www.w3.org/XML/ ¡ 4) h`p://www.w3.org/RDF/ ¡