BiographyNet Linking the world of History Workshop on - - PowerPoint PPT Presentation

biographynet
SMART_READER_LITE
LIVE PREVIEW

BiographyNet Linking the world of History Workshop on - - PowerPoint PPT Presentation

BiographyNet Linking the world of History Workshop on Biographical Linked Data Friday 22 January 2016 Team BiographyNet (h:p://www.biographynet.nl) The beginning


slide-1
SLIDE 1

BiographyNet

Linking ¡the ¡world ¡of ¡History ¡

Workshop ¡on ¡Biographical ¡Linked ¡Data ¡

Friday ¡22 ¡January ¡2016 ¡ Team ¡BiographyNet ¡(h:p://www.biographynet.nl) ¡ ¡

slide-2
SLIDE 2

The ¡beginning ¡

  • 23 ¡biographical ¡resources ¡ ¡
  • ¡Covers ¡± ¡80,000 ¡people ¡in ¡± ¡145,000 ¡biographies ¡
  • ¡Biographical ¡text ¡and ¡various ¡metadata ¡
  • ¡Found ¡at: ¡h:p://www.biografischportaal.nl ¡

¡ ¡ ¡

slide-3
SLIDE 3

Main ¡project ¡theme ¡

What ¡kind ¡of ¡historical ¡ques3ons ¡can ¡ be ¡answered ¡with ¡this ¡data ¡with ¡the ¡ help ¡of ¡computa3onal ¡methods? ¡

¡ ¡

slide-4
SLIDE 4

Interdisciplinary ¡team ¡

¡ ¡ ¡ ¡ ¡ ¡Niels ¡Ockeloen

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Serge ¡ter ¡Braake ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Computer ¡ScienQst ¡ ¡ ¡ ¡Historian ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Antske ¡Fokkens ¡ ¡ ¡ ¡ComputaQonal ¡linguist ¡

slide-5
SLIDE 5

Historian’s ¡quesBons ¡

  • Occurrences ¡of ¡concepts ¡& ¡people ¡

¡

  • Group ¡analyses: ¡
  • educaQonal ¡background ¡
  • age ¡when ¡obtaining ¡funcQon ¡

¡

  • Overall ¡corpus ¡staQsQcs: ¡
  • men ¡versus ¡women ¡
  • Horoscope ¡of ¡people ¡
  • Focus ¡on ¡specific ¡century ¡

5 ¡

slide-6
SLIDE 6

RDF ¡version ¡of ¡the ¡original ¡‘Biografisch ¡Portaal’ ¡data ¡ ¡

  • Schema ¡based ¡on ¡the ¡structure ¡of ¡the ¡original ¡XML ¡files ¡

– Needs ¡to ¡facilitate ¡the ¡coupling ¡of ¡different ¡biographies ¡of ¡the ¡same ¡person, ¡without ¡ compromising ¡the ¡original ¡data ¡ – CompaQble ¡with ¡exisQng ¡schemas ¡such ¡as ¡EDM, ¡PROV, ¡P-­‑PLAN, ¡DC ¡terms, ¡etc. ¡

  • Some ¡numbers ¡about ¡the ¡original ¡data: ¡

– 8,014,356 ¡triples ¡ – 327.869 ¡places ¡(menQons) ¡ – 315,500 ¡events ¡ – 110,648 ¡biographies ¡ – 76,359 ¡persons ¡ – 54.395 ¡dates ¡

  • SPARQL ¡endpoint ¡at: ¡

h:p://data.biographynet.nl ¡

About ¡the ¡Data ¡

slide-7
SLIDE 7

Dutch ¡pipeline ¡

slide-8
SLIDE 8

InterpretaBon ¡

  • Translate ¡NLP ¡output ¡to ¡RDF: ¡

– Simple ¡Event ¡Model ¡ – Grounded ¡AnnotaQon ¡Framework ¡ – BiographyNet ¡schema ¡ ¡

  • Targeted ¡interpretaQon ¡for ¡highly ¡relevant ¡

informaQon: ¡ – Core ¡events ¡ – Family ¡relaQons ¡ – Whose ¡profession? ¡

slide-9
SLIDE 9

SEM+ ¡

sem:eventType sem:timeType sem:actorType sem:placeType sem:sub EventOf

sem:Event sem:Place sem:Time

sem:hasTime sem:has Actor sem:hasPlace

sem:Place Type sem:Event Type sem:Actor Type sem:Time Type sem:Type sem:Core sem:PointOf View

sem:subTypeOf

Core Classes (Foreign) Type System Context

Literal

  • wltime:

inXSDDateTime sem:hasAuthority

sem:Authority

sem:hasTime

ckr:Context

sem:causes sem:hasPointOfView sem:hasTimeValidity

ckr:Module

ckr:hasModule

  • wltime:

Temporal Entity

SEM+

sem:Actor

slide-10
SLIDE 10

GAF ¡(and ¡GRASP) ¡

slide-11
SLIDE 11

Pipeline ¡Output ¡

slide-12
SLIDE 12

InterpretaBon ¡output ¡I ¡

slide-13
SLIDE 13

Output ¡InterpretaBon ¡

slide-14
SLIDE 14

Event ¡example ¡(detail) ¡

slide-15
SLIDE 15

Needed ¡to ¡ensure ¡credibility ¡of ¡the ¡demonstrator, ¡to ¡ ¡ ¡evaluate ¡its ¡performance ¡ and ¡to ¡improve ¡the ¡academic ¡status ¡of ¡the ¡tool ¡

  • From ¡several ¡perspecQves: ¡
  • InformaQon ¡involved ¡

¡à ¡Sources, ¡but ¡also: ¡NER ¡input ¡data, ¡etc. ¡

  • Processes ¡involved

¡ ¡à ¡All ¡steps ¡in ¡enrichment, ¡aggregaQon, ¡etc ¡ ¡

  • People ¡involved

¡ ¡à ¡Who ¡was ¡responsible ¡for ¡pipeline, ¡tool, ¡etc. ¡

  • At ¡mulQple ¡levels: ¡
  • An ¡aggregated ¡level, ¡ ¡

¡à ¡Targeted ¡at ¡the ¡Historian ¡ i.e. ¡per ¡enrichment ¡

  • A ¡detailed ¡level, ¡i.e. ¡all ¡

¡à ¡Targeted ¡at ¡the ¡Computer ¡ScienQst ¡and ¡ ¡ individual ¡processes ¡ ¡à ¡ ¡ ¡computaQonal ¡linguist ¡

  • Including ¡P-­‑PLAN:* ¡To ¡not ¡only ¡model ¡what ¡actually ¡happened, ¡but ¡also ¡what ¡was ¡

supposed ¡to ¡happen ¡

  • Provides ¡abstract ¡informaQon ¡on ¡idea ¡behind ¡acQvity, ¡heurisQcs, ¡assumpQons, ¡etc. ¡
  • Allows ¡for ¡comparing ¡the ¡actual ¡acQvity ¡and ¡its ¡input/output ¡with ¡the ¡original ¡plan ¡and ¡its ¡

variables ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡*Daniel ¡Garijo, ¡Yolanda ¡Gil; ¡h:p://www.opmw.org/model/p-­‑plan ¡

Provenance ¡in ¡BiographyNet ¡

slide-16
SLIDE 16

RDF ¡schema ¡

slide-17
SLIDE 17

EvaluaBon ¡

  • Two ¡fold: ¡

¡ ¡

  • Building ¡blocks ¡

¡

  • Historians ¡quesQons ¡

17 ¡

slide-18
SLIDE 18

Building ¡blocks ¡

  • Text ¡annotaQons: ¡
  • enQQes ¡
  • events ¡
  • Qme ¡expressions ¡
  • target ¡concepts ¡
  • relaQons ¡with ¡target ¡concepts ¡
  • Comparison ¡to ¡metadata: ¡
  • Birth ¡and ¡death ¡date ¡
  • Gender ¡

18 ¡

slide-19
SLIDE 19

Historian’s ¡quesBons ¡

  • Occurrences ¡of ¡concepts ¡& ¡people ¡

¡

  • Group ¡analyses: ¡
  • educaQonal ¡background ¡
  • age ¡when ¡obtaining ¡funcQon ¡

¡

  • Overall ¡corpus ¡staQsQcs: ¡
  • Men ¡versus ¡women ¡
  • Horoscope ¡of ¡people ¡
  • Focus ¡on ¡specific ¡century ¡

19 ¡

slide-20
SLIDE 20

Lessons ¡learned: ¡what ¡worked ¡well ¡

  • Have ¡people ¡from ¡various ¡disciplines ¡share ¡an ¡
  • ffice ¡
  • Constantly ¡share ¡informaQon ¡ ¡

– about ¡what ¡humaniQes ¡scholars ¡want ¡ ¡ and ¡ ¡ – what ¡computer ¡scienQsts ¡can ¡deliver ¡

  • Always ¡keep ¡the ¡intrinsic/extrinsic ¡evaluaQon ¡

in ¡mind: ¡ – the ¡most ¡reliable ¡outcome ¡depends ¡on ¡the ¡ use ¡case ¡

slide-21
SLIDE 21

Lessons ¡learned: ¡what ¡worked ¡well ¡

  • Design ¡your ¡model ¡carefully: ¡

– Make ¡sure ¡historians ¡can ¡access ¡the ¡ informaQon ¡they ¡want ¡ – Make ¡it ¡as ¡compaQble ¡as ¡possible ¡with ¡ exisQng ¡data ¡representaQons ¡ – Provide ¡informaQon ¡about ¡the ¡reliability ¡of ¡ the ¡data ¡where ¡you ¡can: ¡

  • Provenance ¡
  • Confidence ¡scores ¡of ¡tools ¡
slide-22
SLIDE 22

Lessons ¡learned: ¡ ¡ what ¡we ¡would ¡do ¡differently ¡

  • Start ¡developing ¡evaluaQon ¡material ¡ ¡

from ¡day ¡1 ¡

  • Get ¡a ¡full ¡basic ¡system ¡as ¡soon ¡as ¡possible ¡

¡ ¡ if ¡you ¡have ¡a ¡basic ¡system ¡and ¡the ¡means ¡to ¡ evaluate, ¡you ¡know ¡exactly ¡what ¡you ¡should ¡ invest ¡in ¡

slide-23
SLIDE 23

For ¡future ¡projects? ¡

  • Methodological ¡insights: ¡

– Reliability, ¡evaluaQon ¡methods, ¡provenance ¡ modelling ¡

  • The ¡2-­‑step ¡approach: ¡

1) From ¡text ¡to ¡linguisQc ¡analyses ¡ 2) From ¡linguisQc ¡analyses ¡to ¡SEM ¡ ¡

slide-24
SLIDE 24

For ¡future ¡projects? ¡

  • The ¡BiographyNet ¡schema, ¡SEM ¡and ¡GAF: ¡

– Event ¡centric ¡representaQon ¡that ¡is ¡highly ¡ flexible ¡ – The ¡schema ¡explicitly ¡captures ¡provenance ¡ informaQon ¡ – The ¡schema ¡is ¡compaQble ¡with ¡the ¡ Europeana ¡data ¡model ¡

slide-25
SLIDE 25

For ¡future ¡projects? ¡

  • The ¡NLP ¡tools: ¡

– Similar ¡pipelines ¡for ¡linguisQc ¡analyses ¡exist ¡for ¡ English, ¡Italian ¡and ¡Spanish ¡ – The ¡interpretaQon ¡sopware ¡is ¡only ¡parQally ¡ language ¡specific ¡

  • D2D ¡and ¡the ¡demonstrator ¡are ¡language ¡

independent: ¡ ¡ – D2D ¡can ¡handle ¡anything ¡represented ¡in ¡RDF ¡ – The ¡demonstrator ¡will ¡be ¡able ¡to ¡handle ¡anything ¡ that ¡uses ¡the ¡BN ¡schema, ¡SEM ¡and ¡GAF ¡

slide-26
SLIDE 26

The ¡Future ¡

  • European ¡project: ¡extending ¡to ¡various ¡data ¡

bases ¡in ¡different ¡languages ¡ ¡

  • Common ¡data ¡structures ¡for ¡Biographical ¡Data: ¡
  • Workshop ¡on ¡Digital ¡HumaniQes ¡2016? ¡
slide-27
SLIDE 27
slide-28
SLIDE 28
slide-29
SLIDE 29

Thank ¡you! ¡

Please ¡visit: ¡h:p://www.biographynet.nl ¡ ¡ ¡ ¡ And ¡let ¡us ¡know ¡if ¡we ¡can ¡help ¡with ¡anything! ¡

slide-30
SLIDE 30

Text ¡InterpretaBon: ¡Step ¡2 ¡

slide-31
SLIDE 31

Text ¡InterpretaBon: ¡step ¡1 ¡ ¡

slide-32
SLIDE 32

Text ¡interpretaBon ¡(example) ¡

slide-33
SLIDE 33

Text ¡interpretaBon ¡(example) ¡

slide-34
SLIDE 34

Text ¡interpretaBon ¡(example) ¡

slide-35
SLIDE 35

InterpretaBon: ¡beyond ¡events ¡

35 ¡

slide-36
SLIDE 36

Methods ¡and ¡Challenges ¡

  • Domain ¡adaptaQon: ¡

¡

– Domain ¡specific ¡meaning: ¡ ¡promoveren ¡ ¡ typical ¡biographical ¡meaning: ¡`gesng ¡a ¡PhD’ ¡ idenQfied ¡meaning ¡includes: ¡`change ¡posiQon ¡on ¡a ¡scale’ ¡ ¡ – HeidelTime: ¡developed ¡for ¡the ¡Biographical ¡dic3onary ¡of ¡ Socialism ¡and ¡Workers ¡(BWSA) ¡ ¡

  • BWSA ¡(late ¡20th ¡century): ¡90.4% ¡recall, ¡98.1% ¡precision ¡
  • BWG ¡(late ¡20th ¡century): ¡83% ¡recall, ¡76,5% ¡precision ¡
  • VDAA ¡(late ¡19th ¡century): ¡69.7% ¡recall, ¡77.6% ¡precision ¡
slide-37
SLIDE 37

Approaches ¡

  • Targeted ¡idenQficaQon: ¡
  • Concepts ¡and ¡events ¡related ¡to ¡career ¡
  • Pa:ern ¡idenQficaQon: ¡
  • DicQonary ¡specific ¡pa:erns ¡
  • Common ¡structures ¡

¡

  • Tool ¡adaptaQon ¡(most ¡relevant) ¡
  • Corpus ¡specific ¡abbreviaQons ¡
  • Temporal ¡expression ¡variaQons ¡

37 ¡

slide-38
SLIDE 38

D2d ¡EvaluaBon ¡result ¡details ¡

This ¡table ¡shows ¡an ¡aggregaQon ¡of ¡the ¡answers ¡of ¡the ¡parQcipants ¡of ¡the ¡two ¡experiments ¡ (E1 ¡and ¡E2) ¡about ¡the ¡degree ¡to ¡which ¡they ¡agree ¡with ¡the ¡given ¡statements ¡about ¡the ¡ usability ¡and ¡usefulness ¡of ¡d2d. ¡The ¡range ¡was ¡from ¡strongly ¡agree ¡(1) ¡to ¡strongly ¡disagree ¡ (5). ¡StaQsQcally ¡significant ¡p-­‑values ¡are ¡marked ¡with ¡*. ¡