Evalua&ng Mul&lingual Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation

evalua ng mul lingual
SMART_READER_LITE
LIVE PREVIEW

Evalua&ng Mul&lingual Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation

Juliane S$ller, Evalua&ng Mul&lingual Humboldt-Universitt zu Berlin Mul$lingualWeb Workshop, Features in Europeana Riga, 29.04.2015 Deriving best


slide-1
SLIDE 1

Evalua&ng ¡Mul&lingual ¡ Features ¡in ¡Europeana ¡

Deriving ¡best ¡prac/ces ¡for ¡digital ¡cultural ¡ heritage ¡

Mul$lingualWeb ¡Workshop, ¡ ¡ Riga, ¡29.04.2015 ¡ Juliane ¡S$ller, ¡ ¡ Humboldt-­‑Universität ¡zu ¡Berlin ¡

slide-2
SLIDE 2

42 ¡milions ¡

  • bjects ¡ ¡

Mul$lingual ¡ users, ¡objects, ¡ metadata ¡

Europeana ¡facts ¡

Text, ¡ images, ¡ video ¡ sound ¡ 2300 ¡ ins$tu$ons ¡

slide-3
SLIDE 3

Accessing ¡digital ¡cultural ¡heritage ¡

Metadata ¡ Access ¡System ¡ User ¡Query ¡ User ¡Interface ¡

slide-4
SLIDE 4

Crossing ¡the ¡language ¡barrier ¡

Mul$lingual ¡Enrichments ¡ 1

Metadata ¡ Access ¡System ¡ User ¡Query ¡ User ¡Interface ¡

slide-5
SLIDE 5
  • 1. ¡Mul$lingual ¡enrichments ¡
slide-6
SLIDE 6

Number ¡of ¡enriched ¡objects, ¡their ¡type ¡and ¡ vocabularies ¡

GeoNames ¡

7 ¡Millions ¡

GEMET, ¡DBpedia ¡

9.2 ¡Millions ¡

Semium ¡Time ¡

10.2 ¡Millions ¡

DBpedia ¡

144,000 ¡

Time ¡ Concept ¡

Loca&ons ¡

Agents ¡

slide-7
SLIDE 7

What ¡happens ¡if ¡automa$c ¡solu$ons ¡fail? ¡

Devalua$on ¡of ¡curated ¡metadata ¡ Loss ¡of ¡trust ¡from ¡providers, ¡users ¡& ¡

service ¡re-­‑users ¡

Irrelevant ¡search ¡results ¡

We ¡need ¡to ¡evaluate ¡features ¡to ¡derive ¡ best ¡prac$ces ¡and ¡improve ¡services! ¡

slide-8
SLIDE 8

Semantically incorrect enrichment

Polen ¡(Dutch) ¡ ¡ ¡ ¡ ¡ ¡ ¡Polen ¡(Basque) ¡

slide-9
SLIDE 9

Evalua$on ¡method ¡– ¡enrichments ¡

Query Object Enrich- ment

  • 100 ¡queries ¡
  • 1,121 ¡records ¡
  • First ¡result ¡page ¡
slide-10
SLIDE 10

Source: ¡S$ller, ¡J., ¡Olensky, ¡M., ¡Petras, ¡V.: ¡ A ¡Framework ¡for ¡the ¡Evalua$on ¡of ¡Automa$c ¡Metadata ¡Enrichments. ¡MTSR ¡2014

z ¡

78% 100% 92% 22% 8%

Correct ¡and ¡incorrect ¡enrichments ¡per ¡type ¡

slide-11
SLIDE 11

Percentage ¡of ¡incorrect ¡enrichments ¡

correct ¡ incorrect ¡ 22% ¡ 78% ¡

Source: ¡S$ller, ¡J., ¡Olensky, ¡M., ¡Petras, ¡V.: ¡ A ¡Framework ¡for ¡the ¡Evalua$on ¡of ¡Automa$c ¡Metadata ¡Enrichments. ¡MTSR ¡2014 ¡ ¡

Example: ¡ ¡ ¡ ¡ Concept-­‑Type ¡

slide-12
SLIDE 12

Impact ¡of ¡enrichments ¡on ¡retrieval ¡

correct ¡ incorrect ¡ impact ¡ poten$al ¡impact ¡ no ¡impact ¡ 7% ¡ 2% ¡ 15% ¡ 61% ¡ 15% ¡

Source: ¡S$ller, ¡J., ¡Olensky, ¡M., ¡Petras, ¡V.: ¡ A ¡Framework ¡for ¡the ¡Evalua$on ¡of ¡Automa$c ¡Metadata ¡Enrichments. ¡MTSR ¡2014 ¡ ¡

slide-13
SLIDE 13

Method ¡provided: ¡

  • Holis$c ¡view ¡on ¡the ¡quality ¡and ¡impact ¡of ¡enrichments ¡
  • Query-­‑dependent ¡measures ¡may ¡deliver ¡different ¡results ¡
  • Measures ¡are ¡system-­‑focused ¡and ¡independent ¡of ¡the ¡

user’s ¡point ¡of ¡view ¡

  • Focus ¡on ¡first ¡result ¡page ¡-­‑> ¡it ¡might ¡be ¡different ¡for ¡long ¡

tail ¡ ¡

Task ¡force ¡on ¡enrichment ¡and ¡evalua$on: ¡

h6p://pro.europeana.eu/europeanatech-­‑task-­‑forces/ evalua/on-­‑and-­‑enrichments ¡

¡

slide-14
SLIDE 14

Crossing ¡the ¡language ¡barrier ¡

Query ¡transla$on ¡ 2

Metadata ¡ Access ¡System ¡ User ¡Query ¡ User ¡Interface ¡

slide-15
SLIDE 15

User ¡preferences ¡ Wikipedia ¡API ¡ Query ¡ construc$on ¡

The ¡detailed ¡and ¡long ¡version ¡of ¡the ¡process ¡is ¡in ¡Péter ¡Király: ¡Query ¡Transla$on ¡in ¡

  • Europeana. ¡Code4lib, ¡Issue ¡27, ¡hpp://journal.code4lib.org/ar$cles/10285 ¡

Mixed ¡language ¡ result ¡list ¡

  • 2. ¡Query ¡transla$on ¡
slide-16
SLIDE 16

Evalua$on ¡method ¡– ¡query ¡transla$on ¡

Manually ¡ Translated ¡baseline ¡ Automa$c ¡ transla$on ¡

250 ¡aligned ¡queries ¡in ¡3 ¡languages ¡

¡

API ¡ API ¡ API ¡

Baseline From ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡to ¡ From ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡to From ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡to Stummfilm ¡

  • ­‑

Stummfilm Stummfilm Silent ¡film ¡ Silent ¡film

  • ­‑

Silent ¡film film ¡muet ¡ ¡ ¡ ¡ ¡ ¡ cinéma ¡muet cinéma ¡muet

  • ­‑

Example ¡

slide-17
SLIDE 17

51% ¡

correct ¡

30% ¡

No ¡transla$on ¡

19% ¡

Incorrect ¡

For ¡over ¡80% ¡of ¡the ¡queries, ¡ the ¡automa$c ¡solu$on ¡is ¡

suitable ¡

Query ¡ Transla&on ¡ Unarmed ¡ unarmed ¡– ¡Best ¡of ¡ 25th ¡Anniversary ¡ Bulgaria ¡ Bulgarien ¡ (Begriffserklärung) ¡

Results ¡

slide-18
SLIDE 18

Evalua$ons ¡help ¡

  • revealing ¡workflow ¡problems ¡and ¡issues ¡
  • Giving ¡insight ¡on ¡the ¡real ¡impact ¡of ¡automa$c ¡solu$ons ¡
  • Targe$ng ¡efforts ¡and ¡adapt ¡algorithms ¡
  • Deriving ¡best ¡prac$ces ¡

Best ¡prac$ces ¡

  • Should ¡also ¡incorporate ¡evalua$on ¡methodologies ¡
slide-19
SLIDE 19

Email: ¡juliane.s$ller@ibi.hu-­‑berlin.de ¡ Acknowledgements: ¡All ¡icons ¡designed ¡by ¡freepik ¡