Chronicles in Preserva2on Preserving Digital News & - - PowerPoint PPT Presentation

chronicles in preserva2on preserving digital news
SMART_READER_LITE
LIVE PREVIEW

Chronicles in Preserva2on Preserving Digital News & - - PowerPoint PPT Presentation

Chronicles in Preserva2on Preserving Digital News & Newspapers IFLA 2013, Singapore 1/19 Chronicles in Preserva2on About: NEH grant-funded Content


slide-1
SLIDE 1

1/19 ¡

Chronicles ¡in ¡Preserva2on ¡ Preserving ¡Digital ¡News ¡& ¡Newspapers ¡

IFLA ¡2013, ¡Singapore ¡

slide-2
SLIDE 2

2/19 ¡

Chronicles ¡in ¡Preserva2on ¡

  • Content ¡Partners ¡

– Boston ¡College ¡ – Clemson ¡University ¡ – Georgia ¡Tech ¡ – Penn ¡State ¡ – University ¡of ¡North ¡Texas ¡ – University ¡of ¡Utah ¡ – Virginia ¡Tech ¡

  • DDP ¡Partners ¡

– Chronopolis ¡ – University ¡of ¡North ¡Texas ¡ – MetaArchive ¡

  • About: ¡NEH ¡grant-­‑funded ¡

study ¡(2011-­‑2014) ¡

  • Objec2ve: ¡To ¡study, ¡

document, ¡and ¡model ¡data ¡ prepara2on ¡and ¡distributed ¡ digital ¡preserva2on ¡(DDP) ¡ for ¡digital ¡newspaper ¡ collec2ons ¡

  • www.metaarchive.org/neh ¡ ¡
slide-3
SLIDE 3

3/19 ¡

Why ¡Digital ¡Newspapers? ¡

  • At-­‑risk ¡and ¡valuable ¡scholarly ¡content ¡genre ¡
  • Success ¡of ¡the ¡United ¡States ¡Newspaper ¡Program ¡(USNP) ¡

& ¡Na2onal ¡Digital ¡Newspaper ¡Program ¡(NDNP) ¡– ¡ cataloging, ¡digi2zing, ¡archiving ¡& ¡providing ¡access ¡to ¡ public ¡domain ¡newspapers ¡

  • Success ¡of ¡research ¡carried ¡out ¡by ¡Center ¡for ¡Research ¡

Libraries ¡(CRL) ¡in ¡the ¡U.S. ¡

  • Digi2zed ¡and ¡born-­‑digital ¡newspaper ¡collec2ons ¡have ¡

been ¡created ¡with ¡a ¡variety ¡of ¡

– standards ¡ – metadata ¡ – data ¡models ¡ – technologies ¡

slide-4
SLIDE 4

4/19 ¡

Research ¡Ques2ons ¡

  • What ¡is ¡the ¡spectrum ¡of ¡preserva2on ¡

readiness ¡from ¡essen2al ¡to ¡op2mal? ¡

  • How ¡do ¡curators ¡exchange ¡digital ¡

newspapers ¡in ¡distributed ¡ways ¡for ¡ preserva2on? ¡

  • What ¡are ¡the ¡strengths ¡and ¡challenges ¡of ¡

performing ¡distributed ¡digital ¡preserva2on ¡ for ¡digital ¡newspapers? ¡

slide-5
SLIDE 5

5/19 ¡

Deliverables ¡

  • Guidelines ¡for ¡Digital ¡Newspaper ¡Preserva6on ¡

Readiness ¡– ¡Recommenda2ons ¡for ¡essen2al ¡and ¡

  • p2mal ¡ac2on ¡for ¡cura2ng ¡collec2ons ¡
  • Compara6ve ¡Analysis ¡of ¡DDP ¡Frameworks ¡– ¡

Analysis ¡based ¡on ¡ingests ¡from ¡the ¡Content ¡ Partners ¡into ¡the ¡3 ¡DDP ¡systems. ¡

  • Interoperability ¡Tools ¡-­‑ ¡Documenta2on ¡of ¡tools ¡

to ¡improve ¡cura2on ¡of ¡exis2ng ¡collec2ons. ¡

slide-6
SLIDE 6

6/19 ¡

Guidelines: ¡Overview ¡

  • Present ¡essen%al ¡and ¡op%mal ¡ac2ons ¡

– Essen2al ¡– ¡The ¡minimum ¡to ¡be ¡considered ¡preserva2on, ¡ requires ¡limited ¡resources ¡ – Op2mal ¡– ¡Best ¡preserva2on ¡for ¡objects, ¡requires ¡more ¡ resources ¡

  • Based ¡on: ¡

– Interviews ¡with ¡publishers, ¡libraries, ¡and ¡vendors ¡ – Project ¡experiences ¡ – Standards ¡(e.g. ¡METS, ¡NDNP, ¡OAIS) ¡ – Community ¡feedback ¡

  • Drad ¡is ¡available ¡for ¡public ¡review ¡
slide-7
SLIDE 7

7/19 ¡

Guidelines: ¡Modules ¡

  • Inventorying ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡

– How ¡to ¡record ¡what ¡content ¡an ¡organiza2on ¡has ¡and ¡how ¡it ¡is ¡stored ¡

  • Format ¡Management ¡for ¡Digital ¡Newspapers ¡

– How ¡to ¡iden2fy, ¡validate, ¡and ¡migrate ¡formats ¡

  • Metadata ¡Packaging ¡for ¡Digital ¡Newspapers ¡

– How ¡to ¡choose ¡metadata ¡formats, ¡export ¡metadata ¡from ¡repositories, ¡and ¡ manage ¡the ¡storage ¡of ¡metadata ¡

  • Checksum ¡Management ¡for ¡Digital ¡Newspapers ¡

– How ¡to ¡generate ¡and ¡monitor ¡fixity ¡informa2on ¡

  • Organizing ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡

– How ¡to ¡structure ¡folder ¡hierarchies ¡and ¡names ¡

  • Packaging ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡

– How ¡to ¡organize ¡a ¡collec2on ¡for ¡ingest ¡into ¡a ¡digital ¡preserva2on ¡system ¡ ¡

slide-8
SLIDE 8

8/19 ¡

Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡

  • A ¡single ¡collec2on ¡might ¡have ¡had ¡mul2ple ¡

curators, ¡acquisi2on ¡strategies, ¡storage ¡loca2ons, ¡ and ¡file ¡formats. ¡

  • Inventories ¡are ¡essen2al ¡to ¡record ¡this ¡

informa2on, ¡to ¡understand ¡the ¡collec2on, ¡and ¡ then ¡to ¡plan ¡preserva2on ¡ac2on. ¡

slide-9
SLIDE 9

9/19 ¡

Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡

  • Essen2al ¡

– Tools: ¡File ¡manager ¡such ¡as ¡Windows ¡Explorer ¡or ¡Finder ¡ for ¡Mac ¡ – Informa2on: ¡ ¡

  • Newspaper ¡2tles ¡
  • Number ¡of ¡files ¡
  • File ¡loca2ons ¡
  • File ¡names ¡
  • Inventory ¡crea2on ¡date ¡

– Container: ¡Human-­‑readable ¡formats ¡such ¡as ¡a ¡document ¡

  • r ¡spreadsheet ¡
slide-10
SLIDE 10

10/19 ¡

Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡

  • Op2mal ¡

– Tools: ¡File ¡manager ¡and ¡automated ¡tools ¡such ¡as ¡ BagIt, ¡PRONOM, ¡or ¡JHOVE ¡ – Informa2on: ¡Essen2al ¡informa2on ¡and ¡file ¡formats, ¡ required ¡applica2on, ¡checksums, ¡and ¡object ¡ iden2fiers ¡ – Container: ¡Machine-­‑readable ¡formats ¡such ¡as ¡a ¡ spreadsheet ¡or ¡database ¡

slide-11
SLIDE 11

11/19 ¡

Guidelines: ¡Public ¡Review ¡

  • hip://publishing.educopia.org/chronicles ¡
  • We ¡welcome ¡comments ¡and ¡cri2que ¡from ¡the ¡

community ¡to ¡improve ¡the ¡Guidelines. ¡

slide-12
SLIDE 12

12/19 ¡

Compara2ve ¡Analysis: ¡Overview ¡

  • Three ¡Distributed ¡Digital ¡Preserva2on ¡(DDP) ¡

systems ¡with ¡3 ¡different ¡infrastructures ¡

– MetaArchive ¡– ¡LOCKSS ¡ – Chronopolis ¡– ¡iRODS ¡ – UNT ¡Coda ¡– ¡microservices ¡

  • Each ¡library ¡partner ¡staged ¡collec2ons ¡for ¡DDP ¡

systems ¡to ¡document ¡and ¡analyze ¡workflows ¡ with ¡this ¡type ¡of ¡content. ¡

slide-13
SLIDE 13

13/19 ¡

Tools: ¡Guiding ¡Principles ¡

  • Don’t ¡Reinvent ¡the ¡Wheel ¡
  • Use ¡What ¡Is ¡Already ¡Working ¡
  • Improve ¡It ¡
slide-14
SLIDE 14

14/19 ¡

Tools: ¡BagIt ¡

  • Digital ¡newspapers ¡have ¡a ¡

range ¡of ¡legacy ¡collec2on ¡ structures ¡& ¡conven2ons ¡

  • BagIt ¡is ¡a ¡file ¡packaging ¡format ¡

for ¡storing ¡and ¡transferring ¡

  • data. ¡The ¡data ¡model ¡includes: ¡

– A ¡data ¡directory ¡ – A ¡manifest ¡inventory ¡of ¡the ¡bag ¡ with ¡checksums ¡for ¡all ¡objects ¡ within ¡ – Metadata ¡about ¡the ¡bag ¡

  • BagIt ¡is ¡an ¡IETF ¡Internet ¡Drad ¡

– hip://tools.ien.org/html/drad-­‑ kunze-­‑bagit-­‑09 ¡

  • Bagger ¡

– Java-­‑based ¡BagIt ¡tool ¡w/ ¡GUI ¡ – Released ¡2012 ¡ – Maintained ¡by ¡Library ¡of ¡ Congress ¡ – hip://sourceforge.net/ projects/loc-­‑xferu2ls/files/loc-­‑ bagger/ ¡ ¡

  • bagit.py ¡

– Python-­‑based ¡BagIt ¡tool ¡ – Released ¡in ¡2010 ¡ – Maintained ¡by ¡Ed ¡Summers ¡at ¡ the ¡Library ¡of ¡Congress ¡ – hips://github.com/edsu/bagit ¡

slide-15
SLIDE 15

15/19 ¡

Tools: ¡Exchanging ¡Collec2ons ¡

  • BagIt ¡made ¡it ¡easy ¡to ¡group ¡diverse ¡collec2on ¡

data ¡and ¡package ¡it ¡with ¡preserva2on ¡value ¡

  • Each ¡project ¡partner ¡bagged ¡and ¡sent ¡30-­‑300GB ¡
  • f ¡data ¡according ¡to ¡BagIt ¡usage ¡instruc2ons ¡

(made ¡available ¡in ¡the ¡project). ¡

– GUI ¡was ¡key ¡

  • Partners ¡preferred ¡Bagger ¡over ¡bagit.py ¡

– Large ¡bags ¡require ¡dedicated ¡resources ¡

  • Partners ¡staging ¡data ¡on ¡staff ¡worksta2ons ¡ran ¡the ¡u2lity ¡
  • vernight ¡in ¡order ¡to ¡avoid ¡interrup2ons ¡ ¡

– Bags ¡require ¡cura2on ¡

  • BagIt ¡u2li2es ¡grab ¡system ¡files ¡like ¡.DS_store ¡thumbs.db ¡
slide-16
SLIDE 16

16/19 ¡

Compara2ve ¡Analysis: ¡MetaArchive ¡ BagIt ¡+ ¡Custom ¡Scripts ¡to ¡Split ¡and ¡Rebuild ¡

BagIt ¡u2lity ¡+ ¡scripts ¡ creates ¡subsets ¡of ¡the ¡

  • riginal ¡bag ¡and ¡an ¡

addi2onal ¡bag ¡ containing ¡manifest ¡ and ¡metadata ¡from ¡ the ¡original ¡bag ¡ On ¡export, ¡the ¡ content ¡partner ¡ receives ¡the ¡same ¡ bag ¡they ¡

  • contributed. ¡

MetaArchive ¡

slide-17
SLIDE 17

17/19 ¡

Tools: ¡Preserva2on ¡Metadata ¡for ¡Objects ¡

  • DAITSS ¡Format ¡

Descrip2on ¡Service ¡

– Web ¡app ¡that ¡links ¡ DROID ¡and ¡JHOVE ¡to ¡ create ¡PREMIS ¡ – Released ¡in ¡2009 ¡ ¡ – hips://github.com/ daitss/describe ¡

  • UNT ¡PREMIS ¡Event ¡

Service ¡

– Web ¡service ¡to ¡detect ¡ and ¡log ¡object ¡events ¡in ¡ an ¡associated ¡PREMIS ¡

  • file. ¡

– Available ¡in ¡2014 ¡

  • Preserva2on ¡metadata ¡standards ¡and ¡specifica2ons ¡(METS/

PREMIS) ¡can ¡be ¡costly ¡to ¡implement ¡ ¡

  • Curators ¡need ¡lightweight ¡and ¡bulk ¡applica2ons ¡to ¡create ¡and ¡

manage ¡preserva2on ¡metadata ¡

slide-18
SLIDE 18

18/19 ¡

Contacts ¡& ¡Links ¡

  • Mai ¡Schultz ¡(Program ¡Manager, ¡MetaArchive) ¡

¡ ¡ ¡mai.schultz@metaarchive.org ¡

  • Nick ¡Krabbenhoed ¡(Project ¡Manager, ¡Educopia) ¡

¡nick@metaarchive.org ¡ ¡

  • Guidelines: ¡hip://publishing.educopia.org/chronicles ¡
  • Project ¡URL: ¡www.metaarchive.org/neh ¡ ¡
  • BagIt: ¡hip://sourceforge.net/projects/loc-­‑xferu2ls/ ¡ ¡
  • Descrip2on ¡Service: ¡hip://descrip2on.fcla.edu/ ¡
slide-19
SLIDE 19

19/19 ¡

Aligning ¡Na2onal ¡Approaches ¡to ¡Digital ¡ Preserva2on ¡II ¡

When: ¡November ¡18-­‑20, ¡2013 ¡ Where: ¡Biblioteca ¡de ¡Catalunya ¡(Na2onal ¡Library ¡of ¡ Catalonia), ¡Barcelona, ¡Spain ¡ The ¡Aligning ¡Na2onal ¡Approaches ¡to ¡Digital ¡ Preserva2on ¡(ANADP) ¡II ¡Ac2on ¡Assembly ¡will ¡align ¡ digital ¡preserva2on ¡efforts ¡interna2onally ¡between ¡ communi2es—including ¡na2onal ¡libraries, ¡academic ¡ libraries, ¡public ¡libraries, ¡research ¡centers, ¡archives, ¡ corpora2ons, ¡and ¡funding ¡agencies. ¡ More ¡Info: ¡hip://www.educopia.org/events/ANADPII ¡ ¡