1/19 ¡
Chronicles in Preserva2on Preserving Digital News & - - PowerPoint PPT Presentation
Chronicles in Preserva2on Preserving Digital News & - - PowerPoint PPT Presentation
Chronicles in Preserva2on Preserving Digital News & Newspapers IFLA 2013, Singapore 1/19 Chronicles in Preserva2on About: NEH grant-funded Content
2/19 ¡
Chronicles ¡in ¡Preserva2on ¡
- Content ¡Partners ¡
– Boston ¡College ¡ – Clemson ¡University ¡ – Georgia ¡Tech ¡ – Penn ¡State ¡ – University ¡of ¡North ¡Texas ¡ – University ¡of ¡Utah ¡ – Virginia ¡Tech ¡
- DDP ¡Partners ¡
– Chronopolis ¡ – University ¡of ¡North ¡Texas ¡ – MetaArchive ¡
- About: ¡NEH ¡grant-‑funded ¡
study ¡(2011-‑2014) ¡
- Objec2ve: ¡To ¡study, ¡
document, ¡and ¡model ¡data ¡ prepara2on ¡and ¡distributed ¡ digital ¡preserva2on ¡(DDP) ¡ for ¡digital ¡newspaper ¡ collec2ons ¡
- www.metaarchive.org/neh ¡ ¡
3/19 ¡
Why ¡Digital ¡Newspapers? ¡
- At-‑risk ¡and ¡valuable ¡scholarly ¡content ¡genre ¡
- Success ¡of ¡the ¡United ¡States ¡Newspaper ¡Program ¡(USNP) ¡
& ¡Na2onal ¡Digital ¡Newspaper ¡Program ¡(NDNP) ¡– ¡ cataloging, ¡digi2zing, ¡archiving ¡& ¡providing ¡access ¡to ¡ public ¡domain ¡newspapers ¡
- Success ¡of ¡research ¡carried ¡out ¡by ¡Center ¡for ¡Research ¡
Libraries ¡(CRL) ¡in ¡the ¡U.S. ¡
- Digi2zed ¡and ¡born-‑digital ¡newspaper ¡collec2ons ¡have ¡
been ¡created ¡with ¡a ¡variety ¡of ¡
– standards ¡ – metadata ¡ – data ¡models ¡ – technologies ¡
4/19 ¡
Research ¡Ques2ons ¡
- What ¡is ¡the ¡spectrum ¡of ¡preserva2on ¡
readiness ¡from ¡essen2al ¡to ¡op2mal? ¡
- How ¡do ¡curators ¡exchange ¡digital ¡
newspapers ¡in ¡distributed ¡ways ¡for ¡ preserva2on? ¡
- What ¡are ¡the ¡strengths ¡and ¡challenges ¡of ¡
performing ¡distributed ¡digital ¡preserva2on ¡ for ¡digital ¡newspapers? ¡
5/19 ¡
Deliverables ¡
- Guidelines ¡for ¡Digital ¡Newspaper ¡Preserva6on ¡
Readiness ¡– ¡Recommenda2ons ¡for ¡essen2al ¡and ¡
- p2mal ¡ac2on ¡for ¡cura2ng ¡collec2ons ¡
- Compara6ve ¡Analysis ¡of ¡DDP ¡Frameworks ¡– ¡
Analysis ¡based ¡on ¡ingests ¡from ¡the ¡Content ¡ Partners ¡into ¡the ¡3 ¡DDP ¡systems. ¡
- Interoperability ¡Tools ¡-‑ ¡Documenta2on ¡of ¡tools ¡
to ¡improve ¡cura2on ¡of ¡exis2ng ¡collec2ons. ¡
6/19 ¡
Guidelines: ¡Overview ¡
- Present ¡essen%al ¡and ¡op%mal ¡ac2ons ¡
– Essen2al ¡– ¡The ¡minimum ¡to ¡be ¡considered ¡preserva2on, ¡ requires ¡limited ¡resources ¡ – Op2mal ¡– ¡Best ¡preserva2on ¡for ¡objects, ¡requires ¡more ¡ resources ¡
- Based ¡on: ¡
– Interviews ¡with ¡publishers, ¡libraries, ¡and ¡vendors ¡ – Project ¡experiences ¡ – Standards ¡(e.g. ¡METS, ¡NDNP, ¡OAIS) ¡ – Community ¡feedback ¡
- Drad ¡is ¡available ¡for ¡public ¡review ¡
7/19 ¡
Guidelines: ¡Modules ¡
- Inventorying ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡
– How ¡to ¡record ¡what ¡content ¡an ¡organiza2on ¡has ¡and ¡how ¡it ¡is ¡stored ¡
- Format ¡Management ¡for ¡Digital ¡Newspapers ¡
– How ¡to ¡iden2fy, ¡validate, ¡and ¡migrate ¡formats ¡
- Metadata ¡Packaging ¡for ¡Digital ¡Newspapers ¡
– How ¡to ¡choose ¡metadata ¡formats, ¡export ¡metadata ¡from ¡repositories, ¡and ¡ manage ¡the ¡storage ¡of ¡metadata ¡
- Checksum ¡Management ¡for ¡Digital ¡Newspapers ¡
– How ¡to ¡generate ¡and ¡monitor ¡fixity ¡informa2on ¡
- Organizing ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡
– How ¡to ¡structure ¡folder ¡hierarchies ¡and ¡names ¡
- Packaging ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡
– How ¡to ¡organize ¡a ¡collec2on ¡for ¡ingest ¡into ¡a ¡digital ¡preserva2on ¡system ¡ ¡
8/19 ¡
Guidelines: ¡Sample ¡Module ¡-‑ ¡Inventorying ¡
- A ¡single ¡collec2on ¡might ¡have ¡had ¡mul2ple ¡
curators, ¡acquisi2on ¡strategies, ¡storage ¡loca2ons, ¡ and ¡file ¡formats. ¡
- Inventories ¡are ¡essen2al ¡to ¡record ¡this ¡
informa2on, ¡to ¡understand ¡the ¡collec2on, ¡and ¡ then ¡to ¡plan ¡preserva2on ¡ac2on. ¡
9/19 ¡
Guidelines: ¡Sample ¡Module ¡-‑ ¡Inventorying ¡
- Essen2al ¡
– Tools: ¡File ¡manager ¡such ¡as ¡Windows ¡Explorer ¡or ¡Finder ¡ for ¡Mac ¡ – Informa2on: ¡ ¡
- Newspaper ¡2tles ¡
- Number ¡of ¡files ¡
- File ¡loca2ons ¡
- File ¡names ¡
- Inventory ¡crea2on ¡date ¡
– Container: ¡Human-‑readable ¡formats ¡such ¡as ¡a ¡document ¡
- r ¡spreadsheet ¡
10/19 ¡
Guidelines: ¡Sample ¡Module ¡-‑ ¡Inventorying ¡
- Op2mal ¡
– Tools: ¡File ¡manager ¡and ¡automated ¡tools ¡such ¡as ¡ BagIt, ¡PRONOM, ¡or ¡JHOVE ¡ – Informa2on: ¡Essen2al ¡informa2on ¡and ¡file ¡formats, ¡ required ¡applica2on, ¡checksums, ¡and ¡object ¡ iden2fiers ¡ – Container: ¡Machine-‑readable ¡formats ¡such ¡as ¡a ¡ spreadsheet ¡or ¡database ¡
11/19 ¡
Guidelines: ¡Public ¡Review ¡
- hip://publishing.educopia.org/chronicles ¡
- We ¡welcome ¡comments ¡and ¡cri2que ¡from ¡the ¡
community ¡to ¡improve ¡the ¡Guidelines. ¡
12/19 ¡
Compara2ve ¡Analysis: ¡Overview ¡
- Three ¡Distributed ¡Digital ¡Preserva2on ¡(DDP) ¡
systems ¡with ¡3 ¡different ¡infrastructures ¡
– MetaArchive ¡– ¡LOCKSS ¡ – Chronopolis ¡– ¡iRODS ¡ – UNT ¡Coda ¡– ¡microservices ¡
- Each ¡library ¡partner ¡staged ¡collec2ons ¡for ¡DDP ¡
systems ¡to ¡document ¡and ¡analyze ¡workflows ¡ with ¡this ¡type ¡of ¡content. ¡
13/19 ¡
Tools: ¡Guiding ¡Principles ¡
- Don’t ¡Reinvent ¡the ¡Wheel ¡
- Use ¡What ¡Is ¡Already ¡Working ¡
- Improve ¡It ¡
14/19 ¡
Tools: ¡BagIt ¡
- Digital ¡newspapers ¡have ¡a ¡
range ¡of ¡legacy ¡collec2on ¡ structures ¡& ¡conven2ons ¡
- BagIt ¡is ¡a ¡file ¡packaging ¡format ¡
for ¡storing ¡and ¡transferring ¡
- data. ¡The ¡data ¡model ¡includes: ¡
– A ¡data ¡directory ¡ – A ¡manifest ¡inventory ¡of ¡the ¡bag ¡ with ¡checksums ¡for ¡all ¡objects ¡ within ¡ – Metadata ¡about ¡the ¡bag ¡
- BagIt ¡is ¡an ¡IETF ¡Internet ¡Drad ¡
– hip://tools.ien.org/html/drad-‑ kunze-‑bagit-‑09 ¡
- Bagger ¡
– Java-‑based ¡BagIt ¡tool ¡w/ ¡GUI ¡ – Released ¡2012 ¡ – Maintained ¡by ¡Library ¡of ¡ Congress ¡ – hip://sourceforge.net/ projects/loc-‑xferu2ls/files/loc-‑ bagger/ ¡ ¡
- bagit.py ¡
– Python-‑based ¡BagIt ¡tool ¡ – Released ¡in ¡2010 ¡ – Maintained ¡by ¡Ed ¡Summers ¡at ¡ the ¡Library ¡of ¡Congress ¡ – hips://github.com/edsu/bagit ¡
15/19 ¡
Tools: ¡Exchanging ¡Collec2ons ¡
- BagIt ¡made ¡it ¡easy ¡to ¡group ¡diverse ¡collec2on ¡
data ¡and ¡package ¡it ¡with ¡preserva2on ¡value ¡
- Each ¡project ¡partner ¡bagged ¡and ¡sent ¡30-‑300GB ¡
- f ¡data ¡according ¡to ¡BagIt ¡usage ¡instruc2ons ¡
(made ¡available ¡in ¡the ¡project). ¡
– GUI ¡was ¡key ¡
- Partners ¡preferred ¡Bagger ¡over ¡bagit.py ¡
– Large ¡bags ¡require ¡dedicated ¡resources ¡
- Partners ¡staging ¡data ¡on ¡staff ¡worksta2ons ¡ran ¡the ¡u2lity ¡
- vernight ¡in ¡order ¡to ¡avoid ¡interrup2ons ¡ ¡
– Bags ¡require ¡cura2on ¡
- BagIt ¡u2li2es ¡grab ¡system ¡files ¡like ¡.DS_store ¡thumbs.db ¡
16/19 ¡
Compara2ve ¡Analysis: ¡MetaArchive ¡ BagIt ¡+ ¡Custom ¡Scripts ¡to ¡Split ¡and ¡Rebuild ¡
BagIt ¡u2lity ¡+ ¡scripts ¡ creates ¡subsets ¡of ¡the ¡
- riginal ¡bag ¡and ¡an ¡
addi2onal ¡bag ¡ containing ¡manifest ¡ and ¡metadata ¡from ¡ the ¡original ¡bag ¡ On ¡export, ¡the ¡ content ¡partner ¡ receives ¡the ¡same ¡ bag ¡they ¡
- contributed. ¡
MetaArchive ¡
17/19 ¡
Tools: ¡Preserva2on ¡Metadata ¡for ¡Objects ¡
- DAITSS ¡Format ¡
Descrip2on ¡Service ¡
– Web ¡app ¡that ¡links ¡ DROID ¡and ¡JHOVE ¡to ¡ create ¡PREMIS ¡ – Released ¡in ¡2009 ¡ ¡ – hips://github.com/ daitss/describe ¡
- UNT ¡PREMIS ¡Event ¡
Service ¡
– Web ¡service ¡to ¡detect ¡ and ¡log ¡object ¡events ¡in ¡ an ¡associated ¡PREMIS ¡
- file. ¡
– Available ¡in ¡2014 ¡
- Preserva2on ¡metadata ¡standards ¡and ¡specifica2ons ¡(METS/
PREMIS) ¡can ¡be ¡costly ¡to ¡implement ¡ ¡
- Curators ¡need ¡lightweight ¡and ¡bulk ¡applica2ons ¡to ¡create ¡and ¡
manage ¡preserva2on ¡metadata ¡
18/19 ¡
Contacts ¡& ¡Links ¡
- Mai ¡Schultz ¡(Program ¡Manager, ¡MetaArchive) ¡
¡ ¡ ¡mai.schultz@metaarchive.org ¡
- Nick ¡Krabbenhoed ¡(Project ¡Manager, ¡Educopia) ¡
¡nick@metaarchive.org ¡ ¡
- Guidelines: ¡hip://publishing.educopia.org/chronicles ¡
- Project ¡URL: ¡www.metaarchive.org/neh ¡ ¡
- BagIt: ¡hip://sourceforge.net/projects/loc-‑xferu2ls/ ¡ ¡
- Descrip2on ¡Service: ¡hip://descrip2on.fcla.edu/ ¡
19/19 ¡