VERCE As a Data Management Use Case Horst Schwichtenberg EGI - - PowerPoint PPT Presentation

verce as a data management use case
SMART_READER_LITE
LIVE PREVIEW

VERCE As a Data Management Use Case Horst Schwichtenberg EGI - - PowerPoint PPT Presentation

Virtual Earthquake and seismology Research Community e-science environment in Europe Project 283543 FP7-INFRASTRUCTURES-2011-2 www.verce.eu


slide-1
SLIDE 1

www.verce.eu ¡ www.verce.eu ¡

VERCE « As a « Data Management Use Case

Horst Schwichtenberg EGI Technical Forum Prag, 2012

Virtual ¡Earthquake ¡and ¡seismology ¡Research ¡Community ¡e-­‑science ¡environment ¡in ¡Europe ¡ Project ¡283543 ¡– ¡FP7-­‑INFRASTRUCTURES-­‑2011-­‑2 ¡– ¡www.verce.eu ¡– ¡info@verce.eu ¡

slide-2
SLIDE 2

www.verce.eu ¡

Content ¡

EGI ¡TF, ¡Prag ¡2012 ¡ Providing ¡and ¡managing ¡a ¡research ¡plaSorm ¡ ¡

  • VERCE ¡project ¡
  • VERCE ¡plaSorm ¡for ¡data ¡intensive ¡applicaTons ¡ ¡
  • ¡Seismology ¡: ¡

– Data ¡center ¡ – Use ¡Cases ¡/ ¡ApplicaTons ¡

  • Open ¡QuesTons ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

slide-3
SLIDE 3

www.verce.eu ¡

Providing ¡and ¡managing ¡a ¡research ¡plaSorm ¡ ¡

  • VERCE ¡project ¡
  • VERCE ¡plaSorm ¡– ¡e-­‑infrastructure ¡(?) ¡
  • Compute ¡and ¡Data ¡Resources ¡
  • PlaSorm ¡– ¡workflow ¡– ¡enactment ¡gateway ¡
  • Science ¡Gateway ¡ ¡ ¡

¡

¡Providing ¡and ¡managing ¡a ¡research ¡plaSorm ¡ ¡

slide-4
SLIDE 4

www.verce.eu ¡

slide-5
SLIDE 5

www.verce.eu ¡

slide-6
SLIDE 6

www.verce.eu ¡

IniTal ¡Resources ¡

¡

– Compute ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Public: ¡

  • PRACE ¡(HPC) ¡sites: ¡ ¡LRZ, ¡CINECA ¡ ¡ ¡ ¡
  • EGI-­‑Infrastructure ¡(GRID): ¡ ¡ESR ¡VO ¡in ¡EGI-­‑Inspire, ¡ ¡VERCE ¡VO ¡

¡Private: ¡

  • Department ¡resources: ¡UEDIN, ¡ULIV, ¡IPGP, ¡SCAI ¡

– Data ¡Center: ¡ ¡

  • KNMI/ORFEUS ¡
  • IPGP ¡
  • INGV ¡

– Storage: ¡ ¡ ¡

  • UEDIN ¡
  • ULIV ¡

Orfeus: ¡Seismic ¡monitor ¡

slide-7
SLIDE 7

www.verce.eu ¡

¡IniTal ¡Sodware ¡Components ¡

  • Components ¡for ¡Secure ¡Access ¡to ¡resources: ¡

– Different ¡access ¡methods ¡in ¡use: ¡from ¡standard ¡(gsi)SSH ¡to ¡EUGridPMA ¡X.509 ¡ CerTficate ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Challenge: ¡No ¡federated ¡idenTty ¡management ¡available ¡across ¡the ¡European ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡e-­‑infrastructures ¡

¡

  • VERCE ¡relevant ¡data ¡management ¡tools: ¡

– different ¡data ¡management ¡tools ¡and ¡ ¡ ¡ – different ¡ ¡technologies/protocols ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡E.g. ¡OGSA-­‑DAI ¡(see ¡ADMIRE), ¡IRODS, ¡ ¡SRM, ¡Arclink, ¡GridFTP ¡

¡ ¡

  • Job ¡Management ¡tools ¡on ¡public ¡and ¡private ¡resources: ¡

– E.g. ¡LSF, ¡ ¡Torque ¡on ¡Clusters; ¡gLite ¡CREAM/WMS ¡on ¡Grid ¡

¡

  • Seismic ¡and ¡seismological ¡sodware ¡ ¡

– ¡E.g. ¡ObsPy, ¡rdseed, ¡seissol, ¡sec3D, ¡specfem3d,axisem ¡

  • First ¡Components ¡of ¡the ¡iniTal ¡VERCE ¡data ¡intensive ¡architecture ¡ ¡

– E.g. ¡OGSA-­‑DAI, ¡ADMIRE/VERCE-­‑DISPEL ¡Workflow ¡ ¡

¡ ¡ ¡

slide-8
SLIDE 8

www.verce.eu ¡

Seismological ¡data ¡archived ¡at ¡INGV ¡

  • Time ¡series ¡acquired ¡at ¡seismic ¡staTons ¡
  • Each ¡staTon ¡features ¡a ¡three ¡component ¡seismometer ¡(3C) ¡– ¡

verTcal, ¡N-­‑S, ¡E-­‑W ¡ ¡and ¡a ¡data ¡logger ¡having ¡an ¡A/D ¡converter ¡

  • Digital ¡acquisiTon ¡at ¡100 ¡samples ¡per ¡second ¡using ¡a ¡ ¡24 ¡bit ¡(3 ¡Byte) ¡

per ¡channel ¡

  • The ¡data ¡are ¡usually ¡compressed ¡in ¡SEED ¡ ¡format ¡ ¡-­‑ ¡ader ¡

compression ¡and ¡for ¡data ¡ ¡acquired ¡in ¡quite ¡periods ¡each ¡sample ¡is ¡ about ¡1.3 ¡Byte. ¡If ¡an ¡earthquake ¡is ¡recorded ¡the ¡compression ¡is ¡less ¡ to ¡much ¡less ¡

  • Thus ¡for ¡each ¡staTon ¡

– 100 ¡* ¡1.3 ¡* ¡(60*60 ¡* ¡24) ¡= ¡11.232 ¡MB ¡per ¡day ¡per ¡channel ¡

  • INGV ¡network ¡consists ¡of ¡~300 ¡3C ¡sta0ons ¡

– 11.232 ¡* ¡300 ¡* ¡3 ¡= ¡10.11 ¡GB ¡per ¡day ¡ – 10.11 ¡* ¡365 ¡= ¡~3.7 ¡TB ¡per ¡year ¡

  • Proper ¡archiving ¡started ¡at ¡INGV ¡in ¡2005-­‑2006 ¡and ¡right ¡now ¡the ¡

data ¡set ¡archived ¡is ¡~26 ¡TB ¡

slide-9
SLIDE 9

www.verce.eu ¡

European ¡Integrated ¡Data ¡Archive ¡

www.seismicportal.eu ¡

slide-10
SLIDE 10

www.verce.eu ¡

Main ¡Use ¡Cases/ApplicaTons ¡

slide-11
SLIDE 11

www.verce.eu ¡

slide-12
SLIDE 12

www.verce.eu ¡

VERCE ¡USE ¡CASES ¡

slide-13
SLIDE 13

www.verce.eu ¡

1 8

www.verce.eu ¡

DISPEL ¡IntroducTon ¡-­‑ ¡Liverpool, ¡3 ¡September ¡2012 ¡

Defining ¡“Data-­‑Intensive” ¡ by ¡Malcolm ¡Atkinson ¡

  • Generally ¡
  • A ¡computaTonal ¡task ¡is ¡data-­‑intensive ¡if ¡you ¡have ¡to ¡think ¡hard ¡about ¡

an ¡aspect ¡of ¡data ¡handling ¡to ¡make ¡progress ¡

  • distribuTon, ¡permissions ¡and ¡rules ¡of ¡use, ¡complexity, ¡heterogeneity, ¡rate ¡of ¡arrival, ¡

unstructured ¡or ¡changing ¡structure, ¡long ¡tail ¡of ¡small ¡and ¡scatered ¡instances, ¡size ¡of ¡data, ¡ number ¡of ¡users ¡

  • invariably ¡in ¡combinaTon ¡ ¡
  • QuanTtaTvely ¡
  • The ¡computaTon’s ¡Amdahl ¡numbers ¡are ¡close ¡to ¡1 ¡
  • CPU ¡operaTons ¡: ¡bits ¡transferred ¡in ¡or ¡out ¡of ¡memory ¡
  • 1000 ¡CPU ¡operaTons ¡: ¡1 ¡I/O ¡operaTon ¡
  • Total ¡volumes ¡expensive ¡to ¡store ¡
  • Total ¡requests/unit ¡Tme ¡hard ¡to ¡accommodate ¡
  • Data ¡transport ¡too ¡slow ¡or ¡expensive ¡
slide-14
SLIDE 14

www.verce.eu ¡

Verce ¡PlaSorm ¡

  • Implement ¡different ¡seismological ¡workflows ¡

¡ ¡ ¡ ¡on-­‑top ¡exisTng ¡e-­‑Infrastructures ¡

  • Different ¡interfaces ¡available ¡to ¡implement: ¡

– Simple ¡workflows ¡-­‑> ¡Python ¡based ¡Obspy ¡ – Distributed ¡complex ¡workflows ¡ ¡-­‑> ¡DISPEL ¡ Gateways ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Workflow ¡driven ¡by ¡Data ¡ ¡

slide-15
SLIDE 15

www.verce.eu ¡

Verce ¡PlaSorm ¡

  • VERCE ¡ ¡Workbench ¡: ¡

¡

– Seismologists ¡may ¡use ¡graphical ¡Interface ¡ – Typical ¡workflows ¡or ¡sequences ¡stored ¡ ¡in ¡ repositories ¡ – Data ¡Management ¡is ¡completely ¡hidden ¡ – ExecuTon ¡is ¡recorded ¡-­‑ ¡Provenance ¡

slide-16
SLIDE 16

www.verce.eu ¡

Arclink ¡

Data-­‑ ¡ ¡and ¡Compute ¡Intensive ¡

slide-17
SLIDE 17

www.verce.eu ¡

VERCE ¡Workflow ¡Architecture ¡

Design ¡Workflows ¡by ¡DISPEL ¡ „Enactment ¡ ¡Gateways ¡are ¡Service ¡Provider ¡(Expansion ¡of ¡Paterns) ¡ InterpreTng ¡ ¡and ¡ExecuTng ¡Workflows ¡writen ¡in ¡DISPEL“ ¡ ¡

slide-18
SLIDE 18

www.verce.eu ¡

slide-19
SLIDE 19

www.verce.eu ¡

DISPEL ¡ ¡

VERCE ¡WORKFLOW ¡

slide-20
SLIDE 20

www.verce.eu ¡ www.verce.eu ¡

Data-­‑Intensive ¡Process ¡Engineering ¡ Language ¡

  • A ¡language ¡for ¡construcTng ¡data-­‑flow ¡graphs ¡

– Nodes ¡are ¡processing ¡elements ¡ – Arcs ¡are ¡data-­‑flow ¡paths ¡

  • A ¡language ¡for ¡generaTng ¡data-­‑flow ¡paterns ¡

– FuncTons ¡hide ¡detail ¡of ¡graphs ¡ – FuncTons ¡generate ¡graphs ¡

  • A ¡language ¡for ¡discussing ¡data-­‑flow ¡engineering ¡

– Designed ¡to ¡be ¡read ¡and ¡writen ¡by ¡humans ¡ – As ¡well ¡as ¡by ¡programs ¡ – Supports ¡validaTon ¡and ¡opTmisaTon ¡

designed ¡to ¡ encourage ¡data-­‑ intensive ¡ thinking ¡

slide-21
SLIDE 21

www.verce.eu ¡

EGI ¡TF, ¡Prag ¡2012 ¡

Parallel ¡Streams ¡

A ¡ E ¡ D ¡ C ¡ B ¡ I ¡ H ¡ J ¡ K ¡ L ¡ M ¡ N ¡ G ¡ F ¡ O ¡ P ¡

slide-22
SLIDE 22

www.verce.eu ¡

VERCE ¡Data ¡Management ¡ Old ¡„open“ ¡QuesTons ¡ ¡

  • How ¡can ¡we ¡get ¡data ¡in ¡and ¡out ¡of ¡HPC ¡resources ¡
  • How ¡can ¡we ¡access ¡seismological ¡data ¡ ¡

¡ ¡ ¡ ¡from ¡a ¡HPC ¡resource ¡

  • How ¡to ¡shuffle ¡data ¡between ¡GRID ¡(EGI) ¡to ¡HPC ¡(PRACE) ¡
  • Large ¡datasets ¡may ¡be ¡transfered ¡by ¡„sneaker.net“ ¡

¡ ¡ ¡ ¡But ¡where ¡to ¡cache ¡the ¡data ¡for ¡short ¡Tme ¡ ¡

  • Which ¡are ¡the ¡best ¡data ¡transfer ¡protocols ¡or ¡soluTons? ¡
  • Is ¡Globus ¡Online ¡a ¡soluTon ¡for ¡us? ¡ ¡
  • Permanent ¡storage ¡for ¡seismic ¡and ¡meta ¡data? ¡
slide-23
SLIDE 23

www.verce.eu ¡

Verce ¡Data ¡Management ¡ Open ¡QuesTons ¡

  • IntegraTon ¡of ¡ ¡Data ¡Center ¡Policies ¡
  • Encouraging ¡Data ¡Centers ¡to ¡install ¡anonymous ¡

GridFTP ¡servers ¡to ¡replace ¡their ¡exisTng ¡anonymous ¡ FTP ¡servers ¡ ¡

  • How ¡to ¡manage ¡ ¡„AA“ ¡ ¡-­‑ ¡ ¡ ¡sTll ¡no ¡European ¡federated ¡

idenTty ¡management ¡available ¡ ¡

  • Workflow ¡layers ¡on ¡top ¡of ¡e-­‑Infrastructures: ¡

– No ¡support ¡today: ¡ ¡ ¡ ¡ ¡Are ¡„Event-­‑Gateways“ ¡possible ¡close ¡to ¡resource ¡ ¡ ¡ ¡ ¡ providers ¡(e.g. ¡HPC ¡centers) ¡

¡

slide-24
SLIDE 24

www.verce.eu ¡

UlTmate ¡aim ¡

  • Enable ¡European ¡seismologists ¡to ¡work ¡on ¡the ¡

exisTng ¡European ¡e-­‑Infrastructure ¡seamlessly ¡ independent ¡of ¡whether ¡it ¡is ¡a ¡Grid, ¡HPC ¡or ¡ department ¡resource! ¡

slide-25
SLIDE 25

www.verce.eu ¡

Contacts ¡

  • "Jean-­‑Pierre ¡Vilote" ¡vilote@ipgp.fr ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(coordinator) ¡

  • ¡"Malcolm ¡Atkinson" ¡mpa@staffmail.ed.ac.uk ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡VERCE ¡Architecure ¡(DISPEL, ¡ADMIRE/VERCE ¡Gateway) ¡

¡

  • Transparencies ¡by: ¡Marek ¡Simon ¡(LMU), ¡Malcolm ¡Atkinson ¡(UEDIN), ¡

Alberto ¡Michelini ¡(INGV), ¡Siew ¡Hoon ¡Leong ¡(LRZ) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡horst.schwichtenberg@scai.fraunhofer.de ¡ ¡

slide-26
SLIDE 26

www.verce.eu ¡