gUSE Data Staging kos Hajnal, Istvn Mrton, Peter Kacsuk - - PowerPoint PPT Presentation

guse data staging
SMART_READER_LITE
LIVE PREVIEW

gUSE Data Staging kos Hajnal, Istvn Mrton, Peter Kacsuk - - PowerPoint PPT Presentation

gUSE Data Staging kos Hajnal, Istvn Mrton, Peter Kacsuk The workflow The workflow to illustrate data exchange between jobs potenFally -


slide-1
SLIDE 1

gUSE ¡Data ¡Staging ¡

Ákos ¡Hajnal, ¡István ¡Márton, ¡Peter ¡ Kacsuk ¡

slide-2
SLIDE 2

The ¡workflow ¡

  • The ¡workflow ¡to ¡illustrate ¡data ¡exchange ¡

between ¡jobs ¡– ¡potenFally ¡-­‑ ¡running ¡in ¡different ¡ DCIs ¡ ¡

  • Job1 ¡has ¡output ¡only, ¡Job2 ¡has ¡input ¡only, ¡

connected ¡via ¡a ¡“channel” ¡

slide-3
SLIDE 3

Data ¡exchange ¡via ¡data ¡avenue-­‑ managed ¡remote ¡storage ¡

Internal ¡ Storage ¡ DCI ¡ Bridge ¡ WF ¡ Interpreter ¡ Job1 ¡

local ¡ disk ¡ file ¡ ¡ system ¡ file ¡ system ¡

gUSE ¡ DCI ¡1 ¡ Job2 ¡

local ¡ disk ¡

DCI ¡2 ¡

remote ¡ storage ¡ (SFTP, ¡GridFTP, ¡ S3, ¡iRODS, ¡ SRM, ¡…) ¡

Data ¡ Avenue ¡

slide-4
SLIDE 4

Steps ¡

  • 1. WFI ¡schedules ¡Job1 ¡and ¡sends ¡to ¡DCI ¡Bridge ¡for ¡

submission ¡

  • 2. DCI ¡Bridge ¡requests ¡an ¡HTTP ¡alias, ¡alias1 ¡for ¡the ¡output ¡of ¡

Job1 ¡

  • 3. DCI ¡Bridge ¡submits ¡Job1 ¡to ¡DCI ¡1 ¡
  • 4. When ¡Job1 ¡is ¡complete, ¡its ¡output ¡is ¡uploaded ¡via ¡Data ¡

Avenue ¡alias ¡alias1 ¡to ¡the ¡remote ¡storage ¡(wrapper) ¡

  • 5. WFI ¡schedules ¡Job2 ¡and ¡sends ¡to ¡DCI ¡Bridge ¡
  • 6. DCI ¡Bridge ¡requests ¡an ¡HTTP ¡alias ¡for ¡the ¡input ¡of ¡Job2, ¡

alias2 ¡(stored ¡in ¡step ¡4) ¡

  • 7. DCI ¡Bridge ¡submits ¡Job2 ¡to ¡DCI ¡2 ¡for ¡execuFon ¡
  • 8. Job2 ¡(wrapper) ¡downloads ¡its ¡input ¡via ¡Data ¡Avenue ¡alias ¡

alias2 ¡and ¡executes ¡

slide-5
SLIDE 5

Pros: ¡

  • DCIs ¡require ¡no ¡pre-­‑installed ¡tools ¡sFll ¡can ¡

access ¡a ¡wide ¡range ¡of ¡storage ¡resources ¡ (including ¡cloud ¡storages) ¡only ¡HTTP ¡(curl) ¡

  • DCIs ¡can ¡cooperate ¡as ¡Data ¡Avenue ¡offers ¡

access ¡to ¡the ¡same ¡storage ¡

  • CredenFals ¡are ¡not ¡delegated ¡to ¡worker ¡nodes ¡
  • Workflow ¡is ¡portable ¡(separated ¡data ¡access) ¡

Cons: ¡

  • Data ¡Avenue ¡can ¡be ¡a ¡boaleneck ¡on ¡massive, ¡

concurrent ¡use ¡

slide-6
SLIDE 6

A ¡Scalable ¡Data ¡Avenue ¡Service ¡ Architecture ¡

To ¡facilitate ¡ auto-­‑scaling ¡ by ¡acFng ¡on ¡ Load ¡ calculated ¡by ¡ mod_cluster ¡

WS-­‐‒ PGRADE/ ¡ gUSE ¡

OCCO ¡-­‐‒ ¡API ¡ h2pd ¡ ¡

Client ¡

Metrics ¡

Client ¡ Client ¡

DAS ¡

  • 1. HTTP

Requests ¡

VM ¡ Elastic pool of VMs ¡

  • 2. redirections ¡

VM ¡

mod_cluster ¡ ¡

mod_cluster ¡ ¡ DA ¡ Tomcat ¡ mod_cluster ¡ ¡ DA ¡ Tomcat ¡ mod_cluster ¡ ¡ DA ¡ Tomcat ¡

VM start/stop ¡ SDNs and VM images management ¡

Metrics collection from VMs through ¡ monitors ¡

Monitor ¡ Monitor ¡ Monitor ¡

DA-1 ¡ VM ¡ DA-2 ¡ VM ¡ DA-N ¡

LB_Enactor ¡

Sztaki Open Nebula ¡

  • 3. Data

Requests - HTTP ¡

MySQL ¡

  • 4. Consult DB

– create Alias ¡

  • 8. Data

Transfer via DA ¡

  • 6. Alias
  • 5. Alias ¡

Data ¡ Storage ¡

  • 7. Data

Requests – SFTP/HTTP ¡ De-cipher Alias ¡