DUNE 35-ton Prototype Offline News and Announcements Tom - - PowerPoint PPT Presentation

dune 35 ton prototype offline news and announcements
SMART_READER_LITE
LIVE PREVIEW

DUNE 35-ton Prototype Offline News and Announcements Tom - - PowerPoint PPT Presentation

DUNE 35-ton Prototype Offline News and Announcements Tom Junk, Tingjun Yang, Michelle Stancari, Mark Convery Fermilab, SLAC DUNE CollaboraNon MeeNng:


slide-1
SLIDE 1

DUNE ¡35-­‑ton ¡Prototype ¡Offline ¡News ¡and ¡Announcements ¡

Tom ¡Junk, ¡Tingjun ¡Yang, ¡Michelle ¡Stancari, ¡Mark ¡Convery ¡ Fermilab, ¡SLAC ¡

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 1 ¡

DUNE ¡CollaboraNon ¡MeeNng: ¡ ¡September ¡2-­‑5, ¡2015 ¡ ¡ hRps://indico.fnal.gov/conferenceDisplay.py?confId=10100 ¡ ¡ Current ¡plan ¡is ¡to ¡have ¡four ¡parallel ¡sessions: ¡ ¡2 ¡35t, ¡2 ¡SoXware ¡& ¡compuNng. ¡ ¡ LArSoX ¡CoordinaNon ¡MeeNng ¡August ¡11: ¡ ¡ hRps://indico.fnal.gov/conferenceDisplay.py?confId=10257 ¡ ¡ art/LArSoX ¡Course, ¡August ¡3-­‑7: ¡ ¡Looking ¡over ¡the ¡slides ¡is ¡highly ¡recommended! ¡ ¡ hRps://indico.fnal.gov/conferenceDisplay.py?confId=9928 ¡ ¡ Fermilab ¡CompuNng ¡Sector ¡Liaisons’ ¡MeeNng ¡August ¡12: ¡ ¡

hRps://fermipoint.fnal.gov/organizaNon/cs/scd/CS%20Liaison%20MeeNngs%20Library/Forms/Modified%20this%20week.aspx ¡ ¡

slide-2
SLIDE 2

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 2 ¡

slide-3
SLIDE 3

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 3 ¡

slide-4
SLIDE 4

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 4 ¡

35-­‑ton ¡CompuNng ¡TSW ¡(Technical ¡Scope ¡of ¡Work) ¡

TSW ¡Link ¡on ¡SharePoint ¡ Sent ¡to ¡the ¡CompuNng ¡Sector ¡for ¡review ¡Nll ¡the ¡end ¡of ¡August ¡ ¡ and ¡send ¡out ¡for ¡signatures ¡on ¡September ¡1. ¡ ¡ ¡ CompuNng ¡Sector ¡people ¡for ¡review: ¡ ¡ Ray ¡Pasetes, ¡Mitch ¡Renfer, ¡Rob ¡Harris, ¡Adam ¡Lyon, ¡Stu ¡Fuess, ¡Margaret ¡Votava ¡ ¡ Delineates ¡compuNng ¡services ¡and ¡support ¡35-­‑ton ¡needs ¡in ¡order ¡to ¡ ¡ commission, ¡operate, ¡and ¡analyze ¡the ¡collected ¡data. ¡ ¡ Already ¡reviewed ¡twice ¡by ¡the ¡35-­‑ton ¡group. ¡

slide-5
SLIDE 5

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 5 ¡

DUNE ¡CompuNng ¡Resources ¡

  • New ¡DUNE ¡service ¡desk ¡pull-­‑down ¡menu ¡category: ¡ ¡E-­‑1062. ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡Gelng ¡more ¡funcNonal! ¡ ¡Now ¡has ¡sub-­‑categories ¡ ¡

  • DUNE ¡VO ¡has ¡been ¡created ¡– ¡Steve ¡Timm ¡and ¡Tom ¡Junk ¡are ¡admins, ¡

¡ ¡ ¡Steve ¡Timm ¡is ¡the ¡security ¡contact. ¡ ¡

  • SNll ¡some ¡work ¡to ¡get ¡the ¡VO ¡accepted ¡by ¡grid ¡worker ¡sites. ¡
  • LBNE ¡VO ¡users ¡should ¡be ¡grandfathered ¡in ¡(though ¡may ¡are ¡suspended ¡due ¡to ¡

¡ ¡ ¡ ¡expired ¡Acceptable ¡Use ¡Policy ¡forms) ¡ ¡

  • New ¡DUNE ¡VO ¡membership ¡to ¡be ¡granted ¡along ¡with ¡DUNE ¡interacNve ¡accounts. ¡

Other ¡DUNE ¡resources: ¡TO ¡DO ¡ dunegpvm01.fnal.gov ¡through ¡dunegpvm10.fnal.gov: ¡ Service ¡desk ¡Ncket ¡submiRed. ¡ ¡“Tail ¡end ¡of ¡a ¡long ¡process”. ¡ ¡MeeNng ¡to ¡kick ¡off ¡ general ¡DUNE ¡renaming/new ¡instance ¡creaNon ¡July ¡29, ¡organized ¡by ¡Q. ¡Li. ¡ ¡ DUNE ¡BlueArc ¡areas ¡– ¡to ¡do ¡

slide-6
SLIDE 6

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 6 ¡

DUNE ¡CompuNng ¡Resources ¡

/grid/fermiapp/products/dune ¡ ¡ Area ¡requested ¡in ¡a ¡Service ¡Desk ¡Ncket. ¡ ¡M. ¡Kirby ¡had ¡helped ¡us ¡set ¡up ¡the ¡ /grid/fermiapp/products/lbne ¡ ¡

  • area. ¡

¡ /pnfs/dune/scratch ¡– ¡not ¡there ¡yet ¡ /pnfs/dune/persistent ¡ ¡-­‑-­‑ ¡this ¡exists ¡and ¡shares ¡space ¡with ¡/pnfs/lbne/persistent ¡ ¡ DUNE ¡redmine ¡area ¡– ¡already ¡there! ¡ ¡ dunetpc ¡redmine/repo ¡– ¡working ¡on ¡it! ¡ ¡See ¡Tingjun’s ¡talk ¡on ¡Aug ¡11. ¡ ¡ Renaming ¡all ¡files ¡and ¡changing ¡lbne ¡in ¡the ¡contents ¡of ¡files, ¡all ¡the ¡while ¡retaining ¡ git ¡history ¡(using ¡git ¡mv). ¡ ¡daqinput35t ¡and ¡roouiles ¡are ¡kept ¡with ¡lbne ¡in ¡their ¡names ¡ in ¡order ¡not ¡to ¡disrupt ¡ongoing ¡daq ¡work. ¡

slide-7
SLIDE 7

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 7 ¡

DAQ ¡Data ¡Transfer ¡Status ¡

All ¡complete ¡VST ¡roouiles ¡through ¡the ¡end ¡of ¡July ¡2015 ¡transferred ¡from ¡ /data/lbnedaq/data ¡on ¡lbne35t-­‑gateway01 ¡to ¡offline ¡storage ¡(SAM). ¡ ¡ hRps://cdcvs.fnal.gov/redmine/projects/35ton/wiki/LBNE35tVerNcalSliceTestDataFiles ¡ ¡ Files ¡from ¡May ¡2015 ¡onwards ¡are ¡sNll ¡on ¡the ¡gateway01 ¡node ¡– ¡can ¡be ¡deleted. ¡ ¡ Data ¡disk ¡on ¡the ¡gateway ¡node ¡is ¡93% ¡full ¡– ¡sNll ¡has ¡17 ¡GB ¡leX. ¡ ¡ Script ¡for ¡copying ¡data ¡from ¡the ¡gateway ¡node ¡to ¡lbnegpvm* ¡with ¡a ¡target ¡ directory ¡on ¡dCache ¡wriRen ¡and ¡tested. ¡ ¡ New ¡lbnedaq ¡shared ¡account ¡created ¡on ¡the ¡lbnegpvm’s. ¡ ¡So ¡far ¡I ¡cannot ¡log ¡on ¡to ¡it ¡ however, ¡and ¡submiRed ¡a ¡Service ¡Desk ¡Ncket. ¡ ¡This ¡is ¡so ¡we ¡don’t ¡have ¡to ¡use ¡Mike ¡ ¡ Wallbank’s ¡Kerberos ¡Ncket ¡to ¡transfer ¡DQM ¡plots. ¡ ¡But ¡also ¡useful ¡for ¡data, ¡but ¡... ¡ ¡ But ¡Ed ¡Simmonds ¡(SCD) ¡does ¡not ¡recommend ¡using ¡the ¡gpvm’s ¡as ¡part ¡of ¡the ¡DAQ ¡

  • chain. ¡ ¡Not ¡24x7 ¡resilient. ¡ ¡To ¡minimize ¡“hops”, ¡we’d ¡like ¡to ¡mount ¡BlueArc ¡

/lbne/data, ¡/lbne/data2 ¡and ¡dCache ¡/pnfs/lbne/scratch ¡on ¡lbnegateway02.fnal.gov ¡

slide-8
SLIDE 8

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 8 ¡

dCache ¡News, ¡Advice ¡

Scratch ¡space: ¡ ¡/pnfs/lbne/scratch ¡ ¡-­‑-­‑ ¡very ¡large, ¡but ¡there ¡is ¡a ¡Least ¡Recently ¡Used ¡ evicNon ¡algorithm. ¡ ¡ ¡ ¡File ¡lifeNme ¡is ¡of ¡order ¡1 ¡month. ¡ ¡NOvA ¡writes ¡to ¡scratch ¡very ¡

  • frequently. ¡

¡ ¡ Persistent ¡space: ¡/pnfs/lbne/persistent ¡ ¡ ¡ ¡/pnfs/dune/persistent ¡ Size: ¡ ¡150 ¡TB ¡ ¡ ¡(shared ¡between ¡lbne ¡and ¡dune ¡areas) ¡ ¡ ¡Hardware ¡failure ¡may ¡result ¡in ¡file ¡loss ¡– ¡this ¡area ¡is ¡not ¡backed ¡up. ¡ ¡See ¡Qizhong’s ¡ ¡ ¡descripNon ¡of ¡how ¡to ¡store ¡files ¡on ¡tape. ¡ ¡ No ¡quotas ¡(yet). ¡ ¡ dCache ¡is ¡meant ¡to ¡be ¡used ¡for ¡data ¡that ¡may ¡also ¡be ¡on ¡tape. ¡ ¡ ¡Most ¡suited ¡to ¡ write ¡once, ¡read-­‑many ¡access ¡paRerns. ¡ ¡ Several ¡consequences ¡of ¡the ¡dCache ¡architecture ¡ ¡(from ¡R. ¡Illingworth) ¡ Files ¡are ¡immutable ¡(cannot ¡be ¡modified) ¡once ¡wriRen ¡ Latency ¡is ¡usually ¡low ¡for ¡files ¡on ¡disk, ¡but ¡very ¡high ¡for ¡files ¡retrieved ¡from ¡tape ¡ Under ¡heavy ¡load ¡accesses ¡are ¡queued ¡by ¡file ¡ Uncoordinated ¡or ¡random ¡access ¡of ¡files ¡that ¡are ¡not ¡in ¡cache ¡ ¡ can ¡perform ¡very ¡badly, ¡creaNng ¡large ¡backlogs ¡

slide-9
SLIDE 9

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 9 ¡

dCache ¡News, ¡Advice ¡

lbne ¡dCache ¡areas ¡are ¡not ¡tape-­‑backed, ¡though ¡we ¡have ¡a ¡File ¡Transfer ¡Service ¡ dropbox ¡set ¡up ¡on ¡/pnfs/lbne/scratch/lbnepro ¡which ¡is ¡used ¡for ¡storing ¡data ¡on ¡tape. ¡ ¡ Tape-­‑backed ¡dCache ¡areas ¡can ¡be ¡very ¡slow ¡to ¡access ¡ ¡ ls ¡is ¡a ¡slow ¡operaNon ¡– ¡especially ¡in ¡directories ¡with ¡many ¡files ¡ ¡ ls ¡–l ¡is ¡a ¡very ¡slow ¡operaNon ¡– ¡if ¡ls ¡produces ¡color ¡output ¡for ¡terminals, ¡then ¡ it ¡needs ¡to ¡query ¡the ¡file ¡type ¡(directory, ¡symlink, ¡ordinary ¡file) ¡and ¡protecNon ¡ bits ¡(executable) ¡to ¡color ¡the ¡name ¡properly. ¡ ¡Can ¡be ¡really ¡really ¡slow. ¡ ¡ I ¡haven’t ¡tried ¡using ¡du ¡on ¡dCache ¡yet ¡– ¡probably ¡prohibiNvely ¡inefficient. ¡ ¡ Need ¡a ¡tool ¡to ¡track ¡usage. ¡ ¡We ¡may ¡request ¡quotas ¡to ¡be ¡placed ¡on ¡our ¡ persistent ¡dCache ¡area. ¡ ¡Over ¡Nme, ¡we ¡may ¡run ¡out ¡of ¡space ¡anyhow ¡even ¡with ¡ quotas ¡as ¡there ¡is ¡high ¡turnover ¡of ¡collaborators. ¡

slide-10
SLIDE 10

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 10 ¡

From ¡Robert ¡Illingworth: ¡ ¡ Performing ¡a ¡mv ¡between ¡areas ¡with ¡different ¡types ¡of ¡retenNon ¡policies ¡doesn’t ¡ ¡ change ¡their ¡retenNon ¡policy, ¡only ¡the ¡metadata. ¡To ¡change ¡the ¡retenNon ¡ ¡ policy ¡a ¡file ¡must ¡be ¡copied ¡to ¡a ¡space ¡with ¡the ¡desired ¡retenNon ¡policy. ¡ ¡ Some ¡commands ¡won’t ¡work ¡at ¡all. ¡Some ¡may ¡work, ¡but ¡could ¡act ¡erra;cally. ¡Some ¡will ¡ ¡ work ¡in ¡some ¡contexts, ¡but ¡not ¡in ¡others. ¡S;ck ¡to ¡simple ¡stuff ¡-­‑ ¡write ¡a ¡file ¡and ¡open ¡it ¡ ¡up ¡in ¡root, ¡for ¡example. ¡ For ¡copying ¡mul;ple ¡files ¡in ¡and ¡out ¡of ¡dCache ¡loca;ons ¡use ¡“ifdh ¡cp” ¡ ¡ rather ¡than ¡plain ¡cp. ¡ There ¡is ¡no ¡plan ¡to ¡NFS ¡mount ¡dCache ¡on ¡FermiGrid ¡nodes. ¡Grid ¡jobs ¡ ¡ must ¡use ¡some ¡other ¡access ¡method. ¡xrootd ¡can ¡be ¡used ¡to ¡stream ¡data ¡to ¡a ¡ ¡job ¡where ¡that ¡would ¡be ¡more ¡efficient ¡than ¡copying ¡the ¡whole ¡thing ¡over. ¡ ¡

dCache ¡News, ¡Advice ¡

BlueArc ¡is ¡not ¡going ¡away! ¡ ¡Mounts ¡of ¡the ¡data ¡areas ¡on ¡grid ¡workers ¡are ¡going ¡away ¡ though ¡(/lbne/app ¡mounts ¡on ¡grid ¡workers ¡are ¡not ¡going ¡away). ¡

slide-11
SLIDE 11

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 11 ¡

Empty ¡Files ¡on ¡dCache ¡

SomeNmes ¡file ¡transfers ¡to ¡dCache ¡fail ¡and ¡an ¡empty ¡file ¡is ¡leX. ¡ ¡ zero-­‑length ¡files ¡by ¡themselves ¡are ¡not ¡problems ¡on ¡most ¡filesystems, ¡but ¡dCache ¡ has ¡addiNonal ¡layers ¡of ¡metadata ¡which ¡are ¡missing ¡in ¡the ¡case ¡of ¡failed ¡transfers. ¡ ¡ Periodically ¡I ¡get ¡an ¡e-­‑mail ¡from ¡CS ¡lisNng ¡emtpy ¡files ¡with ¡missing ¡layers ¡and ¡am ¡ asked ¡to ¡track ¡down ¡users ¡to ¡delete ¡them ¡so ¡as ¡not ¡to ¡cluRer ¡the ¡check ¡for ¡them. ¡ ¡ It’s ¡a ¡nice ¡quality ¡control ¡step ¡if ¡CS ¡tells ¡us ¡about ¡failed ¡transfers, ¡but ¡frequently ¡it ¡comes ¡

  • late. ¡ ¡If ¡a ¡user’s ¡jobs ¡finish ¡and ¡output ¡is ¡lost, ¡the ¡user ¡frequently ¡finds ¡out ¡about ¡it ¡ ¡

right ¡away. ¡ ¡Examples ¡of ¡such ¡files ¡have ¡so ¡far ¡been ¡log ¡files ¡that ¡users ¡don’t ¡always ¡ care ¡about ¡and ¡thus ¡may ¡not ¡noNce ¡for ¡a ¡while. ¡ ¡ A ¡concern ¡is ¡the ¡rate ¡at ¡which ¡file ¡transfer ¡errors ¡occur ¡(and ¡not ¡just ¡zero-­‑length ¡files ¡ made ¡by ¡users). ¡ ¡Currently ¡evaluaNng ¡dCache ¡vs. ¡BlueArc ¡for ¡the ¡target ¡for ¡transfer ¡of ¡ DAQ ¡files. ¡ ¡

slide-12
SLIDE 12

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 12 ¡

Grid ¡AccounNng ¡

  • GraNa ¡collects ¡finished ¡jobs ¡records. ¡ ¡
  • The ¡data ¡include ¡CPU ¡Hours ¡(User ¡and ¡System), ¡Wall ¡Hours, ¡

Exit ¡Code ¡etc. ¡

  • We ¡calculate ¡efficiency ¡as ¡

¡(CPUUser ¡+ ¡CPUSystem)/WallHours ¡

  • GraNaWeb ¡is ¡GUI ¡to ¡GraNa ¡
  • TreeMap ¡efficiency ¡ ¡plot ¡was ¡recently ¡released ¡in ¡

producNon

hRp://graNaweb.grid.iu.edu/graNa/xml/

  • sg_hours_efficiency_tree_map_by_vo_project_facility ¡

Tanya ¡Levshina ¡

slide-13
SLIDE 13

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 13 ¡

GraNaWeb ¡TreeMap ¡

  • TreeMap ¡is ¡a ¡space-­‑

constrained ¡visualizaNon ¡of ¡ hierarchical ¡structures: ¡

  • Area ¡size: ¡Wall ¡Hours ¡
  • Color ¡coding ¡: ¡job ¡efficiency ¡ ¡
  • Sizes ¡and ¡colors ¡are ¡valued ¡

relaNve ¡to ¡all ¡other ¡nodes ¡in ¡ the ¡graph. ¡ ¡

  • Hierarchy: ¡

u VO ¡

u Projects ¡

u Facility ¡ u User ¡

Can ¡change ¡the ¡order ¡ Remove ¡sub-­‑category ¡ ¡

  • Mouseover ¡shows ¡actual ¡

WallHours ¡and ¡Efficiency ¡

  • By ¡clicking ¡on ¡the ¡area ¡you ¡can ¡

see ¡the ¡next ¡level ¡of ¡hierarchy. ¡ Tanya ¡Levshina ¡

slide-14
SLIDE 14

8/13/15 ¡ TRJ ¡DUNE ¡35-­‑ton ¡Offline ¡News ¡and ¡ Announcements ¡ 14 ¡

LBNE ¡VO ¡Efficiency ¡

Job ¡efficiency ¡has ¡been ¡low ¡on ¡LBNE ¡for ¡some ¡users ¡– ¡currently ¡beam ¡simulaNons ¡ and ¡FastMC ¡have ¡had ¡some ¡problems ¡with ¡low ¡(CPU ¡hours/wall ¡hours). ¡ ¡ Usual ¡cause ¡is ¡waiNng ¡for ¡CPN ¡locks ¡when ¡using ¡ifdh ¡cp ¡to/from ¡BlueArc ¡disks. ¡ ¡ We ¡should ¡get ¡weekly ¡reports, ¡and ¡some ¡experiments ¡asked ¡for ¡triggered ¡warnings ¡ if ¡inefficiency ¡spikes. ¡ ¡ ¡ ¡ ¡