Philip Soltero, Patrick Bridges , Mike Lang and Dorian - - PowerPoint PPT Presentation
Philip Soltero, Patrick Bridges , Mike Lang and Dorian - - PowerPoint PPT Presentation
Department of Computer Science Philip Soltero, Patrick Bridges , Mike Lang and Dorian Arnold Los Alamos Na@onal University of New Mexico Laborotory } Need
Scalable Systems Lab
} Need ¡large-‑scale ¡services ¡at ¡huge ¡node ¡counts ¡
- Job ¡launch, ¡power ¡monitoring/control, ¡load ¡balancing, ¡etc. ¡
- System-‑wide ¡communica@on ¡a ¡major ¡challenge ¡here ¡
} Have ¡to ¡worry ¡about ¡all ¡of ¡address ¡the ¡standard ¡
exascale ¡and ¡distributed ¡system ¡design ¡concerns ¡
- Power, ¡Resilience ¡
- Scalability, ¡Consistency ¡
} We’ve ¡tradi@onally ¡designed ¡HPC ¡system ¡services ¡like ¡
they ¡were ¡HPC ¡applica@ons: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Synchronous, ¡Structured, ¡and ¡Global ¡ ¡
Scalable Systems Lab
} Same ¡@red ¡old ¡idea: ¡Discard ¡
consistency ¡for ¡scalability ¡or ¡ resilience ¡
} For ¡what ¡services ¡does ¡this ¡make ¡
sense? ¡
- Dependent ¡on ¡hardware ¡and ¡
programming ¡model ¡
- Past ¡work ¡in ¡this ¡direc@on ¡has ¡for ¡load ¡
balancing, ¡other ¡services ¡
} What ¡kind ¡of ¡weakly ¡consistent ¡
communica@on ¡to ¡use? ¡
Scalable Systems Lab
} Popular ¡recent ¡distributed ¡system ¡technique ¡
- Round-‑based ¡protocol ¡
- Each ¡round: ¡Every ¡node ¡exchanges ¡informa@on ¡with ¡small ¡
random ¡set ¡of ¡nodes ¡
- Informa@on ¡propagates ¡epidemically ¡throughout ¡system ¡
- Design ¡so ¡global ¡data ¡view ¡converges ¡to ¡correct ¡value ¡
} Robust ¡to ¡failures; ¡no ¡global ¡communica@on ¡coupling ¡
Scalable Systems Lab
Some ¡types ¡of ¡ aggrega@on ¡are ¡easier ¡ than ¡others ¡
- Idempotent ¡opera@ons ¡
(max, ¡min, ¡etc.) ¡easy ¡to ¡ do ¡
- Average, ¡Sum, ¡etc. ¡are ¡
more ¡difficult ¡– ¡simple ¡ pairwise ¡exchanges ¡are ¡ insufficient ¡
- Can ¡use ¡more ¡complex ¡
protocols ¡for ¡compu@ng ¡ global ¡sums ¡
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6
Percentage of accuracy vs rounds for max aggregation Percentage of accuracy Rounds
Scalable Systems Lab
} Takes ¡some ¡number ¡of ¡synchronized ¡rounds ¡for ¡results ¡
to ¡converge ¡towards ¡true ¡value ¡
} Different ¡nodes ¡have ¡different ¡values ¡at ¡different ¡@mes ¡ } When ¡to ¡use ¡the ¡current ¡value ¡or ¡start ¡a ¡new ¡round? ¡ } Few ¡well-‑understood ¡roundless ¡gossip ¡protocols ¡
¡Can ¡we ¡actually ¡build ¡useful ¡exascale ¡services ¡with ¡this? ¡
Scalable Systems Lab
} Built ¡a ¡simple ¡UDP ¡
gossip ¡library ¡for ¡ tes@ng ¡gossip ¡ algorithms ¡
} Currently ¡uses ¡a ¡
fixed ¡view ¡of ¡ poten@al ¡peers ¡to ¡ select ¡from ¡
Gossip-based service Peer selection Peer discovery Peer API UDP Send Buffer UDP Recv Buffer
Scalable Systems Lab
} 1000 ¡par@cipants ¡
compu@ng ¡ averages ¡ ¡
} How ¡close ¡is ¡each ¡
node ¡to ¡the ¡real ¡ average ¡a^er ¡each ¡ round? ¡
} Very ¡high ¡accuracy ¡
in ¡about ¡6-‑7 ¡ rounds ¡
50 100 20 40 60
Round 2
50 100 20 40 60 80 100
Round 3
50 100 50 100 150 200
Round 4
50 100 100 200 300
Round 5
50 100 100 200 300 400 500
Round 6
50 100 200 400 600 800
Round 7 Percent accuracy Number of Services
Scalable Systems Lab
} Goal: ¡Simple ¡power ¡control ¡scheme ¡to ¡examine ¡the ¡
limita@ons ¡of ¡gossip ¡for ¡exascale ¡system ¡service ¡design ¡
} Given: ¡ ¡
- 1. Cap ¡on ¡average ¡local ¡power ¡consump@on ¡(global ¡cap) ¡
- 2. Mul@ple ¡available ¡power ¡gears ¡(F/V ¡pairs) ¡
- 3. Local ¡power ¡measurements ¡
} Approach: ¡ ¡
1. Use ¡gossip ¡to ¡es@mate ¡global ¡power ¡usage ¡ 2. Locally ¡change ¡gears ¡to ¡help ¡converge ¡global ¡average ¡ towards ¡desired ¡value ¡
Scalable Systems Lab
} Simulate ¡effects ¡of ¡power ¡consump@on ¡control ¡ } Process: ¡
- 1. Each ¡node ¡sets ¡local ¡power ¡
- 2. Simulator ¡determines ¡resul@ng ¡global ¡power ¡usage ¡
- 3. Nodes ¡are ¡given ¡communicated ¡global ¡power ¡usage ¡based ¡
- n ¡(scaled) ¡accuracy ¡profiles ¡ ¡
- 4. And ¡on ¡around ¡the ¡loop ¡
} Assume ¡perfectly ¡balanced ¡load ¡ } 5 ¡energy ¡gears ¡(1200MHz/1.2V ¡to ¡2000MHz/2.0 ¡V) ¡
Scalable Systems Lab
} Graph ¡is ¡for ¡1000 ¡
par@cipants ¡
} With ¡“enough” ¡
rounds ¡we ¡can ¡get ¡ sufficient ¡accuracy ¡ and ¡hence ¡control ¡
} “Enough” ¡is ¡24 ¡
rounds ¡at ¡exascale ¡
10 20 30 40 50 60 70 80 90 100 8.2 8.4 8.6 8.8 9 9.2 9.4 9.6 9.8 10 10.2 x 10
7
Power management simulator results Iteration Global power
Power cap 12−round 10−round 5−round
Scalable Systems Lab
} Upsides ¡
- Can ¡s@ll ¡get ¡reasonable ¡control ¡(in ¡this ¡one ¡case) ¡even ¡when ¡
we’ve ¡discarded ¡any ¡guarantee ¡of ¡complete ¡consistency ¡
- Gossip ¡is ¡robust ¡to ¡failure ¡(5% ¡failure ¡with ¡a ¡simple ¡failure ¡
model ¡didn’t ¡impact ¡gossiped ¡value ¡or ¡accuracy) ¡
} Downsides ¡
- 20-‑24 ¡rounds ¡(with ¡one ¡peer ¡per ¡round) ¡is ¡non-‑trivial, ¡
corresponds ¡to ¡10-‑12 ¡level ¡binary ¡reduc@on ¡tree ¡(e.g. ¡TBON) ¡
- Behavior ¡can ¡be ¡poor ¡if ¡accuracy ¡is ¡insufficient ¡
- Need ¡some ¡fallback ¡to ¡enforce ¡hard ¡limits ¡
Scalable Systems Lab
} Related ¡Work ¡
- Structured ¡Communica@on ¡Networks ¡(TBON, ¡CIFTS, ¡etc.) ¡
- Asynchronous/non-‑blocking ¡collec@ves ¡
- A ¡whole ¡ra^ ¡of ¡tradi@onal ¡distributed ¡systems ¡studies ¡
} Future ¡Work ¡
- More ¡thorough ¡resilience ¡studies ¡ ¡
- Experimental ¡study ¡of ¡asynchrony/consistency ¡tradeoffs ¡
- Feasibility ¡for ¡other ¡exascale ¡services ¡(resilience, ¡etc.) ¡