Waiting for 6+ years Pete Beckman Argonne National Laboratory - - PowerPoint PPT Presentation

waiting for 6 years
SMART_READER_LITE
LIVE PREVIEW

Waiting for 6+ years Pete Beckman Argonne National Laboratory - - PowerPoint PPT Presentation

Argo An Exascale Operating System and Runtime Research Project Pete Beckman Argonne Naonal Laboratory Director, Exascale Technology and Compung Instute Co-Director,


slide-1
SLIDE 1

Argo

An Exascale Operating System and Runtime Research Project

Pete ¡Beckman ¡ Argonne ¡Naonal ¡Laboratory ¡

¡

Director, ¡Exascale ¡Technology ¡and ¡Compung ¡Instute ¡ Co-­‑Director, ¡Northwestern ¡University ¡– ¡Argonne ¡Instute ¡of ¡Science ¡and ¡Engineering ¡

slide-2
SLIDE 2

Pete Beckman Argonne National Laboratory 2

Waiting for 6+ years…

slide-3
SLIDE 3

Pete Beckman Argonne National Laboratory 3

Data from Peter Kogge, Notre Dame

slide-4
SLIDE 4

Pete Beckman Argonne National Laboratory 4

The Argo Team:

§ ANL: ¡Pete ¡Beckman, ¡Marc ¡Snir, ¡Pavan ¡Balaji, ¡Rinku ¡ Gupta, ¡Kamil ¡Iskra, ¡Rajeev ¡Thakur, ¡Kazutomo ¡Yoshii ¡ ¡ § BU: ¡Jonathan ¡Appavoo, ¡Orran ¡Krieger ¡ § LLNL: ¡Maya ¡Gokhale, ¡Edgar ¡Leon, ¡Barry ¡Rountree, ¡ Marn ¡Schulz, ¡Brian ¡Van ¡Essen ¡ § PNNL: ¡Sriram ¡Krishnamoorthy, ¡Roberto ¡Gioiosa, ¡ David ¡Callahan ¡ ¡ § UC: ¡Henry ¡Hoffmann ¡ § UIUC: ¡Laxmikant ¡Kale, ¡Eric ¡Bohm, ¡Ramprasad ¡ Venkataraman ¡ § UO: ¡Allen ¡Malony, ¡Sameer ¡Shende, ¡Kevin ¡Huck ¡ § UTK: ¡Jack ¡Dongarra, ¡George ¡Bosilca ¡ ¡

slide-5
SLIDE 5

Pete Beckman Argonne National Laboratory 5

Argo Key Innovation Areas:

(Focusing on Global OS/R)

§ Node ¡OS ¡ § Lightweight ¡Runme ¡for ¡Concurrency ¡ § Event, ¡Control, ¡and ¡Performance ¡Backplanes ¡ § Global ¡Opmizaon ¡

slide-6
SLIDE 6

Pete Beckman Argonne National Laboratory 6

Key New Argo Abstractions

§ Enclave ¡

– (recursive) ¡ – tree-­‑based ¡hierarchy ¡and ¡recursive ¡decomposion ¡ ¡ – At ¡each ¡level ¡in ¡the ¡hierarchy, ¡four ¡key ¡aspects ¡change: ¡granularity ¡of ¡ control, ¡communicaon ¡frequency, ¡goals, ¡and ¡data ¡resoluon. ¡ ¡

slide-7
SLIDE 7

Pete Beckman Argonne National Laboratory 7

Benefits

§ Embedded ¡feedback ¡and ¡response ¡mechanisms ¡

– Self-­‑aware, ¡Goal-­‑based ¡ ¡ – #include <sanjay_presentation.pptx>

§ Meta-­‑handle ¡for ¡enclaves ¡

– Can ¡write ¡meta-­‑programs ¡for ¡enclave ¡

  • (manage ¡parallelism, ¡task-­‑manager, ¡etc) ¡

– Allows ¡applicaon-­‑specific ¡fault ¡managers, ¡streaming ¡I/O ¡handlers, ¡ many-­‑task ¡UQ ¡engines, ¡and ¡event-­‑based ¡coordinaon ¡of ¡coupled ¡ components ¡ – #include <sanjay_presentation.pptx>

§ Hierarchical, ¡coordinated, ¡global ¡system ¡can ¡set ¡and ¡manage ¡ power ¡budgets, ¡respond ¡to ¡faults, ¡support ¡enclave ¡ components ¡that ¡leverage ¡machine ¡learning, ¡and ¡manage ¡ intranode ¡parallelism. ¡ ¡

slide-8
SLIDE 8

Pete Beckman Argonne National Laboratory 8

Argo: Resource Management Design Principles

§ Resource ¡management ¡is ¡hierarchical, ¡and ¡managers ¡ are ¡stackable ¡ ¡ § Resource ¡managers ¡are ¡integrated ¡ ¡ § Resource ¡managers ¡are ¡customizable ¡and ¡adaptable ¡ ¡ § Sharing ¡is ¡avoided ¡whenever ¡possible ¡ ¡ § Strict ¡enforcement ¡is ¡costly ¡ ¡

slide-9
SLIDE 9

Pete Beckman Argonne National Laboratory 9

A Peek Into Research Areas

slide-10
SLIDE 10

Pete Beckman Argonne National Laboratory 10

Threads/Tasks: Managing Exploding Parallelism

§ Dynamic ¡parallelism ¡and ¡decomposion ¡

– Programmer ¡cannot ¡hand-­‑pick ¡granularity ¡/ ¡resource ¡mapping ¡

  • (equal ¡work ¡!= ¡equal ¡me) ¡

From ¡Brian ¡Van ¡ Straalen ¡ Variability ¡is ¡the ¡new ¡norm: ¡ ¡Power ¡ ¡Resilience ¡ ¡Intranode ¡Contenon ¡

slide-11
SLIDE 11

Pete Beckman Argonne National Laboratory 11

§ Objecves ¡

– High ¡ulizaon ¡of ¡each ¡core ¡ – Scaling ¡to ¡large ¡number ¡of ¡cores ¡ – Shared ¡or ¡distributed ¡memory ¡

§ Methodology ¡

– Dynamic ¡DAG ¡scheduling ¡ – Explicit ¡parallelism ¡ – Implicit ¡communicaon ¡ – Fine ¡granularity ¡/ ¡block ¡data ¡layout ¡

§ Arbitrary ¡DAG ¡with ¡dynamic ¡scheduling ¡

Cholesky 4 x 4 Fork-­‑join ¡ parallelism ¡

PLASMA: Parallel Linear Algebra s/w for Multicore Architectures

DAG ¡scheduled ¡ parallelism ¡ Time ¡ Courtesy ¡Jack ¡Dongarra: ¡

slide-12
SLIDE 12

Pete Beckman Argonne National Laboratory 12

Charm++

(the run-time and execution model)

Courtesy: ¡Laxmikant ¡Kale ¡

slide-13
SLIDE 13

Pete Beckman Argonne National Laboratory 13

Google ¡(re-­‑discovers) ¡OS ¡Noise ¡

slide-14
SLIDE 14

Pete Beckman Argonne National Laboratory 14

Argo Parallelism (Threads/Tasks)

§ Move ¡away ¡from ¡SPMD ¡block ¡synchronous ¡ § Link ¡lightweight ¡thread/task ¡runme ¡into ¡OS ¡ § Support ¡data ¡dependency ¡driven ¡computaon ¡ § Explore ¡memory ¡placement ¡ § Explore ¡pluggable ¡schedulers ¡ § Hardware ¡support ¡for ¡lightweight ¡acvaon ¡

– (e.g. ¡BG/Q ¡wake-­‑on, ¡etc) ¡

Project ¡Lead: ¡ ¡Sanjay ¡Kale ¡

slide-15
SLIDE 15

Pete Beckman Argonne National Laboratory 15

Core-Specialization for Node OS/R

Project ¡Lead: ¡ ¡Kamil ¡Iskra ¡

slide-16
SLIDE 16

Pete Beckman Argonne National Laboratory 16

Memory: Technology Summary from Rob Schreiber

slide-17
SLIDE 17

Pete Beckman Argonne National Laboratory 17

Significant Portion of Memory will be non-volatile

$ ¡ RAM ¡ NVRAM ¡

§ Helps ¡reduce ¡power ¡ § Helps ¡with ¡resilience ¡ § Helps ¡with ¡cost ¡ § How ¡do ¡we ¡represent ¡this ¡in ¡the ¡OS/R? ¡

slide-18
SLIDE 18

Pete Beckman Argonne National Laboratory 18

Power/energy trace tools

l A ¡command ¡line ¡tool ¡ ¡ l No ¡source ¡code ¡modificaon ¡is ¡required ¡ l Sampling ¡the ¡power ¡consumpon ¡with ¡specified ¡interval ¡ l Summarize ¡the ¡total ¡energy ¡consumpon ¡

e.g. $ etrace ./app SOCKET0_ELAPSED=2.000681 SOCKET0_PKG_ENERGY=71.604248 SOCKET0_PP0_ENERGY=44.639069 $ etrace -o file -i 0.1 ./app # output to file

slide-19
SLIDE 19

Pete Beckman Argonne National Laboratory 19

Global View

§ Leverage ¡goal-­‑based ¡opmizaon ¡concepts ¡ § “Self-­‑Aware” ¡Compung ¡

Global ¡View ¡Project ¡Leads: ¡ ¡Marc ¡Snir, ¡Rajeev ¡Thakur ¡ Backplane ¡Project ¡Leads: ¡: ¡Allen ¡Malony, ¡Sameer ¡Shende ¡ ¡ Opmizaon ¡Lead: ¡Hank ¡Hoffmann ¡

slide-20
SLIDE 20

Pete Beckman Argonne National Laboratory 20

Wrapup:

§ Node ¡OS ¡ § Lightweight ¡Runme ¡for ¡Concurrency ¡ § Event, ¡Control, ¡and ¡Performance ¡Backplanes ¡ § Global ¡Opmizaon ¡

slide-21
SLIDE 21

Pete Beckman Argonne National Laboratory 21

Questions?

3 ¡year ¡project: ¡ ¡WE ¡NEED ¡POSTDOCS ¡AND ¡GRAD ¡ ¡ STUDENTS ¡TO ¡COME ¡TO ¡ARGONNE ¡AND ¡HELP! ¡