Why Exascale Computing will be slightly less disruptive than the - - PowerPoint PPT Presentation

why exascale computing will be slightly less disruptive
SMART_READER_LITE
LIVE PREVIEW

Why Exascale Computing will be slightly less disruptive than the - - PowerPoint PPT Presentation

Why Exascale Computing will be slightly less disruptive than the comet that killed the dinosaurs Numerical Methods for Large-Scale Nonlinear Problems and Their Applica<ons ICERM, Providence,


slide-1
SLIDE 1 LLNL-PRES-675882 This work was performed under the auspices of the U.S. Department of Energy by Lawrence Livermore National Laboratory under contract DE-AC52-07NA27344. Lawrence Livermore National Security, LLC

Why Exascale Computing will be slightly less disruptive than the comet that killed the dinosaurs

Numerical ¡Methods ¡for ¡Large-­‑Scale ¡Nonlinear ¡Problems ¡ and ¡Their ¡Applica<ons ¡

ICERM, ¡Providence, ¡RI ¡

Jeffrey ¡A. ¡F. ¡Hi,nger ¡ ¡ Center ¡for ¡Applied ¡Scien<fic ¡Compu<ng ¡ August 4, 2015

Dinosaur Extinction by kbeis / iStock
slide-2
SLIDE 2 2 ¡ LLNL-PRES-675882

What ¡are ¡things ¡one ¡can ¡find ¡in ¡museums… ¡

Stegosaur and Allosaur by Luke Jones / CC BY 2.0 Cray-1 by Ed Toton / Wikimedia Commons / Public Domain
slide-3
SLIDE 3 3 ¡ LLNL-PRES-675882

Our ¡exascale ¡“comet” ¡approaches… ¡

National Strategic Computing Initiative Executive Order 13702 (July 29, 2015) Create systems that can apply exaflops of computing power to exabytes of data

www.gifmania.co.uk
slide-4
SLIDE 4 4 ¡ LLNL-PRES-675882

We ¡lack ¡the ¡computing ¡power ¡to ¡tackle ¡Grand ¡ Challenge ¡Science ¡problems ¡

Combustion ¡

  • High-­‑pressure, ¡turbulent ¡

reacting ¡flow ¡ ¡

  • Complex ¡moving ¡

geometry ¡

  • Multiphase: ¡fuel ¡

injection ¡and ¡soot ¡

  • Stochasticity ¡
  • Optimal ¡engine ¡design ¡ ¡

Climate ¡

  • Coupling ¡atmosphere, ¡
  • ceans, ¡ice ¡sheets, ¡land ¡

mass, ¡biosphere ¡

  • Global ¡to ¡microscopic ¡
  • Catastrophic ¡rare ¡events ¡
  • Extreme ¡weather ¡

patterns ¡

  • Assessments ¡for ¡policy ¡ ¡

Materials ¡

  • Transient ¡mesoscale ¡

behavior ¡of ¡new ¡ materials ¡

  • Search ¡for ¡novel, ¡
  • ptimal ¡materials ¡
  • Model ¡from ¡nanometers ¡

to ¡microns, ¡ femtoseconds ¡to ¡ minutes ¡

Need (at least) exascale computing resources

slide-5
SLIDE 5 5 ¡ LLNL-PRES-675882

What ¡is ¡an ¡exascale-­‑class ¡machine? ¡

ASCI Red Road Runner K Computer Sequoia Exascale Year 2000 2008 2011 2012 2023 Peak (Flops) 1.3e12 1.7e15 11.3e15 20.1e15 1.2e18 Linpack (Flops) 1.0e12 1.0e15 10.5e15 16.3e15 1.0e18 Total Cores 9,298 130,464 705,024 1,572,864 1e9 Processors 9,298 12,960(6,912) 88,128 98,304 1e6 Cores/Proc 1 9(2) 8 16 1e3 Power (MW) 0.85 2.35 9.89 7.9 ~20

Adapted from B. Harrod, “DOE Exascale Computing Initiative Update,” Aug 15, 2012
slide-6
SLIDE 6 6 ¡ LLNL-PRES-675882

Power ¡has ¡become ¡the ¡dominant ¡constraint ¡

Based on current technology, scaling today’s systems to an exaflop level would consume more than a gigawatt of power, roughly the output of Hoover Dam

– ¡2012 ¡ASCAC ¡Report ¡“The ¡Opportunities ¡and ¡Challenges ¡of ¡Exascale ¡Computing” ¡

Using commodity hardware: Exascale Machine: $100B Annual Power Bill: $1B Phenomenal science: Priceless

Hoover Dam at Night, Tex Roy Bean, CC BY-SA 3.0
slide-7
SLIDE 7 7 ¡ LLNL-PRES-675882 Transistors (thousands) Single-thread Performance (SpecINT)

1975 1980 1985 1990 1995 2000 2005 2010 2015 100 101 102 103 104 105 106 107

Frequency (MHz) Typical Power (Watts) Number of Cores

35 YEARS OF MICROPROCESSOR TREND DATA

Power ¡is ¡also ¡driving ¡architecture ¡changes ¡

  • Power densities limit clock speeds
  • More cores and specialized accelerators
  • Data motion costs on-chip and off-chip
  • Volatile memory (DRAM) is power-hungry
Original data collected and plotted by M. Horowitz, F. Labonte, O. Shacham, K. Olukotun, L. Hammond and C. Batten. Dotted line extrapolations by C. Moore. From C. Moore, “Data Processing in Exascale-Class Computer Systems,” Salishan, 2014
slide-8
SLIDE 8 8 ¡ LLNL-PRES-675882 Based ¡on ¡slide ¡from ¡J. ¡Shalf ¡

NVRAM: ¡Burst ¡ Buffers ¡/ ¡rack-­‑ local ¡storage ¡ DRAM ¡ DRAM ¡ DRAM ¡ DRAM ¡ Bulky ¡Cores ¡ Latency ¡Op+mized ¡ Integrated ¡ NIC ¡ ¡

Future ¡Node ¡Architectures ¡will ¡have ¡many ¡ cores ¡and ¡deep ¡memory ¡hierarchies ¡

slide-9
SLIDE 9 9 ¡ LLNL-PRES-675882

Exascale ¡computing ¡introduces ¡several ¡ fundamental ¡challenges ¡

Extreme ¡ Concurrency ¡

  • Processing ¡units ¡é

é ¡ ¡

  • Bulk-­‑synchronous ¡

will ¡not ¡scale ¡

  • Concurrency ¡é

é ¡

  • Synchronization ¡ê

ê ¡

  • Communication ¡ ¡ê

ê ¡

  • Dynamic ¡task ¡

parallelism ¡ ¡

Limited ¡ Memory ¡

  • Memory ¡gains ¡less ¡

than ¡processing ¡

  • Memory/core ¡ê

ê ¡

  • Minimize ¡memory ¡

usage ¡

  • Deeper ¡, ¡

heterogeneous ¡ memory ¡ hierarchies ¡

Data ¡Locality ¡

  • Transfer ¡gains ¡less ¡

than ¡processing ¡

  • Bandwidth/core ¡ê

ê

  • Energy ¡and ¡time ¡

penalties ¡for ¡data ¡ motion ¡

  • Greater ¡need ¡for ¡

data ¡locality ¡

  • Reduce ¡data ¡

transfers ¡

Resilience ¡

  • Massive ¡number ¡
  • f ¡components: ¡

hard ¡faults ¡é é

  • Running ¡closer ¡to ¡

threshold ¡voltage: ¡ soft ¡faults ¡é é

  • Bulk-­‑synchronous ¡

checkpoint ¡restart ¡ is ¡dead ¡ ¡

slide-10
SLIDE 10 10 ¡ LLNL-PRES-675882

O(N p)

Model and algorithm improvements can improve exponent Machine improvements tend to improve base or coefficient

Hardware ¡improvements ¡are ¡not ¡enough ¡

Mathematics by Robert Scarth / CC BY-SA 2.0
slide-11
SLIDE 11 11 ¡ LLNL-PRES-675882

Will ¡Algorithms ¡for ¡Exascale ¡be… ¡

Mick Tsikas, Reuters
slide-12
SLIDE 12 12 ¡ LLNL-PRES-675882

DOE ¡ASCR ¡chartered ¡an ¡Exascale ¡Applied ¡ Mathematics ¡Working ¡Group ¡

Charge ¡

Identify:

  • gaps in thinking about exascale
  • new algorithmic approaches
  • new scientific questions
  • a more holistic approach

Team ¡

Jack Dongarra* John Bell Luis Chacon Rob Falgout Mike Heroux Jeff Hittinger* Paul Hovland Esmond Ng Clayton Webster Stefan Wild

Process ¡

  • Community Workshop (Aug 2013)
  • Fact-finding teleconferences
  • Grand Challenge reports
*co-chairs
slide-13
SLIDE 13 13 ¡ LLNL-PRES-675882

An ¡organizing ¡principle ¡we ¡used ¡was ¡the ¡ concept ¡of ¡the ¡Mathematics ¡Stack ¡

Areas outside of this conceptual organization:

§ Optimization and optimal control for system management § Discrete mathematics and graph analysis § Finite state machines and discrete event simulation Problem Formulation Mathematical Modeling Model Discretization Numerical Solvers Data Analysis Robustness and Correctness

  • Questions to be answered?
  • Relevant processes &

scales?

  • Single forward simulation?
  • Inverse problem?
  • Optimization? UQ?
  • Expressing the problem

mathematically

  • Appropriate multiscale and

multiphysics models?

  • Coupling between models?
  • UQ formulation?
  • Optimization formulation?
  • Expressing mathematical

model discretely

  • Discretization in space / time
  • Splitting between operators

and spatial domains

  • Solving the discrete system
  • Eigensolvers
  • Linear and nonlinear solvers
  • ODE integrators
  • Understanding the results
  • Data and dimension

reduction

  • Automated analysis
  • Integration of models,

experiments, observations & simulations

  • Trusting the results
  • Robustness to errors
  • Faults
  • Round-off error
  • Discretization error
  • Iteration error

Decisions in any one can significantly impact the others

slide-14
SLIDE 14 14 ¡ LLNL-PRES-675882

Mathematical ¡Modeling: ¡Uncertainty ¡ quantification ¡plays ¡a ¡larger ¡role ¡at ¡exascale ¡ ¡

§ Adap<ve ¡hierarchical ¡methods ¡ § Advanced ¡mul<level ¡methods ¡

— Model ¡hierarchies ¡ — Stochas<c ¡hierarchies ¡

§ Architecture-­‑aware ¡UQ ¡ § Adap<ve ¡and ¡robust ¡methods ¡for ¡

fusing ¡computa<on ¡and ¡experimental ¡ data ¡

1.0$ 1.5$ 2.0$ 2.5$ 3.0$ 3.5$ 4.0$ 4.5$ 1$ 2$ 4$ 8$ 16$ 32$ 64$128$ Ensemble$$Speed5Up$ Nodes$ Blue$Gene/Q$ 1$MPI$Rank/Node,$64$Threads/Rank$ (~$64x64x64$Mesh/Node)$ PCG$Solve$ Ensemble$=$16$ PCG$Solve$ Ensemble$=$32$ AMG$Setup$ Ensemble$=$16$ AMG$Setup$ Ensemble$=$32$ Phipps, Edwards, Hu, Webster, Equinox project, ASCR XUQ

Performance Increase 3D FEM Nonlinear Diffusion

We must be clever in combating the curse of dimensionality

slide-15
SLIDE 15 15 ¡ LLNL-PRES-675882

Mathematical ¡Modeling: ¡Exascale ¡will ¡enable ¡ the ¡solution ¡of ¡new ¡optimization ¡problems ¡

§ Concurrent-­‑point ¡methods ¡ § Mixed-­‑integer, ¡simula<on-­‑based, ¡and ¡global ¡op<miza<on ¡ § Mul<-­‑fidelity ¡hierarchies ¡ § Robust ¡op<miza<on ¡and ¡op<miza<on ¡under ¡UQ ¡ § Op<mal ¡design ¡and ¡coupling ¡of ¡experiments ¡

  • MIPDECOs generate

huge search trees

  • Each node is PDE-

constrained

  • ptimization

Branch and Bound Tree for MIPDECO

[Leyffer & Mahajan]
slide-16
SLIDE 16 16 ¡ LLNL-PRES-675882

§ Can ¡we ¡model ¡addiMonal ¡physics? ¡ § How ¡else ¡can ¡we ¡model ¡the ¡problem? ¡ § Do ¡some ¡models ¡expose ¡more ¡concurrency? ¡ § Scale-­‑bridging ¡models ¡

— Hierarchical ¡representa<ons ¡ — Coarse-­‑graining ¡

§ ParMcle ¡vs. ¡conMnuum ¡

Mathematical ¡Modeling: ¡In ¡forward ¡ simulation, ¡we ¡must ¡consider ¡new ¡models ¡

Boltzmann Extended Hydrodynamics Navier-Stokes Euler

We must respect the physics!

slide-17
SLIDE 17 17 ¡ LLNL-PRES-675882

Discretization: ¡ ¡High-­‑order, ¡partitioning, ¡and ¡ adaptivity ¡will ¡play ¡important ¡roles ¡

§ High-­‑order ¡discreMzaMons ¡

— High ¡arithme<c ¡intensity ¡ ¡ — Maximize ¡on-­‑node ¡performance ¡ — Robustness? ¡ ¡BCs? ¡

§ ParMMoned ¡algorithms ¡ ¡

— Models, ¡equa<ons, ¡and ¡operators ¡ — Spa<al ¡(FSI) ¡ — Temporal ¡(mul<method) ¡

§ Need ¡beTer ¡coupling ¡strategies ¡

— High-­‑order ¡ ¡ — Splibngs ¡based ¡on ¡strength ¡of ¡coupling ¡ — Compa<ble ¡interface ¡treatments ¡ — Nonlinearly ¡converged ¡strategies ¡

§ AdapMvity ¡in ¡mesh, ¡model, ¡

discreMzaMon ¡and ¡order ¡

§ Scalable ¡computaMonal ¡geometry ¡

and ¡mesh ¡generaMon ¡

Kolev et al. Hornung et al. 10 24 51 2 25 6 12 8 64 32 16 Performance (GFlop/s) 32 16 8 4 2 1 1/2 Arithmetic Intensity (flop/byte) Machine peak Machine balance No FMA No AVX Low-order Stencils FFTs Dense Matrix Multiply Greater concurrency
slide-18
SLIDE 18 18 ¡ LLNL-PRES-675882

§ Parallel-­‑in-­‑Mme ¡

— More ¡concurrency, ¡not ¡faster ¡

clock ¡speeds ¡

— Hierarchy ¡of ¡representa<ons ¡of ¡

varying ¡fidelity ¡

— Itera<ve ¡<me ¡advancement ¡ — Compressible ¡Navier-­‑Stokes: ¡

  • Vortex ¡shedding ¡problem ¡
  • 8x ¡speedup ¡at ¡4K ¡cores ¡
  • Crossover ¡at ¡80 ¡cores ¡

§ Research ¡issues: ¡

— Op<mal ¡convergence ¡ — Chao<c ¡systems ¡ — Oscillatory ¡systems ¡ — Hyperbolic ¡systems ¡

  • J. Schroder et al., XBRAID project
Solved in concurrently

t Tf

Heat equation, 2572x16,384 space-time grid

Discretization ¡/ ¡Solvers: ¡ ¡Overcome ¡sequential ¡ bottleneck ¡of ¡time ¡integration ¡

slide-19
SLIDE 19 19 ¡ LLNL-PRES-675882

§ CommunicaMon-­‑avoiding ¡ § SynchronizaMon ¡reducMon ¡ § Data ¡compression ¡ § Mixed-­‑precision ¡ ¡ § RandomizaMon ¡and ¡sampling ¡ ¡ § AdapMve ¡load ¡balancing ¡ § Scheduling ¡and ¡memory ¡

management ¡ ¡

§ Autotuning ¡algorithms ¡ § Energy-­‑efficient ¡algorithms ¡

Scalable ¡Solvers: ¡ ¡In ¡solving ¡the ¡discrete ¡ system, ¡numerous ¡topics ¡must ¡be ¡addressed ¡

Example: Timings on 100^3 7-point Laplacian stencil [E. Chow and A. Patel] 0.01 0.1 1 10 1 2 4 8 16 32 64 128 180 240 Execution Time (s) Threads Fine-Grained Parallel ILU Performance Relative to Level Scheduled ILU New ILU Level Scheduled ILU

uij = aij −

i−1

X

k=1

likukj lij = u−1

jj aij − u−1 jj j−1

X

k=1

likukj i > j i ≤ j

slide-20
SLIDE 20 20 ¡ LLNL-PRES-675882

Data ¡Analysis: ¡Understanding ¡the ¡results ¡

Primary ¡ ¡ Compute ¡Resources ¡ Simulation Secondary ¡ ¡ Compute ¡Resources ¡ Post-processing Storage ¡ In-situ Analysis In-transit Analysis Secondary ¡ ¡ Compute ¡Resources ¡

§ Compute ¡power ¡increasing ¡faster ¡than ¡I/O ¡ § Data ¡movement ¡is ¡too ¡expensive ¡

¡

§ Feature-­‑Aware ¡in ¡situ ¡

transforma<ons ¡

§ Memory ¡and ¡compute-­‑efficient ¡

slide-21
SLIDE 21 21 ¡ LLNL-PRES-675882

§ Resilient ¡programming ¡models ¡

— Skep<cal ¡ ¡ — Relaxed ¡bulk ¡synchronous ¡ ¡ — Local ¡failure, ¡local ¡recovery ¡ — Selec<ve ¡reliability ¡

§ Algorithm-­‑Based ¡Fault ¡Tolerance ¡

— Protect ¡from ¡silent ¡data ¡corrup+on ¡ — Use ¡proper<es ¡of ¡models ¡and ¡

algorithms ¡to ¡detect ¡(good) ¡or ¡be ¡ insensi<ve ¡(beher) ¡to ¡faults ¡

— Understanding ¡how ¡random ¡faults ¡

alter ¡solu<ons ¡/ ¡convergence ¡

Resilience ¡and ¡Correctness: ¡Trusting ¡the ¡ results ¡in ¡the ¡presence ¡of ¡faults ¡

Data from M. Heroux, M. Hoemmen, K. Teranishi 1.E-07 1.E-06 1.E-05 1.E-04 1.E-03 1.E-02 1.E-01 1.E+00 1 2 3 4 5 6 7 8 9 10 11 Relative Residual 2-norm Outer Iteration Number

GMRES Convergence

Deterministic Faulty SpMV’s in Inner Solves GMRES(500) GMRES(50), 10 restart cycles FT-GMRES(50,10)2

What is the right approach for stochastic or chaotic models?

slide-22
SLIDE 22 22 ¡ LLNL-PRES-675882

§ Reproducibility ¡and ¡

verifica<on ¡techniques ¡rely ¡

  • n ¡determinism ¡

§ Can ¡we ¡jus<fy ¡cost ¡of ¡

enforcing ¡determinism? ¡

§ Should ¡we ¡interpret ¡

reproducibility ¡and ¡ verifica<on ¡sta<s<cally? ¡

§ Analysis ¡to ¡understand ¡the ¡

variability ¡of ¡determinis<c ¡ algorithms ¡

Resilience ¡and ¡Correctness: ¡Dynamic ¡ adaptation ¡impairs ¡determinism ¡

slide-23
SLIDE 23 23 ¡ LLNL-PRES-675882

Evolutionary ¡or ¡revolutionary? ¡ ¡A ¡Punctuated ¡ Equilibrium ¡perspective ¡for ¡HPC ¡evolution ¡ ¡

Transitions may be rapid, but continuity with the past is maintained

Based on M. McCoy & R. Neely, Thoughts on HPC at LLNL (the next decade..) Kilo 1.0E+03 1.0E+06 1.0E+09 1.0E+12 1.0E+15 1.0E+18

Peak (ops)

Mega Giga Tera Peta Distributed Memory Era Mainframe Era Vector Era Many Core Era

History of LLNL ASC Computers

Sequoia Sierra Titan Tianhe-2 BG/L Blue Pacific White Roadrunner Purple Zin

Punctuated Equilibrium: Long periods of slow change disrupted by short periods of rapid change

BBN Butterfly Cray T3D Cray 1 Univac-1 Meiko CS-2 CDC 7600
slide-24
SLIDE 24 24 ¡ LLNL-PRES-675882

Math ¡is ¡the ¡DNA ¡of ¡computing ¡that ¡provides ¡ the ¡common ¡thread ¡for ¡(r)evolution ¡

Some ¡approaches ¡may ¡become ¡extinct ¡ Some ¡dominant ¡approaches ¡will ¡lose ¡importance ¡ Some ¡disfavored ¡approaches ¡will ¡gain ¡importance ¡ Some ¡approaches ¡will ¡adjust ¡and ¡continue ¡ Some ¡new ¡approaches ¡will ¡be ¡created ¡

We will not discard the 400+ year legacy of the scientific revolution and begin anew in only a decade

Structure of DNA, CC0 1.0
slide-25
SLIDE 25 25 ¡ LLNL-PRES-675882

It’s ¡the ¡end ¡of ¡the ¡world ¡as ¡we ¡know ¡it… ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡I ¡feel ¡fine ¡

Don Davis, http://www.donaldedavis.com/BIGPUB/BIGIMPCT.jpg, CC0

It’s ¡an ¡opportunity ¡to ¡solve ¡challenging ¡problems ¡ What ¡will ¡emerge? ¡

Wolpertinger, Rainer Zenz, CC BY-SA 3.0
slide-26
SLIDE 26 26 ¡ LLNL-PRES-675882

It ¡will ¡result ¡in ¡ significant ¡ scientific ¡ breakthroughs ¡ Transition ¡poses ¡ numerous ¡ scientific ¡and ¡ technological ¡ challenges ¡ Success ¡will ¡ require ¡close ¡ interdisciplinary ¡ collaboration ¡ Advances ¡in ¡ applied ¡ mathematics ¡ will ¡be ¡essential ¡ ¡

Exascale ¡computing ¡will ¡allow ¡us ¡to ¡compute ¡ in ¡ways ¡that ¡are ¡not ¡feasible ¡today ¡

slide-27
SLIDE 27 27 ¡ LLNL-PRES-675882

Many ¡additional ¡resources ¡are ¡available ¡

http://science.energy.gov/ascr/news-and-resources/program-documents http://science.energy.gov/ascr/news-and-resources/workshops-and-conferences/grand-challenges

Exascale ¡Mathematics ¡Report ¡ DOE ¡Grand ¡Challenge ¡Science ¡Reports ¡ Exascale ¡Mathematics ¡Working ¡Group ¡Website ¡

  • White Papers
  • Workshop presentations
  • Background information
https://collab.mcs.anl.gov/display/examath/Exascale+Mathematics+Home
slide-28
SLIDE 28