SLIDE 21 21 ¡
LLNL-PRES-675882
§ Resilient ¡programming ¡models ¡
— Skep<cal ¡ ¡ — Relaxed ¡bulk ¡synchronous ¡ ¡ — Local ¡failure, ¡local ¡recovery ¡ — Selec<ve ¡reliability ¡
§ Algorithm-‑Based ¡Fault ¡Tolerance ¡
— Protect ¡from ¡silent ¡data ¡corrup+on ¡ — Use ¡proper<es ¡of ¡models ¡and ¡
algorithms ¡to ¡detect ¡(good) ¡or ¡be ¡ insensi<ve ¡(beher) ¡to ¡faults ¡
— Understanding ¡how ¡random ¡faults ¡
alter ¡solu<ons ¡/ ¡convergence ¡
Resilience ¡and ¡Correctness: ¡Trusting ¡the ¡ results ¡in ¡the ¡presence ¡of ¡faults ¡
Data from M. Heroux, M. Hoemmen, K. Teranishi
1.E-07 1.E-06 1.E-05 1.E-04 1.E-03 1.E-02 1.E-01 1.E+00 1 2 3 4 5 6 7 8 9 10 11
Relative Residual 2-norm Outer Iteration Number
GMRES Convergence
Deterministic Faulty SpMV’s in Inner Solves GMRES(500) GMRES(50), 10 restart cycles FT-GMRES(50,10)2
What is the right approach for stochastic or chaotic models?