HTTP://WWW.SNIPERSIM.ORG ¡
SATURDAY, ¡FEBRUARY ¡1ST, ¡2014 ¡ FOSDEM ¡2014 ¡– ¡HPC ¡DEVROOM ¡– ¡BRUSSELS, ¡BELGIUM ¡
HPC N ODE P ERFORMANCE AND P OWER S IMULATION WITH THE S NIPER M - - PowerPoint PPT Presentation
HPC N ODE P ERFORMANCE AND P OWER S IMULATION WITH THE S NIPER M ULTI -C ORE S IMULATOR T REVOR E. C ARLSON , W IM H EIRMAN , L IEVEN E ECKHOUT HTTP :// WWW . SNIPERSIM . ORG S ATURDAY ,
HTTP://WWW.SNIPERSIM.ORG ¡
SATURDAY, ¡FEBRUARY ¡1ST, ¡2014 ¡ FOSDEM ¡2014 ¡– ¡HPC ¡DEVROOM ¡– ¡BRUSSELS, ¡BELGIUM ¡
2 ¡
3 ¡
4 ¡
5 ¡ Source: ¡Wikimedia ¡Commons ¡
6 ¡ Westmere-‑EX, ¡Source: ¡Intel ¡ Xeon ¡Phi, ¡Source: ¡Intel ¡
1hcp://newsroom.intel.com/community/intel_newsroom/blog/2013/06/17/ ¡
¡ ¡intel-‑powers-‑the-‑worlds-‑fastest-‑supercomputer-‑reveals-‑new-‑and-‑future-‑high-‑performance-‑compuUng-‑technologies ¡
L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L3 ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L3 ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L3 ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L1I ¡ L1 D ¡ L3 ¡ DRAM ¡
7 ¡
L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ L1I ¡ L1 D ¡ L2 ¡ NoC ¡ L1I ¡ L1 D ¡ L2 ¡
– Varying ¡processor ¡speeds ¡ – Varying ¡failure ¡rates ¡for ¡different ¡components ¡ – Homogeneous ¡applicaUons ¡show ¡heterogeneous ¡performance ¡
– Handle ¡heterogeneity ¡(reacUve ¡load ¡balancing) ¡ – Handle ¡fault ¡tolerance ¡ – Improve ¡power ¡efficiency ¡at ¡the ¡algorithmic ¡level ¡ (extreme ¡data ¡locality) ¡
8 ¡
9 ¡
10 ¡
11 ¡
12 ¡
13 ¡
HTTP://WWW.SNIPERSIM.ORG ¡
SATURDAY, ¡FEBRUARY ¡1ST, ¡2013 ¡ FOSDEM ¡2014 ¡– ¡HPC ¡DEVROOM ¡– ¡BRUSSELS, ¡BRLGIUM ¡
Sniper ¡generates ¡quite ¡a ¡few ¡staUsUcs, ¡ but ¡only ¡with ¡text ¡is ¡it ¡difficult ¡to ¡understand ¡ performance ¡details ¡ Text ¡output ¡from ¡Sniper ¡(sim.stats) ¡
15 ¡
16 ¡
CPI ¡ L2 ¡cache ¡ I-‑cache ¡ Branch ¡ Base ¡
17 ¡
DRAM ¡ L2 ¡ L1 ¡ L1 ¡ L1 ¡ L1 ¡ L2 ¡ L2 ¡ L2 ¡ L3 ¡ L2 ¡ L1 ¡ L1 ¡ L1 ¡ L1 ¡ L2 ¡ L2 ¡ L2 ¡ L3 ¡
data ¡
18 ¡
19 ¡
20 ¡
21 ¡
22 ¡
23 ¡
24 ¡
25 ¡
Expected ¡ trends ¡ Outlying ¡funcUons ¡ (more ¡Ume ¡per ¡insn) ¡
26 ¡
Peak ¡memory ¡ bandwidth ¡ Peak ¡FP ¡ performance ¡
for ¡mulUcore ¡architectures,” ¡CommunicaUons ¡of ¡the ¡ACM, ¡vol. ¡52, ¡no. ¡4, ¡pp. ¡65–76, ¡Apr. ¡2009. ¡
HTTP://WWW.SNIPERSIM.ORG ¡
SATURDAY, ¡FEBRUARY ¡1ST, ¡2013 ¡ FOSDEM ¡2014 ¡– ¡HPC ¡DEVROOM ¡– ¡BRUSSELS, ¡BRLGIUM ¡
28 ¡
29 ¡
baseline: ¡2x ¡quad-‑core ¡ 8 ¡cores ¡ 16 ¡cores, ¡no ¡L3, ¡stacked ¡DRAM ¡ 16 ¡slow ¡cores ¡ 16 ¡thin ¡cores ¡ core ¡ cache ¡ [Heirman ¡et ¡al., ¡PACT ¡2012] ¡
– Used ¡in ¡the ¡ExaScience ¡Lab ¡as ¡component ¡of ¡Space ¡Weather ¡modeling ¡ – Important ¡kernel, ¡part ¡of ¡Berkeley ¡Dwarfs ¡(structured ¡grid) ¡
– Trade ¡off ¡locality ¡with ¡redundant ¡computaUon ¡ – OpUmum ¡depends ¡on ¡relaUve ¡cost ¡(performance ¡& ¡energy) ¡
30 ¡
B B 1 2 3 4 8 16 32 1/2 1 2 4 8 16 Performance (GFLOP/s) Arithmetic intensity (FLOP/byte) peak memory bandwidth peak floating-point performance redundant computation Total performance Useful performance (2562 tiles) Useful performance (1282 tiles)
31 ¡
(a) Performance (simulated time steps per second)
50 100 150 200 250 300 1 2 3 4 Steps/time (1/s) Arithmetic intensity (FLOP/byte) 8-core 32 64 128 256 512 50 100 150 200 250 300 1 2 3 4 Steps/time (1/s) Arithmetic intensity (FLOP/byte) 3D 32 64 128 256 512 50 100 150 200 250 300 1 2 3 4 Steps/time (1/s) Arithmetic intensity (FLOP/byte) low-frequency 32 64 128 256 512 50 100 150 200 250 300 1 2 3 4 Steps/time (1/s) Arithmetic intensity (FLOP/byte) dual-issue 32 64 128 256 512
(b) Energy efficiency (simulated time steps per Joule)
0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Steps/Energy (1/J) Arithmetic intensity (FLOP/byte) 8-core 32 64 128 256 512 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Steps/Energy (1/J) Arithmetic intensity (FLOP/byte) 3D 32 64 128 256 512 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Steps/Energy (1/J) Arithmetic intensity (FLOP/byte) low-frequency 32 64 128 256 512 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Steps/Energy (1/J) Arithmetic intensity (FLOP/byte) dual-issue 32 64 128 256 512
32 ¡
HTTP://WWW.SNIPERSIM.ORG ¡
SATURDAY, ¡FEBRUARY ¡1ST, ¡2014 ¡ FOSDEM ¡2014 ¡– ¡HPC ¡DEVROOM ¡– ¡BRUSSELS, ¡BELGIUM ¡