Sliding Substitution of Failed Nodes
Atsushi Hori, Kazumi Yoshinaga, Yutaka Ishikawa RIKEN AICS Thomas Herault, Aurélien Bouteiller, George Bosilca University of Tennessee, ICL
15年10月2日金曜日
Sliding Substitution of Failed Nodes Atsushi Hori, Kazumi - - PowerPoint PPT Presentation
Sliding Substitution of Failed Nodes Atsushi Hori, Kazumi Yoshinaga, Yutaka Ishikawa RIKEN AICS Thomas Herault, Aurlien Bouteiller, George Bosilca University of Tennessee, ICL 15 10 2 2 Motivation Having spare
Atsushi Hori, Kazumi Yoshinaga, Yutaka Ishikawa RIKEN AICS Thomas Herault, Aurélien Bouteiller, George Bosilca University of Tennessee, ICL
15年10月2日金曜日
EuroMPI 2015, Bordeaux
2
15年10月2日金曜日
EuroMPI 2015, Bordeaux
3
15年10月2日金曜日
EuroMPI 2015, Bordeaux
4
15年10月2日金曜日
EuroMPI 2015, Bordeaux
5
Shift the load on to healthy nodes New complex communication pattern
15年10月2日金曜日
EuroMPI 2015, Bordeaux
6
15年10月2日金曜日
EuroMPI 2015, Bordeaux
7
15年10月2日金曜日
EuroMPI 2015, Bordeaux
8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 2D(1,1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 2D(2,1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 2D(2,2)
2 4 6 8 10 12 14 10,000 100,000 1,000,000 % Spare Nodes # Nodes 2D(1,1) 2D(2,1) 3D(1,1) 3D(2,1) 3D(3,1)
15年10月2日金曜日
EuroMPI 2015, Bordeaux
9 10 100 1,000 10,000 10,000 100,000 1,000,000 System MTBF (50,000H/Node) # Nodes 2D(1,1) 2D(2,1) 3D(1,1) 3D(2,1) 3D(3,1)
15年10月2日金曜日
EuroMPI 2015, Bordeaux
10
1 2 3 4 5 10,000 100,000 1,000,000 % Spare Nodes # Nodes 2 4 6 8 10 12 14 10,000 100,000 1,000,000 % Spare Nodes # Nodes 2D(1,1) 2D(2,1) 3D(1,1) 3D(2,1) 3D(3,1)
15年10月2日金曜日
EuroMPI 2015, Bordeaux
11
S F
Spare Nodes Normal After substitution
2D Cartesian Network and XY Routing
15年10月2日金曜日
EuroMPI 2015, Bordeaux
12 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 21 24 25 26 27 28 29 30 31 32 33 34 35
0D Sliding
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25 26 21 28 29 30 31 32 27 34 35 33
1D Sliding 2D Sliding
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Spare Nodes Spare Nodes
Node 21 fails
15年10月2日金曜日
EuroMPI 2015, Bordeaux
(2D Cart. Topo.)
13
B B B B B B B B B B C C C C C
5 10 15 20 25 30 35 1 2 3 4 5 6 7 8 9 10
B Mesh C Torus B B B B B
5 10 15 20 25 30 35 1 2 3 4 5 6 7 8 9 10
B B B
2 4 6 8 10 1 2 3 4 5
# Failures
B B
2 4 6 8 1 2 3 4 5 # Failures
??? combinatory explosion
up to 3 failures in worst case
15年10月2日金曜日
EuroMPI 2015, Bordeaux
14
K K K K K K
KKK
256KiB 1MiB 4MiB
2 3 4 Relative Latency
K K K K K K
KKK
256KiB 1MiB 4MiB
K K K
KKK
256KiB 1MiB 4MiB
K K K
KKK
256KiB 1MiB 4MiB
K K K
KKK
256KiB 1MiB 4MiB
K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
2 3 4 Relative Latency
K K K K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
2 3 4 5 6 Relative Latency
K K K K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
K K K
KKK
256KiB 1MiB 4MiB
K K K K K
KKK
256KiB 1MiB 4MiB
2 3 4 5 6 Relative Latency
K K K K K K
KKK
256KiB 1MiB 4MiB
Smaller is better
15年10月2日金曜日
EuroMPI 2015, Bordeaux
15
KKK KKK
K K K
0D 1D 2D
2 3
K K K K K K K K
K K K K
0D 1D 1D+ 2D
KKK
K K K
0D 1D 2D
K K K K K K K
K K K K
0D 1D 1D+ 2D
4 6 8 10 12
KKK KKK
K K K
0D 1D 2D
K K K K K K K
K K K K
0D 1D 1D+ 2D
2 3
KKK KKK
K K K
0D 1D 2D
2 3
K K K K K K K K
K K K K
0D 1D 1D+ 2D
K K K
K K K
0D 1D 2D
2 3
K K K K K K K K
K K K K
0D 1D 1D+ 2D
2 3
K K K K K K
K K K
0D 1D 2D
2 3
K K K K K K K K
K K K K
0D 1D 1D+ 2D
2 3
collective ops are
their network.
nodes makes the
difficult.
works only with MPI_COMM_WORLD
Smaller is better
15年10月2日金曜日
EuroMPI 2015, Bordeaux
16
15年10月2日金曜日
EuroMPI 2015, Bordeaux
substitution methods
scheduled
nodes is a promising technique
17
15年10月2日金曜日
EuroMPI 2015, Bordeaux
18
15年10月2日金曜日