Mario Côrtes – IC/Unicamp – 2009s2
Chapter 10 Scalable Interconnection Networks
1 Adaptado dos slides da editora por M
Scalable Interconnection Networks Chapter 10 1 Adaptado dos slides - - PDF document
Scalable Interconnection Networks Chapter 10 1 Adaptado dos slides da editora por M Mario Crtes IC/Unicamp 2009s2 10.1 Scalable, High Performance Network Mario Crtes IC/Unicamp 2009s2 At Core of Parallel Computer
Mario Côrtes – IC/Unicamp – 2009s2
1 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
2 Adaptado dos slides da editora por M
M P CA M P CA
network interface Scalable Interconnection Network
(p. 749)
Mario Côrtes – IC/Unicamp – 2009s2
3 Adaptado dos slides da editora por M
(p. 750)
Mario Côrtes – IC/Unicamp – 2009s2
4 Adaptado dos slides da editora por M
(p. 751)
Mario Côrtes – IC/Unicamp – 2009s2
5 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
6 Adaptado dos slides da editora por M
(p. 751-752)
Mario Côrtes – IC/Unicamp – 2009s2
Transmitter ...ABC123 => Receiver ...QR67 =>
7 Adaptado dos slides da editora por M
(p. 751-752)
Mario Côrtes – IC/Unicamp – 2009s2
8 Adaptado dos slides da editora por M
(p. 752)
Mario Côrtes – IC/Unicamp – 2009s2
9 Adaptado dos slides da editora por M
– gridlock avoidance?
(p. 752-753)
Mario Côrtes – IC/Unicamp – 2009s2
10 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
11 Adaptado dos slides da editora por M
(p. 753-754)
Mario Côrtes – IC/Unicamp – 2009s2
12 Adaptado dos slides da editora por M
(p. 754)
Mario Côrtes – IC/Unicamp – 2009s2
13 Adaptado dos slides da editora por M
(p. 756)
Mario Côrtes – IC/Unicamp – 2009s2
2 3 1 0 2 3 1 2 3 1 0 2 3 1 0 2 3 1 0 2 3 1 2 3 1 0 2 3 1 0 2 3 1 2 3 1 2 3 3 1 0 2 1 0 2 3 1 0 1 2 3 Store & Forward R outing C ut-Through R outing S ource Dest Dest
14 Adaptado dos slides da editora por M
2 3 1 0 2 3 1 0 2 3 1 0 2 3 1 0 2 3 1 Tim e
(p. 756-757) h = routing dist; ∆ =delay/hop
Mario Côrtes – IC/Unicamp – 2009s2
15 Adaptado dos slides da editora por M
(p. 759)
Mario Côrtes – IC/Unicamp – 2009s2
– endpoints – within the network
16 Adaptado dos slides da editora por M
– sum of bandwidth of smallest set of links that partition the network
– each msg occupies h channels for = n/w cycles each – C/N channels available per node – link utilization ρ = MC/N h < 1 (na realidade << 1) (p. 761-762)
Mario Côrtes – IC/Unicamp – 2009s2
10 20 30 40 50 60 70 80
Latency
Saturation
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
Delivered Bandwidth
Saturation 17 Adaptado dos slides da editora por M
0,2 0,4 0,6 0,8 1
Delivered Bandwidth
0,5 1 1,5
Offered Bandwidth (p. 762-763)
Mario Côrtes – IC/Unicamp – 2009s2
18 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
19 Adaptado dos slides da editora por M
(p. 764)
Mario Côrtes – IC/Unicamp – 2009s2
Narrow:
multiplexed on wire Synchronous:
clock
20 Adaptado dos slides da editora por M
Short:
value at a time Long:
values at a time Wide:
Asynchronous:
signal
(p. 764)
Mario Côrtes – IC/Unicamp – 2009s2
– no-info, routing tag, packet, end-of-packet
21 Adaptado dos slides da editora por M
– 64 bits data + 6 control
(p. 764)
Mario Côrtes – IC/Unicamp – 2009s2
Cross-bar Input Buffer Output Ports Input Receiver Transmiter Ports Output Buffer
22 Adaptado dos slides da editora por M
Control Routing, Scheduling
(p. 767)
Mario Côrtes – IC/Unicamp – 2009s2
23 Adaptado dos slides da editora por M
(p. 767-768)
Mario Côrtes – IC/Unicamp – 2009s2
24 Adaptado dos slides da editora por M
(p. xxxxx)
Mario Côrtes – IC/Unicamp – 2009s2
25 Adaptado dos slides da editora por M
– bus => O(N), but BW is O(1)
– crossbar => O(N2) for BW O(N)
(p. 768)
Mario Côrtes – IC/Unicamp – 2009s2
26 Adaptado dos slides da editora por M
(p. 769)
Mario Côrtes – IC/Unicamp – 2009s2
2D Grid 3D Cube
27 Adaptado dos slides da editora por M
(p. 769)
Mario Côrtes – IC/Unicamp – 2009s2
28 Adaptado dos slides da editora por M
(p. 771)
Mario Côrtes – IC/Unicamp – 2009s2
29 Adaptado dos slides da editora por M
(p. 771)
Mario Côrtes – IC/Unicamp – 2009s2
30 Adaptado dos slides da editora por M
(p. 772)
Mario Côrtes – IC/Unicamp – 2009s2
31 Adaptado dos slides da editora por M
(p. 772-773)
Mario Côrtes – IC/Unicamp – 2009s2
Fat Tree 32 Adaptado dos slides da editora por M
(p. 774)
Mario Côrtes – IC/Unicamp – 2009s2
1 2 3 4 16 node butterfly
1 1 1 1
building block
A B C
33 Adaptado dos slides da editora por M
(p. 774-775)
Mario Côrtes – IC/Unicamp – 2009s2
34 Adaptado dos slides da editora por M
(p. 776)
Mario Côrtes – IC/Unicamp – 2009s2
16-node Benes Network (Unidirectional) 16-node 2-ary Fat-Tree (Bidirectional)
C D
35 Adaptado dos slides da editora por M
(p. 776-777) A B
Mario Côrtes – IC/Unicamp – 2009s2
36 Adaptado dos slides da editora por M
0-D 1-D 2-D 3-D 4-D
5-D !
(p. 778)
Mario Côrtes – IC/Unicamp – 2009s2
37 Adaptado dos slides da editora por M
(p. 778)
Mario Côrtes – IC/Unicamp – 2009s2
Topology Degree Diameter Ave Dist Bisection D (D ave) @ P=1024 1D Array 2 N-1 N / 3 1 huge 1D Ring 2 N/2 N/4 2 2D Mesh 4 2 (N1/2 - 1) 2/3 N1/2 N1/2 63 (21) 2D Torus 4 N1/2 1/2 N1/2 2N1/2 32 (16)
38 Adaptado dos slides da editora por M
k-ary n-cube 2n nk/2 nk/4 nk/4 15 (7.5) @n=3 Hypercube n =log N n n/2 N/2 10 (5) (p. ???)
Mario Côrtes – IC/Unicamp – 2009s2
39 Adaptado dos slides da editora por M
(p. 781)
Mario Côrtes – IC/Unicamp – 2009s2
40 Adaptado dos slides da editora por M
(p. ??? 780?)
Mario Côrtes – IC/Unicamp – 2009s2
40 60 80 100 120 140 Ave Latency T(n=40) d=2 d=3 d=4 k=2 n/w 100 150 200 250 Ave Latency T(n=140)
41 Adaptado dos slides da editora por M
20 5000 10000
Machine Size (N)
50 2000 4000 6000 8000 10000 Machine Size (N)
(p. 780)
Mario Côrtes – IC/Unicamp – 2009s2
30 40 50 60 70 80 90 100 Ave Distance 256 1024 16384 1048576
42 Adaptado dos slides da editora por M
10 20 30 5 10 15 20 25
Dimension
(p. ????)
Mario Côrtes – IC/Unicamp – 2009s2
43 Adaptado dos slides da editora por M
(p. ???)
Mario Côrtes – IC/Unicamp – 2009s2
44 Adaptado dos slides da editora por M
(p. 782???)
Mario Côrtes – IC/Unicamp – 2009s2
100 150 200 250 g e L a te n c y (n = 4 , ∆ ∆ ∆ ∆ = 2 ) 256 1024 16384 1048576
45 Adaptado dos slides da editora por M
50 5 10 15 20 25
Dimension
A v e ra g e
(p. ?????)
Mario Côrtes – IC/Unicamp – 2009s2
100 150 200 250 300 e Latency T(n=40B) 256 nodes 1024 nodes 16 k nodes 1M nodes 100 150 200 250 300 Latency T(n= 140 B)
46 Adaptado dos slides da editora por M
50 100 5 10 15 20 25 Dimension (d) Ave 50 100 5 10 15 20 25 Dimension (d) Ave L 256 nodes 1024 nodes 16 k nodes 1M nodes
(p. 782-783)
Mario Côrtes – IC/Unicamp – 2009s2
400 500 600 700 800 900 1000 Latency T(n=40)
47 Adaptado dos slides da editora por M
100 200 300 400 5 10 15 20 25
Dimension (d)
Ave La 256 nodes 1024 nodes 16 k nodes 1M nodes
(p. 782-784 Fig 10.15)
Mario Côrtes – IC/Unicamp – 2009s2
300 400 500 600 700 800 900 1000 ve Latency T(n= 140 B) 256 nodes
48 Adaptado dos slides da editora por M
100 200 300 5 10 15 20 25
Dimension (d)
Av 256 nodes 1024 nodes 16 k nodes 1M nodes
(p. 784 Fig. 10.16)
Mario Côrtes – IC/Unicamp – 2009s2
150 200 250 300 Latency n40,d2,k32 n40,d3,k10 n16,d2,k32 n16,d3,k10 n8,d2,k32
49 Adaptado dos slides da editora por M
50 100 0.2 0.4 0.6 0.8 1
Channel Utilization
L n8,d3,k10 n4,d2,k32 n4,d3,k10
(p. 786 Fig. 10.17)
Mario Côrtes – IC/Unicamp – 2009s2
150 200 250 Latency n/w=40 n/w=16 n/w=8
50 Adaptado dos slides da editora por M
50 100 0.2 0.4 0.6 0.8 1 Ave Channel Utilization L n/w = 4
(p. ??)
Mario Côrtes – IC/Unicamp – 2009s2
150 200 250 300 350 Latency
51 Adaptado dos slides da editora por M
50 100 0.05 0.1 0.15 0.2 0.25 Flits per cycle per processor n8, d3, k10 n8, d2, k32
(p. 787-789 Fig 10.18)
Mario Côrtes – IC/Unicamp – 2009s2
52 Adaptado dos slides da editora por M
(p. ???)
Mario Côrtes – IC/Unicamp – 2009s2
53 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
54 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
55 Adaptado dos slides da editora por M
– arithmetic – source-based port select – table driven – general computation
(p. 789)
Mario Côrtes – IC/Unicamp – 2009s2
– west (-x) ∆x < 0 – east (+x) ∆x > 0
56 Adaptado dos slides da editora por M
– east (+x) ∆x > 0 – south (-y)
– north (+y)
– processor
(p. 789)
Mario Côrtes – IC/Unicamp – 2009s2
P0 P1 P2 P3
57 Adaptado dos slides da editora por M
– output = R[i]
– output, I’ = R[i ]
(p. 790)
Mario Côrtes – IC/Unicamp – 2009s2
58 Adaptado dos slides da editora por M
(p. 790-791)
Mario Côrtes – IC/Unicamp – 2009s2
– shared resource – incrementally allocated – non-preemptible
59 Adaptado dos slides da editora por M
– source buffer then dest. buffer – channels along a route
(p. 791-792)
Mario Côrtes – IC/Unicamp – 2009s2
60 Adaptado dos slides da editora por M
(p. 793)
Mario Côrtes – IC/Unicamp – 2009s2
61 Adaptado dos slides da editora por M
1 2 3 1 2 00 01 02 03 10 11 12 13 20 21 22 23 30 31 32 33 17 18 19 16 17 18
Mario Côrtes – IC/Unicamp – 2009s2
1 2 3 1 2 00 01 02 03 10 11 12 13 17 18 17 18
1 2 3 1 2 17 18 17 18 17 18 17 18 1 2 3 1 2
62 Adaptado dos slides da editora por M
20 21 22 23 30 31 32 33 18 19 16 17
1 18 17 18 17 18 17 18 17 1 2 3 1 2 19 16 19 16 19 16 19 16 1 2 3 1 2
Mario Côrtes – IC/Unicamp – 2009s2
63 Adaptado dos slides da editora por M
1 2 3 4 5 6 7
Mario Côrtes – IC/Unicamp – 2009s2
64 Adaptado dos slides da editora por M
Output Ports Input Ports Cross-Bar
Mario Côrtes – IC/Unicamp – 2009s2
65 Adaptado dos slides da editora por M
Packet switches from lo to hi channel
Mario Côrtes – IC/Unicamp – 2009s2
66 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
+Y +X
67 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
West-first
+x +y
68 Adaptado dos slides da editora por M
north-last negative first
Mario Côrtes – IC/Unicamp – 2009s2
69 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
70 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
Cross-bar Input Buffer Output Ports Input Receiver Transmiter Ports Output Buffer
71 Adaptado dos slides da editora por M
Control Routing, Scheduling
Mario Côrtes – IC/Unicamp – 2009s2
Io I1 I
Io I1 I2 I3 O0 Oi O2 72 Adaptado dos slides da editora por M
I2 I3
O3
RAM phase O0 Oi O2 O3 Dout Din Io I1 I2 I3 addr
Mario Côrtes – IC/Unicamp – 2009s2
Cross-bar Output Ports Input Ports R0 R1 R2 R3 73 Adaptado dos slides da editora por M
Scheduling
Mario Côrtes – IC/Unicamp – 2009s2
Output Ports Input Ports Output Ports Output Ports R0 R1
74 Adaptado dos slides da editora por M
Control Ports Output Ports R2 R3
Mario Côrtes – IC/Unicamp – 2009s2
FIFO CRC check Route control Flow Control 8 8 Deserializer 64 Input Port RAM 64x128 In Arb Out Arb Central Queue FIFO CRC Gen Flow Control 8 8 Serializer 64 Ouput Port XBar Arb ° ° ° ° ° °
75 Adaptado dos slides da editora por M
8 x 8 Crossbar FIFO CRC check Route control Flow Control 8 8 Deserializer Input Port ° 64 ° ° ° FIFO CRC Gen Flow Control 8 8 Serializer Ouput Port XBar Arb 8 ° 8
Mario Côrtes – IC/Unicamp – 2009s2
Cross-bar Output Ports R0 R1 R2 O0 O1 Input Buffers
76 Adaptado dos slides da editora por M
R3 O2
Mario Côrtes – IC/Unicamp – 2009s2
Host In Yin Zin Yout Zout 2x2 2x2
77 Adaptado dos slides da editora por M
Host Out Xin Yin Xout Yout 2x2 2x2
Mario Côrtes – IC/Unicamp – 2009s2
78 Adaptado dos slides da editora por M
Data Ready
Mario Côrtes – IC/Unicamp – 2009s2
Source Destination Data Req Ready/Ack
F/E F/E
79 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
Low Mark High Mark Full Stop Go Incoming Phits Flow-control Symbols
80 Adaptado dos slides da editora por M
Empty Outgoing Phits
Mario Côrtes – IC/Unicamp – 2009s2
81 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
Route Tag Dest PE Command Route Tag Dest PE Command Route Tag Dest PE Command Route Tag Dest PE Command Route Tag Dest PE Command Route Tag Dest PE Command R oute Tag D est PE C ommand R ead Req
Addr 0 Addr 1 Src PE Read Resp Read Resp
Word 0 Word 0 Word 1 Word 2 Word 3 Write Req
Addr 0 Addr 1 Src PE Word 0 Addr 0 Addr 1 Src PE Word 0 Word 1 Word 2 Write Req
Write Resp A ddr 0 A ddr 1 Src PE A ddr 0 A ddr 1 B LT R ead Req
82 Adaptado dos slides da editora por M
Word 2 Word 3 Packet Type req/resp coomand 3 1 8
Mario Côrtes – IC/Unicamp – 2009s2
E0E1 E2E3 E15 Inter-Rack External Switch Ports 16-node Rack Switch Board Multi-rack Configuration
83 Adaptado dos slides da editora por M
P0P1 P2P3 P15 Intra-Rack Host Ports
Mario Côrtes – IC/Unicamp – 2009s2
84 Adaptado dos slides da editora por M
Mario Côrtes – IC/Unicamp – 2009s2
iMax
85 Adaptado dos slides da editora por M
(d-1)
(d-1) ; 2 . k
(d-1)