DRAF: A Low-Power DRAM-based Reconfigurable Acceleration Fabric
Mingyu Gao, Christina Delimitrou, Dimin Niu, Krishna Malladi, Hongzhong Zheng, Bob Brennan, Christos Kozyrakis
ISCA – June 22, 2016
DRAF: A Low-Power DRAM-based Reconfigurable Acceleration Fabric - - PowerPoint PPT Presentation
DRAF: A Low-Power DRAM-based Reconfigurable Acceleration Fabric Mingyu Gao , Christina Delimitrou, Dimin Niu, Krishna Malladi, Hongzhong Zheng, Bob Brennan, Christos Kozyrakis ISCA June 22, 2016 FPGA-Based Accelerators q Improve
Mingyu Gao, Christina Delimitrou, Dimin Niu, Krishna Malladi, Hongzhong Zheng, Bob Brennan, Christos Kozyrakis
ISCA – June 22, 2016
q Improve performance and energy efficiency q Good balance between flexibility (CPUs) and efficiency (ASICs) q Recently used for many datacenter apps
2 ¡
Pictures: ¡Putnam, ¡et ¡al. ¡A ¡Reconfigurable ¡Fabric ¡for ¡Accelera:ng ¡Large-‑Scale ¡Datacenter ¡Services. ¡ISCA’14 ¡
q Deploy FPGAs in cost & power constrained systems q Datacenter systems
q Mobile systems
3 ¡
q A high-density & low-power FPGA
q Uses dense DRAM technology for lookup tables
q DRAF vs. FPGA
4 ¡
5 ¡
6 ¡
Subarray ¡
……
MAT
……
Sense-‑amp
Master ¡wordline Row ¡decoder Local ¡wordline bitline
A DRAM subarray is naturally a lookup-table
Input ¡ Output ¡
……
MAT
……
Sense-‑amp
Master ¡wordline Row ¡decoder Local ¡wordline bitline
7 ¡
~8k-bit output ~1k rows ~10-bit input Mismatch LUT size
a 8192-bit LUT?
Slow speed
a LUT with 10 ns delay?
10-‑30 ¡ns ¡delay ¡ Destructive access
data lost after access?
User ¡ Clock Physical ¡ Path R1 R2 L1 L2 L3 L4
q Explicit activation, restoration, and precharge operations
q Issue of LUT chaining: order of LUT access
8 ¡
Must activate L2 after L1 Must activate L4 after both L2 & L3
Basic Logic Element Multi-Context Support Timing
9 ¡
q Same island layout and configurable interconnect as FPGA
10 ¡
DSP
In DRAM technology Slower but not critical
Block RAM
Uses DRAM arrays
CLB
Contains multiple basic logic elements (BLEs)
7-10 bits input 2-4 bits output
11 ¡
Subarray
……
MAT
……
Sense-‑amp
Master ¡wordline Row ¡decoder Local ¡wordline bitline
Narrower MAT 1k bits to 8-16 bits
Col ¡logic 6 14 4x2 4x2
Specialized column logic Better flexibility
FFs 4 4
Additional FFs & MUXs Registering & retiming Single-MAT access Multi-context
3 4
q DRAF supports 8-16 contexts per chip
q Instant switch between active contexts
q Context uses
12 ¡
User ¡ Clock Physical ¡ Path R1 R2 L1 L2 L3 L4
q Issue of LUT chaining: order of LUT access q Solution: phase – similar to critical path finding
13 ¡ Phase ¡0 ¡ Phase ¡1 ¡
Phase ¡ Timeline ¡
Phase ¡0 ¡ Phase ¡2 ¡ Phase ¡0 ¡ Phase ¡1 ¡ Phase ¡2 ¡
LUT-‑1 ¡ LUT-‑2 ¡
q Issue: precharge and restore delays q Solution: 3-way delay overlapping
q Performance gap between DRAF and FPGA reduces from >10x to 2-4x
14 ¡ ACT ¡ PRE ¡ RST ¡ Wire ¡ ACT ¡ PRE ¡ RST ¡
LUT-‑1 ¡ LUT-‑2 ¡
ACT ¡ PRE ¡ RST ¡ Wire ¡ ACT ¡ PRE ¡ RST ¡
Saved ¡delay ¡
q Challenges à solutions
à multi-context BLE
à phase-based timing
à 3-way delay overlapping
q Other design features (see paper)
15 ¡
Area, power, performance against FPGA and CPU
16 ¡
q Synthesize, place & route with Yosys + VTR q CACTI-3DD with 45 nm power and area models q Comparisons
q 18 accelerator designs
17 ¡
18 ¡ 0.01 ¡ 0.1 ¡ 1 ¡ 10 ¡ 100 ¡ 1000 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ Chip ¡Area ¡(mm2) ¡ Logic ¡Capacity ¡ (in ¡million ¡6-‑LUT ¡equivalents) ¡ ¡ FPGA ¡ DRAF ¡ 0.01 ¡ 0.1 ¡ 1 ¡ 10 ¡ 100 ¡ 1000 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ Peak ¡Chip ¡Power ¡(W) ¡ Logic ¡Capacity ¡ (in ¡million ¡6-‑LUT ¡equivalents) ¡ ¡ FPGA ¡ DRAF ¡
10x area improvement 50x peak power reduction
q 8-context DRAF occupies 19% less area than 1-context FPGA
19 ¡
0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1 ¡ 1.2 ¡ 1.4 ¡ aes ¡ backprop ¡ gemm ¡ gmm ¡ harris ¡ stemmer ¡ stencil ¡ viterbi ¡ editdist ¡
Normalized ¡Min ¡ Bounding ¡Area ¡ FPGA ¡Logic ¡ FPGA ¡Rou:ng ¡ DRAF ¡Logic ¡ DRAF ¡Rou:ng ¡ Inefficient use of larger DRAM LUT exp/log functions
q Use one context in DRAF q DRAF consumes 1/3 power of FPGA and 15% less energy
20 ¡
0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1 ¡ aes ¡ backprop ¡ gemm ¡ gmm ¡ harris ¡ stemmer ¡ stencil ¡ viterbi ¡ editdist ¡
Normalized ¡Power ¡ ¡ FPGA ¡Logic ¡ FPGA ¡Rou:ng ¡ DRAF ¡Logic ¡ DRAF ¡Rou:ng ¡
q DRAF is 2.7x slower than FPGA q DRAF is 13.5x faster than CPU, 3.4x faster than ideal 4-core
21 ¡
0.1 ¡ 1 ¡ 10 ¡ 100 ¡ 1000 ¡ aes ¡ backprop ¡ gemm ¡ gmm ¡ harris ¡ stemmer ¡ stencil ¡ viterbi ¡
Normalized ¡Throughput ¡ CPU ¡ 4 ¡CPU ¡ FPGA ¡ DRAF ¡ exp/log functions Efficient line buffer
q DRAF: high-density and low-power reconfigurable fabric
q DRAF targets cost and power constrained applications
q DRAF trades off some performance for area & power efficiency
22 ¡
Questions?
q Verilog/VHDL programming and similar synthesis flow
q Specific tweaks
q Why not do multi-context in SRAM FPGAs? q Store contexts in-place
q On-chip backup storage
q Lots of data in paper q Main tradeoff is between area and latency
q A major limitation is the CAD tool
q Final LUT size
Mingyu Gao, Christina Delimitrou, Dimin Niu, Krishna Malladi, Hongzhong Zheng, Bob Brennan, Christos Kozyrakis
Session 8A, Wednesday 9am
q FPGA accelerators improve performance and energy efficiency
q Datacenter systems
q Mobile systems
q Based on dense DRAM arrays instead of SRAM LUTs
q Come to the talk to learn about
q Session 8A, Wednesday 9am