rethinking last level cache management for multicores
play

Rethinking Last-Level Cache Management for Multicores Operating at - PowerPoint PPT Presentation

COMPUTER ARCHITECTURE GROUP Rethinking Last-Level Cache Management for Multicores Operating at Near-Threshold Farrukh Hijaz, Omer Khan University of Connecticut Power Efficiency Multicores enable efficiency Performance/Watt Still need


  1. COMPUTER ARCHITECTURE GROUP Rethinking Last-Level Cache Management for Multicores Operating at Near-Threshold Farrukh Hijaz, Omer Khan University of Connecticut

  2. Power Efficiency Multicores enable efficiency Performance/Watt Still need >3 × improvement to meet HPC GFLOPS/Watt goal Power-performance efficiency stalled Image Credit: http://www.vr-zone.com ‘14 Years COMPUTER 2 ARCHITECTURE GROUP

  3. The Value of Operating at NTV Near Threshold Voltage operation potentially enables 5-10 × power-performance efficiency [Intel: DAC’12] COMPUTER 3 ARCHITECTURE GROUP

  4. NTV Operation? Logic ( ✓ ) NTV ( ✓ ) [Intel:DAC’12] COMPUTER 4 ARCHITECTURE GROUP

  5. NTV Operation? Cache ( ✗ ) NTV ( ✗ ) [Intel:DAC’12] SRAM bit-cells susceptible to errors at NTV COMPUTER 5 ARCHITECTURE GROUP

  6. NTV Approaches for On-chip Memory • High voltage, High frequency • High performance • Low energy efficiency • No faults • Low voltage, Low frequency • Low performance • Highest energy efficiency • No faults • Low voltage, High frequency Our Approach! • High performance • High energy efficiency • Permanent faults COMPUTER 6 ARCHITECTURE GROUP

  7. NTV Approaches for Permanent Faults • Circuit level (8T, 10T SRAM bit-cell) • High area overhead • Higher leakage current • ECC based (SECDED, MS-ECC) • Constant latency overhead • Disabling based (e.g., cache line disabling) • Lower available capacity Our Approach! • Hybrid of ECC and Disabling (e.g., VS-ECC) • Trades off available capacity and latency overhead COMPUTER 7 ARCHITECTURE GROUP

  8. The NTV Challenge in Multicores • Future multicores will have Limited Off-Chip off-chip 100s of cores Bandwidth bandwidth • LLC management is key to optimizing performance and energy • Last-level cache (LLC) data locality and off-chip miss rates 1 st order constraints and often show opposing trends • Lower available LLC capacity at NTV presents Diameter of On-Chip on-chip network new challenges Latency increases with core count COMPUTER 8 ARCHITECTURE GROUP

  9. Static-NUCA (LLC Data Placement) • Statically address interleaves data across all physically distributed LLC slices • No replication of data in the LLC slices • High cache utilization since all data evenly distributed • Data resides in a remote LLC slice with high probability • High remote LLC slice access rate results in higher on- chip network traffic and high average LLC access latency/energy COMPUTER 9 ARCHITECTURE GROUP

  10. Reactive-NUCA (LLC Data Placement, Limited Replication) • Classifies data as private or shared on page granularity using the existing virtual memory system • Maps private pages to requesting core’s local LLC slice • Maps shared pages across the chip based on static address interleaving (similar to Static-NUCA) • Replication of data not allowed • Instructions replicated in LLC slice per cluster of 4, using rotational interleaving • Low LLC access latency/energy for correctly classified private data and instructions • No locality optimizations for shared data COMPUTER 10 ARCHITECTURE GROUP

  11. Victim Replication (LLC Data Placement and Replication) • Starts with S-NUCA and uses the local LLC slice of a core as a victim cache for the cache lines evicted from its L1 cache • Inserts replica only if there exists: • an invalid cache line, • a home cache line with zero sharers, or • another replica • Improves locality and reduces on-chip traffic • Replication strategy causes LLC pollution, resulting in higher evictions of home cache lines with zero sharers and other replicas COMPUTER 11 ARCHITECTURE GROUP

  12. Evaluation Methodology • Evaluation using Graphite multicore simulator for 64 cores • McPAT/CACTI cache energy models and DSENT network energy models at 11 nm • Evaluated 21 benchmarks from the SPLASH-2 (11), PARSEC (8), Parallel MI- bench (1) and UHPC (1) suites • LLC managements schemes compared: • Static-NUCA (S-NUCA) • Reactive-NUCA (R-NUCA) • Victim Replication (VR) COMPUTER 12 ARCHITECTURE GROUP

  13. NTV Fault Model for LLC • Normal distribution of error bits in a cache line with random occurrence probabilities 0e ¡ 1e ¡ ¡2e ¡ 3e ¡ >=4e ¡ LLC Cache Capacity 100% ¡ 80% ¡ 60% ¡ 40% ¡ 20% ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ 0.70% ¡ 1.00% ¡ • LLC tag arrays extended to record “disable bits” • 0e – 2e: ECC correction with additional 1-cycle latency • >2e: Cache line disabling COMPUTER 13 ARCHITECTURE GROUP

  14. Average Results – Completion Time 1.2 ¡ Comple'on ¡Time ¡ 1 ¡ ¡SynchronizaAon ¡ (Normalized) ¡ 0.8 ¡ ¡LLCHome-­‑OffChip ¡ 0.6 ¡ ¡LLCHome-­‑Sharers ¡ 0.4 ¡ 0.2 ¡ ¡LLCHome-­‑WaiAng ¡ 0 ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡L1C-­‑LLCHome ¡ ¡L1C-­‑LLCReplica ¡ ¡Compute ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ • R-NUCA and VR perform consistently better than S- NUCA • VR’s replication helps at low fault rates • Lower replication opportunities for VR at higher fault rates result in completion time on-par with R-NUCA COMPUTER 14 ARCHITECTURE GROUP

  15. Average Results – Energy 1.2 ¡ (Normalized) ¡ 1 ¡ ¡DRAM ¡ 0.8 ¡ Energy ¡ ¡Network ¡Link ¡ 0.6 ¡ ¡Network ¡Router ¡ 0.4 ¡ 0.2 ¡ ¡Directory ¡ 0 ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ LLC ¡ ¡L1-­‑D ¡Cache ¡ ¡L1-­‑I ¡Cache ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ • Static energy dominates the overall energy • Energy consumption tracks completion time COMPUTER 15 ARCHITECTURE GROUP

  16. Benchmark Results – Barnes 1.4 ¡ Comple'on ¡Time ¡ 1.2 ¡ ¡SynchronizaAon ¡ (Normalized) ¡ 1 ¡ ¡LLCHome-­‑OffChip ¡ 0.8 ¡ 0.6 ¡ ¡LLCHome-­‑Sharers ¡ 0.4 ¡ 0.2 ¡ ¡LLCHome-­‑WaiAng ¡ 0 ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡L1C-­‑LLCHome ¡ ¡L1C-­‑LLCReplica ¡ ¡Compute ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ • Replication helps significantly at lower fault rates • Lower replication opportunity at higher fault rates diminishes advantage over R-NUCA COMPUTER 16 ARCHITECTURE GROUP

  17. Benchmark Results – Ocean_NC 1.4 ¡ Comple'on ¡Time ¡ 1.2 ¡ ¡SynchronizaAon ¡ (Normalized) ¡ 1 ¡ ¡LLCHome-­‑OffChip ¡ 0.8 ¡ 0.6 ¡ ¡LLCHome-­‑Sharers ¡ 0.4 ¡ 0.2 ¡ ¡LLCHome-­‑WaiAng ¡ 0 ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡L1C-­‑LLCHome ¡ ¡L1C-­‑LLCReplica ¡ ¡Compute ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ • R-NUCA performance 100% ¡ Shared ¡Read-­‑ degrades due to false sharing Accesses 80% ¡ Write ¡ Shared ¡Read-­‑ LLC 60% ¡ • VR better than R-NUCA, Only ¡ 40% ¡ Private ¡ however, lower advantage at 20% ¡ InstrucAon ¡ higher fault rates 0% ¡ Cache-­‑Line ¡ Page ¡ COMPUTER 17 ARCHITECTURE GROUP

  18. Benchmark Results – Dedup 1.4 ¡ Comple'on ¡Time ¡ 1.2 ¡ ¡SynchronizaAon ¡ (Normalized) ¡ 1 ¡ ¡LLCHome-­‑OffChip ¡ 0.8 ¡ 0.6 ¡ ¡LLCHome-­‑Sharers ¡ 0.4 ¡ 0.2 ¡ ¡LLCHome-­‑WaiAng ¡ 0 ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡S-­‑NUCA ¡ ¡R-­‑NUCA ¡ ¡VR ¡ ¡L1C-­‑LLCHome ¡ ¡L1C-­‑LLCReplica ¡ ¡Compute ¡ 0% ¡ 0.10% ¡ 0.30% ¡ 0.50% ¡ • High number of LLC accesses to thread-private data • R-NUCA’s local placement of private data is effective in improving completion time over VR COMPUTER 18 ARCHITECTURE GROUP

  19. Observations • No one-fits-all data management scheme at the lower LLC capacity when operating at NTV • A scheme that works optimally at higher LLC capacity might not be effective at the lower usable capacity • Optimizing locality ends up putting extra stress on the LLC, increasing the off-chip miss rate • There is a need for a data management scheme that not only utilizes LLC capacity more intelligently but also possess the ability to handle the random distribution of faults COMPUTER 19 ARCHITECTURE GROUP

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend