a brief history of hpc simula4on and future challenges
play

A Brief History of HPC Simula4on and Future Challenges - PowerPoint PPT Presentation

A Brief History of HPC Simula4on and Future Challenges Kishwar Ahmed , Jason Liu (Florida Interna4onal University) Abdel-Hameed Badawy (New Mexico State


  1. A ¡Brief ¡History ¡of ¡HPC ¡Simula4on ¡ and ¡Future ¡Challenges ¡ Kishwar ¡Ahmed , ¡Jason ¡Liu ¡(Florida ¡Interna4onal ¡University) ¡ Abdel-­‑Hameed ¡Badawy ¡(New ¡Mexico ¡State ¡University) ¡ Stephan ¡Eidenbenz ¡(Los ¡Alamos ¡Na4onal ¡Laboratory) ¡ ¡ Winter ¡Simula4on ¡Conference ¡2017, ¡December ¡3-­‑6, ¡Las ¡Vegas, ¡NV, ¡USA ¡ ¡ ¡ ¡

  2. Outline ¡ • Why ¡HPC ¡system ¡simula4on? ¡ • Exis4ng ¡HPC ¡system ¡simulators ¡ – Processor ¡simulator, ¡memory ¡simulator, ¡ interconnec4on ¡simulator ¡ – Tools ¡for ¡HPC ¡applica4ons ¡ • Future ¡challenges ¡and ¡proposals ¡for ¡HPC ¡ system ¡simula4on ¡ 2 ¡

  3. Why ¡HPC ¡Simula4on? ¡ • We’re ¡rapidly ¡approaching ¡towards ¡exascale ¡ compu4ng ¡ – Containing ¡thousands ¡of ¡nodes ¡with ¡high-­‑ processing ¡capacity ¡ – New ¡and ¡advanced ¡interconnect ¡architecture ¡to ¡ support ¡high-­‑computa4on ¡capacity ¡ ¡ And ¡ ¡ more… ¡ Fat-­‑tree ¡ 3 ¡ Torus ¡ Dragonfly ¡ Slim ¡Fly ¡

  4. Why ¡HPC ¡Simula4on? ¡ • Rapid ¡changes ¡in ¡HPC ¡architecture. ¡For ¡example, ¡ – Many-­‑core ¡and ¡mul4-­‑core ¡architecture ¡ – Complex ¡memory ¡hierarchies: ¡uniform ¡and ¡non-­‑uniform ¡ memory ¡architecture ¡ – Deep ¡pipelining, ¡prefetching, ¡specula4ve ¡execu4on ¡ methods ¡ • Performance ¡predic4on ¡facilitates ¡ – Comparing ¡(newer) ¡design ¡alterna4ves ¡ – Iden4fying ¡performance ¡issues ¡of ¡code ¡on ¡novel ¡HPC ¡ pla^orms ¡ – Evalua4ng ¡the ¡whole-­‑system ¡impact ¡when ¡new ¡ components ¡are ¡introduced ¡ 4 ¡

  5. Our ¡Goals ¡ • Provide ¡a ¡brief ¡history ¡of ¡exis4ng ¡modeling/ simula4on ¡efforts ¡on ¡HPC ¡systems ¡ • Present ¡unique ¡characteris4cs ¡(e.g., ¡support ¡ for ¡power ¡and ¡energy ¡consump4on) ¡of ¡HPC ¡ system ¡simulators ¡ ¡ • Outline ¡some ¡challenges ¡for ¡HPC ¡system ¡ simula4on ¡and ¡propose ¡plans ¡to ¡overcome ¡ those ¡challenges ¡ 5 ¡

  6. Contents ¡ • Why ¡HPC ¡system ¡simula4on? ¡ • Exis4ng ¡HPC ¡system ¡simulators ¡ – Processor ¡simulator, ¡memory ¡simulator, ¡ interconnec4on ¡simulator ¡ – Tools ¡for ¡HPC ¡applica4ons ¡ • Future ¡challenges ¡in ¡HPC ¡system ¡simula4on ¡ 6 ¡

  7. Simula4on ¡of ¡Processors ¡ • Processor ¡architecture ¡in ¡HPC ¡system ¡has ¡gone ¡ through ¡the ¡most ¡changes ¡ – Introduc4on ¡of ¡many-­‑core ¡and ¡mul4-­‑core ¡architecture ¡ – Support ¡for ¡various ¡instruc4on ¡sets ¡ – Arrival ¡of ¡accelerator ¡technologies ¡(e.g., ¡GPUs) ¡ • Many ¡processor ¡simulators ¡exist ¡ – How ¡many ¡instruc4ons ¡can ¡be ¡executed ¡per ¡second? ¡ (scalability) ¡ – How ¡many ¡cores ¡they ¡can ¡support? ¡(scalability) ¡ – How ¡accurately ¡they ¡can ¡replicate ¡instruc4on ¡ execu4on? ¡(accuracy) ¡ 7 ¡

  8. Simula4on ¡of ¡Processors ¡(Contd.) ¡ • RSIM ¡(1997) ¡ – Only ¡mul4core ¡processor ¡available ¡at ¡the ¡4me ¡ • SimpleScalar ¡(2002) ¡ – Supported ¡almost ¡all ¡the ¡complex ¡interac4ons ¡(e.g., ¡complex ¡branch ¡ predic4on ¡schemes) ¡ – Various ¡instruc4on ¡set ¡architectures ¡(ISAs) ¡(e.g., ¡Alpha ¡ISA) ¡ ¡ • gem5 ¡(2011) ¡ – Simulate ¡mul4core ¡system ¡with ¡varying ¡degree ¡of ¡accuracy ¡and ¡speed ¡ – Accommodates ¡many ¡sub-­‑components ¡(on-­‑chip ¡interconnec4on, ¡ GPGPUs) ¡ – Main ¡advantage: ¡ • A ¡community ¡research ¡project, ¡that ¡is ¡highly-­‑extensible ¡ • Supports ¡various ¡ISAs ¡(e.g., ¡Alpha, ¡SPARC, ¡x86, ¡ARM) ¡ 8 ¡

  9. Simula4on ¡of ¡Processors ¡(Contd.) ¡ Simulator ¡ What ¡it ¡does? ¡ Accuracy ¡ Scalability ¡ Highlights ¡ Remarks ¡ Name ¡ (year) ¡ McSimA+ ¡ Uni-­‑core, ¡ Good ¡accuracy ¡ Scalable ¡to ¡ Lightweight, ¡ (+) ¡good ¡accuracy ¡ (2013) ¡ mul4-­‑core-­‑ when ¡compared ¡ processor ¡with ¡ detailed, ¡ ¡ and ¡scalability ¡ many-­‑core ¡ with ¡published ¡ thousands ¡of ¡ flexible ¡ (+) ¡supports ¡ simulator ¡ results ¡and ¡real ¡ cores ¡ cycle-­‑ simula4on ¡of ¡ machine ¡runs ¡ accurate ¡ heterogeneous ¡ simulator ¡ architecture ¡ Zsim ¡(2013) ¡ Large-­‑scale ¡ Accurate ¡through ¡ Fast ¡and ¡ Fast, ¡ (+) ¡ large-­‑scale ¡ many-­‑core ¡ leveraging ¡ scalable, ¡ accurate ¡ simula4on ¡ simulator ¡ ¡ instruc4on-­‑ through ¡running ¡ and ¡scalable ¡ capability ¡ driven ¡4ming ¡ in ¡parallel; ¡can ¡ many-­‑core ¡ models ¡and ¡ simulate ¡ 1024-­‑ simulator ¡ leveraging ¡ core ¡chip ¡ dynamic ¡binary ¡ transla4on ¡ 9 ¡

  10. Simula4on ¡of ¡Processors ¡(Contd.) ¡ Simulator ¡ What ¡it ¡does? ¡ Accuracy ¡ Scalability ¡ Highlights ¡ Remarks ¡ Name ¡ (year) ¡ Manifold ¡ A ¡parallel ¡ No ¡comparison ¡ Up ¡to ¡ 64 ¡core ¡ Component-­‑ (+) ¡easy ¡ (2014) ¡ mul4-­‑core ¡ with ¡exis4ng ¡ simula4on ¡ based ¡ extensibility ¡ simulator ¡ models ¡ design; ¡ (+) ¡core-­‑level ¡ power, ¡ power ¡and ¡ thermal ¡and ¡ energy ¡ energy ¡ consump4on ¡ models ¡ (-­‑) ¡Accuracy ¡not ¡ ¡ tested ¡ (-­‑) ¡Scalability ¡not ¡ shown ¡too ¡good ¡ 10 ¡

  11. Simula4on ¡of ¡Memory ¡ ¡ • Memory ¡is ¡also ¡going ¡through ¡rapid ¡changes ¡ – Increase ¡in ¡memory ¡capacity ¡ – Different ¡technologies, ¡such ¡as ¡DRAM ¡to ¡non-­‑vola4le ¡ memory ¡ ¡ • There ¡exist ¡many ¡memory ¡simulators ¡ – Compare ¡with ¡other ¡memory ¡simulators? ¡(scalability ¡or ¡ speedup ¡and ¡accuracy) ¡ • Early ¡efforts ¡on ¡memory ¡simula4on ¡ – The ¡Wisconsin ¡Wind ¡Tunnel ¡(1993) ¡ • A ¡stepping ¡stone ¡for ¡cache-­‑based ¡memory ¡simula4on ¡ – CACTI ¡(1996) ¡ • Capable ¡of ¡memory ¡model ¡hierarchy ¡simula4on ¡at ¡various ¡levels: ¡ registers, ¡buffers, ¡caches ¡ 11 ¡

  12. Simula4on ¡of ¡Memory ¡(Contd.) ¡ Simulator ¡ What ¡it ¡ Accuracy ¡ Scalability ¡ Interoperability ¡ Highlights ¡ Remarks ¡ Name ¡(year) ¡ does? ¡ -­‑ ¡easy-­‑to-­‑ (+) ¡good ¡ DRAMSim2 ¡ Simulate ¡ Compared ¡ Compared ¡ Straigh^orward ¡ integrate ¡and ¡ accuracy ¡ (2011) ¡ DDR ¡II ¡and ¡ with ¡ to ¡ integra4on ¡with ¡ accurate ¡ (+) ¡easy-­‑to-­‑ DDR ¡III ¡ micron ¡ MARSx86, ¡ MARSx86 ¡ -­‑ ¡simple ¡ integrate ¡ memory ¡ verilog ¡ 30% ¡ programming ¡ (-­‑) ¡high ¡ systems ¡ output: ¡no ¡ simula4on ¡ interface ¡and ¡ simula4on ¡4me ¡ discrepanc 4me ¡ object ¡ to ¡achieve ¡high ¡ ies ¡ ¡ increase ¡ oriented ¡ accuracy ¡ design ¡ DRAM ¡ Validated ¡ 2.5 ¡4mes ¡ Two ¡versions: ¡ ¡ -­‑ extensible : ¡ The ¡simulator ¡is ¡ Ramulator ¡ simula4on, ¡ using ¡ faster ¡than ¡ 1) standalone ¡ ¡ support ¡for ¡ both ¡ fast ¡and ¡ (2015) ¡ but ¡with ¡ Verilog ¡ next ¡fastest ¡ 2) ¡integrated ¡with ¡ various ¡ accurate ¡ focus ¡on ¡ model: ¡no ¡ simulator ¡ gem5 ¡ exis4ng ¡and ¡ compared ¡to ¡ easy-­‑ viola4ons ¡ (USIMM) ¡ future ¡ the ¡exis4ng ¡ extensibility ¡ were ¡ simulators ¡ memory ¡ reported ¡ -­‑modular ¡ simulators. ¡ design ¡ ¡ 12 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend