evalua ng the feasibility of using memory content
play

Evalua&ng the Feasibility of Using Memory Content - PowerPoint PPT Presentation

Department of Computer Science Evalua&ng the Feasibility of Using Memory Content Similarity to Improve System Resilience Sco> Levy, Kurt B. Ferreira, Patrick G.


  1. Department of Computer Science Evalua&ng ¡the ¡Feasibility ¡of ¡Using ¡ Memory ¡Content ¡Similarity ¡to ¡ Improve ¡System ¡Resilience ¡ ¡ Sco> ¡Levy, ¡Kurt ¡B. ¡Ferreira, ¡Patrick ¡G. ¡Bridges, ¡ ¡ Aidan ¡P. ¡Thompson ¡and ¡Chris&an ¡Tro> ¡

  2. Resilience ¡Ma+ers ¡ } In ¡large-­‑scale ¡systems, ¡errors ¡are ¡propor&onal ¡to ¡socket ¡ count ¡ } Current ¡systems ¡have ¡10s ¡of ¡1000s ¡of ¡sockets; ¡the ¡first ¡ exascale ¡system ¡will ¡have ¡100s ¡of ¡1000s ¡of ¡sockets ¡ } Tradi&onal ¡resilience ¡strategies ¡(e.g., ¡coordinated ¡ checkpoint/restart) ¡mean ¡that ¡less ¡and ¡less ¡&me ¡is ¡ spent ¡doing ¡actual ¡work ¡ } Either: ¡(a) ¡develop ¡more ¡efficient ¡ways ¡to ¡recover ¡from ¡ failure; ¡or ¡(b) ¡reduce ¡the ¡rate ¡at ¡which ¡errors ¡lead ¡to ¡ failure ¡ Scalable Systems Lab

  3. DRAM ¡Errors ¡ } One ¡of ¡the ¡most ¡common ¡sources ¡of ¡node ¡failure ¡is ¡ memory ¡errors ¡ } On ¡an ¡x86 ¡system, ¡a ¡DRAM ¡ECC ¡error ¡results ¡in ¡a ¡ machine ¡check ¡excep&on ¡(MCE) ¡ } The ¡consequence ¡of ¡an ¡MCE ¡varies ¡by ¡opera&ng ¡system ¡ } In ¡modern ¡Linux, ¡several ¡mi&ga&on ¡strategies ¡are ¡ employed ¡ } If ¡none ¡of ¡these ¡strategies ¡work, ¡the ¡kernel ¡terminates ¡ the ¡applica&on(s) ¡that ¡have ¡the ¡faulted ¡page ¡mapped ¡ into ¡their ¡address ¡space ¡ ¡ Scalable Systems Lab

  4. Page ¡Categories ¡ } DUPLICATE ¡: ¡ pages ¡with ¡at ¡least ¡on ¡non-­‑zero ¡byte ¡whose ¡ contents ¡match ¡at ¡least ¡one ¡other ¡page ¡ } ZERO ¡: ¡ all-­‑zero ¡pages ¡ } SIMILAR ¡: ¡ pages ¡that ¡: ¡(a) ¡are ¡neither ¡duplicate ¡nor ¡zero; ¡and ¡ (b) ¡can ¡be ¡paired ¡with ¡a ¡another ¡page ¡such ¡that ¡the ¡difference ¡ between ¡the ¡two ¡can ¡be ¡compactly ¡represented ¡ } UNIQUE : ¡ all ¡other ¡pages ¡ For ¡the ¡data ¡presented ¡here, ¡"compactly ¡represented" ¡means ¡a ¡ cxbsdiff ¡patch ¡that ¡is ¡smaller ¡than ¡1024 ¡bytes ¡ Scalable Systems Lab

  5. Repairing ¡DRAM ¡ECC ¡Errors ¡ Begin with uncorrupted block of memory in which we've colored memory to reflect similarity . ¡ ¡ Scalable Systems Lab

  6. Repairing ¡DRAM ¡ECC ¡Errors ¡ XXX DRAM ECC error is detected Begin with uncorrupted indicating that the contents block of memory in which of memory are no longer valid. we've colored memory to reflect similarity . ¡ ¡ Scalable Systems Lab

  7. Repairing ¡DRAM ¡ECC ¡Errors ¡ XXX DRAM ECC error is detected Using the contents of a similar Begin with uncorrupted indicating that the contents page in memory we can block of memory in which of memory are no longer valid. reconstruct the contents of the we've colored memory to corrupted page. reflect similarity . ¡ ¡ Scalable Systems Lab

  8. Repairing ¡DRAM ¡ECC ¡Errors ¡ DRAM ECC error is detected Using the contents of a similar After the faulted page has been Begin with uncorrupted indicating that the contents repaired, the application can page in memory we can block of memory in which of memory are no longer valid. continue without requiring a reconstruct the contents of the we've colored memory to restart. corrupted page. reflect similarity . ¡ ¡ Scalable Systems Lab

  9. Evalua8on ¡ } Objec&ve ¡is ¡to ¡evaluate ¡feasibility ¡ } Approximate ¡the ¡cost ¡and ¡benefit ¡of ¡exploi&ng ¡ memory ¡content ¡similarity ¡ } BENEFIT ¡: ¡ ¡ ◦ number ¡of ¡non-­‑unique ¡pages ¡ } COSTS : ¡ ◦ storage ¡overhead ¡(e.g., ¡patch ¡data) ¡ ◦ run&me ¡overhead ¡ Scalable Systems Lab

  10. HPC ¡Applica8on ¡Suite ¡ ASC ¡Sequoia ¡ AMG ¡ Parallel ¡algebraic ¡mul&grid ¡solver ¡ Marquee ¡ IRS ¡ Implicit ¡Radia&on ¡Solver; ¡radia&on ¡transport ¡ Performance ¡Codes ¡ DOE ¡ ¡ CTH ¡ Mul&-­‑material, ¡large ¡deforma&on, ¡strong ¡shock ¡ Produc&on ¡ wave, ¡solid ¡mechanics ¡code ¡ Applica&ons ¡ LAMMPS ¡ Molecular ¡dynamics ¡simulator ¡ Mantevo ¡ HPCCG ¡ Mimics ¡finite ¡element ¡genera&on, ¡assembly ¡and ¡ Mini-­‑Applica&ons ¡ solu&on ¡for ¡an ¡unstructured ¡grid ¡problem ¡ phdMesh ¡ Mimics ¡the ¡contact ¡search ¡applica&ons ¡in ¡an ¡ explicit ¡finite ¡element ¡applica&on ¡ Miscellaneous ¡ SAMRAI ¡ Enables ¡applica&on ¡of ¡structured ¡adap&ve ¡mesh ¡ Applica&ons ¡ refinement ¡to ¡large-­‑scale ¡mul&-­‑physics ¡problems ¡ ¡ Sweep3D ¡ Neutron ¡transport ¡problem ¡ Scalable Systems Lab

  11. Data ¡Collec8on ¡ } Collected ¡memory ¡snapshots ¡using ¡ libmemstate , ¡a ¡ library ¡built ¡on ¡the ¡MPI ¡Profiling ¡layer ¡and ¡linked ¡ against ¡our ¡target ¡applica&ons ¡ } ¡Periodically, ¡it ¡wakes ¡up ¡and, ¡based ¡on ¡the ¡contents ¡ of ¡ /proc/self/maps , ¡copies ¡the ¡applica&on's ¡ memory ¡to ¡persistent ¡storage ¡ } Analysis ¡is ¡performed ¡off-­‑line ¡ Scalable Systems Lab

  12. Data ¡Collec8on ¡(cont'd) ¡ } Naively, ¡iden&fying ¡similar ¡and ¡duplicate ¡pages ¡is ¡a ¡ O ( n 2 ) ¡ opera&on ¡ } Hashing ¡can ¡reduce ¡the ¡cost ¡of ¡iden&fying ¡duplicate ¡ pages ¡ } Similar ¡pages ¡are ¡trickier; ¡we ¡borrow ¡from ¡the ¡ Difference ¡Engine ¡ Scalable Systems Lab

  13. Iden8fying ¡Similarity ¡(cont'd) ¡ Suppose the memory of an application consists of these seven pages Scalable Systems Lab

  14. Iden8fying ¡Similarity ¡(cont'd) ¡ Suppose the memory of an During initialization, we choose application consists of these four random offsets. The 128 seven pages byte blocks at each offset is a "signature" of the page Scalable Systems Lab

  15. Iden8fying ¡Similarity ¡(cont'd) ¡ Let's suppose we are trying to If any of these five patches are Using hash values, we find We compute patches between determine whether this page smaller than a pre-determined up to four pages that match our candidate page and each threshold (e.g., 1024 bytes) we is similar to any other page in one or more of the candidate of the four pages identified the application's memory classify our candidate page as page's signatures by signature similar Scalable Systems Lab

  16. Iden8fying ¡Similarity ¡(cont'd) ¡ Using hash values, we find up to four pages that match one or more of the candidate page's signatures Scalable Systems Lab

  17. Iden8fying ¡Similarity ¡(cont'd) ¡ patch ¡1 ¡ patch ¡2 ¡ patch ¡3 ¡ patch ¡4 ¡ We compute patches between our candidate page and each of the four pages identified by signature Scalable Systems Lab

  18. Iden8fying ¡Similarity ¡(cont'd) ¡ patch ¡1 ¡ patch ¡2 ¡ patch ¡3 ¡ patch ¡4 ¡ patch ¡5 ¡ We also compute a patch between our candidate page and the page at the next lowest virtual address Scalable Systems Lab

  19. Iden8fying ¡Similarity ¡(cont'd) ¡ patch ¡1 ¡ patch ¡2 ¡ patch ¡3 ¡ patch ¡4 ¡ patch ¡5 ¡ If any of these five patches are smaller than a pre-determined threshold (e.g., 1024 bytes) we classify our candidate page as similar Scalable Systems Lab

  20. Prevalence ¡of ¡Similarity ¡ 100 80 Percent of memory pages 60 40 20 0 AMG2006 CTH IRS LAMMPS SAMRAI HPCCG phdMesh Sweep3D Similar Pages Unique Pages Duplicate Pages Zero Pages } For ¡5 ¡out ¡of ¡8 ¡applica&ons ¡less ¡than ¡half ¡of ¡their ¡memory ¡is ¡ composed ¡of ¡unique ¡pages ¡ Scalable Systems Lab

  21. Inputs ¡ma+er ¡(LAMMPS) ¡ 0.35 Similar Pages Duplicate Pages 0.3 Fraction of memory pages 0.25 0.2 0.15 0.1 0.05 0 LJ EAM Rhodo SNAP Scalable Systems Lab

  22. Inputs ¡ma+er ¡(CTH) ¡ 50 Percent of memory pages 40 30 20 10 0 Conical Charge Fragmenting Pipe Similar Pages Duplicate Pages Scalable Systems Lab

  23. Metadata ¡Overhead ¡ Metadata Size Application (as % of application memory) AMG2006 3.99 % CTH 0.31 % IRS 0.57 % LAMMPS 1.34 % SAMRAI 1.36 % HPCCG 1.15 % phdMesh 5.81 % ¡ Sweep3D 0.46 % ¡ } The ¡patch ¡data ¡for ¡6 ¡out ¡of ¡8 ¡applica&ons ¡occupies ¡less ¡than ¡ 1.5% ¡of ¡applica&on ¡memory ¡ Scalable Systems Lab

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend