use of a new i o stack for extreme scale systems in
play

Use of a New I/O Stack for Extreme-scale Systems in - PowerPoint PPT Presentation

The HDF Group Use of a New I/O Stack for Extreme-scale Systems in Scientific Applications Michael Breitenfeld, Neil Fortner, Jerome Soumagne The HDF Group


  1. The ¡HDF ¡Group Use ¡of ¡a ¡New ¡I/O ¡Stack ¡for ¡ Extreme-­‑scale ¡Systems ¡in ¡ Scientific ¡Applications Michael ¡Breitenfeld, ¡Neil ¡Fortner, ¡ Jerome ¡Soumagne The ¡HDF ¡Group Mohamad ¡Chaarawi, ¡Intel Quincey ¡Koziol, ¡Lawrence ¡Berkeley ¡National ¡Laboratory Collaborators: ¡Intel ¡and ¡LBNL 1 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  2. ESSIO ¡Storage ¡Architecture • Compute ¡Node ¡NVRAM Compute Cluster Site-wide Storage • Hot ¡data Fabric • High ¡valence ¡& ¡velocity Compute I/O Nodes Compute • Brute-­‑force, ¡ad-­‑hoc ¡ Fabric (NVRAM, Nodes SSD) (NVRAM) analysis Parallel Filesystem (NVRAM, SSD, Disk) • I/O ¡Node ¡NVRAM/SSD • Extreme ¡scale-­‑out • Full ¡fabric ¡bandwidth • Semi-­‑hot ¡data/staging ¡buffer • Fractional ¡fabric ¡bandwidth • O(1PB/s)→O(10PB/s) • O(10TB/s)→O(100TB/s) • Extremely ¡low ¡fabric ¡& ¡ • Parallel ¡Filesystem ¡ NVRAM ¡latency NVRAM/SSD/Disk • Extreme ¡fine ¡grain ¡ • Site-­‑wide ¡shared ¡warm ¡storage • New ¡programming ¡models • SAN ¡limited ¡– O(1TB/s)→O(10TB/s) 2 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  3. FastForward/ESSIO ¡Transactional ¡Stack • A ¡ transaction consists ¡ of ¡a ¡set of ¡updates ¡to ¡a ¡ container • container ¡≈ ¡file • Updates ¡are ¡added ¡to ¡a ¡ transaction, ¡not ¡made ¡ directly ¡to ¡a ¡container • Updates ¡include ¡ additions, ¡deletions, ¡ and ¡modifications 3 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  4. HACC ¡— Overview HACC ¡ -­‑ Hardware/Hybrid ¡Accelerated ¡Cosmology ¡Code N-­‑body ¡cosmology ¡code ¡framework ¡where ¡a ¡typical ¡simulation ¡of ¡the ¡ universe ¡demands ¡extreme ¡scale ¡simulation ¡capabilities ¡ Primary ¡data ¡model • 9 ¡arrays ¡at ¡full ¡scale ¡of ¡application • Position ¡in ¡3-­‑D, ¡Velocity ¡in ¡3-­‑D, ¡Simulation ¡Info, ¡Science ¡Data • Additional ¡metadata ¡augmenting ¡provenance, ¡etc 4 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  5. HACC ¡— Data ¡Model: ¡Currently Application ¡creates ¡custom ¡binary ¡files ? 5 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  6. HACC ¡— Data ¡Model: ¡ ESSIO Application ¡creates ¡custom ¡binary ¡files • All ¡application ¡metadata ¡ stored ¡in ¡HDF5 ¡container • HDF5 ¡format ¡is ¡self-­‑ describing, ¡using ¡groups, ¡ datasets ¡and ¡attributes • Any ¡visualization ¡or ¡analysis ¡ process ¡can ¡be ¡used ¡to ¡ investigate ¡science ¡results 6 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  7. HACC ¡— Data ¡Resiliency: ¡Currently þ Application ¡stores ¡and ¡verifies ¡checksum ¡ from ¡memory ¡to ¡the ¡file ¡and ¡back ? (with checksums) 7 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  8. HACC ¡— Data ¡Resiliency: ¡ ESSIO þ Application ¡stores ¡and ¡verifies ¡checksum ¡ from ¡memory ¡to ¡the ¡file ¡and ¡back • Each ¡process ¡calculates ¡and ¡ passes ¡checksum ¡of ¡the ¡local ¡ array ¡section ¡to ¡HDF5 • HDF5 ¡optionally ¡verifies ¡ buffer, ¡and ¡passes ¡checksum ¡ with ¡data ¡down ¡the ¡stack • Checksum ¡verified ¡for ¡every ¡ data ¡buffer ¡operation ¡from ¡ HDF5 ¡to ¡storage ¡and ¡back 8 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  9. HACC ¡— Fault ¡Tolerance: ¡Currently Application ¡retries ¡I/O ¡until ¡completed ? (with checksums) ? 9 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  10. HACC ¡— Fault ¡Tolerance: ¡ ESSIO Application ¡retries ¡I/O ¡until ¡completed • Each ¡process ¡writes ¡all ¡ checkpoint ¡data ¡to ¡ transaction • Transaction ¡is ¡committed ¡to ¡ storage, ¡possibly ¡ asynchronously • If ¡asynchronous, ¡application ¡ can ¡test/wait ¡to ¡guarantee ¡ data ¡is ¡persistent • Future ¡work : ¡replay ¡event ¡ stack ¡on ¡error 10 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  11. High-­‑level ¡HDF5 ¡ESSIO ¡stack ¡libraries Objective Have ¡the ¡high-­‑level ¡I/O ¡code ¡manage ¡the ¡transaction ¡requests ¡ and ¡isolate ¡the ¡application ¡code ¡from ¡the ¡ESSIO ¡stack Ported ¡Two ¡High-­‑level ¡HDF5 ¡based ¡I/O ¡libraries (1) ¡NetCDF – A ¡set ¡of ¡software ¡libraries ¡used ¡to ¡ facilitate ¡the ¡creation, ¡access, ¡and ¡sharing ¡of ¡array-­‑oriented ¡ scientific ¡data ¡in ¡self-­‑describing, ¡machine-­‑independent ¡data ¡ formats (2) ¡Parallel ¡I/O ¡(PIO) ¡– A ¡high-­‑level ¡I/O ¡library ¡which ¡ uses ¡as ¡its ¡backend ¡NetCDF 11 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  12. PIO/NetCDF: ESSIO • Global ¡stack ¡variables ¡are ¡passed ¡as ¡arguments ¡to ¡ NetCDF and ¡from ¡the ¡application • Stack ¡parameters ¡are ¡controlled ¡from ¡within ¡PIO ¡ Application ¡(ACME) PIO Write ¡Array Initialize ¡stack: ¡ Read ¡context ¡id, netCDF Version ¡number, Nth ¡time ¡step • Writes ¡data ¡to ¡stack ¡via ¡ Event ¡stack ¡id, ¡ multiple ¡netCDF ¡APIs transaction ¡id • Increments ¡and ¡ automatically ¡handles ¡ FF ¡variables 12 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

  13. Future ¡Work New ¡superset ¡of ¡DAOS ¡– DAOS-­‑M Distributed ¡Persistent ¡Memory ¡Class ¡Storage ¡Model ¡ • DAOS-­‑M ¡server ¡will ¡access ¡memory ¡class ¡storage ¡using ¡a ¡ Persistent ¡Memory ¡programming ¡model ¡that ¡directly ¡ utilizes ¡load-­‑store ¡access ¡to ¡NVRAM ¡DIMMs • Extends ¡the ¡current ¡DAOS ¡API ¡to ¡support ¡key-­‑value ¡objects ¡ natively Port ¡and ¡benchmark ¡to ¡DAOS-­‑M: (1) ¡Legion ¡Programing ¡System ¡(not ¡presented ¡here) (2) ¡NetCDF ¡to ¡DAOS-­‑M 13 PDSW-­‑DISC ¡2016 ¡-­‑ WIP 11/14/2016 www.hdfgroup.org

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend