crest
play

CREST Development of System Software Technologies for post-Peta - PowerPoint PPT Presentation

1 CREST Development of System Software Technologies for post-Peta Scale High Performance Computing Project Overview Atsushi Hori RIKEN AICS 2 Research Groups RIKEN AICS A. Hori (PI) Hitachi A. Sutoh Tokyo Univ. of


  1. 1 CREST Development of System Software Technologies for post-Peta Scale High Performance Computing Project Overview Atsushi Hori RIKEN AICS

  2. 2 Research Groups • RIKEN AICS • A. Hori (PI) • Hitachi • A. Sutoh • Tokyo Univ. of Agriculture and Technology • Prof. M. Namiki • Univ. of Tennessee, ICL • J. Dongarra

  3. 3 Project Overview • “Development of System Software Technologies for post-Peta Scale High Performance Computing” ➡ R&D of System Software for Many-core and Multi-core architecture • Broad Research Area • Operating System • Communication and I/O • Light-weight Multi-thread • Fault Resilience • FY2011 - FY2015 (until May 2016)

  4. 4 Research Outcomes • Broad Research Area • Operating System • McKernel, PVAS, ... • Communication and I/O • M-PVAS, EARTH, ... • Light-weight Multi-thread • Agent on (M-)PVAS, ... • Fault Resilience • ULFM on the K, Sliding Substitution, ...

  5. 5 Today’s Topics • Broad Research Area • Operating System • McKernel, PVAS, ... • Communication and I/O • M-PVAS, EARTH, ... • Light-weight Multi-thread • Agent on (M-)PVAS, ... • Fault Resilience • ULFM on the K, Sliding Substitution, ...

  6. 6 PVAS and M-PVAS • New Task Model (patched Linux Kernel) • for Many-core: PVAS • for Hybrid architecture: M-PVAS Multiple PVAS ! Linux Address Map PVAS Address Map Address Map Process Multi-Thread LOW LOW PVAS Task 0 ! Export PVAS Task 0 ! on Many-Core TEXT on Many-Core Many-Core TEXT PVAS ! TEXT DATA & BSS Task 0 PVAS Task 1 ! on Many-Core DATA & BSS DATA & BSS HEAP Address Address HEAP PVAS ! STACK0 PVAS Task 0 ! T ask 1 on Multi-Core HEAP Mutli-Core STACK STACK1 PVAS Task 1 ! on Multi-Core STACK Many-Core ! KERNEL KERNEL KERNEL KERNEL HIGH HIGH Multi-Core ! KERNEL

  7. IPSJ-SIGHPC, 3月,2015 スと等価 CG (NP=8) IS (NP=8) [島田@PGAS’12] CREST領域会議 2013/10/11 PVAS [島田@PGAS’12、島田@MES’13 他] PVAS (Partitioned Virtual Address Space) ⇒ プロセスとスレッドの「いいとこ 取り」 ⇒ Linux カーネルにパッチ メニーコアCPUにおけるコア間通信 の高速化 ⇒ ノード内「通信」はメモリアクセ ⇒ OMPにおいてデフォルトをprivate CREST中間評価 PVAS を用いたノード内通信の評価 IS (NP=8) CG (NP=8) NPB (XcalableMP) での評価 CREST中間評価 RIKEN AICS [島田@PGAS’12] CREST中間評価 とするのとほぼ同じ RIKEN AICS operations 1000 times in parallel PVAS - VM ops [島田@MES’13] CREST中間評価 RIKEN AICS ⇒ PGAS系言語で特に有効 NPB (XcalableMP) での評価 RIKEN AICS 情報処理学会研究報告 ⇒ ノード内「通信」はメモリアクセ 7 Better 6 Better CREST領域会議 2013/10/11 PVAS [島田@PGAS’12、島田@MES’13 他] PVAS (Partitioned Virtual Address Space) ⇒ プロセスとスレッドの「いいとこ 取り」 ⇒ Linux カーネルにパッチ メニーコアCPUにおけるコア間通信 の高速化 スと等価 [島田@PGAS’12] mmap and munmap operations update the memory region tree 7 PVAS を用いたノード内通信の評価 CREST中間評価 RIKEN AICS Page fault handling operations incurred by memset update the page table tree mmap allocates 1MB of memory operations 1000 times in parallel ⇒ OMPにおいてデフォルトをprivate In this benchmark, multiple tasks executes mmap, memset, and munmap PVAS - VM ops [島田@MES’13] CREST中間評価 RIKEN AICS ⇒ PGAS系言語で特に有効 とするのとほぼ同じ [島田@PGAS’12] 図 8 内並列化に対応しているが, 通信と 通信によって,性能が低 下した. を使用することで, 通信の時間を抑 えることができ, との性能差を縮めることができた. を用いることで, の通信時間を抑えるこ とができれば,さらに との性能差を縮めることがで きる. 現在の設計, 実装では, 間,ノード間通信に対応していない.そこで,今後 を使用することが望まれる. 島田明男, 堀敦史, 石川裕:新しいタスクモデルに XMP (gmove) のPVAS実装,大川他(筑波大) ⓒ 姫野ベンチマーク:姫野ベンチマーク, 告, ノード内通信の高性能化,情報処理学会研究報 よる 仕様書, 5 参考文献 通信の設計を行う予定である. 他の通信として, ドを対象とした設計,実装を行い,性能測定を行う.また, ,複数ノー は,大規模計算に対応できるように,複数 は や の性能 通信 に減少 次元分割では,袖通信の通信時間を ル計算の 次元ステンシ 回に置き換えた.その結果, を を省き, の を使用することで, 通信が発生した. と では,通信のための の通信を省いた計算時間 図 させることができた. 次元分割では,重複して持 能を得ており, を よりも高い性 が と では, よりも性能を引き出すことができた. 使用するこで, が同程度であり,プロセス数によっては, たせたベクトルの転置の通信時間を の性能 , , 姫野ベンチマークでは, ことができた. 程度に減少させる Better Partitioned Virtual Address Space Vol.2015-HPC-148 No.22 2015/3/3 Memory is Invaluable NEMESIS-Redezvous NEMESIS-Eager PVAS 1000 10E+3 300,000 • Example IMB PingPong Latency [usec] 100,000 Vader BTL H J 100 1E+3 SM-KNEM BTL J B Bandwidth [MB/s] • OpenMPI Intra-Node Comm. J H 10,000 J B H Latency [us] J B SM BTL H MPIC B J B H J B 100E+0 • Shared Memory (SM) 1,000 10 J H B J H H B J H B J H 100 J B H • KNEM (NEMESIS) J 10E+0 J 1 J J J J H B B B H B B B H B H H 10 H B H • Vader (Xpmem) 0.1 1E+0 Eager Protocol 100E+0 1E+3 100E+3 1E+6 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 10E+0 10E+3 10E+6 1 0.1 1 10 100 1000 10000100000 • Vader is the fastest, but IMB PingPong Message Size [KByte] Memory Usage [MByte] 3E+3 H GASNSET-Shmem GASNET-AM PVAS consumes a lot of memory 100 100E+3 2E+3 • Memory vs. Speed H 10 10E+3 B J Bandwidth [MB/s] 1E+3 Latency [us] 1 1E+3 H J • High Performance and B One Sided B J H Total Page Table Size [MByte] 0.1 100E+0 B J 0E+0 600 • Low memory consumption H 10E+0 0.01 500 300MB • Page table size must be 400 0.001 1E+0 Rendezvous Protocol H B J 300 100E-3 0.0001 taken into account 1E+0 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 100E+6 1E+0 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 100E+6 200 J B H 100 J B H 300MB = 5% of 6GB B J 0 0 60 120 180 240 IMB AlltoAll (2KiB) Number of Processes Rendezvous Protocol 11 25 gmove ‣ In this benchmark, multiple tasks executes mmap, memset, and munmap 20 reduction Time (s) ! ‣ mmap and munmap operations update the memory region tree 15 ‣ mmap allocates 1MB of memory ‣ Page fault handling operations incurred by memset update the page table tree 10 5 0 32 64 128 32 64 128 32 64 128 32 64 128 XMP-MPI XMP-MPI-NOALLOC XMP-PVAS MPI 図 12 NPB-CG の反復回数 32 回による通信時間 10

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend