breakthrough science on gpu clusters
play

Breakthrough Science on GPU clusters John Taylor , Tomasz - PowerPoint PPT Presentation

Breakthrough Science on GPU clusters John Taylor , Tomasz Bednarz, Steve McMahon - CSIRO March 2015 CSS Darwin About CSIRO Cairns Atherton


  1. Breakthrough ¡Science ¡on ¡GPU ¡clusters ¡ John ¡Taylor ¡, ¡Tomasz ¡Bednarz, ¡Steve ¡McMahon ¡-­‑ ¡ ¡CSIRO ¡ ¡ March ¡2015 ¡ CSS ¡

  2. Darwin ¡ About ¡CSIRO ¡ Cairns ¡ Atherton ¡ People ¡ 5000 ¡ Townsville ¡ 2 ¡sites ¡ Alice ¡Springs ¡ LocaPons ¡ 58 ¡ Rockhampton ¡ Bribie ¡ ¡ Flagships ¡ 9 ¡ Island ¡ Murchison ¡ Toowoomba ¡ Brisbane ¡ GaIon ¡ 6 ¡sites ¡ ¡ Myall ¡Vale ¡ Geraldton ¡ ¡ Armidale ¡ Narrabri ¡ ¡ 2 ¡sites ¡ 2 ¡sites ¡ Budget ¡ $1.3B+ ¡ Mopra ¡ Newcastle ¡ Parkes ¡ Perth ¡ Adelaide ¡ Irymple ¡ Griffith ¡ Sydney ¡ ¡ 5 ¡sites ¡ 3 ¡sites ¡ 2 ¡sites ¡ Canberra ¡ ¡ 7 ¡sites ¡ Wodonga ¡ Werribee ¡ 2 ¡sites ¡ Belmont ¡ Melbourne ¡ 5 ¡sites ¡ ¡ Geelong ¡ 62% ¡of ¡our ¡people ¡hold ¡ Hobart ¡ Sandy ¡Bay ¡ In ¡partnership ¡with ¡ Top ¡1% ¡of ¡global ¡research ¡ university ¡degrees ¡ ¡ universi@es, ¡we ¡ ¡ ins@tu@ons ¡in ¡14 ¡of ¡22 ¡research ¡ 2000 ¡ doctorates ¡ ¡ ¡ develop ¡ 650 ¡ fields ¡ ¡ ¡ Top ¡0.1% ¡ in ¡4 ¡research ¡fields ¡ ¡ 500 ¡ masters ¡ postgraduate ¡ research ¡students ¡

  3. 2009: ¡CSIRO ¡Bragg ¡Cluster ¡ Launch, ¡first ¡of ¡its ¡kind ¡in ¡AU ¡ 2013: ¡Bragg ¡upgrade ¡-­‑ ¡384 ¡ November ¡2014: ¡ Kepler ¡K20M ¡GPUs ¡ #154 ¡TOP500 ¡List ¡ #11 ¡Green500 ¡List ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  4. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡and ¡Green500 ¡Rankings ¡ 350 ¡ 300 ¡ 250 ¡ 200 ¡ 150 ¡ TOP500 ¡Rank ¡ 100 ¡ Green500 ¡rank ¡ 50 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  5. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡ 500 ¡ 400 ¡ 300 ¡ Rmax ¡(TFlops) ¡ 200 ¡ Rpeak ¡(Tflops) ¡ 100 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  6. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡-­‑ ¡Efficiency ¡ 0.9 ¡ 0.8 ¡ 0.7 ¡ 0.6 ¡ 0.5 ¡ 0.4 ¡ 0.3 ¡ Rmax/Rpeak ¡ 0.2 ¡ 0.1 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  7. CSIRO ¡Bragg ¡GPU ¡Cluster ¡– ¡The ¡Future ¡ TOP500 ¡Performance ¡ 1200 ¡ ESTIMATES ¡ 1000 ¡ 800 ¡ 600 ¡ Rmax ¡(TFlops) ¡ 400 ¡ Rpeak ¡(Tflops) ¡ 200 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  8. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ 500 ¡ 400 ¡ 300 ¡ CPU ¡(Tflops) ¡ 200 ¡ GPU ¡(Tflops) ¡ 100 ¡ CPU+GPU ¡(TFlops) ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  9. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ RaPo ¡of ¡GPU/CPU ¡Flops ¡ 15 ¡ 10 ¡ 2xCPU ¡ ra@o ¡ 5 ¡ 0 ¡ 2010/11 ¡2011/6 ¡2011/11 ¡2012/6 ¡2012/11 ¡2013/6 ¡2013/11 ¡2014/6 ¡2014/11 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  10. More ¡compute ¡power ¡means ¡ ¡ Greater ¡accuracy ¡ Larger ¡problem ¡domains ¡ Shorter ¡compute ¡Pmes ¡ ¡ ¡ Large ¡problem/parameter ¡ spaces ¡can ¡be ¡explored ¡ ¡ ¡ More ¡breakthrough ¡science ¡done ¡ ¡

  11. CSS ¡Capability ¡Development ¡Placorms ¡ CSIRO ¡Computa@onal ¡& ¡Simula@on ¡Sciences ¡ Imaging Model Data Computational Data Constrained Processing Fusion & Material Design Materials Modelling & Visualisation Spatial Modelling • Developing ¡core, ¡domain ¡specific, ¡computa@onal ¡capability ¡ • Developing ¡generic ¡computa@onal ¡tools ¡to ¡aid ¡domain ¡work ¡across ¡CSIRO ¡ • Deploying ¡GPU ¡capability/tools ¡back ¡into ¡Flagships ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  12. Principles ¡of ¡X-­‑ray ¡Computed ¡Tomography ¡(CT) ¡ • Typical ¡experimental ¡ ¡ set-­‑up ¡involves ¡an ¡X-­‑ray ¡ Detector ¡ source, ¡a ¡sample ¡on ¡a ¡ Object ¡ rota@on ¡stage ¡and ¡a ¡2D ¡ X-­‑ray ¡source ¡ posi@on-­‑sensi@ve ¡detector ¡ • Images ¡of ¡the ¡sample ¡are ¡ collected ¡at ¡many ¡different ¡ rota@on ¡angles ¡spanning ¡180 ¡ or ¡360 ¡degrees ¡ • Acquired ¡images ¡are ¡ processed ¡in ¡a ¡computer ¡to ¡ produce ¡a ¡3D ¡representa@on ¡ of ¡the ¡internal ¡structure ¡of ¡ the ¡sample ¡

  13. Insect CT scan, rendered using Drishti ( http://anusf.anu.edu.au/Vizlab/drishti/ ) by Sherry Mayo (CSIRO)

  14. ¡CSIRO ¡X-­‑TRACT ¡synchrotron ¡map ¡

  15. Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ Available ¡now ¡ à à ¡www.cloudimaging.net.au ¡ ¡ + ¡ + ¡ HCA-­‑Vision ¡ MILXView ¡ X-­‑TRACT ¡ Workflows ¡in ¡acPon ¡ Create ¡and ¡Share ¡your ¡imaging ¡workflows ¡with ¡ other ¡scien@sts. ¡ Connect ¡various ¡imaging ¡func@ons ¡to ¡create ¡more ¡ complex ¡imaging ¡algorithms. ¡ Visualise ¡the ¡results. ¡ Reuse ¡the ¡workflows ¡on ¡different ¡datasets. ¡ Adjust ¡the ¡parameters ¡whenever ¡required. ¡ Open ¡for ¡Australian ¡scien@sts. ¡ Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ ¡| ¡ ¡Contact: ¡Tomasz ¡Bednarz ¡ ¡

  16. RadiaPon ¡therapy ¡applicaPons ¡ Modern ¡radia@on ¡therapy ¡is ¡to ¡a ¡large ¡extent ¡a ¡computa@onal ¡discipline ¡and ¡can ¡greatly ¡benefit ¡from ¡use ¡of ¡task-­‑ ¡ and ¡data-­‑parallelism. ¡Some ¡applica@ons ¡were ¡demonstrated ¡on ¡GPUs ¡already: ¡ CT ¡reconstruc@ons ¡ • Image ¡registra@ons ¡ • Treatment ¡planning ¡ • Dose ¡computa@ons ¡ (e.g. ¡X ¡Gu, ¡U ¡Jelen ¡et ¡al ¡2011 ¡PMB ¡56) ¡ • Need ¡for ¡speed: ¡imaging ¡and ¡treatment ¡verifica@on ¡can ¡be ¡used ¡as ¡feedback ¡to ¡improve ¡the ¡treatment ¡(adap@ve ¡ radiotherapy), ¡currently ¡offline ¡(mostly ¡popula@on-­‑based), ¡one ¡day ¡online. ¡ Par@cle ¡(proton/carbon ¡ion) ¡therapy ¡with ¡raster ¡scanning ¡@ ¡University ¡of ¡Marburg: ¡ most ¡precise ¡external ¡beam ¡technique ¡(only ¡5 ¡centers ¡worldwide: ¡3 ¡ac@ve, ¡2 ¡to ¡start) ¡ • increased ¡precision ¡= ¡increased ¡need ¡for ¡verifica@on ¡(more ¡computa@ons) ¡ • longer ¡computa@onal ¡@mes ¡(small ¡head ¡case: ¡1 ¡hour ¡on ¡single-­‑thread) ¡ • Collabora@ve ¡project ¡between ¡CSIRO ¡and ¡University ¡of ¡Marburg ¡ ¡ Ammazzalorso, ¡Bednarz, ¡Jelen ¡

  17. Plan ¡robustness ¡in ¡radiaPon ¡therapy ¡ Automa@c ¡discovery ¡of ¡robust ¡beam ¡setups. ¡ Results ¡(mean ¡and ¡sd ¡for ¡a ¡single ¡beam): ¡ 4-­‑core ¡Intel ¡Xeon ¡W3530 ¡2.8GHz ¡12GB ¡RAM ¡+ ¡NVIDIA ¡Tesla ¡C2050 ¡3GB ¡RAM ¡ • 10 ¡skull ¡base ¡cases, ¡42 ¡beams ¡direc@ons ¡(10 ¡runs ¡each ¡for ¡@ming ¡stats) ¡ • 4k-­‑40k ¡pencils ¡of ¡120-­‑350 ¡samples, ¡2 ¡mm ¡analysis ¡radius ¡(0.5 ¡mm ¡step) ¡ • Single-­‑precision ¡floa@ng-­‑point ¡opera@ons ¡only ¡(sufficient ¡precision) ¡ • P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Pool mean(sd) ms Native 21299 9891 6258 15768 4342 10888 10117 5464 8155 11388 10357 (1 thread) (6628) (2837) (1485) (4959) (1136) (3179) (2849) (1470) (2195) (3936) (5941) GPU 219 122 88 148 61 160 151 52 109 126 124 OpenCL (109) (51) (38) (56) (24) (65) (64) (22) (46) (61) (75) 119 x 98 x 87 x 123 x 83 x 81 x 82 x 124 x 90 x 106 x 99 x Gain (36) (34) (30) (36) (25) (24) (30) (42) (31) (29) (36) CPU 6498 2552 1898 4810 1324 3280 3051 1396 2481 2935 3022 OpenCL (1996) (615) (438) (1495) (331) (944) (841) (310) (649) (818) (1798) 3.3 x 3.8 x 3.3 x 3.3 x 3.3 x 3.3 x 3.3 x 3.9 x 3.3 x 3.8 x 3.5 x Gain (0.0) (0.4) (0.0) (0.0) (0.0) (0.0) (0.0) (0.4) (0.0) (0.4) (0.3) F. Ammazzalorso (Uni-Marburg), T. Bednarz (CSIRO) and U. Jelen (Uni-Marburg) - Accepted for journal publication in IOP JPCS (upcoming)

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend