CSS ¡
Breakthrough ¡Science ¡on ¡GPU ¡clusters ¡
John ¡Taylor ¡, ¡Tomasz ¡Bednarz, ¡Steve ¡McMahon ¡-‑ ¡ ¡CSIRO ¡ ¡ March ¡2015 ¡
Breakthrough Science on GPU clusters John Taylor , Tomasz - - PowerPoint PPT Presentation
Breakthrough Science on GPU clusters John Taylor , Tomasz Bednarz, Steve McMahon - CSIRO March 2015 CSS Darwin About CSIRO Cairns Atherton
CSS ¡
John ¡Taylor ¡, ¡Tomasz ¡Bednarz, ¡Steve ¡McMahon ¡-‑ ¡ ¡CSIRO ¡ ¡ March ¡2015 ¡
62% ¡of ¡our ¡people ¡hold ¡
university ¡degrees ¡ ¡
2000 ¡doctorates ¡ ¡ ¡ 500 ¡masters ¡
In ¡partnership ¡with ¡ universi@es, ¡we ¡ ¡ develop ¡650 ¡ postgraduate ¡ research ¡students ¡
Top ¡1% ¡of ¡global ¡research ¡
ins@tu@ons ¡in ¡14 ¡of ¡22 ¡research ¡ fields ¡ ¡ ¡
Top ¡0.1% ¡in ¡4 ¡research ¡fields ¡ ¡
Darwin ¡
Alice ¡Springs ¡ Geraldton ¡ ¡
2 ¡sites ¡
Atherton ¡ Townsville ¡
2 ¡sites ¡
Rockhampton ¡ Toowoomba ¡ GaIon ¡ Myall ¡Vale ¡ Narrabri ¡ Mopra ¡ Parkes ¡ Griffith ¡ Belmont ¡ Geelong ¡ Hobart ¡ Sandy ¡Bay ¡ Wodonga ¡ Newcastle ¡ Armidale ¡ ¡2 ¡sites ¡
Perth ¡
3 ¡sites ¡
Adelaide ¡
2 ¡sites ¡
Sydney ¡ ¡5 ¡sites ¡ Canberra ¡ ¡7 ¡sites ¡
Murchison ¡ Cairns ¡ Irymple ¡
Melbourne ¡5 ¡sites ¡ ¡
Werribee ¡2 ¡sites ¡
Brisbane ¡
6 ¡sites ¡ ¡
Bribie ¡ ¡ Island ¡
People ¡ LocaPons ¡ Flagships ¡ Budget ¡ 5000 ¡ 58 ¡ 9 ¡ $1.3B+ ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
2009: ¡CSIRO ¡Bragg ¡Cluster ¡ Launch, ¡first ¡of ¡its ¡kind ¡in ¡AU ¡ 2013: ¡Bragg ¡upgrade ¡-‑ ¡384 ¡ Kepler ¡K20M ¡GPUs ¡ November ¡2014: ¡ #154 ¡TOP500 ¡List ¡ #11 ¡Green500 ¡List ¡
TOP500 ¡and ¡Green500 ¡Rankings ¡
0 ¡ 50 ¡ 100 ¡ 150 ¡ 200 ¡ 250 ¡ 300 ¡ 350 ¡ TOP500 ¡Rank ¡ Green500 ¡rank ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
TOP500 ¡Performance ¡
0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡ Rmax ¡(TFlops) ¡ Rpeak ¡(Tflops) ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
TOP500 ¡Performance ¡-‑ ¡Efficiency ¡
0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ Rmax/Rpeak ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
TOP500 ¡Performance ¡
0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡ 1000 ¡ 1200 ¡ Rmax ¡(TFlops) ¡ Rpeak ¡(Tflops) ¡
ESTIMATES ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡
0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡ CPU ¡(Tflops) ¡ GPU ¡(Tflops) ¡ CPU+GPU ¡(TFlops) ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡
0 ¡ 5 ¡ 10 ¡ 15 ¡ 2010/11 ¡2011/6 ¡2011/11 ¡2012/6 ¡2012/11 ¡2013/6 ¡2013/11 ¡2014/6 ¡2014/11 ¡
RaPo ¡of ¡GPU/CPU ¡Flops ¡
ra@o ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
2xCPU ¡
More ¡compute ¡power ¡means ¡
¡
Greater ¡accuracy ¡ Larger ¡problem ¡domains ¡ Shorter ¡compute ¡Pmes ¡
¡ ¡
Large ¡problem/parameter ¡ spaces ¡can ¡be ¡explored ¡
¡ ¡
More ¡breakthrough ¡science ¡done ¡ ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
Imaging Processing & Visualisation Data Constrained Materials Modelling Model Data Fusion & Spatial Modelling Computational Material Design
CSIRO ¡Computa@onal ¡& ¡Simula@on ¡Sciences ¡
set-‑up ¡involves ¡an ¡X-‑ray ¡ source, ¡a ¡sample ¡on ¡a ¡ rota@on ¡stage ¡and ¡a ¡2D ¡ posi@on-‑sensi@ve ¡detector ¡
collected ¡at ¡many ¡different ¡ rota@on ¡angles ¡spanning ¡180 ¡
processed ¡in ¡a ¡computer ¡to ¡ produce ¡a ¡3D ¡representa@on ¡
the ¡sample ¡
Principles ¡of ¡X-‑ray ¡Computed ¡Tomography ¡(CT) ¡
X-‑ray ¡source ¡ Detector ¡ Object ¡
Insect CT scan, rendered using Drishti (http://anusf.anu.edu.au/Vizlab/drishti/) by Sherry Mayo (CSIRO)
Available ¡now ¡à à ¡www.cloudimaging.net.au ¡ ¡
Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ ¡| ¡ ¡Contact: ¡Tomasz ¡Bednarz ¡ ¡
+ ¡ + ¡
HCA-‑Vision ¡ X-‑TRACT ¡ MILXView ¡
Workflows ¡in ¡acPon ¡
Create ¡and ¡Share ¡your ¡imaging ¡workflows ¡with ¡
Connect ¡various ¡imaging ¡func@ons ¡to ¡create ¡more ¡ complex ¡imaging ¡algorithms. ¡ Visualise ¡the ¡results. ¡ Reuse ¡the ¡workflows ¡on ¡different ¡datasets. ¡ Adjust ¡the ¡parameters ¡whenever ¡required. ¡ Open ¡for ¡Australian ¡scien@sts. ¡
Modern ¡radia@on ¡therapy ¡is ¡to ¡a ¡large ¡extent ¡a ¡computa@onal ¡discipline ¡and ¡can ¡greatly ¡benefit ¡from ¡use ¡of ¡task-‑ ¡ and ¡data-‑parallelism. ¡Some ¡applica@ons ¡were ¡demonstrated ¡on ¡GPUs ¡already: ¡
Need ¡for ¡speed: ¡imaging ¡and ¡treatment ¡verifica@on ¡can ¡be ¡used ¡as ¡feedback ¡to ¡improve ¡the ¡treatment ¡(adap@ve ¡ radiotherapy), ¡currently ¡offline ¡(mostly ¡popula@on-‑based), ¡one ¡day ¡online. ¡ Par@cle ¡(proton/carbon ¡ion) ¡therapy ¡with ¡raster ¡scanning ¡@ ¡University ¡of ¡Marburg: ¡
Collabora@ve ¡project ¡between ¡CSIRO ¡and ¡University ¡of ¡Marburg ¡ ¡ Ammazzalorso, ¡Bednarz, ¡Jelen ¡
Automa@c ¡discovery ¡of ¡robust ¡beam ¡setups. ¡ Results ¡(mean ¡and ¡sd ¡for ¡a ¡single ¡beam): ¡
mean(sd) ms P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Pool Native (1 thread) 21299 (6628) 9891 (2837) 6258 (1485) 15768 (4959) 4342 (1136) 10888 (3179) 10117 (2849) 5464 (1470) 8155 (2195) 11388 (3936) 10357 (5941) GPU OpenCL 219 (109) 122 (51) 88 (38) 148 (56) 61 (24) 160 (65) 151 (64) 52 (22) 109 (46) 126 (61) 124 (75) Gain 119 x (36) 98 x (34) 87 x (30) 123 x (36) 83 x (25) 81 x (24) 82 x (30) 124 x (42) 90 x (31) 106 x (29) 99 x (36) CPU OpenCL 6498 (1996) 2552 (615) 1898 (438) 4810 (1495) 1324 (331) 3280 (944) 3051 (841) 1396 (310) 2481 (649) 2935 (818) 3022 (1798) Gain 3.3 x (0.0) 3.8 x (0.4) 3.3 x (0.0) 3.3 x (0.0) 3.3 x (0.0) 3.3 x (0.0) 3.3 x (0.0) 3.9 x (0.4) 3.3 x (0.0) 3.8 x (0.4) 3.5 x (0.3)
CSIRO ¡GPU ¡cluster ¡to ¡help ¡beIer ¡diagnose ¡pa@ents ¡suffering ¡from ¡a ¡heart ¡rhythm ¡
heart ¡from ¡pumping ¡blood ¡effec@vely ¡-‑ ¡causing ¡sudden ¡death. ¡
structure ¡and ¡electrical ¡proper@es ¡
21 ¡years ¡to ¡10 ¡days ¡ ¡ ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
Porous ¡Cages ¡ Mega-‑clusters ¡
“We ¡performed ¡the ¡largest ¡self-‑assembly ¡simula@on ¡of ¡organic ¡cages” ¡
Evans ¡et ¡al. ¡Journal ¡of ¡Physical ¡Chemistry ¡C, ¡2015, ¡DOI:101.1021/jp512944r ¡ ¡
Wall ¡Pme ¡reduced ¡from ¡ 100 ¡to ¡15 ¡hours ¡using ¡ GPUs ¡
1980 1990 2000 2010 20 30 40 50 60 70
Field 1
Y ear Soil Carbon (t/ha)
Wheat−Wheat Wheat−Wheat 1980 1990 2000 2010 20 30 40 50 60 70
Field 2
Y ear Soil Carbon (t/ha)
Wheat−Fallow Wheat−Fallow 1980 1990 2000 2010 20 30 40 50 60 70
Field 3
Y ear Soil Carbon (t/ha)
Wheat−Pasture Wheat−Pasture
Nanopar@cle ¡assembly ¡modelling ¡
One ¡project ¡developed ¡a ¡GPU ¡port ¡of ¡SNAP ¡
simula@on ¡
A ¡follow-‑up ¡project ¡addressed ¡the ¡simula@on ¡size ¡ limita@ons ¡
– Enables ¡simula@ons ¡25 ¡@mes ¡larger ¡on ¡each ¡GPU ¡
for ¡tackling ¡even ¡larger ¡problems ¡
Adding ¡Distributed ¡Parallelism ¡to ¡Support ¡Larger ¡SimulaPons ¡
Goal:
DOME twisting
¡ * ¡the ¡Lance ¡Boltzmann ¡Model ¡ * ¡based ¡on ¡kinePc ¡theory ¡of ¡gases ¡ * ¡massless ¡parPcles ¡advected ¡on ¡top ¡of ¡the ¡velocity ¡field ¡ * ¡accelerated ¡with ¡OpenCL ¡
CSIRO’s ¡Workspace ¡Framework ¡ coordinates ¡distributed ¡execu@on ¡
www.csiro.au/workspace ¡
Workspace ¡UI ¡ IM&T ¡Remove ¡Viz ¡ ¡ CSIRO ¡GPU ¡Cluster ¡ Workspace ¡ Distributed ¡ Execu@on ¡ ¡
(Via ¡PBS ¡Job ¡System) ¡
OpenCL ¡GPU ¡ Accelerated ¡Workspace ¡ OperaPons ¡ Researcher ¡ VNC ¡with ¡ ¡ VirtualGL ¡ ¡
3D ¡fluid ¡dynamics ¡par@cle ¡simula@ons ¡
Changed ¡to ¡per-‑par@cle ¡volumetric ¡calcula@ons ¡ New ¡OpenCL ¡atomic ¡opera@ons ¡were ¡effec@ve ¡ ¡
data ¡ ¡
Future ¡Work ¡-‑ ¡Should ¡be ¡scalable ¡to ¡mul@ple ¡ GPUs ¡ Implemented ¡on ¡GPUs ¡by ¡Josh ¡Bowden ¡ ¡
Improving ¡Performance ¡with ¡OpenCL ¡and ¡GPUs ¡
– Indicated ¡GPUs ¡should ¡be ¡useful ¡for ¡calcula@ons ¡
available ¡
¡ ¡
OpenCL ¡AWRA ¡DA ¡code ¡| ¡ ¡Josh ¡Bowden ¡
OpenCL ¡based ¡AWRA ¡DA ¡code ¡
computa@on ¡and ¡data ¡ transfer ¡
required ¡per ¡@me ¡step ¡taking ¡
dataset, ¡single ¡precision. ¡
implementa@on ¡of ¡“Kernel ¡ Computa@on” ¡takes ¡around ¡ 1.5 ¡seconds ¡using ¡W5590 ¡
0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡ 1000 ¡
AMD ¡ 6950 ¡ GPU ¡/ ¡ 3.3GHz ¡ CPU ¡ NVidia ¡ C1070 ¡ GPU ¡/ ¡ 3.3 ¡GHz ¡ CPU ¡ NVidia ¡ K20m ¡ GPU ¡/ ¡ 2GHz ¡ CPU ¡ Intel ¡ HD4400 ¡ GPU ¡/ ¡ 1.9GHz ¡ CPU ¡ CPU ¡ W5590 ¡ 4 ¡cores ¡ 3.3GHz ¡ (OpenCL ) ¡ Inflate, ¡transfer ¡and ¡compute ¡kernel ¡ 90 ¡ 160 ¡ 93 ¡ 300 ¡ 445 ¡ Kernel ¡Computa@on ¡ 24 ¡ 42 ¡ 37 ¡ 170 ¡ 364 ¡ Upload ¡Model ¡Data ¡To ¡Device ¡ ¡ 50 ¡ 90 ¡ 30 ¡ 210 ¡ 14 ¡
Pme ¡/ ¡ms ¡
Infrastructure ¡/ ¡Sopware ¡
turnaround ¡– ¡increased ¡produc@vity ¡
Outreach ¡
management ¡and ¡data ¡provenance ¡
Project ¡Work ¡
Leverage ¡exisPng ¡capabiliPes ¡
The ¡CCP ¡has ¡been ¡successfully ¡ licensed ¡to ¡Corporate ¡ IniPaPves ¡in ¡August ¡2013 ¡
Presenta@on ¡@tle ¡ ¡| ¡ ¡Presenter ¡name ¡ ¡| ¡ ¡Page ¡33 ¡
Opportunity? ¡Providing ¡external ¡collaborators ¡access ¡to ¡ internaPonally ¡significant ¡ ¡science ¡data ¡+ ¡compute ¡to ¡process ¡= ¡ “Science ¡as ¡a ¡Service” ¡
DAP ¡pulsar ¡repository ¡ Compute ¡on ¡Bragg ¡Cluster ¡
crystalinity ¡and ¡cellulose ¡crystal ¡width ¡(work ¡in ¡progress). ¡
CSIRO ¡Applica@on ¡of ¡the ¡OpenCL ¡API ¡for ¡implementa@on ¡of ¡the ¡NIPALS ¡algorithm ¡for ¡principal ¡component ¡analysis ¡of ¡large ¡data ¡
PCA ¡of ¡larger ¡data ¡sets ¡– ¡Requires ¡mulPple ¡distributed ¡GPUs ¡
Sta@s@cal ¡methods ¡for ¡interroga@ng ¡large ¡data ¡sets ¡
– Useful ¡for ¡preliminary ¡and ¡exploratory ¡data ¡analysis ¡ – Also ¡used ¡in ¡machine ¡learning, ¡outlier ¡detec@on, ¡regression ¡and ¡predic@on ¡procedures ¡
– Developed ¡in ¡1960’s ¡by ¡H. ¡Wold ¡ ¡
n m n c c m PCA n m , , , ,
CSIRO ¡Applica@on ¡of ¡the ¡OpenCL ¡API ¡for ¡implementa@on ¡of ¡the ¡NIPALS ¡algorithm ¡for ¡principal ¡component ¡analysis ¡of ¡large ¡data ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
“We’ve ¡started ¡to ¡use ¡the ¡GPU ¡cluster ¡to ¡ speed ¡up ¡modelling ¡of ¡nuclear ¡analysers ¡ such ¡as ¡CSIRO’s ¡air ¡cargo ¡scanner. ¡ ¡ The ¡speed ¡is ¡up ¡to ¡5,000 ¡to ¡10,000 ¡@mes ¡ that ¡of ¡a ¡normal ¡desktop ¡computer ¡if ¡we ¡ use ¡most ¡of ¡the ¡cluster. ¡With ¡this ¡ performance ¡increase, ¡simula@ons ¡that ¡ normally ¡take ¡hours ¡can ¡be ¡run ¡ interac@vely ¡in ¡real-‑@me. ¡ ¡ We ¡expect ¡this ¡interac@vity ¡to ¡ significantly ¡benefit ¡the ¡design ¡and ¡
instruments.” ¡ ¡
“The ¡exci)ng ¡part ¡is ¡that ¡MIC ¡and ¡GPU ¡foreshadow ¡what ¡will ¡be ¡on ¡ the ¡CPU ¡in ¡the ¡future. ¡The ¡work ¡that ¡scien)sts ¡are ¡pu@ng ¡in ¡now ¡ to ¡op)mize ¡codes ¡for ¡these ¡processors ¡will ¡pay ¡off. ¡It’s ¡not ¡whether ¡ you ¡should ¡adopt ¡them; ¡it’s ¡whether ¡you ¡want ¡to ¡get ¡a ¡jump ¡on ¡ the ¡future. ¡” ¡ ¡ ¡ ¡ Dan ¡Stanzione, ¡Texas ¡Advanced ¡Compu@ng ¡Center ¡(TACC) ¡funded ¡by ¡ the ¡Na@onal ¡Science ¡Founda@on ¡(NSF) ¡to ¡build ¡Stampede. ¡
CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡
CSS ¡& ¡ERESEARCH ¡
CSIRO ¡Digital ¡ProducPvity ¡and ¡ Services ¡Flagship ¡ ¡ t ¡+61 ¡2 ¡ ¡6216 ¡7077 ¡ E ¡John.A.Taylor@csiro.au ¡ w ¡www.csiro.au ¡