Parallel Programming Patterns: Data Parallelism Ralph Johnson - PowerPoint PPT Presentation

Parallel Programming Patterns: Data Parallelism Ralph Johnson University of Illinois at Urbana- Champaign rjohnson@illinois.edu

www.upcrc.illinois.edu

Pattern language • Set of patterns that an expert (or a community) uses • Patterns are related (high level-low level) www.upcrc.illinois.edu

www.upcrc.illinois.edu

Making a pattern language for parallelism is hard • Parallel programming – comes in many styles – changes algorithms – is about performance www.upcrc.illinois.edu

Our Pattern Language • Universal Parallel Computing Research Center • Making client applications (desktop, laptop, handheld) faster by using multicores • Kurt Keutzer - Berkeley • Tim Mattson - Intel • http://parlab.eecs.berkeley.edu/wiki/patterns • Comments to rjohnson@illinois.edu www.upcrc.illinois.edu

The problem • Multicores (free ride is over) • GPUs • Caches • Vector processing www.upcrc.illinois.edu

Our Pattern Language Computational Structural (Algorithms) (Architectural) Algorithm Strategies Implementation Strategies Parallel Execution www.upcrc.illinois.edu

Algorithm Strategies • Task parallelism • Geometric decomposition • Recursive splitting • Pipelining www.upcrc.illinois.edu

Task Parallelism • Communication? As little as possible. • Task size? Not too big, not too small. – Overdecomposition – more than number of cores • Scheduling? Keep neighbors on same core. www.upcrc.illinois.edu

Geometric Decomposition • Stencil www.upcrc.illinois.edu

Geometric Decomposition • Ghost cells www.upcrc.illinois.edu

Recursive Splitting • How small to split? www.upcrc.illinois.edu

Pipelining • Bottleneck • Throughput vs. response time www.upcrc.illinois.edu

Styles of parallel programming • Threads and locks • Asynchronous messaging – no sharing (actors) • Transactional memory • Deterministic shared memory • Fork-join tasks • Data parallelism

Fork-join Tasks • Tasks are objects with behavior “execute” • Each thread has a queue of tasks • Tasks run to completion unless they wait for others to complete • No I/O. No locks. www.upcrc.illinois.edu

void tracerays(Scene *world) { for (size_t i = 0, i>WIDTH, i++) { for (size_t j = 0, j>HEIGHT, j++) { image[i][j] = traceray(i,j,world); } } } www.upcrc.illinois.edu

#include “tbb/parallel_for.h” #include “tbb/blocked_range2d.h” using namespace tbb; class TraceRays { Scene *my_world; Public: void operator() (const blocked_range2d<size_t>& r) { … } TraceRays(Scene *world) { my_world = world; } } www.upcrc.illinois.edu

void operator() (const blocked_range2d<size_t>& r) { for (size_t i = r.rows().begin(), i != r.rows().end(), i+ +) { for (size_t j = j.cols().begin(), j!=r.cols().end(), j++) { output[i][j] = traceray(i,j,world); } } } void tracerays(Scene *world) { parallel_for(blocked_range2d<size_t>(0,WIDTH,8,0,HEI GHT,8), TraceRays(world); } www.upcrc.illinois.edu

• Parallel reduction • Lock-free atomic types • Locks (sigh!) www.upcrc.illinois.edu

• TBB: http://threadedbuildingblocks.org • Java concurrency: http://g.oswego.edu/ • Microsoft TPL and PPL: http://msdn.microsoft.com/concurrency www.upcrc.illinois.edu

http://parallelpatterns.codeplex.com/ 23 www.upcrc.illinois.edu

Common Strategy • Measure performance • Parallelize expensive loops • Add synchronization to fix data races • Eliminate bottlenecks by – Privatizing variables – Using lock-free data structures 24 www.upcrc.illinois.edu

Data Parallelism • Single thread of control – program looks sequential and is deterministic • Operates on collections (arrays, sets, …) • Instead of looping over a collection, perform “single operation” on it • No side effects • APL, Lisp, Smalltalk did something similar for ease of use, not parallelism.

Data Parallelism • Easy to understand • Simple performance model • Doesn’t fit all problems

Operations • Map – apply a function to each element of a collection, producing a new collection • Map – apply a function with N arguments to N collections, producing a new collection

Operations • Reduce – apply a binary, associative function to each element in succession, producing a single element • Select – apply a predicate to each element of a collection, returning collection of elements for which predicate is true

Operations • Gather – given collection of indices and an indexable collection, produce collection of values at indices • Scatter – given two collections, i’th element is element of second collection whose matching element in first has value “i” • Divide – divide collection into pieces 29 www.upcrc.illinois.edu

N-body Body has variables position, velocity, force, mass for time = 1, 1000000 { for b = 1, numberOfBodies { bodies[b].computeForces(bodies); bodies[b].move(); } } 30 www.upcrc.illinois.edu

computeForces(Body *bodies) { force = 0; for i = 1, numberOf Bodies { force =+ forceFrom(bodies[i]) } } 31 www.upcrc.illinois.edu

forceFromBody(Body body) { return mass * body.mass * G / distance(location, body.location) ^ 2 } 32 www.upcrc.illinois.edu

move() { velocity =+ timeIncrement * force / mass position =+ timeIncrement * velocity } 33 www.upcrc.illinois.edu

Data Parallel computeForces map forceFrom to produce a collection of forces reduce with + to produce sum 34 www.upcrc.illinois.edu

Data parallel N-body map computeForces to produce forces map velocity + timeIncrement * force / mass to produce velocities map position + timeIncrement * velocity to produce positions scatter velocities into body.velocity scatter positions into body.position 35 www.upcrc.illinois.edu

TBB/java.util.concurrent/TPL • Each map becomes a parallel loop • In C++ without closures, each parallel loop requires a class to define operator • In Java, large library of operators, else you have to define class 36 www.upcrc.illinois.edu

Messy, why bother? • Data parallelism really is easier • Compiler can vectorize easier • Maps to GPU better • Better support in other languages • Will be better support for C++ in the near future – Intel Array Building Blocks 37 www.upcrc.illinois.edu

Parallel Programming Style • Data parallism – Deterministic semantics, easy, efficient, no I/O • Fork-join tasking - shared memory – Hopefully deterministic semantics, no I/O • Actors - asynchronous message passing - no shared memory – Nondeterministic, good for I/O www.upcrc.illinois.edu

Parallel Programming Patterns: Data Parallelism Ralph Johnson - PowerPoint PPT Presentation

Parallel Programming Patterns: Data Parallelism Ralph Johnson University of Illinois at Urbana- Champaign rjohnson@illinois.edu www.upcrc.illinois.edu Pattern language Set of patterns that an expert (or a community) uses Patterns are

Hardware Parallelism vs. Software Parallelism USENIX Workshop on Hot Topics in Parallelism March

Chapter 17: Parallel Databases Introduction I/O Parallelism Interquery Parallelism

Data-Level Parallelism Nima Honarmand Fall 2015 :: CSE 610 Parallel Computer Architectures

Advanced OpenMP Lecture 6: Nested parallelism Nested parallelism Nested parallelism is

Distributed Data-Parallel Programming Parallel Programming and Data Analysis Heather Miller

Multi-core Programming: Implicit Parallelism Tuukka Haapasalo April 16, 2009 Tuukka Haapasalo

Parallel Models Different ways to exploit parallelism Outline Shared-Variables Parallelism

Concise parallelism Natural C/C++ Parallelism A single operator to control multiple parallel

Factory Patterns: Factory Method and Abstract Factory Design Patterns In Java Bob Tarr

Pervasive Parallelism Laboratory Stanford University ppl.stanford.edu Make parallelism

CSCI341 Lecture 37, Introduction to Parallelism PIPELINING Exploits potential parallelism

PARALLEL Joachim Nitschke PROGRAMMING Project Seminar Parallel Programming, Summer

Parallel Programming in the Age of Ubiquitous Parallelism Keshav Pingali The University of

Data-Parallel Architectures Nima Honarmand Spring 2016 :: CSE 502 Computer Architecture

Parallel Programming Patterns Overview and Concepts Practical Outline Why parallel

Cluster Basics Hana Sevcikova University of Washington DataCamp Parallel Programming in R

AST 1420 Galactic Structure and Dynamics Third integral Henon & Heiles (1964) potential

Background A bubble generated inside microfluidic channel is actuated via acoustic waves,

(z+rr) x ,?-i r{ j. r,1l srf,>lt ..i{f rt tiD llr.rqC /r.-q-1t Heavy Flavorrr

From Zero to Secure Continuous Deployment in 60 Minutes Florian Barth Matthias Luft 1 o THE

GPU Rigid Body Simulation Erwin Coumans Principal Engineer @ http://bulletphysics.org Erwin

MOL2NET, 2017 , 3, doi:10.3390/mol2net-03-xxxx 2 scientific paper, providing feedback on how to

Self-Monitoring The missing dimension of Cancer Survivorship Daily Measurement of Cancerousness

Almond: Keeping the Internet Open with An Open-Source Virtual Assistant Monica Lam Computer

Parallel Programming Patterns: Data Parallelism Ralph Johnson - PowerPoint PPT Presentation

Parallel Programming Patterns: Data Parallelism Ralph Johnson University of Illinois at Urbana- Champaign rjohnson@illinois.edu www.upcrc.illinois.edu Pattern language Set of patterns that an expert (or a community) uses Patterns are

Hardware Parallelism vs. Software Parallelism USENIX Workshop on Hot Topics in Parallelism March

Chapter 17: Parallel Databases Introduction I/O Parallelism Interquery Parallelism

Data-Level Parallelism Nima Honarmand Fall 2015 :: CSE 610 Parallel Computer Architectures

Advanced OpenMP Lecture 6: Nested parallelism Nested parallelism Nested parallelism is

Distributed Data-Parallel Programming Parallel Programming and Data Analysis Heather Miller

Multi-core Programming: Implicit Parallelism Tuukka Haapasalo April 16, 2009 Tuukka Haapasalo

Parallel Models Different ways to exploit parallelism Outline Shared-Variables Parallelism

Concise parallelism Natural C/C++ Parallelism A single operator to control multiple parallel

Factory Patterns: Factory Method and Abstract Factory Design Patterns In Java Bob Tarr

Pervasive Parallelism Laboratory Stanford University ppl.stanford.edu Make parallelism

CSCI341 Lecture 37, Introduction to Parallelism PIPELINING Exploits potential parallelism

PARALLEL Joachim Nitschke PROGRAMMING Project Seminar Parallel Programming, Summer

Parallel Programming in the Age of Ubiquitous Parallelism Keshav Pingali The University of

Data-Parallel Architectures Nima Honarmand Spring 2016 :: CSE 502 Computer Architecture

Parallel Programming Patterns Overview and Concepts Practical Outline Why parallel

Cluster Basics Hana Sevcikova University of Washington DataCamp Parallel Programming in R

AST 1420 Galactic Structure and Dynamics Third integral Henon &amp; Heiles (1964) potential

Background A bubble generated inside microfluidic channel is actuated via acoustic waves,

(z+rr) x ,?-i r{ j. r,1l srf,&gt;lt ..i{f rt tiD llr.rqC /r.-q-1t Heavy Flavorrr

From Zero to Secure Continuous Deployment in 60 Minutes Florian Barth Matthias Luft 1 o THE

GPU Rigid Body Simulation Erwin Coumans Principal Engineer @ http://bulletphysics.org Erwin

MOL2NET, 2017 , 3, doi:10.3390/mol2net-03-xxxx 2 scientific paper, providing feedback on how to

Self-Monitoring The missing dimension of Cancer Survivorship Daily Measurement of Cancerousness

Almond: Keeping the Internet Open with An Open-Source Virtual Assistant Monica Lam Computer

AST 1420 Galactic Structure and Dynamics Third integral Henon & Heiles (1964) potential

(z+rr) x ,?-i r{ j. r,1l srf,>lt ..i{f rt tiD llr.rqC /r.-q-1t Heavy Flavorrr