Parallel DBs & MapReduce CSE 344 SECTION 10 Big Bi g Data - - PowerPoint PPT Presentation

parallel dbs mapreduce
SMART_READER_LITE
LIVE PREVIEW

Parallel DBs & MapReduce CSE 344 SECTION 10 Big Bi g Data - - PowerPoint PPT Presentation

Parallel DBs & MapReduce CSE 344 SECTION 10 Big Bi g Data The Three Vs of Big Data A Brief Story PredicIng the future MapReduce MapReduce Phases WordCount Example Map(int id,


slide-1
SLIDE 1

Parallel ¡DBs ¡& ¡MapReduce

CSE ¡344 ¡– ¡SECTION ¡10

slide-2
SLIDE 2

Data

Bi Big g

slide-3
SLIDE 3

The ¡Three ¡V’s ¡of ¡Big ¡Data

slide-4
SLIDE 4

A ¡Brief ¡Story…

slide-5
SLIDE 5

PredicIng ¡the ¡future…

slide-6
SLIDE 6

MapReduce

slide-7
SLIDE 7

MapReduce ¡Phases

slide-8
SLIDE 8

WordCount ¡Example

¡ Map(int ¡id, ¡String[] ¡val) ¡

¡for ¡word ¡in ¡val: ¡ ¡ ¡emitIntermediate(word, ¡1) ¡ ¡ ¡ßshuffling ¡ ¡ Reduce(String ¡word, ¡Iterator ¡vals) ¡ ¡cnt ¡= ¡0 ¡ ¡for ¡i ¡in ¡vals: ¡ ¡ ¡cnt ¡++ ¡ ¡emit(cnt) ¡ ¡// ¡emit(word ¡+ ¡‘:’ ¡+ ¡cnt) ¡

slide-9
SLIDE 9

Parallel ¡Databases

¡ Shared ¡memory ¡ ¡ Shared ¡disk ¡ ¡ Shared ¡nothing ¡

CSE ¡344 ¡-­‑ ¡FALL ¡2015 ¡

9 ¡

slide-10
SLIDE 10

Shared ¡Memory

Interconnection Network P P P Global Shared Memory D D D

10 ¡

CSE ¡344 ¡-­‑ ¡FALL ¡2015 ¡

slide-11
SLIDE 11

Shared ¡Disk

Interconnection Network P P P M M M D D D

11 ¡

CSE ¡344 ¡-­‑ ¡FALL ¡2015 ¡

slide-12
SLIDE 12

Shared ¡Nothing

Interconnection Network P P P M M M D D D

12 ¡

CSE ¡344 ¡-­‑ ¡FALL ¡2015 ¡

slide-13
SLIDE 13

Horizontal ¡ParIIoning

¡ Block ¡ParVVon ¡vs. ¡Range ¡ParVVon ¡vs. ¡Hash ¡ParVVon ¡

slide-14
SLIDE 14

Horizontal ¡Data ¡ParIIoning

¡ Block ¡ParVVon: ¡ ¡

  • ParVVon ¡tuples ¡arbitrarily ¡s.t. ¡size(R1)≈ ¡… ¡≈ ¡size(RP) ¡ ¡

¡ Hash ¡parVVoned ¡on ¡a^ribute ¡A: ¡

  • Tuple ¡t ¡goes ¡to ¡chunk ¡i, ¡where ¡i ¡= ¡h(t.A) ¡mod ¡P ¡+ ¡1 ¡

¡ Range ¡parVVoned ¡on ¡a^ribute ¡A: ¡

  • ParVVon ¡the ¡range ¡of ¡A ¡into ¡ ¡-­‑∞ ¡= ¡v0 ¡< ¡v1 ¡< ¡… ¡< ¡vP ¡= ¡∞ ¡
  • Tuple ¡t ¡goes ¡to ¡chunk ¡i, ¡if ¡vi-­‑1 ¡< ¡t.A ¡< ¡vi ¡

14 ¡

CSE ¡344 ¡-­‑ ¡FALL ¡2015 ¡

slide-15
SLIDE 15

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ ¡ ¡ ¡ FROM ¡R ¡ WHERE ¡a ¡> ¡0 ¡ GROUP ¡BY ¡a

R(a, b)

15

CSE 344 - FALL 2015

slide-16
SLIDE 16

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ ¡ ¡ ¡ FROM ¡R ¡ WHERE ¡a ¡> ¡0 ¡ GROUP ¡BY ¡a

R(a, b) scan scan scan

16

CSE 344 - FALL 2015

slide-17
SLIDE 17

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ ¡ ¡ ¡ FROM ¡R ¡ WHERE ¡a ¡> ¡0 ¡ GROUP ¡BY ¡a

R(a, b) scan scan scan σa>0 σa>0 σa>0

17

CSE 344 - FALL 2015

slide-18
SLIDE 18

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ ¡ ¡ ¡ FROM ¡R ¡ WHERE ¡a ¡> ¡0 ¡ GROUP ¡BY ¡ ¡a

R(a, b) scan scan scan σa>0 σa>0 σa>0 γa, count(b)-> b γa, count(b)-> b γa, count(b)-> b

18

CSE 344 - FALL 2015

slide-19
SLIDE 19

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ ¡ ¡ ¡ FROM ¡R ¡ WHERE ¡a ¡> ¡0 ¡ GROUP ¡BY ¡a

R(a, b) scan scan scan σa>0 σa>0 σa>0 γa, count(b)-> b γa, count(b)-> b γa,count(b)-> b Hash on a Hash on a Hash on a

19

slide-20
SLIDE 20

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ FROM ¡R ¡WHERE ¡a ¡> ¡0 ¡GROUP ¡BY ¡a

R(a, b) scan scan scan σa>0 σa>0 σa>0 γa, count(b)-> b γa, count(b)-> b γa, count(b)-> b Hash on a Hash on a Hash on a

20

slide-21
SLIDE 21

1/3 of R 1/3 of R 1/3 of R Machine 1 Machine 2 Machine 3

SELECT ¡a, ¡count(b) ¡as ¡countb ¡ FROM ¡R ¡WHERE ¡a ¡> ¡0 ¡GROUP ¡BY ¡a

R(a, b) scan scan scan σa>0 σa>0 σa>0 γa, count(b)-> b γa, count(b)-> b γa, count(b)-> b Hash on a Hash on a Hash on a γa, sum(b)->countb γa, sum(b)->countb γa, sum(b)->countb

21