Job-scheduling for Mul3-user MapReduce clusters Outline - - PowerPoint PPT Presentation

job scheduling for mul3 user mapreduce clusters outline
SMART_READER_LITE
LIVE PREVIEW

Job-scheduling for Mul3-user MapReduce clusters Outline - - PowerPoint PPT Presentation

Job-scheduling for Mul3-user MapReduce clusters Outline Background Hadoop On Demand Issues FAIR Scheduler Obstacles to Fair Sharing Background


slide-1
SLIDE 1

Job-­‑scheduling ¡for ¡Mul3-­‑user ¡ MapReduce ¡clusters ¡

slide-2
SLIDE 2

Outline ¡

  • Background ¡
  • Hadoop ¡On ¡Demand ¡Issues ¡
  • FAIR ¡Scheduler ¡
  • Obstacles ¡to ¡Fair ¡Sharing ¡
slide-3
SLIDE 3

Background ¡

  • Hadoop ¡scheduling ¡is ¡FIFO, ¡with ¡5 ¡priority ¡

levels ¡

  • Due ¡to ¡poor ¡response ¡3me ¡between ¡short/

long ¡jobs, ¡Hadoop ¡introduced ¡Hadoop ¡On ¡ Demand ¡(HOD) ¡

slide-4
SLIDE 4

HOD ¡Issues ¡

  • Poor ¡locality ¡

– Since ¡nodes ¡have ¡access ¡to ¡the ¡en3re ¡HDFS, ¡some ¡ map ¡jobs ¡have ¡to ¡work ¡across ¡the ¡network ¡

  • Poor ¡U3liza3on ¡

– Some ¡nodes ¡can ¡be ¡idle ¡

slide-5
SLIDE 5

FAIR ¡Scheduler ¡

  • Purpose: ¡give ¡all ¡jobs ¡slot-­‑level ¡granularity ¡

– Isola3on: ¡give ¡each ¡job ¡the ¡illusion ¡of ¡having ¡their ¡

  • wn ¡cluster ¡

– Sta3s3cal ¡Mul3plexing: ¡Redistribute ¡unused ¡ capacity ¡to ¡other ¡“pools” ¡

slide-6
SLIDE 6

Pooling ¡jobs ¡

slide-7
SLIDE 7

Redistribu3on ¡of ¡jobs ¡

slide-8
SLIDE 8

Redistribu3on ¡Explained ¡

  • mi ¡= ¡minimum ¡number ¡of ¡shared ¡needed ¡to ¡

start ¡the ¡job ¡

  • di ¡= ¡demand ¡needed ¡to ¡complete ¡the ¡job ¡
  • Redistribu3on ¡occurs ¡by ¡filling ¡the ¡min ¡slots ¡to ¡

complete ¡as ¡many ¡tasks ¡as ¡possible ¡

  • d1, ¡d3 ¡,d4 ¡should ¡complete ¡without ¡needing ¡to ¡

refill ¡

  • d2 ¡will ¡require ¡a ¡refill ¡(the ¡last ¡4 ¡slots ¡to ¡assign) ¡

to ¡complete ¡

slide-9
SLIDE 9

Obstacles ¡to ¡Fair ¡Sharing ¡

  • Data ¡Locality ¡

– Solu3on: ¡Delay ¡scheduling ¡

  • Tasks ¡are ¡priori3zed ¡by ¡locality ¡
  • There ¡are ¡2 ¡wait ¡3mes, ¡one ¡for ¡the ¡local ¡pool ¡wait, ¡and ¡
  • ne ¡for ¡the ¡remote ¡wait. ¡The ¡job ¡will ¡try ¡to ¡catch ¡a ¡local ¡

pool ¡un3l ¡the ¡local ¡wait ¡3me ¡exceeds, ¡then ¡run ¡on ¡the ¡ next ¡pool ¡that’s ¡available. ¡

  • There ¡are ¡3 ¡types ¡of ¡locality ¡

– Node ¡local ¡tasks ¡ – Rack-­‑local ¡tasks ¡ – Off-­‑rack ¡tasks ¡

slide-10
SLIDE 10

Obstacles ¡to ¡FAIR ¡Sharing ¡

  • Reduce/Map ¡interdependence ¡

– “slot ¡hoarding” ¡

  • Long ¡jobs ¡hold ¡reduce ¡slots ¡for ¡a ¡long ¡3me, ¡starving ¡short ¡

jobs ¡

– Solu3on: ¡Copy-­‑compute ¡spliang ¡

  • Split ¡reduce ¡jobs ¡into ¡two ¡different ¡jobs ¡

– Copy ¡task ¡(Network ¡IO ¡job) ¡ » Fetches ¡and ¡merges ¡map ¡outputs ¡ – Compute ¡task ¡(Reduce ¡job) ¡

  • There ¡is ¡a ¡controller ¡CPAC ¡which ¡checks ¡2 ¡fields ¡

– maxReducers ¡ – maxCompu3ng ¡

  • eg. ¡6 ¡simultaneous ¡reducers, ¡but ¡2 ¡able ¡to ¡compute ¡