bi bigdebug interactive debugger for bi big data
play

Bi BigDebug : : Interactive Debugger for Bi Big - PowerPoint PPT Presentation

Bi BigDebug : : Interactive Debugger for Bi Big Data Analytics in Apache Spark MUHAMMAD ALI GULZAR, MATTEO INTERLANDI, TYSON CONDIE,


  1. Bi BigDebug : ¡ : ¡Interactive ¡ ¡Debugger ¡ ¡for ¡ ¡ Bi Big ¡ ¡Data ¡ ¡Analytics ¡ ¡in ¡ ¡Apache ¡ ¡Spark ¡ ¡ MUHAMMAD ¡ ALI ¡GULZAR, ¡ MATTEO ¡ INTERLANDI, ¡ TYSON ¡ CONDIE, ¡ ¡MIRYUNG KIM UNIVERSITY ¡ OF ¡CALIFORNIA, ¡ LOS ¡ ANGELES

  2. Developing ¡Big ¡Data ¡Analytics • Data ¡scientists ¡gather ¡insights ¡from ¡massive ¡quantities ¡of ¡ data ¡using ¡data ¡intensive ¡scalable ¡computing ¡systems MapReduce • Debugging ¡of ¡big ¡data ¡analytic ¡workflows ¡on ¡the ¡cloud ¡is ¡ time ¡consuming ¡and ¡error-­‑prone

  3. Traditional ¡Debugging ¡in ¡Big ¡Data ¡ Analytics Enabling ¡interactive ¡debugging ¡requires ¡us ¡to re-­‑think ¡the ¡ features ¡of ¡traditional ¡debugger ¡ such ¡as ¡GDB • Pausing ¡the ¡entire ¡computation ¡on ¡the ¡cloud ¡could ¡reduce ¡ throughput • It ¡is ¡clearly ¡infeasible ¡for ¡a ¡user ¡to ¡inspect ¡billion ¡of ¡ records ¡through ¡a ¡regular ¡watchpoint • Even ¡launching ¡remote ¡JVM ¡debuggers ¡to ¡individual ¡ worker ¡nodes ¡cannot ¡scale ¡for ¡big ¡data ¡computing

  4. BigDebug : ¡Interactive ¡Debugger ¡for ¡ Apache ¡Spark ¡[ICSE ¡2016]

  5. Feature ¡1: ¡Simulated ¡Breakpoint Stage 1 Stage 0 groupBy Key map map map

  6. Feature ¡1: ¡Simulated ¡Breakpoint Stage 1 Stage 0 groupBy Key map map map

  7. Feature ¡1: ¡Simulated ¡Breakpoint Stage 1 Stage 0 groupBy Key map map simulated breakpoint map

  8. Feature ¡1: ¡Simulated ¡Breakpoint Stage 1 Stage 0 Group ByKey map map simulated breakpoint map Simulated ¡breakpoint ¡enables ¡user ¡to ¡inspect ¡intermediate ¡ program ¡state ¡without ¡pausing ¡the ¡computation

  9. Feature ¡2: ¡On ¡Demand ¡Guarded ¡ Watchpoint Stage 0 group ByKey map map watch point Stage 1 simulated breakpoint map

  10. Feature ¡2: ¡On ¡Demand ¡Guarded ¡ Watchpoint Stage 0 group ByKey map map watch point Stage 1 simulated breakpoint map A ¡user ¡can ¡inspect ¡intermediate ¡data ¡using ¡a ¡ guard ¡and ¡also ¡update ¡it ¡on ¡the ¡fly

  11. Feature ¡3: ¡Crash ¡Culprit ¡Identification ¡ and ¡Remediation Stage 0 group ByKey map map watch point Stage 1 simulated breakpoint map

  12. Feature ¡3: ¡Crash ¡Culprit ¡Identification ¡ and ¡Remediation map watch point Stage 1 simulated breakpoint A ¡user ¡can ¡use ¡BigDebugto ¡identify ¡the ¡crashing ¡records ¡ and ¡remediate ¡from ¡the ¡failure

  13. Feature ¡4: ¡Forward ¡and ¡Backward ¡ Tracing ¡[VLDB ¡’15] map watch point Stage 1 simulated breakpoint Data ¡provenance ¡enables ¡users ¡to ¡identify ¡crash ¡inducing ¡ inputs ¡records ¡ ¡

  14. Performance ¡Evaluation ¡[ICSE ¡‘16] BigDebug ¡Scale ¡Up 10000 1000 Time ¡(s) 100 10 1 0.5 0.9 4 8 30 70 200 1000 Dataset ¡Size ¡(GB) BigDebug Spark With ¡maximum ¡instrumentation, ¡BigDebugtakes ¡2.4X ¡the ¡ time ¡of ¡baseline ¡Spark ¡while ¡the ¡average ¡case ¡is ¡at ¡1.34X ¡

  15. Time ¡Saving ¡ Arthur ¡[Dave ¡et ¡al. ¡2013] The ¡first ¡run ¡ crashes 250 200 The ¡second ¡run ¡instruments ¡ all ¡ Time ¡(s) 150 records ¡leading ¡to ¡a ¡crash 100 BigDebug 50 The ¡third ¡run ¡removes ¡ Arthur 0 the ¡crash. ¡ S1 S2 S3 S4 Location ¡of ¡crash ¡(Stage) BigDebug A ¡single ¡run ¡can ¡detect ¡and ¡remove ¡the ¡ crash ¡and ¡resumes ¡ the ¡job BigDebugfinds ¡a ¡crash ¡inducing ¡record ¡with ¡100% ¡accuracy ¡and saves ¡upto 100% ¡time ¡saving ¡through ¡runtime ¡crash ¡remediation

  16. In ¡Summary ¡ • BigDebug provides ¡primitives ¡ to ¡enable ¡interactive ¡debugging ¡on ¡ the ¡cloud ¡without ¡sacrificing ¡the ¡performance • Using ¡data ¡provenance ¡ a ¡user ¡can ¡understand ¡how ¡errors ¡ propagate ¡through ¡data ¡processing ¡steps • On ¡average, ¡BigDebug poses ¡34% ¡overhead ¡ and ¡saves ¡100% ¡of ¡ time ¡in ¡case ¡of ¡crash • BigDebug is ¡publicly ¡available ¡at https://sites.google.com/site/sparkbigdebug/

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend