sunrise or sunset exploring the design space of big data
play

Sunrise or Sunset: Exploring the Design Space of Big Data - PowerPoint PPT Presentation

Sunrise or Sunset: Exploring the Design Space of Big Data So7ware Stack HPBDC 2017 panel Panel moderator: Dr. Jianfeng Zhan INSTITUTE O Professor, ICT,


  1. Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡ Space ¡of ¡Big ¡Data ¡So7ware ¡Stack ¡ ¡ ¡ ¡ HPBDC ¡2017 ¡panel ¡ Panel moderator: Dr. Jianfeng Zhan INSTITUTE O Professor, ¡ ¡ICT, ¡Chinese ¡ ¡Academy ¡of ¡Sciences ¡ OF C and ¡ ¡University ¡of ¡Chinese ¡Academy ¡of ¡Sciences ¡ COMPUTING T ¡ May ¡29. ¡2017 ¡ TECHNOLOGY Orlando ¡, ¡USA ¡ ¡

  2. The ¡past ¡panel ¡(2015) n Wide ¡AdopGon ¡of ¡HPC ¡Techniques ¡in ¡Big ¡Data: ¡Hype ¡ or ¡Reality? ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ n Dan ¡Stanzione, ¡Texas ¡Advanced ¡CompuJng ¡Center ¡ n Zhiwei ¡Xu, ¡InsJtute ¡of ¡CompuJng ¡Technology, ¡ Chinese ¡Academy ¡of ¡Sciences, ¡China ¡ n Xiaodong ¡Zhang, ¡The ¡Ohio ¡State ¡University ¡ HPBDC’ 17 Panel

  3. The ¡past ¡panel ¡(2016) n Merge ¡or ¡Split: ¡Mutual ¡Influence ¡between ¡Big ¡Data ¡ and ¡HPC ¡Techniques ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n Chaitanya ¡Baru , ¡San ¡Diego ¡Supercomputer ¡Center ¡ ¡ ¡ Slides ¡ n Pete ¡Beckman , ¡Argonne ¡NaJonal ¡Laboratory, ¡The ¡University ¡of ¡ Chicago ¡ n Andrew ¡A. ¡Chien , ¡The ¡University ¡of ¡Chicago, ¡Argonne ¡NaJonal ¡ Laboratory ¡ ¡ Slides ¡ n Geoffrey ¡C. ¡Fox , ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡ Slides ¡ n D. ¡K. ¡Panda , ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡ Slides ¡ HPBDC’ 17 Panel

  4. This ¡year’s ¡panel n Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡Space ¡of ¡Big ¡ Data ¡So7ware ¡Stack ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n Prof. ¡Geoffrey ¡C. ¡Fox, ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡ ¡ n Prof. ¡Satoshi ¡Matsuoka, ¡Tokyo ¡InsJtute ¡of ¡Technology ¡ ¡ ¡ ¡ n Dr. ¡Ren ¡Wu, ¡NovuMind ¡ n Prof. ¡D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡ ¡ HPBDC’ 17 Panel

  5. Topics n Are ¡big ¡data ¡so]ware ¡stacks ¡mature ¡or ¡not? ¡ n If ¡yes, ¡what ¡are ¡the ¡new ¡technology ¡challenge? ¡ ¡ n If ¡not, ¡what ¡are ¡the ¡main ¡driving ¡forces ¡for ¡ ¡new-­‑ generaJon ¡big ¡data ¡so]ware ¡stacks? ¡ n What ¡chances ¡are ¡provided ¡for ¡the ¡academia ¡ communiJes ¡in ¡exploring ¡the ¡design ¡spaces ¡of ¡ big ¡data ¡so]ware ¡stacks? ¡ HPBDC’ 17 Panel

  6. Two ¡driving ¡forces n ApplicaJon-­‑driven ¡ n One-­‑size-­‑fits-­‑a-­‑bunch ¡ ¡ • SQL, ¡NoSQL, ¡DW ¡ n Need ¡Benchmarks ¡ ¡ n Technology-­‑driven ¡ n Super ¡computers ¡and ¡Big ¡Data ¡enable ¡deep ¡ learning. ¡ ¡ HPBDC’ 17 Panel

  7. BigDataBench ¡summary n An ¡open-­‑source ¡Big ¡Data ¡Benchmark ¡suite ¡ • hbp://prof.ict.ac.cn/BigDataBench ¡ n L. ¡Wang, ¡J. ¡Zhan ¡and ¡etc. ¡BigDataBench: ¡a ¡Big ¡Data ¡Benchmark ¡ Suite ¡from ¡Internet ¡Services. ¡HPCA’ ¡14, ¡February ¡15-­‑19, ¡2014, ¡ Orlando, ¡Florida, ¡USA. ¡ n Gao, ¡W., ¡Luo, ¡C., ¡Zhan, ¡J., ¡Ye, ¡H., ¡He, ¡X., ¡Wang, ¡L., ¡... ¡& ¡Tian, ¡X. ¡ (2015). ¡IdenJfying ¡Dwarfs ¡Workloads ¡in ¡Big ¡Data ¡ AnalyJcs. ¡ arXiv ¡preprint ¡arXiv:1505.06872 . HPBDC’ 17 Panel

  8. BigDataBench ¡3.2 ¡ ¡ BDGS(Big ¡Data ¡Generator ¡Suite) ¡for ¡scalable ¡data ¡ Wikipedia ¡ ¡Entries Amazon ¡Movie ¡Reviews Google ¡Web ¡Graph ¡ Facebook ¡Social ¡Network E-­‑commerce ¡ ¡TransacGon ¡ ProfSearch ¡Resumes ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ImageNet DVD ¡Input ¡Streams English ¡broadcasGng ¡audio ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Image ¡scene Genome ¡sequence ¡data Assembly ¡of ¡the ¡human ¡genome ¡ SoGou ¡Data MNIST MovieLens ¡Dataset ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡15 ¡ ¡ 个真实数据集 ¡ ¡ ¡ ¡ NoSql Impala ¡ ¡ ¡ Social Search ¡ ¡ E-commerce Engine Network ¡ ¡ Shark ¡ ¡ Hadoop ¡RDMA MulJmedia Bioinformatics MPI ¡ ¡ DataMPI ¡ ¡ 37 ¡ 个负载 软件栈 HPBDC’ 17 Panel

  9. The ¡BigData ¡100 ¡project n hbp://www.bafst.com/items/top100/ index.html ¡ n Using ¡BigDataBench ¡data ¡sets ¡and ¡workloads ¡ HPBDC’ 17 Panel

  10. Requirement-­‑Driven n Human ¡acJviJes ¡in ¡terms ¡of ¡hundreds ¡milliseconds ¡ n Nature ¡of ¡our ¡nervous ¡and ¡motor ¡systems ¡ ¡ n Computers ¡or ¡smart ¡devices ¡consistently ¡provide ¡ informaJon ¡and ¡knowledge ¡to ¡human ¡being ¡in ¡the ¡ order ¡of ¡a ¡few ¡tens ¡milliseconds. ¡ n We ¡coin ¡a ¡new ¡term ¡ 10-­‑ms ¡compuGng ¡ to ¡call ¡abenJon ¡to ¡ this ¡class ¡of ¡workloads ¡ n Lu, ¡G., ¡Zhan, ¡J., ¡Hao, ¡T., ¡& ¡Wang, ¡L. ¡(2016). ¡10-­‑ millisecond ¡CompuJng. ¡arXiv ¡preprint ¡arXiv: 1610.01267. HPBDC’ 17 Panel

  11. Millisecond-­‑scale ¡compuJng n Grand ¡Challenges ¡to ¡both ¡big ¡data ¡so]ware ¡ stack ¡and ¡hardware ¡stack ¡ n Go ¡game ¡is ¡only ¡one ¡of ¡benchmarks ¡ n Energy ¡efficiency ¡of ¡human ¡brain! ¡ HPBDC’ 17 Panel

  12. Cost ¡of ¡deep ¡learning n hbps://www.reddit.com/r/MachineLearning/comments/ 6b64u4/d_nvidia_k80_training_Jme_performance/ ¡ n Imagenet ¡120 ¡epochs ¡256 ¡batch_size ¡(~4k ¡batches ¡per ¡ epoch) ¡~ ¡3 ¡or ¡4 ¡gpus ¡for ¡a ¡Resnet ¡50 ¡(batchsize ¡64 ¡per ¡ gpu). ¡ n With ¡mxnet ¡this ¡sepng ¡it ¡takes ¡around ¡1.1 ¡sec ¡per ¡batch ¡ 4.4K ¡sec ¡per ¡epoch ¡(say ¡1.2 ¡hours) ¡x120 ¡epoch ¡-­‑-­‑-­‑> ¡ 144hours ¡*4 ¡*1$ ¡ ~ ¡570$$ ¡of ¡training ¡Gme ¡!!! ¡ n Human ¡being ¡is ¡sJll ¡much ¡expensive! ¡ HPBDC’ 17 Panel

  13. Workload ¡driven ¡ n Internet ¡services ¡have ¡much ¡simple ¡workloads ¡ n Select, ¡aggregaJon ¡ ¡and ¡etc. ¡ ¡ n Hive, ¡SparkSQL ¡and ¡etc ¡ ¡ ¡ n We ¡need ¡consider ¡more ¡broader ¡workloads HPBDC’ 17 Panel

  14. Big ¡data ¡dwarfs ¡in ¡BigDataBench ¡ Linear ¡Algebra Sampling Transform ¡operaJon ¡ Graph ¡operaJon ¡ Logic ¡operaJon ¡ Set ¡operaJon StaJsJc ¡operaJon ¡ Sort ¡ HPBDC’ 17 Panel

  15. Paradigm ¡change n SMB ¡just ¡rent ¡infrastructure ¡ ¡ ¡ n Big ¡data ¡in ¡cloud ¡ n Alibaba ¡ ¡ n Can ¡not ¡tolerate ¡100 ¡ms ¡service ¡interrupJon ¡ HPBDC’ 17 Panel

  16. Schedules ¡ n PosiJons ¡from ¡the ¡panelists ¡(each ¡one ¡has ¡10 ¡ minutes) ¡ n ¡First ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡ minutes) ¡ n ¡Second ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡ minutes) ¡ n QuesJons ¡from ¡the ¡audience ¡ HPBDC’ 17 Panel

  17. HPBDC’ 17 Panel

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend