Sunrise or Sunset: Exploring the Design Space of Big Data - - PowerPoint PPT Presentation

sunrise or sunset exploring the design space of big data
SMART_READER_LITE
LIVE PREVIEW

Sunrise or Sunset: Exploring the Design Space of Big Data - - PowerPoint PPT Presentation

Sunrise or Sunset: Exploring the Design Space of Big Data So7ware Stack HPBDC 2017 panel Panel moderator: Dr. Jianfeng Zhan INSTITUTE O Professor, ICT,


slide-1
SLIDE 1

INSTITUTE O OF C COMPUTING T TECHNOLOGY

Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡ Space ¡of ¡Big ¡Data ¡So7ware ¡Stack ¡ ¡ ¡ ¡

HPBDC ¡2017 ¡panel ¡ Panel moderator: Dr. Jianfeng Zhan

Professor, ¡ ¡ICT, ¡Chinese ¡ ¡Academy ¡of ¡Sciences ¡ and ¡ ¡University ¡of ¡Chinese ¡Academy ¡of ¡Sciences ¡ ¡ May ¡29. ¡2017 ¡ Orlando ¡, ¡USA ¡ ¡

slide-2
SLIDE 2

Panel HPBDC’ 17

The ¡past ¡panel ¡(2015)

n Wide ¡AdopGon ¡of ¡HPC ¡Techniques ¡in ¡Big ¡Data: ¡Hype ¡

  • r ¡Reality? ¡

n Panel ¡Moderator: ¡Jianfeng ¡Zhan ¡ n Panellists: ¡

n D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ n Dan ¡Stanzione, ¡Texas ¡Advanced ¡CompuJng ¡Center ¡ n Zhiwei ¡Xu, ¡InsJtute ¡of ¡CompuJng ¡Technology, ¡

Chinese ¡Academy ¡of ¡Sciences, ¡China ¡

n Xiaodong ¡Zhang, ¡The ¡Ohio ¡State ¡University ¡

slide-3
SLIDE 3

Panel HPBDC’ 17

The ¡past ¡panel ¡(2016)

n Merge ¡or ¡Split: ¡Mutual ¡Influence ¡between ¡Big ¡Data ¡

and ¡HPC ¡Techniques ¡

n Panel ¡Moderator: ¡Jianfeng ¡Zhan ¡ n Panellists: ¡

n Chaitanya ¡Baru, ¡San ¡Diego ¡Supercomputer ¡Center ¡ ¡ ¡Slides ¡ n Pete ¡Beckman, ¡Argonne ¡NaJonal ¡Laboratory, ¡The ¡University ¡of ¡

Chicago ¡

n Andrew ¡A. ¡Chien, ¡The ¡University ¡of ¡Chicago, ¡Argonne ¡NaJonal ¡

Laboratory ¡ ¡Slides ¡

n Geoffrey ¡C. ¡Fox, ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡Slides ¡ n D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡Slides ¡

slide-4
SLIDE 4

Panel HPBDC’ 17

This ¡year’s ¡panel

n Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡Space ¡of ¡Big ¡

Data ¡So7ware ¡Stack ¡

n Panel ¡Moderator: ¡Jianfeng ¡Zhan ¡ n Panellists: ¡

n Prof. ¡Geoffrey ¡C. ¡Fox, ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡ ¡ n Prof. ¡Satoshi ¡Matsuoka, ¡Tokyo ¡InsJtute ¡of ¡Technology ¡ ¡ ¡ ¡ n Dr. ¡Ren ¡Wu, ¡NovuMind ¡ n Prof. ¡D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡ ¡

slide-5
SLIDE 5

Panel HPBDC’ 17

Topics

n Are ¡big ¡data ¡so]ware ¡stacks ¡mature ¡or ¡not? ¡

n If ¡yes, ¡what ¡are ¡the ¡new ¡technology ¡challenge? ¡ ¡ n If ¡not, ¡what ¡are ¡the ¡main ¡driving ¡forces ¡for ¡ ¡new-­‑

generaJon ¡big ¡data ¡so]ware ¡stacks? ¡

n What ¡chances ¡are ¡provided ¡for ¡the ¡academia ¡

communiJes ¡in ¡exploring ¡the ¡design ¡spaces ¡of ¡ big ¡data ¡so]ware ¡stacks? ¡

slide-6
SLIDE 6

Panel HPBDC’ 17

Two ¡driving ¡forces

n ApplicaJon-­‑driven ¡

n One-­‑size-­‑fits-­‑a-­‑bunch ¡ ¡

  • SQL, ¡NoSQL, ¡DW ¡

n Need ¡Benchmarks ¡ ¡

n Technology-­‑driven ¡

n Super ¡computers ¡and ¡Big ¡Data ¡enable ¡deep ¡

  • learning. ¡ ¡
slide-7
SLIDE 7

Panel HPBDC’ 17

BigDataBench ¡summary

n An ¡open-­‑source ¡Big ¡Data ¡Benchmark ¡suite ¡

  • hbp://prof.ict.ac.cn/BigDataBench ¡

n L. ¡Wang, ¡J. ¡Zhan ¡and ¡etc. ¡BigDataBench: ¡a ¡Big ¡Data ¡Benchmark ¡

Suite ¡from ¡Internet ¡Services. ¡HPCA’ ¡14, ¡February ¡15-­‑19, ¡2014, ¡ Orlando, ¡Florida, ¡USA. ¡

n Gao, ¡W., ¡Luo, ¡C., ¡Zhan, ¡J., ¡Ye, ¡H., ¡He, ¡X., ¡Wang, ¡L., ¡... ¡& ¡Tian, ¡X. ¡

(2015). ¡IdenJfying ¡Dwarfs ¡Workloads ¡in ¡Big ¡Data ¡

  • AnalyJcs. ¡arXiv ¡preprint ¡arXiv:1505.06872.
slide-8
SLIDE 8

Panel HPBDC’ 17

MPI

Shark Impala NoSql

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 软件栈

BigDataBench ¡3.2

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 37 ¡个负载

Search Engine

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡15 ¡ ¡个真实数据集

BDGS(Big ¡Data ¡Generator ¡Suite) ¡for ¡scalable ¡data

DataMPI Hadoop ¡RDMA

Facebook ¡Social ¡Network ImageNet Wikipedia ¡ ¡Entries E-­‑commerce ¡ ¡TransacGon

English ¡broadcasGng ¡audio

Amazon ¡Movie ¡Reviews ProfSearch ¡Resumes DVD ¡Input ¡Streams Google ¡Web ¡Graph SoGou ¡Data Image ¡scene MNIST Genome ¡sequence ¡data Assembly ¡of ¡the ¡human ¡genome

Social Network E-commerce MulJmedia Bioinformatics

MovieLens ¡Dataset

slide-9
SLIDE 9

Panel HPBDC’ 17

The ¡BigData ¡100 ¡project

n hbp://www.bafst.com/items/top100/

index.html ¡

n Using ¡BigDataBench ¡data ¡sets ¡and ¡workloads ¡

slide-10
SLIDE 10

Panel HPBDC’ 17

Requirement-­‑Driven

n Human ¡acJviJes ¡in ¡terms ¡of ¡hundreds ¡milliseconds ¡

n Nature ¡of ¡our ¡nervous ¡and ¡motor ¡systems ¡ ¡

n Computers ¡or ¡smart ¡devices ¡consistently ¡provide ¡

informaJon ¡and ¡knowledge ¡to ¡human ¡being ¡in ¡the ¡

  • rder ¡of ¡a ¡few ¡tens ¡milliseconds. ¡

n We ¡coin ¡a ¡new ¡term ¡10-­‑ms ¡compuGng ¡to ¡call ¡abenJon ¡to ¡

this ¡class ¡of ¡workloads ¡

n Lu, ¡G., ¡Zhan, ¡J., ¡Hao, ¡T., ¡& ¡Wang, ¡L. ¡(2016). ¡10-­‑

millisecond ¡CompuJng. ¡arXiv ¡preprint ¡arXiv: 1610.01267.

slide-11
SLIDE 11

Panel HPBDC’ 17

Millisecond-­‑scale ¡compuJng

n Grand ¡Challenges ¡to ¡both ¡big ¡data ¡so]ware ¡

stack ¡and ¡hardware ¡stack ¡

n Go ¡game ¡is ¡only ¡one ¡of ¡benchmarks ¡ n Energy ¡efficiency ¡of ¡human ¡brain! ¡

slide-12
SLIDE 12

Panel HPBDC’ 17

Cost ¡of ¡deep ¡learning

n hbps://www.reddit.com/r/MachineLearning/comments/

6b64u4/d_nvidia_k80_training_Jme_performance/ ¡

n Imagenet ¡120 ¡epochs ¡256 ¡batch_size ¡(~4k ¡batches ¡per ¡

epoch) ¡~ ¡3 ¡or ¡4 ¡gpus ¡for ¡a ¡Resnet ¡50 ¡(batchsize ¡64 ¡per ¡ gpu). ¡

n With ¡mxnet ¡this ¡sepng ¡it ¡takes ¡around ¡1.1 ¡sec ¡per ¡batch ¡

4.4K ¡sec ¡per ¡epoch ¡(say ¡1.2 ¡hours) ¡x120 ¡epoch ¡-­‑-­‑-­‑> ¡ 144hours ¡*4 ¡*1$ ¡~ ¡570$$ ¡of ¡training ¡Gme ¡!!! ¡

n Human ¡being ¡is ¡sJll ¡much ¡expensive! ¡

slide-13
SLIDE 13

Panel HPBDC’ 17

Workload ¡driven ¡

n Internet ¡services ¡have ¡much ¡simple ¡workloads ¡

n Select, ¡aggregaJon ¡ ¡and ¡etc. ¡ ¡

n Hive, ¡SparkSQL ¡and ¡etc ¡ ¡ ¡ n We ¡need ¡consider ¡more ¡broader ¡workloads

slide-14
SLIDE 14

Panel HPBDC’ 17

Big ¡data ¡dwarfs ¡in ¡BigDataBench ¡

Sampling Transform ¡operaJon ¡ Graph ¡operaJon ¡ Logic ¡operaJon ¡ Set ¡operaJon StaJsJc ¡operaJon ¡ Sort ¡ Linear ¡Algebra

slide-15
SLIDE 15

Panel HPBDC’ 17

Paradigm ¡change

n SMB ¡just ¡rent ¡infrastructure ¡ ¡ ¡ n Big ¡data ¡in ¡cloud ¡ n Alibaba ¡ ¡

n Can ¡not ¡tolerate ¡100 ¡ms ¡service ¡interrupJon ¡

slide-16
SLIDE 16

Panel HPBDC’ 17

Schedules ¡

n PosiJons ¡from ¡the ¡panelists ¡(each ¡one ¡has ¡10 ¡

minutes) ¡

n ¡First ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡

minutes) ¡

n ¡Second ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡

minutes) ¡

n QuesJons ¡from ¡the ¡audience ¡

slide-17
SLIDE 17

Panel HPBDC’ 17