sunrise or sunset exploring the design space of big data
play

Sunrise or Sunset: Exploring the Design Space of Big Data - PowerPoint PPT Presentation

Sunrise or Sunset: Exploring the Design Space of Big Data So7ware Stacks Panel PresentaAon at HPBDC 17 by Dhabaleswar K. (DK) Panda The Ohio


  1. Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡Space ¡of ¡Big ¡Data ¡ So7ware ¡Stacks ¡ ¡ Panel ¡PresentaAon ¡at ¡HPBDC ¡‘17 ¡ ¡ by ¡ Dhabaleswar ¡K. ¡(DK) ¡Panda ¡ The ¡Ohio ¡State ¡University ¡ E-­‑mail: ¡panda@cse.ohio-­‑state.edu ¡ h<p://www.cse.ohio-­‑state.edu/~panda ¡

  2. Q1: ¡Are ¡Big ¡Data ¡So7ware ¡Stacks ¡Mature ¡or ¡Not? ¡ • Big ¡Data ¡soEware ¡stacks ¡like ¡Hadoop, ¡Spark ¡and ¡Memcached ¡have ¡been ¡ there ¡for ¡mulKple ¡years ¡ – Hadoop ¡– ¡11 ¡years ¡(Apache ¡Hadoop ¡0.1.0 ¡released ¡on ¡April, ¡2006) ¡ – Spark ¡– ¡ ¡5 ¡years ¡(Apache ¡Spark ¡0.5.1 ¡released ¡on ¡June, ¡2012) ¡ – Memcached ¡– ¡14 ¡years ¡(IniKal ¡release ¡of ¡Memcached ¡on ¡May ¡22, ¡2003) ¡ • Increasingly ¡being ¡used ¡in ¡producKon ¡environments ¡ • OpKmized ¡for ¡commodity ¡clusters ¡with ¡Ethernet ¡and ¡TCP/IP ¡interface ¡ • Not ¡yet ¡able ¡to ¡take ¡full ¡advantage ¡of ¡modern ¡cluster ¡and/or ¡HPC ¡ technologies ¡ ¡ ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 2 ¡

  3. Data ¡Management ¡and ¡Processing ¡on ¡Modern ¡Clusters • SubstanKal ¡impact ¡on ¡designing ¡and ¡uKlizing ¡data ¡management ¡and ¡processing ¡systems ¡in ¡mulKple ¡Kers ¡ – Front-­‑end ¡data ¡accessing ¡and ¡serving ¡(Online) ¡ • Memcached ¡+ ¡DB ¡(e.g. ¡MySQL), ¡HBase ¡ – Back-­‑end ¡data ¡analyKcs ¡(Offline) ¡ • HDFS, ¡MapReduce, ¡Spark ¡ Front-end Tier Back-end Tier Data Analytics Apps/Jobs Memcached Memcached + DB (MySQL) Memcached + DB (MySQL) Web + DB (MySQL) Internet Web MapReduce Spark Server Web Server Server HDFS NoSQL DB NoSQL DB (HBase) Data Accessing NoSQL DB (HBase) and Serving (HBase) Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 3 ¡

  4. Who ¡Are ¡Using ¡Hadoop? Focuses ¡on ¡large ¡data ¡and ¡data ¡analysis ¡ • • Hadoop ¡(e.g. ¡HDFS, ¡MapReduce, ¡RPC, ¡HBase) ¡environment ¡is ¡gaining ¡a ¡lot ¡of ¡ momentum ¡ • h<p://wiki.apache.org/hadoop/PoweredBy ¡ ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 4 ¡

  5. Spark ¡Ecosystem ¡ • Generalize ¡MapReduce ¡to ¡support ¡new ¡apps ¡in ¡same ¡engine ¡ • Two ¡Key ¡ObservaKons ¡ – General ¡task ¡support ¡with ¡DAG ¡ ¡ – MulK-­‑stage ¡and ¡interacKve ¡apps ¡require ¡faster ¡ data ¡sharing ¡ across ¡parallel ¡jobs ¡ BlinkDB Caffe, MLlib Spark … GraphX TensorFlow, Streaming (Machine (Machine Spark (graph) BigDL, etc. (real-time) Learning) Learning) SQL (Deep Learning) (Deep Learning) Spark YARN ¡ Standalone ¡ Apache ¡Mesos ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 5 ¡

  6. Who ¡Are ¡Using ¡Spark? Focuses ¡on ¡large ¡data ¡and ¡data ¡analysis ¡with ¡in-­‑memory ¡techniques ¡ • • Apache ¡Spark ¡is ¡gaining ¡a ¡lot ¡of ¡momentum ¡ • h<p://spark.apache.org/powered-­‑by.html ¡ ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 6 ¡

  7. Q2: ¡What ¡are ¡the ¡Main ¡Driving ¡forces ¡for ¡New-­‑ generaAon ¡Big ¡Data ¡So7ware ¡Stacks? ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 7 ¡

  8. Increasing ¡Usage ¡of ¡HPC, ¡Big ¡Data ¡and ¡Deep ¡Learning ¡ Big ¡Data ¡ HPC ¡ ¡ (Hadoop, ¡Spark, ¡ (MPI, ¡RDMA, ¡ HBase, ¡ Lustre, ¡etc.) ¡ Memcached, ¡ etc.) ¡ Deep ¡Learning ¡ (Caffe, ¡TensorFlow, ¡ BigDL, ¡etc.) ¡ Convergence ¡of ¡HPC, ¡Big ¡Data, ¡and ¡Deep ¡Learning!!! ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 8 ¡

  9. How ¡Can ¡HPC ¡Clusters ¡with ¡High-­‑Performance ¡Interconnect ¡and ¡Storage ¡ Architectures ¡Benefit ¡Big ¡Data ¡and ¡Deep ¡Learning ¡ApplicaAons? ¡ Can ¡HPC ¡Clusters ¡with ¡ How ¡much ¡ Can ¡RDMA-­‑enabled ¡ Can ¡the ¡bo<lenecks ¡be ¡ high-­‑performance ¡ performance ¡benefits ¡ alleviated ¡with ¡new ¡ high-­‑performance ¡ storage ¡systems ¡(e.g. ¡ designs ¡by ¡taking ¡ can ¡be ¡achieved ¡ interconnects ¡ ¡ advantage ¡of ¡HPC ¡ SSD, ¡parallel ¡file ¡ through ¡enhanced ¡ benefit ¡Big ¡Data ¡ ¡ technologies? ¡ systems) ¡benefit ¡Big ¡ designs? processing ¡and ¡Deep ¡ Data ¡and ¡Deep ¡Learning ¡ ¡ Learning? How ¡to ¡design ¡ applicaKons? ¡ benchmarks ¡for ¡ ¡ What ¡are ¡the ¡major ¡ evaluaKng ¡the ¡ bo<lenecks ¡in ¡current ¡Big ¡ performance ¡of ¡Big ¡Data ¡ Data ¡processing ¡and ¡Deep ¡ and ¡Deep ¡Learning ¡ Learning ¡middleware ¡(e.g. ¡ middleware ¡on ¡HPC ¡ ¡ Hadoop, ¡Spark)? ¡ clusters? Bring ¡HPC, ¡Big ¡Data ¡processing, ¡and ¡Deep ¡ Learning ¡into ¡a ¡“convergent ¡trajectory”! ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 9 ¡

  10. Can ¡We ¡Run ¡Big ¡Data ¡and ¡Deep ¡Learning ¡Jobs ¡on ¡ExisAng ¡HPC ¡ Infrastructure? ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 10 ¡

  11. Can ¡We ¡Run ¡Big ¡Data ¡and ¡Deep ¡Learning ¡Jobs ¡on ¡ExisAng ¡HPC ¡ Infrastructure? ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 11 ¡

  12. Can ¡We ¡Run ¡Big ¡Data ¡and ¡Deep ¡Learning ¡Jobs ¡on ¡ExisAng ¡HPC ¡ Infrastructure? ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 12 ¡

  13. Can ¡We ¡Run ¡Big ¡Data ¡and ¡Deep ¡Learning ¡Jobs ¡on ¡ExisAng ¡HPC ¡ Infrastructure? ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 13 ¡

  14. Q3: ¡What ¡Chances ¡ ¡are ¡Provided ¡for ¡the ¡Academia ¡ CommuniAes ¡in ¡Exploring ¡the ¡Design ¡Spaces ¡of ¡Big ¡Data ¡ So7ware ¡Stacks? ¡ ¡ ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 14 ¡

  15. Designing ¡CommunicaAon ¡and ¡I/O ¡Libraries ¡for ¡Big ¡ Data ¡Systems: ¡Challenges ¡ ¡ ¡ ApplicaAons ¡ Benchmarks ¡ Big ¡Data ¡Middleware ¡ (HDFS, ¡MapReduce, ¡HBase, ¡Spark, ¡gRPC/TensorFlow, ¡and ¡Memcached) ¡ Programming ¡Models ¡ RDMA ¡Protocols ¡ (Sockets) ¡ CommunicaAon ¡and ¡I/O ¡Library ¡ Point-­‑to-­‑Point ¡ Threaded ¡Models ¡ VirtualizaAon ¡(SR-­‑IOV) ¡ CommunicaAon ¡ and ¡SynchronizaAon ¡ I/O ¡and ¡File ¡Systems ¡ QoS ¡& ¡Fault ¡Tolerance ¡ Performance ¡Tuning ¡ Commodity ¡CompuAng ¡System ¡ Storage ¡Technologies ¡ Networking ¡Technologies ¡ Architectures ¡ (HDD, ¡SSD, ¡NVM, ¡and ¡NVMe-­‑ (InfiniBand, ¡1/10/40/100 ¡GigE ¡ (MulA-­‑ ¡and ¡Many-­‑core ¡ SSD) ¡ and ¡Intelligent ¡NICs) ¡ architectures ¡and ¡accelerators) ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 15 ¡

  16. The ¡High-­‑Performance ¡Big ¡Data ¡(HiBD) ¡Project ¡ • RDMA ¡for ¡Apache ¡Spark ¡ ¡ • RDMA ¡for ¡Apache ¡Hadoop ¡2.x ¡(RDMA-­‑Hadoop-­‑2.x) ¡ – Plugins ¡for ¡Apache, ¡Hortonworks ¡(HDP) ¡and ¡Cloudera ¡(CDH) ¡Hadoop ¡distribuKons ¡ • RDMA ¡for ¡Apache ¡HBase ¡ • RDMA ¡for ¡Memcached ¡(RDMA-­‑Memcached) ¡ Available ¡for ¡InfiniBand ¡and ¡RoCE ¡ • RDMA ¡for ¡Apache ¡Hadoop ¡1.x ¡(RDMA-­‑Hadoop) ¡ Also ¡run ¡on ¡Ethernet ¡ • OSU ¡HiBD-­‑Benchmarks ¡(OHB) ¡ – HDFS, ¡Memcached, ¡HBase, ¡and ¡Spark ¡Micro-­‑benchmarks ¡ • hip://hibd.cse.ohio-­‑state.edu ¡ • Users ¡Base: ¡230 ¡organizaKons ¡from ¡30 ¡countries ¡ • More ¡than ¡21,800 ¡downloads ¡from ¡the ¡project ¡site ¡ Network ¡Based ¡CompuAng ¡Laboratory ¡ HPBDC ¡‘17 ¡Panel ¡ 16 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend