The Myria Big Data Management and Analytics System and Cloud - PowerPoint PPT Presentation

The Myria Big Data Management and Analytics System and Cloud Service Jingjing Wang, Tobin Baker, Magdalena Balazinska, Daniel Halperin, Brandon Haynes, Bill Howe, Dylan Hutchison, Shrainik Jain, Ryan Maas, Parmita Mehta, Dominik Moritz, Brandon Myers, Jennifer Ortiz, Dan Suciu, Andrew Whitaker, Shengliang Xu D EPARTMENT OF C OMPUTER S CIENCE & E NGINEERING U NIVERSITY OF W ASHINGTON http://myria.cs.washington.edu

Acknowledgments The Myria Team! Our science collaborators!! • Andrew Connolly, Tom Quinn, Sarah Loebman, Ariel Rokem, Ginger Armbrust, Yejin Choi Our sponsors!!! • National Science Foundation, Moore & Sloan Foundations, Washington Research Foundation, eScience Institute, ISTC Big Data, Petrobras, EMC, Amazon, and Facebook Magdalena Balazinska - University of Washington 2

Big Data Management Analytics Science Apps Efficient Easy Magdalena Balazinska - University of Washington 3

Goals of the Myria stack • Advance state-of-the-art in big data systems • Focus on efficiency and productivity • Test on real applications and support real users Deliverables: • Built a new big data mgmt & analytics system • Deployed and operate Myria as a service • Source code and demo service: http://myria.cs.washington.edu Magdalena Balazinska - University of Washington 4

Myria has been developed and is operated by • Database Group in the Computer Science & Engineering Department at UW • UW eScience Institute Co-PIs: Dan Suciu and Bill Howe Magdalena Balazinska - University of Washington 5

Myria Demo Magdalena Balazinska - University of Washington 6

Myria Cloud Service Service available through project website Magdalena Balazinska - University of Washington 7

Analysis in the Browser with Myria Declarative-imperative analysis with MyriaL and Python Magdalena Balazinska - University of Washington 8

Myria Operates Directly on Data in S3 For efficient processing, caches query results internally in cluster Magdalena Balazinska - University of Washington 9

MyriaL is Imperative+Declarative with Iterations Magdalena Balazinska - University of Washington 10

Myria Provides Details of Query Execution Magdalena Balazinska - University of Washington 11

Myria Service includes Jupyter Notebook Jupyter notebook available directly with Myria service Magdalena Balazinska - University of Washington 12

Myria Supports Python User-Defined Functions MRI data analysis Data from the Human Connectome project Python UDFs enable running legacy code and complex analytics beyond SQL/MyriaL Magdalena Balazinska - University of Washington 13

Users Can Deploy Own Service pip install myria-cluster myria-cluster create [OPTIONS] CLUSTER_NAME myria-cluster stop/start/destroy […] Magdalena Balazinska - University of Washington 14

Example Myria Applications Natural Language Processing Picture from Leila Zilles Astronomy MyMergerTree Screenshot Neuroscience RED fluorescence Nanoplankton Ultraplankton Picoplankton IS Prochlorococcus FSC Oceanography Bibliometrics Data from the Human 15 Connectome project

Myria Internals Magdalena Balazinska - University of Washington 16

Myria Polystore Stack MyMergerTree Browser Python/Jupyter Specialized Services RACO Query Translation, Optimization, and Orchestration MPI MyriaX SciDB Parallel, Iterative, and Elastic Query Graphs Execution NoSQL Magdalena Balazinska - University of Washington 17

Myria’s Data Model and Query Interface Relational Algebra Compiler (RACO) • – Myria’s query optimizer and federator RACO core: relational algebra extended with • – Iterations for multi-pass algorithms – Flatmap to explode non-1NF attribute values into many tuples – Stateful apply for windowed and neighborhood functions Query language: MyriaL (Imperative+Declarative) • – Each statement is declarative (SQL, comprehensions, function calls) – Statements are combined with imperative constructs • Variable assignment • Iteration Python UDFs/UDAs • – Minimize barriers to adoption and run legacy code Python API • – Fluent API with Python lambda functions Magdalena Balazinska - University of Washington 18

Polystore Optimization • Rule-based opt. with three types of rules – Optimize logical Myria algebra plans – Translate logical plans into back-end specific physical plans – Optimize back-end specific physical plans • To add a new back-end, developer must specify – Tree representation of query language – Rules that translate Myria algebra into this representation – Administrative functions including one to submit queries • Data model independence – Myria hides the existence of various back-ends – Users write MyriaL scripts assuming relational model – Back-ends include select array, graph, and key-value systems Magdalena Balazinska - University of Washington 19

Federated Query Execution User or Opt. User Source Target [1] [2] DBMS DBMS t = scan(data) x = import('db://Source') x = distances(t,t) Worker 1 Worker 1 u = cluster(x) export(x,'db://Target') [3] Worker " Worker # Worker Directory [4] source.w 1 à target.w m source.w n à target.w 1 … Federated plans require fast data movement Magdalena Balazinska - University of Washington 20

Data Movement with PipeGen PipeGen: Data Pipe Generator for Hybrid Analytics Brandon Haynes, Alvin Cheung, and Magdalena Balazinska. SOCC 2016. DBMS Pipegen-Enabled DBMS Bytecode PipeGen Unit A+ Tests DBMS DBMS with bytecode optimized Data Pipe Type data pipe IORedirect : I/O Redirector Identify Inject Instrument File Open Conditional Unit Tests Expressions Redirection Augmented Types FormOpt : Format Optimizer PipeVerify : Instrument Data Flow Type Verification Unit Tests Analysis Substitution 21

PipeGen’s Performance 16-node cluster with 16 workers/tasks Transfer 10^9 tuples with 4 ints and 3 doubles Magdalena Balazinska - University of Washington 22

MyriaX Engine and Cloud Deployment JSON query plans & API calls REST Interface Coordinator YARN Container Amazon EC2 Instance … … Worker Worker Worker YARN Container YARN Container YARN Container Amazon EC2 Instance Amazon EC2 Instance … … RDBMS RDBMS RDBMS HDFS Amazon EBS Volumes and/or Local Storage Amazon S3 Magdalena Balazinska - University of Washington 24

MyriaX Overview • Data storage – Read data from S3, HDFS, local files – Parse CSV, TSV, and various scientific file formats – Store data in local relational DBMS instances • Fast storage with physical tuning (indexing, hash-partitioning) • Query execution – Fundamentally a parallel DBMS • Fast, pipelined query execution – But scheduling more flexible to support elasticity – Novel features: Multiway joins and iterations • Resource management – Executes on top of the YARN resource manager Magdalena Balazinska - University of Washington 25

Efficient Iterative Processing Asynchronous and Fault-Tolerant Recursive Datalog Evaluation in Shared-Nothing Engines Jingjing Wang, Magdalena Balazinska, and Daniel Halperin. PVLDB 8(12): 1542-1553 ( 2015 ) • User specifies query declaratively – Subset of Datalog with aggregation • Generate efficient, shared-nothing query plan – Small extensions to existing shared-nothing systems • Plan amenable to runtime optimizations – Synchronous vs asynchronous – Different processing priorities • Optimizations significantly affect performance Magdalena Balazinska - University of Washington 26

Myria’s Optimized Iterations Example Asynchronous and Fault-Tolerant Recursive Datalog Evaluation in Shared-Nothing Engines Jingjing Wang, Magdalena Balazinska, and Daniel Halperin. PVLDB 8(12): 1542-1553 ( 2015 ) Declarative Query E = scan(jwang:cc:graph); V = select distinct E.$0 from E; do CC := [$0, MIN($1)] <- [from V emit V.$0 as x, V.$0 as y] + [from E, CC where E.$0 = CC.$0 emit E.$1, CC.$1]; until convergence ; store(CC, CC); Compiled to a Distributed Query Plan // Can have multiple relations Scan(Edges) // with recursive dep. Join Scan(Edges) IDBController(CC) Magdalena Balazinska - University of Washington 27

Performance Comparison with Spark Declarative Query (subset of Datalog with agg.) Synchronous Shared-Nothing Query Plan Asynchronous In-Memory Processing Prioritize Base Data Prioritize New Data # of Workers 8 16 32 64 250 Connected Components – Twitter subgraph Query Time (Seconds) 221 million edges and 5 million vertices 200 150 100 50 0 Spark Myria, Sync Myria, Async 28 28 (GraphX)

Cloud Operation in Myria Or point to data in Amazon S3 Magdalena Balazinska - University of Washington 30

The Myria Big Data Management and Analytics System and Cloud - PowerPoint PPT Presentation

The Myria Big Data Management and Analytics System and Cloud Service Jingjing Wang, Tobin Baker, Magdalena Balazinska, Daniel Halperin, Brandon Haynes, Bill Howe, Dylan Hutchison, Shrainik Jain, Ryan Maas, Parmita Mehta, Dominik Moritz, Brandon

Machine Learning Anders Holst SICS Big Data Analytics Analysis Big Data Big Value Big Data

Analytics and Data Summit 2020 Analytics and Data Summit 2020 Analytics and Data Summit 2020

COMP9313: Big Data Management Introduction to Big Data Management What is big data? Tweeted by

Analytics (9:55-10:15am) Break Research Opportunities in Location, Analytics, Big Data and GIS

Architecture 3.0 Landscape Analytics Jrgen Dllner Hasso-Plattner-Institut Jrgen

Big Data Analytics Armistead Boyd SVP, Product & Data Partnerships October 25, 2016 What is

Big Data Algorithms with Medical Applications Yixin Chen Outline Challenges to big data

Undergraduate Business Analytics Minor Spreadsheet Analytics BANA-2081 Business Analytics

Big Data Analytics: What is Big Data? Stony Brook University CSE545, Fall 2016 the inaugural

Big Data Analytics: What is Big Data? H. Andrew Schwartz Stony Brook University CSE545, Fall

CS535 Big Data 1/22/2020 Sangmi Lee Pallickara CS535 Big Data | Computer Science Department

Predictive Simulation & Big Data Analytics ISD Analytics Predict a better future

Michael Stonebraker The Meaning of Big Data - 3 V s Big Volume With simple (SQL)

Google Analytics Overview Whats Google Analytics? The Google Analytics

Document Name Solar Analytics - Rooftop PV energy analytics PREPARED BY: Your Name, Your Title

Data Mining & Analytics Data Mining Reference Model Data Warehouse Legal and Ethical Issues

Logistics Database Management Systems Go to http://www.ccs.neu.edu/~mirek/classes/2010-F-

Internal Simulation as a Key to Cognitive Function Lund, 2012 Germund Hesslow Problems of the

Extending In-Memory Relational Database Engines with Native Graph Support Mohamed S. Hassan 1

Connecting declarative software tools Declarative tools [for] connecting software Salvador Lucas

CSCI: 4500/6500 Programming Languages Origin & Evolution 1 Maria Hybinette, UGA Programming

Declarative Programming with Persistent Information Michael Hanus

Ethnomedicinal studies on medicinal plants used by people of Rif, Morocco Noureddine Chaachouay *

MDPI MOL2NET, International Conference Series on Multidisciplinary Sciences CHEMISTRY OF

The Myria Big Data Management and Analytics System and Cloud - PowerPoint PPT Presentation

The Myria Big Data Management and Analytics System and Cloud Service Jingjing Wang, Tobin Baker, Magdalena Balazinska, Daniel Halperin, Brandon Haynes, Bill Howe, Dylan Hutchison, Shrainik Jain, Ryan Maas, Parmita Mehta, Dominik Moritz, Brandon

Machine Learning Anders Holst SICS Big Data Analytics Analysis Big Data Big Value Big Data

Analytics and Data Summit 2020 Analytics and Data Summit 2020 Analytics and Data Summit 2020

COMP9313: Big Data Management Introduction to Big Data Management What is big data? Tweeted by

Analytics (9:55-10:15am) Break Research Opportunities in Location, Analytics, Big Data and GIS

Architecture 3.0 Landscape Analytics Jrgen Dllner Hasso-Plattner-Institut Jrgen

Big Data Analytics Armistead Boyd SVP, Product &amp; Data Partnerships October 25, 2016 What is

Big Data Algorithms with Medical Applications Yixin Chen Outline Challenges to big data

Undergraduate Business Analytics Minor Spreadsheet Analytics BANA-2081 Business Analytics

Big Data Analytics: What is Big Data? Stony Brook University CSE545, Fall 2016 the inaugural

Big Data Analytics: What is Big Data? H. Andrew Schwartz Stony Brook University CSE545, Fall

CS535 Big Data 1/22/2020 Sangmi Lee Pallickara CS535 Big Data | Computer Science Department

Predictive Simulation &amp; Big Data Analytics ISD Analytics Predict a better future

Michael Stonebraker The Meaning of Big Data - 3 V s Big Volume With simple (SQL)

Google Analytics Overview Whats Google Analytics? The Google Analytics

Document Name Solar Analytics - Rooftop PV energy analytics PREPARED BY: Your Name, Your Title

Data Mining &amp; Analytics Data Mining Reference Model Data Warehouse Legal and Ethical Issues

Logistics Database Management Systems Go to http://www.ccs.neu.edu/~mirek/classes/2010-F-

Internal Simulation as a Key to Cognitive Function Lund, 2012 Germund Hesslow Problems of the

Extending In-Memory Relational Database Engines with Native Graph Support Mohamed S. Hassan 1

Connecting declarative software tools Declarative tools [for] connecting software Salvador Lucas

CSCI: 4500/6500 Programming Languages Origin &amp; Evolution 1 Maria Hybinette, UGA Programming

Declarative Programming with Persistent Information Michael Hanus

Ethnomedicinal studies on medicinal plants used by people of Rif, Morocco Noureddine Chaachouay *

MDPI MOL2NET, International Conference Series on Multidisciplinary Sciences CHEMISTRY OF

Big Data Analytics Armistead Boyd SVP, Product & Data Partnerships October 25, 2016 What is

Predictive Simulation & Big Data Analytics ISD Analytics Predict a better future

Data Mining & Analytics Data Mining Reference Model Data Warehouse Legal and Ethical Issues

CSCI: 4500/6500 Programming Languages Origin & Evolution 1 Maria Hybinette, UGA Programming