Hive* A Petabyte Scale Data Warehouse Using Hadoop Authors - PowerPoint PPT Presentation

Hive* – A Petabyte Scale Data Warehouse Using Hadoop Authors Facebook Data Infrastructure Team CS 743, Fall 2014 Conference Data Engineering (ICDE), 2010 IEEE UNIVERSITY OF WATERLOO Presenter Malek NAOUACH, Nets&Dist Sys November 13 th , 2014 1

Overview* MapReduce Fault Big Data Massively Tolerant Processing Parallel Decisions Hadoop Linearly Making Scalable Familiarity Hive 2

Hive Data Structure* Complex Datatypes Composition Primitive Data Types list<map<string, struct<p1:int, p2:int>>> INT | TINYINT | SMALLINT | BIGINT | BOOLEAN | FLOAT Complex Schema Creation CREATE TABLE t1(st string, fl float, li list<map<string, struct<p1:int, p2:int>>>) Complex Data Types Hive Data Incorporation Associative arrays | Lists | Structs + SerDe Interface + ObjectInspector Interface + getObjectInspector method **Serialization Process of translating data structures or object state into a format that can be stored and reconstructed later. 3

Hive Query Language* HiveQL Data Insertion HiveQL Semantics (SQL) INSERT OVERWRITE SUBQUERIES | INNER, LEFT & RIGHT OUTER JOINS | CARTESIAN PROD | GROUP By | AGGREGATION HiveQL Supports Map-Red Programs | UNION | CREATE TABLE FROM ( MAP stocks USING 'python ce_mapper.py' NOT HiveQL Semantics AS (company,value) INSERT | UPDATE | DELETE FROM stocksStat CLUSTER BY value ) a Reduce company,value USING 'python ce_reduce.py' **HQL Hibernate Query Language 4

Data Storage* Hive MetaStore Library HDFS Schema Logical Partitioning MetaData Prune/Bucket Stocks Buckets Data …... /hive/stocks/ CREATE TABLE Stocks /hive/stocks/2014-11-13/ (Company STRING, val DOUBLE) /hive/stocks/2014-11-13/10 PARTITIONED BY (day /hive/stocks/2014-11-13/11 STRING, hr INT); /hive/stocks/2014-11-13/12 5

System Architecture(1/3)* Hive JDBC ODBC Web CLI Thrift Server Interface MetaStore Driver (Compiler, Optimizer, Executor) HADOOP (MAP-REDUCE + HDFS) Name Node Job Tracker Data Node + Task Tracker 6

System Architecture (2/3)* H Hive A 8. sendResults 6.2. jobDone Execution D Engine O 6.1. exeJob 5. exePhysPlan O P Thrift Interf. E.Client 7. fetchResults 6.1. metaDataOps ODBC Web UI Driver forDDLs Interf. 1. exeHiveQuery CLI JDBC 2. getExePhysPlan 5. sendExePhysPlan Interf. 4. sendMetaData Query MetaStore Compiler 3. getMetaData **Interoperability **Logical/Physical Plan is the ability of a system to work with Abstract Syntax Tree (AST) for the other systems without special effort on query, Query Block Tree, Involved 7 the customer side. Interfaces, Directed Acyclic Graph

System Architecture (3/3)* MapReduce 6.2. jobDone Job Tracker 6.1. exeJob MapReduce Tasks Task Trackers Task Trackers H (MAP) (Reduce) A D Map Op. Map Op. O Tree Tree O SerDe SerDe P HDFS Data Nodes 8

HiveQL to Phys. Plan Exp. (1/3)* FROM(SELECT a.status, b.school, b.gender FROM status_updates a JOIN profiles b ON (a.userid = b.userid AND a.ds='2009-03-20')) subq1 INSERT OVERWRITE TABLE gender_summary PARTITION (ds='2009-03-20') SELECT subq1.gender, COUNT(1) GROUP BY subq1.gender INSERT OVERWRITE TABLE school_summary PARTITION (ds='2009-03-20') SELECT subq1.school, COUNT(1) GROUP BY subq1.school 9

HiveQL to Phys. Plan Exp. (2/3)* status_updates profiles (userid, status, ds) (userid, school, gender) 10

HiveQL to Phys. Plan Exp. (3/3)* SELECT subq1.school, COUNT(1) SELECT subq1.gender, COUNT(1) GROUP BY subq1.school GROUP BY subq1.gender 11

Brief Recap.* ✔ Hive is created to simplify big data analysis. (1hour for new users to master) ✔ Hive is improving the performance of Hadoop. (+20% efficiency) ✔ Hive enables data processing at a fraction of the cost of more traditional WD. ✔ Hive is working towards to subsume SQL syntax. ✔ Hive is enhancing the Query Complier and the interoperability. http://hadoop.apache.org/ http://hive.apache.org/ 12

Thanks!* Questions? 13

Hive* A Petabyte Scale Data Warehouse Using Hadoop Authors - PowerPoint PPT Presentation

Hive* A Petabyte Scale Data Warehouse Using Hadoop Authors Facebook Data Infrastructure Team CS 743, Fall 2014 Conference Data Engineering (ICDE), 2010 IEEE UNIVERSITY OF WATERLOO Presenter Malek NAOUACH, Nets&Dist Sys November

SAS Data Loader for Hadoop Agenda Intro What is Hadoop? What do I get from Hadoop?

The The O Old Hive ld Hive The mission of bee farm THE HE OLD LD HIVE VE is to produce

Netflix: Netflix: Petabyte Scale Petabyte Scale Analytics Infrastructure in Analytics

Apache HIVE Data Warehousing & Analytics on Hadoop Hefu Chai What is HIVE? A system for

SparkSQL 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce Spark RDD

SparkSQL 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce Spark RDD

Financial Data Financial Data Financial Data Financial Data Warehouse Warehouse Warehouse

Data Warehouse Update March 19, 2019 Agenda Why a data warehouse? Why THIS data

Working the Hive 1 * What When How What to do Everyone who own or manages a hive must be

SparkSQL 11/14/2018 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce

Big Data with R and Hadoop Jamie F Olson June 11, 2015 ; R and Hadoop Review various tools

COMP9313: Big Data Management Hadoop and HDFS Hadoop Apache Hadoop is an open-source

Da Data c cubes i in A n Apache he H Hive Amareshwari Sriramadasu Jaideep Dhok Engineer

An Overview of Data Warehousing and OLAP T echnology What is a data warehouse? A

Hadoop on HPC: Integrating Hadoop and Pilot-based Dynamic Resource Management Andre Luckow,

Getting Hadoop, Hive and HBase up and running in less than 15 mins ApacheCon NA 2013 Mark

1 Usability - Usage - Security Workflow RESTful interface 2 What is AHE - Virtualises

CEDAR: HepData, JetWeb and Rivet Andy Buckley Institute for Particle Physics Phenomenology

Hibernate Annotation with HQL & SQL HQL HQL Hibernate Query

Groovy and CFML CFGroovy: Groovy for CFML Developers Barney Boisvert Who Am I? Barney Boisvert

Reading for This Time News Review: Polygon Clipping CPSC 314 Computer Graphics Project 3

Ray Tracing Basics I Computer Graphics as Virtual Photography real camera photo Photographic

Ray Tracing 1 Ray Tracing Ray Tracing kills two birds with one stone: Solves the Hidden

CULLING AND HIDDEN SURFACE ELIMINATION ALGORITHMS Graphics & Visualization: Principles &

Hive* A Petabyte Scale Data Warehouse Using Hadoop Authors - PowerPoint PPT Presentation

Hive* A Petabyte Scale Data Warehouse Using Hadoop Authors Facebook Data Infrastructure Team CS 743, Fall 2014 Conference Data Engineering (ICDE), 2010 IEEE UNIVERSITY OF WATERLOO Presenter Malek NAOUACH, Nets&Dist Sys November

SAS Data Loader for Hadoop Agenda Intro What is Hadoop? What do I get from Hadoop?

The The O Old Hive ld Hive The mission of bee farm THE HE OLD LD HIVE VE is to produce

Netflix: Netflix: Petabyte Scale Petabyte Scale Analytics Infrastructure in Analytics

Apache HIVE Data Warehousing &amp; Analytics on Hadoop Hefu Chai What is HIVE? A system for

SparkSQL 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce Spark RDD

SparkSQL 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce Spark RDD

Financial Data Financial Data Financial Data Financial Data Warehouse Warehouse Warehouse

Data Warehouse Update March 19, 2019 Agenda Why a data warehouse? Why THIS data

Working the Hive 1 * What *When *How What to do Everyone who own or manages a hive must be

SparkSQL 11/14/2018 1 Where are we? Pig Latin HiveQL Pig Hive ??? Hadoop MapReduce

Big Data with R and Hadoop Jamie F Olson June 11, 2015 ; R and Hadoop Review various tools

COMP9313: Big Data Management Hadoop and HDFS Hadoop Apache Hadoop is an open-source

Da Data c cubes i in A n Apache he H Hive Amareshwari Sriramadasu Jaideep Dhok Engineer

An Overview of Data Warehousing and OLAP T echnology What is a data warehouse? A

Hadoop on HPC: Integrating Hadoop and Pilot-based Dynamic Resource Management Andre Luckow,

Getting Hadoop, Hive and HBase up and running in less than 15 mins ApacheCon NA 2013 Mark

1 Usability - Usage - Security Workflow RESTful interface 2 What is AHE - Virtualises

CEDAR: HepData, JetWeb and Rivet Andy Buckley Institute for Particle Physics Phenomenology

Hibernate Annotation with HQL &amp; SQL HQL HQL Hibernate Query

Groovy and CFML CFGroovy: Groovy for CFML Developers Barney Boisvert Who Am I? Barney Boisvert

Reading for This Time News Review: Polygon Clipping CPSC 314 Computer Graphics Project 3

Ray Tracing Basics I Computer Graphics as Virtual Photography real camera photo Photographic

Ray Tracing 1 Ray Tracing Ray Tracing kills two birds with one stone: Solves the Hidden

CULLING AND HIDDEN SURFACE ELIMINATION ALGORITHMS Graphics &amp; Visualization: Principles &amp;

Apache HIVE Data Warehousing & Analytics on Hadoop Hefu Chai What is HIVE? A system for

Working the Hive 1 * What When How What to do Everyone who own or manages a hive must be

Hibernate Annotation with HQL & SQL HQL HQL Hibernate Query

CULLING AND HIDDEN SURFACE ELIMINATION ALGORITHMS Graphics & Visualization: Principles &