WANalytics: Analytics for a geo- distributed data-intensive world
Ashish Vulimiri*, Carlo Curino+, Brighten Godfrey*, Konstantinos Karanasos+, George Varghese+
* UIUC + Microsoft
WANalytics: Analytics for a geo- distributed data-intensive world - - PowerPoint PPT Presentation
WANalytics: Analytics for a geo- distributed data-intensive world Ashish Vulimiri * , Carlo Curino + , Brighten Godfrey * , Konstantinos Karanasos + , George Varghese + * UIUC + Microsoft Large organizations today: Massive data volumes
* UIUC + Microsoft
DC1 ¡ DC2 ¡ DC3 ¡
SQL ¡ MR ¡ ML ¡ MR ¡ MR ¡ k-‑means ¡
preprocess ¡ adserve_log ¡
MapReduce ¡
click_log ¡
DC1 ¡
adserve_log ¡
SQL ¡ k-‑means ¡ clustering ¡ Mahout ¡ preprocess ¡ click_log ¡ MapReduce ¡ adserve_log ¡ click_log ¡
t ¡= ¡0 ¡ push ¡down ¡ preprocess ¡
click_log ¡
DCn ¡
adserve_log ¡
t ¡= ¡1 ¡ distributed ¡ semi-‑join ¡ t ¡= ¡2 ¡ centralized ¡ k-‑means ¡
preprocess ¡ adserve_log ¡
MapReduce ¡
click_log ¡
DC1 ¡
adserve_log ¡
SQL ¡ k-‑means ¡ clustering ¡ Mahout ¡ preprocess ¡ click_log ¡ MapReduce ¡ adserve_log ¡ click_log ¡
t ¡= ¡0 ¡ push ¡down ¡ preprocess ¡
click_log ¡
DCn ¡
adserve_log ¡
t ¡= ¡1 ¡ distributed ¡ semi-‑join ¡ t ¡= ¡2 ¡ centralized ¡ k-‑means ¡
preprocess ¡ adserve_log ¡
MapReduce ¡
click_log ¡
DC1 ¡
adserve_log ¡
SQL ¡ k-‑means ¡ clustering ¡ Mahout ¡ preprocess ¡ click_log ¡ MapReduce ¡ adserve_log ¡ click_log ¡
click_log ¡
DCn ¡
adserve_log ¡
t ¡= ¡0 ¡ push ¡down ¡ preprocess ¡ t ¡= ¡1 ¡ distributed ¡ semi-‑join ¡ t ¡= ¡2 ¡ centralized ¡ k-‑means ¡
click_log ¡
DC1 ¡
adserve_log ¡ click_log ¡
DCn ¡
adserve_log ¡
End-‑user ¡facing ¡DB ¡ (handles ¡OLTP) ¡
Hive ¡ Mahout ¡ MapReduce ¡
Local ¡ ¡ ¡ETL ¡
logs ¡ exec, ¡repl ¡ policy ¡
DAGs ¡ Results ¡
rold ¡ rnew ¡ rold ¡
DC1 ¡
P1 ¡ Q1 ¡
DCn ¡
Pn ¡ Qn ¡
filter ¡ aggr ¡ summarize ¡
Data ¡size ¡
extract ¡features ¡ combine ¡
Data ¡size ¡
filter ¡ aggr ¡ summarize ¡
Data ¡size ¡
extract ¡features ¡ combine ¡
Data ¡size ¡
0.00001 0.0001 0.001 0.01 0.1 1 10 0.0001 0.001 0.01 0.1 1 10
Data transfer TB (compressed) TB (raw, uncompressed) Size of OLTP updates since last OLAP run
Centralized Distributed: no caching Distributed: with caching
0.00001 0.0001 0.001 0.01 0.1 1 10 0.0001 0.001 0.01 0.1 1 10
Data transfer TB (compressed) TB (raw, uncompressed) Size of OLTP updates since last OLAP run
Centralized Distributed: no caching Distributed: with caching
Data transfer Size of OLTP updates since last OLAP run
Centralized Distributed: no caching Distributed: with caching
0.00001 0.0001 0.001 0.01 0.1 1 0.0001 0.001 0.01 0.1
Data transfer TB (compressed) TB (raw, uncompressed) Size of OLTP updates since last OLAP run
Centralized Distributed: no caching Distributed: with caching