lenses an on demand approach to etl
play

Lenses: An On-Demand Approach to ETL Ying Yang + , Niccolo - PowerPoint PPT Presentation

The ODIn Lab @ Lenses: An On-Demand Approach to ETL Ying Yang + , Niccolo Meneghe0 + , Ronny Fehling*,Zhen Hua Liu*, Oliver Kennedy + + SUNY Buffalo, * Oracle {yyang25,


  1. The ODIn Lab @ Lenses: An On-Demand Approach to ETL Ying ¡Yang + , ¡Niccolo ¡Meneghe0 + , ¡Ronny ¡Fehling*,Zhen ¡Hua ¡Liu*, ¡Oliver ¡Kennedy + ¡ + ¡SUNY ¡Buffalo, ¡ * ¡Oracle ¡ ¡ ¡ {yyang25, ¡niccolom, ¡okennedy}@buffalo.edu ¡ {ronny.fehling, ¡zhen.liu}@oracle.com ¡ ¡

  2. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ 2 ¡

  3. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ ETL ¡Tool ¡ Data ¡Mart ¡ Lake ¡ 3 ¡

  4. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 4 ¡

  5. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 5 ¡

  6. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 6 ¡

  7. The ODIn Lab @ But, ¡raw ¡data ¡are ¡messy. ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 7 ¡

  8. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • Rating1: ¡missing ¡data. ¡ ¡ • Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ NULL ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ NULL ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 8 ¡

  9. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ NULL ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ NULL ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 9 ¡

  10. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Rating1: ¡missing ¡data. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ 10 ¡

  11. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ 11 ¡

  12. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • Rating1: ¡missing ¡data. ¡ ¡ • Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ id ¡ name ¡ name ¡ brand ¡ brand ¡ category ¡ category ¡ ROWID ¡ ROWID ¡ P123 ¡ P123 ¡ Apple ¡6s, ¡White ¡ Apple ¡6s, ¡White ¡ NULL ¡ NULL ¡ phone ¡ phone ¡ R1 ¡ R1 ¡ P124 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ Apple ¡5s, ¡Black ¡ NULL ¡ NULL ¡ phone ¡ phone ¡ R2 ¡ R2 ¡ P125 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡Note2 ¡ Samsung ¡ Samsung ¡ phone ¡ phone ¡ R3 ¡ R3 ¡ P2345 ¡ P2345 ¡ Sony ¡to ¡inches ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ NULL ¡ NULL ¡ R4 ¡ R4 ¡ P34234 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ Dell ¡ laptop ¡ laptop ¡ R5 ¡ ¡ R5 ¡ ¡ P34235 ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ HP ¡ laptop ¡ laptop ¡ R6 ¡ R6 ¡ 12 ¡

  13. The ODIn Lab @ The ¡clean ¡data ¡ AllRatings ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … ¡ 3 ¡ 121 ¡ R10 ¡ P34234 ¡ … ¡ 5 ¡ 5 ¡ R11 ¡ P34235 ¡ … ¡ 4.5 ¡ 4 ¡ R12 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P2345 ¡ … ¡ 5 ¡ 245 ¡ R8 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ Apple ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ Apple ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ Sony ¡ TV ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 13 ¡

  14. The ODIn Lab @ Upfront ¡cleaning ¡ Data ¡Cleaning ¡Technician: ¡ ¡ Cleaning ¡all ¡messy ¡data ¡before ¡analysis ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ Unnecessary ¡processing ¡of ¡unused ¡data. ¡ 14 ¡

  15. The ODIn Lab @ Inline ¡cleaning ¡ Data ¡Analyst : ¡ Cleaning ¡all ¡messy ¡data ¡ ¡ when ¡ ¡analysis ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ (1) Unnecessary ¡processing ¡of ¡unused ¡data. ¡ ¡ (2) Duplication ¡of ¡work. ¡ 15 ¡

  16. The ODIn Lab @ On-­‑demand ¡cleaning ¡ Data ¡Scientist/Crowdsourcing: ¡ Delay ¡the ¡cleaning ¡process ¡until ¡ needed ¡and ¡clean ¡ incrementally. ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 16 ¡

  17. The ODIn Lab @ SELECT r.pid, r.rating,r.review_ct FROM Rating r WHERE r.rating >= 4 and r. review_ct >=100 Feedback: ¡ Interacting ¡with ¡ paygo : ¡ ¡ ¡ ¡ Alice : ¡I ¡want ¡to ¡clean ¡the ¡data . ¡ ¡ ¡ Paygo: ¡OK, ¡does ¡“rating” ¡ ¡ ¡match ¡to ¡“evaluation”? ¡ Analysis ¡Result ¡ More ¡Accurate ¡ Query ¡ ¡ Analysis ¡Result ¡ ... ¡ Alice: ¡ Yes . ¡ ... ¡ ¡ Paygo: ¡Good, ¡here ¡is ¡the ¡result, ¡ do ¡you ¡want ¡to ¡clean ¡further? ¡ ¡ Alice: ¡… ¡ 17 ¡

  18. The ODIn Lab @ On-­‑demand ¡cleaning ¡ Data ¡Scientist/Crowdsourcing: ¡ Delay ¡the ¡cleaning ¡process ¡ until ¡needed ¡and ¡clean ¡ incrementally. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ Time ¡and ¡cost ¡ef#icient ¡comparatively ¡ ¡ We ¡need ¡a ¡general ¡on-­‑demand ¡cleaning ¡framework ¡ 18 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend