Data Curation: Refine and Shine Presented by: Michael - - PDF document

data curation refine and shine
SMART_READER_LITE
LIVE PREVIEW

Data Curation: Refine and Shine Presented by: Michael - - PDF document

W3 Data 2019-05-01 11:30 Data Curation: Refine and Shine Presented by: Michael Hobbs Dell EMC


slide-1
SLIDE 1

¡ ¡ ¡ ¡ ¡ W3 ¡

Data ¡ 2019-­‑05-­‑01 ¡11:30 ¡ ¡ ¡ ¡ ¡ ¡ ¡

Data ¡Curation: ¡Refine ¡and ¡Shine ¡ ¡

Presented ¡by: ¡ ¡ ¡

Michael ¡Hobbs ¡

Dell ¡EMC ¡ ‘ ¡ ¡ ¡

Brought ¡to ¡you ¡by: ¡ ¡ ¡ ¡

¡

¡

¡ ¡

888-­‑-­‑-­‑268-­‑-­‑-­‑8770 ¡·√·√ ¡904-­‑-­‑-­‑278-­‑-­‑-­‑0524 ¡-­‑ ¡info@techwell.com ¡-­‑ ¡http://www.stareast.techwell.com ¡

¡ ¡

¡

¡

slide-2
SLIDE 2

Michael ¡Hobbs ¡ ¡

Michael ¡Hobbs ¡is ¡a ¡15-­‑year ¡computer ¡industry ¡veteran ¡who ¡has ¡had ¡the ¡opportunity ¡to ¡ work ¡on ¡all ¡facets ¡of ¡the ¡computer. ¡From ¡CPU ¡Validation ¡to ¡Enterprise ¡Server ¡Test, ¡ Michael ¡has ¡spent ¡years ¡gathering ¡best ¡practices ¡from ¡various ¡cultures ¡and ¡companies. ¡ Through ¡this ¡diverse ¡background, ¡a ¡unique ¡perspective ¡has ¡been ¡developed. ¡Now ¡as ¡a ¡ Dell ¡EMC ¡Senior ¡Principal ¡Test ¡Engineer, ¡he ¡helps ¡define ¡and ¡implement ¡new ¡test ¡ technologies ¡including ¡analytics ¡and ¡machine ¡learning ¡to ¡allow ¡test ¡engineers ¡to ¡test. ¡

slide-3
SLIDE 3

4/23/19 ¡ 1 ¡

Data ¡Cura.on: ¡Refine ¡and ¡Shine ¡

1 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Data ¡Cura.on: ¡Refine ¡& ¡Shine ¡

May ¡2018 ¡ Michael ¡Hobbs, ¡Sr. ¡Principal ¡Test ¡Eng. ¡ Michael_Hobbs@dell.com ¡

slide-4
SLIDE 4

4/23/19 ¡ 2 ¡

Agenda ¡

  • Collec.ng ¡Data ¡for ¡Business ¡Needs ¡
  • Maintaining ¡Data ¡for ¡Reuse ¡and ¡Applicability ¡
  • Data ¡Reten.on ¡based ¡on ¡Policy ¡

3 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Data ¡Cura.on ¡Defined ¡

The ¡polices ¡and ¡processes ¡within ¡an ¡organiza3on, ¡for ¡controlled ¡data ¡ storage, ¡maintenance, ¡and ¡removal. ¡ ¡

4 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

slide-5
SLIDE 5

4/23/19 ¡ 3 ¡

5 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Data ¡ROI ¡

6 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Business ¡ Case ¡

¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Analy.cal ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Goals ¡

¡ ¡ ¡ ¡ ¡ ¡Pain ¡

¡ ¡ ¡ ¡Points ¡

Data ¡

slide-6
SLIDE 6

4/23/19 ¡ 4 ¡

Data ¡Mixture ¡

7 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Proprietary ¡ ¡ Customer ¡ Internet ¡ Business ¡ Logs, ¡Sensors, ¡ Test ¡Results ¡ Reviews, ¡Videos, ¡ Weather ¡ Sales, ¡Finance, ¡ Leads ¡ Preferences, ¡Habits, ¡ Issues ¡

Dell ¡Example ¡: ¡Test ¡Planning ¡Model ¡“Jarvis” ¡

8 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Sta.s.cal ¡ Model ¡ Business ¡ Rules ¡

Policies ¡ Defect ¡History ¡ DB: ¡Jira ¡ Test ¡Failure ¡ History ¡ DB: ¡Qmetry ¡ Automa.on ¡ candidates ¡ High ¡Priority ¡ Test ¡Cases ¡

slide-7
SLIDE 7

4/23/19 ¡ 5 ¡

5 ¡V’s ¡

9 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Valu e ¡ Volume ¡ Velocity ¡ Variety ¡ Veracity ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡

VOLUME ¡

10 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Data ¡Value ¡

VELOCITY ¡ ¡VARIETY ¡ VERACITY ¡

KB ¡ MB ¡ GB ¡ TB ¡ B a t c h ¡ Unstruct ¡ Logs, ¡Audio ¡ Table ¡ Internal ¡ Internet ¡ Partners ¡ Websites ¡

Internal=4 ¡ MB=2 ¡ Periodic=2 ¡ Database=4 ¡

1 ¡ 2 ¡ 3 ¡ 4 ¡

Total=12 ¡ Internet=1 ¡ TB=4 ¡ Real ¡Time=4 ¡ Unstructured=1 ¡ Total=1 0 ¡

slide-8
SLIDE 8

4/23/19 ¡ 6 ¡

Data ¡Feasibility ¡: ¡Dell ¡“Jarvis” ¡ ¡

11 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Precision ¡Test ¡ Volume ¡ Velocity ¡ Variety ¡ Veracity ¡ Value ¡

Test ¡Failure ¡ History ¡ 2 ¡ 2 ¡ 4 ¡ 4 ¡ 12 ¡ Defect ¡History ¡ 1 ¡ 1 ¡ 3 ¡ 3 ¡ 8 ¡

Data ¡Collec.on ¡Methods ¡

12 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Intelligent ¡ ¡Scripts Autonomous ¡Scripts Manual ¡Run ¡Scripts Manual ¡Input Direct ¡Input

Processing ¡ Volume ¡

slide-9
SLIDE 9

4/23/19 ¡ 7 ¡

Dell ¡Example ¡: ¡SUT ¡Configura.on ¡Model ¡“Q” ¡

13 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Sta.s.cal ¡ Model ¡ Business ¡ Rules ¡

Policies ¡ Op.mal ¡Config ¡ Coverage ¡ Best ¡Available ¡ Configura.ons ¡ ¡ ¡ ¡

Slot ¡Matrix ¡ DB: ¡Excel ¡ Thermal ¡Matrix ¡ DB: ¡Power ¡Point ¡ Commodity ¡List ¡ DB: ¡Excel ¡ ¡ Storage ¡Matrix ¡ DB: ¡Excel ¡ ¡

Data ¡Warehouse ¡

14 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

slide-10
SLIDE 10

4/23/19 ¡ 8 ¡

15 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

1

What does your business case require? ¡

Data Lake, Data Warehouse, Data Mart

2

Is anyone allowed to search the data? Can a user copy data at will? ¡

Data Control

3

Normalize the data? Audit data? ¡

Data Compatibility

Data ¡Lake ¡– ¡Data ¡Warehouse ¡– ¡Data ¡Mart ¡

16 ¡

hhps://www.holis.cs.io/blog/data-­‑lake-­‑vs-­‑data-­‑warehouse-­‑vs-­‑data-­‑mart/ ¡

4/23/19 ¡ StarEast ¡2019 ¡

slide-11
SLIDE 11

4/23/19 ¡ 9 ¡

Database ¡Growth ¡

17 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Sales ¡ Development ¡ Marke.ng ¡

Social ¡ Media ¡

Data ¡Lake ¡ Data ¡Mart ¡ Data ¡ Warehouse ¡ Data ¡Mart ¡

Making ¡Data ¡Accurate ¡

User ¡Input ¡for ¡Data ¡is ¡Inaccurate. ¡

How ¡do ¡you ¡input ¡Windows ¡2016 ¡

18 ¡

Personal ¡Data ¡Category ¡ Inaccuracy ¡

*Deloihe ¡Insights ¡

4/23/19 ¡ StarEast ¡2019 ¡

Win2016 ¡ Windows2016 ¡ win16 ¡ W16 ¡

slide-12
SLIDE 12

4/23/19 ¡ 10 ¡

Data ¡Maintenance ¡

19 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Internal ¡ Processes ¡ Audit ¡Data ¡ Third ¡Party ¡ Standards ¡

Data ¡Cura.on ¡for ¡“Jarvis” ¡ ¡

20 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Field ¡ Input ¡ RecommendaJon ¡ Benefits ¡

Planned ¡Config ¡ID ¡ Direct ¡Input ¡ New ¡Field ¡ Tracks ¡HW ¡SW ¡ ¡ Actual ¡Config ¡ID ¡ Direct ¡Input ¡ New ¡Field ¡ Tracks ¡HW ¡SW ¡ ¡ Build ¡Fixed ¡ Free ¡Text ¡ Audit ¡ ¡ Know ¡when ¡defect ¡is ¡fixed ¡ for ¡regression ¡ Build ¡Found ¡ Free ¡Text ¡ Audit ¡ Know ¡what ¡build ¡defect ¡ was ¡found ¡ Discovery ¡ Drop ¡Down ¡ Audit ¡ Know ¡how ¡defect ¡was ¡ found ¡ Test ¡Case ¡Number ¡ Direct ¡Input ¡ No ¡change ¡ Links ¡TC ¡to ¡defect ¡

slide-13
SLIDE 13

4/23/19 ¡ 11 ¡

21 ¡ 4/23/19 ¡ StarEast ¡2019 ¡ 22 ¡

Data ¡Reten.on ¡

4/23/19 ¡ StarEast ¡2019 ¡

Change ¡in ¡data ¡ROI. ¡ Business ¡no ¡longer ¡needs ¡the ¡data ¡ Data ¡Storage ¡is ¡cheap ¡but ¡not ¡free ¡

slide-14
SLIDE 14

4/23/19 ¡ 12 ¡

23 ¡

Delete ¡vs. ¡Archive ¡

Op.ons ¡

4/23/19 ¡ StarEast ¡2019 ¡

Delete ¡vs ¡Archive ¡

24 ¡

Data ¡Movement ¡

4/23/19 ¡ StarEast ¡2019 ¡

Primary ¡ Secondary ¡ Archive ¡ Dele.on ¡

slide-15
SLIDE 15

4/23/19 ¡ 13 ¡

25 ¡

Organiza.on ¡Data ¡

4/23/19 ¡ StarEast ¡2019 ¡ 26 ¡

¡ ¡ ¡ ¡

Summary ¡

4/23/19 ¡ StarEast ¡2019 ¡

CollecJng ¡ Data ¡ Maintaining ¡ Data ¡ Data Rentention ¡

DAT A ¡

01 ¡ 02 ¡ 03 ¡

slide-16
SLIDE 16

4/23/19 ¡ 14 ¡

27 ¡ 4/23/19 ¡ StarEast ¡2019 ¡

Michael ¡Hobbs: ¡ A ¡20-­‑year ¡computer ¡industry ¡veteran ¡who ¡has ¡had ¡the ¡opportunity ¡to ¡work ¡

  • n ¡all ¡facets ¡of ¡the ¡computer. ¡From ¡CPU ¡Valida3on ¡to ¡Enterprise ¡Server ¡Test, ¡

Michael ¡has ¡spent ¡years ¡gathering ¡best ¡prac3ces ¡from ¡various ¡cultures ¡and ¡

  • companies. ¡Through ¡this ¡diverse ¡background ¡a ¡unique ¡perspec3ve ¡has ¡been ¡
  • developed. ¡

Now ¡as ¡a ¡Dell ¡EMC ¡Senior ¡Principal ¡Test ¡Engineer, ¡he ¡helps ¡define ¡and ¡ implement ¡new ¡test ¡technologies ¡including ¡analy3cs ¡and ¡machine ¡learning. ¡ LinkedIn: ¡www.linkedin.com/in/michaellhobbs ¡

28 ¡ 4/23/19 ¡ StarEast ¡2019 ¡