The Emerging Discipline of Data Science Principles and - - PowerPoint PPT Presentation

the emerging discipline of data science
SMART_READER_LITE
LIVE PREVIEW

The Emerging Discipline of Data Science Principles and - - PowerPoint PPT Presentation

The Emerging Discipline of Data Science Principles and Techniques For Data-Intensive Analysis What is Big Data Analy9cs? Is this a new paradigm?


slide-1
SLIDE 1

The ¡Emerging ¡Discipline ¡of ¡ Data ¡Science ¡

Principles ¡and ¡Techniques ¡ For ¡ Data-­‑Intensive ¡Analysis ¡ ¡

slide-2
SLIDE 2

What ¡is ¡Big ¡Data ¡Analy9cs? ¡ Is ¡this ¡a ¡new ¡paradigm? ¡ What ¡is ¡the ¡role ¡of ¡data? ¡ What ¡could ¡possibly ¡go ¡wrong? ¡ What ¡is ¡Data ¡Science? ¡

slide-3
SLIDE 3

Big ¡Data ¡is ¡Hot! ¡

slide-4
SLIDE 4

Big ¡Data ¡Is ¡Important ¡

Hot ¡

  • Market ¡

– Results, ¡products, ¡jobs ¡

  • Poten9al ¡

– 4th ¡Paradigm ¡ – Accelerates ¡discovery ¡[urgent] ¡ – BeLer: ¡cost, ¡speed, ¡specificity ¡ – Change ¡80% ¡of ¡processes ¡[Gartner] ¡

  • Government ¡Policy ¡(45+) ¡

– White ¡House; ¡most ¡US ¡Govt ¡agencies ¡

  • Adop9on: ¡Most ¡Human ¡Endeavors ¡

– All ¡academic ¡disciplines ¡ – Computa9onal ¡X ¡ ¡

Cool ¡

  • Low ¡effec9ve ¡adop9on ¡[EMC] ¡

– ¡60% ¡opera9onal ¡ – 20% ¡significant ¡change ¡ – < ¡1% ¡effec9ve ¡

  • Results ¡not ¡opera9onal ¡
  • In ¡its ¡infancy ¡þ ¡lacking ¡

– Understanding ¡ – Concepts, ¡tools, ¡techniques ¡ (methods) ¡

  • 21st ¡Century ¡Sta9s9cs ¡ ¡

– Theory: ¡principles, ¡guidelines ¡

slide-5
SLIDE 5

Healthcare ¡Poten9al: ¡BeLer ¡Health; ¡Faster, ¡Cheaper ¡Remedies ¡

slide-6
SLIDE 6

What ¡could ¡go ¡Wrong? ¡ When ¡are ¡Correla9ons ¡Spurious? ¡

slide-7
SLIDE 7

Or ¡Just ¡Wrong? ¡E.g. ¡Google ¡Flu ¡Trends ¡

Allegedly ¡Real-­‑9me, ¡Reliable ¡Predic9ons ¡ High ¡100 ¡out ¡of ¡108 ¡weeks ¡

slide-8
SLIDE 8

Future ¡of ¡Life: ¡Ins9tute ¡to ¡ “mi;gate ¡existen;al ¡risks ¡facing ¡humanity” ¡

slide-9
SLIDE 9

US ¡Legal ¡Community ¡Pursuing ¡ Algorithmic ¡Accountability ¡

slide-10
SLIDE 10

Do ¡We ¡Know ¡/ ¡Can ¡We ¡Prove? ¡

  • DIA ¡Result: ¡correct, ¡complete, ¡efficient? ¡
  • What ¡machines ¡/ ¡algorithms ¡/ ¡Machine ¡

Learning ¡/ ¡Black ¡Boxes ¡/ ¡DIA ¡do? ¡

  • Emergent ¡Data-­‑Driven ¡Society ¡with ¡High ¡

– Reward: ¡Cancer ¡cures, ¡drug ¡discovery, ¡personalized ¡ medicine, ¡… ¡ – Risk: ¡errors ¡in ¡any ¡of ¡the ¡above ¡ ¡

slide-11
SLIDE 11

The ¡search ¡for ¡ truth ¡ evidence-­‑based ¡causality ¡ evidence-­‑based ¡correla9ons ¡

slide-12
SLIDE 12

Model ¡/ ¡ Theory ¡ Data ¡

Hypotheses ¡

Analysis ¡

slide-13
SLIDE 13

Long ¡Illustrious ¡Histories ¡

Data ¡Analysis ¡

  • Mathema9cs ¡
  • Babylon ¡(17th-­‑12th ¡C ¡BCE) ¡
  • India ¡(12th ¡C ¡BCE) ¡
  • Mathema9cal ¡analysis ¡(17th ¡C, ¡

Scien9fic ¡Revolu9on) ¡

  • Sta9s9cs ¡(5th ¡C ¡BCE, ¡18th ¡C) ¡

¡ ~4,000 ¡years ¡

Scien1fic ¡Method ¡

  • Empiricism ¡

– Aristotle ¡(384-­‑322 ¡BCE) ¡ – Ptolemy ¡(1st ¡C) ¡ – Bacons ¡(13th, ¡16th ¡C) ¡ ~2,000 ¡years ¡

  • Scien9fic ¡Discovery ¡Paradigms ¡

1. Theory ¡ 2. Experimenta9on ¡ 3. Simula9on ¡ 4. eScience ¡/ ¡Big ¡Data ¡ ~ ¡1,000 ¡years ¡

slide-14
SLIDE 14

Fourth ¡Paradigm ¡

Modern ¡Compu1ng ¡

  • Hardware: ¡40s-­‑50s ¡
  • FORTRAN: ¡50s ¡ ¡
  • Spreadsheets: ¡70s ¡
  • Databases: ¡70s-­‑80s ¡
  • World ¡Wide ¡Web: ¡90s ¡

~ ¡60 ¡years ¡

Data-­‑Intensive ¡Analysis ¡of ¡Everything ¡

  • eScience ¡(~2000) ¡
  • Big ¡Data ¡(~2007) ¡

– Par9cle ¡physics, ¡drug ¡discovery, ¡… ¡

~ ¡15 ¡years ¡ Paradigms ¡

– Long ¡developments ¡ – Significant ¡shiss ¡

  • Conceptual ¡
  • Theore9cal ¡
  • Procedural ¡
slide-15
SLIDE 15

Biopsy Sequence Compare Target Test Treat Monitor

Pr Precision Onc ision Oncology

  • logy

In silico In vivo In vitro Normal skin cell Sequencing Machines Chromosomes Normal cell Cancer cell Treated cell Scans

Patient

Biomarkers Original cancer cell

Source: Marty Tenebaum, Cancer Commons

slide-16
SLIDE 16

Accelerating Scientific Discovery

Experiment

Model

Correlations/ Hypotheses Probabilistic Results

Wha What: t: Cor

  • rrela

lation tion Why: Why: Causa usation tion

slide-17
SLIDE 17

Accelerating Scientific Discovery

Experiment

Model

Correlations/ Hypotheses Probabilistic Results

Wha What: t: Cor

  • rrela

lation tion Why: Why: Causa usation tion

Watson Baylor Scientists

slide-18
SLIDE 18

Profound ¡Changes: ¡Paradigm ¡Shis ¡[Kuhn] ¡

  • New ¡reasoning ¡/ ¡problem ¡solving ¡model ¡

– Data ¡ ¡ ¡ ¡ ¡ ¡è Data-­‑Intensive ¡(Big ¡Data ¡– ¡4 ¡Vs) ¡ – Why ¡ ¡ ¡ ¡ ¡ ¡è What ¡ – Strategic ¡(theory-­‑based) ¡ ¡è Tac9cal ¡(evidence-­‑based) ¡ – Theory-­‑driven ¡(top-­‑down) ¡è Data-­‑driven ¡(boLom-­‑up) ¡ – Hypothesis ¡tes9ng ¡ ¡ ¡è Hypothesis ¡genera9on ¡

  • Enabling ¡Paradigm ¡Shiss ¡in ¡most ¡disciplines ¡

– Science ¡ ¡ ¡ ¡ ¡è ¡ ¡ ¡ ¡eScience ¡ – Accelera9ng ¡(scien9fic ¡/ ¡engineering) ¡discovery ¡ – Most ¡domains ¡

  • Personalized ¡medicine

¡ ¡• ¡Urban ¡Planning ¡

  • Drug ¡interac9ons

¡ ¡ ¡• ¡Social ¡and ¡Economic ¡Planning ¡

  • Beyond ¡Data-­‑Driven: ¡Symbiosis ¡

– What ¡+ ¡Why ¡ – Human ¡intelligence ¡+ ¡machine ¡intelligence ¡

slide-19
SLIDE 19

THE ¡BIG ¡PICTURE: ¡MY ¡PERSPECTIVE ¡

Big ¡Data ¡and ¡Data-­‑Intensive ¡Analysis ¡

slide-20
SLIDE 20

DIA ¡Pipelines ¡/ ¡Ecosystem ¡

  • Q: ¡What ¡Big ¡Data ¡technologies ¡do ¡you ¡see ¡becoming ¡

very ¡popular ¡within ¡the ¡next ¡five ¡years? ¡ ¡

  • A: ¡I ¡don’t ¡like ¡to ¡say ¡that ¡there’s ¡a ¡specific ¡technology, ¡… ¡there ¡

are ¡pipelines ¡that ¡you ¡would ¡build ¡that ¡have ¡pieces ¡to ¡them. ¡ How ¡do ¡you ¡process ¡the ¡data, ¡how ¡do ¡you ¡represent ¡it, ¡how ¡ do ¡you ¡store ¡it, ¡what ¡inferen9al ¡problem ¡are ¡you ¡trying ¡to ¡

  • solve. ¡There’s ¡a ¡whole ¡toolbox ¡or ¡ecosystem ¡that ¡you ¡have ¡

to ¡understand ¡if ¡you ¡are ¡going ¡to ¡be ¡working ¡in ¡the ¡field. ¡

Michael ¡Jordan, ¡Pehong ¡Chen ¡Dis;nguished ¡Professor ¡at ¡the ¡University ¡of ¡California, ¡Berkeley ¡ ¡

slide-21
SLIDE 21

Data-­‑Intensive ¡Analysis ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡

Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ Analy9cal ¡ Results ¡

Data ¡Science ¡

Data-­‑Intensive ¡Analysis ¡

. ¡ . ¡ . ¡

slide-22
SLIDE 22

Data-­‑Intensive ¡Analysis ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡

Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ Analy9cal ¡ Results ¡

Data ¡Science ¡

Data-­‑Intensive ¡Analysis ¡

slide-23
SLIDE 23

Data-­‑Intensive ¡Analysis ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡

Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ Analy9cal ¡ Results ¡

Data ¡Science ¡

Data ¡Management ¡for ¡Data-­‑Intensive ¡Analysis ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡

External ¡ Internal ¡

. ¡ . ¡ . ¡

Data ¡Sources ¡ Global ¡Data ¡ Catalogue ¡& ¡ Grid ¡Access ¡ Shared ¡ Data ¡Repository ¡

Rela9onships ¡

En99es ¡

Shared ¡Repository ¡Catalogue ¡

Raw ¡Data ¡Acquisi9on ¡& ¡ Cura9on ¡ Analy9cal ¡Data ¡Acquisi9on ¡ Data-­‑Intensive ¡Analysis ¡

Data ¡Science ¡

slide-24
SLIDE 24

DATA-­‑INTENSIVE ¡ANALYSIS ¡(DIA) ¡ DIA ¡PROCESS ¡(WORKFLOW ¡/ ¡PIPELINE) ¡ DIA ¡USE ¡CASE ¡RANGE ¡

Research ¡Method: ¡Examine ¡Complex, ¡Large-­‑Scale ¡Use ¡Cases ¡that ¡push ¡limits ¡

slide-25
SLIDE 25

Data ¡Analysis ¡èData-­‑Intensive ¡Analysis ¡

  • Common ¡defini9on– ¡far ¡too ¡simplis;c ¡: ¡extract ¡

knowledge ¡from ¡data ¡

  • DIA: ¡the ¡ac;vity ¡of ¡using ¡data ¡to ¡inves;gate ¡

phenomena, ¡to ¡acquire ¡new ¡knowledge, ¡and ¡to ¡ correct ¡and ¡integrate ¡previous ¡knowledge ¡

  • DIA ¡Process/Workflow/Pipeline: ¡a ¡sequence ¡of ¡
  • pera;ons ¡that ¡cons;tute ¡an ¡end-­‑to-­‑end ¡DIA ¡

from ¡source ¡data ¡to ¡a ¡quan;fied, ¡qualified ¡result ¡

slide-26
SLIDE 26

My ¡Focus ¡is ¡Not ¡common ¡DIA ¡Use ¡Cases ¡

slide-27
SLIDE 27

… ¡Nor ¡High ¡Impact ¡Organiza9onal ¡DIA ¡

slide-28
SLIDE 28

Data(-­‑Intensive) ¡Analysis ¡Range ¡* ¡

  • Small ¡Data ¡≠ ¡(volume, ¡velocity, ¡variety) ¡98% ¡

– Conven9onal ¡data ¡analysis: ¡1 ¡K ¡years ¡-­‑ ¡sta9s9cs, ¡spreadsheets, ¡databases, ¡… ¡

  • Big ¡Data ¡= ¡(volume, ¡velocity, ¡variety) ¡2% ¡

– Simple ¡DIA: ¡“most ¡data ¡science ¡is ¡simple” ¡Jeff ¡Leek ¡96% ¡

  • Simple ¡models ¡& ¡methods, ¡single ¡user, ¡short ¡dura9on: ¡65+ ¡self-­‑service ¡tools, ¡

ML, ¡widest-­‑usage ¡

  • Rela9ve ¡simplicity: ¡sales, ¡marke9ng, ¡& ¡social ¡trends, ¡defects, ¡… ¡ ¡

– Complex ¡DIA ¡4% ¡

  • Domains: ¡par9cle ¡physics, ¡economics, ¡stock ¡market, ¡genomics, ¡drug ¡

discovery, ¡weather, ¡boiling ¡water, ¡psychology, ¡… ¡

  • Models ¡& ¡Methods: ¡large, ¡collabora9ve ¡community, ¡long ¡dura9on, ¡very ¡large ¡

scale ¡ * ¡Many ¡more ¡factors ¡ Focus ¡ Why? ¡ A: ¡This ¡is ¡where ¡things ¡obviously ¡break ¡… ¡

slide-29
SLIDE 29

Example ¡Scien9fic ¡Workflow ¡(Arvados) ¡

slide-30
SLIDE 30

TOP-­‑QUARK, ¡LARGE ¡HADRON ¡ COLLIDER, ¡CERN, ¡SWITZERLAND ¡ ¡

Complex ¡DIA ¡Use ¡Case ¡#1 ¡ eScience, ¡Big ¡Science, ¡Networked ¡Science, ¡Community ¡Compu9ng, ¡ Science ¡Gateway ¡ ¡

slide-31
SLIDE 31
slide-32
SLIDE 32

Higg’s ¡Boson: ¡40 ¡Year ¡Search ¡

LHC ¡Data ¡from ¡proton–proton ¡collisions ¡at ¡centre-­‑of-­‑mass ¡energies ¡of ¡ 7 ¡TeV ¡(2011) ¡and ¡8 ¡TeV ¡(2012) ¡ ¡

slide-33
SLIDE 33

How ¡do ¡you ¡Prove ¡Higgs ¡Boson ¡Exists? ¡

  • Standard ¡model ¡of ¡physics ¡predicts ¡(30 ¡years) ¡

Higgs ¡Boson ¡characteris9cs ¡

– Mass ¡~125 ¡GeV ¡ – Decays ¡to ¡γγ, ¡WW ¡and ¡ZZ ¡boson ¡pairs ¡ – Couplings ¡to ¡W ¡and ¡Z ¡bosons ¡ – Spin ¡parity ¡ – Couples ¡to ¡up-­‑type ¡top-­‑quark ¡ – Couples ¡to ¡down-­‑type ¡fermions? ¡ – Decays ¡to ¡boLom ¡quarks ¡and ¡τ ¡leptons ¡ ¡

slide-34
SLIDE 34

5 ¡Sigma=0.00001% ¡possible ¡error ¡(2012) ¡ 10 ¡Sigma ¡(2014) ¡ ¡

slide-35
SLIDE 35
slide-36
SLIDE 36

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡ ROOT ¡in ¡ Oracle ¡

Root ¡ Model ¡ ¡… ¡

Boson ¡ Model ¡

ROOT ¡

Source ¡Data ¡Sets ¡

Top ¡ Quark ¡ Model ¡

ROOT ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡

Original ¡Big ¡Data ¡Applica9on, ¡e.g., ¡ATLAS ¡high-­‑energy ¡physics ¡(CERN) ¡

Root ¡ Model ¡

1,000s ¡

Tier ¡1: ¡long-­‑term ¡cura9on; ¡RAW ¡ reprocessing ¡to ¡derived ¡formats ¡ ¡ Tier ¡0: ¡Calibra9on ¡and ¡Alignment ¡ Express ¡Stream ¡Analysis ¡ ¡

Hardware ¡filtering ¡ Raw ¡Data ¡Acquisi9on ¡& ¡Cura9on ¡

Analy9cal ¡Data ¡Acquisi9on ¡ Data-­‑Intensive ¡Analysis ¡

slide-37
SLIDE 37

Author/more ¡info ¡ ¡ 37 ¡

Worldwide ¡LHC ¡Computing ¡Grid ¡

April ¡2012 ¡

Tier ¡0 ¡(CERN) ¡

  • Data ¡recording ¡
  • Ini9al ¡data ¡reconstruc9on ¡
  • Data ¡distribu9on ¡

Tier ¡1 ¡(13 ¡centers) ¡

  • Permanent ¡storage ¡
  • Re-­‑processing ¡
  • Analysis ¡

¡ ¡ Tier ¡2 ¡(~160 ¡centers) ¡

  • Simula9on ¡
  • End-­‑user ¡analysis ¡
slide-38
SLIDE 38

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡ ROOT ¡ (Oracle) ¡

Root ¡ Model ¡ ¡… ¡

Source ¡Data ¡Sets ¡

Original ¡Big ¡Data ¡Applica9on, ¡e.g., ¡ATLAS ¡high-­‑energy ¡physics ¡(CERN); ¡Oracle ¡+ ¡DQ2 ¡+ ¡ROOT ¡ ATLAS ¡Distributed ¡Data ¡Management ¡System ¡(DQ2) ¡(Pig, ¡Hive, ¡Hadoop) ¡2007+ ¡ On ¡the ¡Worldwide ¡LHC ¡Compu9ng ¡Grid ¡(WLCG) ¡

Root ¡ Model ¡

Boson ¡ Model ¡

ROOT ¡

Top ¡ Quark ¡ Model ¡

ROOT ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡

1,000s ¡

Tier ¡1: ¡long-­‑term ¡cura9on; ¡RAW ¡ reprocessing ¡to ¡derived ¡formats ¡ ¡ Tier ¡0: ¡Calibra9on ¡and ¡Alignment ¡ Express ¡Stream ¡Analysis ¡ ¡

Hardware ¡filtering ¡

Meta-­‑Data ¡ / ¡Access ¡

DQ2 ¡ (HDFS) ¡

Raw ¡Data ¡Acquisi9on ¡& ¡Cura9on ¡

Analy9cal ¡Data ¡Acquisi9on ¡ Data-­‑Intensive ¡ Analysis ¡

slide-39
SLIDE 39

LESSONS ¡LEARNED ¡

Based ¡on ¡~30 ¡Large-­‑Scale ¡DIA ¡Use ¡Cases ¡

slide-40
SLIDE 40

DIA ¡Lessons ¡Learned ¡(What) ¡

  • A ¡Sosware ¡Ar9fact: ¡a ¡workflow ¡/ ¡pipeline ¡

– Data-­‑Intensive ¡Analysis ¡Workflow ¡

  • Data ¡Management ¡(80%) ¡

– (Raw) ¡Data ¡Acquisi9on ¡and ¡Cura9on ¡ – Analy9cal ¡Data ¡Acquisi9on ¡

  • Data-­‑Intensive ¡Analysis ¡(20%) ¡

– Objec9ve: ¡switch ¡80:20 ¡to ¡20:80 ¡ ¡ ¡è Let ¡scien;sts ¡do ¡science ¡ – Explore ¡(DIA) ¡vs ¡Build ¡(sosware ¡engineering) ¡ – Dura9on: ¡years ¡

  • Emerging ¡Paradigm ¡

– New ¡programming ¡paradigm ¡ – Experiments ¡over ¡data ¡ – Convergence ¡

  • Scien9fic ¡/ ¡engineering ¡discovery ¡
  • ~10 ¡programming ¡paradigms: ¡database, ¡IR, ¡BI, ¡DM, ¡… ¡ ¡
slide-41
SLIDE 41

DIA ¡Lessons ¡Learned ¡(How) ¡

  • Result ¡Types ¡

– Provable ¡<-­‑> ¡Probabilis9c ¡<-­‑> ¡Specula9ve ¡

  • Nature ¡

– Analy9cal ¡

  • Empirical: ¡complete ¡meta-­‑data ¡
  • Abstract: ¡incomplete ¡meta-­‑data ¡

– Phases: ¡Explora9on, ¡Analysis, ¡Interpreta9on ¡ ¡

– Exploratory, ¡Itera9ve, ¡and ¡Incremental ¡

  • Users ¡

– Individual ¡ – Workgroup ¡ – Organiza9on ¡/ ¡Enterprise ¡ – Community ¡ ¡

slide-42
SLIDE 42

DIA ¡Lessons ¡Learned ¡(People) ¡

  • Machine ¡+ ¡Human ¡Intelligence ¡

– Symbiosis ¡– ¡op9mized ¡ – Domain ¡knowledge ¡cri9cal ¡

  • Mul9-­‑disciplinary, ¡Collabora9ve, ¡Itera9ve ¡
  • Community ¡Compu9ng: ¡DIA ¡Ecosystems ¡– ¡sharing ¡

– Massive ¡resources ¡ – Knowledge ¡ – Costs ¡ – Many ¡(~60): ¡eScience, ¡Science ¡Gateways, ¡Networked ¡Science, ¡… ¡

  • High-­‑energy ¡physics ¡(CERN: ¡ROOT) ¡
  • Astrophysics ¡(Gaia) ¡
  • Scien9fic ¡Workflow ¡Systems: ¡~30 ¡
  • Macroeconomics ¡
  • Global ¡Alliance ¡for ¡Genomics ¡and ¡Health ¡
  • Enterprise ¡Ecosystems, ¡e.g., ¡Informa9on ¡Services: ¡Thomson ¡Reuters, ¡Bloomberg, ¡… ¡
  • Open-­‑Science-­‑Grid ¡
  • The ¡Cancer ¡Genome ¡Atlas ¡
  • The ¡Cancer ¡Genomics ¡Hub ¡
slide-43
SLIDE 43

The ¡value ¡and ¡role ¡of ¡ truth ¡ evidence-­‑based ¡causality ¡ evidence-­‑based ¡correla9ons ¡

What ¡data ¡is ¡adequate ¡evidence ¡for ¡Q? ¡ DIA ¡Lessons ¡Learned ¡(Essence) ¡

slide-44
SLIDE 44

DOW ¡JONES, ¡BLOOMBERG, ¡ THOMSON ¡REUTERS, ¡PEARSON, ¡… ¡

Complex ¡DIA ¡Use ¡Case ¡#2 ¡ Informa9on ¡Services ¡ ¡

slide-45
SLIDE 45

Informa9on ¡Services ¡Business ¡ Collect, ¡curate, ¡enrich, ¡augment ¡(IP) ¡& ¡disseminate ¡informa9on ¡ ¡ – Financial ¡& ¡Risk ¡

  • Investors ¡ ¡
  • News ¡& ¡press ¡releases ¡
  • Brokerage ¡research ¡
  • Instruments: ¡stocks, ¡

bonds, ¡loans, ¡… ¡

– Legal ¡

  • Dockets ¡
  • Case ¡Law ¡
  • Public ¡records ¡
  • Law ¡firms ¡
  • Global ¡businesses ¡

– Intellectual ¡Property ¡& ¡ Science ¡

  • Scien9fic ¡ar9cles ¡
  • Patents ¡
  • Trademarks ¡
  • Domain ¡names ¡
  • Clinical ¡trials ¡

– Tax ¡& ¡Accoun9ng ¡ ¡

  • Corporate ¡
  • Government ¡
  • Solu9ons ¡
slide-46
SLIDE 46

Consequences ¡of ¡Errors ¡

slide-47
SLIDE 47

DS1 ¡

Knowledge ¡ Graph ¡ (linked ¡En99es) ¡

Knowledge ¡ Graph ¡Data ¡ Internal ¡ & ¡External ¡ Data ¡Sources ¡

Enterprise-­‑Scale ¡Big ¡Data ¡Architecture ¡(Informa9on ¡Services) ¡

Domain ¡specific ¡Data ¡Marts ¡ Domain ¡specific ¡Knowledge ¡Graphs ¡ data ¡

En9ty1 ¡

data ¡

En9ty2 ¡

Org ¡ data ¡

Organiza1on ¡

data ¡

En9ty3 ¡

DSn ¡ Open ¡ Data ¡

. ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡

Directory ¡

Pre-­‑Big ¡Data ¡

Open ¡ Registry ¡

Big ¡Data ¡ Catalogue ¡

Big ¡Data ¡

Domain1 ¡

. ¡ . ¡ . ¡

Domaink ¡

. ¡ . ¡ . ¡

. ¡ . ¡ . ¡

KG1 ¡

. ¡ . ¡ . ¡

Raw ¡Data ¡Acquisi9on ¡& ¡Cura9on ¡

Analy9cal ¡Data ¡ Acquisi9on ¡

Data-­‑Intensive ¡ Analysis ¡

Opinion ¡ IP ¡

✚ ¡

slide-48
SLIDE 48

DIA ¡Lessons ¡Learned ¡

  • Modelling ¡

– Analy9cal ¡Models ¡and ¡Methods ¡

  • Selec9on ¡/ ¡crea9on, ¡fi„ng ¡/ ¡tuning ¡
  • Result ¡verifica9on ¡
  • Model ¡/ ¡method ¡management ¡

– Data ¡Models ¡

  • En99es ¡dominate ¡“Data ¡Lakes” ¡
  • Named ¡En99es ¡+ ¡En9ty ¡(Graph) ¡Models ¡
  • Ontologies ¡(genomics), ¡Ensembles, ¡… ¡
  • Emerging ¡DIA ¡Ecosystems ¡Technology ¡

– Languages ¡(~30) ¡ – Analy9cs ¡Suites ¡/ ¡Pla…orms ¡(~60) ¡ – Big ¡Data ¡Management ¡(~30) ¡

slide-49
SLIDE 49

WHAT ¡COULD ¡POSSIBLY ¡GO ¡WRONG? ¡

Veracity ¡

slide-50
SLIDE 50

Do ¡We ¡Know ¡/ ¡Can ¡We ¡Prove ¡

  • DIA ¡Result: ¡correct, ¡complete, ¡efficient? ¡
  • What ¡machines ¡/ ¡algorithms ¡/ ¡Machine ¡

Learning ¡/ ¡Black ¡Boxes ¡/ ¡DIA ¡do? ¡

  • High ¡Risk ¡/ ¡High ¡Reward ¡Data-­‑Driven ¡Society ¡

– Risk: ¡drugs ¡or ¡medical ¡advice ¡that ¡cause ¡harm ¡ – Reward: ¡faster, ¡cheaper, ¡more ¡effec9ve ¡cancer ¡ cures, ¡drug ¡discovery, ¡personalized ¡medicine, ¡… ¡

slide-51
SLIDE 51

Professional ¡Cau9ons ¡

  • Experienced ¡prac99oners ¡
  • Medicine ¡

– Few ¡data-­‑driven ¡results ¡opera9onalized ¡ – Mount ¡Sinai: ¡no ¡black ¡box ¡solu9ons ¡

  • Authorita9ve ¡organiza9ons ¡

– NIH, ¡HHS, ¡EOCD, ¡Na9onal ¡Sta9s9cal ¡Organiza9ons, ¡… ¡

  • Legal: ¡Algorithmic ¡Accountability: ¡John ¡ZiLrain, ¡

Harvard ¡Law ¡School ¡

slide-52
SLIDE 52

Q: ¡What ¡could ¡possibly ¡go ¡wrong? ¡ A: ¡Every ¡step ¡

  • Data ¡Sets ¡

– All ¡measurements ¡approximate: ¡availability, ¡quality, ¡requirements, ¡ sparse/dense, ¡… ¡; ¡How ¡much ¡can ¡we ¡tolerate? ¡What ¡is ¡the ¡impact ¡on ¡ the ¡result? ¡

  • Models: ¡“All ¡models ¡wrong ¡…” ¡George ¡Box ¡1974 ¡
  • Methods ¡

– Select ¡(1,000s), ¡tune, ¡verify ¡ – Different ¡methods ¡èradically ¡different ¡results ¡

  • Results: ¡Probabilis9c, ¡error ¡bounds, ¡verifica9on, ¡… ¡

¡ Data ¡Analysis ¡is ¡20% ¡of ¡the ¡story ¡

slide-53
SLIDE 53

Pre ¡Big ¡Data ¡Challenges ¡ ¡

  • Science: ¡Experimental ¡design: ¡hypotheses, ¡

null ¡hypotheses, ¡dependent ¡and ¡independent ¡ variables, ¡controls, ¡blocking, ¡randomiza9on, ¡ repeatability, ¡accuracy ¡

  • Analysis: ¡models, ¡methods ¡
  • Resources: ¡cost, ¡9me, ¡precision ¡
slide-54
SLIDE 54

+Big ¡Data ¡Challenges ¡… ¡

  • Pre-­‑Big ¡Data ¡Challenges ¡@ ¡scale: ¡volume, ¡velocity, ¡and ¡variety ¡
  • Complexity ¡

– Data: ¡sources, ¡meta-­‑data, ¡3Vs ¡ – Models ¡(reflec9ng ¡the ¡domain) ¡ – Methods ¡(mul9variate ¡paLerns) ¡beyond ¡human ¡cogni9on ¡ – Results: ¡Massive ¡numbers ¡of ¡correla9ons ¡

  • Unreliability ¡(sta9s9cs ¡@ ¡scale) ¡

– Reliability ¡decreases ¡as ¡the ¡number ¡of ¡variables ¡increases ¡(mul9variate ¡analysis) ¡ – << ¡10 ¡variables ¡(science ¡&drug ¡discovery) ¡è ¡1,000s ¡to ¡millions ¡(Machine ¡Learning) ¡ ¡

  • “In ¡science ¡and ¡medical ¡research, ¡we’ve ¡always ¡known ¡that” ¡
  • Misunderstood: ¡Self-­‑service, ¡Automated ¡Data ¡Science-­‑in-­‑a-­‑Box ¡

– 80% ¡unfamiliar ¡with ¡sta9s9cs, ¡error ¡bars, ¡causa9on/correla9on, ¡probabilis9c ¡ reasoning, ¡automated ¡data ¡cura9on ¡and ¡analysis ¡ – Widespread ¡use ¡of ¡DIA: ¡self-­‑service, ¡“democra9za9on ¡of ¡analy9cs” ¡ – Like ¡monkeys ¡playing ¡with ¡loaded ¡guns ¡ ¡

slide-55
SLIDE 55

Somewhere ¡over ¡there ¡… ¡

slide-56
SLIDE 56

DIA ¡Verifica9on ¡ Principles ¡& ¡Techniques ¡

  • Conven9onal ¡disciplines ¡ ¡
  • Man-­‑machine ¡symbiosis ¡
  • DIA ¡Result ¡èEmpirical ¡evidence ¡

– Flashlight ¡analogy: ¡DIA ¡reduces ¡hypothesis ¡space ¡

  • Cross-­‑valida9on ¡

– Validate ¡predic9ve ¡model: ¡avoid ¡overfi„ng, ¡will ¡model ¡work ¡on ¡ unseen ¡data ¡sets? ¡ – Data ¡par99ons: ¡Training ¡Set, ¡Test ¡/Valida9on ¡Set, ¡ground ¡truth ¡ ¡ ¡ – K-­‑fold ¡cross ¡valida9on ¡

  • Research ¡Direc9on ¡

– New ¡measures ¡of ¡significance, ¡the ¡next ¡genera9on ¡P ¡value ¡ – 21st ¡Century ¡sta9s9cs ¡

slide-57
SLIDE 57

SCIENTIFIC ¡METHOD ¡ ¡è è EMPIRICISM ¡ DATA ¡SCIENCE ¡ ¡ ¡ ¡è è DATA-­‑INTENSIVE ¡ANALYSIS ¡ ¡

I ¡Proposal ¡

slide-58
SLIDE 58

Data ¡Science ¡is ¡… ¡

A ¡body ¡of ¡principles ¡and ¡techniques ¡for ¡applying ¡data-­‑ intensive ¡analysis ¡for ¡inves;ga;ng ¡phenomena, ¡ acquiring ¡new ¡knowledge, ¡and ¡correc;ng ¡and ¡ integra;ng ¡previous ¡knowledge ¡with ¡measures ¡of ¡ correctness, ¡completeness, ¡and ¡efficiency. ¡

DIA: ¡an ¡experiment ¡over ¡data ¡

slide-59
SLIDE 59

Conclusions ¡ Big ¡Data ¡ ¡& ¡Data-­‑Intensive ¡Analysis ¡

  • Value ¡of ¡evidence ¡(from ¡data) ¡
  • Emerging ¡reasoning ¡and ¡problem ¡solving ¡paradigm ¡

– High ¡risk ¡/ ¡high ¡reward ¡ – Substan9al ¡results ¡already ¡ – In ¡its ¡infancy, ¡not ¡yet ¡understood, ¡decades ¡to ¡go ¡ – Overhyped ¡(short ¡term) ¡but ¡may ¡change ¡our ¡world ¡(long ¡term) ¡

  • è ¡Need ¡for ¡Data ¡Science ¡= ¡principles ¡& ¡guidelines ¡

– “We’re ¡now ¡at ¡the ¡“what ¡are ¡the ¡principles?” ¡point ¡in ¡9me” ¡M. ¡Jordan ¡ – Decades ¡of ¡research ¡and ¡prac9ce ¡

slide-60
SLIDE 60

Thank You