the emerging discipline of data science
play

The Emerging Discipline of Data Science Principles and - PowerPoint PPT Presentation

The Emerging Discipline of Data Science Principles and Techniques For Data-Intensive Analysis What is Big Data Analy9cs? Is this a new paradigm?


  1. The ¡Emerging ¡Discipline ¡of ¡ Data ¡Science ¡ Principles ¡and ¡Techniques ¡ For ¡ Data-­‑Intensive ¡Analysis ¡ ¡

  2. What ¡is ¡Big ¡Data ¡Analy9cs? ¡ Is ¡this ¡a ¡new ¡paradigm? ¡ What ¡is ¡the ¡role ¡of ¡data? ¡ What ¡could ¡possibly ¡go ¡wrong? ¡ What ¡is ¡Data ¡Science? ¡

  3. Big ¡Data ¡is ¡Hot! ¡

  4. Big ¡Data ¡Is ¡Important ¡ Hot ¡ Cool ¡ Market ¡ Low ¡effec9ve ¡adop9on ¡ [EMC] ¡ • • – Results, ¡products, ¡jobs ¡ – ¡60% ¡opera9onal ¡ Poten9al ¡ – 20% ¡significant ¡change ¡ • – < ¡1% ¡effec9ve ¡ – 4 th ¡Paradigm ¡ Results ¡not ¡opera9onal ¡ • – Accelerates ¡discovery ¡[urgent] ¡ – BeLer: ¡cost, ¡speed, ¡specificity ¡ In ¡its ¡infancy ¡ þ ¡lacking ¡ • – Change ¡80% ¡of ¡processes ¡ [Gartner] ¡ – Understanding ¡ Government ¡Policy ¡(45+) ¡ • – Concepts, ¡tools, ¡techniques ¡ (methods) ¡ – White ¡House; ¡most ¡US ¡Govt ¡agencies ¡ • 21 st ¡Century ¡Sta9s9cs ¡ ¡ Adop9on: ¡Most ¡Human ¡Endeavors ¡ • – Theory: ¡principles, ¡guidelines ¡ – All ¡academic ¡disciplines ¡ – Computa9onal ¡X ¡ ¡

  5. Healthcare ¡Poten9al: ¡BeLer ¡Health; ¡Faster, ¡Cheaper ¡Remedies ¡

  6. What ¡could ¡go ¡Wrong? ¡ When ¡are ¡ Correla9ons ¡ Spurious? ¡

  7. Or ¡Just ¡Wrong? ¡E.g. ¡Google ¡Flu ¡Trends ¡ Allegedly ¡Real-­‑9me, ¡Reliable ¡Predic9ons ¡ High ¡100 ¡out ¡of ¡108 ¡weeks ¡

  8. Future ¡of ¡Life: ¡Ins9tute ¡to ¡ “ mi;gate ¡existen;al ¡risks ¡facing ¡humanity ” ¡

  9. US ¡Legal ¡Community ¡Pursuing ¡ Algorithmic ¡Accountability ¡

  10. Do ¡We ¡Know ¡/ ¡Can ¡We ¡Prove? ¡ • DIA ¡Result: ¡ correct , ¡ complete , ¡ efficient ? ¡ • What ¡machines ¡/ ¡algorithms ¡/ ¡Machine ¡ Learning ¡/ ¡Black ¡Boxes ¡/ ¡DIA ¡do? ¡ • Emergent ¡Data-­‑Driven ¡Society ¡with ¡High ¡ – Reward: ¡Cancer ¡cures, ¡drug ¡discovery, ¡personalized ¡ medicine, ¡… ¡ – Risk: ¡errors ¡in ¡any ¡of ¡the ¡above ¡ ¡

  11. The ¡search ¡for ¡ truth ¡ evidence-­‑based ¡causality ¡ evidence-­‑based ¡correla9ons ¡

  12. Model ¡/ ¡ Hypotheses ¡ Theory ¡ Data ¡ Analysis ¡

  13. Long ¡Illustrious ¡Histories ¡ Data ¡Analysis ¡ Scien1fic ¡Method ¡ • Mathema9cs ¡ • Empiricism ¡ Babylon ¡(17 th -­‑12 th ¡C ¡BCE) ¡ – Aristotle ¡ (384-­‑322 ¡BCE) ¡ • India ¡(12 th ¡C ¡BCE) ¡ – Ptolemy ¡ (1 st ¡C) ¡ • – Bacons ¡ (13 th , ¡16 th ¡ C) ¡ • Mathema9cal ¡analysis ¡ (17 th ¡C, ¡ Scien9fic ¡Revolu9on) ¡ ~2,000 ¡years ¡ • Sta9s9cs ¡ (5 th ¡C ¡BCE, ¡18 th ¡C) ¡ • Scien9fic ¡Discovery ¡Paradigms ¡ 1. Theory ¡ ¡ 2. Experimenta9on ¡ ~4,000 ¡years ¡ 3. Simula9on ¡ 4. eScience ¡/ ¡Big ¡Data ¡ ~ ¡1,000 ¡years ¡

  14. Fourth ¡Paradigm ¡ Modern ¡Compu1ng ¡ Data-­‑Intensive ¡Analysis ¡of ¡Everything ¡ • Hardware: ¡40s-­‑50s ¡ • eScience ¡(~2000) ¡ • FORTRAN: ¡50s ¡ ¡ • Big ¡Data ¡(~2007) ¡ – Par9cle ¡physics, ¡drug ¡discovery, ¡… ¡ • Spreadsheets: ¡70s ¡ ~ ¡15 ¡years ¡ • Databases: ¡70s-­‑80s ¡ • World ¡Wide ¡Web: ¡90s ¡ Paradigms ¡ ~ ¡60 ¡years ¡ – Long ¡developments ¡ – Significant ¡shiss ¡ • Conceptual ¡ • Theore9cal ¡ • Procedural ¡

  15. Precision Onc Pr ision Oncology ology Normal skin cell Scans Original cancer cell Biopsy Monitor Sequence Biomarkers Sequencing Machines Treated cell Treat Compare Patient Chromosomes Cancer cell Test Target Normal cell Source: Marty Tenebaum, Cancer Commons In vivo In silico In vitro

  16. Accelerating Scientific Discovery Probabilistic Results Wha What: t: Cor orrela lation tion Model Experiment Why: Why: Causa usation tion Correlations/ Hypotheses

  17. Accelerating Scientific Discovery Probabilistic Results Scientists What: Wha t: Baylor Cor orrela lation tion Model Experiment Watson Why: Why: Causa usation tion Correlations/ Hypotheses

  18. Profound ¡Changes: ¡Paradigm ¡Shis ¡ [Kuhn] ¡ New ¡reasoning ¡/ ¡problem ¡solving ¡model ¡ • – Data ¡ ¡ ¡ ¡ ¡ ¡ è Data-­‑Intensive ¡(Big ¡Data ¡– ¡4 ¡Vs) ¡ – Why ¡ ¡ ¡ ¡ ¡ ¡ è What ¡ – Strategic ¡(theory-­‑based) ¡ ¡ è Tac9cal ¡(evidence-­‑based) ¡ – Theory-­‑driven ¡(top-­‑down) ¡ è Data-­‑driven ¡(boLom-­‑up) ¡ – Hypothesis ¡tes9ng ¡ ¡ ¡ è Hypothesis ¡genera9on ¡ Enabling ¡Paradigm ¡Shiss ¡in ¡most ¡disciplines ¡ • – Science ¡ ¡ ¡ ¡ ¡ è ¡ ¡ ¡ ¡eScience ¡ – Accelera9ng ¡(scien9fic ¡/ ¡engineering) ¡discovery ¡ – Most ¡domains ¡ • Personalized ¡medicine ¡ ¡• ¡Urban ¡Planning ¡ • Drug ¡interac9ons ¡ ¡ ¡• ¡Social ¡and ¡Economic ¡Planning ¡ Beyond ¡Data-­‑Driven: ¡Symbiosis ¡ • – What ¡+ ¡Why ¡ – Human ¡intelligence ¡+ ¡machine ¡intelligence ¡

  19. Big ¡Data ¡and ¡Data-­‑Intensive ¡Analysis ¡ THE ¡BIG ¡PICTURE: ¡MY ¡PERSPECTIVE ¡

  20. DIA ¡Pipelines ¡/ ¡Ecosystem ¡ • Q: ¡What ¡Big ¡Data ¡technologies ¡do ¡you ¡see ¡becoming ¡ very ¡popular ¡within ¡the ¡next ¡five ¡years? ¡ ¡ • A: ¡I ¡don’t ¡like ¡to ¡say ¡that ¡there’s ¡a ¡specific ¡technology, ¡… ¡there ¡ are ¡pipelines ¡that ¡you ¡would ¡build ¡that ¡have ¡pieces ¡to ¡them. ¡ How ¡do ¡you ¡process ¡the ¡data, ¡how ¡do ¡you ¡represent ¡it, ¡how ¡ do ¡you ¡store ¡it, ¡what ¡inferen9al ¡problem ¡are ¡you ¡trying ¡to ¡ solve. ¡There’s ¡a ¡whole ¡toolbox ¡or ¡ecosystem ¡that ¡you ¡have ¡ to ¡understand ¡if ¡you ¡are ¡going ¡to ¡be ¡working ¡in ¡the ¡field. ¡ Michael ¡Jordan, ¡ Pehong ¡Chen ¡Dis;nguished ¡Professor ¡at ¡the ¡University ¡of ¡California, ¡Berkeley ¡ ¡

  21. Data-­‑Intensive ¡Analysis ¡ Analy9cal ¡ Results ¡ Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Data-­‑Intensive ¡Analysis ¡ . ¡ . ¡ . ¡ . ¡ Data ¡Science ¡

  22. Data-­‑Intensive ¡Analysis ¡ Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ Analy9cal ¡ Results ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Data-­‑Intensive ¡Analysis ¡ . ¡ . ¡ . ¡ . ¡ Data ¡Science ¡

  23. Data ¡Management ¡for ¡Data-­‑Intensive ¡Analysis ¡ Data-­‑Intensive ¡Analysis ¡ Data ¡Sources ¡ Shared ¡ Analy9cal ¡Models ¡ Analy9cal ¡Methods ¡ Analy9cal ¡ Data ¡Repository ¡ Results ¡ Global ¡Data ¡ Catalogue ¡& ¡ Grid ¡Access ¡ . ¡ . ¡ Internal ¡ . ¡ Shared ¡Repository ¡Catalogue ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Raw ¡Data ¡Acquisi9on ¡& ¡ Data-­‑Intensive ¡Analysis ¡ Analy9cal ¡Data ¡Acquisi9on ¡ . ¡ . ¡ Cura9on ¡ En99es ¡ Rela9onships ¡ . ¡ External ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Data ¡Science ¡ Data ¡Science ¡

  24. Research ¡Method: ¡Examine ¡Complex, ¡Large-­‑Scale ¡Use ¡Cases ¡that ¡push ¡limits ¡ DATA-­‑INTENSIVE ¡ANALYSIS ¡(DIA) ¡ DIA ¡PROCESS ¡(WORKFLOW ¡/ ¡PIPELINE) ¡ DIA ¡USE ¡CASE ¡RANGE ¡

  25. Data ¡Analysis ¡ è Data-­‑ Intensive ¡Analysis ¡ • Common ¡defini9on – ¡far ¡too ¡simplis;c ¡: ¡extract ¡ knowledge ¡from ¡data ¡ • DIA: ¡ the ¡ac;vity ¡of ¡using ¡data ¡to ¡inves;gate ¡ phenomena, ¡to ¡acquire ¡new ¡knowledge, ¡and ¡to ¡ correct ¡and ¡integrate ¡previous ¡knowledge ¡ • DIA ¡Process/Workflow/Pipeline : ¡ a ¡sequence ¡of ¡ opera;ons ¡that ¡cons;tute ¡an ¡end-­‑to-­‑end ¡DIA ¡ from ¡source ¡data ¡to ¡a ¡quan;fied, ¡qualified ¡result ¡

  26. My ¡Focus ¡is ¡Not ¡common ¡DIA ¡Use ¡Cases ¡

  27. … ¡Nor ¡High ¡Impact ¡Organiza9onal ¡DIA ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend