Big Data and Its Empiricist Founda4ons Teresa - - PowerPoint PPT Presentation

big data and its empiricist founda4ons
SMART_READER_LITE
LIVE PREVIEW

Big Data and Its Empiricist Founda4ons Teresa - - PowerPoint PPT Presentation

Big Data and Its Empiricist Founda4ons Teresa Scantamburlo The evolu4on of Data Science The mechaniza4on of induc4on The business of data


slide-1
SLIDE 1

Big ¡Data ¡and ¡Its ¡Empiricist ¡ Founda4ons ¡ ¡

Teresa ¡Scantamburlo ¡

slide-2
SLIDE 2

The ¡evolu4on ¡of ¡Data ¡Science ¡

  • The ¡mechaniza4on ¡of ¡induc4on ¡ ¡
  • The ¡business ¡of ¡data ¡
  • The ¡Big ¡Data ¡paradigm ¡(data ¡+ ¡computa4on) ¡
  • Cri4cal ¡analysis ¡
  • Tenta4ve ¡solu4ons ¡(?) ¡
  • Open ¡problems ¡
slide-3
SLIDE 3

Sta4s4cal ¡Learning ¡Theory ¡

The ¡ques4on ¡is ¡how ¡a ¡machine, ¡a ¡computer, ¡can ¡“learn” ¡from ¡ examples ¡(= ¡induc&ve ¡inference ¡and ¡generaliza&on ¡ability) ¡ ¡ The ¡machine ¡is ¡shown ¡par4cular ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡of ¡a ¡specific ¡ task ¡ ¡where ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(instances) ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(labels). ¡ ¡ ¡ Its ¡goal ¡is ¡to ¡infer ¡a ¡general ¡rule ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(classifier) ¡which ¡can ¡both ¡ explain ¡the ¡examples ¡it ¡has ¡seen ¡already ¡and ¡which ¡can ¡generalize ¡to ¡ new ¡examples. ¡ ¡

xi ! X yi ! Y f : X !Y

(x1, y1),...,(xn, yn) von ¡Luxburg ¡and ¡Schölkopf, ¡Sta&s&cal ¡Learning ¡Theory: ¡Models, ¡Concepts ¡and ¡Results, ¡ 2011 ¡

slide-4
SLIDE 4

Sta4s4cal ¡Learning ¡Theory ¡

slide-5
SLIDE 5

The ¡Business ¡of ¡Data ¡

Big ¡Data ¡is ¡not ¡simply ¡denoted ¡by ¡volume. ¡ ¡ Some ¡characterizing ¡features: ¡ ¡

  • velocity, ¡being ¡created ¡in ¡or ¡near ¡real-­‑4me; ¡
  • variety, ¡being ¡structured ¡and ¡unstructured ¡in ¡nature; ¡
  • exhaus&ve ¡in ¡scope, ¡striving ¡to ¡capture ¡en4re ¡popula4ons ¡or ¡

systems ¡(n=all); ¡

  • rela&onal ¡in ¡nature, ¡containing ¡common ¡fields ¡that ¡enable ¡the ¡

conjoining ¡of ¡different ¡data ¡sets; ¡

  • fine-­‑grained ¡in ¡resolu4on ¡
  • flexible, ¡holding ¡the ¡traits ¡of ¡ ¡extensionality ¡(can ¡add ¡new ¡fields ¡

easily) ¡and ¡ ¡scaleability ¡(can ¡expand ¡in ¡size ¡rapidly). ¡

  • R. ¡Kitchin, ¡Big ¡data, ¡new ¡epistemologies ¡and ¡paradigm ¡shiFs, ¡2014 ¡
slide-6
SLIDE 6

The ¡Big ¡Data ¡Paradigm ¡

Big ¡Data ¡is ¡less ¡about ¡data ¡that ¡is ¡big ¡than ¡it ¡is ¡ about ¡a ¡capacity ¡to ¡search, ¡aggregate, ¡and ¡cross-­‑ reference ¡large ¡data ¡sets. ¡ Big ¡Data ¡as ¡a ¡socio-­‑technical ¡phenomenon ¡

¡ It ¡rests ¡on ¡the ¡interplay ¡of: ¡ ¡

  • Technology: ¡maximizing ¡computa4on ¡power ¡and ¡algorithmic ¡accuracy ¡to ¡

gather, ¡analyze, ¡link, ¡and ¡compare ¡large ¡data ¡sets. ¡

  • Analysis: ¡drawing ¡on ¡large ¡data ¡sets ¡to ¡iden4fy ¡pa]erns ¡in ¡order ¡to ¡make ¡

economic, ¡social, ¡technical, ¡and ¡legal ¡claims. ¡

  • Mythology: ¡the ¡widespread ¡belief ¡that ¡large ¡data ¡sets ¡offer ¡a ¡higher ¡form ¡
  • f ¡intelligence ¡and ¡knowledge ¡that ¡can ¡generate ¡insights ¡that ¡were ¡

previously ¡impossible, ¡with ¡the ¡aura ¡of ¡truth, ¡objec4vity, ¡and ¡accuracy ¡

  • d. ¡boyd ¡and ¡K. ¡Crawford, ¡Cri&cal ¡ques&ons ¡for ¡Big ¡Data: ¡provoca&ons ¡for ¡a ¡cultural, ¡

technological, ¡and ¡scholarly ¡phenomenon, ¡2012 ¡

slide-7
SLIDE 7

The ¡end ¡of ¡theory ¡

This ¡is ¡a ¡world ¡where ¡massive ¡amounts ¡of ¡data ¡ and ¡applied ¡mathema&cs ¡replace ¡every ¡other ¡ tool ¡that ¡might ¡be ¡brought ¡to ¡bear. ¡Out ¡with ¡ every ¡theory ¡of ¡human ¡behavior, ¡from ¡linguis4cs ¡ to ¡sociology. ¡Forget ¡taxonomy, ¡ontology, ¡and ¡

  • psychology. ¡Who ¡knows ¡why ¡people ¡do ¡what ¡

they ¡do? ¡The ¡point ¡is ¡they ¡do ¡it, ¡and ¡we ¡can ¡ track ¡and ¡measure ¡it ¡with ¡unprecedented ¡

  • fidelity. ¡With ¡enough ¡data, ¡the ¡numbers ¡speak ¡

for ¡themselves. ¡ ¡

  • C. ¡Anderson, ¡The ¡end ¡of ¡theory: ¡The ¡data ¡deluge ¡makes ¡the ¡scien&fic ¡method ¡obsolete, ¡

2008 ¡

slide-8
SLIDE 8

The ¡triumph ¡of ¡correla4ons ¡

Big ¡Data ¡encourages ¡a ¡growing ¡respect ¡for ¡ correla&on, ¡which ¡comes ¡to ¡be ¡appreciated ¡as ¡ not ¡only ¡a ¡more ¡informa4ve ¡and ¡plausible ¡form ¡

  • f ¡knowledge ¡than ¡the ¡more ¡definite ¡but ¡also ¡a ¡

more ¡elusive, ¡causal ¡explana4on. ¡In ¡the ¡words ¡

  • f ¡Mayer-­‑Schönberger ¡and ¡Cukier ¡(2013): ¡“the ¡

correla4ons ¡may ¡not ¡tell ¡us ¡precisely ¡why ¡ ¡ something ¡is ¡happening, ¡but ¡they ¡alert ¡us ¡that ¡ ¡it ¡ is ¡happening. ¡And ¡in ¡many ¡situa&ons ¡this ¡is ¡good ¡ enough”. ¡

  • S. ¡Leonelli, ¡What ¡Difference ¡Does ¡Quan&ty ¡Make? ¡On ¡The ¡Epistemology ¡of ¡Big ¡Data ¡in ¡

Biology, ¡2014 ¡

slide-9
SLIDE 9

Empiricism ¡Reborn ¡

There ¡is ¡a ¡powerful ¡and ¡a]rac4ve ¡set ¡of ¡ideas ¡at ¡work ¡in ¡the ¡ empiricist ¡epistemology ¡that ¡runs ¡counter ¡to ¡the ¡deduc4ve ¡ approach ¡that ¡is ¡hegemonic ¡within ¡modern ¡science: ¡ ¡

  • Big ¡Data ¡can ¡capture ¡a ¡whole ¡domain ¡and ¡provide ¡full ¡

resolu4on; ¡

  • there ¡is ¡no ¡need ¡for ¡a ¡priori ¡theory, ¡models ¡or ¡hypotheses; ¡
  • through ¡the ¡applica4on ¡of ¡agnos4c ¡data ¡analy4cs ¡the ¡data ¡

can ¡speak ¡for ¡themselves ¡free ¡of ¡human ¡bias ¡or ¡framing, ¡ and ¡any ¡pa]erns ¡and ¡rela4onships ¡within ¡Big ¡Data ¡are ¡ inherently ¡meaningful ¡and ¡truthful; ¡

  • meaning ¡transcends ¡context ¡or ¡domain-­‑specific ¡knowledge, ¡

thus ¡can ¡be ¡interpreted ¡by ¡

  • R. ¡Kitchin, ¡Big ¡data, ¡new ¡epistemologies ¡and ¡paradigm ¡shiFs, ¡2014 ¡
slide-10
SLIDE 10

Some ¡reac4ons ¡

  • Claims ¡to ¡objec4vity ¡and ¡accuracy ¡are ¡misleading ¡
  • Bigger ¡data ¡are ¡not ¡always ¡be]er ¡data ¡
  • Taken ¡out ¡of ¡context, ¡Big ¡Data ¡loses ¡its ¡meaning ¡
  • Just ¡because ¡it ¡is ¡accessible ¡does ¡not ¡make ¡it ¡

ethical ¡

  • Limited ¡access ¡to ¡Big ¡Data ¡creates ¡new ¡digital ¡
  • divides ¡
  • d. ¡boyd ¡and ¡K. ¡Crawford, ¡Cri&cal ¡ques&ons ¡for ¡Big ¡Data: ¡provoca&ons ¡for ¡a ¡cultural, ¡

technological, ¡and ¡scholarly ¡phenomenon, ¡2012 ¡

slide-11
SLIDE 11

An ¡interes4ng ¡analysis ¡

Both ¡data ¡analysis ¡models ¡and ¡theore4cal ¡ scien4fic ¡models ¡are ¡there ¡to ¡solve ¡a ¡problem, ¡

  • ne ¡to ¡solve ¡a ¡problem ¡of ¡data ¡analysis, ¡the ¡
  • ther ¡to ¡solve ¡a ¡problem ¡of ¡describing ¡an ¡

empirical ¡phenomenon. ¡

D.M. ¡Bailer-­‑Jones ¡and ¡C.A.L. ¡Bailer-­‑Jones, ¡Modelling ¡data: ¡Analogies ¡in ¡neural ¡networks, ¡ simulated ¡annealing ¡and ¡gene&c ¡algorithms, ¡2002 ¡

slide-12
SLIDE 12

Data ¡analysis ¡models ¡

Beyond ¡the ¡goal ¡of ¡accurate ¡predic4on, ¡the ¡scien&fic ¡insight ¡that ¡ computa4onal ¡data ¡models ¡give ¡in ¡a ¡specific ¡case ¡may ¡be ¡limited. ¡Data ¡ analysis ¡techniques ¡are ¡not ¡specific ¡to ¡the ¡type ¡of ¡data ¡that ¡are ¡

  • modelled. ¡The ¡techniques ¡are ¡designed ¡to ¡be ¡independent ¡of ¡specific ¡

applica4ons ¡– ¡they ¡are ¡applica&on-­‑neutral. ¡

¡ Theore4cal ¡scien4fic ¡models ¡ ¡

A ¡theore4cal ¡scien4fic ¡model ¡is, ¡in ¡contrast, ¡specific ¡to ¡a ¡type ¡of ¡

  • phenomenon. ¡The ¡theore4cal ¡concepts ¡and ¡laws ¡that ¡give ¡shape ¡to ¡

the ¡theore4cal ¡model ¡are ¡chosen ¡on ¡the ¡basis ¡of ¡the ¡physical ¡ proper4es ¡of ¡the ¡phenomenon ¡to ¡be ¡modelled. ¡

An ¡interes4ng ¡analysis ¡

D.M. ¡Bailer-­‑Jones ¡and ¡C.A.L. ¡Bailer-­‑Jones, ¡Modelling ¡data: ¡Analogies ¡in ¡neural ¡networks, ¡ simulated ¡annealing ¡and ¡gene&c ¡algorithms, ¡2002 ¡

slide-13
SLIDE 13

An ¡interes4ng ¡analysis ¡

D.M. ¡Bailer-­‑Jones ¡and ¡C.A.L. ¡Bailer-­‑Jones, ¡Modelling ¡data: ¡Analogies ¡in ¡neural ¡networks, ¡ simulated ¡annealing ¡and ¡gene&c ¡algorithms, ¡2002 ¡

slide-14
SLIDE 14

A ¡tenta4ve ¡reconcilia4on ¡

In ¡contrast ¡to ¡new ¡forms ¡of ¡empiricism, ¡data-­‑driven ¡science ¡seeks ¡to ¡ hold ¡to ¡the ¡tenets ¡of ¡the ¡scien4fic ¡method, ¡but ¡is ¡more ¡open ¡to ¡using ¡a ¡ hybrid ¡combina4on ¡of ¡abduc&ve, ¡induc&ve ¡and ¡deduc&ve ¡approaches ¡ to ¡advance ¡the ¡understanding ¡of ¡a ¡phenomenon. ¡ ¡ ¡ It ¡seeks ¡to ¡incorporate ¡a ¡mode ¡of ¡induc4on ¡into ¡the ¡research ¡design, ¡ though ¡explana4on ¡through ¡induc4on ¡is ¡not ¡the ¡intended ¡end-­‑point ¡ (as ¡with ¡empiricist ¡approaches). ¡It ¡forms ¡a ¡new ¡mode ¡of ¡hypothesis ¡ genera4on ¡before ¡a ¡deduc4ve ¡approach ¡is ¡employed. ¡ ¡ ¡ The ¡epistemological ¡strategy ¡adopted ¡within ¡data-­‑driven ¡science ¡is ¡to ¡ use ¡guided ¡knowledge ¡discovery ¡techniques ¡to ¡iden4fy ¡poten4al ¡ ques4on(hypotheses) ¡worthy ¡of ¡further ¡examina4on ¡and ¡tes4ng ¡

  • R. ¡Kitchin, ¡Big ¡data, ¡new ¡epistemologies ¡and ¡paradigm ¡shiFs, ¡2014 ¡
slide-15
SLIDE 15

A ¡philosophical ¡interpreta4on ¡ ¡

  • The ¡mechaniza4on ¡of ¡induc4on ¡ ¡
  • The ¡business ¡of ¡data ¡
  • The ¡Big ¡Data ¡paradigm ¡(data ¡+ ¡computa4on) ¡
  • Cri4cal ¡analysis ¡
  • Tenta4ve ¡solu4ons ¡(?) ¡
  • Open ¡problems ¡

?

slide-16
SLIDE 16

Hume’s ¡Legacy ¡

Hume’s ¡an4-­‑ra4onalism ¡polemic ¡contributed ¡to ¡introduce ¡a ¡gap ¡between ¡the ¡ knowledge ¡of ¡the ¡world ¡and ¡pure ¡reasoning ¡(Hume’s ¡fork) ¡ ¡ Knowledge ¡of ¡the ¡world ¡= ¡a ¡product ¡of ¡repeated ¡percep&ons. ¡Imagina4on ¡ becomes ¡accustomed ¡to ¡foresee ¡the ¡order ¡of ¡events. ¡Note ¡that ¡this ¡ expecta4on ¡subsumes ¡a ¡feeling ¡of ¡inevitability, ¡somehow ¡replacing ¡the ¡ rejected ¡ra4onal ¡necessity. ¡ ¡ ¡ ¡ “it ¡arises ¡in ¡the ¡mind ¡spontaneously ¡and ¡naturally, ¡without ¡the ¡involvement ¡

  • f ¡reason, ¡merely ¡because ¡the ¡mind ¡is ¡acted ¡upon ¡by ¡the ¡same ¡objects ¡in ¡the ¡

same ¡way ¡repeatedly” ¡. ¡ ¡ ¡ Induc4on ¡is ¡replaced ¡at ¡the ¡level ¡of ¡a ¡non-­‑ra4onal ¡feeling ¡whose ¡reliability ¡is ¡ leh ¡to ¡the ¡vivacity ¡and ¡the ¡freshness ¡of ¡data ¡percep4on. ¡ ¡So, ¡removing ¡any ¡ degree ¡of ¡ra4onality ¡(or ¡logos) ¡within ¡content ¡experiences, ¡we ¡are ¡led ¡to ¡ reinforce ¡the ¡degree ¡of ¡connec4ons ¡

slide-17
SLIDE 17

Open ¡problems ¡

¡

  • Induc4on: ¡abstrac4on ¡and ¡generaliza4on? ¡
  • Induc4on: ¡models ¡of ¡data ¡and ¡models ¡of ¡

phenomena? ¡ ¡ ¡