Data Science Tim Kraska [Economist,02/2010] Examples The - - PowerPoint PPT Presentation

data science
SMART_READER_LITE
LIVE PREVIEW

Data Science Tim Kraska [Economist,02/2010] Examples The - - PowerPoint PPT Presentation

Data Science Tim Kraska [Economist,02/2010] Examples The Unreasonable Effec6veness of Data Alon Halevy, Peter Norvig, and Fernando Pereira, Google


slide-1
SLIDE 1

Data ¡Science ¡

Tim ¡Kraska ¡

[Economist,02/2010] ¡
slide-2
SLIDE 2
slide-3
SLIDE 3

Examples ¡

slide-4
SLIDE 4
slide-5
SLIDE 5

The ¡Unreasonable ¡

Effec6veness ¡of ¡

Data ¡

Alon ¡Halevy, ¡Peter ¡Norvig, ¡and ¡Fernando ¡Pereira, ¡Google ¡
slide-6
SLIDE 6 hDp://commons.wikimedia.org/wiki/File:ElectoralCollege2012.svg ¡ (public ¡domain) ¡
slide-7
SLIDE 7 “The ¡intuiOon ¡behind ¡this ¡ought ¡to ¡be ¡very ¡simple: ¡Mr. ¡Obama ¡is ¡ maintaining ¡leads ¡in ¡the ¡polls ¡in ¡Ohio ¡and ¡other ¡states ¡that ¡are ¡ sufficient ¡for ¡him ¡to ¡win ¡270 ¡electoral ¡votes.” ¡ Nate ¡Silver, ¡Oct. ¡26, ¡2012 ¡ “…the ¡argument ¡we’re ¡making ¡is ¡exceedingly ¡simple. ¡Here ¡it ¡is: ¡ Obama’s ¡ahead ¡in ¡Ohio.” ¡ Nate ¡Silver, ¡Nov. ¡2, ¡2012 ¡ “The ¡bar ¡set ¡by ¡the ¡compeOOon ¡was ¡inviOngly ¡low. ¡Someone ¡could ¡look ¡ like ¡a ¡genius ¡simply ¡by ¡doing ¡some ¡fairly ¡basic ¡research ¡into ¡what ¡really ¡ has ¡predicOve ¡power ¡in ¡a ¡poliOcal ¡campaign.” ¡ Nate ¡Silver, ¡Nov. ¡10, ¡2012 ¡ DailyBeast ¡ fivethirtyeight.com ¡ fivethirtyeight.com ¡ source: ¡randy ¡stewart ¡ Nate ¡Silver ¡
slide-8
SLIDE 8 “…the ¡biggest ¡win ¡came ¡from ¡good ¡old ¡SQL ¡on ¡a ¡VerOca ¡data ¡ warehouse ¡and ¡from ¡providing ¡access ¡to ¡data ¡to ¡dozens ¡of ¡analyOcs ¡ staffers ¡who ¡could ¡follow ¡their ¡own ¡curiosity ¡and ¡disOll ¡and ¡analyze ¡ data ¡as ¡they ¡needed.” ¡ Dan ¡Woods ¡ ¡ Jan ¡13 ¡2013, ¡CITO ¡Research ¡ “The ¡decision ¡was ¡made ¡to ¡have ¡Hadoop ¡do ¡the ¡aggregate ¡generaOons ¡and ¡ anything ¡not ¡real-­‑Ome, ¡but ¡then ¡have ¡VerOca ¡to ¡answer ¡sort ¡of ¡‘speed-­‑of-­‑ thought’ ¡queries ¡about ¡all ¡the ¡data.” ¡ Josh ¡Hendler, ¡CTO ¡of ¡H ¡& ¡K ¡Strategies ¡ ¡ Related: ¡Obama ¡campaign’s ¡data-­‑driven ¡ground ¡game ¡ "In ¡the ¡21st ¡century, ¡the ¡candidate ¡with ¡[the] ¡best ¡data, ¡merged ¡ with ¡the ¡best ¡messages ¡dictated ¡by ¡that ¡data, ¡wins.” ¡ Andrew ¡Rasiej, ¡Personal ¡Democracy ¡Forum ¡
slide-9
SLIDE 9 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡
  • e59030. ¡doi:10.1371/journal.pone.0059030 ¡
1) ¡Convert ¡all ¡the ¡digiOzed ¡books ¡in ¡the ¡20th ¡century ¡into ¡n-­‑grams ¡(Thanks, ¡ Google!) ¡ ¡ ¡ ¡(hDp://books.google.com/ngrams/) ¡ ¡ A ¡1-­‑gram: ¡“yesterday” ¡ A ¡5-­‑gram: ¡“analysis ¡is ¡o?en ¡described ¡as” ¡ ¡ 3) ¡Count ¡the ¡occurences ¡of ¡each ¡mood ¡word ¡ ¡ 2) ¡Label ¡each ¡1-­‑gram ¡(word) ¡with ¡a ¡mood ¡score. ¡ ¡ ¡ ¡ ¡ ¡ ¡(Thanks, ¡WordNet ¡Affect) ¡

Expression ¡of ¡EmoOons ¡ ¡

  • ver ¡the ¡20th ¡Century ¡
slide-10
SLIDE 10 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡ in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡e59030. ¡doi:10.1371/journal.pone. 0059030 ¡
slide-11
SLIDE 11 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡ in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡e59030. ¡doi:10.1371/journal.pone. 0059030 ¡
slide-12
SLIDE 12 … ¡
  • 2. ¡Michel ¡J-­‑P, ¡Shen ¡YK, ¡Aiden ¡AP, ¡Veres ¡A, ¡Gray ¡MK, ¡et ¡al. ¡(2011) ¡Quan%ta%ve ¡
analysis ¡of ¡culture ¡using ¡millions ¡of ¡digi%zed ¡books. ¡Science ¡331: ¡176–182. ¡doi: ¡ 10.1126/science.1199644. ¡Find ¡this ¡arOcle ¡online ¡
  • 3. ¡Lieberman ¡E, ¡Michel ¡J-­‑P, ¡Jackson ¡J, ¡Tang ¡T, ¡Nowak ¡MA ¡(2007) ¡Quan%fying ¡the ¡
evolu%onary ¡dynamics ¡of ¡language. ¡Nature ¡449: ¡713–716. ¡doi: ¡10.1038/
  • nature06137. ¡Find ¡this ¡arOcle ¡online ¡
  • 4. ¡Pagel ¡M, ¡Atkinson ¡QD, ¡Meade ¡A ¡(2007) ¡Frequency ¡of ¡word-­‑use ¡predicts ¡rates ¡of ¡
lexical ¡evolu%on ¡throughout ¡Indo-­‑European ¡history. ¡Nature ¡449: ¡717–720. ¡doi: ¡ 10.1038/nature06176. ¡Find ¡this ¡arOcle ¡online ¡ … ¡
  • 6. ¡DeWall ¡CN, ¡Pond ¡RS ¡Jr, ¡Campbell ¡WK, ¡Twenge ¡JM ¡(2011) ¡Tuning ¡in ¡to ¡
Psychological ¡Change: ¡Linguis%c ¡Markers ¡of ¡Psychological ¡Traits ¡and ¡Emo%ons ¡ Over ¡Time ¡in ¡Popular ¡U.S. ¡Song ¡Lyrics. ¡Psychology ¡of ¡AestheOcs, ¡CreaOvity ¡and ¡the ¡ Arts ¡5: ¡200–207. ¡doi: ¡10.1037/a0023195. ¡Find ¡this ¡arOcle ¡online ¡ … ¡

Papers ¡cited ¡by ¡them ¡

slide-13
SLIDE 13 Last.FM ¡ “Since ¡we ¡have ¡a ¡massive ¡amount ¡of ¡user ¡tag ¡data ¡available ¡we ¡can ¡easily ¡ correlate ¡tags ¡and ¡years ¡and ¡measure ¡“popularity” ¡of ¡a ¡genre ¡by ¡counOng ¡ the ¡number ¡of ¡arOsts ¡formed ¡in ¡a ¡specific ¡year.” ¡ ¡Janni ¡Kovacs, ¡Last.FM ¡ ¡
slide-14
SLIDE 14 source: ¡ hDp://www.google.org/flutrends/us/#US ¡ hDp://www.google.com/permissions/using-­‑product-­‑graphics.html ¡ flu ¡risk ¡ “ScienBfic ¡hindsight ¡shows ¡that ¡ Google ¡Flu ¡Trends ¡far ¡overstated ¡this ¡ year's ¡flu ¡season….” ¡ “Lots ¡of ¡media ¡aKenBon ¡to ¡this ¡ year's ¡flu ¡season ¡skewed ¡Google's ¡ search ¡engine ¡traffic.” ¡ ¡ David ¡Wagner, ¡AtlanOc ¡Wire, ¡Feb ¡ 13 ¡2013 ¡
slide-15
SLIDE 15 Idea: ¡Analyze ¡the ¡co-­‑occurrence ¡graph ¡of ¡ingredients ¡in ¡recipes ¡ to ¡analyze ¡the ¡underlying ¡principles ¡of ¡food ¡pairing. ¡
slide-16
SLIDE 16

Some ¡recurring ¡themes ¡

  • simple ¡methods ¡ ¡
  • repurposing ¡data ¡
  • communica6on ¡maDers ¡
  • Other ¡themes ¡
– “Data ¡products” ¡– ¡not ¡just ¡answers ¡ – “Speed ¡of ¡thought” ¡analysis ¡
slide-17
SLIDE 17

What ¡is ¡Data ¡Science ¡

“Data ¡ScienOsts: ¡ ¡ ¡The ¡DefiniOon ¡of ¡Sexy” ¡

Forbes, ¡2012 ¡

“Data ¡ScienOst: ¡The ¡Sexiest ¡ ¡ ¡ ¡ ¡Job ¡of ¡the ¡21st ¡Century” ¡

Harvard ¡Business ¡Review, ¡2012 ¡
slide-18
SLIDE 18

What ¡is ¡Data ¡Science? ¡

  • Fortune ¡ ¡
– “Hot ¡New ¡Gig ¡in ¡Tech” ¡
  • Hal ¡Varian, ¡Google’s ¡Chief ¡Economist, ¡NYT, ¡2009: ¡ ¡
– “The ¡next ¡sexy ¡job” ¡ – “The ¡ability ¡to ¡take ¡data—to ¡be ¡able ¡to ¡understand ¡it, ¡to ¡process ¡it, ¡to ¡ extract ¡value ¡from ¡it, ¡to ¡visualize ¡it, ¡to ¡communicate ¡it—that’s ¡going ¡to ¡ be ¡a ¡hugely ¡important ¡skill.” ¡
  • Mike ¡Driscoll, ¡CEO ¡of ¡metamarkets: ¡ ¡
– “Data ¡science, ¡as ¡it's ¡pracOced, ¡is ¡a ¡blend ¡of ¡Red-­‑Bull-­‑fueled ¡hacking ¡ and ¡espresso-­‑inspired ¡staOsOcs.” ¡ – “Data ¡science ¡is ¡the ¡civil ¡engineering ¡of ¡data. ¡ ¡Its ¡acolytes ¡possess ¡a ¡ pracOcal ¡knowledge ¡of ¡tools ¡& ¡materials, ¡coupled ¡with ¡a ¡theoreOcal ¡ understanding ¡of ¡what's ¡possible.” ¡
slide-19
SLIDE 19

Drew ¡Conway’s ¡Data ¡Science ¡Venn ¡ Diagram ¡

slide-20
SLIDE 20

What ¡do ¡data ¡scienOsts ¡do? ¡

“They ¡need ¡to ¡find ¡nuggets ¡of ¡truth ¡in ¡data ¡and ¡then ¡ explain ¡it ¡to ¡the ¡business ¡leaders” ¡ Data ¡scienOsts ¡“tend ¡to ¡be ¡“hard ¡scienOsts”, ¡ parOcularly ¡physicists, ¡rather ¡than ¡computer ¡science ¡
  • majors. ¡ ¡Physicists ¡have ¡a ¡strong ¡mathemaOcal ¡
background, ¡compuOng ¡skills, ¡and ¡come ¡from ¡a ¡ discipline ¡in ¡which ¡survival ¡depends ¡on ¡gezng ¡the ¡ most ¡from ¡the ¡data. ¡ ¡They ¡have ¡to ¡think ¡about ¡the ¡big ¡ picture, ¡the ¡big ¡problem.” ¡
  • ­‑-­‑ ¡DJ ¡PaOl, ¡Chief ¡ScienOst ¡at ¡LinkedIn ¡
  • ­‑-­‑ ¡Rchard ¡Snee, ¡EMC ¡ ¡
slide-21
SLIDE 21

Mike ¡Driscoll’s ¡three ¡sexy ¡skills ¡ ¡

  • f ¡data ¡geeks ¡
  • Data ¡Munging ¡ ¡
– parsing, ¡scraping, ¡and ¡formazng ¡data ¡
  • Sta6s6cs ¡
– tradiOonal ¡analysis ¡
  • Visualiza6on ¡ ¡
– graphs, ¡tools, ¡etc. ¡ “data ¡wrangling” ¡ “data ¡jujitsu” ¡ “data ¡munging” ¡
slide-22
SLIDE 22 “Data ¡Science ¡refers ¡to ¡an ¡emerging ¡area ¡of ¡work ¡concerned ¡with ¡ the ¡collecOon, ¡preparaOon, ¡analysis, ¡visualizaOon, ¡management ¡ and ¡preservaOon ¡of ¡large ¡collecOons ¡of ¡informaOon.” ¡ Jeffrey ¡Stanton ¡ ¡ Syracuse ¡University ¡School ¡of ¡InformaOon ¡Studies ¡ An ¡IntroducOon ¡to ¡Data ¡Science ¡
slide-23
SLIDE 23 “A ¡data ¡scienOst ¡is ¡someone ¡who ¡can ¡obtain, ¡scrub, ¡explore, ¡model ¡and ¡ interpret ¡data, ¡blending ¡hacking, ¡staOsOcs ¡and ¡machine ¡learning. ¡Data ¡ scienOsts ¡not ¡only ¡are ¡adept ¡at ¡working ¡with ¡data, ¡but ¡appreciate ¡data ¡ itself ¡as ¡a ¡first-­‑class ¡product.” ¡ ¡
  • ­‑-­‑ ¡Hilary ¡Mason, ¡chief ¡scienOst ¡at ¡bit.ly ¡
slide-24
SLIDE 24

Doing ¡Data ¡Science ¡(Peter ¡Huber) ¡

  • 1. InspecOon ¡
  • 2. Error ¡checking ¡
  • 3. ModificaOon ¡
  • 4. Comparison ¡
  • 5. Modeling ¡and ¡model ¡fizng ¡
  • 6. SimulaOon ¡
  • 7. What-­‑if ¡analyses ¡
  • 8. InterpretaOon ¡
  • 9. PresentaOon ¡of ¡conclusions ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
slide-25
SLIDE 25

Doing ¡Data ¡Science ¡(Ben ¡Fry) ¡

  • 1. Acquire ¡
  • 2. Parse ¡
  • 3. Filter ¡
  • 4. Mine ¡
  • 5. Represent ¡
  • 6. Refine ¡
  • 7. Interact ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
slide-26
SLIDE 26

Doing ¡Data ¡Science ¡(Colin ¡Mallows) ¡

  • 1. IdenOfy ¡data ¡to ¡collect ¡and ¡its ¡relevance ¡to ¡
your ¡problem ¡
  • 2. StaOsOcal ¡specificaOon ¡of ¡the ¡problem ¡
  • 3. Method ¡selecOon ¡
  • 4. Analysis ¡of ¡method ¡
  • 5. Interpret ¡results ¡for ¡non-­‑staOsOcians ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
slide-27
SLIDE 27

A ¡PracOcal ¡DefiniOon ¡

  • Data ¡Science ¡is ¡about ¡the ¡whole ¡processing ¡
pipeline ¡to ¡extract ¡informa6on ¡out ¡of ¡data ¡
  • Data ¡ScienOst ¡understand ¡and ¡care ¡about ¡the ¡
whole ¡data ¡pipeline ¡
  • A ¡data ¡pipeline ¡consists ¡of ¡3 ¡steps: ¡
¡1) ¡Preparing ¡to ¡run ¡a ¡model ¡ ¡ ¡ ¡2) ¡Running ¡the ¡model ¡ ¡3) ¡CommunicaOng ¡the ¡results ¡ Gathering, ¡cleaning, ¡integraOng, ¡restructuring, ¡transforming, ¡ loading, ¡filtering, ¡deleOng, ¡combining, ¡merging, ¡verifying, ¡ extracOng, ¡shaping, ¡massaging ¡
slide-28
SLIDE 28

Data ¡Science ¡is ¡about ¡Data ¡Products ¡

  • “Data-­‑driven ¡apps” ¡
– Spellchecker ¡ – Machine ¡Translator ¡
  • InteracOve ¡visualizaOons ¡
– Google ¡flu ¡applicaOon ¡ – Global ¡Burden ¡of ¡Disease ¡
  • Online ¡Databases ¡
– Enterprise ¡data ¡warehouse ¡ – Sloan ¡Digital ¡Sky ¡Survey ¡ (Mike ¡Loukides) ¡ Data ¡science ¡is ¡about ¡building ¡data ¡ products, ¡not ¡just ¡answering ¡quesBons ¡ ¡ Data ¡products ¡empower ¡others ¡to ¡use ¡the ¡
  • data. ¡
¡ May ¡help ¡communicate ¡your ¡results ¡(e.g., ¡ Nate ¡Silver’s ¡maps) ¡ ¡ May ¡empower ¡others ¡to ¡do ¡their ¡own ¡ analysis ¡ ¡ (e.g., ¡Global ¡Burden ¡of ¡Disease) ¡
slide-29
SLIDE 29

DisOnguishing ¡Data ¡Science ¡from... ¡

  • Business ¡Intelligence ¡
  • StaOsOcs ¡
  • Data(base) ¡Management ¡
  • VisualizaOon ¡
  • Machine ¡Learning ¡
slide-30
SLIDE 30

Huge ¡Number ¡of ¡Relevant ¡Areas ¡

  • StochasOc/StaOsOcs ¡
  • Machine ¡Learning ¡
  • Databases ¡
  • Distributed ¡Systems ¡
  • Networking ¡
  • Cloud ¡CompuOng ¡
  • Natural ¡Language ¡Processing ¡
  • VisualizaOon ¡
  • … ¡
slide-31
SLIDE 31 “I ¡worry ¡that ¡the ¡Data ¡ScienBst ¡role ¡is ¡like ¡the ¡ mythical ¡“webmaster” ¡of ¡the ¡90s: ¡master ¡of ¡all ¡ trades.” ¡
  • ­‑-­‑ ¡Aaron ¡Kimball, ¡CTO ¡Wibidata ¡
slide-32
SLIDE 32

A ¡PracOcal ¡Informal ¡DefiniOon ¡

  • Data ¡Science ¡is ¡about ¡the ¡whole ¡processing ¡
pipeline ¡to ¡extract ¡informa6on ¡out ¡of ¡data ¡
  • Data ¡ScienOst ¡understand ¡and ¡care ¡about ¡the ¡
whole ¡data ¡pipeline ¡
  • A ¡data ¡pipeline ¡consists ¡of ¡3 ¡steps: ¡
¡1) ¡Preparing ¡to ¡run ¡a ¡model ¡ ¡ ¡ ¡2) ¡Running ¡the ¡model ¡ ¡3) ¡CommunicaOng ¡the ¡results ¡ Gathering, ¡cleaning, ¡integraOng, ¡restructuring, ¡transforming, ¡ loading, ¡filtering, ¡deleOng, ¡combining, ¡merging, ¡verifying, ¡ extracOng, ¡shaping, ¡massaging ¡
slide-33
SLIDE 33

This ¡Seminar ¡

Tools/Systems ¡ ML ¡ Stats ¡ Viz ¡
slide-34
SLIDE 34

Structure ¡

  • Every ¡week ¡we ¡have ¡3 ¡topic ¡units ¡of ¡40min ¡each ¡
  • Every ¡topic ¡unit ¡covers ¡some ¡Data ¡Science ¡

fundamentals ¡and ¡provides ¡an ¡outlook ¡into ¡the ¡

state-­‑of-­‑the-­‑art/cuzng ¡edge ¡research ¡
  • For ¡every ¡unit, ¡there ¡will ¡be ¡a ¡(short) ¡assignment ¡
  • Topic ¡units ¡and ¡assignment ¡are ¡prepared ¡by ¡
YOU ¡in ¡groups ¡ – Topic ¡units ¡in ¡groups ¡of ¡2 ¡ – Assignments ¡in ¡groups ¡of ¡6 ¡(the ¡students ¡presenOng ¡on ¡the ¡ same ¡day) ¡
  • There ¡is ¡a ¡class ¡project ¡of ¡your ¡choice ¡
slide-35
SLIDE 35

TentaOve ¡Schedule ¡

Week ¡ Date ¡ Slot ¡1 ¡(3:00-­‑3:40) ¡ Slot ¡2 ¡(3:50-­‑:4:30) ¡ Slot ¡3 ¡(4:40 ¡– ¡5:20) ¡ Week ¡1 ¡ 9/4/13 ¡ Intro ¡ Week ¡2 ¡ 9/11/13 ¡ StaOsOcs ¡ Week ¡3 ¡ 9/18/13 ¡ Topic ¡1 ¡ Topic ¡2 ¡ Topic ¡3 ¡ Week ¡4 ¡ 9/25/13 ¡ Project ¡Proposals ¡ Week ¡5 ¡ 10/2/13 ¡ Topic ¡1 ¡ Topic ¡2 ¡ Topic ¡3 ¡ Week ¡6 ¡ 10/9/13 ¡ Topic ¡4 ¡ Topic ¡5 ¡ Topic ¡6 ¡ Week ¡7 ¡ 10/16/13 ¡ Topic ¡7 ¡ Topic ¡8 ¡ Topic ¡9 ¡ Week ¡8 ¡ 10/23/13 ¡ Topic ¡10 ¡ Topic ¡11 ¡ Topic ¡12 ¡ Week ¡9 ¡ 10/30/13 ¡ Project ¡Update ¡ Week ¡10 ¡ 11/6/13 ¡ Topic ¡13 ¡ Topic ¡14 ¡ Topic ¡15 ¡ Week ¡11 ¡ 11/13/13 ¡ Topic ¡16 ¡ Topic ¡17 ¡ Topic ¡18 ¡ Week ¡12 ¡ 11/20/13 ¡ Topic ¡19 ¡ Topic ¡20 ¡ Topic ¡21 ¡ 11/27/13 ¡ Holiday ¡ Week ¡13 ¡ 12/4/13 ¡ Topic ¡22 ¡ Topic ¡23 ¡ Topic ¡24 ¡ Week ¡14 ¡ 12/15/13 ¡ Project ¡Demos ¡and ¡Final ¡Discussion ¡
slide-36
SLIDE 36

Grading ¡

30% ¡ 15% ¡ 15% ¡ 40% ¡ Topic ¡Unit ¡PresentaOon ¡ Your ¡Created ¡Unit ¡Assignment ¡ Assignments/ParOcipaOon ¡ Project ¡

slide-37
SLIDE 37

Topic ¡Units ¡

  • 40min ¡Topic ¡Units ¡
– Calculate ¡in ¡5min ¡for ¡quesOons ¡ ¡
  • Structure: ¡
– 75% ¡fundamental ¡topic ¡of ¡data ¡science ¡(e.g., ¡NoSQL, ¡SVM, ¡ apriori, ¡lying ¡with ¡staOsOcs,…) ¡ – 25% ¡advanced ¡state-­‑of-­‑the-­‑art/cuSng-­‑edge ¡research ¡ (e.g., ¡latest ¡Google ¡Spanner ¡paper, ¡how ¡to ¡distribute ¡SVMs ¡
  • n ¡GPUs, ¡how ¡to ¡lie ¡with ¡maps…) ¡
  • Every ¡unit ¡contains ¡a ¡minimum ¡topic ¡list ¡to ¡cover. ¡The ¡
rest ¡is ¡up ¡to ¡you ¡
  • Reading ¡list ¡for ¡the ¡25% ¡advanced ¡part. ¡The ¡basic ¡part ¡
you ¡have ¡to ¡find ¡(e.g., ¡using ¡books ¡-­‑ ¡ ¡yeah, ¡real ¡books) ¡
  • One ¡week ¡before ¡your ¡unit, ¡you ¡have ¡to ¡hand-­‑in ¡a ¡first ¡
draV ¡of ¡the ¡slides ¡on ¡which ¡we ¡will ¡provide ¡feedback ¡
slide-38
SLIDE 38

Topics ¡

  • SV: ¡Sta6s6cs ¡& ¡Visualiza6on ¡
– SV ¡I: ¡StaOsOcs ¡Basics ¡ – SV ¡II: ¡VisualizaOon ¡Basics ¡ – SV ¡III: ¡Lying ¡with ¡staOsOcs ¡
  • DM: ¡Data ¡Mining ¡/ ¡Machine ¡Learning ¡
– DM ¡I ¡: ¡Decision ¡Tree ¡(C4.5) ¡ – DM ¡II: ¡Clustering ¡(K-­‑MEANS) ¡ – DM ¡III: ¡ClassificaOon ¡1 ¡(SVM) ¡ – DM ¡IV: ¡Frequent ¡Item ¡Sets ¡(Apriori) ¡ – DM ¡V: ¡Maximum ¡Likelihood ¡(EM) ¡ – DM ¡VI: ¡Graph ¡Mining ¡(PageRank) ¡ – DM ¡VII: ¡AdaBoost ¡ – DM ¡VIII: ¡ClassificaOon ¡2 ¡(kNN) ¡ – DM ¡IX: ¡ClassificaOon ¡3 ¡(Naive ¡Bayes) ¡ – DM ¡X: ¡OpOmizaOon: ¡Gradient ¡Descent ¡ – DM ¡XI: ¡EvaluaOon ¡
  • SML: ¡Systems ¡for ¡Machine ¡Learning ¡
– SML ¡I: ¡Hazy ¡ – SML ¡II: ¡MAD ¡Skills ¡& ¡MLbase ¡ – SML ¡III: ¡Graph ¡Processing ¡
slide-39
SLIDE 39

Topics ¡

  • DI: ¡Data ¡Integra6on ¡& ¡CrowdSourcing ¡
– DI ¡I: ¡Intro ¡to ¡Data ¡IntegraOon ¡& ¡CrowdSourcing ¡ – DI ¡II: ¡Data ¡Wrangling ¡ – DI ¡III: ¡Overview ¡& ¡Quality ¡Control ¡ – DI ¡IV: ¡EnOty ¡ResoluOon ¡ – DI ¡V: ¡DeclaraOve ¡CrowdSourcing ¡
  • AF: ¡Analy6c ¡Frameworks, ¡Storage ¡& ¡Databases ¡
– AF ¡I: ¡Map/Reduce ¡-­‑ ¡Basics ¡ – AF ¡II: ¡Map/Reduce ¡Extensions ¡ – AF ¡III: ¡R ¡& ¡Julia ¡ – AF ¡IV: ¡Languages ¡for ¡Hadoop ¡ – AF ¡V: ¡Spark ¡ – AF ¡VI: ¡Scope ¡& ¡Reef ¡ – AF ¡VII: ¡NoSQL ¡ – AF ¡VIII: ¡Other ¡NoSQL ¡Systems ¡ – AF ¡IX: ¡Column ¡Databases ¡ Full ¡list: ¡hDp://cs.brown.edu/courses/cs195w ¡
slide-40
SLIDE 40

PresentaOon ¡Grading ¡(rough ¡guideline) ¡

1) ¡Unit ¡Plan ¡& ¡OrganizaOon ¡ ¡ 2) ¡Comprehension ¡of ¡materials ¡ ¡ ¡ ¡ ¡ ¡ ¡(clarity, ¡big ¡picture ¡vs. ¡details) ¡ 3) ¡Use ¡of ¡examples ¡ 5) ¡Q&A ¡ 4) ¡PresentaOon ¡style ¡ 20% ¡ 30% ¡ 20% ¡ 15% ¡ 15% ¡
  • You ¡have ¡to ¡grade ¡every ¡lecture ¡using ¡an ¡online ¡
quesOonnaire ¡(this ¡counts ¡towards ¡the ¡parOcipaOon ¡score) ¡
  • However, ¡I ¡give ¡the ¡final ¡grade ¡ ¡
  • I ¡will ¡also ¡make ¡sure, ¡that ¡the ¡complexity ¡of ¡topics ¡is ¡
appropriately ¡reflected ¡in ¡the ¡grade ¡
slide-41
SLIDE 41

PresentaOon ¡Tips ¡

  • Focus ¡on ¡the ¡big ¡picture ¡rather ¡than ¡details. ¡It ¡is ¡beDer ¡
to ¡convey ¡the ¡intuiOon ¡behind ¡a ¡soluOon ¡than ¡present ¡all ¡ the ¡details ¡
  • Make ¡a ¡list ¡of ¡key ¡take ¡aways ¡and ¡also ¡list ¡them ¡on ¡the ¡
last ¡slide ¡
  • Use ¡a ¡lot ¡of ¡examples ¡and ¡create ¡your ¡own ¡examples ¡
  • Use ¡less ¡text ¡and ¡more ¡visualiza6ons ¡(this ¡slide ¡is ¡a ¡bad ¡
example ¡:-­‑) ¡
  • Tell ¡a ¡story ¡
  • Speak ¡freely ¡instead ¡of ¡reading ¡from ¡notes ¡
  • Prac6ce, ¡prac6ce, ¡prac6ce…. ¡
– Use ¡your ¡friends ¡to ¡listen ¡to ¡it ¡ – For ¡conferences ¡we ¡o?en ¡pracBce ¡a ¡talk ¡over ¡10 ¡Bmes ¡with ¡a ¡ student ¡ ¡ More ¡Ops: ¡hDp://www.rogerdarlington.me.uk/PresentaOon.html ¡
slide-42
SLIDE 42

Assignment ¡

  • All ¡students ¡presen6ng ¡on ¡the ¡same ¡day ¡have ¡to ¡prepare ¡an ¡
assignment ¡together ¡(i.e., ¡assigners) ¡
  • An ¡assignment ¡contains ¡three ¡pieces, ¡which ¡have ¡to ¡be ¡handed ¡in ¡
upfront ¡ – The ¡assignment ¡sheet ¡and ¡all ¡resources ¡ – The ¡soluOon ¡sheet ¡ – The ¡grading ¡scheme ¡
  • The ¡assignment ¡should ¡take ¡1-­‑6h ¡to ¡do ¡(the ¡avg ¡should ¡be ¡closer ¡to ¡
1) ¡
  • The ¡content ¡is ¡up ¡to ¡you ¡as ¡well ¡as ¡the ¡division ¡of ¡work ¡
– You ¡can ¡use ¡a ¡classic ¡handwriDen ¡assignment ¡or ¡online ¡system ¡ – You ¡can ¡make ¡it ¡hands-­‑on ¡(e.g., ¡we ¡have ¡EC2 ¡credits) ¡ – …. ¡
  • You ¡will ¡receive ¡feedback ¡from ¡us ¡on ¡the ¡assignment ¡before ¡it ¡is ¡
posted ¡
  • All ¡other ¡students ¡(i.e., ¡assignees) ¡ ¡have ¡to ¡do ¡the ¡assignment ¡
  • Be ¡fair ¡to ¡everybody ¡(no ¡pos6ng ¡of ¡the ¡solu6on) ¡à
à ¡We ¡will ¡test ¡ for ¡chea6ng/plagiarism ¡and ¡we ¡apply ¡a ¡no ¡tolerance ¡policy ¡
slide-43
SLIDE 43

Assignment ¡Grading ¡ ¡ (assigners ¡and ¡assignee) ¡

1) ¡Clearness ¡& ¡CreaOvity ¡ ¡ 2) ¡Usefulness ¡ 3) ¡Grading ¡(fairness, ¡feedback,…) ¡ 33% ¡ 33% ¡ 33% ¡
  • Every ¡assignment ¡is ¡graded ¡by ¡the ¡assigners ¡
  • Every ¡assignment ¡is ¡evaluated ¡using ¡a ¡survey ¡by ¡the ¡assignees ¡
  • For ¡the ¡assigners, ¡the ¡grade ¡is ¡determined ¡by ¡me ¡ ¡
  • For ¡the ¡assignees, ¡the ¡grade ¡by ¡the ¡assigners ¡ ¡“only” ¡impacts ¡ ¡
the ¡parOcipaOon ¡grade ¡ Assigners ¡grading ¡scheme ¡
slide-44
SLIDE 44 ¡ Week ¡+4 ¡ ¡ Week ¡+3 ¡ ¡ Week ¡+1 ¡ ¡ Week ¡+2 ¡ ¡ Week ¡0 ¡ ¡ week ¡-­‑1 ¡

Topic ¡Unit ¡/ ¡Assignment ¡Schedule ¡

Topic ¡ ¡ Presenta6on ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡ Hand-­‑in ¡slides ¡ & ¡outline ¡for ¡ assignment ¡for ¡ feedback ¡ Hand-­‑in ¡ assignment ¡ Pos6ng ¡ Assignment ¡ Feedback ¡on ¡slides ¡& ¡ assignment ¡outline ¡ ¡ before ¡or ¡a~er ¡class ¡ Feedback ¡on ¡assignment ¡ ¡ before ¡or ¡a~er ¡class ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡ …. ¡ Th ¡ Fr ¡ Assignment ¡ Due ¡ Grading ¡ Due ¡ Schedule ¡will ¡vary ¡ (especially ¡at ¡the ¡ end ¡of ¡the ¡semester) ¡ We ¡Th ¡ Fr ¡
slide-45
SLIDE 45

Assignment ¡Tips ¡

  • Make ¡the ¡assignment ¡pracOcal ¡ ¡
  • Avoid ¡mulOple ¡choice ¡
  • Very ¡important: ¡test ¡the ¡assignment ¡internally ¡in ¡
your ¡group ¡in ¡regard ¡to ¡clarity ¡and ¡Ome ¡
  • Try ¡to ¡simplify ¡the ¡grading ¡process ¡e.g., ¡write ¡auto-­‑
grading ¡scripts) ¡
  • Be ¡creaOve! ¡
  • We ¡have ¡some ¡resources ¡for ¡student ¡assignments ¡available ¡
(e.g., ¡EC2 ¡credit, ¡Mechanical ¡Turk ¡credit,…) ¡
  • Assignment ¡examples ¡
– SVM ¡Topic: ¡Provide ¡some ¡data ¡set ¡and ¡let ¡them ¡build ¡a ¡classifier ¡ in ¡R ¡ – Hadoop ¡Topic: ¡Ask ¡to ¡translate ¡a ¡given ¡algorithm ¡into ¡a ¡map/ reduce ¡program. ¡Let ¡the ¡student ¡run ¡a ¡simple ¡word-­‑count ¡ example ¡on ¡some ¡data-­‑set ¡on ¡the ¡Amazon ¡Cloud. ¡ ¡
slide-46
SLIDE 46

Projects ¡

  • 40% ¡of ¡the ¡final ¡grade ¡
  • Topic ¡of ¡your ¡choice ¡(of ¡course, ¡Data ¡Science ¡related) ¡
  • Scope: ¡short ¡or ¡demo-­‑paper ¡at ¡a ¡top-­‑6er ¡conference ¡
  • Projects ¡will ¡vary ¡greatly ¡in ¡both ¡scope ¡and ¡topic ¡
  • Group ¡size ¡of ¡1-­‑4 ¡ ¡
  • Deliverables ¡
– Project ¡proposal ¡presentaOon ¡ ¡(10%) ¡ – Milestone ¡presentaOon ¡(10%) ¡ – Final ¡presentaOon/demo ¡(40%) ¡ – Final ¡6-­‑8 ¡page ¡short ¡paper ¡using ¡the ¡SIGMOD ¡style ¡(40%) ¡ hDp://www.acm.org/sigs/publicaOons/proceedings-­‑templates ¡
  • You ¡will ¡get ¡out ¡of ¡this ¡course ¡what ¡you ¡put ¡in ¡
– Coming ¡up ¡with ¡a ¡well-­‑scoped ¡project ¡is ¡in ¡your ¡interest ¡ – Pick ¡something ¡you ¡are ¡excited ¡about ¡ A ¡list ¡of ¡possible ¡projects ¡can ¡be ¡found ¡on ¡the ¡course ¡web-­‑page ¡ hDp://cs.brown.edu/courses/cs195w ¡ ¡
slide-47
SLIDE 47

Late ¡Penalty ¡

1 ¡Day ¡ 2 ¡Days ¡ >3 ¡Days ¡ ¡ ¡ ¡ ¡ ¡ ¡

10% ¡ 20% ¡ 30-­‑100% ¡

slide-48
SLIDE 48

Important ¡

  • You ¡can ¡use ¡informa6on ¡and ¡content ¡(e.g., ¡
images ¡and ¡graphics) ¡found ¡on ¡the ¡Internet ¡ but ¡the ¡original ¡source ¡must ¡be ¡properly ¡ aDributed/cited. ¡No ¡credit ¡will ¡be ¡given ¡for ¡ presenta6ons ¡without ¡proper ¡cita6ons. ¡
  • It ¡is ¡NOT ¡OK, ¡to ¡copy ¡exis6ng ¡presenta6ons ¡or ¡
assignments ¡and ¡will ¡result ¡in ¡no ¡credit. ¡Instead, ¡ (re-­‑)invent ¡your ¡own ¡lecture, ¡for ¡example, ¡by ¡ using ¡your ¡own ¡examples, ¡structure, ¡etc. ¡ ¡
slide-49
SLIDE 49

Next ¡Steps ¡

  • Build ¡your ¡team ¡
  • Sign ¡up: ¡hDp://cs.brown.edu/courses/cs195w/form.html ¡
  • Think ¡about ¡your ¡project ¡
  • Read/Watch: ¡ ¡
– Alon ¡Halevy, ¡Peter ¡Norvig, ¡and ¡Fernando ¡Pereira: ¡The ¡ Unreasonable ¡EffecOveness ¡of ¡Data ¡ – hDp://www.ted.com/talks/view/lang/en//id/788 ¡ – hDp://www.ted.com/talks/ david_mccandless_the_beauty_of_data_visualizaOon.html ¡ – hDp://www.ted.com/talks/ gary_flake_is_pivot_a_turning_point_for_web_exploraOon.ht ml ¡ – Xindong ¡Wu ¡et ¡al.: ¡Top ¡10 ¡algorithms ¡in ¡data ¡mining, ¡ Knowledge ¡and ¡InformaOon ¡Systems, ¡Volume ¡14, ¡Issue ¡1, ¡ 2008 ¡ ¡
slide-50
SLIDE 50

Data ¡Systems ¡Read ¡

Every ¡Wednesday ¡at ¡noon ¡