SLIDE 1 Data ¡Science ¡
Tim ¡Kraska ¡
[Economist,02/2010] ¡
SLIDE 2
SLIDE 4
SLIDE 5 The ¡Unreasonable ¡
Effec6veness ¡of ¡
Data ¡
Alon ¡Halevy, ¡Peter ¡Norvig, ¡and ¡Fernando ¡Pereira, ¡Google ¡
SLIDE 6 hDp://commons.wikimedia.org/wiki/File:ElectoralCollege2012.svg ¡ (public ¡domain) ¡
SLIDE 7 “The ¡intuiOon ¡behind ¡this ¡ought ¡to ¡be ¡very ¡simple: ¡Mr. ¡Obama ¡is ¡ maintaining ¡leads ¡in ¡the ¡polls ¡in ¡Ohio ¡and ¡other ¡states ¡that ¡are ¡ sufficient ¡for ¡him ¡to ¡win ¡270 ¡electoral ¡votes.” ¡ Nate ¡Silver, ¡Oct. ¡26, ¡2012 ¡ “…the ¡argument ¡we’re ¡making ¡is ¡exceedingly ¡simple. ¡Here ¡it ¡is: ¡ Obama’s ¡ahead ¡in ¡Ohio.” ¡ Nate ¡Silver, ¡Nov. ¡2, ¡2012 ¡ “The ¡bar ¡set ¡by ¡the ¡compeOOon ¡was ¡inviOngly ¡low. ¡Someone ¡could ¡look ¡ like ¡a ¡genius ¡simply ¡by ¡doing ¡some ¡fairly ¡basic ¡research ¡into ¡what ¡really ¡ has ¡predicOve ¡power ¡in ¡a ¡poliOcal ¡campaign.” ¡ Nate ¡Silver, ¡Nov. ¡10, ¡2012 ¡ DailyBeast ¡ fivethirtyeight.com ¡ fivethirtyeight.com ¡
source: ¡randy ¡stewart ¡
Nate ¡Silver ¡
SLIDE 8 “…the ¡biggest ¡win ¡came ¡from ¡good ¡old ¡SQL ¡on ¡a ¡VerOca ¡data ¡ warehouse ¡and ¡from ¡providing ¡access ¡to ¡data ¡to ¡dozens ¡of ¡analyOcs ¡ staffers ¡who ¡could ¡follow ¡their ¡own ¡curiosity ¡and ¡disOll ¡and ¡analyze ¡ data ¡as ¡they ¡needed.” ¡ Dan ¡Woods ¡ ¡
Jan ¡13 ¡2013, ¡CITO ¡Research ¡
“The ¡decision ¡was ¡made ¡to ¡have ¡Hadoop ¡do ¡the ¡aggregate ¡generaOons ¡and ¡ anything ¡not ¡real-‑Ome, ¡but ¡then ¡have ¡VerOca ¡to ¡answer ¡sort ¡of ¡‘speed-‑of-‑ thought’ ¡queries ¡about ¡all ¡the ¡data.” ¡ Josh ¡Hendler, ¡CTO ¡of ¡H ¡& ¡K ¡Strategies ¡ ¡
Related: ¡Obama ¡campaign’s ¡data-‑driven ¡ground ¡game ¡
"In ¡the ¡21st ¡century, ¡the ¡candidate ¡with ¡[the] ¡best ¡data, ¡merged ¡ with ¡the ¡best ¡messages ¡dictated ¡by ¡that ¡data, ¡wins.” ¡
Andrew ¡Rasiej, ¡Personal ¡Democracy ¡Forum ¡
SLIDE 9 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡
- e59030. ¡doi:10.1371/journal.pone.0059030 ¡
1) ¡Convert ¡all ¡the ¡digiOzed ¡books ¡in ¡the ¡20th ¡century ¡into ¡n-‑grams ¡(Thanks, ¡ Google!) ¡ ¡ ¡ ¡(hDp://books.google.com/ngrams/) ¡ ¡ A ¡1-‑gram: ¡“yesterday” ¡ A ¡5-‑gram: ¡“analysis ¡is ¡o?en ¡described ¡as” ¡ ¡ 3) ¡Count ¡the ¡occurences ¡of ¡each ¡mood ¡word ¡ ¡ 2) ¡Label ¡each ¡1-‑gram ¡(word) ¡with ¡a ¡mood ¡score. ¡ ¡ ¡ ¡ ¡ ¡ ¡(Thanks, ¡WordNet ¡Affect) ¡
Expression ¡of ¡EmoOons ¡ ¡
- ver ¡the ¡20th ¡Century ¡
SLIDE 10 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡ in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡e59030. ¡doi:10.1371/journal.pone. 0059030 ¡
SLIDE 11 ¡Acerbi ¡A, ¡Lampos ¡V, ¡GarneD ¡P, ¡Bentley ¡RA ¡(2013) ¡The ¡Expression ¡of ¡Emo6ons ¡ in ¡20th ¡Century ¡Books. ¡PLoS ¡ONE ¡8(3): ¡e59030. ¡doi:10.1371/journal.pone. 0059030 ¡
SLIDE 12 … ¡
- 2. ¡Michel ¡J-‑P, ¡Shen ¡YK, ¡Aiden ¡AP, ¡Veres ¡A, ¡Gray ¡MK, ¡et ¡al. ¡(2011) ¡Quan%ta%ve ¡
analysis ¡of ¡culture ¡using ¡millions ¡of ¡digi%zed ¡books. ¡Science ¡331: ¡176–182. ¡doi: ¡ 10.1126/science.1199644. ¡Find ¡this ¡arOcle ¡online ¡
- 3. ¡Lieberman ¡E, ¡Michel ¡J-‑P, ¡Jackson ¡J, ¡Tang ¡T, ¡Nowak ¡MA ¡(2007) ¡Quan%fying ¡the ¡
evolu%onary ¡dynamics ¡of ¡language. ¡Nature ¡449: ¡713–716. ¡doi: ¡10.1038/
- nature06137. ¡Find ¡this ¡arOcle ¡online ¡
- 4. ¡Pagel ¡M, ¡Atkinson ¡QD, ¡Meade ¡A ¡(2007) ¡Frequency ¡of ¡word-‑use ¡predicts ¡rates ¡of ¡
lexical ¡evolu%on ¡throughout ¡Indo-‑European ¡history. ¡Nature ¡449: ¡717–720. ¡doi: ¡ 10.1038/nature06176. ¡Find ¡this ¡arOcle ¡online ¡ … ¡
- 6. ¡DeWall ¡CN, ¡Pond ¡RS ¡Jr, ¡Campbell ¡WK, ¡Twenge ¡JM ¡(2011) ¡Tuning ¡in ¡to ¡
Psychological ¡Change: ¡Linguis%c ¡Markers ¡of ¡Psychological ¡Traits ¡and ¡Emo%ons ¡ Over ¡Time ¡in ¡Popular ¡U.S. ¡Song ¡Lyrics. ¡Psychology ¡of ¡AestheOcs, ¡CreaOvity ¡and ¡the ¡ Arts ¡5: ¡200–207. ¡doi: ¡10.1037/a0023195. ¡Find ¡this ¡arOcle ¡online ¡ … ¡
Papers ¡cited ¡by ¡them ¡
SLIDE 13 Last.FM ¡ “Since ¡we ¡have ¡a ¡massive ¡amount ¡of ¡user ¡tag ¡data ¡available ¡we ¡can ¡easily ¡ correlate ¡tags ¡and ¡years ¡and ¡measure ¡“popularity” ¡of ¡a ¡genre ¡by ¡counOng ¡ the ¡number ¡of ¡arOsts ¡formed ¡in ¡a ¡specific ¡year.” ¡ ¡Janni ¡Kovacs, ¡Last.FM ¡ ¡
SLIDE 14 source: ¡ hDp://www.google.org/flutrends/us/#US ¡
hDp://www.google.com/permissions/using-‑product-‑graphics.html ¡
flu ¡risk ¡ “ScienBfic ¡hindsight ¡shows ¡that ¡ Google ¡Flu ¡Trends ¡far ¡overstated ¡this ¡ year's ¡flu ¡season….” ¡ “Lots ¡of ¡media ¡aKenBon ¡to ¡this ¡ year's ¡flu ¡season ¡skewed ¡Google's ¡ search ¡engine ¡traffic.” ¡ ¡ David ¡Wagner, ¡AtlanOc ¡Wire, ¡Feb ¡ 13 ¡2013 ¡
SLIDE 15 Idea: ¡Analyze ¡the ¡co-‑occurrence ¡graph ¡of ¡ingredients ¡in ¡recipes ¡ to ¡analyze ¡the ¡underlying ¡principles ¡of ¡food ¡pairing. ¡
SLIDE 16 Some ¡recurring ¡themes ¡
- simple ¡methods ¡ ¡
- repurposing ¡data ¡
- communica6on ¡maDers ¡
- Other ¡themes ¡
– “Data ¡products” ¡– ¡not ¡just ¡answers ¡ – “Speed ¡of ¡thought” ¡analysis ¡
SLIDE 17 What ¡is ¡Data ¡Science ¡
“Data ¡ScienOsts: ¡ ¡ ¡The ¡DefiniOon ¡of ¡Sexy” ¡
Forbes, ¡2012 ¡
“Data ¡ScienOst: ¡The ¡Sexiest ¡ ¡ ¡ ¡ ¡Job ¡of ¡the ¡21st ¡Century” ¡
Harvard ¡Business ¡Review, ¡2012 ¡
SLIDE 18 What ¡is ¡Data ¡Science? ¡
– “Hot ¡New ¡Gig ¡in ¡Tech” ¡
- Hal ¡Varian, ¡Google’s ¡Chief ¡Economist, ¡NYT, ¡2009: ¡ ¡
– “The ¡next ¡sexy ¡job” ¡ – “The ¡ability ¡to ¡take ¡data—to ¡be ¡able ¡to ¡understand ¡it, ¡to ¡process ¡it, ¡to ¡ extract ¡value ¡from ¡it, ¡to ¡visualize ¡it, ¡to ¡communicate ¡it—that’s ¡going ¡to ¡ be ¡a ¡hugely ¡important ¡skill.” ¡
- Mike ¡Driscoll, ¡CEO ¡of ¡metamarkets: ¡ ¡
– “Data ¡science, ¡as ¡it's ¡pracOced, ¡is ¡a ¡blend ¡of ¡Red-‑Bull-‑fueled ¡hacking ¡ and ¡espresso-‑inspired ¡staOsOcs.” ¡ – “Data ¡science ¡is ¡the ¡civil ¡engineering ¡of ¡data. ¡ ¡Its ¡acolytes ¡possess ¡a ¡ pracOcal ¡knowledge ¡of ¡tools ¡& ¡materials, ¡coupled ¡with ¡a ¡theoreOcal ¡ understanding ¡of ¡what's ¡possible.” ¡
SLIDE 19 Drew ¡Conway’s ¡Data ¡Science ¡Venn ¡ Diagram ¡
SLIDE 20 What ¡do ¡data ¡scienOsts ¡do? ¡
“They ¡need ¡to ¡find ¡nuggets ¡of ¡truth ¡in ¡data ¡and ¡then ¡ explain ¡it ¡to ¡the ¡business ¡leaders” ¡ Data ¡scienOsts ¡“tend ¡to ¡be ¡“hard ¡scienOsts”, ¡ parOcularly ¡physicists, ¡rather ¡than ¡computer ¡science ¡
- majors. ¡ ¡Physicists ¡have ¡a ¡strong ¡mathemaOcal ¡
background, ¡compuOng ¡skills, ¡and ¡come ¡from ¡a ¡ discipline ¡in ¡which ¡survival ¡depends ¡on ¡gezng ¡the ¡ most ¡from ¡the ¡data. ¡ ¡They ¡have ¡to ¡think ¡about ¡the ¡big ¡ picture, ¡the ¡big ¡problem.” ¡
- ‑-‑ ¡DJ ¡PaOl, ¡Chief ¡ScienOst ¡at ¡LinkedIn ¡
- ‑-‑ ¡Rchard ¡Snee, ¡EMC ¡ ¡
SLIDE 21 Mike ¡Driscoll’s ¡three ¡sexy ¡skills ¡ ¡
- f ¡data ¡geeks ¡
- Data ¡Munging ¡ ¡
– parsing, ¡scraping, ¡and ¡formazng ¡data ¡
– tradiOonal ¡analysis ¡
– graphs, ¡tools, ¡etc. ¡
“data ¡wrangling” ¡ “data ¡jujitsu” ¡ “data ¡munging” ¡
SLIDE 22 “Data ¡Science ¡refers ¡to ¡an ¡emerging ¡area ¡of ¡work ¡concerned ¡with ¡ the ¡collecOon, ¡preparaOon, ¡analysis, ¡visualizaOon, ¡management ¡ and ¡preservaOon ¡of ¡large ¡collecOons ¡of ¡informaOon.” ¡
Jeffrey ¡Stanton ¡ ¡ Syracuse ¡University ¡School ¡of ¡InformaOon ¡Studies ¡ An ¡IntroducOon ¡to ¡Data ¡Science ¡
SLIDE 23 “A ¡data ¡scienOst ¡is ¡someone ¡who ¡can ¡obtain, ¡scrub, ¡explore, ¡model ¡and ¡ interpret ¡data, ¡blending ¡hacking, ¡staOsOcs ¡and ¡machine ¡learning. ¡Data ¡ scienOsts ¡not ¡only ¡are ¡adept ¡at ¡working ¡with ¡data, ¡but ¡appreciate ¡data ¡ itself ¡as ¡a ¡first-‑class ¡product.” ¡ ¡
- ‑-‑ ¡Hilary ¡Mason, ¡chief ¡scienOst ¡at ¡bit.ly ¡
SLIDE 24 Doing ¡Data ¡Science ¡(Peter ¡Huber) ¡
- 1. InspecOon ¡
- 2. Error ¡checking ¡
- 3. ModificaOon ¡
- 4. Comparison ¡
- 5. Modeling ¡and ¡model ¡fizng ¡
- 6. SimulaOon ¡
- 7. What-‑if ¡analyses ¡
- 8. InterpretaOon ¡
- 9. PresentaOon ¡of ¡conclusions ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
SLIDE 25 Doing ¡Data ¡Science ¡(Ben ¡Fry) ¡
- 1. Acquire ¡
- 2. Parse ¡
- 3. Filter ¡
- 4. Mine ¡
- 5. Represent ¡
- 6. Refine ¡
- 7. Interact ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
SLIDE 26 Doing ¡Data ¡Science ¡(Colin ¡Mallows) ¡
- 1. IdenOfy ¡data ¡to ¡collect ¡and ¡its ¡relevance ¡to ¡
your ¡problem ¡
- 2. StaOsOcal ¡specificaOon ¡of ¡the ¡problem ¡
- 3. Method ¡selecOon ¡
- 4. Analysis ¡of ¡method ¡
- 5. Interpret ¡results ¡for ¡non-‑staOsOcians ¡
[hDp://berkeleydatascience.files.wordpress.com/2012/01/20120117berkeley1.pdf] ¡
SLIDE 27 A ¡PracOcal ¡DefiniOon ¡
- Data ¡Science ¡is ¡about ¡the ¡whole ¡processing ¡
pipeline ¡to ¡extract ¡informa6on ¡out ¡of ¡data ¡
- Data ¡ScienOst ¡understand ¡and ¡care ¡about ¡the ¡
whole ¡data ¡pipeline ¡
- A ¡data ¡pipeline ¡consists ¡of ¡3 ¡steps: ¡
¡1) ¡Preparing ¡to ¡run ¡a ¡model ¡ ¡ ¡ ¡2) ¡Running ¡the ¡model ¡ ¡3) ¡CommunicaOng ¡the ¡results ¡
Gathering, ¡cleaning, ¡integraOng, ¡restructuring, ¡transforming, ¡ loading, ¡filtering, ¡deleOng, ¡combining, ¡merging, ¡verifying, ¡ extracOng, ¡shaping, ¡massaging ¡
SLIDE 28 Data ¡Science ¡is ¡about ¡Data ¡Products ¡
– Spellchecker ¡ – Machine ¡Translator ¡
- InteracOve ¡visualizaOons ¡
– Google ¡flu ¡applicaOon ¡ – Global ¡Burden ¡of ¡Disease ¡
– Enterprise ¡data ¡warehouse ¡ – Sloan ¡Digital ¡Sky ¡Survey ¡
(Mike ¡Loukides) ¡ Data ¡science ¡is ¡about ¡building ¡data ¡ products, ¡not ¡just ¡answering ¡quesBons ¡ ¡ Data ¡products ¡empower ¡others ¡to ¡use ¡the ¡
¡ May ¡help ¡communicate ¡your ¡results ¡(e.g., ¡ Nate ¡Silver’s ¡maps) ¡ ¡ May ¡empower ¡others ¡to ¡do ¡their ¡own ¡ analysis ¡ ¡ (e.g., ¡Global ¡Burden ¡of ¡Disease) ¡
SLIDE 29 DisOnguishing ¡Data ¡Science ¡from... ¡
- Business ¡Intelligence ¡
- StaOsOcs ¡
- Data(base) ¡Management ¡
- VisualizaOon ¡
- Machine ¡Learning ¡
SLIDE 30 Huge ¡Number ¡of ¡Relevant ¡Areas ¡
- StochasOc/StaOsOcs ¡
- Machine ¡Learning ¡
- Databases ¡
- Distributed ¡Systems ¡
- Networking ¡
- Cloud ¡CompuOng ¡
- Natural ¡Language ¡Processing ¡
- VisualizaOon ¡
- … ¡
SLIDE 31 “I ¡worry ¡that ¡the ¡Data ¡ScienBst ¡role ¡is ¡like ¡the ¡ mythical ¡“webmaster” ¡of ¡the ¡90s: ¡master ¡of ¡all ¡ trades.” ¡
- ‑-‑ ¡Aaron ¡Kimball, ¡CTO ¡Wibidata ¡
SLIDE 32 A ¡PracOcal ¡Informal ¡DefiniOon ¡
- Data ¡Science ¡is ¡about ¡the ¡whole ¡processing ¡
pipeline ¡to ¡extract ¡informa6on ¡out ¡of ¡data ¡
- Data ¡ScienOst ¡understand ¡and ¡care ¡about ¡the ¡
whole ¡data ¡pipeline ¡
- A ¡data ¡pipeline ¡consists ¡of ¡3 ¡steps: ¡
¡1) ¡Preparing ¡to ¡run ¡a ¡model ¡ ¡ ¡ ¡2) ¡Running ¡the ¡model ¡ ¡3) ¡CommunicaOng ¡the ¡results ¡
Gathering, ¡cleaning, ¡integraOng, ¡restructuring, ¡transforming, ¡ loading, ¡filtering, ¡deleOng, ¡combining, ¡merging, ¡verifying, ¡ extracOng, ¡shaping, ¡massaging ¡
SLIDE 33 This ¡Seminar ¡
Tools/Systems ¡ ML ¡ Stats ¡ Viz ¡
SLIDE 34 Structure ¡
- Every ¡week ¡we ¡have ¡3 ¡topic ¡units ¡of ¡40min ¡each ¡
- Every ¡topic ¡unit ¡covers ¡some ¡Data ¡Science ¡
fundamentals ¡and ¡provides ¡an ¡outlook ¡into ¡the ¡
state-‑of-‑the-‑art/cuzng ¡edge ¡research ¡
- For ¡every ¡unit, ¡there ¡will ¡be ¡a ¡(short) ¡assignment ¡
- Topic ¡units ¡and ¡assignment ¡are ¡prepared ¡by ¡
YOU ¡in ¡groups ¡
– Topic ¡units ¡in ¡groups ¡of ¡2 ¡ – Assignments ¡in ¡groups ¡of ¡6 ¡(the ¡students ¡presenOng ¡on ¡the ¡ same ¡day) ¡
- There ¡is ¡a ¡class ¡project ¡of ¡your ¡choice ¡
SLIDE 35 TentaOve ¡Schedule ¡
Week ¡ Date ¡ Slot ¡1 ¡(3:00-‑3:40) ¡ Slot ¡2 ¡(3:50-‑:4:30) ¡ Slot ¡3 ¡(4:40 ¡– ¡5:20) ¡ Week ¡1 ¡ 9/4/13 ¡ Intro ¡ Week ¡2 ¡ 9/11/13 ¡ StaOsOcs ¡ Week ¡3 ¡ 9/18/13 ¡ Topic ¡1 ¡ Topic ¡2 ¡ Topic ¡3 ¡ Week ¡4 ¡ 9/25/13 ¡ Project ¡Proposals ¡ Week ¡5 ¡ 10/2/13 ¡ Topic ¡1 ¡ Topic ¡2 ¡ Topic ¡3 ¡ Week ¡6 ¡ 10/9/13 ¡ Topic ¡4 ¡ Topic ¡5 ¡ Topic ¡6 ¡ Week ¡7 ¡ 10/16/13 ¡ Topic ¡7 ¡ Topic ¡8 ¡ Topic ¡9 ¡ Week ¡8 ¡ 10/23/13 ¡ Topic ¡10 ¡ Topic ¡11 ¡ Topic ¡12 ¡ Week ¡9 ¡ 10/30/13 ¡ Project ¡Update ¡ Week ¡10 ¡ 11/6/13 ¡ Topic ¡13 ¡ Topic ¡14 ¡ Topic ¡15 ¡ Week ¡11 ¡ 11/13/13 ¡ Topic ¡16 ¡ Topic ¡17 ¡ Topic ¡18 ¡ Week ¡12 ¡ 11/20/13 ¡ Topic ¡19 ¡ Topic ¡20 ¡ Topic ¡21 ¡ 11/27/13 ¡ Holiday ¡ Week ¡13 ¡ 12/4/13 ¡ Topic ¡22 ¡ Topic ¡23 ¡ Topic ¡24 ¡ Week ¡14 ¡ 12/15/13 ¡ Project ¡Demos ¡and ¡Final ¡Discussion ¡
SLIDE 36 Grading ¡
30% ¡ 15% ¡ 15% ¡ 40% ¡ Topic ¡Unit ¡PresentaOon ¡ Your ¡Created ¡Unit ¡Assignment ¡ Assignments/ParOcipaOon ¡ Project ¡
SLIDE 37 Topic ¡Units ¡
– Calculate ¡in ¡5min ¡for ¡quesOons ¡ ¡
– 75% ¡fundamental ¡topic ¡of ¡data ¡science ¡(e.g., ¡NoSQL, ¡SVM, ¡ apriori, ¡lying ¡with ¡staOsOcs,…) ¡ – 25% ¡advanced ¡state-‑of-‑the-‑art/cuSng-‑edge ¡research ¡ (e.g., ¡latest ¡Google ¡Spanner ¡paper, ¡how ¡to ¡distribute ¡SVMs ¡
- n ¡GPUs, ¡how ¡to ¡lie ¡with ¡maps…) ¡
- Every ¡unit ¡contains ¡a ¡minimum ¡topic ¡list ¡to ¡cover. ¡The ¡
rest ¡is ¡up ¡to ¡you ¡
- Reading ¡list ¡for ¡the ¡25% ¡advanced ¡part. ¡The ¡basic ¡part ¡
you ¡have ¡to ¡find ¡(e.g., ¡using ¡books ¡-‑ ¡ ¡yeah, ¡real ¡books) ¡
- One ¡week ¡before ¡your ¡unit, ¡you ¡have ¡to ¡hand-‑in ¡a ¡first ¡
draV ¡of ¡the ¡slides ¡on ¡which ¡we ¡will ¡provide ¡feedback ¡
SLIDE 38 Topics ¡
- SV: ¡Sta6s6cs ¡& ¡Visualiza6on ¡
– SV ¡I: ¡StaOsOcs ¡Basics ¡ – SV ¡II: ¡VisualizaOon ¡Basics ¡ – SV ¡III: ¡Lying ¡with ¡staOsOcs ¡
- DM: ¡Data ¡Mining ¡/ ¡Machine ¡Learning ¡
– DM ¡I ¡: ¡Decision ¡Tree ¡(C4.5) ¡ – DM ¡II: ¡Clustering ¡(K-‑MEANS) ¡ – DM ¡III: ¡ClassificaOon ¡1 ¡(SVM) ¡ – DM ¡IV: ¡Frequent ¡Item ¡Sets ¡(Apriori) ¡ – DM ¡V: ¡Maximum ¡Likelihood ¡(EM) ¡ – DM ¡VI: ¡Graph ¡Mining ¡(PageRank) ¡ – DM ¡VII: ¡AdaBoost ¡ – DM ¡VIII: ¡ClassificaOon ¡2 ¡(kNN) ¡ – DM ¡IX: ¡ClassificaOon ¡3 ¡(Naive ¡Bayes) ¡ – DM ¡X: ¡OpOmizaOon: ¡Gradient ¡Descent ¡ – DM ¡XI: ¡EvaluaOon ¡
- SML: ¡Systems ¡for ¡Machine ¡Learning ¡
– SML ¡I: ¡Hazy ¡ – SML ¡II: ¡MAD ¡Skills ¡& ¡MLbase ¡ – SML ¡III: ¡Graph ¡Processing ¡
SLIDE 39 Topics ¡
- DI: ¡Data ¡Integra6on ¡& ¡CrowdSourcing ¡
– DI ¡I: ¡Intro ¡to ¡Data ¡IntegraOon ¡& ¡CrowdSourcing ¡ – DI ¡II: ¡Data ¡Wrangling ¡ – DI ¡III: ¡Overview ¡& ¡Quality ¡Control ¡ – DI ¡IV: ¡EnOty ¡ResoluOon ¡ – DI ¡V: ¡DeclaraOve ¡CrowdSourcing ¡
- AF: ¡Analy6c ¡Frameworks, ¡Storage ¡& ¡Databases ¡
– AF ¡I: ¡Map/Reduce ¡-‑ ¡Basics ¡ – AF ¡II: ¡Map/Reduce ¡Extensions ¡ – AF ¡III: ¡R ¡& ¡Julia ¡ – AF ¡IV: ¡Languages ¡for ¡Hadoop ¡ – AF ¡V: ¡Spark ¡ – AF ¡VI: ¡Scope ¡& ¡Reef ¡ – AF ¡VII: ¡NoSQL ¡ – AF ¡VIII: ¡Other ¡NoSQL ¡Systems ¡ – AF ¡IX: ¡Column ¡Databases ¡
Full ¡list: ¡hDp://cs.brown.edu/courses/cs195w ¡
SLIDE 40 PresentaOon ¡Grading ¡(rough ¡guideline) ¡
1) ¡Unit ¡Plan ¡& ¡OrganizaOon ¡ ¡ 2) ¡Comprehension ¡of ¡materials ¡ ¡ ¡ ¡ ¡ ¡ ¡(clarity, ¡big ¡picture ¡vs. ¡details) ¡ 3) ¡Use ¡of ¡examples ¡ 5) ¡Q&A ¡ 4) ¡PresentaOon ¡style ¡ 20% ¡ 30% ¡ 20% ¡ 15% ¡ 15% ¡
- You ¡have ¡to ¡grade ¡every ¡lecture ¡using ¡an ¡online ¡
quesOonnaire ¡(this ¡counts ¡towards ¡the ¡parOcipaOon ¡score) ¡
- However, ¡I ¡give ¡the ¡final ¡grade ¡ ¡
- I ¡will ¡also ¡make ¡sure, ¡that ¡the ¡complexity ¡of ¡topics ¡is ¡
appropriately ¡reflected ¡in ¡the ¡grade ¡
SLIDE 41 PresentaOon ¡Tips ¡
- Focus ¡on ¡the ¡big ¡picture ¡rather ¡than ¡details. ¡It ¡is ¡beDer ¡
to ¡convey ¡the ¡intuiOon ¡behind ¡a ¡soluOon ¡than ¡present ¡all ¡ the ¡details ¡
- Make ¡a ¡list ¡of ¡key ¡take ¡aways ¡and ¡also ¡list ¡them ¡on ¡the ¡
last ¡slide ¡
- Use ¡a ¡lot ¡of ¡examples ¡and ¡create ¡your ¡own ¡examples ¡
- Use ¡less ¡text ¡and ¡more ¡visualiza6ons ¡(this ¡slide ¡is ¡a ¡bad ¡
example ¡:-‑) ¡
- Tell ¡a ¡story ¡
- Speak ¡freely ¡instead ¡of ¡reading ¡from ¡notes ¡
- Prac6ce, ¡prac6ce, ¡prac6ce…. ¡
– Use ¡your ¡friends ¡to ¡listen ¡to ¡it ¡ – For ¡conferences ¡we ¡o?en ¡pracBce ¡a ¡talk ¡over ¡10 ¡Bmes ¡with ¡a ¡ student ¡
¡ More ¡Ops: ¡hDp://www.rogerdarlington.me.uk/PresentaOon.html ¡
SLIDE 42 Assignment ¡
- All ¡students ¡presen6ng ¡on ¡the ¡same ¡day ¡have ¡to ¡prepare ¡an ¡
assignment ¡together ¡(i.e., ¡assigners) ¡
- An ¡assignment ¡contains ¡three ¡pieces, ¡which ¡have ¡to ¡be ¡handed ¡in ¡
upfront ¡
– The ¡assignment ¡sheet ¡and ¡all ¡resources ¡ – The ¡soluOon ¡sheet ¡ – The ¡grading ¡scheme ¡
- The ¡assignment ¡should ¡take ¡1-‑6h ¡to ¡do ¡(the ¡avg ¡should ¡be ¡closer ¡to ¡
1) ¡
- The ¡content ¡is ¡up ¡to ¡you ¡as ¡well ¡as ¡the ¡division ¡of ¡work ¡
– You ¡can ¡use ¡a ¡classic ¡handwriDen ¡assignment ¡or ¡online ¡system ¡ – You ¡can ¡make ¡it ¡hands-‑on ¡(e.g., ¡we ¡have ¡EC2 ¡credits) ¡ – …. ¡
- You ¡will ¡receive ¡feedback ¡from ¡us ¡on ¡the ¡assignment ¡before ¡it ¡is ¡
posted ¡
- All ¡other ¡students ¡(i.e., ¡assignees) ¡ ¡have ¡to ¡do ¡the ¡assignment ¡
- Be ¡fair ¡to ¡everybody ¡(no ¡pos6ng ¡of ¡the ¡solu6on) ¡à
à ¡We ¡will ¡test ¡ for ¡chea6ng/plagiarism ¡and ¡we ¡apply ¡a ¡no ¡tolerance ¡policy ¡
SLIDE 43 Assignment ¡Grading ¡ ¡ (assigners ¡and ¡assignee) ¡
1) ¡Clearness ¡& ¡CreaOvity ¡ ¡ 2) ¡Usefulness ¡ 3) ¡Grading ¡(fairness, ¡feedback,…) ¡ 33% ¡ 33% ¡ 33% ¡
- Every ¡assignment ¡is ¡graded ¡by ¡the ¡assigners ¡
- Every ¡assignment ¡is ¡evaluated ¡using ¡a ¡survey ¡by ¡the ¡assignees ¡
- For ¡the ¡assigners, ¡the ¡grade ¡is ¡determined ¡by ¡me ¡ ¡
- For ¡the ¡assignees, ¡the ¡grade ¡by ¡the ¡assigners ¡ ¡“only” ¡impacts ¡ ¡
the ¡parOcipaOon ¡grade ¡
Assigners ¡grading ¡scheme ¡
SLIDE 44 ¡ Week ¡+4 ¡ ¡ Week ¡+3 ¡ ¡ Week ¡+1 ¡ ¡ Week ¡+2 ¡ ¡ Week ¡0 ¡ ¡ week ¡-‑1 ¡
Topic ¡Unit ¡/ ¡Assignment ¡Schedule ¡
Topic ¡ ¡ Presenta6on ¡
Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡
Hand-‑in ¡slides ¡ & ¡outline ¡for ¡ assignment ¡for ¡ feedback ¡ Hand-‑in ¡ assignment ¡ Pos6ng ¡ Assignment ¡ Feedback ¡on ¡slides ¡& ¡ assignment ¡outline ¡ ¡ before ¡or ¡a~er ¡class ¡ Feedback ¡on ¡assignment ¡ ¡ before ¡or ¡a~er ¡class ¡
Sa ¡ Su ¡Mo ¡Tu ¡We ¡Th ¡ Fr ¡ Sa ¡ Su ¡Mo ¡Tu ¡We ¡
…. ¡
Th ¡ Fr ¡
Assignment ¡ Due ¡ Grading ¡ Due ¡
Schedule ¡will ¡vary ¡ (especially ¡at ¡the ¡ end ¡of ¡the ¡semester) ¡
We ¡Th ¡ Fr ¡
SLIDE 45 Assignment ¡Tips ¡
- Make ¡the ¡assignment ¡pracOcal ¡ ¡
- Avoid ¡mulOple ¡choice ¡
- Very ¡important: ¡test ¡the ¡assignment ¡internally ¡in ¡
your ¡group ¡in ¡regard ¡to ¡clarity ¡and ¡Ome ¡
- Try ¡to ¡simplify ¡the ¡grading ¡process ¡e.g., ¡write ¡auto-‑
grading ¡scripts) ¡
- Be ¡creaOve! ¡
- We ¡have ¡some ¡resources ¡for ¡student ¡assignments ¡available ¡
(e.g., ¡EC2 ¡credit, ¡Mechanical ¡Turk ¡credit,…) ¡
– SVM ¡Topic: ¡Provide ¡some ¡data ¡set ¡and ¡let ¡them ¡build ¡a ¡classifier ¡ in ¡R ¡ – Hadoop ¡Topic: ¡Ask ¡to ¡translate ¡a ¡given ¡algorithm ¡into ¡a ¡map/ reduce ¡program. ¡Let ¡the ¡student ¡run ¡a ¡simple ¡word-‑count ¡ example ¡on ¡some ¡data-‑set ¡on ¡the ¡Amazon ¡Cloud. ¡ ¡
SLIDE 46 Projects ¡
- 40% ¡of ¡the ¡final ¡grade ¡
- Topic ¡of ¡your ¡choice ¡(of ¡course, ¡Data ¡Science ¡related) ¡
- Scope: ¡short ¡or ¡demo-‑paper ¡at ¡a ¡top-‑6er ¡conference ¡
- Projects ¡will ¡vary ¡greatly ¡in ¡both ¡scope ¡and ¡topic ¡
- Group ¡size ¡of ¡1-‑4 ¡ ¡
- Deliverables ¡
– Project ¡proposal ¡presentaOon ¡ ¡(10%) ¡ – Milestone ¡presentaOon ¡(10%) ¡ – Final ¡presentaOon/demo ¡(40%) ¡ – Final ¡6-‑8 ¡page ¡short ¡paper ¡using ¡the ¡SIGMOD ¡style ¡(40%) ¡ hDp://www.acm.org/sigs/publicaOons/proceedings-‑templates ¡
- You ¡will ¡get ¡out ¡of ¡this ¡course ¡what ¡you ¡put ¡in ¡
– Coming ¡up ¡with ¡a ¡well-‑scoped ¡project ¡is ¡in ¡your ¡interest ¡
– Pick ¡something ¡you ¡are ¡excited ¡about ¡
A ¡list ¡of ¡possible ¡projects ¡can ¡be ¡found ¡on ¡the ¡course ¡web-‑page ¡ hDp://cs.brown.edu/courses/cs195w ¡ ¡
SLIDE 47 Late ¡Penalty ¡
1 ¡Day ¡ 2 ¡Days ¡ >3 ¡Days ¡ ¡ ¡ ¡ ¡ ¡ ¡
10% ¡ 20% ¡ 30-‑100% ¡
SLIDE 48 Important ¡
- You ¡can ¡use ¡informa6on ¡and ¡content ¡(e.g., ¡
images ¡and ¡graphics) ¡found ¡on ¡the ¡Internet ¡
but ¡the ¡original ¡source ¡must ¡be ¡properly ¡ aDributed/cited. ¡No ¡credit ¡will ¡be ¡given ¡for ¡
presenta6ons ¡without ¡proper ¡cita6ons. ¡
- It ¡is ¡NOT ¡OK, ¡to ¡copy ¡exis6ng ¡presenta6ons ¡or ¡
assignments ¡and ¡will ¡result ¡in ¡no ¡credit. ¡Instead, ¡
(re-‑)invent ¡your ¡own ¡lecture, ¡for ¡example, ¡by ¡ using ¡your ¡own ¡examples, ¡structure, ¡etc. ¡ ¡
SLIDE 49 Next ¡Steps ¡
- Build ¡your ¡team ¡
- Sign ¡up: ¡hDp://cs.brown.edu/courses/cs195w/form.html ¡
- Think ¡about ¡your ¡project ¡
- Read/Watch: ¡ ¡
– Alon ¡Halevy, ¡Peter ¡Norvig, ¡and ¡Fernando ¡Pereira: ¡The ¡ Unreasonable ¡EffecOveness ¡of ¡Data ¡ – hDp://www.ted.com/talks/view/lang/en//id/788 ¡ – hDp://www.ted.com/talks/ david_mccandless_the_beauty_of_data_visualizaOon.html ¡ – hDp://www.ted.com/talks/ gary_flake_is_pivot_a_turning_point_for_web_exploraOon.ht ml ¡ – Xindong ¡Wu ¡et ¡al.: ¡Top ¡10 ¡algorithms ¡in ¡data ¡mining, ¡ Knowledge ¡and ¡InformaOon ¡Systems, ¡Volume ¡14, ¡Issue ¡1, ¡ 2008 ¡ ¡
SLIDE 50 Data ¡Systems ¡Read ¡
Every ¡Wednesday ¡at ¡noon ¡