Da Data ¡ ¡Mini ning ng ¡ ¡and ¡ nd ¡ Da Data ¡ ¡Scienc nce
- Dr. ¡Laura ¡E. ¡Brown
Rekhi 307 CS ¡1000 10/6/15
Da Data Mini ning ng and nd Da Data Scienc nce - - PowerPoint PPT Presentation
Da Data Mini ning ng and nd Da Data Scienc nce Dr. Laura E. Brown Rekhi 307 CS 1000 10/6/15 My Background 2 My Background 3 My Background Engineering Pre-Med 4 My
Rekhi 307 CS ¡1000 10/6/15
2
3
Engineering Pre-‑Med
4
Engineering Computer ¡Science
B.S. ¡in ¡Engineering ¡with ¡ Concentration ¡ in ¡Computer ¡ Science
5
6
Intelligence
M.S.E ¡in ¡Computer ¡Science
7
8
Research ¡Focus:
Smoking Yellow Fingers Medicine ¡Y Protein Level ¡X Lung Cancer Fatigue Tumor Reduction
Ph.D in ¡Biomedical ¡Informatics
9
Artificial ¡Intelligence
domains
Predict ¡Length ¡of ¡Survival ¡in ¡ Oncology ¡Patients
10
Artificial ¡Intelligence
domains
Model ¡Cross-‑Architecture ¡Co-‑tenancy ¡Performance ¡Interference
11
Artificial ¡Intelligence
domains
Distributed ¡Management ¡ Of ¡Microgrids
12
Artificial ¡Intelligence
domains
Tool
Work ¡with ¡~8 ¡undergraduate ¡ and ¡graduate ¡students
13
14
15
16
Growing ¡by ¡a ¡ factor ¡of ¡44 2009 0.8 ¡Zb 2020 35.2 ¡Zettabytes
Source: ¡IDC ¡Digital ¡Universe ¡Study, ¡sponsored ¡by ¡EMC, ¡May, ¡2010
Real-‑time ¡data ¡and ¡new ¡kinds ¡of ¡data, ¡coupled ¡ with ¡unprecedented ¡processing ¡power, ¡present ¡ new ¡and ¡unique ¡challenges
17
1 2 3 4 1. http://www.flickr.com/photos/gsfc/7651367068/in/photostream/ 2. http://www.flickr.com/photos/quirky/451275880/ 3. http://visualonline.cancer.gov/details.cfm?imageid=1849 4. http://www.flickr.com/photos/climatesafety/4456630071/ Slide ¡adapted ¡from ¡Tan, ¡Steinbach, ¡Kumar
18
19
20
from ¡massive ¡observational ¡data ¡sets”
unknown ¡and ¡potentially ¡useful ¡information ¡ from ¡data”
semi-‑automatics ¡means, ¡of ¡large ¡quantities ¡of ¡ data ¡in ¡order ¡to ¡discover ¡meaningful ¡patterns”
21
22
Data ¡ Science
23
24
25
find ¡useful ¡information
always ¡lead ¡to ¡better ¡results
26
27
28
29
Wichita, ¡Kansas
Boston ¡
30
Muhamed, ¡ Watts, ¡’03]
path ¡length ¡of ¡7
31
NE MA
[Leskovec ¡and ¡Horvitz, ¡‘08]
people
32
[Backstrom, ¡et ¡al. ¡‘11]
33
shortest ¡path) ¡to ¡Kevin ¡Bacon
34
35
path ¡to ¡Paul ¡Erdös
publications
36
37
38
9/30/2013 Jure Leskovec, Stanford CS224W: Social and Information Network Analysis, http://cs224w.stanford.edu 25
Erdös numbers are small!
39
40
http://exposedata.com/marvel/
41
http://exposedata.com/marvel/
42
http://ilovecharts.tumblr.com/post/31399294544/marvel-‑universe-‑data
43
http://i.imgur.com/bBTxU.png
44
people ¡
matches
45
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
divorcing ¡couples
couples
46
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
47
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
with ¡compatibility ¡scores ¡between ¡1 ¡and ¡5
1 3 4 5 2 5 3 1 2
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
48
compatibility?
1 3 4 5 2 5 3 1 2
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
49
max w11x11 + w12x12 + w13x13 + w21x21 +…+ w33x33 subject to: x11+ x12+x13 = 1 x21+ x22+x23 = 1 x31+ x32+x33 = 1 x11+ x21+x31 = 1 x12+ x22+x32 = 1 x13+ x23+x33 = 1 x11, x21, x31, x12, x22, x32, x13, x23, x33 are binary
Match every man with exactly one woman Match every woman with exactly one man
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
Make ¡exactly ¡one ¡match Make ¡exactly ¡one ¡match
50
matching ¡system
51
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
matching ¡system
52
Slide ¡adapted ¡from ¡Bertsimas ¡& ¡O’Hair ¡
http://www.wired.com/2014/01/how-‑to-‑hack-‑okcupid/
http://crockpotveggies.com/2015/02/09/automating-‑tinder-‑with-‑eigenfaces.html
53
54
http://ny.spatial.ly
http://flowingdata.com/2013/10/14/pizza-‑place-‑geography/
55
http://www.kaggle.com
56
57
http://www.infochimps.com/marketplace
58
59
60
61