Is a social network users behavior unique? 2 1 8/9/14 Has - - PDF document

is a social network user s behavior unique
SMART_READER_LITE
LIVE PREVIEW

Is a social network users behavior unique? 2 1 8/9/14 Has - - PDF document

8/9/14 Social Fingerprinting: Identifying Users of Social Networks by their Data Footprint The University of Tennessee Electrical Engineering and Computer Science Dissertation Defense Denise Koessler Gosnell Is a social network


slide-1
SLIDE 1

8/9/14 ¡ 1 ¡

Social Fingerprinting:

Identifying Users of Social Networks by their Data Footprint

The University of Tennessee Electrical Engineering and Computer Science Dissertation Defense Denise Koessler Gosnell

Is a social network user’s behavior unique?

2

slide-2
SLIDE 2

8/9/14 ¡ 2 ¡

Has social data made anonymity impossible?

87% ¡ 96% ¡

U.S. ¡adults’ ¡loca4on ¡ is ¡known ¡via ¡their ¡ mobile ¡phone ¡

MIT ¡T.R. ¡

U.S. ¡young ¡adults ¡ carry ¡their ¡phone ¡ wherever ¡they ¡go ¡

AT&T ¡

3

Outline:

  • 1. Define and Motivate
  • 2. Model and Software
  • 3. Individual Printing Algorithm
  • 4. Community Printing Algorithm
  • 5. Conclusions

4

slide-3
SLIDE 3

8/9/14 ¡ 3 ¡

A Social Fingerprint

Social ¡Network ¡User ¡A ¡ Social ¡Network ¡User ¡B ¡

5

Why is this hard?

6

slide-4
SLIDE 4

8/9/14 ¡ 4 ¡

?? ¡

Why is this hard?

7

Previous Work

INDUSTRY

§ IBM Watson SMSim § Topology Statistics § Private Companies § …?

ACADEMIA

§ Bounds of Human Privacy, MIT § SNAP Project, Stanford § Graph Modeling Libraries § Simulated topologies and statistics

8

slide-5
SLIDE 5

8/9/14 ¡ 5 ¡

The Model

§ Connectivity? § Time? § Multiple Edges? § Empirical Data vs. Assumptions?

9

The Model

Build ¡network ¡ Node ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Simulate ¡Weight ¡

10

slide-6
SLIDE 6

8/9/14 ¡ 6 ¡

Scale-free Distribution

11

The Base Model

Random ¡Graph ¡ Scale-­‑Free ¡Graph ¡ Hierarchical ¡Graph ¡

12

slide-7
SLIDE 7

8/9/14 ¡ 7 ¡

Multiple Edges

13

Dynamic Edges

​𝐻↓1 ¡ ​𝐻↓2 ¡ ​𝐻↓3 ¡

14

slide-8
SLIDE 8

8/9/14 ¡ 8 ¡

Simulating Edge Weights

15

Maximal Diffusion Algorithm

16

slide-9
SLIDE 9

8/9/14 ¡ 9 ¡

Maximal Diffusion Algorithm

17

Maximal Diffusion Algorithm

18

slide-10
SLIDE 10

8/9/14 ¡ 10 ¡

SOcial Fingerprint Analysis Software (SOFAS)

SOFAS ¡ Ini4alize ¡ Build ¡network ¡ Translate ¡network ¡ Apply ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Fingerprint ¡Users ¡

19

SOFAS: Phases 1 & 2

SOFAS ¡ Ini4alize ¡ Build ¡network ¡ Translate ¡network ¡ Apply ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Fingerprint ¡Users ¡

20

slide-11
SLIDE 11

8/9/14 ¡ 11 ¡

SOFAS: Phases 3 and 4

SOFAS ¡ Ini4alize ¡ Build ¡network ¡ Translate ¡network ¡ Apply ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Fingerprint ¡Users ¡

21

SOFAS: Phase 5

SOFAS ¡ Ini4alize ¡ Build ¡network ¡ Translate ¡network ¡ Apply ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Fingerprint ¡Users ¡

22

slide-12
SLIDE 12

8/9/14 ¡ 12 ¡

SOFAS: Memory Performance

23

SOFAS: Time

24

slide-13
SLIDE 13

8/9/14 ¡ 13 ¡

SOFAS: Diffusion Time

25

SOFAS: Distribution Error

26

slide-14
SLIDE 14

8/9/14 ¡ 14 ¡

Scale-free Distribution

27

SOFAS: Distribution Error

28

slide-15
SLIDE 15

8/9/14 ¡ 15 ¡

Social Fingerprinting: Identifying the Individual

29

The Theory

30

slide-16
SLIDE 16

8/9/14 ¡ 16 ¡

The Theory

31

The Theory

32

slide-17
SLIDE 17

8/9/14 ¡ 17 ¡

Social Fingerprint Procedure:

  • 1. For each person, construct a

neighborhood graph

  • 2. Given the neighborhood graph,

determine candidate prints

  • 3. Rank the prints
  • 4. Evaluate

33

Print Construction

34

slide-18
SLIDE 18

8/9/14 ¡ 18 ¡

Print Construction

Training ¡Data ¡ Tes4ng ¡Data ¡

35

Intersection Score

36

slide-19
SLIDE 19

8/9/14 ¡ 19 ¡

Subgraph Matching

37

All Ranking Functions

Node Based

§ Intersection § Graph Matching § Hamming Distance

Edge Based

§ Absolute Difference § Percent Difference § Euclidean Distance § Euclidean Distance, threshold based § Euclidean Distance, inverse sum

Ensemble Style

§ BCS § Olympic Score

38

slide-20
SLIDE 20

8/9/14 ¡ 20 ¡

Graph Prints: Test Cases

§ Number of People: 1K, 10K, 100K § Length of time: 6 § Attrition on relationships: varies § Training/Testing Split: varies § Model Types: Binary and Weighted § Total trials: 57,000 example graphs

39

Validation of Approach

A7ri8on ¡of ¡rela8onships ¡ Correct ¡Construc8ons ¡

40

slide-21
SLIDE 21

8/9/14 ¡ 21 ¡

Ranking Function Performance

A7ri8on ¡of ¡rela8onships ¡ Correct ¡Iden8fica8ons ¡

41

Best of the Best

42

slide-22
SLIDE 22

8/9/14 ¡ 22 ¡

Social Fingerprinting: Picking the individual out of crowd

43

What does this look like?

44

slide-23
SLIDE 23

8/9/14 ¡ 23 ¡

Social Fingerprint Procedure:

  • 1. Construct matrix A and query vector(s)
  • 2. Semidiscrete Decomposition of matrix A

to yield rank-k approximation

  • 3. Compute new query vectors
  • 4. Rank the vectors w.r.t. cosine similarity
  • 5. Evaluate

45

Construction:

0 ¡ 2 ¡ 3 ¡ 4 ¡ 1 ¡

Time ¡t ¡

46

slide-24
SLIDE 24

8/9/14 ¡ 24 ¡

Construction:

0 ¡ 2 ¡ 3 ¡ 4 ¡ 1 ¡

Time ¡t ¡

47

Construction: Query Vectors

0 ¡ 2 ¡ 3 ¡ 4 ¡ 1 ¡

Time ¡t ¡+ ¡1 ¡

48

slide-25
SLIDE 25

8/9/14 ¡ 25 ¡

Semidiscrete Decomposition (SDD)

[Kolda and O’Leary 1998]

49

V[0] V[1] V[2] V[3] V[4]

q[0]

0.8467 0.8467

0.5319

q[1]

0.0704

0.9859 0.9859

0.9859 0.1516 0.9859

q[2]

0.2095

0.9778 0.9778 0.9778 0.9778 0.9778 0.9778

q[3]

0.2454

0.9693 0.9693

q[4]

0.1414

0.9899 0.9899 0.9899 0.9899 0.9899 0.9899

Validation: qt+1[j]*V(t)[i]

50

slide-26
SLIDE 26

8/9/14 ¡ 26 ¡

SDD: Test Cases

§ Number of People: 100, 500 or 1,000 § Length of time: 12 § Attrition on relationships: 37% § Low Rank Approximation rank: varies § Training/Testing Split: varies § Total trials: 84,000

51

Binary Model Results

52

slide-27
SLIDE 27

8/9/14 ¡ 27 ¡

Weighted Model Results

53

Binary vs Weighted Model Error

54

slide-28
SLIDE 28

8/9/14 ¡ 28 ¡

SDD: Case Study

§ Number of People: 100 § Length of time: 12 § Attrition on relationships: 37% § Low Rank Approximation rank: 75% § Training/Testing Split: 50/50

55

SDD: Case Study Results

§ Binary Model Accuracy: 81% § Weighted Model Accuracy: 27% WM: ¡Incorrect ¡ WM: ¡Correct ¡ BM: ¡Incorrect ¡ 12 ¡ 7 ¡ BM: ¡Correct ¡ 61 ¡ 20 ¡

56

slide-29
SLIDE 29

8/9/14 ¡ 29 ¡

Model Insights

Binary ¡Model ¡ ¡ Similarity ¡Matrix ¡ Weighted ¡Model ¡ ¡ Similarity ¡Matrix ¡

57

Accomplishments and Contributions

§ Introduced a novel problem § Created and released a modeling environment: SOFAS § Modeled and defined first approaches for social fingerprint identification

58

slide-30
SLIDE 30

8/9/14 ¡ 30 ¡

Open Research

§ New models for social fingerprint detection § Additional features and graph statistics of the SOFA software § Fingerprint Evasion

59

Acknowledgements

  • Dr. Michael Berry
  • Dr. Judy Day
  • Dr. Jens Gregor
  • Dr. Bruce MacLennan

60

slide-31
SLIDE 31

8/9/14 ¡ 31 ¡

Social Fingerprinting:

Identifying Users of Social Networks by their Data Footprint

The University of Tennessee College of Engineering Dissertation Defense

  • Dr. Denise Koessler Gosnell, PhD Computer Science

(Nerdery)