http://cs224w.stanford.edu Stanford Social Web (ca. 1999) - - PowerPoint PPT Presentation

http cs224w stanford edu stanford social web ca 1999
SMART_READER_LITE
LIVE PREVIEW

http://cs224w.stanford.edu Stanford Social Web (ca. 1999) - - PowerPoint PPT Presentation

CS224W: Social and Information Network Analysis Lada Adamic http://cs224w.stanford.edu Stanford Social Web (ca. 1999) network of personal homepages at Stanford


slide-1
SLIDE 1

CS224W: ¡Social ¡and ¡Information ¡Network ¡Analysis ¡ Lada ¡Adamic ¡

http://cs224w.stanford.edu ¡

slide-2
SLIDE 2
slide-3
SLIDE 3
slide-4
SLIDE 4
slide-5
SLIDE 5
slide-6
SLIDE 6

Stanford ¡Social ¡Web ¡(ca. ¡1999) ¡ network ¡of ¡personal ¡homepages ¡at ¡Stanford ¡

slide-7
SLIDE 7

Y X Y X Y X Y X

indegree In each of the following networks, X has higher centrality than Y according to a particular measure

  • utdegree

betweenness closeness

different ¡notions ¡of ¡centrality ¡

slide-8
SLIDE 8

Y X

review: ¡indegree ¡

slide-9
SLIDE 9

trade ¡in ¡petroleum ¡and ¡ petroleum ¡products, ¡1998, ¡ source: ¡NBER-­‑United ¡ Nations ¡Trade ¡Data ¡

slide-10
SLIDE 10

¡ ¡Which ¡countries ¡have ¡high ¡indegree ¡(import ¡

petroleum ¡and ¡petroleum ¡products ¡from ¡ many ¡others) ¡

§ Saudi ¡Arabia ¡ § Japan ¡ § Iraq ¡ § USA ¡ § Venezuela ¡

slide-11
SLIDE 11

review: ¡outdegree ¡

Y X

slide-12
SLIDE 12

Angola Nigeria Canada USA Mexico Japan Iran Iraq Kuwait Oman Saudi Arabia Untd Arab Em China HK SAR Korea Rep. Malaysia Singapore Thailand China Belgium-Lux France,Monac Germany Italy Netherlands Spain UK Sweden Russian Fed Australia Indonesia Poland Algeria Libya India South Africa Venezuela Colombia Norway Gabon Qatar Taiwan

trade ¡in ¡petroleum ¡and ¡ petroleum ¡products, ¡1998, ¡ source: ¡NBER-­‑United ¡ Nations ¡Trade ¡Data ¡

slide-13
SLIDE 13

¡ ¡Which ¡country ¡has ¡low ¡outdegree ¡but ¡exports ¡a ¡

significant ¡quanDty ¡(thickness ¡of ¡the ¡edges ¡ represents ¡$$ ¡value ¡of ¡export) ¡of ¡petroleum ¡ products ¡

§ Saudi ¡Arabia ¡ § Japan ¡ § Iraq ¡ § USA ¡ § Venezuela ¡

Angola Nigeria Canada USA Mexico Japan Iran Iraq Kuwait Oman Saudi Arabia Untd Arab Em China HK SAR Korea Rep. Malaysia Singapore Thailand China Belgium-Lux France,Monac Germany Italy Netherlands Spain UK Sweden Russian Fed Australia Indonesia Poland Algeria Libya India South Africa Venezuela Colombia Norway Gabon Qatar Taiwan

slide-14
SLIDE 14

Korea Rep. Uruguay Switz.Liecht Sri Lanka Gibraltar Armenia Ireland Portugal Nicaragua Ghana Morocco Brazil Paraguay El Salvador Slovenia Cuba Bulgaria Dominican Rp Barbados Bermuda Belarus Mauritania Philippines Korea D P Rp Burkina Faso Uzbekistan Myanmar Costa Rica TFYR Macedna Sudan Senegal

Mongolia

Angola

Nigeria

Mexico

Iran

Iraq

Kuwait

Oman

Saudi Arabia

Untd Arab Em

Turkey

UK

Lithuania

Russian Fed

Libya

Venezuela

Algeria

South Africa Cote Divoire

USA

Colombia

Ecuador

Bahamas Panama

Syria

Denmark

Netherlands

Finland

Norway

Sweden

Egypt

Cameroon

Gabon

Dem.Rp.Congo

Canada

Argentina

Bolivia Chile

Peru

Guatemala

Trinidad Tbg

Yemen

Afghanistan

Indonesia

Malaysia

Singapore

China

Viet Nam

Estonia

Australia

Papua N.Guin

Kazakhstan

Italy Spain

Qatar

New Zealand Pakistan Tunisia Georgia Thailand Guinea Liberia Niger Japan India Taiwan Ukraine Germany Greece France,Monac Austria Israel Hungary Benin Azerbaijan Belgium-Lux Malta

Latvia

Jamaica Poland Czech Rep Yugoslavia Cyprus Romania Slovakia Croatia

trade ¡in ¡crude ¡petroleum ¡ and ¡petroleum ¡products, ¡ 1998, ¡source: ¡NBER-­‑United ¡ Nations ¡Trade ¡Data ¡

slide-15
SLIDE 15

Undirected degree, e.g. nodes with more friends are more central. Assumption: the connections that your friend has don't matter, it is what they can do directly that does (e.g. go have a beer with you, help you build a deck...)

putting ¡numbers ¡to ¡it ¡

slide-16
SLIDE 16

divide degree by the max. possible, i.e. (N-1)

normalization ¡

slide-17
SLIDE 17

Freeman’s general formula for centralization (can use other metrics, e.g. gini coefficient or standard deviation):

CD = CD(n*) − CD(i)

[ ]

i=1 g

[(N −1)(N − 2)]

How much variation is there in the centrality scores among the nodes?

maximum value in the network

centralization: ¡skew ¡in ¡distribution ¡

slide-18
SLIDE 18

CD = 0.167 CD = 0.167 CD = 1.0

degree ¡centralization ¡examples ¡

slide-19
SLIDE 19

example financial trading networks

high in-centralization:

  • ne node buying from

many others low in-centralization: buying is more evenly distributed

real-­‑world ¡examples ¡

slide-20
SLIDE 20

In what ways does degree fail to capture centrality in the following graphs?

slide-21
SLIDE 21

Stanford ¡Social ¡Web ¡(ca. ¡1999) ¡ network ¡of ¡personal ¡homepages ¡at ¡Stanford ¡

slide-22
SLIDE 22

Y X

slide-23
SLIDE 23
slide-24
SLIDE 24
slide-25
SLIDE 25

¡ intuition: how many pairs of individuals

would have to go through you in order to reach one another in the minimum number of hops?

Y X

slide-26
SLIDE 26

CB(i) = g jk(i)/g jk

j<k

Where gjk = the number of shortest paths connecting jk gjk(i) = the number that actor i is on. Usually normalized by:

CB

' (i) = CB(i )/[(n −1)(n − 2)/2]

number of pairs of vertices excluding the vertex itself

Betweenness: ¡definition ¡

slide-27
SLIDE 27

¡ non-normalized version:

slide-28
SLIDE 28

¡ non-normalized version:

A B C E D

n A lies between no two other vertices n B lies between A and 3 other vertices: C, D, and E n C lies between 4 pairs of vertices (A,D),(A,E),(B,D),(B,E) n note that there are no alternate paths for these pairs to

take, so C gets full credit

slide-29
SLIDE 29

¡ non-normalized version:

slide-30
SLIDE 30

¡ non-normalized version:

A B C E D

n why do C and D each have

betweenness 1?

n They are both on shortest

paths for pairs (A,E), and (B,E), and so must share credit:

n ½+½ = 1

slide-31
SLIDE 31

¡ What ¡is ¡the ¡betweenness ¡of ¡node ¡E? ¡

E

slide-32
SLIDE 32

Lada’s old Facebook network: nodes are sized by degree, and colored by betweenness.

betweenness: ¡example ¡

slide-33
SLIDE 33

Q: ¡high ¡betweenness, ¡low ¡degree ¡

¤ Find a node that has high betweenness but low degree

slide-34
SLIDE 34

Q: ¡low ¡betweenness, ¡high ¡degree ¡

¤ Find a node that has low betweenness but high degree

slide-35
SLIDE 35

¡ What if it’s not so important to have many

direct friends?

¡ Or be “between” others ¡ But one still wants to be in the “middle” of

things, not too far from the center

slide-36
SLIDE 36

need ¡not ¡be ¡in ¡a ¡brokerage ¡position ¡

Y X Y X Y X

slide-37
SLIDE 37

Closeness is based on the length of the average shortest path between a node and all other nodes in the network

Cc(i) = d(i, j)

j=1 N

# $ % % & ' ( (

−1

CC

' (i) = (CC(i))/(N −1)

Closeness Centrality: Normalized Closeness Centrality

closeness: ¡definition ¡

slide-38
SLIDE 38

Cc

' (A) =

d(A, j)

j=1 N

N −1 # $ % % % % & ' ( ( ( (

−1

= 1+ 2 +3+ 4 4 # $ % & ' (

−1

= 10 4 # $ % & ' (

−1

= 0.4

A B C E D

Closeness: ¡toy ¡example ¡

slide-39
SLIDE 39

Closeness: ¡more ¡toy ¡examples ¡

slide-40
SLIDE 40

Q:high ¡degree, ¡low ¡closeness ¡

Which ¡node ¡has ¡ relatively ¡high ¡degree ¡ but ¡low ¡closeness? ¡

slide-41
SLIDE 41

¡ ¡How ¡central ¡you ¡are ¡depends ¡on ¡how ¡central ¡

your ¡neighbors ¡are ¡

slide-42
SLIDE 42

c(β) =α(I − βA)−1A1

  • α is a normalization constant
  • β determines how important the centrality of your neighbors

is

  • A is the adjacency matrix (can be weighted)
  • I is the identity matrix (1s down the diagonal, 0 off-diagonal)
  • 1 is a matrix of all ones.

Bonacich ¡eigenvector ¡centrality ¡

ci(β) = (α + βcj

j

)Aji

slide-43
SLIDE 43

small β è ¡high ¡attenuation ¡ ¡only ¡your ¡immediate ¡friends ¡matter, ¡and ¡their ¡ importance ¡is ¡factored ¡in ¡only ¡a ¡bit ¡ ¡ high ¡β è ¡low ¡attenuation ¡ ¡global ¡network ¡structure ¡matters ¡(your ¡friends, ¡ your ¡friends' ¡of ¡friends ¡etc.) ¡ ¡ β ¡= ¡0 ¡yields ¡simple ¡degree ¡centrality ¡

Bonacich ¡Power ¡Centrality: ¡attenuation ¡factor ¡β

ci(β) = (α + βcj

j

)Aji

slide-44
SLIDE 44

If β > 0, nodes have higher centrality when they have edges to other central nodes. If β < 0, nodes have higher centrality when they have edges to less central nodes.

Bonacich ¡Power ¡Centrality: ¡attenuation ¡factor ¡β

slide-45
SLIDE 45

β=.25 β=-.25 Why does the middle node have lower centrality than its neighbors when β is negative?

Bonacich ¡Power ¡Centrality: ¡examples

slide-46
SLIDE 46

¡ WWW ¡ food webs ¡ population dynamics ¡ influence ¡ hereditary ¡ citation ¡ transcription regulation networks ¡ neural networks

slide-47
SLIDE 47

¡ We now consider the fraction of all directed paths

between any two vertices that pass through a node

n Only ¡modification: ¡when ¡normalizing, ¡we ¡have ¡ ¡

(N-­‑1)*(N-­‑2) ¡instead ¡of ¡(N-­‑1)*(N-­‑2)/2, ¡because ¡we ¡have ¡twice ¡ as ¡many ¡ordered ¡pairs ¡as ¡unordered ¡pairs ¡

CB(i) = g jk

j,k

(i)/g jk

betweenness of vertex i paths between j and k that pass through i all paths between j and k

C

B

' (i) = C

B (i)/[(N −1)(N − 2)]

slide-48
SLIDE 48

¡ A node does not necessarily lie on a

geodesic (shortest path) from j to k if it lies

  • n a geodesic from k to j

k j

slide-49
SLIDE 49

¡ choose a direction

§ in-closeness (e.g. prestige in citation networks) § out-closeness

¡ usually consider only vertices from which the

node i in question can be reached

slide-50
SLIDE 50

¡ ¡PageRank ¡(centrality) ¡brings ¡order ¡to ¡the ¡Web: ¡

§ it's ¡not ¡just ¡the ¡pages ¡that ¡point ¡to ¡you, ¡but ¡how ¡ many ¡pages ¡point ¡to ¡those ¡pages, ¡etc. ¡ § more ¡difficult ¡to ¡arDficially ¡inflate ¡centrality ¡with ¡a ¡ recursive ¡definiDon ¡

Many webpages scattered across the web an important page, e.g. slashdot if a web page is slashdotted, it gains attention

slide-51
SLIDE 51

¡ A random walker following

edges in a network for a very long time will spend a proportion of time at each node which can be used as a measure of importance

slide-52
SLIDE 52

¡ Problem with pure random walk metric:

§ Drunk can be “trapped” and end up going in circles

slide-53
SLIDE 53

¡ Allow drunk to teleport with some probability

§ e.g. random websurfer follows links for a while, but with some probability teleports to a “random” page (bookmarked page or uses a search engine to start anew)

slide-54
SLIDE 54

1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 7 ¡ 6 ¡ 8 ¡

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 PageRank

t=0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 PageRank

t=1 20% teleportation probability

slide adapted from: Dragomir Radev

slide-55
SLIDE 55

1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 7 ¡ 6 ¡ 8 ¡

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 PageRank

t=0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 PageRank

t=1

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 PageRank

t=10

slide from: Dragomir Radev

slide-56
SLIDE 56

GUESS PageRank demo

¡ What happens to the

relative PageRank scores of the nodes as you increase the teleportation probability (decrease the damping factor)?

§ they equalize § they diverge § they are unchanged

PageRank.nlogo ¡part ¡of ¡the ¡built-­‑in ¡suite ¡of ¡network ¡models ¡for ¡NetLogo ¡

slide-57
SLIDE 57

¡ Centrality

§ many measures: degree, betweenness, closeness, eigenvector § may be unevenly distributed

§ measure via distributions and centralization

§ in directed networks

§ indegree, outdegree, PageRank

§ consequences:

§ benefits & risks (Baker & Faulkner) § information flow & productivity (Aral & Van Alstyne)

slide-58
SLIDE 58

(Dme ¡permiSng) ¡

9/23/15 ¡ 58 ¡ Jure ¡Leskovec ¡and ¡Lada ¡Adamic, ¡Stanford ¡CS224W: ¡Social ¡and ¡InformaDon ¡Network ¡Analysis ¡

slide-59
SLIDE 59

59 ¡

slide-60
SLIDE 60

60 ¡

slide-61
SLIDE 61

¡ The Response Time Gap

49 39 N =

ExpertiseRating

low high

WAITTIME(min)

10000 9000 8000 7000 6000 5000 4000 3000 2000 1000

69 96 41
  • ¡The ¡Expertise ¡Gap ¡ ¡
  • ¡Difficult ¡to ¡infer ¡reliability ¡of ¡answers ¡

¡ ¡ ¡Automatically ¡ranking ¡expertise ¡may ¡be ¡helpful. ¡

Zhang, ¡Ackerman, ¡Adamic, ¡WWW’07 ¡

slide-62
SLIDE 62

¡ 87 sub-forums ¡ 1,438,053

messages

¡ community

expertise network constructed:

§ 196,191 users § 796,270 edges

slide-63
SLIDE 63

A B C

Thread 1 Thread 2

Thread ¡1: ¡Large ¡Data, ¡binary ¡search ¡or ¡hashtable? ¡user ¡A ¡ ¡Re: ¡Large... ¡user ¡B ¡ ¡Re: ¡Large... ¡user ¡C ¡ Thread ¡2: ¡Binary ¡file ¡with ¡ASCII ¡data ¡user ¡A ¡ ¡Re: ¡File ¡with... ¡user ¡C ¡ ¡ ¡ A B C

1 1

A B C

1 2

A B C 1/2 1+1//2 A B C

0.9 0.1

unweighted weighted by # threads weighted by shared credit weighted with backflow

slide-64
SLIDE 64

10 ¡

0 ¡

10 ¡

1 ¡

10 ¡

2 ¡

10 ¡

3 ¡

10 ¡

  • 4 ¡

10 ¡

  • 3 ¡

10 ¡

  • 2 ¡

10 ¡

  • 1 ¡

10 ¡

0 ¡

degree (k) ¡ cumulative probability ¡

¡ ¡

¡

α ¡

= 1.87 fit, R ¡2 ¡ = 0.9730 ¡

number of people

  • ne received

replies from number of people one replied to

§ ‘answer people’ may reply to thousands

  • f others

§ ‘question people’ are also uneven in the number of repliers to their posts, but to a lesser extent

slide-65
SLIDE 65
  • Core: A strongly connected component, in which everyone asks and answers
  • IN: Mostly askers.
  • OUT: Mostly Helpers

The ¡Web ¡is ¡a ¡bow ¡tie ¡ The ¡Java ¡Forum ¡network ¡is ¡ ¡ an ¡uneven ¡bow ¡tie ¡ ¡ ¡

slide-66
SLIDE 66
slide-67
SLIDE 67

¡ Human-rated expertise levels

§ 2 raters § 135 JavaForum users with >= 10 posts § inter-rater agreement (τ = 0.74, ρ = 0.83) § for evaluation of algorithms, omit users where raters disagreed by more than 1 level (τ = 0.80, ρ = 0.83)

L Category Description 5 Top Java expert Knows the core Java theory and related advanced topics deeply. 4 Java professional Can answer all or most of Java concept

  • questions. Also knows one or some sub topics

very well, 3 Java user Knows advanced Java concepts. Can program relatively well. 2 Java learner Knows basic concepts and can program, but is not good at advanced topics of Java. 1 Newbie Just starting to learn java.

slide-68
SLIDE 68

simple ¡local ¡measures ¡do ¡as ¡well ¡(and ¡better) ¡than ¡measures ¡incorporating ¡the ¡ wider ¡network ¡topology ¡

¡

Top K Kendall’s τ Spearman’s ρ

# answers z-score # answers indegree z-score indegree PageRank HITS authority

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

slide-69
SLIDE 69 10 12 16 17 18 19 20 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of PRANK 160 140 120 100 80 60 40 20
  • 20
92 81 5 68 1 10 12 16 17 18 19 20 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of REPLY 140 120 100 80 60 40 20
  • 20
40 101 10 12 16 17 18 19 20 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of ZTHREADS 160 140 120 100 80 60 40 20
  • 20
40 101 1 10 12 11 17 17 19 17 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of HITS_AUT 140 120 100 80 60 40 20
  • 20
33

# answers

human rating automated ranking

10 12 16 17 18 19 20 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of INDGR 160 140 120 100 80 60 40 20
  • 20
40 101 10 12 11 17 17 19 17 19 2 N = LEVCOM 10 9 8 7 6 5 4 3 2 RANK of ZDGR 140 120 100 80 60 40 20
  • 20
106 104

z # answers HITS authority indegree z indegree PageRank

slide-70
SLIDE 70

Control Parameters:

n Distribution of

expertise

n Who asks questions

most often?

n Who answers

questions most often?

n best expert most likely n someone a bit more

expert ExpertiseNet Simulator

slide-71
SLIDE 71

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

suppose: expertise is uniformly distributed probability of posing a question is inversely proportional to expertise pij = probability a user with expertise j replies to a user with expertise i 2 models: ‘best’ preferred ‘just better’ preferred

i e p

i j ij

/ ~

) ( − β

i e p

j i ij

/ ~

) ( − γ

j>i

slide-72
SLIDE 72

Best “preferred” just better

slide-73
SLIDE 73

best preferred (simulation) just better (simulation) Java Forum Network

asker indegree asker indegree asker indegree

slide-74
SLIDE 74

Preferred Helper: ‘just better’ Preferred Helper: ‘best available’

slide-75
SLIDE 75

In the ‘just better’ model, a node is correctly ranked by PageRank but not by HITS

slide-76
SLIDE 76

¡ Node ¡centrality ¡can ¡reveal ¡the ¡relaDve ¡

importance ¡of ¡nodes ¡within ¡the ¡network ¡

¡ Choose ¡a ¡measure ¡appropriate ¡to ¡the ¡

quesDon ¡you ¡are ¡asking ¡

9/23/15 ¡ Jure ¡Leskovec ¡and ¡Lada ¡Adamic, ¡Stanford ¡CS224W: ¡Social ¡and ¡InformaDon ¡Network ¡Analysis ¡ 76 ¡