Machine Learning and Computational Social Science - - PowerPoint PPT Presentation

machine learning and computational social science
SMART_READER_LITE
LIVE PREVIEW

Machine Learning and Computational Social Science - - PowerPoint PPT Presentation

Machine Learning and Computational Social Science Intersections and Collisions David Jensen Department of Computer Science University of Massachusetts Amherst 17 December 2011


slide-1
SLIDE 1

David ¡Jensen

Department ¡of ¡Computer ¡Science University ¡of ¡Massachusetts ¡Amherst

Machine ¡Learning ¡and ¡ Computational ¡Social ¡Science Intersections ¡and ¡Collisions

17 ¡December ¡2011

slide-2
SLIDE 2

1202

slide-3
SLIDE 3
slide-4
SLIDE 4
slide-5
SLIDE 5

0 ¡ ¡1 ¡ ¡2 ¡ ¡3 ¡ ¡4 ¡ ¡5 ¡ ¡6 ¡ ¡7 ¡ ¡8 ¡ ¡9 ¡ ¡ ¡ CCXXVI 226 226 = ¡(2 ¡x ¡100) ¡+ ¡(2 ¡x ¡10) ¡+ ¡6 ¡ 226 + ¡471 697 382 x ¡16 6112 ⅜ ¡+¼ ¡= ¡⅝ ¡

Introduced ¡new ¡representations ¡and ¡algorithms

slide-6
SLIDE 6

Displaced ¡existing ¡methods

slide-7
SLIDE 7

Computational ¡ Social ¡Science

slide-8
SLIDE 8

Decomposing ¡research ¡problems

Agent Task Environment Behavior

slide-9
SLIDE 9

Agent Environment Task

Example

Agent Person Task Job-­‑hunting Environment Social ¡network ¡of ¡friends ¡and ¡acquaintances Behavior Behavior Exploiting ¡the strength ¡of weak ¡ties

(Granovetter ¡1973)

slide-10
SLIDE 10

Agent Environment Task

Traditional ¡social ¡science

Agent Scientists Task Understand ¡the ¡ behavior ¡of ¡ social ¡systems Environment Available ¡data ¡and ¡analytic ¡methods Behavior Behavior Current ¡research ¡ practices ¡in ¡ social ¡science ¡

slide-11
SLIDE 11

Environment Available ¡data ¡and ¡analytic ¡methods Agent Scientist Agent Scientists + ¡Computation Task Understand ¡the ¡ behavior ¡of ¡ social ¡systems Environment Available ¡data ¡and ¡analytic ¡methods Behavior Current ¡research ¡ practices ¡in ¡ social ¡science ¡

Computational ¡social ¡science

Environment Available ¡data ¡and ¡analytic ¡methods Behavior New ¡research ¡ practices ¡in ¡ social ¡science ¡

slide-12
SLIDE 12

Agent Scientists + ¡Computation Task Understand ¡the ¡ behavior ¡of ¡ social ¡systems

Computational ¡social ¡science

Environment Available ¡data ¡and ¡analytic ¡methods Social ¡scientists ¡+ ¡ Computer ¡scientists ¡+ ¡ Statisticians ¡+ ¡others Representations ¡+ ¡ Algorithms Behavior New ¡research ¡ practices ¡in ¡ social ¡science ¡

slide-13
SLIDE 13

Key ¡question

Given ¡the ¡environment ¡and ¡task, ¡ what ¡representations ¡and ¡algorithms are ¡most ¡appropriate?

Also: What ¡new ¡tasks ¡can ¡we ¡accomplish, ¡ given ¡agents ¡and ¡environments? What ¡new ¡environments ¡can ¡be ¡studied, ¡ given ¡existing ¡tasks ¡and ¡agents

slide-14
SLIDE 14

Key ¡points

  • The ¡environments ¡and ¡tasks ¡of ¡social ¡science ¡

make ¡new ¡requirements ¡on ¡the ¡representations ¡ and ¡algorithms ¡from ¡computer ¡science ¡and ¡ statistics.

  • Unless ¡we ¡adapt ¡computational ¡representations ¡

and ¡algorithms ¡to ¡that ¡new ¡context, ¡they ¡are ¡ unlikely ¡to ¡be ¡widely ¡adopted ¡and ¡used.

  • If ¡we ¡adapt, ¡radical ¡improvements ¡are ¡possible ¡

in ¡our ¡understanding ¡of ¡social ¡systems.

slide-15
SLIDE 15

Example

slide-16
SLIDE 16

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

slide-17
SLIDE 17

A B Early Sex Delinquency

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

A B Early Sex Delinquency

slide-18
SLIDE 18

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

A B Early Sex Delinquency A B C Early Sex Delinquency Genetics and Family Environment

slide-19
SLIDE 19

What ¡is ¡causality?

“The ¡paradigmatic ¡assertion ¡in ¡causal ¡relationships ¡ is ¡that ¡manipulation ¡of ¡a ¡cause ¡ will ¡result ¡in ¡the ¡manipulation ¡of ¡an ¡effect… ¡ Causation ¡implies ¡that ¡by ¡varying ¡one ¡factor, ¡ I ¡can ¡make ¡another ¡vary.” – ¡Cook ¡& ¡Campbell ¡(1979)

slide-20
SLIDE 20

Causal ¡structures ¡producing ¡association

Direct ¡causation ¡— ¡A ¡causes ¡B ¡in ¡the ¡ expected ¡direction. Reverse ¡causation ¡— ¡A ¡causes ¡B ¡in ¡the ¡ reverse ¡direction. Causal ¡chain ¡— ¡A ¡indirectly ¡causes ¡B ¡ through ¡C. Common ¡cause ¡— ¡The ¡variable ¡C ¡causes ¡ both ¡A ¡and ¡B, ¡thus ¡inducing ¡a ¡dependence ¡ between ¡A ¡and ¡B. Conditioning ¡on ¡a ¡common ¡effect ¡— ¡A ¡and ¡B ¡ share ¡a ¡common ¡effect ¡C, ¡and ¡conditioning ¡

  • n ¡this ¡variable ¡can ¡induce ¡a ¡dependence ¡

between ¡A ¡and ¡B.

A B A B A B C A B C A C B

slide-21
SLIDE 21

Causal ¡structures ¡producing ¡association

Direct ¡causation ¡— ¡A ¡causes ¡B ¡in ¡the ¡ expected ¡direction. Reverse ¡causation ¡— ¡A ¡causes ¡B ¡in ¡the ¡ reverse ¡direction. Causal ¡chain ¡— ¡A ¡indirectly ¡causes ¡B ¡ through ¡C. Common ¡cause ¡— ¡The ¡variable ¡C ¡causes ¡ both ¡A ¡and ¡B, ¡thus ¡inducing ¡a ¡dependence ¡ between ¡A ¡and ¡B. Conditioning ¡on ¡a ¡common ¡effect ¡— ¡A ¡and ¡B ¡ share ¡a ¡common ¡effect ¡C, ¡and ¡conditioning ¡

  • n ¡this ¡variable ¡can ¡induce ¡a ¡dependence ¡

between ¡A ¡and ¡B.

A B A B A B C A B C A C B

Direct ¡causation ¡— ¡A ¡causes ¡B ¡in ¡the ¡ expected ¡direction. Common ¡cause ¡— ¡The ¡variable ¡C ¡causes ¡ both ¡A ¡and ¡B, ¡thus ¡inducing ¡a ¡dependence ¡ between ¡A ¡and ¡B.

slide-22
SLIDE 22

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

A B Early Sex Delinquency C1 C2 C3 Cn

...

A B Early Sex Delinquency C1 C2 C3 Cn

...

A B Early Sex Delinquency C1 C2 C3 Cn

...

Modeling

slide-23
SLIDE 23

Modeling

  • Armour ¡and ¡Haynie ¡modeled ¡a ¡large ¡number ¡
  • f ¡potential ¡influences ¡on ¡adolescent ¡behavior.
  • Even ¡after ¡accounting ¡for ¡these ¡potential ¡causes, ¡a ¡

statistical ¡association ¡remained ¡between ¡ early ¡sexual ¡activity ¡and ¡delinquency.

slide-24
SLIDE 24

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

A B Early Sex Delinquency C1 C2 C3 Cn

...

A B Early Sex Delinquency C1 C2 C3 Cn

...

Modeling

slide-25
SLIDE 25
slide-26
SLIDE 26

(Armour ¡& ¡Haynie ¡2007) (Harden ¡et ¡al. ¡2007)

A B Early Sex Delinquency C1 C2 C3 Cn

...

A B Early Sex Delinquency C1 C2 C3 Cn

...

A B Early Sex Delinquency C1 C2 C3 Cn

...

Modeling Control

A B Early Sex Delinquency C1 C2 C3 Cn

...

slide-27
SLIDE 27

...

B A D E Z F C B A D C

...

E Z F

Twin ¡studies

Phenotype Genotype Person ¡1 Person ¡2

slide-28
SLIDE 28

B A D C B A D C

...

E Z F

Twin ¡studies

Phenotype Genotype Person ¡1 Person ¡2

slide-29
SLIDE 29

(Hardin ¡et ¡al. ¡2007)

slide-30
SLIDE 30

Quasi-­‑experimental ¡Designs

  • Quasi-­‑experimental ¡designs ¡(QEDs) ¡are ¡a ¡family ¡of ¡

methods ¡for ¡exploiting ¡fortuitous ¡situations ¡in ¡

  • bservational ¡data ¡that ¡emulate ¡control ¡and ¡

randomization.

  • QEDs...
  • ...are ¡templates ¡for ¡causal ¡inference...
  • ...that ¡increase ¡statistical ¡power... ¡
  • ...by ¡exploiting ¡relations ¡and ¡time...
  • ...to ¡reduce ¡or ¡eliminate ¡the ¡need ¡to ¡model ¡the ¡

effects ¡of ¡some ¡variables.

slide-31
SLIDE 31

Many ¡types ¡of ¡QEDs

  • Twin ¡design ¡— ¡Control ¡the ¡value ¡of ¡some ¡

potential ¡common ¡causes ¡ within ¡specified ¡pairs ¡of ¡instances.

  • Non-­‑equivalent ¡control ¡group ¡design ¡— ¡

Compare ¡temporal ¡responses ¡of ¡treated ¡ instances ¡to ¡a ¡control ¡group ¡of ¡similar ¡ untreated ¡instances.

  • Regression ¡discontinuity ¡design ¡— ¡Identify ¡

cases ¡where ¡treatment ¡is ¡assigned ¡based ¡

  • n ¡a ¡single ¡variable.
  • and ¡many ¡more... ¡

A B C Within twin pairs A B C A B C

slide-32
SLIDE 32
slide-33
SLIDE 33

Types ¡of ¡threats ¡to ¡validity

  • Statistical ¡conclusion ¡validity ¡

Is ¡there ¡a ¡statistical ¡dependence ¡between ¡ treatment ¡and ¡outcome?

  • Internal ¡validity ¡

Does ¡the ¡observed ¡correlation ¡reflect ¡a ¡causal ¡ dependence ¡between ¡treatment ¡and ¡outcome?

  • Construct ¡validity ¡

Do ¡the ¡sampling ¡particulars ¡correspond ¡to ¡the ¡ higher-­‑order ¡constructs ¡we ¡wish ¡to ¡examine?

  • External ¡validity ¡

Does ¡the ¡inferred ¡causal ¡relationship ¡generalize ¡to ¡ alternative ¡units, ¡treatment ¡variables, ¡and ¡outcome ¡ variables?

Shadish, ¡Cook, ¡& ¡Campbell, ¡Experimental ¡and ¡Quasi-­‑experimental ¡Designs ¡for ¡Generalized ¡Causal ¡Inference, ¡Houghton ¡Mifflin, ¡2002

slide-34
SLIDE 34

Strengths ¡of ¡machine ¡learning ¡methods

  • Statistical ¡conclusion ¡validity ¡

Is ¡there ¡a ¡statistical ¡dependence ¡between ¡ treatment ¡and ¡outcome?

  • Internal ¡validity ¡

Does ¡the ¡observed ¡correlation ¡reflect ¡a ¡causal ¡ dependence ¡between ¡treatment ¡and ¡outcome?

  • Construct ¡validity ¡

Do ¡the ¡sampling ¡particulars ¡correspond ¡to ¡the ¡ higher-­‑order ¡constructs ¡we ¡wish ¡to ¡examine?

  • External ¡validity ¡

Does ¡the ¡inferred ¡causal ¡relationship ¡generalize ¡to ¡ alternative ¡units, ¡treatment ¡variables, ¡and ¡outcome ¡ variables?

✔ ✘ ✘ ✘

slide-35
SLIDE 35

Current ¡strengths ¡of ¡machine ¡learning

  • Methods ¡for ¡analyzing ¡non-­‑traditional ¡data ¡types

Methods ¡for ¡analyzing ¡and ¡modeling ¡text, ¡images, ¡time-­‑ series, ¡spatial ¡data, ¡relational ¡data, ¡etc.

  • Efficient ¡methods ¡for ¡analyzing ¡massive ¡data

Explicit ¡consideration ¡of ¡time ¡and ¡space ¡complexity ¡of ¡ algorithms, ¡approximation ¡methods, ¡etc.

  • Non-­‑parametric ¡models

Wide ¡variety ¡of ¡methods ¡for ¡non-­‑parametric ¡probability ¡ estimation, ¡classification, ¡ranking, ¡etc.

  • Joint ¡models

Directed ¡and ¡undirected ¡graphical ¡models

slide-36
SLIDE 36

Research ¡directions ¡for ¡improving ¡relevance

  • Causality

Focus ¡on ¡methods ¡that ¡learn ¡causal ¡dependence ¡ rather ¡than ¡statistical ¡association

  • External ¡validity

Focus ¡on ¡methods ¡to ¡assist ¡researchers ¡in ¡ modeling ¡the ¡world ¡rather ¡than ¡only ¡modeling ¡ the ¡data

  • Robustness

Focus ¡on ¡methods ¡that ¡are ¡robust ¡to ¡variation ¡in ¡ model ¡specification, ¡parameter ¡settings, ¡etc.

slide-37
SLIDE 37

Causality

  • Many ¡findings ¡in ¡social ¡science ¡have ¡direct ¡

implications ¡for ¡social ¡policy, ¡law ¡enforcement, ¡ educational ¡practice, ¡management, ¡etc.

  • Inferring ¡causality ¡and ¡estimating ¡effect-­‑size ¡is ¡

essential ¡to ¡guiding ¡action ¡in ¡these ¡domains.

  • In ¡contrast, ¡machine ¡learning ¡has ¡traditionally ¡

focused ¡on ¡domains ¡well-­‑served ¡by ¡associational ¡ models ¡that ¡function ¡as ¡“black ¡boxes.”

slide-38
SLIDE 38

External ¡validity

  • In ¡social ¡science, ¡the ¡measured ¡variables ¡often ¡

stand ¡in ¡for ¡larger ¡conceptual ¡constructs ¡that ¡are ¡ the ¡real ¡objects ¡of ¡study.

  • Methods ¡that ¡inform ¡human ¡understanding ¡

about ¡the ¡existence, ¡causes, ¡and ¡effects ¡of ¡such ¡ constructs ¡are ¡particularly ¡useful.

  • Many ¡machine ¡learning ¡methods ¡are ¡primarily ¡

useful ¡to ¡model ¡the ¡data ¡rather ¡than ¡to ¡assist ¡a ¡ human ¡analysts ¡to ¡model ¡the ¡world ¡from ¡which ¡ the ¡data ¡are ¡drawn.

slide-39
SLIDE 39

Robustness

  • Many ¡social ¡science ¡

findings ¡are ¡actively ¡ examined ¡and ¡contested ¡ by ¡both ¡experts ¡and ¡ non-­‑experts.

  • Methods ¡that ¡are ¡not ¡robust ¡to ¡small ¡changes ¡in ¡

data, ¡parameters, ¡or ¡assumptions ¡will ¡quickly ¡ become ¡discredited.

  • Many ¡existing ¡machine ¡learning ¡applications ¡are ¡

fully ¡under ¡the ¡control ¡of ¡developers ¡and ¡don’t ¡ have ¡to ¡survive ¡in ¡adversarial ¡environments.

slide-40
SLIDE 40
slide-41
SLIDE 41

Questions?