Why ¡Incen)ve ¡Alignment ¡ ¡ is ¡Relevant ¡for ¡Data ¡Science ¡
Yiling ¡Chen ¡ Harvard ¡University ¡
¡
February ¡24, ¡2016 ¡
Why Incen)ve Alignment is Relevant for Data Science - - PowerPoint PPT Presentation
Why Incen)ve Alignment is Relevant for Data Science Yiling Chen Harvard University February 24, 2016 People are strategic Report outcome of a
February ¡24, ¡2016 ¡
[Fischbacher ¡& ¡Heusi ¡2008] ¡
[Rob ¡Miller, ¡CI ¡2012] ¡
12 ¡
David ¡Rudisha ¡ Runner ¡ Person ¡ Runner ¡
Collected ¡seman)c ¡labels ¡for ¡over ¡100 ¡million ¡pictures ¡in ¡< ¡5 ¡years. ¡ ¡
[von ¡Ahn ¡& ¡Dabbish ¡04, ¡08, ¡von ¡Ahn ¡06] ¡
16 ¡
[Waggoner ¡& ¡Chen ¡14] ¡ ¡
What ¡knowledge ¡is ¡elicited ¡in ¡an ¡output-‑agreement ¡mechanism? ¡ ¡
17 ¡
The ¡image ¡ is ¡a ¡runner. ¡
The ¡image ¡is ¡David ¡ Rudisha ¡at ¡2008 ¡ Beijing ¡Olympics. ¡
19 ¡
[Yin ¡& ¡Chen ¡15] ¡ ¡
20 ¡
provided ¡in ¡task ¡t
in ¡task ¡t has ¡high-‑quality ¡
state ¡in ¡task ¡t (out ¡of ¡ K ¡possibili)es) ¡ Emission ¡probability: Pe (xt | zt , at ) Transi)on ¡probability: Ptr (zt | zt-1 , at )
Training ¡Dataset ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ … ¡
✓ ¡
✓ ¡
✗ ¡ … ¡ ✓ ¡
… ¡
✗ ¡
✗ ¡
✓ ¡ … ¡ ✓ ¡
… ¡
✓ ¡
✗ ¡
✓ ¡ … ¡ ✗ ¡
Learned ¡IOHMM ¡
¡ ¡ ¡ ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Transi)on ¡Probability ¡ ¡ ¡ ¡ ¡Matrices ¡(Ta) ¡
¡ ¡ ¡Emission ¡Probability ¡ ¡
¡ ¡Matrices ¡(Ea) ¡
¡
¡ ¡Ini)al ¡State ¡Belief ¡(b0) ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
Expecta(on-‑ ¡ Maximiza(on ¡
K = 2 ¡hidden ¡states ¡in ¡the ¡Learned ¡IOHMM. ¡
¡Ini(al ¡state ¡belief: ¡b0 = (0.67, 0.33) Emission ¡probability ¡matrices: ¡
¡
¡
¡
Transi(on ¡probability ¡matrices: ¡ ¡
!! = 0.10 0.90 0.88 0.12 , !!!! = 0.13 0.87 0.61 0.39 !
!! = 0.92 0.08 1 , !!!! = 1 0.09 0.91 !
No ¡Bonus ¡ Bonus ¡ LQ ¡ HQ ¡ LQ ¡ HQ ¡ S1 ¡ S2 ¡ S1 ¡ S2 ¡ Bonus ¡ No ¡Bonus ¡ S1 ¡ S2 ¡ S1 ¡ S2 ¡ S1 ¡ S2 ¡ S1 ¡ S2 ¡
Requester’s ¡u(lity ¡ improves ¡27% ¡
24 ¡
[Yin, ¡Chen ¡& ¡Sun ¡13] ¡ ¡
¡ ¡ ¡bonus ¡2 ¡ ¡
1 ¡ 2 ¡
Base ¡treatments ¡ Increasing ¡ Sequences ¡ Decreasing ¡ Sequences ¡ 4¢−4¢ ¡ 8¢−8¢ ¡ 4¢−8¢ ¡ 8¢−4¢ ¡ 16¢−16¢ ¡ 4¢−16¢ ¡ 16¢−4¢ ¡ 32¢−32¢ ¡ 4¢−32¢ ¡ 32¢−4¢ ¡
100 ¡unique ¡subjects ¡for ¡each ¡treatment ¡ Two ¡experiments: ¡fine ¡motor ¡skill ¡task ¡and ¡cogni)ve ¡skill ¡task ¡ ¡
260 280 300 320 340 360
8−8 16−16 32−32 Task
Task 2
▶ Fair ¡wage ¡– ¡effort ¡hypothesis ¡[Akerlof ¡and ¡Yellen ¡1988] ¡
▶ Workers ¡have ¡a ¡concep)on ¡of ¡a ¡fair ¡wage ¡and ¡supply ¡a ¡frac)on ¡
▶ They ¡may ¡not ¡have ¡the ¡concep)on ¡a ¡priori ¡
¡
▶ The ¡anchoring ¡effect ¡[Tversky ¡and ¡Kahneman ¡1974, ¡Ariely, ¡
Loewenstein, ¡and ¡Prelec ¡2003] ¡
▶ Human ¡tendency ¡to ¡rely ¡heavily ¡on ¡the ¡first ¡piece ¡of ¡informa)on, ¡
which ¡may ¡be ¡irrelevant, ¡in ¡making ¡subsequent ¡judgments ¡
[Abernethy, ¡Chen, ¡Ho ¡and ¡Waggoner ¡‘15] ¡ ¡
31 ¡
z1 z2
learning ¡alg ¡
data ¡source ¡ h
hypothesis ¡ data ¡ data-‑needer ¡ Goal: ¡use ¡small ¡amount ¡of ¡data, ¡output ¡“good” ¡h. ¡
32 ¡
c1 z1 z2
mechanism ¡
data ¡source ¡
c2
h
hypothesis ¡ “Cost ¡of ¡revealing ¡data” ¡ ¡ ¡ ¡Goal: ¡spend ¡small ¡budget, ¡output ¡“good” ¡h. ¡ data-‑needer ¡ data-‑holders ¡
33 ¡
Paying ¡$10 ¡for ¡data ¡ (to ¡study ¡HIV) ¡ HIV-‑nega)ve ¡ yes ¡ yes ¡ no ¡ yes ¡ yes ¡ HIV-‑posi)ve ¡ no ¡ no ¡ yes ¡
Machine ¡Learning ¡roadblock: ¡ how ¡to ¡deal ¡with ¡biases? ¡
34 ¡
35 ¡
learning ¡alg ¡
entropies, ¡gradients, ¡loss ¡ func)ons, ¡divergences ¡
mechanism ¡
auc)ons, ¡budgets, ¡value ¡ distribu)ons, ¡reserve ¡prices ¡
Econ ¡roadblock: ¡ how ¡to ¡assign ¡value ¡to ¡data? ¡
36 ¡
Machine ¡Learning ¡roadblock: ¡ how ¡to ¡deal ¡with ¡biases? ¡ Econ ¡roadblock: ¡ how ¡to ¡assign ¡value ¡to ¡data? ¡
37 ¡
VC-dim
T
h
alg’s ¡hypothesis ¡
# ¡of ¡data ¡points ¡ measure ¡of ¡problem ¡ difficulty ¡
38 ¡
For ¡a ¡variety ¡of ¡learning ¡problems: ¡
¡
γ
h
Budget ¡constraint ¡ measure ¡of ¡“problem ¡difficulty”, ¡ in ¡[0,1]. ¡
39 ¡
For ¡a ¡variety ¡of ¡learning ¡problems: ¡
¡
γ
h
Budget ¡constraint ¡ measure ¡of ¡“problem ¡difficulty”, ¡ in ¡[0,1]. ¡
γ ≈ average ¡ ¡cost ¡* ¡difficulty ¡ ¡ “if ¡problem ¡is ¡cheap ¡or ¡easy ¡or ¡has ¡good ¡correla(ons, ¡ ¡we ¡do ¡well” ¡
41 ¡
42 ¡