Synthe'c ¡data ¡in ¡US ¡Census ¡
CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡
1 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
Synthe'c data in US Census CompSci 590.03 Instructor: - - PowerPoint PPT Presentation
Synthe'c data in US Census CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 18: 590.03 Fall 13 1 Synthe'c Data Rather than have a system
1 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– For ¡ensuring ¡privacy ¡ – For ¡impu'ng ¡(filling ¡in) ¡missing ¡values ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 2 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 3 ¡
4 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
1223 ¡ MD11511 ¡ DC22122 ¡ 1332 ¡ MD2123 ¡ DC22122 ¡ 1432 ¡ VA11211 ¡ DC22122 ¡ 2345 ¡ PA12121 ¡ DC24132 ¡ 1432 ¡ PA11122 ¡ DC24132 ¡ 1665 ¡ MD1121 ¡ DC24132 ¡ 1244 ¡ DC22122 ¡ DC22122 ¡
5 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Total ¡employment ¡ – Average ¡Earnings ¡ – New ¡Hires ¡ ¡& ¡Separa'ons ¡ – Unemployment ¡Sta's'cs ¡
6 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
7 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
8 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Total ¡amount ¡of ¡noise ¡added ¡is ¡a ¡state ¡secret ¡ ¡ – Only ¡3-‑4 ¡people ¡in ¡the ¡US ¡know ¡this ¡value ¡in ¡the ¡current ¡implementa6on ¡
9 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
10 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡(x ¡106) ¡ 0.25 ¡ 0.11 ¡ 0.05 ¡ 0.02 ¡
11 ¡
lesser ¡privacy ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
12 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
13 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
14 ¡
Dirichlet ¡ Resampling ¡
Pr[D1 ¡à ¡O] ¡= ¡1/10 ¡* ¡2/11 ¡* ¡3/12 ¡* ¡4/13 ¡* ¡5/14 ¡* ¡6/15 ¡ Pr[D2 ¡à ¡O] ¡= ¡2/10 ¡* ¡3/11 ¡* ¡4/12 ¡* ¡5/13 ¡* ¡6/14 ¡* ¡7/15 ¡ ¡ ¡ ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
15 ¡
Dirichlet ¡ Resampling ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Guards ¡against ¡powerful ¡adversaries. ¡ ¡ – Measures ¡privacy ¡as ¡a ¡distance ¡between ¡prior ¡and ¡posterior. ¡ ¡
16 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
17 ¡
Dirichlet ¡ Resampling ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
18 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
19 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
20 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– May ¡not ¡guarantee ¡privacy ¡when ¡number ¡of ¡workers ¡at ¡a ¡des'na'on ¡is ¡
21 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
22 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡ ¡ 25x104 ¡ 11x104 ¡ 5x104 ¡ 2x104 ¡ Noise ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡
23 ¡
lesser ¡privacy ¡ Differen6al ¡Privacy ¡ Probabilis6c ¡Differen6al ¡ Privacy ¡(δ ¡= ¡10-‑5) ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– (ε,δ)-‑Indis'nguishability ¡and ¡Negligible ¡func'ons. ¡ Noise ¡required ¡for ¡privacy ¡≥ ¡(log ¡n(d)) ¡per ¡block ¡ – (ε,δ)-‑Probabilis'c ¡differen'al ¡privacy ¡and ¡Disclosure ¡sets. ¡ Efficient ¡algorithm ¡to ¡calculate ¡noise ¡per ¡block ¡(see ¡paper). ¡ ¡
24 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡ ¡ 25x104 ¡ 11x104 ¡ 5x104 ¡ 2x104 ¡ Noise ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡
25 ¡
lesser ¡privacy ¡ Differen6al ¡Privacy ¡ Probabilis6c ¡Differen6al ¡ Privacy ¡(δ ¡= ¡10-‑5) ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
¡Privacy ¡(ε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡
– Total ¡noise ¡added ¡is ¡about ¡6 ¡million. ¡
– Roughly ¡1 ¡million ¡fake ¡workers ¡from ¡West ¡Coast ¡(out ¡of ¡a ¡total ¡7 ¡million ¡ points ¡in ¡D+A). ¡ ¡ – Hence, ¡1/7 ¡of ¡the ¡synthe'c ¡data ¡have ¡residences ¡in ¡West ¡Coast ¡and ¡work ¡in ¡ Washington ¡DC. ¡ ¡
lesser ¡privacy ¡
26 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
¡Privacy ¡(ε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡
lesser ¡privacy ¡
27 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
28 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
29 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
30 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Based ¡on ¡an ¡exis'ng ¡public ¡dataset ¡(Census ¡Transporta'on ¡Planning ¡ Package, ¡CTPP). ¡ ¡
31 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Pick ¡a ¡func'on ¡f: ¡{b1, ¡…, ¡bk ¡} ¡à ¡(0,1] ¡ ¡ ¡ ¡(based ¡on ¡external ¡data) ¡ – For ¡every ¡block ¡b ¡with ¡0 ¡support, ¡ ¡ ignore ¡b ¡with ¡probability ¡f(b) ¡
32 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
Experimental ¡Setup: ¡
data ¡used ¡as ¡original ¡data. ¡ ¡
– chosen ¡by ¡pruning ¡out ¡blocks ¡that ¡are ¡> ¡100 ¡ miles ¡from ¡the ¡des'na'on. ¡ ¡
pruning ¡= ¡4 ¡ ¡ ¡ ¡ ¡ ¡(min ¡f(b) ¡= ¡0.0378) ¡ ¡
33 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
34 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
35 ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
– Synthe'cally ¡generated ¡data ¡published ¡for ¡economic ¡research. ¡ – Currently, ¡privacy ¡implica'ons ¡are ¡poorly ¡understood. ¡
– Analyzed ¡the ¡privacy ¡of ¡OnTheMap ¡using ¡variants ¡of ¡Differen'al ¡Privacy. ¡ ¡ – First ¡solu'ons ¡to ¡publish ¡useful ¡informa'on ¡despite ¡sparse ¡data. ¡
36 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡
[M ¡et ¡al ¡ICDE ¡‘08] ¡
PracAce ¡on ¡the ¡Map”, ¡ICDE ¡ ¡2008 ¡ ¡
Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 37 ¡