 
              Synthe'c ¡data ¡in ¡US ¡Census ¡ CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 1 ¡
Synthe'c ¡Data ¡ • Rather ¡than ¡have ¡a ¡system ¡for ¡performing ¡query ¡answering, ¡ release ¡a ¡synthe'c ¡dataset. ¡ ¡ • Analyst ¡can ¡now ¡perform ¡arbitrary ¡analysis ¡on ¡this ¡synthe'c ¡ dataset. ¡ ¡ • Very ¡popular ¡amongst ¡sta's'cians ¡ – For ¡ensuring ¡privacy ¡ – For ¡impu'ng ¡(filling ¡in) ¡missing ¡values ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 2 ¡
This ¡Class ¡ • Synthe'c ¡Data ¡in ¡the ¡US ¡Census ¡ • Synthe'c ¡Data: ¡What ¡can ¡we ¡achieve? ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 3 ¡
OnTheMap: ¡A ¡Census ¡applica'on ¡that ¡plots ¡ commu'ng ¡paTerns ¡of ¡workers ¡ ¡ h9p://onthemap.ces.census.gov/ ¡ ¡ Residences ¡ Residences ¡ (Sensi6ve) ¡ Workplace ¡ (Public) ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 4 ¡
OnTheMap: ¡A ¡Census ¡applica'on ¡that ¡plots ¡ commu'ng ¡paTerns ¡of ¡workers ¡ Workplace ¡ Residence ¡ (Quasi-‑iden6fier) ¡ (Sensi6ve) ¡ Worker ¡ID ¡ Origin ¡ Des6na6on ¡ 1223 ¡ MD11511 ¡ DC22122 ¡ 1332 ¡ MD2123 ¡ DC22122 ¡ Census ¡Blocks ¡ 1432 ¡ VA11211 ¡ DC22122 ¡ 2345 ¡ PA12121 ¡ DC24132 ¡ 1432 ¡ PA11122 ¡ DC24132 ¡ 1665 ¡ MD1121 ¡ DC24132 ¡ 1244 ¡ DC22122 ¡ DC22122 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 5 ¡
Why ¡publish ¡commute ¡paTerns? ¡ ¡ • To ¡compute ¡Quarterly ¡Workforce ¡Indicators ¡ – Total ¡employment ¡ – Average ¡Earnings ¡ – New ¡Hires ¡ ¡& ¡Separa'ons ¡ – Unemployment ¡Sta's'cs ¡ E.g., ¡Missouri ¡state ¡used ¡this ¡data ¡to ¡formulate ¡a ¡ method ¡allowing ¡ QWI ¡to ¡suggest ¡industrial ¡ sectors ¡where ¡transi6onal ¡training ¡might ¡be ¡most ¡ effec6ve ¡ … ¡to ¡proac'vely ¡reduce ¡'me ¡spent ¡on ¡ unemployment ¡insurance ¡… ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 6 ¡
A ¡Synthe'c ¡Data ¡Generator ¡ (Dirichlet ¡resampling) ¡ Step ¡1: ¡ ¡ Noise ¡Addi6on ¡ (for ¡each ¡desAnaAon) ¡ D ¡(7, ¡5, ¡4) ¡ A ¡(2, ¡3, ¡3) ¡ D+A ¡(9, ¡8, ¡7) ¡ + = Mul'-‑set ¡of ¡Origins ¡ Noise ¡ Noise ¡infused ¡ ¡ for ¡workers ¡in ¡ ¡ (fake ¡workers) ¡ data ¡ Washington ¡DC. ¡ Washington ¡DC ¡ Somerset ¡ Fuller ¡ Noise ¡added ¡to ¡an ¡origin ¡with ¡at ¡least ¡1 ¡worker ¡is ¡> ¡0 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 7 ¡
A ¡Synthe'c ¡Data ¡Generator ¡ (Dirichlet ¡resampling) ¡ Step ¡2: ¡ Dirichlet ¡Resampling ¡ (for ¡each ¡desAnaAon) ¡ Replace ¡two ¡of ¡ ¡ the ¡same ¡kind. ¡ (9, ¡8, ¡7) ¡ (9, ¡7, ¡7) ¡ (9, ¡9, ¡7) ¡ Draw ¡a ¡point ¡ ¡ at ¡random ¡ S ¡: ¡Synthe6c ¡Data ¡ frequency ¡of ¡block ¡ b ¡ in ¡D+A ¡= ¡0 ¡ � ¡frequency ¡of ¡ b ¡ in ¡S ¡= ¡0 ¡ i.e., ¡block ¡ b ¡is ¡ignored ¡by ¡the ¡algorithm. ¡ ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 8 ¡
How ¡should ¡we ¡add ¡noise? ¡ • Intui'vely, ¡more ¡noise ¡yields ¡more ¡privacy ¡… ¡ • How ¡much ¡noise ¡should ¡we ¡add ¡? ¡ • To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡ • Currently ¡this ¡is ¡poorly ¡understood. ¡ – Total ¡amount ¡of ¡noise ¡added ¡is ¡a ¡state ¡secret ¡ ¡ – Only ¡3-‑4 ¡people ¡in ¡the ¡US ¡know ¡this ¡value ¡in ¡the ¡current ¡implementa6on ¡ of ¡OnTheMap. ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 9 ¡
Privacy ¡of ¡Synthe'c ¡Data ¡ Theorem ¡1 : ¡ ¡ The ¡Dirichlet ¡resampling ¡algorithm ¡preserves ¡privacy ¡if ¡and ¡only ¡if ¡ for ¡every ¡des'na'on ¡ d , ¡the ¡noise ¡added ¡to ¡each ¡block ¡is ¡at ¡least ¡ ¡ m(d) ¡ ¡ ε ¡-‑ ¡1 ¡ ¡ ¡ ¡ where ¡ ¡m(d) ¡is ¡the ¡size ¡of ¡the ¡synthe'c ¡popula'on ¡for ¡des'na'on ¡ d ¡and ¡ ε ¡ is ¡the ¡privacy ¡parameter. ¡ ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 10 ¡
1. ¡How ¡much ¡noise ¡should ¡we ¡add? ¡ ¡Noise ¡required ¡per ¡block: ¡(differen'al ¡privacy) ¡ lesser ¡privacy ¡ 1 ¡million ¡original ¡ ¡Privacy ¡(e ε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ and ¡synthe6c ¡ Noise ¡per ¡block ¡(x ¡10 6 ) ¡ 0.25 ¡ 0.11 ¡ 0.05 ¡ 0.02 ¡ workers. ¡ ¡ ¡ ¡ 2. ¡To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡ ¡ ¡Add ¡noise ¡to ¡every ¡block ¡on ¡the ¡map. ¡ ¡There ¡are ¡8 ¡million ¡Census ¡blocks ¡on ¡the ¡map! ¡ ¡1 ¡million ¡original ¡workers ¡and ¡16 ¡billion ¡fake ¡workers!!! ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 11 ¡
Intui'on ¡behind ¡Theorem ¡1. ¡ Two ¡possible ¡inputs ¡ D 1 ¡ D 2 ¡ Adversary ¡knows ¡ individual ¡1 ¡is ¡ ¡ Either ¡blue ¡or ¡red . ¡ Adversary ¡knows ¡ individuals ¡[2..n] ¡are ¡ blue . ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 12 ¡
Intui'on ¡behind ¡Theorem ¡1. ¡ Two ¡possible ¡inputs ¡ D 1 ¡ D 2 ¡ Noise ¡Addi'on ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 13 ¡
Intui'on ¡behind ¡Theorem ¡1. ¡ Noise ¡infused ¡inputs ¡ For ¡every ¡output ¡… ¡ Dirichlet ¡ Resampling ¡ D 1 ¡ D 2 ¡ O ¡ Pr[D 1 ¡ à ¡O] ¡= ¡1/10 ¡* ¡2/11 ¡* ¡3/12 ¡* ¡4/13 ¡* ¡5/14 ¡* ¡6/15 ¡ Pr[D 2 ¡ à ¡O] ¡= ¡2/10 ¡* ¡3/11 ¡* ¡4/12 ¡* ¡5/13 ¡* ¡6/14 ¡* ¡7/15 ¡ ¡ Pr[D 1 ¡ à ¡O] ¡ ¡ ¡ ¡ ¡ = ¡7 ¡ Pr[D 2 ¡ à ¡O] ¡ ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 14 ¡
Intui'on ¡behind ¡Theorem ¡1. ¡ Noise ¡infused ¡inputs ¡ For ¡every ¡output ¡… ¡ Dirichlet ¡ Resampling ¡ D 1 ¡ D 2 ¡ O ¡ Adversary ¡infers ¡that ¡it ¡is ¡very ¡likely ¡ individual ¡1 ¡is ¡red ¡… ¡ ¡ … ¡unless ¡noise ¡added ¡is ¡very ¡large. ¡ ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 15 ¡
Privacy ¡Analysis: ¡Summary ¡ • Chose ¡differen'al ¡privacy. ¡ – Guards ¡against ¡powerful ¡adversaries. ¡ ¡ – Measures ¡privacy ¡as ¡a ¡distance ¡between ¡prior ¡and ¡posterior. ¡ ¡ • Derived ¡necessary ¡and ¡sufficient ¡condi'ons ¡when ¡OnTheMap ¡ preserves ¡privacy. ¡ ¡ • The ¡above ¡condi'ons ¡make ¡the ¡data ¡published ¡by ¡OnTheMap ¡ useless. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 16 ¡
But, ¡breach ¡occurs ¡with ¡very ¡low ¡ probability. ¡ Noise ¡infused ¡inputs ¡ For ¡every ¡output ¡… ¡ Dirichlet ¡ Resampling ¡ D 1 ¡ D 2 ¡ O ¡ Probability ¡of ¡O ¡≈ ¡10 -‑4 ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 17 ¡
Negligible ¡func'on ¡ ¡ Defini6on : ¡ ¡ f(x) ¡is ¡ negligible ¡if ¡it ¡goes ¡to ¡0 ¡faster ¡than ¡the ¡inverse ¡of ¡any ¡ polynomial. ¡ ¡e.g., ¡2 -‑x ¡ and ¡e -‑x ¡ are ¡negligible ¡funcAons. ¡ ¡ ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 18 ¡
(ε,δ)-‑Indis'nguishability ¡ For ¡every ¡pair ¡of ¡inputs ¡ For ¡any ¡subset ¡of ¡ that ¡differ ¡in ¡one ¡value ¡ outputs ¡ T ¡ D 1 ¡ D 2 ¡ O 1 ¡ O 2 ¡ O 3 ¡ O 4 ¡ Pr[D 1 ¡ ¡ à ¡ ¡T] ¡ ¡ ¡≤ ¡ ¡ ¡e ε ¡Pr[D 2 ¡ à ¡ ¡T] ¡ ¡+ ¡ ¡ ¡δ(|D 2 |) ¡ If ¡ T ¡occurs ¡with ¡negligible ¡probability, ¡the ¡adversary ¡ is ¡allowed ¡to ¡dis'nguish ¡between ¡D1 ¡and ¡D2 ¡by ¡a ¡ factor ¡> ¡ε ¡using ¡O i ¡in ¡ T . ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 19 ¡
Recommend
More recommend