Synthe'c data in US Census CompSci 590.03 Instructor: - - PowerPoint PPT Presentation

synthe c data in us census
SMART_READER_LITE
LIVE PREVIEW

Synthe'c data in US Census CompSci 590.03 Instructor: - - PowerPoint PPT Presentation

Synthe'c data in US Census CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 18: 590.03 Fall 13 1 Synthe'c Data Rather than have a system


slide-1
SLIDE 1

Synthe'c ¡data ¡in ¡US ¡Census ¡

CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡

1 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-2
SLIDE 2

Synthe'c ¡Data ¡

  • Rather ¡than ¡have ¡a ¡system ¡for ¡performing ¡query ¡answering, ¡

release ¡a ¡synthe'c ¡dataset. ¡ ¡

  • Analyst ¡can ¡now ¡perform ¡arbitrary ¡analysis ¡on ¡this ¡synthe'c ¡
  • dataset. ¡ ¡
  • Very ¡popular ¡amongst ¡sta's'cians ¡

– For ¡ensuring ¡privacy ¡ – For ¡impu'ng ¡(filling ¡in) ¡missing ¡values ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 2 ¡

slide-3
SLIDE 3

This ¡Class ¡

  • Synthe'c ¡Data ¡in ¡the ¡US ¡Census ¡
  • Synthe'c ¡Data: ¡What ¡can ¡we ¡achieve? ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 3 ¡

slide-4
SLIDE 4

OnTheMap: ¡A ¡Census ¡applica'on ¡that ¡plots ¡ commu'ng ¡paTerns ¡of ¡workers ¡

Workplace ¡ (Public) ¡ Residences ¡ Residences ¡ (Sensi6ve) ¡

4 ¡

¡ h9p://onthemap.ces.census.gov/ ¡ ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-5
SLIDE 5

OnTheMap: ¡A ¡Census ¡applica'on ¡that ¡plots ¡ commu'ng ¡paTerns ¡of ¡workers ¡

Worker ¡ID ¡ Origin ¡ Des6na6on ¡

1223 ¡ MD11511 ¡ DC22122 ¡ 1332 ¡ MD2123 ¡ DC22122 ¡ 1432 ¡ VA11211 ¡ DC22122 ¡ 2345 ¡ PA12121 ¡ DC24132 ¡ 1432 ¡ PA11122 ¡ DC24132 ¡ 1665 ¡ MD1121 ¡ DC24132 ¡ 1244 ¡ DC22122 ¡ DC22122 ¡

Census ¡Blocks ¡

Residence ¡ (Sensi6ve) ¡ Workplace ¡ (Quasi-­‑iden6fier) ¡

5 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-6
SLIDE 6

Why ¡publish ¡commute ¡paTerns? ¡ ¡

  • To ¡compute ¡Quarterly ¡Workforce ¡Indicators ¡

– Total ¡employment ¡ – Average ¡Earnings ¡ – New ¡Hires ¡ ¡& ¡Separa'ons ¡ – Unemployment ¡Sta's'cs ¡

E.g., ¡Missouri ¡state ¡used ¡this ¡data ¡to ¡formulate ¡a ¡ method ¡allowing ¡QWI ¡to ¡suggest ¡industrial ¡ sectors ¡where ¡transi6onal ¡training ¡might ¡be ¡most ¡ effec6ve ¡… ¡to ¡proac'vely ¡reduce ¡'me ¡spent ¡on ¡ unemployment ¡insurance ¡… ¡

6 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-7
SLIDE 7

A ¡Synthe'c ¡Data ¡Generator ¡(Dirichlet ¡resampling) ¡

+ =

Mul'-­‑set ¡of ¡Origins ¡ for ¡workers ¡in ¡ ¡ Washington ¡DC. ¡ Noise ¡ (fake ¡workers) ¡

Step ¡1: ¡ ¡Noise ¡Addi6on ¡(for ¡each ¡desAnaAon) ¡

D ¡(7, ¡5, ¡4) ¡ A ¡(2, ¡3, ¡3) ¡ D+A ¡(9, ¡8, ¡7) ¡ Washington ¡DC ¡ Somerset ¡ Fuller ¡

Noise ¡added ¡to ¡an ¡origin ¡with ¡at ¡least ¡1 ¡worker ¡is ¡> ¡0 ¡

7 ¡

Noise ¡infused ¡ ¡ data ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-8
SLIDE 8

A ¡Synthe'c ¡Data ¡Generator ¡(Dirichlet ¡resampling) ¡

Step ¡2: ¡Dirichlet ¡Resampling ¡(for ¡each ¡desAnaAon) ¡

(9, ¡8, ¡7) ¡ (9, ¡7, ¡7) ¡ Draw ¡a ¡point ¡ ¡ at ¡random ¡ Replace ¡two ¡of ¡ ¡ the ¡same ¡kind. ¡ (9, ¡9, ¡7) ¡ S ¡: ¡Synthe6c ¡Data ¡

frequency ¡of ¡block ¡b ¡in ¡D+A ¡= ¡0 ¡ ¡frequency ¡of ¡b ¡in ¡S ¡= ¡0 ¡ i.e., ¡block ¡b ¡is ¡ignored ¡by ¡the ¡algorithm. ¡ ¡ ¡

8 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-9
SLIDE 9

How ¡should ¡we ¡add ¡noise? ¡

  • Intui'vely, ¡more ¡noise ¡yields ¡more ¡privacy ¡… ¡
  • How ¡much ¡noise ¡should ¡we ¡add ¡? ¡
  • To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡
  • Currently ¡this ¡is ¡poorly ¡understood. ¡

– Total ¡amount ¡of ¡noise ¡added ¡is ¡a ¡state ¡secret ¡ ¡ – Only ¡3-­‑4 ¡people ¡in ¡the ¡US ¡know ¡this ¡value ¡in ¡the ¡current ¡implementa6on ¡

  • f ¡OnTheMap. ¡

9 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-10
SLIDE 10

Privacy ¡of ¡Synthe'c ¡Data ¡

Theorem ¡1: ¡ ¡ The ¡Dirichlet ¡resampling ¡algorithm ¡preserves ¡privacy ¡if ¡and ¡only ¡if ¡ for ¡every ¡des'na'on ¡d, ¡the ¡noise ¡added ¡to ¡each ¡block ¡is ¡at ¡least ¡ ¡ ¡ ¡ ¡ ¡where ¡ ¡m(d) ¡is ¡the ¡size ¡of ¡the ¡synthe'c ¡popula'on ¡for ¡des'na'on ¡ d ¡and ¡ε ¡is ¡the ¡privacy ¡parameter. ¡ ¡ ¡

10 ¡

m(d) ¡ ε ¡-­‑ ¡1 ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-11
SLIDE 11
  • 1. ¡How ¡much ¡noise ¡should ¡we ¡add? ¡

¡Noise ¡required ¡per ¡block: ¡(differen'al ¡privacy) ¡ ¡ ¡ ¡ ¡Add ¡noise ¡to ¡every ¡block ¡on ¡the ¡map. ¡ ¡There ¡are ¡8 ¡million ¡Census ¡blocks ¡on ¡the ¡map! ¡ ¡1 ¡million ¡original ¡workers ¡and ¡16 ¡billion ¡fake ¡workers!!! ¡

¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡(x ¡106) ¡ 0.25 ¡ 0.11 ¡ 0.05 ¡ 0.02 ¡

11 ¡

1 ¡million ¡original ¡ and ¡synthe6c ¡

  • workers. ¡ ¡

lesser ¡privacy ¡

  • 2. ¡To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-12
SLIDE 12

Intui'on ¡behind ¡Theorem ¡1. ¡

12 ¡

Two ¡possible ¡inputs ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Adversary ¡knows ¡ individual ¡1 ¡is ¡ ¡ Either ¡blue ¡or ¡red. ¡ Adversary ¡knows ¡ individuals ¡[2..n] ¡are ¡blue. ¡ D2 ¡ D1 ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-13
SLIDE 13

Intui'on ¡behind ¡Theorem ¡1. ¡

13 ¡

Two ¡possible ¡inputs ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ Noise ¡Addi'on ¡ D2 ¡ D1 ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-14
SLIDE 14

Intui'on ¡behind ¡Theorem ¡1. ¡

14 ¡

Noise ¡infused ¡inputs ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ For ¡every ¡output ¡… ¡ O ¡

Dirichlet ¡ Resampling ¡

D2 ¡ D1 ¡

Pr[D1 ¡à ¡O] ¡= ¡1/10 ¡* ¡2/11 ¡* ¡3/12 ¡* ¡4/13 ¡* ¡5/14 ¡* ¡6/15 ¡ Pr[D2 ¡à ¡O] ¡= ¡2/10 ¡* ¡3/11 ¡* ¡4/12 ¡* ¡5/13 ¡* ¡6/14 ¡* ¡7/15 ¡ ¡ ¡ ¡

= ¡7 ¡

Pr[D1 ¡à ¡O] ¡ ¡ ¡ ¡ Pr[D2 ¡à ¡O] ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-15
SLIDE 15

Intui'on ¡behind ¡Theorem ¡1. ¡

15 ¡

Noise ¡infused ¡inputs ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ For ¡every ¡output ¡… ¡ O ¡ Adversary ¡infers ¡that ¡it ¡is ¡very ¡likely ¡ individual ¡1 ¡is ¡red ¡… ¡ ¡ … ¡unless ¡noise ¡added ¡is ¡very ¡large. ¡ ¡

Dirichlet ¡ Resampling ¡

D2 ¡ D1 ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-16
SLIDE 16

Privacy ¡Analysis: ¡Summary ¡

  • Chose ¡differen'al ¡privacy. ¡

– Guards ¡against ¡powerful ¡adversaries. ¡ ¡ – Measures ¡privacy ¡as ¡a ¡distance ¡between ¡prior ¡and ¡posterior. ¡ ¡

  • Derived ¡necessary ¡and ¡sufficient ¡condi'ons ¡when ¡OnTheMap ¡

preserves ¡privacy. ¡ ¡

  • The ¡above ¡condi'ons ¡make ¡the ¡data ¡published ¡by ¡OnTheMap ¡
  • useless. ¡ ¡

16 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-17
SLIDE 17

But, ¡breach ¡occurs ¡with ¡very ¡low ¡

  • probability. ¡

17 ¡

Noise ¡infused ¡inputs ¡ blue ¡and ¡red ¡are ¡two ¡different ¡origin ¡blocks. ¡ ¡ For ¡every ¡output ¡… ¡ O ¡

Dirichlet ¡ Resampling ¡

D2 ¡ D1 ¡ Probability ¡of ¡O ¡≈ ¡10-­‑4 ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-18
SLIDE 18

Negligible ¡func'on ¡

¡ Defini6on: ¡ ¡ f(x) ¡is ¡negligible ¡if ¡it ¡goes ¡to ¡0 ¡faster ¡than ¡the ¡inverse ¡of ¡any ¡

  • polynomial. ¡

¡e.g., ¡2-­‑x ¡and ¡e-­‑x ¡are ¡negligible ¡funcAons. ¡ ¡ ¡

18 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-19
SLIDE 19

(ε,δ)-­‑Indis'nguishability ¡

Pr[D1 ¡ ¡à ¡ ¡T] ¡ ¡ ¡≤ ¡ ¡ ¡eε ¡Pr[D2 ¡à ¡ ¡T] ¡ ¡+ ¡ ¡ ¡δ(|D2|) ¡

19 ¡

For ¡any ¡subset ¡of ¡

  • utputs ¡T ¡

O1 ¡ D2 ¡ D1 ¡ For ¡every ¡pair ¡of ¡inputs ¡ that ¡differ ¡in ¡one ¡value ¡ O2 ¡ O3 ¡ O4 ¡ If ¡T ¡occurs ¡with ¡negligible ¡probability, ¡the ¡adversary ¡ is ¡allowed ¡to ¡dis'nguish ¡between ¡D1 ¡and ¡D2 ¡by ¡a ¡ factor ¡> ¡ε ¡using ¡Oi ¡in ¡T. ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-20
SLIDE 20

Condi'ons ¡for ¡(ε,δ)-­‑Indis'nguishability ¡

Theorem ¡2: ¡ ¡ The ¡Dirichlet ¡resampling ¡algorithm ¡preserves ¡(ε,δ)-­‑ indis'nguishability ¡if ¡for ¡every ¡des'na'on ¡d, ¡the ¡noise ¡added ¡to ¡ each ¡block ¡is ¡at ¡least ¡ ¡ ¡ ¡where ¡ ¡ ¡ n(d) ¡is ¡the ¡number ¡of ¡workers ¡commu'ng ¡to ¡d ¡ and ¡m(d) ¡≤ ¡n(d). ¡

20 ¡

log ¡n(d) ¡ ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-21
SLIDE 21

Probabilis'c ¡Differen'al ¡Privacy ¡

  • (ε,δ)-­‑Indis'nguishability ¡is ¡an ¡asympto'c ¡measure ¡

– May ¡not ¡guarantee ¡privacy ¡when ¡number ¡of ¡workers ¡at ¡a ¡des'na'on ¡is ¡

  • small. ¡ ¡

Defini6on ¡(Disclosure ¡Set ¡Disc(D, ¡ε)): ¡ The ¡set ¡of ¡output ¡tables ¡that ¡breach ¡ε-­‑differen'al ¡privacy ¡for ¡D ¡ and ¡some ¡other ¡table ¡D’ ¡that ¡differs ¡from ¡D ¡in ¡one ¡value. ¡ ¡

21 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-22
SLIDE 22

Probabilis'c ¡Differen'al ¡Privacy ¡

Adversary ¡may ¡dis'nguish ¡between ¡ ¡ D1 ¡and ¡D2 ¡based ¡on ¡a ¡set ¡of ¡unlikely ¡outputs ¡ with ¡probability ¡at ¡most ¡δ ¡ ¡ ¡ ¡

22 ¡

For ¡every ¡ ¡ probable ¡output ¡ O ¡ D2 ¡ D1 ¡ For ¡every ¡pair ¡of ¡inputs ¡ that ¡differ ¡in ¡one ¡value ¡

Pr[O ¡| ¡ < ¡ ¡ ¡eε] ¡ ¡> ¡1 ¡-­‑ ¡δ ¡

Pr[D1 ¡ ¡O] ¡ Pr[D2 ¡ ¡O] ¡ ¡ ¡ ¡ ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-23
SLIDE 23
  • 1. ¡How ¡much ¡noise ¡should ¡we ¡add? ¡

¡Noise ¡required ¡per ¡block: ¡ ¡

¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡ ¡ 25x104 ¡ 11x104 ¡ 5x104 ¡ 2x104 ¡ Noise ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡

23 ¡

1 ¡million ¡original ¡and ¡synthe6c ¡workers. ¡ ¡

lesser ¡privacy ¡ Differen6al ¡Privacy ¡ Probabilis6c ¡Differen6al ¡ Privacy ¡(δ ¡= ¡10-­‑5) ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-24
SLIDE 24
  • Prob. ¡Differen'al ¡Privacy: ¡Summary ¡
  • Ignoring ¡privacy ¡breaches ¡that ¡occur ¡due ¡to ¡low ¡probability ¡
  • utputs ¡dras'cally ¡reduces ¡noise. ¡ ¡
  • Two ¡ways ¡to ¡bound ¡low ¡probability ¡outputs ¡

– (ε,δ)-­‑Indis'nguishability ¡and ¡Negligible ¡func'ons. ¡ Noise ¡required ¡for ¡privacy ¡≥ ¡(log ¡n(d)) ¡per ¡block ¡ – (ε,δ)-­‑Probabilis'c ¡differen'al ¡privacy ¡and ¡Disclosure ¡sets. ¡ Efficient ¡algorithm ¡to ¡calculate ¡noise ¡per ¡block ¡(see ¡paper). ¡ ¡

  • Does ¡probabilis'c ¡differen'al ¡privacy ¡ ¡allow ¡useful ¡informa'on ¡to ¡

be ¡published? ¡

24 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-25
SLIDE 25
  • 1. ¡How ¡much ¡noise ¡should ¡we ¡add? ¡

¡Noise ¡required ¡per ¡block: ¡ ¡

¡Privacy ¡(eε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡ ¡ 25x104 ¡ 11x104 ¡ 5x104 ¡ 2x104 ¡ Noise ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡

25 ¡

1 ¡million ¡original ¡and ¡synthe6c ¡workers. ¡ ¡

lesser ¡privacy ¡ Differen6al ¡Privacy ¡ Probabilis6c ¡Differen6al ¡ Privacy ¡(δ ¡= ¡10-­‑5) ¡

  • 2. ¡To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡

Why ¡not ¡add ¡noise ¡to ¡every ¡block? ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-26
SLIDE 26

¡Privacy ¡(ε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡

Why ¡not ¡add ¡noise ¡to ¡every ¡block? ¡

¡Noise ¡required ¡per ¡block: ¡(probabilis'c ¡differen'al ¡privacy) ¡ ¡

  • There ¡are ¡about ¡8 ¡million ¡blocks ¡on ¡the ¡map! ¡

– Total ¡noise ¡added ¡is ¡about ¡6 ¡million. ¡

  • Causes ¡non-­‑trivial ¡spurious ¡commute ¡paTerns. ¡ ¡

– Roughly ¡1 ¡million ¡fake ¡workers ¡from ¡West ¡Coast ¡(out ¡of ¡a ¡total ¡7 ¡million ¡ points ¡in ¡D+A). ¡ ¡ – Hence, ¡1/7 ¡of ¡the ¡synthe'c ¡data ¡have ¡residences ¡in ¡West ¡Coast ¡and ¡work ¡in ¡ Washington ¡DC. ¡ ¡

lesser ¡privacy ¡

1 ¡million ¡original ¡ and ¡synthe6c ¡

  • workers. ¡ ¡

26 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-27
SLIDE 27

¡Privacy ¡(ε ¡=) ¡ 5 ¡ 10 ¡ 20 ¡ 50 ¡ Noise ¡per ¡block ¡ 17.5 ¡ 5.5 ¡ 2.16 ¡ 0.74 ¡

  • 2. ¡To ¡which ¡blocks ¡should ¡we ¡add ¡noise? ¡

¡Noise ¡required ¡per ¡block: ¡(probabilis'c ¡differen'al ¡privacy) ¡ ¡ ¡ ¡Adding ¡noise ¡to ¡all ¡blocks ¡creates ¡spurious ¡commute ¡paTerns. ¡ ¡ ¡

lesser ¡privacy ¡

27 ¡

1 ¡million ¡original ¡ and ¡synthe6c ¡

  • workers. ¡ ¡

Why ¡not ¡add ¡noise ¡only ¡to ¡blocks ¡ that ¡appear ¡in ¡the ¡original ¡data? ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-28
SLIDE 28

Theorem ¡3: ¡Adding ¡noise ¡only ¡to ¡blocks ¡that ¡ appear ¡in ¡the ¡data ¡breaches ¡privacy. ¡ ¡

If ¡a ¡block ¡b ¡does ¡not ¡appear ¡in ¡the ¡original ¡data ¡ and ¡no ¡noise ¡is ¡added ¡to ¡b ¡ ¡ ¡ then ¡b ¡cannot ¡appear ¡in ¡the ¡synthe'c ¡data. ¡

28 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-29
SLIDE 29

Theorem ¡3: ¡Adding ¡noise ¡only ¡to ¡blocks ¡that ¡ appear ¡in ¡the ¡data ¡breaches ¡privacy. ¡ ¡

  • ¡Worker ¡W ¡comes ¡from ¡Somerset ¡or ¡Faye9e. ¡ ¡
  • ¡No ¡one ¡else ¡comes ¡from ¡there. ¡
  • ¡If ¡ ¡
  • ¡S ¡has ¡a ¡synthe6c ¡worker ¡from ¡Somerset ¡
  • ¡Then ¡ ¡
  • ¡W ¡comes ¡from ¡Somerset!! ¡

¡ ¡ Somerset ¡ ¡ ¡ ¡1 ¡ Faye9e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ Somerset ¡ ¡ ¡ ¡0 ¡ Faye9e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡1 ¡ ¡

29 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-30
SLIDE 30

Ignoring ¡outliers ¡degrades ¡u'lity ¡

  • ¡Each ¡of ¡these ¡points ¡are ¡outliers. ¡
  • ¡Contribute ¡to ¡about ¡half ¡the ¡
  • workers. ¡

30 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-31
SLIDE 31

Our ¡solu'on ¡to ¡“Where ¡to ¡add ¡noise?” ¡

Step ¡1 ¡: ¡Coarsen ¡the ¡domain ¡

– Based ¡on ¡an ¡exis'ng ¡public ¡dataset ¡(Census ¡Transporta'on ¡Planning ¡ Package, ¡CTPP). ¡ ¡

31 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-32
SLIDE 32

Our ¡solu'on ¡to ¡“Where ¡to ¡add ¡noise?” ¡

Step ¡1 ¡: ¡Coarsen ¡the ¡domain ¡ Step ¡2: ¡Probabilis6cally ¡drop ¡blocks ¡with ¡0 ¡support ¡

– Pick ¡a ¡func'on ¡f: ¡{b1, ¡…, ¡bk ¡} ¡à ¡(0,1] ¡ ¡ ¡ ¡(based ¡on ¡external ¡data) ¡ – For ¡every ¡block ¡b ¡with ¡0 ¡support, ¡ ¡ ignore ¡b ¡with ¡probability ¡f(b) ¡

Theorem ¡4: ¡ ¡ Parameter ¡ε ¡increases ¡by ¡

32 ¡

b ¡ ¡ max ¡( ¡max ¡( ¡2 ¡noise ¡per ¡block, ¡f(b) ¡) ¡) ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-33
SLIDE 33

U'lity ¡of ¡the ¡provably ¡private ¡algorithm ¡

Experimental ¡Setup: ¡

  • OTM: ¡Currently ¡published ¡OnTheMap ¡

data ¡used ¡as ¡original ¡data. ¡ ¡

  • All ¡des'na'ons ¡in ¡Minnesota. ¡
  • 120, ¡690 ¡origins ¡per ¡des'na'on. ¡ ¡

– chosen ¡by ¡pruning ¡out ¡blocks ¡that ¡are ¡> ¡100 ¡ miles ¡from ¡the ¡des'na'on. ¡ ¡

  • ε ¡= ¡100, ¡δ ¡= ¡10-­‑5 ¡
  • Addi'onal ¡leakage ¡due ¡to ¡probabilis'c ¡ ¡

pruning ¡= ¡4 ¡ ¡ ¡ ¡ ¡ ¡(min ¡f(b) ¡= ¡0.0378) ¡ ¡

UAlity ¡measured ¡by ¡average ¡commute ¡distance ¡ for ¡each ¡desAnaAon ¡block. ¡ ¡

33 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-34
SLIDE 34

U'lity ¡of ¡the ¡provably ¡private ¡algorithm ¡

UAlity ¡measured ¡by ¡average ¡commute ¡distance ¡ for ¡each ¡desAnaAon ¡block. ¡ ¡

Short ¡commutes ¡have ¡low ¡ error ¡in ¡both ¡sparse ¡and ¡ dense ¡regions. ¡

34 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-35
SLIDE 35

U'lity ¡of ¡the ¡provably ¡private ¡algorithm ¡

35 ¡

Long ¡commutes ¡in ¡ ¡ sparse ¡regions ¡are ¡

  • veres'mated. ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-36
SLIDE 36

OnTheMap: ¡Summary ¡

  • OnTheMap: ¡A ¡real ¡census ¡applica'on. ¡

– Synthe'cally ¡generated ¡data ¡published ¡for ¡economic ¡research. ¡ – Currently, ¡privacy ¡implica'ons ¡are ¡poorly ¡understood. ¡

  • Parameters ¡to ¡the ¡algorithm ¡are ¡state ¡secret. ¡ ¡
  • First ¡formal ¡privacy ¡analysis ¡of ¡this ¡applica'on. ¡ ¡

– Analyzed ¡the ¡privacy ¡of ¡OnTheMap ¡using ¡variants ¡of ¡Differen'al ¡Privacy. ¡ ¡ – First ¡solu'ons ¡to ¡publish ¡useful ¡informa'on ¡despite ¡sparse ¡data. ¡

36 ¡ Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡

slide-37
SLIDE 37

References ¡

[M ¡et ¡al ¡ICDE ¡‘08] ¡

  • A. ¡Machanavajjhala, ¡D. ¡Kifer, ¡J. ¡Abowd, ¡J. ¡Gehrke, ¡L. ¡Vilhuber, ¡“Privacy: ¡From ¡Theory ¡to ¡

PracAce ¡on ¡the ¡Map”, ¡ICDE ¡ ¡2008 ¡ ¡

Lecture ¡18: ¡590.03 ¡Fall ¡13 ¡ 37 ¡