Measures of Anonymity/Privacy: k-Anonymity, L-Diversity, - - PowerPoint PPT Presentation

measures of anonymity privacy k anonymity l diversity t
SMART_READER_LITE
LIVE PREVIEW

Measures of Anonymity/Privacy: k-Anonymity, L-Diversity, - - PowerPoint PPT Presentation

Measures of Anonymity/Privacy: k-Anonymity, L-Diversity, t-Closeness CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 4 : 590.03 Fall 12 1


slide-1
SLIDE 1

Measures ¡of ¡Anonymity/Privacy: ¡ ¡ k-­‑Anonymity, ¡L-­‑Diversity, ¡t-­‑Closeness ¡

CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡

1 ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡

slide-2
SLIDE 2

Announcements ¡

  • Project ¡ideas ¡are ¡posted ¡on ¡the ¡site. ¡ ¡

– You ¡are ¡welcome ¡to ¡send ¡me ¡(or ¡talk ¡to ¡me ¡about) ¡your ¡own ¡ideas. ¡

¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 2 ¡

h"p://www.cs.duke.edu/courses/fall13/compsci590.3/project/index.html ¡

slide-3
SLIDE 3

Outline ¡

  • Measures ¡of ¡Anonymity/Privacy ¡

– K-­‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-­‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-­‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡

  • Algorithms ¡for ¡anonymous ¡data ¡publishing ¡

– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 3 ¡

slide-4
SLIDE 4

Offline ¡Data ¡Publishing ¡

Database ¡

Microdata ¡

Researcher ¡ Data ¡at ¡the ¡granularity ¡of ¡ individuals ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 4 ¡

slide-5
SLIDE 5

Naïve ¡AnonymizaWon ¡is ¡suscepWble ¡to ¡ Linkage ¡Adacks ¡

Public ¡InformaWon ¡

Quasi-­‑ ¡ IdenIfier ¡

Zip Age Nationality

Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Viral 13053 23 American Viral 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Viral 14850 59 American Viral 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 5 ¡

slide-6
SLIDE 6

We ¡saw ¡examples ¡before ¡… ¡

  • Massachuseds ¡governor ¡adack ¡
  • AOL ¡privacy ¡breach ¡
  • Neglix ¡adack ¡
  • Social ¡Network ¡adacks ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 6 ¡

slide-7
SLIDE 7

K-­‑Anonymity ¡

[SamaraW ¡et ¡al, ¡PODS ¡1998] ¡

  • Generalize, ¡modify, ¡or ¡distort ¡quasi-­‑idenWfier ¡values ¡so ¡that ¡no ¡

individual ¡is ¡uniquely ¡idenWfiable ¡from ¡a ¡group ¡of ¡k ¡

  • In ¡SQL, ¡table ¡T ¡is ¡k-­‑anonymous ¡if ¡each ¡

¡ ¡ ¡ ¡SELECT COUNT(*) FROM T GROUP BY Quasi-Identifier ¡is ¡≥ ¡k ¡ ¡

  • Parameter ¡k ¡indicates ¡the ¡“degree” ¡of ¡anonymity ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 7 ¡

slide-8
SLIDE 8

Example ¡1: ¡GeneralizaWon ¡(Coarsening) ¡

Zip Age Nationality

Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer

Zip Age Nationality

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

Equivalence ¡Class: ¡Group ¡

  • f ¡k-­‑anonymous ¡records ¡

that ¡share ¡the ¡same ¡value ¡ for ¡Quasi-­‑idenWfier ¡ adribtutes ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 8 ¡

slide-9
SLIDE 9

Example ¡2: ¡Clustering ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 9 ¡

slide-10
SLIDE 10

Example ¡3: ¡MicroaggregaWon ¡

Zip Age Nationality

Disease

4 tuples Zip code = 130** 23 < Age < 29 Average(age) = 25 2 Heart and 2 Flu 4 tuples Zip = 1485* 47 < Age < 59 Average(age) = 53 1 Cancer, 1 Heart and 2 Flu 4 tuples Zip = 130** 31 < Age < 37 Avergae(age) = 34 All Cancer patients Zip Age Nationality

Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 10 ¡

slide-11
SLIDE 11

K-­‑Anonymity ¡

  • Joining ¡the ¡published ¡data ¡to ¡an ¡external ¡dataset ¡using ¡quasi-­‑

idenWfiers ¡results ¡in ¡at ¡least ¡k ¡records ¡per ¡quasi-­‑idenWfier ¡

  • combinaWon. ¡
  • What ¡is ¡a ¡quasi-­‑idenWfier? ¡

– CombinaWon ¡of ¡adributes ¡(that ¡an ¡adversary ¡may ¡know) ¡that ¡uniquely ¡ idenWfy ¡a ¡large ¡fracWon ¡of ¡the ¡populaWon. ¡ – There ¡can ¡be ¡many ¡sets ¡of ¡quasi-­‑idenWfiers. ¡ ¡ ¡ If ¡Q ¡= ¡{B, ¡Z, ¡S} ¡is ¡a ¡quasi-­‑idenWfier, ¡then ¡Q ¡+ ¡{N} ¡is ¡also ¡a ¡quasi-­‑idenWfier. ¡ ¡ – Need ¡to ¡guarantee ¡k-­‑anonymity ¡against ¡the ¡largest ¡set ¡of ¡quasi-­‑idenWfiers ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 11 ¡

slide-12
SLIDE 12

Does ¡k-­‑Anonymity ¡guarantee ¡ ¡ sufficient ¡privacy ¡? ¡

12 ¡

slide-13
SLIDE 13

Adack ¡1: ¡Homogeneity ¡

¡ ¡ ¡ ¡ ¡

Bob ¡has ¡Cancer ¡ ¡

Zip Age Nat.

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

Name Zip Age

Nat. Bob 13053 35 ?? 13 ¡

slide-14
SLIDE 14

Zip Age Nat.

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

Adack ¡2: ¡Background ¡knowledge ¡

Name Zip Age

Nat. Umeko 13068 24 Japan 14 ¡

slide-15
SLIDE 15

Zip Age Nat.

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

Adack ¡2: ¡Background ¡knowledge ¡

Name Zip Age

Nat. Umeko 13068 24 Japan 15 ¡

Japanese ¡have ¡a ¡very ¡low ¡ incidence ¡of ¡Heart ¡disease. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Umeko ¡has ¡Flu ¡ ¡

slide-16
SLIDE 16

Zip Age Nat.

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

Recall ¡the ¡adacks ¡on ¡k-­‑Anonymity ¡

Bob ¡has ¡Cancer ¡

Name Zip Age

Nat. Bob 13053 35 ??

Umeko ¡has ¡Flu ¡

Name Zip Age

Nat. Umeko 13068 24 Japan 16 ¡

Japanese ¡have ¡a ¡very ¡low ¡ incidence ¡of ¡Heart ¡disease. ¡

slide-17
SLIDE 17

Zip Age Nat.

Disease 1306* <=40 * Heart 1306* <=40 * Flu 1306* <=40 * Cancer 1306* <=40 * Cancer 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 1305* <=40 * Heart 1305* <=40 * Flu 1305* <=40 * Cancer 1305* <=40 * Cancer

3-­‑Diverse ¡Table ¡

Bob ¡has ¡?? ¡

Name Zip Age

Nat. Bob 13053 35 ?? 17 ¡

Umeko ¡has ¡?? ¡

Name Zip Age

Nat. Umeko 13068 24 Japan

Japanese ¡have ¡a ¡very ¡low ¡ incidence ¡of ¡Heart ¡disease. ¡

L-­‑Diversity ¡Principle: ¡ ¡ Every ¡group ¡of ¡tuples ¡with ¡the ¡same ¡ ¡ Q-­‑ID ¡values ¡has ¡≥ ¡L ¡disInct ¡sensiIve ¡ values ¡of ¡roughly ¡equal ¡proporIons. ¡ ¡

slide-18
SLIDE 18

L-­‑Diversity: ¡Privacy ¡Beyond ¡K-­‑Anonymity ¡

¡ L-­‑Diversity ¡Principle: ¡ ¡ Every ¡group ¡of ¡tuples ¡with ¡the ¡same ¡Q-­‑ID ¡values ¡has ¡ ¡ ≥ ¡L ¡disInct ¡“well ¡represented” ¡sensiIve ¡values. ¡ ¡ Ques%ons: ¡

  • What ¡kind ¡of ¡adversarial ¡adacks ¡do ¡we ¡guard ¡against? ¡
  • Why ¡is ¡this ¡the ¡right ¡definiWon ¡for ¡privacy? ¡

– What ¡does ¡the ¡parameter ¡L ¡signify? ¡

18 ¡

[Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡

slide-19
SLIDE 19

Privacy ¡SpecificaWon ¡for ¡L-­‑Diversity ¡

  • The ¡link ¡between ¡idenWty ¡and ¡adribute ¡value ¡is ¡the ¡sensiWve ¡
  • informaWon. ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡“Does ¡Bob ¡have ¡Cancer? ¡Heart ¡disease? ¡Flu?” ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡“Does ¡Umeko ¡have ¡Cancer? ¡Heart ¡disease? ¡Flu?” ¡ ¡

  • Adversary ¡knows ¡≤ ¡L-­‑2 ¡negaWon ¡statements. ¡

¡ ¡ ¡ ¡ ¡“Umeko ¡does ¡not ¡have ¡Heart ¡Disease.” ¡

– Data ¡Publisher ¡may ¡not ¡know ¡exact ¡adversarial ¡knowledge ¡

  • Privacy ¡is ¡breached ¡when ¡idenWty ¡can ¡be ¡linked ¡to ¡adribute ¡value ¡

with ¡high ¡probability ¡ ¡ ¡ ¡ ¡Pr[ ¡“Bob ¡has ¡Cancer” ¡| ¡published ¡table, ¡adv. ¡knowledge] ¡> ¡t ¡

19 ¡

Individual ¡u ¡does ¡not ¡have ¡ a ¡specific ¡disease ¡s ¡

slide-20
SLIDE 20

Set ¡of ¡all ¡possible ¡worlds ¡

Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡

20 ¡

CalculaWng ¡ProbabiliWes ¡

Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡

… ¡ ¡

Every ¡world ¡represents ¡ a ¡unique ¡assignment ¡of ¡ diseases ¡to ¡individuals ¡

World ¡1 ¡ World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡

slide-21
SLIDE 21

Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡

21 ¡

CalculaWng ¡ProbabiliWes ¡

Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡

… ¡ ¡

T* ¡

World ¡1 ¡ World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡

Set ¡of ¡worlds ¡consistent ¡with ¡T* ¡ Set ¡of ¡all ¡possible ¡worlds ¡

slide-22
SLIDE 22

Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡

22 ¡

CalculaWng ¡ProbabiliWes ¡

Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡

… ¡ ¡

T* ¡ Pr[Umeko ¡has ¡Flu| ¡B, ¡T*] ¡ ¡= ¡ ¡ ¡ ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡where ¡Umeko ¡has ¡Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡ ¡ ¡

= ¡1 ¡

B: ¡Umeko.Disease ¡≠ ¡Heart ¡

Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡

Set ¡of ¡worlds ¡consistent ¡with ¡T* ¡ Set ¡of ¡worlds ¡consistent ¡ ¡ with ¡B, ¡T* ¡

World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡

slide-23
SLIDE 23

Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡

CalculaWng ¡ProbabiliWes ¡

T* ¡ Pr[Umeko ¡has ¡Flu| ¡B, ¡T*] ¡ ¡= ¡ ¡ ¡ ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡where ¡Umeko ¡has ¡Flu ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡ ¡ ¡ B: ¡Umeko.Disease ¡≠ ¡Heart ¡

CounWng ¡the ¡# ¡worlds ¡consistent ¡ with ¡B, ¡T* ¡is ¡tedious. ¡

(and ¡is ¡intractable ¡for ¡more ¡complex ¡forms ¡of ¡B) ¡

Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡

23 ¡

slide-24
SLIDE 24

Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡

CalculaWng ¡ProbabiliWes ¡

T* ¡ Pr[Umeko ¡has ¡Flu| ¡B, ¡T*] ¡ ¡= ¡ ¡ ¡ ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡where ¡Umeko ¡has ¡Flu ¡ ¡ ¡# ¡worlds ¡consistent ¡with ¡B, ¡T* ¡ ¡ ¡ B: ¡Umeko.Disease ¡≠ ¡Heart ¡ Theorem: ¡ # ¡worlds ¡consistent ¡with ¡ ¡B, ¡T* ¡where ¡ Umeko ¡has ¡Flu ¡is ¡ ¡(when ¡B ¡has ¡negaIon ¡statements) ¡ ¡ proporIonal ¡to ¡ ¡ ¡ # ¡tuples ¡in ¡Umeko’s ¡group ¡who ¡have ¡Flu. ¡

Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡

24 ¡

slide-25
SLIDE 25

We ¡know ¡… ¡

  • … ¡what ¡the ¡privacy ¡model ¡is. ¡
  • ¡… ¡how ¡to ¡compute: ¡

Pr[ ¡“Bob ¡has ¡Cancer” ¡| ¡T* ¡, ¡adv. ¡knowledge] ¡ ¡Therefore, ¡in ¡order ¡for ¡privacy, ¡ ¡ ¡ check ¡for ¡each ¡individual ¡u, ¡and ¡each ¡disease ¡s ¡ ¡Pr[ ¡“u ¡has ¡disease ¡s” ¡| ¡T*, ¡ ¡adv. ¡knowledge ¡about ¡u] ¡ ¡ ¡< ¡ ¡t ¡ ¡ ¡And ¡we ¡are ¡done ¡… ¡?? ¡ ¡ ¡ ¡

25 ¡

Data ¡publisher ¡does ¡not ¡know ¡the ¡ ¡adversary’s ¡ knowledge ¡about ¡u ¡

  • ¡Different ¡adversaries ¡have ¡varying ¡amounts ¡of ¡knowledge. ¡
  • ¡Adversary ¡may ¡have ¡different ¡knowledge ¡about ¡different ¡
  • individuals. ¡ ¡
  • adv. ¡knowledge ¡about ¡u] ¡

NO ¡

slide-26
SLIDE 26
  • Limit ¡adversarial ¡knowledge ¡

– Knows ¡≤ ¡(L-­‑2) ¡negaWon ¡statements ¡of ¡the ¡form ¡ ¡ “Umeko ¡does ¡not ¡have ¡a ¡Heart ¡disease.” ¡

  • Consider ¡the ¡worst ¡case ¡

– Consider ¡all ¡possible ¡conjuncWons ¡of ¡ ¡≤ ¡(L-­‑2) ¡statements ¡

L-­‑Diversity: ¡

Guarding ¡against ¡unknown ¡adversarial ¡knowledge. ¡

26 ¡

At ¡least ¡L ¡sensiWve ¡values ¡should ¡ appear ¡in ¡every ¡group ¡

Cancer ¡ ¡ ¡10 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡

L ¡= ¡5 ¡ Pr[Bob ¡has ¡Cancer] ¡ ¡= ¡ ¡ ¡1 ¡

slide-27
SLIDE 27

Guarding ¡against ¡unknown ¡adversarial ¡ knowledge ¡

27 ¡

The ¡L ¡disWnct ¡sensiWve ¡values ¡in ¡ each ¡group ¡should ¡be ¡roughly ¡of ¡ equal ¡proporWons ¡

Cancer ¡ ¡ ¡1000 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡ Malaria ¡ ¡ ¡ ¡1 ¡

L ¡= ¡5 ¡ Pr[Bob ¡has ¡Cancer] ¡ ¡≈ ¡ ¡1 ¡

  • Limit ¡adversarial ¡knowledge ¡

– Knows ¡≤ ¡(L-­‑2) ¡negaWon ¡statements ¡of ¡the ¡form ¡ ¡ “Umeko ¡does ¡not ¡have ¡a ¡Heart ¡disease.” ¡

  • Consider ¡the ¡worst ¡case ¡

– Consider ¡all ¡possible ¡conjuncWons ¡of ¡ ¡≤ ¡(L-­‑2) ¡statements ¡

slide-28
SLIDE 28

Guarding ¡against ¡unknown ¡adversarial ¡ knowledge ¡

28 ¡

The ¡L ¡disWnct ¡sensiWve ¡values ¡in ¡ each ¡group ¡should ¡be ¡roughly ¡of ¡ equal ¡proporWons ¡

Cancer ¡ ¡ ¡1000 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡ Malaria ¡ ¡ ¡ ¡1 ¡

L ¡= ¡5 ¡ Pr[Bob ¡has ¡Cancer] ¡ ¡≈ ¡ ¡1 ¡ Let ¡ ¡t ¡= ¡0.75. ¡Privacy ¡of ¡individuals ¡in ¡the ¡above ¡ group ¡is ¡ensured ¡if ¡, ¡ ¡

< ¡0.75 ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡# ¡Cancer ¡ ¡ ¡ ¡ ¡ # ¡Cancer ¡+ ¡# ¡Malaria ¡

slide-29
SLIDE 29

Theorem: ¡ For ¡all ¡groups ¡g, ¡for ¡all ¡s ¡in ¡S, ¡and ¡for ¡all ¡B, ¡|B| ¡≤ ¡(L-­‑2) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡equivalent ¡to ¡ ¡ ¡

¡ ¡ ¡n(g, ¡s) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Σs’ ¡ε ¡(S\B) ¡n(g, ¡s’) ¡

≤ ¡ ¡ ¡ ¡ ¡t ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡n(g, ¡s1) ¡ n(g, ¡s1) ¡+ ¡n(g, ¡sL) ¡+ ¡n(g, ¡sL+1) ¡+ ¡… ¡+ ¡n(g, ¡sm) ¡ ¡ ≤ ¡t ¡ n(g, ¡s) ¡

… ¡ ¡ … ¡ ¡

s1 ¡ s2 ¡ s3 ¡ sL-­‑1 ¡ sL ¡ sL+1 ¡ sm ¡

B ¡= ¡{s2, ¡…, ¡sL-­‑1} ¡

29 ¡

slide-30
SLIDE 30

Outline ¡

  • Measures ¡of ¡Anonymity/Privacy ¡

– K-­‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-­‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-­‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡

  • Algorithms ¡for ¡anonymous ¡data ¡publishing ¡

– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 30 ¡

slide-31
SLIDE 31

Bounding ¡posterior ¡probability ¡alone ¡may ¡ not ¡provide ¡privacy ¡

  • Bob: ¡ ¡

– 52 ¡years ¡old ¡ – Earns ¡11K ¡ – Lives ¡in ¡47909 ¡

  • Suppose ¡adversary ¡knows ¡ ¡

distribuWon ¡of ¡disease ¡in ¡ ¡ the ¡enWre ¡table. ¡ ¡

– Pr[Bob ¡has ¡Flu] ¡= ¡1/9 ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 31 ¡

slide-32
SLIDE 32

Bounding ¡posterior ¡probability ¡alone ¡may ¡ not ¡provide ¡privacy ¡

  • Bob: ¡ ¡

– 52 ¡years ¡old ¡ – Earns ¡11K ¡ – Lives ¡in ¡47909 ¡

  • A•er ¡3-­‑diverse ¡table ¡is ¡published. ¡ ¡

– Pr[Bob ¡has ¡Flu] ¡= ¡1/3 ¡

  • 1/9 ¡à ¡1/3 ¡is ¡a ¡large ¡jump ¡in ¡probability ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 32 ¡

slide-33
SLIDE 33

T-­‑closeness ¡principle ¡

DistribuIon ¡of ¡sensiIve ¡a_ribute ¡within ¡ ¡ each ¡equivalence ¡class ¡should ¡be ¡“close” ¡ ¡ to ¡the ¡distribuIon ¡of ¡sensiIve ¡a_ribute ¡ ¡ in ¡the ¡enIre ¡table. ¡ ¡ ¡

  • ¡Closeness ¡is ¡measured ¡using ¡Earth ¡Mover’s ¡Distance. ¡ ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 33 ¡

slide-34
SLIDE 34

Earth ¡Mover’s ¡Distance ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 34 ¡

v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡

slide-35
SLIDE 35

Earth ¡Mover’s ¡Distance ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 35 ¡

Distance ¡= ¡Cost ¡of ¡moving ¡mass ¡from ¡v2 ¡to ¡v1 ¡(f21) ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡

slide-36
SLIDE 36

Earth ¡Mover’s ¡Distance ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 36 ¡

Distance ¡= ¡Cost ¡of ¡moving ¡mass ¡from ¡v2 ¡to ¡v1 ¡(f21) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡cost ¡of ¡moving ¡mass ¡from ¡v5 ¡to ¡v1 ¡(f51) ¡ If ¡the ¡values ¡are ¡numeric, ¡cost ¡can ¡depend ¡not ¡only ¡on ¡ ¡ amount ¡of ¡“earth” ¡moved, ¡but ¡also ¡the ¡distance ¡it ¡is ¡moved ¡ ¡ (d21 ¡and ¡d51). ¡ ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡

slide-37
SLIDE 37

Earth ¡Movers ¡Distance ¡

Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 37 ¡

Original ¡probability ¡mass ¡in ¡the ¡ ¡ two ¡distribuWons ¡p ¡and ¡q ¡which ¡ ¡ are ¡being ¡compared ¡

slide-38
SLIDE 38

Outline ¡

  • Measures ¡of ¡Anonymity/Privacy ¡

– K-­‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-­‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-­‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡

  • Algorithms ¡for ¡anonymous ¡data ¡publishing ¡

– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 38 ¡

slide-39
SLIDE 39

GeneralizaWon ¡

  • Coarsen ¡(or ¡suppress) ¡an ¡adribute ¡to ¡a ¡more ¡general ¡value. ¡
  • Numeric ¡Values ¡

– Suppress ¡low ¡significant ¡bits: ¡ ¡ ¡12345 ¡-­‑> ¡1234* ¡-­‑> ¡123** ¡ – Ranges: ¡23 ¡-­‑> ¡[20-­‑25]; ¡(30.5N ¡20.3E) ¡-­‑> ¡box(30N-­‑31N,20E-­‑22E) ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 39 ¡

GeneraIon ¡Step ¡

slide-40
SLIDE 40

GeneralizaWon ¡

  • Coarsen ¡(or ¡suppress) ¡an ¡adribute ¡to ¡a ¡more ¡general ¡value. ¡
  • Categorical ¡Values ¡

– Domain ¡GeneralizaWon ¡Hierarchies ¡ ¡ State-­‑gov ¡occupaWon ¡à ¡Government ¡occupaWon ¡à ¡Workclass ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 40 ¡

Equivalent ¡to ¡ suppressing ¡the ¡value ¡ GeneraIon ¡Step ¡

slide-41
SLIDE 41

Full ¡Domain ¡vs ¡Local ¡GeneralizaWon ¡

  • Full ¡Domain: ¡ ¡

Generalize ¡all ¡values ¡in ¡an ¡adribute ¡to ¡the ¡same ¡“level” ¡

– Every ¡occurrence ¡of ¡12345 ¡is ¡replaced ¡with ¡1234* ¡in ¡the ¡database. ¡ ¡ – Answering ¡queries ¡on ¡such ¡datasets ¡is ¡easier. ¡ ¡

  • Local ¡GeneralizaWon: ¡

Values ¡can ¡be ¡generalized ¡to ¡different ¡levels. ¡

– 12345 ¡in ¡one ¡tuple ¡may ¡be ¡generalized ¡to ¡1234*, ¡and ¡in ¡another ¡tuple ¡ enWrely ¡suppressed. ¡ – Allows ¡k-­‑anonymous ¡datasets ¡with ¡lesser ¡informaWon ¡loss. ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 41 ¡

slide-42
SLIDE 42

GeneralizaWon ¡La„ce ¡

  • GeneralizaWon ¡step ¡D ¡-­‑> ¡D’: ¡ ¡

D’ ¡is ¡constructed ¡from ¡D ¡using ¡one ¡generalizaWon ¡step. ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 42 ¡ Nationality Zip

* 1306* * 1305* * 1485*

Nationality Zip

American 130** Japanese 130** Japanese 148**

Nationality Zip

American 1306* Japanese 1305* Japanese 1485*

Nationality Zip

* 130** * 130** * 148**

Suppress ¡naIonality ¡ Suppress ¡tens ¡digit ¡of ¡Zip ¡ Suppress ¡naIonality ¡ Suppress ¡tens ¡digit ¡of ¡Zip ¡

slide-43
SLIDE 43

UWlity: ¡QuanWfying ¡error ¡

  • Each ¡generalizaWon ¡step ¡introduces ¡error. ¡
  • Larger ¡equivalence ¡classes ¡also ¡may ¡lead ¡to ¡more ¡error. ¡ ¡ ¡

UIlity ¡Metrics: ¡ ¡

  • Average ¡size ¡of ¡equivalence ¡classes ¡
  • Number ¡of ¡steps ¡in ¡generalizaWon ¡la„ce ¡
  • Discernibility ¡metric ¡

– Assign ¡a ¡penalty ¡to ¡each ¡tuple ¡ – Penalty ¡depends ¡on ¡how ¡many ¡other ¡tuples ¡are ¡indisWnguishable ¡from ¡it ¡

¡Do ¡not ¡take ¡into ¡account ¡the ¡distribuIon ¡of ¡values ¡in ¡each ¡ equivalence ¡class. ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 43 ¡

slide-44
SLIDE 44

UWlity ¡Metrics ¡

  • ClassificaWon ¡metric ¡

– Assign ¡a ¡penalty ¡to ¡each ¡tuple ¡t: ¡

  • If ¡t‘s ¡sensiWve ¡value ¡== ¡majority ¡sensiWve ¡value ¡in ¡the ¡group: ¡Penalty ¡= ¡0 ¡
  • Otherwise: ¡Penalty ¡= ¡size ¡of ¡equivalence ¡class ¡

¡Does ¡not ¡take ¡into ¡account ¡the ¡distribuIon ¡of ¡the ¡quasi-­‑ idenIfier ¡a"ributes. ¡ ¡

  • InformaWon ¡Loss ¡

– Penalty ¡for ¡each ¡tuple ¡= ¡1 ¡-­‑ ¡1/ ¡# ¡values ¡that ¡can ¡generalize ¡to ¡that ¡tuple ¡ – E.g., ¡Penalty ¡(14850, ¡47) ¡= ¡1 ¡– ¡1 ¡/1 ¡= ¡0 ¡ – Penalty(1485*, ¡[40-­‑50]) ¡= ¡1 ¡– ¡1 ¡/ ¡(10*10) ¡= ¡.99 ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 44 ¡

slide-45
SLIDE 45

UWlity ¡Metrics ¡

KL-­‑Divergence: ¡

  • Suppose ¡records ¡were ¡sampled ¡from ¡some ¡mulW-­‑dimensional ¡

distribuWon ¡F ¡ ¡

– iid ¡(idenWcally ¡and ¡independently ¡distributed) ¡

  • Given ¡a ¡table, ¡we ¡can ¡esWmate ¡F ¡with ¡the ¡empirical ¡distribuWon ¡F’ ¡

¡ F’(14850, ¡47, ¡American) ¡ ¡ = ¡ ¡ ¡fracWon ¡of ¡tuples ¡in ¡the ¡database ¡with ¡ ¡ ¡ ¡ ¡ ¡ ¡Zip ¡= ¡14850 ¡AND ¡Age=47 ¡AND ¡NaWonality ¡= ¡American ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 45 ¡

slide-46
SLIDE 46

UWlity ¡Metrics ¡

KL-­‑Divergence: ¡

  • ¡Similarly, ¡given ¡a ¡k-­‑anonymous ¡table, ¡we ¡can ¡compute ¡the ¡empirical ¡

distribuWon ¡F’k-­‑anon ¡ F’k-­‑anon(14850, ¡47, ¡American) ¡ ¡

= ¡ ¡ ¡1/N ¡* ¡(Σequivalence ¡class ¡C ¡P[(14850, ¡47, ¡American) ¡in ¡C] ¡* ¡|C|) ¡

¡ ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 46 ¡

slide-47
SLIDE 47

Example ¡

Zip Age Nationality

Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer

F’(13053, ¡37, ¡Indian) ¡= ¡ 1/12 ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 47 ¡

slide-48
SLIDE 48

Example ¡

Zip Age Nationality

Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer

F’k-­‑anon(13053, ¡37, ¡Indian) ¡= ¡ ¡ ¡ ¡= ¡1/12 ¡(|C3| ¡* ¡P[(13053, ¡37, ¡Indian) ¡in ¡C3]) ¡ ¡ ¡= ¡1/12 ¡* ¡4 ¡* ¡1/(100*10) ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 48 ¡

slide-49
SLIDE 49

UWlity ¡Metrics ¡

Distance ¡between ¡F’ ¡and ¡F’k-­‑anon ¡is ¡a ¡measure ¡ ¡

  • f ¡the ¡error ¡due ¡to ¡anonymizaWon ¡

¡ KL-­‑Divergence: ¡ ¡ ¡ ¡

¡ where ¡p(x) ¡is ¡esWmated ¡using ¡the ¡empirical ¡distribuWon ¡F’, ¡ ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡panon(x) ¡is ¡esWmated ¡using ¡F’k-­‑anon ¡ ¡

¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 49 ¡

slide-50
SLIDE 50

K-­‑AnonymizaWon ¡Problem ¡

Given ¡a ¡table ¡D, ¡find ¡a ¡table ¡D’ ¡such ¡that ¡ ¡

  • D’ ¡saWsfies ¡the ¡k-­‑anonymity ¡condiWon ¡
  • D’ ¡has ¡the ¡maximum ¡uWlity ¡(minimum ¡informaWon ¡loss) ¡
  • NP-­‑Hard ¡[Meyerson ¡& ¡Williams, ¡PODS ¡2004] ¡

– ReducWon ¡from ¡the ¡k-­‑dimensional ¡matching ¡problem. ¡ – There ¡is ¡a ¡log ¡k ¡approximaWon ¡algorithm ¡for ¡some ¡uWlity ¡metrics. ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 50 ¡

slide-51
SLIDE 51

Monotonicity ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 51 ¡ Nationality Zip

* 1306* * 1305* * 1485*

Nationality Zip

American 130** Japanese 130** Japanese 148**

Nationality Zip

American 1306* Japanese 1305* Japanese 1485*

Nationality Zip

* 130** * 130** * 148**

More ¡Privacy ¡ Lesser ¡UIlity ¡ Lesser ¡Privacy ¡ More ¡UIlity ¡

slide-52
SLIDE 52

Monotonicity ¡

  • In ¡a ¡single ¡generalizaWon ¡step ¡D ¡-­‑> ¡D’, ¡new ¡equivalence ¡classes ¡

are ¡created ¡by ¡merging ¡exisWng ¡equivalence ¡classes. ¡ ¡

  • If ¡D ¡saWsfies ¡k-­‑anonymity, ¡then ¡D’ ¡also ¡saWsfies ¡k-­‑anonymity ¡ ¡

– Equivalence ¡classes ¡are ¡only ¡becoming ¡bigger. ¡ ¡

  • Same ¡is ¡true ¡for ¡L-­‑Diversity ¡and ¡t-­‑Closeness. ¡ ¡
  • D’ ¡has ¡lesser ¡uWlity ¡than ¡D ¡

– IntuiWvely ¡true: ¡more ¡informaWon ¡is ¡hidden ¡in ¡D’ ¡ – Can ¡be ¡formally ¡shown ¡for ¡all ¡the ¡uWlity ¡metrics ¡discussed. ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 52 ¡

slide-53
SLIDE 53

Pruning ¡using ¡Monotonicity ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 54 ¡

GeneralizaIon ¡Lapce ¡ G3 ¡ G2 ¡ G1 ¡ G4 ¡ G5 ¡ G8 ¡ G7 ¡ G6 ¡ Private ¡ G9 ¡ G10 ¡ Not ¡Private ¡ Minimal ¡ GeneralizaWon ¡

slide-54
SLIDE 54

Basic ¡Incognito ¡Algorithm ¡

  • Step ¡1: ¡Start ¡with ¡1 ¡dimensional ¡quasi-­‑idenWfier. ¡Start ¡from ¡the ¡

bodom ¡of ¡la„ce ¡to ¡check ¡when ¡k-­‑anonymity ¡is ¡saWsfied. ¡ ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 55 ¡

B0 ¡ B1 ¡ S0 ¡ S1 ¡ Z1 ¡ Z2 ¡ Z0 ¡ Will ¡saWsy ¡ ¡ k-­‑anonymity ¡

  • property. ¡ ¡

Only ¡considering ¡Zipcode ¡at ¡lowest ¡ generalizaWon ¡level. ¡B ¡and ¡S ¡are ¡suppressed ¡ (highest ¡generalizaWon ¡level) ¡

slide-55
SLIDE 55

Basic ¡Incognito ¡Algorithm ¡

  • Move ¡to ¡2 ¡dimensional ¡marginals ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 56 ¡

S0,Z0 ¡ S1,Z0 ¡ S1,Z1 ¡ S0,Z1 ¡ S0,Z2 ¡ S1,Z2 ¡

slide-56
SLIDE 56

Basic ¡Incognito ¡Algorithm ¡

  • 3-­‑dimensional ¡quasi-­‑idenWfiers ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 57 ¡

B0,S0,Z0 ¡ B0,S1,Z0 ¡ B0,S0,Z1 ¡ B1,S0,Z0 ¡ B1,S0,Z2 ¡ B0,S1,Z2 ¡ B1,S1,Z1 ¡ B1,S1,Z2 ¡ B1,S1,Z0 ¡ B1,S0,Z1 ¡ B0,S1,Z1 ¡ B0,S0,Z2 ¡ S0,Z0 ¡ S1,Z0 ¡ S1,Z1 ¡ S0,Z1 ¡ S0,Z2 ¡ S1,Z2 ¡ B0 ¡ B1 ¡ S0 ¡ S1 ¡ Z1 ¡ Z2 ¡ Z0 ¡

slide-57
SLIDE 57

Summary ¡of ¡Incognito ¡Algorithm ¡

Problem: ¡ ¡

  • Amongst ¡all ¡tables ¡that ¡saWsfy ¡k-­‑anonymity, ¡find ¡the ¡one ¡that ¡has ¡

minimum ¡uWlity ¡ SoluWon: ¡

  • GeneralizaWons ¡form ¡a ¡La„ce. ¡
  • Privacy ¡and ¡UWlity ¡are ¡monotonic. ¡
  • Only ¡need ¡to ¡find ¡the ¡boundary ¡of ¡“minimal” ¡generalizaWons ¡that ¡

saWsfy ¡privacy. ¡

  • La„ce ¡can ¡be ¡efficiently ¡pruned ¡using ¡bodom ¡up ¡traversal. ¡ ¡
  • Checking ¡k-­‑anonymity ¡is ¡efficient ¡(think: ¡precompute ¡counts) ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 58 ¡

slide-58
SLIDE 58

Other ¡Anonymity ¡Algorithms ¡

  • Greedy ¡Space ¡PariWoning ¡

¡ ¡[Lefevre ¡et ¡al ¡ICDE ¡2006] ¡

  • BuckeWzaWon

¡ ¡ ¡ ¡[Xioa ¡Tao ¡VLDB ¡2006] ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 59 ¡

slide-59
SLIDE 59

Curse ¡of ¡Dimensionality ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 60 ¡

[Beyer ¡et ¡al ¡ICDT ¡1999] ¡ [Agarwal ¡VLDB ¡2005] ¡ ¡

slide-60
SLIDE 60

Next ¡Class ¡

  • Ensuring ¡K-­‑Anonymity ¡in ¡Social ¡Networks ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 61 ¡

slide-61
SLIDE 61

References ¡

  • L. ¡Sweeney, ¡“K-­‑Anonymity: ¡a ¡model ¡for ¡protecIng ¡privacy”, ¡IJUFKS ¡2002 ¡
  • A. ¡Machanavajjhala, ¡J. ¡Gehrke, ¡D. ¡Kifer, ¡M. ¡Venkitasubramaniam, ¡“L-­‑Diversity: ¡Privacy ¡

beyond ¡k-­‑anonymity”, ¡ICDE ¡2006 ¡

  • N. ¡Li, ¡T. ¡Li, ¡S. ¡Venkitasubramanian, ¡“T-­‑closeness: ¡privacy ¡beyond ¡k-­‑anonymity ¡and ¡l-­‑

diversity”, ¡ICDE ¡2007 ¡

  • K. ¡Lefevre, ¡D. ¡Dewid ¡& ¡R. ¡Ramakrishnan, ¡“Incognito: ¡Efficient ¡Full ¡Domain ¡K-­‑

AnonymizaIon”, ¡SIGMOD ¡2006 ¡

  • K. ¡Lefevre, ¡D. ¡Dewid ¡& ¡R. ¡Ramakrishnan, ¡“Mondrian ¡MulIdimensional ¡k-­‑anonymity”, ¡ICDE ¡

2006 ¡

  • X. ¡Xiao, ¡Y. ¡Tao, ¡“Anatomy: ¡simple ¡and ¡effecIve ¡privacy ¡preservaIon”, ¡VLDB ¡2006 ¡
  • K. ¡Beyer, ¡J. ¡Goldstein, ¡R. ¡Ramakrishnan ¡& ¡U. ¡Sha•, ¡“When ¡is ¡“nearest ¡neighbor” ¡

meaningful?”, ¡ICDT ¡1999 ¡

  • C. ¡Agarwal, ¡“On ¡K-­‑Anonymity ¡and ¡the ¡Curse ¡of ¡Dimensionality”, ¡VLDB ¡2005 ¡

Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 62 ¡