Measures ¡of ¡Anonymity/Privacy: ¡ ¡ k-‑Anonymity, ¡L-‑Diversity, ¡t-‑Closeness ¡
CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡
1 ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡
Measures of Anonymity/Privacy: k-Anonymity, L-Diversity, - - PowerPoint PPT Presentation
Measures of Anonymity/Privacy: k-Anonymity, L-Diversity, t-Closeness CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 4 : 590.03 Fall 12 1
1 ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡
– You ¡are ¡welcome ¡to ¡send ¡me ¡(or ¡talk ¡to ¡me ¡about) ¡your ¡own ¡ideas. ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 2 ¡
h"p://www.cs.duke.edu/courses/fall13/compsci590.3/project/index.html ¡
– K-‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡
– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 3 ¡
Researcher ¡ Data ¡at ¡the ¡granularity ¡of ¡ individuals ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 4 ¡
Public ¡InformaWon ¡
Zip Age Nationality
Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Viral 13053 23 American Viral 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Viral 14850 59 American Viral 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 5 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 6 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 7 ¡
Zip Age Nationality
Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer
Zip Age Nationality
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
Equivalence ¡Class: ¡Group ¡
that ¡share ¡the ¡same ¡value ¡ for ¡Quasi-‑idenWfier ¡ adribtutes ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 8 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 9 ¡
Zip Age Nationality
Disease
4 tuples Zip code = 130** 23 < Age < 29 Average(age) = 25 2 Heart and 2 Flu 4 tuples Zip = 1485* 47 < Age < 59 Average(age) = 53 1 Cancer, 1 Heart and 2 Flu 4 tuples Zip = 130** 31 < Age < 37 Avergae(age) = 34 All Cancer patients Zip Age Nationality
Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 10 ¡
– CombinaWon ¡of ¡adributes ¡(that ¡an ¡adversary ¡may ¡know) ¡that ¡uniquely ¡ idenWfy ¡a ¡large ¡fracWon ¡of ¡the ¡populaWon. ¡ – There ¡can ¡be ¡many ¡sets ¡of ¡quasi-‑idenWfiers. ¡ ¡ ¡ If ¡Q ¡= ¡{B, ¡Z, ¡S} ¡is ¡a ¡quasi-‑idenWfier, ¡then ¡Q ¡+ ¡{N} ¡is ¡also ¡a ¡quasi-‑idenWfier. ¡ ¡ – Need ¡to ¡guarantee ¡k-‑anonymity ¡against ¡the ¡largest ¡set ¡of ¡quasi-‑idenWfiers ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 11 ¡
12 ¡
Zip Age Nat.
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
Name Zip Age
Nat. Bob 13053 35 ?? 13 ¡
Zip Age Nat.
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
Name Zip Age
Nat. Umeko 13068 24 Japan 14 ¡
Zip Age Nat.
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
Name Zip Age
Nat. Umeko 13068 24 Japan 15 ¡
Zip Age Nat.
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
Name Zip Age
Nat. Bob 13053 35 ??
Name Zip Age
Nat. Umeko 13068 24 Japan 16 ¡
Zip Age Nat.
Disease 1306* <=40 * Heart 1306* <=40 * Flu 1306* <=40 * Cancer 1306* <=40 * Cancer 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 1305* <=40 * Heart 1305* <=40 * Flu 1305* <=40 * Cancer 1305* <=40 * Cancer
Name Zip Age
Nat. Bob 13053 35 ?? 17 ¡
Name Zip Age
Nat. Umeko 13068 24 Japan
– What ¡does ¡the ¡parameter ¡L ¡signify? ¡
18 ¡
[Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡
– Data ¡Publisher ¡may ¡not ¡know ¡exact ¡adversarial ¡knowledge ¡
19 ¡
Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡
20 ¡
Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡
World ¡1 ¡ World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡
Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡
21 ¡
Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡
World ¡1 ¡ World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡
Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡
22 ¡
Heart ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Heart ¡ Cancer ¡ Flu ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Flu ¡ Heart ¡ Heart ¡ Flu ¡ Cancer ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Heart ¡ Flu ¡ Heart ¡ Flu ¡ Flu ¡ Heart ¡ Flu ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡ Cancer ¡
Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡
World ¡2 ¡ World ¡3 ¡ World ¡4 ¡ World ¡5 ¡
Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡
Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡
23 ¡
Sasha ¡ Tom ¡ Umeko ¡ Van ¡ Amar ¡ Boris ¡ Carol ¡ Dave ¡ Bob ¡ Charan ¡ Daiki ¡ Ellen ¡
Cancer ¡ ¡0 ¡ Heart ¡ ¡ ¡ ¡2 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡1 ¡ Heart ¡ ¡ ¡ ¡1 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ Cancer ¡ ¡4 ¡ Heart ¡ ¡ ¡ ¡0 ¡ Flu ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡
24 ¡
25 ¡
– Knows ¡≤ ¡(L-‑2) ¡negaWon ¡statements ¡of ¡the ¡form ¡ ¡ “Umeko ¡does ¡not ¡have ¡a ¡Heart ¡disease.” ¡
– Consider ¡all ¡possible ¡conjuncWons ¡of ¡ ¡≤ ¡(L-‑2) ¡statements ¡
26 ¡
Cancer ¡ ¡ ¡10 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡
27 ¡
Cancer ¡ ¡ ¡1000 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡ Malaria ¡ ¡ ¡ ¡1 ¡
28 ¡
Cancer ¡ ¡ ¡1000 ¡ Heart ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ HepaIIs ¡2 ¡ Jaundice ¡ ¡1 ¡ Malaria ¡ ¡ ¡ ¡1 ¡
29 ¡
– K-‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡
– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 30 ¡
– 52 ¡years ¡old ¡ – Earns ¡11K ¡ – Lives ¡in ¡47909 ¡
– Pr[Bob ¡has ¡Flu] ¡= ¡1/9 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 31 ¡
– 52 ¡years ¡old ¡ – Earns ¡11K ¡ – Lives ¡in ¡47909 ¡
– Pr[Bob ¡has ¡Flu] ¡= ¡1/3 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 32 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 33 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 34 ¡
v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 35 ¡
Distance ¡= ¡Cost ¡of ¡moving ¡mass ¡from ¡v2 ¡to ¡v1 ¡(f21) ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 36 ¡
Distance ¡= ¡Cost ¡of ¡moving ¡mass ¡from ¡v2 ¡to ¡v1 ¡(f21) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡cost ¡of ¡moving ¡mass ¡from ¡v5 ¡to ¡v1 ¡(f51) ¡ If ¡the ¡values ¡are ¡numeric, ¡cost ¡can ¡depend ¡not ¡only ¡on ¡ ¡ amount ¡of ¡“earth” ¡moved, ¡but ¡also ¡the ¡distance ¡it ¡is ¡moved ¡ ¡ (d21 ¡and ¡d51). ¡ ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡ v1 ¡v2 ¡v3 ¡v4 ¡v5 ¡
Lecture ¡5 ¡: ¡590.03 ¡Fall ¡12 ¡ 37 ¡
Original ¡probability ¡mass ¡in ¡the ¡ ¡ two ¡distribuWons ¡p ¡and ¡q ¡which ¡ ¡ are ¡being ¡compared ¡
– K-‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡
– GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 38 ¡
– Suppress ¡low ¡significant ¡bits: ¡ ¡ ¡12345 ¡-‑> ¡1234* ¡-‑> ¡123** ¡ – Ranges: ¡23 ¡-‑> ¡[20-‑25]; ¡(30.5N ¡20.3E) ¡-‑> ¡box(30N-‑31N,20E-‑22E) ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 39 ¡
GeneraIon ¡Step ¡
– Domain ¡GeneralizaWon ¡Hierarchies ¡ ¡ State-‑gov ¡occupaWon ¡à ¡Government ¡occupaWon ¡à ¡Workclass ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 40 ¡
Equivalent ¡to ¡ suppressing ¡the ¡value ¡ GeneraIon ¡Step ¡
– Every ¡occurrence ¡of ¡12345 ¡is ¡replaced ¡with ¡1234* ¡in ¡the ¡database. ¡ ¡ – Answering ¡queries ¡on ¡such ¡datasets ¡is ¡easier. ¡ ¡
– 12345 ¡in ¡one ¡tuple ¡may ¡be ¡generalized ¡to ¡1234*, ¡and ¡in ¡another ¡tuple ¡ enWrely ¡suppressed. ¡ – Allows ¡k-‑anonymous ¡datasets ¡with ¡lesser ¡informaWon ¡loss. ¡ ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 41 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 42 ¡ Nationality Zip
* 1306* * 1305* * 1485*
Nationality Zip
American 130** Japanese 130** Japanese 148**
Nationality Zip
American 1306* Japanese 1305* Japanese 1485*
Nationality Zip
* 130** * 130** * 148**
Suppress ¡naIonality ¡ Suppress ¡tens ¡digit ¡of ¡Zip ¡ Suppress ¡naIonality ¡ Suppress ¡tens ¡digit ¡of ¡Zip ¡
– Assign ¡a ¡penalty ¡to ¡each ¡tuple ¡ – Penalty ¡depends ¡on ¡how ¡many ¡other ¡tuples ¡are ¡indisWnguishable ¡from ¡it ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 43 ¡
– Assign ¡a ¡penalty ¡to ¡each ¡tuple ¡t: ¡
– Penalty ¡for ¡each ¡tuple ¡= ¡1 ¡-‑ ¡1/ ¡# ¡values ¡that ¡can ¡generalize ¡to ¡that ¡tuple ¡ – E.g., ¡Penalty ¡(14850, ¡47) ¡= ¡1 ¡– ¡1 ¡/1 ¡= ¡0 ¡ – Penalty(1485*, ¡[40-‑50]) ¡= ¡1 ¡– ¡1 ¡/ ¡(10*10) ¡= ¡.99 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 44 ¡
– iid ¡(idenWcally ¡and ¡independently ¡distributed) ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 45 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 46 ¡
Zip Age Nationality
Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Flu 13053 23 American Flu 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Flu 14850 59 American Flu 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer
F’(13053, ¡37, ¡Indian) ¡= ¡ 1/12 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 47 ¡
Zip Age Nationality
Disease 130** <30 * Heart 130** <30 * Heart 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer
F’k-‑anon(13053, ¡37, ¡Indian) ¡= ¡ ¡ ¡ ¡= ¡1/12 ¡(|C3| ¡* ¡P[(13053, ¡37, ¡Indian) ¡in ¡C3]) ¡ ¡ ¡= ¡1/12 ¡* ¡4 ¡* ¡1/(100*10) ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 48 ¡
¡ where ¡p(x) ¡is ¡esWmated ¡using ¡the ¡empirical ¡distribuWon ¡F’, ¡ ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡panon(x) ¡is ¡esWmated ¡using ¡F’k-‑anon ¡ ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 49 ¡
– ReducWon ¡from ¡the ¡k-‑dimensional ¡matching ¡problem. ¡ – There ¡is ¡a ¡log ¡k ¡approximaWon ¡algorithm ¡for ¡some ¡uWlity ¡metrics. ¡ ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 50 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 51 ¡ Nationality Zip
* 1306* * 1305* * 1485*
Nationality Zip
American 130** Japanese 130** Japanese 148**
Nationality Zip
American 1306* Japanese 1305* Japanese 1485*
Nationality Zip
* 130** * 130** * 148**
– Equivalence ¡classes ¡are ¡only ¡becoming ¡bigger. ¡ ¡
– IntuiWvely ¡true: ¡more ¡informaWon ¡is ¡hidden ¡in ¡D’ ¡ – Can ¡be ¡formally ¡shown ¡for ¡all ¡the ¡uWlity ¡metrics ¡discussed. ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 52 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 54 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 55 ¡
B0 ¡ B1 ¡ S0 ¡ S1 ¡ Z1 ¡ Z2 ¡ Z0 ¡ Will ¡saWsy ¡ ¡ k-‑anonymity ¡
Only ¡considering ¡Zipcode ¡at ¡lowest ¡ generalizaWon ¡level. ¡B ¡and ¡S ¡are ¡suppressed ¡ (highest ¡generalizaWon ¡level) ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 56 ¡
S0,Z0 ¡ S1,Z0 ¡ S1,Z1 ¡ S0,Z1 ¡ S0,Z2 ¡ S1,Z2 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 57 ¡
B0,S0,Z0 ¡ B0,S1,Z0 ¡ B0,S0,Z1 ¡ B1,S0,Z0 ¡ B1,S0,Z2 ¡ B0,S1,Z2 ¡ B1,S1,Z1 ¡ B1,S1,Z2 ¡ B1,S1,Z0 ¡ B1,S0,Z1 ¡ B0,S1,Z1 ¡ B0,S0,Z2 ¡ S0,Z0 ¡ S1,Z0 ¡ S1,Z1 ¡ S0,Z1 ¡ S0,Z2 ¡ S1,Z2 ¡ B0 ¡ B1 ¡ S0 ¡ S1 ¡ Z1 ¡ Z2 ¡ Z0 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 58 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 59 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 60 ¡
[Beyer ¡et ¡al ¡ICDT ¡1999] ¡ [Agarwal ¡VLDB ¡2005] ¡ ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 61 ¡
beyond ¡k-‑anonymity”, ¡ICDE ¡2006 ¡
diversity”, ¡ICDE ¡2007 ¡
AnonymizaIon”, ¡SIGMOD ¡2006 ¡
2006 ¡
meaningful?”, ¡ICDT ¡1999 ¡
Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 62 ¡