 
              Measures ¡of ¡Anonymity/Privacy: ¡ ¡ k-‑Anonymity, ¡L-‑Diversity, ¡t-‑Closeness ¡ CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 1 ¡
Announcements ¡ • Project ¡ideas ¡are ¡posted ¡on ¡the ¡site. ¡ ¡ – You ¡are ¡welcome ¡to ¡send ¡me ¡(or ¡talk ¡to ¡me ¡about) ¡your ¡own ¡ideas. ¡ ¡ h"p://www.cs.duke.edu/courses/fall13/compsci590.3/project/index.html ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 2 ¡
Outline ¡ • Measures ¡of ¡Anonymity/Privacy ¡ – K-‑Anonymity: ¡a ¡metric ¡for ¡anonymity ¡for ¡data ¡publishing ¡ [Sweeney ¡IJUFKS ¡2002] ¡ – L-‑Diversity: ¡IncorporaWng ¡Background ¡Knowledge ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ – Extensions: ¡T-‑Closeness ¡[Li ¡et ¡al ¡ICDE ¡2007] ¡ • Algorithms ¡for ¡anonymous ¡data ¡publishing ¡ – GeneralizaWon/Suppression ¡ ¡ [Lefevre ¡et ¡al ¡SIGMOD ¡2006] ¡ – Curse ¡of ¡Dimensionality ¡ [Agarwal ¡VLDB ¡2005] ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 3 ¡
Offline ¡Data ¡Publishing ¡ Database ¡ Researcher ¡ Microdata ¡ Data ¡at ¡the ¡granularity ¡of ¡ individuals ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 4 ¡
Naïve ¡AnonymizaWon ¡is ¡suscepWble ¡to ¡ Linkage ¡Adacks ¡ Zip Age Nationality Disease 13053 28 Russian Heart 13068 29 American Heart 13068 21 Japanese Viral Quasi-‑ ¡ 13053 23 American Viral IdenIfier ¡ 14853 50 Indian Cancer 14853 55 Russian Heart 14850 47 American Viral 14850 59 American Viral 13053 31 American Cancer 13053 37 Indian Cancer 13068 36 Japanese Cancer 13068 32 American Cancer Public ¡InformaWon ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 5 ¡
We ¡saw ¡examples ¡before ¡… ¡ • Massachuseds ¡governor ¡adack ¡ • AOL ¡privacy ¡breach ¡ • Neglix ¡adack ¡ • Social ¡Network ¡adacks ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 6 ¡
K-‑Anonymity ¡ [SamaraW ¡et ¡al, ¡PODS ¡1998] ¡ • Generalize, ¡modify, ¡or ¡distort ¡quasi-‑idenWfier ¡values ¡so ¡that ¡no ¡ individual ¡is ¡uniquely ¡idenWfiable ¡from ¡a ¡group ¡of ¡ k ¡ • In ¡SQL, ¡table ¡T ¡is ¡ k-‑anonymous ¡ if ¡each ¡ ¡ ¡ ¡ ¡ SELECT COUNT(*) FROM T GROUP BY Quasi-Identifier ¡is ¡ ≥ ¡k ¡ ¡ • Parameter ¡k ¡indicates ¡the ¡“degree” ¡of ¡anonymity ¡ ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 7 ¡
Example ¡1: ¡GeneralizaWon ¡(Coarsening) ¡ Zip Age Nationality Disease Zip Age Nationality Disease 130** <30 * Heart 13053 28 Russian Heart 130** <30 * Heart 13068 29 American Heart 130** <30 * Flu 13068 21 Japanese Flu 130** <30 * Flu 13053 23 American Flu 1485* >40 * Cancer 14853 50 Indian Cancer 1485* >40 * Heart 14853 55 Russian Heart 1485* >40 * Flu 14850 47 American Flu 1485* >40 * Flu 14850 59 American Flu 130** 30-40 * Cancer 13053 31 American Cancer Equivalence ¡Class : ¡Group ¡ 130** 30-40 * Cancer 13053 37 Indian Cancer of ¡k-‑anonymous ¡records ¡ 130** 30-40 * Cancer 13068 36 Japanese Cancer that ¡share ¡the ¡same ¡value ¡ 130** 30-40 * Cancer 13068 32 American Cancer for ¡Quasi-‑idenWfier ¡ adribtutes ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 8 ¡
Example ¡2: ¡Clustering ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 9 ¡
Example ¡3: ¡MicroaggregaWon ¡ Zip Age Nationality Disease Zip Age Nationality Disease 13053 28 Russian Heart 4 tuples 2 Heart 13068 29 American Heart and Zip code = 130** 2 Flu 13068 21 Japanese Flu 23 < Age < 29 13053 23 American Flu Average(age) = 25 4 tuples 1 Cancer, 14853 50 Indian Cancer Zip = 1485* 1 Heart 14853 55 Russian Heart and 47 < Age < 59 14850 47 American Flu 2 Flu Average(age) = 53 14850 59 American Flu 4 tuples All Cancer Zip = 130** 13053 31 American Cancer patients 31 < Age < 37 13053 37 Indian Cancer Avergae(age) = 34 13068 36 Japanese Cancer 13068 32 American Cancer Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 10 ¡
K-‑Anonymity ¡ • Joining ¡the ¡published ¡data ¡to ¡an ¡external ¡dataset ¡using ¡quasi-‑ idenWfiers ¡results ¡in ¡ at ¡least ¡k ¡records ¡ per ¡quasi-‑idenWfier ¡ combinaWon. ¡ • What ¡is ¡a ¡quasi-‑idenWfier? ¡ – CombinaWon ¡of ¡adributes ¡(that ¡an ¡adversary ¡may ¡know) ¡that ¡uniquely ¡ idenWfy ¡a ¡large ¡fracWon ¡of ¡the ¡populaWon. ¡ – There ¡can ¡be ¡many ¡sets ¡of ¡quasi-‑idenWfiers. ¡ ¡ ¡ If ¡Q ¡= ¡{B, ¡Z, ¡S} ¡is ¡a ¡quasi-‑idenWfier, ¡then ¡Q ¡+ ¡{N} ¡is ¡also ¡a ¡quasi-‑idenWfier. ¡ ¡ – Need ¡to ¡guarantee ¡k-‑anonymity ¡against ¡the ¡largest ¡set ¡of ¡quasi-‑idenWfiers ¡ Lecture ¡4 ¡: ¡590.03 ¡Fall ¡12 ¡ 11 ¡
Does ¡k-‑Anonymity ¡guarantee ¡ ¡ sufficient ¡privacy ¡? ¡ 12 ¡
Adack ¡1: ¡Homogeneity ¡ Disease Zip Age Nat. ¡ ¡ ¡ ¡ 130** <30 * Heart ¡ 130** <30 * Heart Bob ¡has ¡Cancer ¡ ¡ 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer Nat. Name Zip Age 130** 30-40 * Cancer Bob 13053 35 ?? 130** 30-40 * Cancer 130** 30-40 * Cancer 13 ¡
Adack ¡2: ¡Background ¡knowledge ¡ Disease Zip Age Nat. 130** <30 * Heart Nat. Name Zip Age 130** <30 * Heart Umeko 13068 24 Japan 130** <30 * Flu 130** <30 * Flu 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 14 ¡
Adack ¡2: ¡Background ¡knowledge ¡ Disease Zip Age Nat. 130** <30 * Heart Nat. Name Zip Age 130** <30 * Heart Umeko 13068 24 Japan 130** <30 * Flu 130** <30 * Flu Japanese ¡have ¡a ¡very ¡low ¡ 1485* >40 * Cancer ¡ ¡ ¡ ¡ ¡ ¡ incidence ¡of ¡Heart ¡disease. ¡ 1485* >40 * Heart ¡ 1485* >40 * Flu 1485* >40 * Flu Umeko ¡has ¡Flu ¡ 130** 30-40 * Cancer ¡ 130** 30-40 * Cancer 130** 30-40 * Cancer 130** 30-40 * Cancer 15 ¡
Recall ¡the ¡adacks ¡on ¡k-‑Anonymity ¡ Disease Zip Age Nat. Nat. Name Zip Age 130** <30 * Heart Umeko 13068 24 Japan 130** <30 * Heart Japanese ¡have ¡a ¡very ¡low ¡ 130** <30 * Flu incidence ¡of ¡Heart ¡disease. ¡ 130** <30 * Flu Umeko ¡has ¡Flu ¡ 1485* >40 * Cancer 1485* >40 * Heart 1485* >40 * Flu 1485* >40 * Flu 130** 30-40 * Cancer Nat. Name Zip Age 130** 30-40 * Cancer Bob 13053 35 ?? 130** 30-40 * Cancer 130** 30-40 * Cancer Bob ¡has ¡Cancer ¡ 16 ¡
3-‑Diverse ¡Table ¡ Disease Zip Age Nat. Nat. Name Zip Age 1306* <=40 * Heart Umeko 13068 24 Japan 1306* <=40 * Flu Japanese ¡have ¡a ¡very ¡low ¡ 1306* <=40 * Cancer incidence ¡of ¡Heart ¡disease. ¡ L-‑Diversity ¡Principle : ¡ ¡ 1306* <=40 * Cancer Umeko ¡has ¡?? ¡ 1485* >40 * Cancer Every ¡group ¡of ¡tuples ¡with ¡the ¡same ¡ ¡ 1485* >40 * Heart Q-‑ID ¡values ¡has ¡≥ ¡L ¡disInct ¡sensiIve ¡ 1485* >40 * Flu values ¡of ¡roughly ¡equal ¡proporIons. ¡ ¡ 1485* >40 * Flu 1305* <=40 * Heart Nat. Name Zip Age 1305* <=40 * Flu Bob 13053 35 ?? 1305* <=40 * Cancer 1305* <=40 * Cancer Bob ¡has ¡?? ¡ 17 ¡
L-‑Diversity: ¡Privacy ¡Beyond ¡K-‑Anonymity ¡ [Machanavajjhala ¡et ¡al ¡ICDE ¡2006] ¡ ¡ L-‑Diversity ¡Principle : ¡ ¡ Every ¡group ¡of ¡tuples ¡with ¡the ¡same ¡Q-‑ID ¡values ¡has ¡ ¡ ≥ ¡L ¡disInct ¡“well ¡represented” ¡sensiIve ¡values. ¡ ¡ Ques%ons: ¡ • What ¡kind ¡of ¡adversarial ¡adacks ¡do ¡we ¡guard ¡against? ¡ • Why ¡is ¡this ¡the ¡right ¡definiWon ¡for ¡privacy? ¡ – What ¡does ¡the ¡parameter ¡L ¡signify? ¡ 18 ¡
Recommend
More recommend