de anonymizing data
play

De-anonymizing Data CompSci 590.03 Instructor: Ashwin - PowerPoint PPT Presentation

Source (h?p://xkcd.org/834/) De-anonymizing Data CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 2 : 590.03 Fall 13 1 Outline Recap


  1. Source ¡(h?p://xkcd.org/834/) ¡ De-­‑anonymizing ¡Data ¡ CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 1 ¡

  2. Outline ¡ • Recap ¡ • Algorithmically ¡De-­‑anonymizing ¡NeLlix ¡Data ¡ • Algorithmically ¡De-­‑anonymizing ¡Social ¡Networks ¡ – Passive ¡A?acks ¡ – AcQve ¡A?acks ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 2 ¡

  3. StaQsQcal ¡Privacy ¡(Untrusted ¡Collector) ¡Problem ¡ Server ¡ ¡ f ¡ ( ¡ ¡ ¡ ¡ ¡ ¡) ¡ D B ¡ Individual ¡ ¡ ¡1 ¡ Individual ¡ ¡ ¡2 ¡ Individual ¡ ¡ ¡3 ¡ Individual ¡ ¡ ¡ N ¡ r 1 ¡ r 2 ¡ r 3 ¡ r N ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 3 ¡

  4. Randomized ¡Response ¡ • Flip ¡a ¡coin ¡ ¡ – heads ¡with ¡probability ¡p, ¡and ¡ ¡ – tails ¡with ¡probability ¡1-­‑p ¡(p ¡> ¡½) ¡ • Answer ¡quesQon ¡according ¡to ¡the ¡following ¡table: ¡ ¡ True ¡Answer ¡= ¡Yes ¡ True ¡Answer ¡= ¡No ¡ Heads ¡ Yes ¡ No ¡ Tails ¡ No ¡ Yes ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 4 ¡

  5. UQlity ¡Analysis ¡ • ¡π: ¡True ¡fracQon ¡of ¡respondents ¡answering ¡“yes” ¡ ¡ • ¡p: ¡Probability ¡coin ¡falls ¡heads ¡ Yes ¡ No ¡ Heads ¡ Yes ¡ No ¡ Tails ¡ No ¡ Yes ¡ • Yi ¡= ¡1, ¡ ¡ ¡if ¡the ¡i th ¡respondent ¡says ¡“yes” ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡= ¡0, ¡ ¡if ¡the ¡i th ¡respondent ¡says ¡“no” ¡ ¡ P(Yi ¡= ¡1) ¡= ¡(True ¡answer ¡= ¡yes ¡AND ¡coin ¡= ¡heads) ¡OR ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(True ¡answer ¡= ¡no ¡ ¡AND ¡coin ¡= ¡tails) ¡ ¡ ¡ ¡ ¡ ¡= ¡πp ¡+ ¡(1-­‑π)(1-­‑p) ¡= ¡p yes ¡ P(Yi ¡= ¡0) ¡= ¡π(1-­‑p) ¡+ ¡(1-­‑π)p ¡= ¡p no ¡ ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 5 ¡

  6. UQlity ¡Analysis ¡ • Suppose ¡n1 ¡out ¡of ¡N ¡people ¡replied ¡“yes”, ¡and ¡rest ¡said ¡“no” ¡ • What ¡is ¡the ¡best ¡esQmate ¡for ¡π ¡? ¡ ¡ • Likelihood: ¡L ¡= ¡ n C n1 ¡ ¡p yes n1 ¡p no (n-­‑n1) ¡ ¡ ¡ • Most ¡likely ¡value ¡of ¡π: ¡ ¡(by ¡sefng ¡dL/dπ ¡= ¡0) ¡ ¡ π hat ¡= ¡{n1/n ¡– ¡(1-­‑p)}/(2p-­‑1) ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 6 ¡

  7. Privacy ¡ • Adversary’s ¡prior ¡belief: ¡P(Bob’s ¡true ¡answer ¡is“yes”) ¡= ¡θ ¡ • Suppose ¡Bob ¡answers ¡“yes”. ¡ P(Bob’s ¡true ¡answer ¡is ¡“yes” ¡| ¡Bob ¡says ¡“yes”) ¡ ¡= ¡P(Bob ¡says ¡“yes” ¡AND ¡ ¡Bob’s ¡true ¡answer ¡is ¡“yes”) ¡/ ¡P(Bob ¡says ¡yes) ¡ ¡ ¡ = ¡P(Bob ¡says ¡“yes” ¡| ¡Bob’s ¡true ¡answer ¡is ¡“yes”)P(Bob’s ¡true ¡answer ¡is ¡“yes”) ¡ P(Bob ¡says ¡“yes” ¡| ¡Bob’s ¡true ¡answer ¡is ¡“yes”)P(Bob’s ¡true ¡answer ¡is ¡“yes”) ¡ + ¡P(Bob ¡says ¡“yes” ¡| ¡Bob’s ¡true ¡answer ¡is ¡“no”)P(Bob’s ¡true ¡answer ¡is ¡“no”) ¡ ¡ = ¡pθ ¡/ ¡pθ ¡+ ¡(1-­‑p)(1-­‑θ) ¡ ¡ ¡ ≤ ¡ ¡p/(1-­‑p) ¡θ ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 7 ¡

  8. Privacy ¡ Adversary’s ¡prior ¡belief: ¡ ¡ • ¡P(Bob’s ¡true ¡answer ¡is“yes”) ¡= ¡θ ¡ Suppose ¡Bob ¡answers ¡“yes”. ¡ • Adversary’s ¡posterior ¡belief: ¡ ¡ ¡ ¡P(Bob’s ¡true ¡answer ¡is ¡“yes” ¡| ¡Bob ¡says ¡“yes”) ¡ ≤ ¡ ¡p/(1-­‑p) ¡θ ¡ ¡ Adversary’s ¡posterior ¡belief ¡is ¡always ¡bounded ¡by ¡p/1-­‑p ¡Fmes ¡the ¡ adversary’s ¡prior ¡belief ¡(irrespecFve ¡of ¡what ¡the ¡prior ¡is) ¡ ¡ ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 8 ¡

  9. Privacy ¡vs ¡UQlity ¡tradeoff ¡ • When ¡p ¡= ¡1 ¡(return ¡truthful ¡answer) ¡ ¡ – p/1-­‑p ¡= ¡infinity ¡: ¡no ¡privacy ¡ – ¡π hat ¡ ¡ = ¡ ¡n1/n ¡= ¡true ¡answer ¡ • When ¡p ¡= ¡½ ¡(return ¡random ¡answer) ¡ ¡ – p/1-­‑p ¡= ¡1: ¡perfect ¡privacy ¡ – ¡We ¡cannot ¡esFmate ¡π hat ¡since ¡the ¡answers ¡are ¡independent ¡of ¡the ¡input. ¡ – Pyes ¡= ¡πp ¡+ ¡(1-­‑π)(1-­‑p) ¡ ¡= ¡½(π ¡+ ¡1 ¡– ¡π) ¡= ¡½ ¡= ¡Pno ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 9 ¡

  10. StaQsQcal ¡Privacy ¡(Trusted ¡Collector) ¡Problem ¡ Server ¡ D B ¡ Individual ¡ ¡ ¡1 ¡ Individual ¡ ¡ ¡2 ¡ Individual ¡ ¡ ¡3 ¡ Individual ¡ ¡ ¡ N ¡ r 1 ¡ r 2 ¡ r 3 ¡ r N ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 10 ¡

  11. Query ¡Answering ¡ How ¡many ¡allergy ¡paDents? ¡ Hospital ¡ ‘ ¡ D B ¡ Correlate ¡Genome ¡to ¡disease ¡ Individual ¡ ¡ ¡1 ¡ Individual ¡ ¡ ¡2 ¡ Individual ¡ ¡ ¡3 ¡ Individual ¡ ¡ ¡ N ¡ r 1 ¡ r 2 ¡ r 3 ¡ r N ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 11 ¡

  12. Query ¡Answering ¡ • Need ¡to ¡know ¡the ¡list ¡of ¡quesQons ¡up ¡front ¡ • Each ¡answer ¡will ¡leak ¡some ¡informaQon ¡about ¡individuals. ¡Arer ¡ answering ¡a ¡few ¡quesQons, ¡server ¡ will ¡run ¡out ¡of ¡privacy ¡budget ¡ and ¡not ¡be ¡able ¡to ¡answer ¡any ¡more ¡quesQons. ¡ ¡ • Will ¡see ¡this ¡in ¡detail ¡later ¡in ¡the ¡course. ¡ ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 12 ¡

  13. Anonymous/ ¡SaniQzed ¡Data ¡Publishing ¡ Hospital ¡ D B ¡ wriQngcenterunderground.wordpress.com ¡ I ¡wont ¡tell ¡you ¡what ¡quesDons ¡ ¡ I ¡am ¡interested ¡in! ¡ Individual ¡ ¡ ¡1 ¡ Individual ¡ ¡ ¡2 ¡ Individual ¡ ¡ ¡3 ¡ Individual ¡ ¡ ¡ N ¡ r 1 ¡ r 2 ¡ r 3 ¡ r N ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 13 ¡

  14. Anonymous/ ¡SaniQzed ¡Data ¡Publishing ¡ Hospital ¡ Answer ¡any ¡# ¡of ¡quesDons ¡ ¡ directly ¡on ¡D B ’ ¡without ¡ ¡ D’ B ¡ any ¡modificaDons. ¡ ¡ ¡ D B ¡ Individual ¡ ¡ ¡1 ¡ Individual ¡ ¡ ¡2 ¡ Individual ¡ ¡ ¡3 ¡ Individual ¡ ¡ ¡ N ¡ r 1 ¡ r 2 ¡ r 3 ¡ r N ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 14 ¡

  15. Naïve ¡AnonymizaQon ¡ • Remove ¡idenQfying ¡a?ributes ¡from ¡the ¡data ¡ – E.g., ¡Health ¡Insurance ¡Portability ¡and ¡ProtecQon ¡Act ¡ – Remove ¡18 ¡a?ributes ¡regarded ¡as ¡Personally ¡IdenQfying ¡InformaQon ¡(PII) ¡ – Name ¡ – Geography ¡smaller ¡than ¡state ¡ – Date ¡(more ¡detailed ¡than ¡year) ¡ – Tel ¡/ ¡Fax ¡/ ¡email ¡ – SSN ¡ – IDs ¡(Medical ¡record ¡ ¡/ ¡Health ¡insurance ¡/ ¡Accounts/ ¡CerQficates ¡/ ¡Devices) ¡ – Vehicle ¡ID ¡/ ¡License ¡plate ¡ – URLs ¡/ ¡IP ¡addresses ¡ ¡ – Full ¡face ¡photos ¡/ ¡biometrics ¡/ ¡geneQc ¡code ¡ ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 15 ¡

  16. Can ¡re-­‑idenQfy ¡individuals ¡using ¡other ¡ datasets ¡… ¡ [Sweeney ¡IJUFKS ¡2002] ¡ • ¡Governor ¡of ¡MA ¡ 87 ¡% ¡of ¡US ¡populaQon ¡ • Name ¡ • Name ¡ ¡ ¡ ¡ ¡uniquely ¡idenFfied ¡ • SSN ¡ • Address ¡ ¡ ¡ ¡ ¡using ¡ZipCode, ¡ ¡ • Zip • Date ¡ ¡ • Visit ¡Date ¡ ¡ ¡ ¡ ¡Birth ¡Date, ¡and ¡Sex. ¡ • Birth ¡ ¡ ¡Registered ¡ • Diagnosis ¡ ¡ ¡ ¡ ¡ ¡ date • Party ¡ ¡ • Procedure ¡ ¡ ¡ ¡ ¡affiliaQon ¡ ¡ • MedicaQon ¡ • Sex ¡ • Date ¡last ¡ • Total ¡Charge ¡ ¡ ¡ ¡voted ¡ Quasi ¡IdenFfier ¡ Medical ¡Data ¡ Voter ¡List ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 16 ¡

  17. Today’s ¡class ¡ • De-­‑anonymizaQon: ¡ ¡ Algorithms ¡for ¡idenQfying ¡individual ¡records ¡and ¡their ¡sensiQve ¡ values ¡from ¡naively ¡anonymized ¡data ¡using ¡background ¡ knowledge ¡(usually ¡other ¡public ¡datasets) ¡ ¡ • Also ¡called ¡ – Record ¡Linkage ¡ – EnQty ¡ResoluQon ¡ – Fuzzy ¡matching ¡ – … ¡ – See ¡tutorial ¡and ¡lectures ¡in ¡big-­‑data ¡class ¡for ¡more ¡info ¡… ¡ Lecture ¡2 ¡: ¡590.03 ¡Fall ¡13 ¡ 17 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend