Discrimina)on Rate: An A1ribute-Centric Metric to Measure - - PowerPoint PPT Presentation

discrimina on rate an a1ribute centric metric to measure
SMART_READER_LITE
LIVE PREVIEW

Discrimina)on Rate: An A1ribute-Centric Metric to Measure - - PowerPoint PPT Presentation

Discrimina)on Rate: An A1ribute-Centric Metric to Measure Privacy WODIAC PETS 2017 Louis Philippe SONDECK 07-17-2017 Summary Exis)ng


slide-1
SLIDE 1

Discrimina)on ¡Rate: ¡ ¡ An ¡A1ribute-­‑Centric ¡Metric ¡to ¡ Measure ¡Privacy ¡

WODIAC ¡ ¡ PETS ¡2017 ¡ ¡

Louis ¡Philippe ¡SONDECK ¡

¡

07-­‑17-­‑2017 ¡

slide-2
SLIDE 2

Summary ¡

  • Exis)ng ¡Metrics ¡and ¡Limita)ons ¡
  • The ¡Discrimina)on ¡Rate ¡Metric ¡(DR) ¡
  • An ¡A1ack ¡Driven ¡Privacy ¡Assessment ¡
  • Results ¡on ¡Real ¡Data ¡ ¡

2 ¡

slide-3
SLIDE 3

Exis)ng ¡Metrics ¡and ¡Limita)ons ¡

3 ¡

slide-4
SLIDE 4

Exis)ng ¡Metrics ¡

  • There ¡exists ¡a ¡large ¡amount ¡of ¡metrics ¡for ¡privacy ¡measurements ¡ ¡

¡

  • Some ¡of ¡the ¡most ¡popular: ¡

– k-­‑anonymity-­‑like ¡metrics ¡(k-­‑anonymity, ¡l-­‑diversity, ¡t-­‑closeness…) ¡ – Distor4on ¡Rate ¡metrics ¡(Mutual ¡Informa)on, ¡KL-­‑divergence, ¡Mean ¡ Squared ¡Error…) ¡ – Differen4al ¡Privacy ¡metrics ¡(based ¡on ¡the ¡epsilon ¡parameter) ¡ ¡

¡k-­‑anonymity ¡(Samara4, ¡2001); ¡l-­‑diversity ¡(Machanavajjhala ¡et ¡al., ¡2007); ¡t-­‑closeness ¡(Li ¡et ¡al., ¡ 2007); ¡Distor4on ¡Rate ¡(Rebollo-­‑Monedero ¡et ¡al., ¡2010); ¡Differen4al ¡Privacy ¡(C. ¡Dwork, ¡2008) ¡

4 ¡

slide-5
SLIDE 5

Limita)ons ¡ ¡

  • Common ¡limita2ons: ¡ ¡
  • No ¡measurement ¡with ¡respect ¡to ¡a1acks ¡which ¡seems ¡to ¡be ¡the ¡most ¡

pragma)c ¡approach ¡

  • Average ¡measurements, ¡leading ¡to ¡the ¡worst ¡case ¡problem ¡

¡

  • Specific ¡limita2ons ¡ ¡
  • It ¡is ¡difficult ¡to ¡relate ¡the ¡measurements ¡to ¡the ¡iden)fica)on ¡capacity ¡

(Differen3al ¡Privacy) ¡

  • Do ¡not ¡provide ¡measurement ¡over ¡more ¡than ¡2 ¡variables ¡(k-­‑

anonymity-­‑like ¡metrics) ¡ ¡ ¡ ¡ ¡

5 ¡

slide-6
SLIDE 6

The ¡Discrimina)on ¡Rate ¡Metric ¡

6 ¡

slide-7
SLIDE 7

The ¡Discrimina)on ¡Rate ¡Metric ¡

  • Computes ¡the ¡iden)fica)on ¡capability ¡of ¡a1ributes ¡from ¡their ¡

capability ¡to ¡refine ¡an ¡anonymity ¡set ¡ ¡

  • The ¡results ¡are ¡scaled ¡between ¡0 ¡and ¡1 ¡
  • There ¡are ¡3 ¡versions: ¡

– Simple ¡DR ¡(SDR): ¡the ¡capability ¡of ¡1 ¡a>ribute ¡ – Combined ¡DR ¡(CDR): ¡the ¡capability ¡of ¡N ¡a>ributes ¡ – Seman)c ¡DR ¡(SeDR): ¡enables ¡measurements ¡according ¡to ¡subsets ¡of ¡ the ¡anonymity ¡set ¡

7 ¡

slide-8
SLIDE 8

Defini)on: ¡Simple ¡Discrimina)on ¡Rate ¡ ¡

  • ¡Input ¡: ¡ ¡
  • ¡Y ¡: ¡key ¡a1ribute ¡ ¡ ¡
  • ¡X ¡: ¡a ¡sensi)ve ¡a1ribute ¡

¡

  • ¡Output ¡: ¡SDR ¡of ¡Y ¡over ¡the ¡set ¡of ¡outcomes ¡of ¡a1ribute ¡X ¡
  • ¡Capacity ¡of ¡SDR ¡to ¡measure ¡down ¡to ¡the ¡a1ribute’ ¡values ¡

8 ¡

slide-9
SLIDE 9

SDR ¡Computa)on ¡

Example ¡ ¡Table ¡

9 ¡

slide-10
SLIDE 10

SDR ¡Computa)on ¡

SDR ¡of ¡Age ¡over ¡the ¡Subjects ¡in ¡the ¡table ¡

Example ¡ ¡Table ¡

10 ¡

slide-11
SLIDE 11

SDR ¡Computa)on ¡

  • ¡A1ribute ¡Age ¡can ¡take ¡5 ¡values: ¡
  • ­‑ ¡22 ¡-­‑> ¡3 ¡subjects, ¡35 ¡-­‑> ¡3 ¡subjects, ¡63 ¡-­‑> ¡1 ¡subject, ¡45 ¡-­‑> ¡1 ¡subject, ¡40 ¡-­‑> ¡1 ¡subject ¡
  • ¡The ¡corresponding ¡condi)onal ¡entropies: ¡ ¡
  • ­‑ H(X|Y ¡= ¡22) ¡= ¡H(X|Y ¡= ¡35) ¡ ¡= ¡-­‑log(1/3) ¡
  • ­‑ H(X|Y ¡= ¡63) ¡= ¡H(X|Y ¡= ¡45) ¡= ¡H(X|Y ¡= ¡40) ¡= ¡0 ¡

Example ¡ ¡Table ¡

11 ¡

slide-12
SLIDE 12

SDR ¡Computa)on ¡

  • ¡A1ribute ¡Age ¡can ¡take ¡5 ¡values: ¡
  • ­‑ ¡22 ¡-­‑> ¡3 ¡subjects, ¡35 ¡-­‑> ¡3 ¡subjects, ¡63 ¡-­‑> ¡1 ¡subject, ¡45 ¡-­‑> ¡1 ¡subject, ¡40 ¡-­‑> ¡1 ¡subject ¡
  • ¡The ¡corresponding ¡condi)onal ¡entropies: ¡ ¡
  • ­‑ H(X|Y ¡= ¡22) ¡= ¡H(X|Y ¡= ¡35) ¡ ¡= ¡-­‑log(1/3) ¡
  • ­‑ H(X|Y ¡= ¡63) ¡= ¡H(X|Y ¡= ¡45) ¡= ¡H(X|Y ¡= ¡40) ¡= ¡0 ¡

Example ¡ ¡Table ¡

12 ¡

slide-13
SLIDE 13

Defini)on: ¡Combined ¡DR ¡

  • ¡Input: ¡ ¡
  • ¡Y1, ¡…, ¡Yn ¡: ¡N ¡key ¡a1ributes ¡
  • ¡X ¡: ¡a ¡sensi)ve ¡a1ribute ¡

¡

  • ¡Output ¡: ¡CDR ¡of ¡Y1, ¡…, ¡Yn ¡over ¡the ¡set ¡of ¡outcomes ¡of ¡a1ribute ¡X ¡
  • ¡Capacity ¡of ¡CDR ¡to ¡measure ¡down ¡to ¡the ¡a1ribute ¡values ¡

13 ¡

slide-14
SLIDE 14

CDR ¡Computa)on ¡

CDR ¡of ¡Age ¡over ¡the ¡subjects ¡in ¡the ¡table ¡

Example ¡ ¡Table ¡

14 ¡

slide-15
SLIDE 15

CDR ¡Computa)on ¡

CDR ¡of ¡Age ¡over ¡the ¡subjects ¡in ¡the ¡table ¡

Example ¡ ¡Table ¡

15 ¡

slide-16
SLIDE 16

Comparison ¡with ¡exis)ng ¡metrics ¡

16 ¡

Metric ¡ Granularity ¡ Scope ¡ Link ¡with ¡re-­‑ iden2fica2on ¡ Epsilon ¡

  • ­‑ ¡2 ¡a1ributes ¡
  • ­‑ ¡average ¡

related ¡to ¡DP ¡ weak ¡ Mutual ¡ Informa)on ¡

  • ­‑ ¡n ¡a1ributes ¡
  • ­‑ ¡average ¡

¡ random ¡ variables ¡in ¡ general ¡ medium ¡ K-­‑anonymity ¡

  • ­‑ 1 ¡a1ribute ¡
  • ­‑ ¡average ¡

¡ related ¡to ¡ ¡k-­‑ anonymity ¡ medium ¡ L-­‑diversity ¡ ¡

  • ­‑ ¡2 ¡a1ributes ¡
  • ­‑ ¡average ¡

¡ related ¡to ¡ ¡k-­‑ anonymity ¡ medium ¡ T-­‑closeness ¡ ¡

  • ­‑ ¡2 ¡a1ributes ¡
  • ­‑ ¡ ¡average ¡

¡ related ¡to ¡ ¡k-­‑ anonymity ¡ medium ¡ DR ¡

  • ­‑ ¡n ¡a>ributes ¡
  • ­‑ ¡fine ¡ ¡

Random ¡ variables ¡in ¡ general ¡ High ¡

slide-17
SLIDE 17

An ¡A1ack ¡Driven ¡Privacy ¡Assessment ¡

17 ¡

slide-18
SLIDE 18

k-­‑anonymity ¡model ¡

¡

  • Considers ¡3 ¡types ¡of ¡a>ributes: ¡

– Iden)fiers: ¡a1ributes ¡that ¡can ¡uniquely ¡iden)fy ¡a ¡subject ¡(e.g. ¡security ¡ numbers, ¡fingerprints…) ¡ ¡ – Key ¡a1ributes/ ¡Quasi-­‑iden)fiers: ¡a1ributes ¡that ¡in ¡combina)on ¡can ¡be ¡used ¡to ¡ iden)fy ¡a ¡subject ¡(e.g. ¡Age, ¡Zip ¡Code, ¡…) ¡ ¡ – Sensi)ve/Confiden)al ¡A1ributes: ¡a1ributes ¡that ¡need ¡to ¡be ¡protected ¡(e.g. ¡ health ¡data, ¡religion, ¡salary…) ¡ ¡

  • k-­‑anonymity ¡ensures ¡that ¡each ¡combina2on ¡key ¡a>ributes ¡is ¡

shared ¡by ¡at ¡least ¡k ¡subjects ¡ ¡

18 ¡

slide-19
SLIDE 19

A1acks ¡Assessment ¡

  • DR ¡enables ¡assessment ¡of ¡all ¡the ¡exis2ng ¡a>acks ¡

targe)ng ¡the ¡k-­‑anonymity ¡model: ¡

– Iden)ty ¡a1ack ¡ – homogeneity ¡a1ack ¡ – background ¡knowledge ¡a1ack ¡ – skewness ¡a1ack ¡ – seman)c ¡a1ack ¡ ¡

  • The ¡a>acker’s ¡knowledge ¡is ¡computed ¡from ¡the ¡

iden2fica2on ¡capability ¡of ¡a>ributes ¡he ¡owns ¡

19 ¡

slide-20
SLIDE 20

(1) ¡Originale ¡Table ¡

  • ¡Protects ¡against: ¡against ¡Iden)ty ¡A1ack ¡
  • ¡Implements: ¡generaliza)on/suppression, ¡

aggrega)on… ¡

Iden)ty ¡A1ack ¡(k-­‑anonymity) ¡

20 ¡

slide-21
SLIDE 21

(1) ¡Originale ¡Table ¡ (2) ¡ ¡Generaliza)on ¡Table ¡

  • ¡Protects ¡against: ¡against ¡Iden)ty ¡A1ack ¡
  • ¡Implements: ¡generaliza)on/suppression, ¡

aggrega)on… ¡

Iden)ty ¡A1ack ¡(k-­‑anonymity) ¡

21 ¡

slide-22
SLIDE 22

(1) ¡Originale ¡Table ¡ (3) ¡3-­‑anonymity ¡Table ¡

  • ¡Protects ¡against: ¡against ¡Iden)ty ¡A1ack ¡
  • ¡Implements: ¡generaliza)on/suppression, ¡

aggrega)on… ¡

Iden)ty ¡A1ack ¡(k-­‑anonymity) ¡

22 ¡

(2) ¡ ¡Generaliza)on ¡Table ¡

slide-23
SLIDE 23

Approaches ¡for ¡Iden)ty ¡a1ack ¡ Assessment ¡

23 ¡

  • ¡3 ¡approaches ¡for ¡iden)ty ¡a1ack ¡measurement ¡
  • ­‑ Black ¡box: ¡the ¡a1acker ¡only ¡has ¡the ¡anonymized ¡table ¡
  • ­‑ Grey ¡box: ¡the ¡a1acker ¡has ¡the ¡anonymized ¡table ¡plus ¡external ¡data ¡ ¡ ¡
  • ­‑ White ¡box: ¡the ¡a1acker ¡has ¡the ¡generalized ¡table ¡
slide-24
SLIDE 24

Approaches ¡for ¡Iden)ty ¡a1ack ¡ Assessment ¡

(2) ¡ ¡Generaliza)on ¡Table ¡

  • ¡3 ¡approaches ¡for ¡iden)ty ¡a1ack ¡measurement ¡
  • ­‑ Black ¡box: ¡the ¡a1acker ¡only ¡has ¡the ¡anonymized ¡table ¡
  • ­‑ Grey ¡box: ¡the ¡a1acker ¡has ¡the ¡anonymized ¡table ¡plus ¡external ¡data ¡ ¡ ¡
  • ­‑ White ¡box: ¡the ¡a1acker ¡has ¡the ¡generalized ¡table ¡

24 ¡

slide-25
SLIDE 25

Iden)ty ¡A1ack ¡Assessment ¡

25 ¡

¡Iden)ty ¡a1ack ¡measurement ¡

  • ¡Iden2ty ¡A>ack: ¡capacity ¡of ¡an ¡a1acker ¡to ¡refine ¡the ¡set ¡of ¡the ¡original ¡key ¡

a>ribute ¡values ¡(Age) ¡from ¡the ¡generalized ¡key ¡a>ribute ¡(Age*) ¡

slide-26
SLIDE 26

Homogeneity ¡& ¡Background ¡ Knowledge ¡(l-­‑diversity) ¡

(2) ¡3-­‑anonymity ¡Table ¡

  • ¡Protects ¡against: ¡homogeneity ¡and ¡

background ¡knowledge ¡a1acks ¡ ¡

  • ¡Implements: ¡diversifica)on ¡of ¡sensi)ve ¡values ¡

26 ¡

slide-27
SLIDE 27

Homogeneity ¡& ¡Background ¡ Knowledge ¡(l-­‑diversity) ¡

(2) ¡3-­‑anonymity ¡Table ¡

  • ¡Protects ¡against: ¡homogeneity ¡and ¡

background ¡knowledge ¡a1acks ¡ ¡

  • ¡Implements: ¡diversifica)on ¡of ¡sensi)ve ¡values ¡

27 ¡

slide-28
SLIDE 28

Homogeneity ¡& ¡Background ¡ Knowledge ¡(l-­‑diversity) ¡

(1) ¡Original ¡Table ¡ (2) ¡3-­‑anonymity ¡Table ¡ (3) ¡3-­‑diversity ¡Table ¡

  • ¡Protects ¡against: ¡homogeneity ¡and ¡

background ¡knowledge ¡a1acks ¡ ¡

  • ¡Implements: ¡diversifica)on ¡of ¡sensi)ve ¡values ¡

28 ¡

slide-29
SLIDE 29

Homogeneity ¡A1ack ¡Assessment ¡ ¡

29 ¡

  • ¡Homogeneity ¡a>ack: ¡ ¡capacity ¡of ¡an ¡a1acker ¡to ¡refine ¡the ¡set ¡of ¡the ¡sensi2ve ¡

values ¡(Disease) ¡from ¡the ¡key ¡a>ribute ¡(Age*) ¡

slide-30
SLIDE 30

Background ¡Knowledge ¡A1ack ¡ Assessment ¡ ¡

30 ¡

  • ¡Background ¡knowledge: ¡computed ¡from ¡the ¡rest ¡of ¡informa2on ¡needed ¡

aTer ¡applying ¡an ¡Homogeneity ¡a>ack ¡(1 ¡-­‑ ¡DR) ¡

slide-31
SLIDE 31

Results ¡on ¡Real ¡Data ¡ Adult ¡Data ¡Set ¡~30000 ¡records ¡

31 ¡

slide-32
SLIDE 32

Iden)ty ¡A1ack ¡Assessment ¡ (10-­‑anon ¡vs. ¡15-­‑anon) ¡

32 ¡

slide-33
SLIDE 33

Iden)ty ¡A1ack ¡Assessment ¡ (10-­‑anon ¡vs. ¡15-­‑anon) ¡

33 ¡

slide-34
SLIDE 34

Homogeneity ¡A1ack ¡Assessment ¡ (k-­‑anonymity ¡vs. ¡l-­‑diversity) ¡ ¡

34 ¡

slide-35
SLIDE 35

Homogeneity ¡A1ack ¡Assessment ¡ (k-­‑anonymity ¡vs. ¡l-­‑diversity) ¡ ¡

35 ¡

slide-36
SLIDE 36

Homogeneity ¡A1ack ¡Assessment ¡ (Marital ¡Status’ ¡values) ¡

36 ¡

slide-37
SLIDE 37

Conclusion ¡

  • ¡Anonymiza)on ¡refers ¡to ¡the ¡trade-­‑off ¡between ¡privacy ¡and ¡u)lity ¡
  • ¡Metrics ¡are ¡therefore ¡at ¡the ¡center ¡of ¡anonymiza)on ¡
  • ¡Discrimina)on ¡Rate ¡provides ¡prac)cal, ¡flexible ¡and ¡accurate ¡measurements ¡

for ¡privacy ¡assessment ¡

  • ¡Discrimina)on ¡Rate ¡enables ¡tackling ¡assessment ¡from ¡the ¡a1acker’s ¡

perspec)ve ¡which ¡is ¡the ¡most ¡pragma)c ¡approach ¡

37 ¡

slide-38
SLIDE 38

Thank ¡you ¡

38 ¡