Robust Identification of Fuzzy Duplicates Authors: - - PowerPoint PPT Presentation

robust identification of fuzzy duplicates
SMART_READER_LITE
LIVE PREVIEW

Robust Identification of Fuzzy Duplicates Authors: - - PowerPoint PPT Presentation

Robust Identification of Fuzzy Duplicates Authors: Surajit Chaudhuri (Microso3 Research) Venkatesh Gan; (Microso3


slide-1
SLIDE 1

ì ¡

Robust ¡Identification ¡of ¡Fuzzy ¡Duplicates ¡

Authors: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Surajit ¡Chaudhuri ¡(Microso3 ¡Research) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Venkatesh ¡Gan; ¡(Microso3 ¡Research) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Rajeev ¡Motwani ¡(Stanford ¡University) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Publica;on: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡21st ¡Interna;onal ¡Conference ¡on ¡Data ¡Engineering ¡(ICDE ¡2005) ¡

¡ ¡ ¡

Presented ¡By: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡David ¡Xu ¡

slide-2
SLIDE 2

¡Agenda ¡

  • 1. Introduc;on ¡to ¡Fuzzy ¡Duplicates ¡
  • 2. Overview ¡of ¡Machine ¡Learning ¡
  • 3. Duplicate ¡Elimina;on ¡Strategy ¡
  • 4. Duplicate ¡Elimina;on ¡Algorithm ¡
  • 5. Evalua;on ¡

¡

  • 6. Results ¡

2 ¡

slide-3
SLIDE 3

¡Introduction ¡-­‑ ¡Definition ¡

  • “Fuzzy ¡Duplicates ¡are ¡mul;ple ¡seemingly ¡dis;nct ¡tuples ¡

which ¡represent ¡the ¡same ¡real-­‑world ¡en;ty” ¡[1] ¡

  • Database: ¡Dis;nct ¡
  • Reality: ¡The ¡same ¡

[1] ¡S. ¡Chaudhuri, ¡V. ¡Gan;, ¡and ¡R. ¡Motwani. ¡Robust ¡Iden;fica;on ¡of ¡Fuzzy ¡Duplicates ¡. ¡In ¡Proc. ¡Int'l ¡Conf. ¡on ¡ Data ¡Engineering ¡(ICDE'05), ¡2005, ¡pp. ¡865-­‑876. ¡

ID ¡ Ar'stName ¡ TrackName ¡ 1 ¡ The ¡Doors ¡ LA ¡Woman ¡ 2 ¡ Doors ¡ LA ¡Woman ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

3 ¡

slide-4
SLIDE 4

¡Example ¡– ¡Real ¡World ¡Example ¡

hdp://www.colgatesensi;veprorelief.ca/ ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

4 ¡

slide-5
SLIDE 5

¡Example ¡– ¡Real ¡World ¡Example ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

5 ¡

slide-6
SLIDE 6

¡Example ¡– ¡Real ¡World ¡Example ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

6 ¡

slide-7
SLIDE 7

¡Example ¡– ¡Real ¡World ¡Example ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

7 ¡

slide-8
SLIDE 8

¡Example ¡– ¡Real ¡World ¡Example ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

8 ¡

slide-9
SLIDE 9

¡Example ¡– ¡Media ¡Dataset ¡

  • M. ¡Bilenko. ¡RIDDLE: ¡Repository ¡of ¡informa;on ¡on ¡duplicate ¡detec;on, ¡record ¡linkage, ¡and ¡iden;ty ¡
  • uncertainty. ¡hdp://www.cs.utexas.edu/users/ml/riddle/index.html ¡

¡

ID ¡ Ar'stName ¡ TrackName ¡ 1 ¡ The ¡Doors ¡ LA ¡Woman ¡ 2 ¡ Doors ¡ LA ¡Woman ¡ 3 ¡ The ¡Beatles ¡ A ¡Lidle ¡Help ¡from ¡My ¡Friends ¡ 4 ¡ Beatles, ¡The ¡ With ¡a ¡Lidle ¡Help ¡From ¡My ¡Friend ¡ … ¡ … ¡ … ¡ 7 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡ 8 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡II ¡ 9 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡III ¡ 10 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡IV ¡ 11 ¡ Aaliyah ¡ Are ¡You ¡Ready ¡ 12 ¡ AC ¡DC ¡ Are ¡You ¡Ready ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

9 ¡

slide-10
SLIDE 10

¡Example ¡– ¡Media ¡Dataset ¡

  • M. ¡Bilenko. ¡RIDDLE: ¡Repository ¡of ¡informa;on ¡on ¡duplicate ¡detec;on, ¡record ¡linkage, ¡and ¡iden;ty ¡
  • uncertainty. ¡hdp://www.cs.utexas.edu/users/ml/riddle/index.html ¡

¡

ID ¡ Ar'stName ¡ TrackName ¡ 1 ¡ The ¡Doors ¡ LA ¡Woman ¡ 2 ¡ Doors ¡ LA ¡Woman ¡ 3 ¡ The ¡Beatles ¡ A ¡Lidle ¡Help ¡from ¡My ¡Friends ¡ 4 ¡ Beatles, ¡The ¡ With ¡a ¡Lidle ¡Help ¡From ¡My ¡Friend ¡ … ¡ … ¡ … ¡ 7 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡ 8 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡II ¡ 9 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡III ¡ 10 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡IV ¡ 11 ¡ Aaliyah ¡ Are ¡You ¡Ready ¡ 12 ¡ AC ¡DC ¡ Are ¡You ¡Ready ¡ Duplicates ¡ Not ¡Duplicates ¡ Not ¡Duplicates ¡ Duplicates ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

10 ¡

slide-11
SLIDE 11

¡Introduction ¡-­‑ ¡Motives ¡

  • Customer ¡Data ¡
  • Prevent ¡unnecessary ¡costs ¡in ¡promo;onal ¡material ¡

¡

  • Company ¡Data ¡
  • Incorrect ¡data ¡analysis, ¡such ¡as ¡counts ¡on ¡product ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

11 ¡

slide-12
SLIDE 12

¡Machine ¡Learning ¡-­‑ ¡Overview ¡

  • Leverage ¡a ¡branch ¡of ¡AI, ¡called ¡Machine ¡Learning, ¡to ¡

eliminate ¡duplicates ¡ ¡

  • Use ¡data ¡to ¡train ¡algorithms ¡into ¡performing ¡a ¡task ¡
  • Run ¡the ¡algorithms ¡on ¡databases ¡to ¡clean ¡the ¡data ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

12 ¡

slide-13
SLIDE 13

¡Machine ¡Learning ¡-­‑ ¡Overview ¡

1) Supervised ¡Learning ¡ ¡ 2) Unsupervised ¡Learning ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

13 ¡

slide-14
SLIDE 14

¡Machine ¡Learning ¡-­‑ ¡Supervised ¡

1) Supervised ¡Learning ¡

  • Uses ¡well ¡defined ¡training ¡data ¡to ¡teach ¡algorithm ¡
  • May ¡be ¡difficult ¡to ¡obtain ¡training ¡data ¡
  • Needs ¡“domain ¡knowledge” ¡

¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

14 ¡

slide-15
SLIDE 15

¡Machine ¡Learning ¡-­‑ ¡Unsupervised ¡

¡ 2) ¡Unsupervised ¡Learning ¡

  • Relies ¡on ¡distance ¡func;on ¡detect ¡duplicates ¡

¡

  • Involves ¡clustering ¡of ¡data ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

15 ¡

slide-16
SLIDE 16

¡Duplicate ¡Elimination ¡Strategy ¡

  • Use ¡edit ¡distance ¡to ¡detect ¡fuzzy ¡duplicates ¡
  • Edit ¡distance: ¡ ¡Quan;fy ¡similarity ¡between ¡strings, ¡based ¡on: ¡
  • Inser;on ¡
  • Dele;on ¡
  • Subs;tu;on ¡
  • E.g. ¡Yellow ¡-­‑> ¡Jello ¡is ¡1 ¡subs;tu;on ¡and ¡1 ¡dele;on ¡
  • Can ¡assign ¡a ¡distance ¡metric ¡between ¡tuples ¡

¡

Edit ¡Distance: ¡h@ps://web.stanford.edu/class/cs124/lec/med.pdf ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

16 ¡

slide-17
SLIDE 17

¡Duplicate ¡Elimination ¡Strategy ¡

  • Baseline: ¡“Global ¡Threshold” ¡to ¡eliminate ¡duplicates ¡
  • E.G. ¡tuples ¡are ¡duplicates ¡if: ¡ ¡# ¡of ¡changes ¡< ¡X ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

17 ¡

slide-18
SLIDE 18

¡Example ¡– ¡Media ¡Dataset ¡

  • M. ¡Bilenko. ¡RIDDLE: ¡Repository ¡of ¡informa;on ¡on ¡duplicate ¡detec;on, ¡record ¡linkage, ¡and ¡iden;ty ¡
  • uncertainty. ¡hdp://www.cs.utexas.edu/users/ml/riddle/index.html ¡

¡

ID ¡ Ar'stName ¡ TrackName ¡ 1 ¡ The ¡Doors ¡ LA ¡Woman ¡ 2 ¡ Doors ¡ LA ¡Woman ¡ 3 ¡ The ¡Beatles ¡ A ¡Lidle ¡Help ¡from ¡My ¡Friends ¡ 4 ¡ Beatles, ¡The ¡ With ¡a ¡Lidle ¡Help ¡From ¡My ¡Friend ¡ … ¡ … ¡ … ¡ 7 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡ 8 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡II ¡ 9 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡III ¡ 10 ¡ 4th ¡Elemynt ¡ Ears/Eyes ¡– ¡Part ¡IV ¡ 11 ¡ Aaliyah ¡ Are ¡You ¡Ready ¡ 12 ¡ AC ¡DC ¡ Are ¡You ¡Ready ¡ Duplicates ¡ Not ¡Duplicates ¡ Not ¡Duplicates ¡ Duplicates ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

18 ¡

slide-19
SLIDE 19

¡Duplicate ¡Elimination ¡Strategy ¡

Fuzzy ¡Duplicates ¡are: ¡ ¡ 1) Duplicate ¡tuples ¡are ¡‘closer’ ¡to ¡each ¡other ¡than ¡to ¡others ¡

  • A ¡“compact ¡set” ¡(CS ¡criteria) ¡

¡ 2) The ¡local ¡neighborhood ¡of ¡duplicate ¡tuples ¡is ¡sparse ¡

  • A ¡“sparse ¡neighborhood” ¡(SN ¡criteria) ¡

¡ ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

19 ¡

slide-20
SLIDE 20

¡Duplicate ¡Elimination ¡Strategy ¡

(The ¡Doors, ¡LA ¡Woman) ¡ (Doors, ¡LA ¡Woman) ¡ (Aaliyah, ¡Are ¡You ¡Ready) ¡ (AC ¡DC, ¡Are ¡You ¡Ready) ¡ (Bob ¡Dylan, ¡Are ¡You ¡Ready) ¡ (Creed, ¡Are ¡You ¡Ready) ¡ Red ¡= ¡Compact ¡Set ¡Criteria ¡ Yellow ¡= ¡Sparse ¡Neighborhood ¡Criteria ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

20 ¡

slide-21
SLIDE 21

¡DE ¡Problem ¡

Formal ¡Defini'ons ¡ CS ¡Criteria: ¡

  • Given ¡a ¡set ¡S ¡of ¡tuples ¡from ¡rela;on ¡R ¡
  • Each ¡tuple ¡in ¡S, ¡called ¡v, ¡is ¡closer ¡to ¡tuples ¡v’, ¡in ¡S, ¡than ¡any ¡
  • ther ¡tuples ¡v’’ ¡in ¡R-­‑S ¡

SN ¡Criteria: ¡

  • Neighborhood: ¡
  • ¡sphere ¡of ¡radius ¡2nn(v), ¡(2x ¡distance ¡of ¡closest ¡

neighbor) ¡

  • Sparse ¡Neighborhood: ¡
  • ¡if ¡# ¡of ¡tuples ¡in ¡Neighborhood ¡< ¡c ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

21 ¡

slide-22
SLIDE 22

¡DE ¡Problem ¡

c: ¡posi;ve ¡threshold ¡value ¡ K: ¡posi;ve ¡integer ¡ ¡ Theta: ¡posi;ve ¡real ¡number ¡ ¡

Par;;on ¡R ¡into ¡a ¡minimum ¡number ¡of ¡groups ¡{G1,..,Gm} ¡for ¡all ¡Gi ¡ so: ¡ ¡ 1) ¡Gi ¡is ¡a ¡compact ¡set ¡ 2) ¡Gi ¡is ¡a ¡sparse ¡neighborhood ¡ ¡ 3) ¡The ¡size ¡of ¡Gi ¡ ¡ ¡ ¡ ¡ ¡K ¡ ¡OR ¡ ¡ ¡ ¡ ¡The ¡diameter ¡of ¡Gi ¡ ¡ ¡ ¡ ¡ ¡Theta ¡

≤ ¡ ≤ ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

22 ¡

slide-23
SLIDE 23

¡DE ¡Algorithm ¡

Sample ¡implementa'on: ¡

¡Figure ¡from: ¡S. ¡Chaudhuri, ¡V. ¡Gan;, ¡and ¡R. ¡Motwani. ¡Robust ¡Iden;fica;on ¡of ¡Fuzzy ¡Duplicates ¡. ¡In ¡Proc. ¡Int'l ¡

  • Conf. ¡on ¡Data ¡Engineering ¡(ICDE'05), ¡2005, ¡pp. ¡865-­‑876. ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

23 ¡

slide-24
SLIDE 24

Phase ¡1: ¡

  • Find ¡the ¡nearest ¡neighbors ¡for ¡each ¡tuple ¡
  • the ¡K ¡nearest ¡

OR ¡

  • ¡within ¡certain ¡radius, ¡Theta ¡
  • Paper ¡assumes ¡a ¡database ¡indexed ¡for ¡distance ¡between ¡

neighbors ¡

  • Index ¡based ¡on ¡Exact ¡Distance ¡is ¡very ¡difficult ¡
  • Index ¡using ¡an ¡approximate ¡/ ¡probabilis;c ¡method ¡

¡DE ¡Algorithm ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

24 ¡

slide-25
SLIDE 25

Phase ¡2: ¡

  • Par;;on ¡input ¡rela;on ¡into ¡minimum ¡number ¡of ¡compact ¡SN ¡

sets ¡ ¡

  • The ¡resul;ng ¡par;;ons ¡are ¡the ¡fuzzy ¡duplicates ¡
  • Solu;on ¡is ¡unique ¡based ¡on ¡parameters: ¡
  • c ¡threshold ¡
  • K ¡value ¡or ¡Theta ¡distance ¡

¡DE ¡Algorithm ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

25 ¡

slide-26
SLIDE 26

Phase ¡1 ¡– ¡NN ¡List ¡Computa'on: ¡ ¡

  • Database ¡needs ¡to ¡be ¡indexed ¡in ¡a ¡certain ¡way ¡

Phase ¡2 ¡-­‑ ¡ ¡Par''oning ¡Phase: ¡

  • Most ¡processing ¡is ¡done ¡using ¡SQL ¡queries ¡
  • Avoids ¡moving ¡large ¡amounts ¡of ¡data ¡between ¡client ¡& ¡server ¡

¡DE ¡Algorithm ¡-­‑ ¡Impact ¡on ¡Database ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

26 ¡

slide-27
SLIDE 27

¡Evaluation ¡

RIDDLE ¡Repository: ¡ Internal ¡Datasets: ¡

  • Media[ar;stName, ¡trackName] ¡
  • Org[name, ¡address, ¡city, ¡state, ¡zipcode] ¡

¡ Public ¡Datasets: ¡

  • Restaurants[Name] ¡
  • BirdScod[Name] ¡
  • Census[LastName, ¡First ¡name, ¡Middle ¡ini;al, ¡Number, ¡Street] ¡

¡

  • M. ¡Bilenko. ¡RIDDLE: ¡Repository ¡of ¡informa;on ¡on ¡duplicate ¡detec;on, ¡record ¡linkage, ¡and ¡iden;ty ¡
  • uncertainty. ¡hdp://www.cs.utexas.edu/users/ml/riddle/index.html ¡

¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

27 ¡

slide-28
SLIDE 28

¡Evaluation ¡

1) Recall ¡

  • “Frac'on ¡of ¡true ¡pairs ¡of ¡duplicates ¡iden'fied ¡by ¡an ¡

algorithm” ¡

  • How ¡many ¡fuzzy ¡duplicates ¡can ¡be ¡iden;fied? ¡
  • Higher ¡the ¡beder ¡

¡ 2) Precision ¡ ¡

  • “Frac'on ¡of ¡tuple ¡pairs ¡an ¡algorithm ¡returns ¡which ¡are ¡truly ¡

duplicates” ¡

  • How ¡many ¡of ¡the ¡duplicates ¡tagged, ¡are ¡fuzzy ¡duplicates? ¡
  • Higher ¡the ¡beder ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

28 ¡

slide-29
SLIDE 29

¡Results ¡

¡Figure ¡from: ¡S. ¡Chaudhuri, ¡V. ¡Gan;, ¡and ¡R. ¡Motwani. ¡Robust ¡Iden;fica;on ¡of ¡Fuzzy ¡Duplicates ¡. ¡In ¡Proc. ¡Int'l ¡

  • Conf. ¡on ¡Data ¡Engineering ¡(ICDE'05), ¡2005, ¡pp. ¡865-­‑876. ¡

Performs ¡somewhat ¡beder ¡than ¡baseline ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

29 ¡

slide-30
SLIDE 30

¡Results ¡

¡Figure ¡from: ¡S. ¡Chaudhuri, ¡V. ¡Gan;, ¡and ¡R. ¡Motwani. ¡Robust ¡Iden;fica;on ¡of ¡Fuzzy ¡Duplicates ¡. ¡In ¡Proc. ¡Int'l ¡

  • Conf. ¡on ¡Data ¡Engineering ¡(ICDE'05), ¡2005, ¡pp. ¡865-­‑876. ¡

Performs ¡the ¡same ¡as ¡baseline ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

30 ¡

slide-31
SLIDE 31

¡Figure ¡from: ¡S. ¡Chaudhuri, ¡V. ¡Gan;, ¡and ¡R. ¡Motwani. ¡Robust ¡Iden;fica;on ¡of ¡Fuzzy ¡Duplicates ¡. ¡In ¡Proc. ¡Int'l ¡

  • Conf. ¡on ¡Data ¡Engineering ¡(ICDE'05), ¡2005, ¡pp. ¡865-­‑876. ¡

¡Results ¡

Performs ¡much ¡beder ¡than ¡baseline ¡

Introduc;on ¡ ML ¡Overview ¡ DE ¡Strategy ¡ DE ¡Algorithm ¡ Evalua;on ¡ Results ¡

31 ¡

slide-32
SLIDE 32

¡Thanks ¡

Thanks ¡for ¡Listening! ¡

32 ¡

slide-33
SLIDE 33

¡Appendix ¡

Set ¡= ¡{10 ¡50 ¡100 ¡150} ¡

33 ¡