En#ty ¡Resolu#on: ¡Blocking ¡
CompSci ¡590.03 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡ ¡
1 ¡ Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡
Recap: En#ty Resolu#on Problem of idenBfying and - - PowerPoint PPT Presentation
En#ty Resolu#on: Blocking CompSci 590.03 Instructor: Ashwin Machanavajjhala Lecture 19 : 590.02 Spring 13 1 Recap: En#ty Resolu#on Problem of idenBfying
1 ¡ Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 2 ¡
u u l l
i i
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 3 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 4 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 5 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 6 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 7 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 8 ¡
Set ¡of ¡all ¡Pairs ¡
Matching ¡Pairs ¡
Pairs ¡of ¡Records ¡ ¡ saCsfying ¡ ¡ Blocking ¡criterion ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 9 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 10 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 11 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 12 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 13 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 14 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 15 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 16 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 17 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 18 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 19 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 20 ¡
Posi#ve ¡Examples ¡ Nega#ve ¡Examples ¡ Blocking ¡Keys ¡ Pick ¡k ¡Blocking ¡keys ¡such ¡ that ¡ ¡ ¡(a) ¡At ¡most ¡ε ¡blue ¡nodes ¡are ¡ not ¡covered ¡ ¡(b) ¡ ¡Number ¡of ¡red ¡nodes ¡ covered ¡is ¡minimized ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 21 ¡
Posi#ve ¡Examples ¡ Nega#ve ¡Examples ¡ Blocking ¡Keys ¡ Pick ¡k ¡Blocking ¡keys ¡such ¡ that ¡ ¡ ¡(a) ¡At ¡most ¡ε ¡blue ¡nodes ¡are ¡ not ¡covered ¡ ¡(b) ¡ ¡Number ¡of ¡red ¡nodes ¡ covered ¡is ¡minimized ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 22 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 23 ¡
` ¡ Probability ¡that ¡ ¡ (x,y) ¡menCons ¡are ¡ ¡ blocked ¡together ¡ Similarity(x,y) ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 24 ¡
k ¡blocks ¡ Band ¡of ¡r ¡minHashes ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 25 ¡
Sim(s) ¡ P(not ¡same ¡ block) ¡ 0.9 ¡ 10-‑8 ¡ 0.8 ¡ 0.00035 ¡ 0.7 ¡ 0.025 ¡ 0.6 ¡ 0.2 ¡ 0.5 ¡ 0.52 ¡ 0.4 ¡ 0.81 ¡ 0.3 ¡ 0.95 ¡ 0.2 ¡ 0.994 ¡ 0.1 ¡ 0.9998 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 26 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 27 ¡
Probabilty
declared a candidate d p d p
1 2 1 2
Distance
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 28 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 29 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 30 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 31 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 32 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 33 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 34 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 35 ¡
Sorted ¡order ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 36 ¡
In ¡mulCple ¡ canopies ¡ Each ¡element ¡ has ¡a ¡single ¡ primary ¡canopy ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 37 ¡
Lecture ¡19 ¡: ¡590.02 ¡Spring ¡13 ¡ 38 ¡