Locality ¡Sensi.ve ¡Hashing ¡
CompSci ¡590.04 ¡ Instructor: ¡Ashwin ¡Machanavajjhala ¡ ¡
1 ¡ Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡
Problem: Finding Duplicate Elements Given a set of objects - - PowerPoint PPT Presentation
Locality Sensi.ve Hashing CompSci 590.04 Instructor: Ashwin Machanavajjhala Lecture 11 : 590.04 Fall 15 1 Problem: Finding Duplicate Elements Given a
1 ¡ Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 2 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 3 ¡
4 ¡ Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 5 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 6 ¡
!
Dot ¡Product ¡ L2 ¡Norm ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 7 ¡
Probabilty
declared a candidate d p d p
1 2 1 2
Distance
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 8 ¡
All ¡Pairs ¡of ¡
Pairs ¡with ¡small ¡ distance ¡ Pairs ¡grouped ¡by ¡LSH ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 9 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 10 ¡
` ¡ Probability ¡that ¡ ¡ (x,y) ¡menBons ¡are ¡ ¡ blocked ¡together ¡ Similarity(x,y) ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 11 ¡
k ¡blocks ¡ Band ¡of ¡r ¡minHashes ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 12 ¡
Sim(s) ¡ P(not ¡same ¡ block) ¡ 0.9 ¡ 10-‑8 ¡ 0.8 ¡ 0.00035 ¡ 0.7 ¡ 0.025 ¡ 0.6 ¡ 0.2 ¡ 0.5 ¡ 0.52 ¡ 0.4 ¡ 0.81 ¡ 0.3 ¡ 0.95 ¡ 0.2 ¡ 0.994 ¡ 0.1 ¡ 0.9998 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 13 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 14 ¡
Probabilty
declared a candidate d p d p
1 2 1 2
Distance
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 15 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 16 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 17 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 18 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 19 ¡
Lecture ¡11 ¡: ¡590.04 ¡Fall ¡15 ¡ 20 ¡