My Background 1991-1995 B.Tech IIT-Bombay - - PowerPoint PPT Presentation

my background
SMART_READER_LITE
LIVE PREVIEW

My Background 1991-1995 B.Tech IIT-Bombay - - PowerPoint PPT Presentation

The Big Data Algorithmic Toolkit Moses Charikar Stanford University My Background 1991-1995 B.Tech IIT-Bombay 1995-2000 Stanford PhD


slide-1
SLIDE 1

The ¡Big ¡Data ¡Algorithmic ¡Toolkit ¡

Moses ¡Charikar ¡ ¡ Stanford ¡University ¡

slide-2
SLIDE 2

My ¡Background ¡

  • 1991-­‑1995 ¡ ¡B.Tech ¡IIT-­‑Bombay ¡
  • 1995-­‑2000 ¡ ¡Stanford ¡PhD ¡ ¡
  • 2000-­‑2001 ¡ ¡Google ¡Research ¡
  • 2001-­‑2015 ¡ ¡Princeton ¡
  • 2015-­‑ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Stanford ¡

2 ¡

slide-3
SLIDE 3

My ¡background ¡

  • ApproximaKon ¡Algorithms ¡

– heurisKcs ¡with ¡provable ¡guarantees ¡for ¡hard ¡

  • pKmizaKon ¡problems ¡

– mathemaKcal ¡programming ¡techniques ¡ linear ¡programs, ¡etc ¡

  • Algorithmic ¡techniques ¡for ¡Massive ¡Data ¡Sets ¡

– dimension ¡reducKon ¡ – similarity ¡search ¡

slide-4
SLIDE 4

Scenarios ¡

  • Google ¡search ¡log ¡ ¡
  • ¡ ¡
slide-5
SLIDE 5

Scenarios ¡

  • Facebook ¡social ¡network ¡
slide-6
SLIDE 6

Scenarios ¡

  • Sequencing ¡human ¡genome ¡

¡

  • What ¡discoveries ¡can ¡come ¡from ¡more ¡

sequencing? ¡

slide-7
SLIDE 7

Theorists’ ¡Methodology ¡

  • Strip ¡away ¡applicaKon ¡specific ¡details ¡
  • Focus ¡on ¡core ¡problem ¡
  • What ¡can ¡we ¡do? ¡
  • What ¡corner ¡cuUng ¡needed? ¡
  • What ¡is ¡impossible? ¡
slide-8
SLIDE 8

Sketching ¡

¡

  • Replace ¡original ¡data ¡by ¡compact ¡summary ¡

(sketch) ¡ ¡

  • Problems ¡of ¡interest ¡can ¡be ¡solved ¡using ¡
  • sketches. ¡

approximated ¡

0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ sketch ¡ complex ¡ ¡

  • bject ¡
slide-9
SLIDE 9

Streaming ¡Algorithms ¡

  • Compute ¡in ¡one ¡pass ¡over ¡data ¡using ¡limited ¡

storage ¡

slide-10
SLIDE 10

But ¡isn’t ¡this ¡old ¡hat? ¡

slide-11
SLIDE 11

Caveats ¡

  • Very ¡high ¡level ¡
  • A ¡flavor ¡of ¡the ¡quesKons ¡and ¡results ¡
slide-12
SLIDE 12

¡ BASIC ¡PRIMITIVES ¡

slide-13
SLIDE 13

Basic ¡StaKsKcs ¡

  • DisKnct ¡Elements ¡
  • Frequency ¡Moments ¡
  • (1+ε) ¡approximaKon ¡in ¡O(1/ε2) ¡space ¡

Fp = X

i

f p

i

X

i

(fi − gi)p

slide-14
SLIDE 14

ConnecKons ¡

  • DerandomizaKon: ¡hash ¡funcKons ¡
  • Impossibility ¡results ¡
slide-15
SLIDE 15

Document ¡Similarity: ¡MinHash ¡

  • [Broder, ¡‘97] ¡

[Broder, ¡Manasse, ¡Glassman, ¡Zweig, ¡’97] ¡

slide-16
SLIDE 16

Locality ¡SensiKve ¡Hashing ¡

  • [Indyk, ¡Motwani ¡‘98] ¡
  • Hash ¡funcKons ¡that ¡disKnguish ¡ ¡

between ¡near ¡and ¡far ¡points ¡

  • Building ¡block ¡for ¡ ¡

Nearest ¡Neighbor ¡Search ¡ ¡

slide-17
SLIDE 17

Vector ¡representaKon ¡

  • Associate ¡vector ¡with ¡each ¡data ¡point ¡
  • Distance ¡between ¡data ¡points ¡

= ¡angle ¡between ¡vectors ¡

  • Compact ¡sketch ¡for ¡esKmaKng ¡angular ¡

distances? ¡

θ ¡ u ¡ v ¡

cos(θ) = u · v ||u|| · ||v||

slide-18
SLIDE 18
  • Hash ¡value ¡is ¡one ¡bit ¡
  • Concatenate ¡bits ¡from ¡many ¡hash ¡funcKons ¡to ¡

get ¡compact ¡representaKon ¡

Hash ¡FuncKon: ¡SimHash ¡

r ¡ u ¡ v ¡

s(u) = sign(u · r)

Pr[s(u) 6= s(v)] = θ(u, v) π

slide-19
SLIDE 19
slide-20
SLIDE 20

Frequent ¡Items ¡

  • Most ¡frequent ¡queries ¡in ¡Google ¡query ¡log ¡
slide-21
SLIDE 21

Approximate ¡CounKng ¡

  • Hash ¡table: ¡counter ¡for ¡each ¡bucket ¡
  • elements ¡mapped ¡with ¡random ¡signs ¡

1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ esKmate ¡= ¡counter ¡x ¡sign ¡

slide-22
SLIDE 22
  • Noisy ¡esKmator ¡
  • Many ¡independent ¡copies ¡

return ¡median ¡

fi

sP

j>k f 2 j

k

slide-23
SLIDE 23

¡ GRAPH ¡ALGORITHMS ¡

slide-24
SLIDE 24

Model ¡

  • Stream ¡of ¡edges ¡on ¡n ¡nodes ¡added/deleted ¡
  • Run ¡algorithm ¡using ¡O(n ¡log(n)) ¡space ¡
slide-25
SLIDE 25

Problems ¡

  • ConnecKvity ¡
  • Distances ¡
  • Clustering ¡
  • Dense ¡subgraphs ¡
  • ParKKoning ¡
  • Random ¡walks ¡
  • Matching ¡
slide-26
SLIDE 26

Tools ¡

  • Spanners ¡
  • Sparsifiers ¡
  • Sketches ¡
slide-27
SLIDE 27

¡ LINEAR ¡ALGEBRA ¡

slide-28
SLIDE 28
  • Least ¡squares ¡regression ¡
  • matrix ¡mulKplicaKon ¡
  • polynomial ¡fiUng ¡
  • low ¡rank ¡approximaKon ¡
  • graph ¡sparsificaKon ¡
slide-29
SLIDE 29

¡ SAMPLING ¡

slide-30
SLIDE 30

Sequencing ¡Human ¡Genome ¡

  • What ¡discoveries ¡can ¡come ¡from ¡more ¡

sequencing? ¡ ¡

slide-31
SLIDE 31

Course ¡

  • cs369g.stanford.edu ¡