my background
play

My Background 1991-1995 B.Tech IIT-Bombay - PowerPoint PPT Presentation

The Big Data Algorithmic Toolkit Moses Charikar Stanford University My Background 1991-1995 B.Tech IIT-Bombay 1995-2000 Stanford PhD


  1. The ¡Big ¡Data ¡Algorithmic ¡Toolkit ¡ Moses ¡Charikar ¡ ¡ Stanford ¡University ¡

  2. My ¡Background ¡ • 1991-­‑1995 ¡ ¡B.Tech ¡IIT-­‑Bombay ¡ • 1995-­‑2000 ¡ ¡Stanford ¡PhD ¡ ¡ • 2000-­‑2001 ¡ ¡Google ¡Research ¡ • 2001-­‑2015 ¡ ¡Princeton ¡ • 2015-­‑ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Stanford ¡ 2 ¡

  3. My ¡background ¡ • ApproximaKon ¡Algorithms ¡ – heurisKcs ¡with ¡provable ¡guarantees ¡for ¡hard ¡ opKmizaKon ¡problems ¡ – mathemaKcal ¡programming ¡techniques ¡ linear ¡programs, ¡etc ¡ • Algorithmic ¡techniques ¡for ¡Massive ¡Data ¡Sets ¡ – dimension ¡reducKon ¡ – similarity ¡search ¡

  4. Scenarios ¡ • Google ¡search ¡log ¡ ¡ • ¡ ¡

  5. Scenarios ¡ • Facebook ¡social ¡network ¡

  6. Scenarios ¡ • Sequencing ¡human ¡genome ¡ ¡ • What ¡discoveries ¡can ¡come ¡from ¡more ¡ sequencing? ¡

  7. Theorists’ ¡Methodology ¡ • Strip ¡away ¡applicaKon ¡specific ¡details ¡ • Focus ¡on ¡core ¡problem ¡ • What ¡can ¡we ¡do? ¡ • What ¡corner ¡cuUng ¡needed? ¡ • What ¡is ¡impossible? ¡

  8. Sketching ¡ ¡ • Replace ¡original ¡data ¡by ¡compact ¡summary ¡ ( sketch ) ¡ ¡ approximated ¡ • Problems ¡of ¡interest ¡can ¡be ¡solved ¡using ¡ sketches. ¡ sketch ¡ complex ¡ ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ 1 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 0 ¡ object ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ 1 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡

  9. Streaming ¡Algorithms ¡ • Compute ¡in ¡one ¡pass ¡over ¡data ¡using ¡limited ¡ storage ¡

  10. But ¡isn’t ¡this ¡old ¡hat? ¡

  11. Caveats ¡ • Very ¡high ¡level ¡ • A ¡flavor ¡of ¡the ¡quesKons ¡and ¡results ¡

  12. ¡ BASIC ¡PRIMITIVES ¡

  13. Basic ¡StaKsKcs ¡ • DisKnct ¡Elements ¡ X f p • Frequency ¡Moments ¡ F p = i i X ( f i − g i ) p i • (1+ε) ¡approximaKon ¡in ¡O(1/ε 2 ) ¡space ¡

  14. ConnecKons ¡ • DerandomizaKon: ¡hash ¡funcKons ¡ • Impossibility ¡results ¡

  15. Document ¡Similarity: ¡MinHash ¡ • [Broder, ¡‘97] ¡ [Broder, ¡Manasse, ¡Glassman, ¡Zweig, ¡’97] ¡

  16. Locality ¡SensiKve ¡Hashing ¡ • [Indyk, ¡Motwani ¡‘98] ¡ • Hash ¡funcKons ¡that ¡disKnguish ¡ ¡ between ¡near ¡and ¡far ¡points ¡ • Building ¡block ¡for ¡ ¡ Nearest ¡Neighbor ¡Search ¡ ¡

  17. Vector ¡representaKon ¡ • Associate ¡vector ¡with ¡each ¡data ¡point ¡ v ¡ • Distance ¡between ¡data ¡points ¡ = ¡angle ¡between ¡vectors ¡ θ ¡ u ¡ u · v cos( θ ) = || u || · || v || • Compact ¡sketch ¡for ¡esKmaKng ¡angular ¡ distances? ¡

  18. Hash ¡FuncKon: ¡SimHash ¡ r ¡ s ( u ) = sign ( u · r ) u ¡ Pr [ s ( u ) 6 = s ( v )] = θ ( u , v ) v ¡ π • Hash ¡value ¡is ¡one ¡bit ¡ • Concatenate ¡bits ¡from ¡many ¡hash ¡funcKons ¡to ¡ get ¡compact ¡representaKon ¡

  19. Frequent ¡Items ¡ • Most ¡frequent ¡queries ¡in ¡Google ¡query ¡log ¡

  20. Approximate ¡CounKng ¡ • Hash ¡table: ¡counter ¡for ¡each ¡bucket ¡ • elements ¡mapped ¡with ¡random ¡signs ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ esKmate ¡= ¡counter ¡x ¡sign ¡ 1 ¡ 3 ¡ 4 ¡ 9 ¡ 0 8 ¡ 7 ¡ 6 ¡ 5 ¡ 2 ¡

  21. • Noisy ¡esKmator ¡ sP j > k f 2 j k f i • Many ¡independent ¡copies ¡ return ¡median ¡

  22. ¡ GRAPH ¡ALGORITHMS ¡

  23. Model ¡ • Stream ¡of ¡edges ¡on ¡n ¡nodes ¡added/deleted ¡ • Run ¡algorithm ¡using ¡O(n ¡log(n)) ¡space ¡

  24. Problems ¡ • ConnecKvity ¡ • Distances ¡ • Clustering ¡ • Dense ¡subgraphs ¡ • ParKKoning ¡ • Random ¡walks ¡ • Matching ¡

  25. Tools ¡ • Spanners ¡ • Sparsifiers ¡ • Sketches ¡

  26. ¡ LINEAR ¡ALGEBRA ¡

  27. • Least ¡squares ¡regression ¡ • matrix ¡mulKplicaKon ¡ • polynomial ¡fiUng ¡ • low ¡rank ¡approximaKon ¡ • graph ¡sparsificaKon ¡

  28. ¡ SAMPLING ¡

  29. Sequencing ¡Human ¡Genome ¡ • What ¡discoveries ¡can ¡come ¡from ¡more ¡ sequencing? ¡ ¡

  30. Course ¡ • cs369g.stanford.edu ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend