the details training and valida1ng big models on big data
play

The details: training and valida1ng big models on big data - PowerPoint PPT Presentation

The details: training and valida1ng big models on big data David Mimno Princeton, Computer Science 1 Saturday, November 3, 12 2 Saturday, November 3, 12 George Dyson, Turings


  1. The ¡details: ¡training ¡and ¡ valida1ng ¡big ¡models ¡on ¡big ¡data David ¡Mimno Princeton, ¡Computer ¡Science 1 Saturday, November 3, 12

  2. 2 Saturday, November 3, 12

  3. George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡computer-­‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-­‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 3 Saturday, November 3, 12

  4. George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡ computer-­‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-­‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 4 Saturday, November 3, 12

  5. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 5 Saturday, November 3, 12

  6. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 6 Saturday, November 3, 12

  7. Library-­‑scale ¡topic ¡models Input: ¡1.2M ¡pre-­‑1922 ¡books Output: ¡2000 ¡“topics” (33 ¡billion ¡non-­‑stopwords) (distribu*ons ¡over ¡words) Random ¡examples, ¡each ¡row ¡is ¡a ¡topic 7 Saturday, November 3, 12

  8. Latent ¡Dirichlet ¡Alloca1on α Book-­‑topic ¡propor*ons θ η z w β N d D K 8 Saturday, November 3, 12

  9. An ¡example ¡document Etruscan trade price temple market 9 Saturday, November 3, 12

  10. Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 10 Saturday, November 3, 12

  11. Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 2 3 2 1 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 2 3 2 1 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n trade temple ship trade market n Etrusca trade price temple market n 2 3 2 1 1 Etrusca trade price temple market n n ship temple ship trade market Etrusca trade price temple market n n Italy temple ship trade market n 11 Saturday, November 3, 12

  12. Global ¡sta1s1cs 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 Total ¡ market 50 0 1 counts ¡ price 42 1 0 from ¡ all ¡ temple 0 0 20 docs trade 10 8 1 ... 12 Saturday, November 3, 12

  13. Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 13 Saturday, November 3, 12

  14. Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 14 Saturday, November 3, 12

  15. Sample ¡topic ¡for ¡“trade” 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 15 Saturday, November 3, 12

  16. Remove ¡current ¡assignment 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 16 Saturday, November 3, 12

  17. Remove ¡current ¡assignment 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 17 Saturday, November 3, 12

  18. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 18 Saturday, November 3, 12

  19. Which ¡topics ¡occur ¡in ¡this ¡doc? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 19 Saturday, November 3, 12

  20. Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 1 2 3 trade 10 7 1 20 Saturday, November 3, 12

  21. Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 21 Saturday, November 3, 12

  22. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 22 Saturday, November 3, 12

  23. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 23 Saturday, November 3, 12

  24. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 24 Saturday, November 3, 12

  25. Pick ¡a ¡topic ¡for ¡“trade” 3 1 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 11 7 1 ... 25 Saturday, November 3, 12

  26. Increase ¡counts ¡for ¡1 ¡and ¡“trade”|1 3 1 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 26 Saturday, November 3, 12

  27. Varia1onal ¡inference Etruscan trade price temple market Topic 1 Topic 2 Topic 3 27 Saturday, November 3, 12

  28. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 28 Saturday, November 3, 12

  29. Things ¡people ¡didn’t ¡know ¡they ¡ had ¡to ¡think ¡about • What ¡is ¡a ¡ document ? • Which ¡ words ¡ are ¡interes*ng? • What ¡is ¡a ¡word, ¡anyway? • Knobs: – Number ¡of ¡topics – Hyper-­‑parameters 29 Saturday, November 3, 12

  30. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 30 Saturday, November 3, 12

  31. Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 31 Saturday, November 3, 12

  32. Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 α price market 32 Saturday, November 3, 12

  33. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 33 Saturday, November 3, 12

  34. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 34 Saturday, November 3, 12

  35. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 35 Saturday, November 3, 12

  36. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 36 Saturday, November 3, 12

  37. Hyper-­‑parameters: ¡learn ¡or ¡fix? Pros Cons Fixed ¡ All ¡topics ¡ Duplicate ¡ similar ¡size, ¡ topics, ¡frequent ¡ quality words ¡repeated Learned Some ¡topics ¡ Small ¡topics ¡ big, ¡others ¡ may ¡be ¡low ¡ small quality 37 Saturday, November 3, 12

  38. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos8cs 38 Saturday, November 3, 12

  39. What ¡makes ¡topics ¡bad? • Random , ¡unrelated ¡words • One ¡or ¡two ¡“ intruder ” ¡words • Boring, ¡ overly ¡general ¡words • Two ¡or ¡more ¡good ¡topics ¡combined, ¡ some*mes ¡with ¡a ¡general ¡word ¡in ¡common ¡ ( chimaeras ) 39 Saturday, November 3, 12

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend