impact of deep learning
play

Impact of Deep Learning Speech Recogni4on Computer Vision - PowerPoint PPT Presentation

Impact of Deep Learning Speech Recogni4on Computer Vision Recommender Systems Language Understanding Drug Discovery and Medical Image


  1. Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni4on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  2. [Hinton & Salakhutdinov, 2006] Deep Belief Networks: Training

  3. Very Large Scale Use of DBN’s [Quoc Le, et al., ICML , 2012] Data: 10 million 200x200 unlabeled images, sampled from YouTube Training: use 1000 machines (16000 cores) for 1 week Learned network: 3 multi-stage layers, 1.15 billion parameters Achieves 15.8% (was 9.5%) accuracy classifying 1 of 20k ImageNet items Real images that most excite the feature: Image synthesized to most excite the feature:

  4. Restricted ¡Boltzmann ¡Machines ¡ Pair-­‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen4ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas4c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  5. Model ¡Learning ¡ ¡ ¡Hidden ¡units ¡ Given ¡a ¡set ¡of ¡ i.i.d. ¡training ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡we ¡want ¡to ¡learn ¡ ¡ model ¡parameters ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ Maximize ¡log-­‑likelihood ¡objec4ve: ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡units ¡ Deriva4ve ¡of ¡the ¡log-­‑likelihood: ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  6. Deep ¡Boltzmann ¡Machines ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov & Hinton, Neural Computation 2012) [Courtesy, ¡R. ¡Salakhutdinov] ¡

  7. Deep ¡Boltzmann ¡Machines ¡ Learn ¡simpler ¡representa4ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡ Higher-­‑level ¡features: ¡ Combina4on ¡of ¡edges ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) [Courtesy, ¡R. ¡Salakhutdinov] ¡

  8. Model ¡Formula4on ¡ h 3 Same ¡as ¡RBMs ¡ W 3 requires ¡approximate ¡inference ¡to ¡ h 2 train, ¡but ¡it ¡can ¡be ¡done… ¡ W 2 and ¡scales ¡to ¡millions ¡of ¡examples ¡ h 1 W 1 v Input ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  9. Samples ¡Generated ¡by ¡the ¡Model ¡ Training ¡Data ¡ Model-­‑Generated ¡Samples ¡ Data ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  10. Handwri4ng ¡Recogni4on ¡ MNIST ¡Dataset ¡ Op4cal ¡Character ¡Recogni4on ¡ 60,000 ¡examples ¡of ¡10 ¡digits ¡ 42,152 ¡examples ¡of ¡26 ¡English ¡le_ers ¡ ¡ Learning ¡Algorithm ¡ Error ¡ Learning ¡Algorithm ¡ Error ¡ Logis4c ¡regression ¡ 12.0% ¡ Logis4c ¡regression ¡ 22.14% ¡ K-­‑NN ¡ ¡ 3.09% ¡ K-­‑NN ¡ ¡ 18.92% ¡ Neural ¡Net ¡ (Pla_ ¡2005) ¡ 1.53% ¡ Neural ¡Net ¡ 14.62% ¡ SVM ¡ (Decoste ¡et.al. ¡2002) ¡ 1.40% ¡ SVM ¡ (Larochelle ¡et.al. ¡2009) ¡ 9.70% ¡ Deep ¡Autoencoder ¡ 1.40% ¡ Deep ¡Autoencoder ¡ 10.05% ¡ (Bengio ¡et. ¡al. ¡2007) ¡ ¡ (Bengio ¡et. ¡al. ¡2007) ¡ ¡ Deep ¡Belief ¡Net ¡ 1.20% ¡ Deep ¡Belief ¡Net ¡ 9.68% ¡ (Hinton ¡et. ¡al. ¡2006) ¡ ¡ (Larochelle ¡et. ¡al. ¡2009) ¡ ¡ DBM ¡ ¡ 0.95% ¡ DBM ¡ 8.40% ¡ Permuta4on-­‑invariant ¡version. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  11. 3-­‑D ¡object ¡Recogni4on ¡ NORB ¡Dataset: ¡24,000 ¡examples ¡ Learning ¡Algorithm ¡ Error ¡ Logis4c ¡regression ¡ 22.5% ¡ K-­‑NN ¡ (LeCun ¡2004) ¡ 18.92% ¡ SVM ¡ (Bengio ¡& ¡LeCun ¡ ¡2007) ¡ 11.6% ¡ Deep ¡Belief ¡Net ¡ (Nair ¡& ¡Hinton ¡ ¡ 9.0% ¡ 2009) ¡ ¡ DBM ¡ 7.2% ¡ Pa_ern ¡ Comple4on ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  12. Learning ¡Shared ¡Representa4ons ¡ Across ¡Sensory ¡Modali4es ¡ “Concept” ¡ sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡ ocean ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  13. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  14. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  15. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  16. Mul4modal ¡DBM ¡ Bo_om-­‑up ¡ + ¡ Top-­‑down ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  17. Mul4modal ¡DBM ¡ Bo_om-­‑up ¡ + ¡ Top-­‑down ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  18. Text ¡Generated ¡from ¡Images ¡ Generated ¡ ¡ ¡ Generated ¡ ¡ ¡ Given Given ¡ ¡ insect, ¡bu_erfly, ¡insects, ¡ dog, ¡cat, ¡pet, ¡ki_en, ¡ bug, ¡bu_erflies, ¡ ¡ ¡ ¡ ¡ puppy, ¡ginger, ¡tongue, ¡ lepidoptera ¡ ki_y, ¡dogs, ¡furry ¡ graffi4, ¡streetart, ¡stencil, ¡ sea, ¡france, ¡boat, ¡mer, ¡ s4cker, ¡urbanart, ¡graff, ¡ beach, ¡river, ¡bretagne, ¡ sanfrancisco ¡ plage, ¡bri_any ¡ portrait, ¡child, ¡kid, ¡ canada, ¡nature, ¡ ritra_o, ¡kids, ¡children, ¡ sunrise, ¡ontario, ¡fog, ¡ boy, ¡cute, ¡boys, ¡italy ¡ mist, ¡bc, ¡morning ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  19. Text ¡Generated ¡from ¡Images ¡ Generated ¡ ¡ ¡ Given ¡ portrait, ¡women, ¡army, ¡soldier, ¡ ¡ ¡ mother, ¡postcard, ¡soldiers ¡ obama, ¡barackobama, ¡elec4on, ¡ poli4cs, ¡president, ¡hope, ¡change, ¡ sanfrancisco, ¡conven4on, ¡rally ¡ water, ¡glass, ¡beer, ¡bo_le, ¡ drink, ¡wine, ¡bubbles, ¡splash, ¡ drops, ¡drop ¡

  20. Images ¡Selected ¡from ¡Text ¡ Given Retrieved ¡ ¡ water, ¡red, ¡ ¡ ¡ sunset ¡ nature, ¡flower, ¡ red, ¡green ¡ blue, ¡green, ¡ yellow, ¡colors ¡ chocolate, ¡cake ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  21. Summary ¡ • Efficient ¡learning ¡algorithms ¡for ¡Deep ¡Learning ¡Models. ¡Learning ¡ more ¡adap4ve, ¡robust, ¡and ¡structured ¡representa4ons. ¡ ¡ ¡ Learning ¡a ¡Category ¡ Image ¡Tagging ¡ Text ¡& ¡image ¡retrieval ¡/ ¡ ¡ Hierarchy ¡ Object ¡recogniGon ¡ mosque, ¡tower, ¡ building, ¡cathedral, ¡ dome, ¡castle ¡ CapGon ¡GeneraGon ¡ Speech ¡RecogniGon ¡ MulGmodal ¡Data ¡ HMM ¡decoder ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ sunset, ¡pacific ¡ocean, ¡ beach, ¡seashore ¡ • Deep ¡models ¡improve ¡the ¡current ¡state-­‑of-­‑the ¡art ¡in ¡many ¡ applica4on ¡domains: ¡ Object ¡recogni4on ¡and ¡detec4on, ¡text ¡and ¡image ¡retrieval, ¡handwri_en ¡ Ø character ¡and ¡speech ¡recogni4on, ¡and ¡others. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend