machine learning 10 601
play

Machine Learning 10-601 Tom M. Mitchell Machine Learning Department - PowerPoint PPT Presentation

Machine Learning 10-601 Tom M. Mitchell Machine Learning Department Carnegie Mellon University April 15, 2015 Today: Reading: Mitchell: Chapter 4 Artificial neural networks Backpropagation Bishop: Chapter 5 Recurrent


  1. Machine Learning 10-601 Tom M. Mitchell Machine Learning Department Carnegie Mellon University April 15, 2015 Today: Reading: Mitchell: Chapter 4 • Artificial neural networks • • Backpropagation • Bishop: Chapter 5 • Recurrent networks • Quoc Le tutorial: • Convolutional networks • Ruslan Salakhutdinov tutorial: • Deep belief networks • Deep Boltzman machines

  2. Artificial Neural Networks to learn f: X à Y • f might be non-linear function • X (vector of) continuous and/or discrete vars • Y (vector of) continuous and/or discrete vars • Represent f by network of logistic units • Each unit is a logistic function • MLE: train weights of all units to minimize sum of squared errors of predicted network outputs • MAP: train to minimize sum of squared errors plus weight magnitudes

  3. ALVINN [Pomerleau 1993]

  4. M(C)LE Training for Neural Networks • Consider regression problem f:X à Y , for scalar Y y = f(x) + ε assume noise N(0, σ ε ), iid deterministic • Let’s maximize the conditional data likelihood Learned neural network

  5. MAP Training for Neural Networks • Consider regression problem f:X à Y , for scalar Y y = f(x) + ε noise N(0, σ ε ) deterministic Gaussian P(W) = N(0, σ Ι ) ln P(W) ↔ c ∑ i w i 2

  6. x d = input t d = target output o d = observed unit output w i = weight i

  7. (MLE) x d = input t d = target output o d = observed unit output w ij = wt from i to j

  8. w 0 left strt right up

  9. Semantic Memory Model Based on ANN’s [ McClelland & Rogers, Nature 2003] No hierarchy given. Train with assertions, e.g., Can(Canary,Fly)

  10. Training Networks on Time Series • Suppose we want to predict next state of world – and it depends on history of unknown length – e.g., robot with forward-facing sensors trying to predict next sensor reading as it moves and turns

  11. Recurrent Networks: Time Series • Suppose we want to predict next state of world – and it depends on history of unknown length – e.g., robot with forward-facing sensors trying to predict next sensor reading as it moves and turns • Idea: use hidden layer in network to capture state history

  12. Recurrent Networks on Time Series How can we train recurrent net??

  13. Convolutional Neural Nets for Image Recognition [Le Cun, 1992] • specialized architecture: mix different types of units, not completely connected, motivated by primate visual cortex • many shared parameters, stochastic gradient training • very successful! now many specialized architectures for vision, speech, translation, …

  14. Deep Belief Networks [Hinton & Salakhutdinov, 2006] • Problem: training networks with many hidden layers doesn’t work very well – local minima, very slow training if initialize with zero weights • Deep belief networks – autoencoder networks to learn low dimensional encodings – but more layers, to learn better encodings

  15. Deep Belief Networks [Hinton & Salakhutdinov, 2006] original image reconstructed from 2000-1000-500-30 DBN reconstructed from 2000-300, linear PCA versus

  16. [Hinton & Salakhutdinov, 2006] Deep Belief Networks: Training

  17. Encoding of digit images in two dimensions [Hinton & Salakhutdinov, 2006] 784-2 linear encoding (PCA) 784-1000-500-250-2 DBNet

  18. Very Large Scale Use of DBN’s [Quoc Le, et al., ICML , 2012] Data: 10 million 200x200 unlabeled images, sampled from YouTube Training: use 1000 machines (16000 cores) for 1 week Learned network: 3 multi-stage layers, 1.15 billion parameters Achieves 15.8% (was 9.5%) accuracy classifying 1 of 20k ImageNet items Real images that most excite the feature: Image synthesized to most excite the feature:

  19. Restricted Boltzman Machine • Bipartite graph, logistic activation • Inference: fill in any nodes, estimate other nodes • consider v i , h j are boolean variables h 1 h 2 h 3 v 1 v 2 v n …

  20. Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni4on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  21. Feature ¡Representa4ons: ¡Tradi4onally ¡ Feature Learning Data extraction algorithm Object ¡ detec4on ¡ Image ¡ vision ¡features ¡ Recogni4on ¡ Audio ¡ classifica4on ¡ Speaker ¡ Audio ¡ audio ¡features ¡ iden4fica4on ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  22. Computer ¡Vision ¡Features ¡ SIFT ¡ Textons ¡ RIFT ¡ HoG ¡ GIST ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  23. Audio ¡Features ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  24. Audio ¡Features ¡ Representa4on ¡Learning: ¡ Spectrogram ¡ MFCC ¡ Can ¡we ¡automa4cally ¡learn ¡ these ¡representa4ons? ¡ Flux ¡ ZCR ¡ Rolloff ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  25. Restricted ¡Boltzmann ¡Machines ¡ Pair-­‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen4ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas4c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  26. Learning ¡Features ¡ Observed ¡ ¡Data ¡ ¡ Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡ Subset ¡of ¡25,000 ¡characters ¡ Sparse ¡ New ¡Image: ¡ representa8ons ¡ …. ¡ = ¡ Logis4c ¡Func4on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  27. Model ¡Learning ¡ ¡ ¡Hidden ¡units ¡ Given ¡a ¡set ¡of ¡ i.i.d. ¡training ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡we ¡want ¡to ¡learn ¡ ¡ model ¡parameters ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ Maximize ¡log-­‑likelihood ¡objec4ve: ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡units ¡ Deriva4ve ¡of ¡the ¡log-­‑likelihood: ¡ Difficult ¡to ¡compute: ¡exponen4ally ¡many ¡ ¡ configura4ons ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  28. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Gaussian-­‑Bernoulli ¡RBM: ¡ • ¡Stochas4c ¡real-­‑valued ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡ (Salakhutdinov & Hinton, NIPS 2007; Salakhutdinov & Murray, ICML 2008)

  29. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  30. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ = 0.9 * + 0.8 * + 0.6 * … New ¡Image ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  31. RBMs ¡for ¡Word ¡Counts ¡ Unary ¡ Pair-­‑wise ¡ 0 1 D K F D K F 1 X X X X X X W k ij v k v k i b k P θ ( v , h ) = Z ( θ ) exp i h j + i + h j a j 0 ¡ @ A i =1 k =1 j =1 i =1 k =1 j =1 0 ¡ 0 ¡ 1 ¡ ⇣ ⌘ i + P F b k j =1 h j W k exp ij 0 ¡ P θ ( v k i = 1 | h ) = ⇣ ⌘ P K i + P F b q j =1 h j W q q =1 exp ij Replicated ¡Soemax ¡Model: ¡undirected ¡topic ¡model: ¡ • ¡Stochas4c ¡1-­‑of-­‑K ¡visible ¡variables. ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡ (Salakhutdinov & Hinton, NIPS 2010, Srivastava & Salakhutdinov, NIPS 2012)

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend