1
Deep Learning
김지섭 (jkim@bi.snu.ac.kr) 서울대학교 컴퓨터공학부 2015/05/7 인공지능 실습수업
Deep Learning (jkim@bi.snu.ac.kr) 2015/05/7 - - PowerPoint PPT Presentation
Deep Learning (jkim@bi.snu.ac.kr) 2015/05/7 1 History of Neural Network Research Neural network Deep belief net Back propagation Science
1
김지섭 (jkim@bi.snu.ac.kr) 서울대학교 컴퓨터공학부 2015/05/7 인공지능 실습수업
Neural ¡network ¡ Back ¡propagation ¡
1986 ¡
l ¡Solve ¡general ¡learning ¡problems ¡ l ¡Tied ¡with ¡biological ¡system ¡
But ¡it ¡is ¡given ¡up… ¡
2006 ¡
– Hand ¡crafted ¡features ¡(GMM-‑HMM, ¡SIFT, ¡LBP, ¡HOG) ¡
Kruger ¡et ¡al. ¡TPAMI’13 ¡ Deep ¡belief ¡net ¡ Science ¡
… … … … … … … …
(normalization, ¡nonlinearity, ¡dropout) ¡ ¡
– GPU ¡ – Multi-‑core ¡computer ¡systems ¡
deep ¡learning ¡results ¡
Speech ¡
2011 ¡ 2012 ¡
How ¡Many ¡Computers ¡to ¡Identify ¡a ¡Cat? ¡16000 ¡CPU ¡cores ¡
Rank Name Error ra te Description 1
0.15315 Deep Conv Net 2
0.26172 Hand-crafted fe atures and learni ng models. Bottleneck. 3
0.26979 4 Xerox/INRIA 0.27058
Object ¡recognition ¡over ¡1,000,000 ¡images ¡and ¡1,000 ¡categories ¡ (2 ¡GPU) ¡
History of Neural Network Research
Slides from Wanli Ouyang wlouyang@ee.cuhk.edu.hk
l Neural Networks
§ Multilayer Perceptron 구조 § Back Propagation 학습 알고리즘
l Deep Belief Network
§ Restricted Boltzmann Machines § Deep Learning (Deep Belief Network)
l Convolutional Neural Networks (CNN)
§ CNN 구조 및 학습 § 응용 사례
Slides by Jiseob Kim jkim@bi.snu.ac.kr
l 데이터 x가 주어졌을 때 해당되는 레이블 y를 찾는 문제
§ ex1) x: 사람의 얼굴 이미지, y: 사람의 이름 § ex2) x: 혈당 수치, 혈압 수치, 심박수, y: 당뇨병 여부 § ex3) x: 사람의 목소리, y: 목소리에 해당하는 문장
l x: D차원 벡터, y: 정수 (Discrete) l 대표적인 패턴 인식 알고리즘
§ Support Vector Machine § Decision Tree § K-Nearest Neighbor § Multi-Layer Perceptron (Artificial Neural Network; 인공신경망)
x1 x2 1 w1 w2 b
x1 x2 w1*x1 + w2*x2 +b = 0
> 0: < 0:
start: The weight vector w is generated randomly test: A vector x ∈ P ∪ N is selected randomly, If x∈P and w·x>0 goto test, If x∈P and w·x≤0 goto add, If x ∈ N and w · x < 0 go to test, If x ∈ N and w · x ≥ 0 go to subtract. add: Set w = w+x, goto test subtract: Set w = w-x, goto test
Classic Perceptron Sigmoid Unit
Sigmoid function is Differentiable
∂σ (x) ∂x =σ (x)(1−σ (x))
l Loss Function l Gradient Descent Update
Target Unit Output
2
l Multiple boundaries are n eeded (e.g. XOR problem) à à Multiple Units l More complex regions are needed (e.g. Polygons) à à Multiple Layers
Structure of Multilayer Perceptron (MLP; Artificial Neural Network)
Input Output
l Loss Function
§ We have the same Loss Function § But the # of parameters are now much more (Weight for each layer and each unit) § To use Gradient Descent, we need to calculat e the gradient for all the parameters
Target Unit Output
2
l Recursive Computation of Gradients
§ Computation of loss-gradient of the t
e § Using the chain rule, we can compute the loss-gradient of lower-layer weigh ts recursively (Back Propagation)
l Gradients of top-layer weights and update rule l Store intermediate value delta for later use of chain rule
( j) = (d − f ) ∂f
( j)
2
∂ε ∂W = −2(d − f )∂f ∂s X = −2(d − f ) f (1− f )X
Gradient Descent update rule
l Gradients of lower-layer weights
) ( ) 1 ( ) ( j i j j i
s W X ⋅ =
−
) ( ) ( 2 ) (
) ( 2 ) (
j i j i j i
s f f d s f d s ∂ ∂ − − = ∂ − ∂ = ∂ ∂ε
) 1 ( ) ( ) 1 ( ) ( ) 1 ( ) ( ) ( ) ( ) ( ) (
2 ) ( 2
− − −
− = ∂ ∂ − − = ∂ ∂ = ∂ ∂ ∂ ∂ = ∂ ∂
j j i j j i j j i j i j i j i j i
s f f d s s s X X X W W δ ε ε ε
Weighted sum Local gradient
) 1 ( ) ( ) ( ) ( ) ( −
j j i j i j i j i
Gradient Descent Update rule for lower-layer weights
l Applying chain rule, recursive relation between delta’s
+
= + +
1
1 ) 1 ( ) 1 ( ) ( ) ( ) (
j
m l j il j i j i j i j i
Algorithm: Back Propagation
l Almost All Classification Problems
§ Face Recognition § Object Recognition § Voice Recognition § Spam mail Detection § Disease Detection § etc.
l Limitations
§ Back Propagation barely changes lower-layer parameters (Van ishing Gradient) § Therefore, Deep Networks cannot be fully (effectively) trained with Back Propagation
l Breakthrough
§ Deep Belief Networks (Unsupervised Pre-training) § Convolutional Neural Networks (Reducing Redundant Parame ters) § Rectified Linear Unit (Constant Gradient Propagation)
Input x Output y'
Target y
Error Error Error
Back-propagation
Slides by Jiseob Kim jkim@bi.snu.ac.kr
l 아이디어:
§ Greedy Layer-wise training § Pre-training + Fine tuning § Contrastive Divergence
= =
j j i i
x P P h P P ) | ( ) | ( ) | ( ) | ( h h x x x h
l Energy-‑Based ¡Model ¡ l Energy function
§ E(x,h)=b' x+c' h+h' Wx
¡
− −
=
h x h x h x
h x
, ) , ( ) , (
) , (
E E
e e P
x1 x2 h2 h3 h4 x3 h5 h1
P(x) = e−E(x,h)
h
e−E(x,h)
x,h
P(xj = 1|h) = σ(bj +W’• j · h) P(hi = 1|x) = σ(ci +Wi · · x)
Joint (x, h) Probability
Marginal (x) Probability,
Likelihood
Remark:
same as Neural Network
Conditional Probability
l Maximum Likelihood
§ Use Gradient Descent
L(X;θ) = e−E(x,h)
h
e−E(x,h)
x,h
∂L(X;θ) ∂wij = p(x,θ)∂log f (x;θ) ∂θ
dx − 1 K ∂log f (x(k);θ) ∂θ
k=1 K
= xihj
p(x,θ ) − xihj X = xihj ∞ − xihj
≈ xihj
1 − xihj Distribution of Model Distribution of Dataset
> <
j ih
v
∞
> <
j ih
v
i j i j i j i j t = 0 t = 1 t = 2 t = infinity a fantasy
Contrastive Divergence (CD) Learning
l k-Contrastive Divergence Trick
§ From the previous slide, to get distribution of model, we nee d to calculate many Gibbs sampling steps § And this is per a single parameter update § Therefore, we take the sample after only k-steps where in pra ctice, k=1 is sufficient
> <
j ih
v
∞
> <
j ih
v
i j i j i j i j t = 0 t = 1 t = 2 t = infinity a fantasy
Take this as a sample of Model distribution
Unsupervised Training makes RBM successfully catch the essential patterns RBM trained on MNIST hand-written digit data: Each cell shows the pattern each hidden node encodes
l Deep Belief Network (Deep Bayesian N etwork)
§ Bayesian Network that has similar structur e to Neural Network § Generative model § Also, can be used as classifier (with additi
§ Resolves gradient vanishing by Pre-trainin g § There are two modes (Classifier & Auto-E ncoder), but we only consider Classifier he re
l DBN as a stack of RBMs
1. Regard each layer as RBM 2. Layer-wise Pre-train each RBM in Unsupervised way 3. Attach the classifier and Fine-tune the whole Network in Supervis ed way
… … … … … … … … … … … … h1 x h2 h1 h3 h2
… … … … h0 x0
W
RBM DBN Classifier
28
Erhan et. al. AISTATS’2009
29
with pre-training without pre-training
30
l Higher layers have more abstract representations
§ Interpolating between different images is not desirable in lo wer layers, but natural in higher layers
(a) Interpolating between an example and its 200-th nearest neighbor (see caption below). (c) Sequences of points interpolated at different depths
Bengio et al., ICML 2013
l As DBN is a generative model, we can also regenerate the data
§ From the top layer to the bottom, conduct Gibbs sampling to generate the data samples Generate data
Occluded Regenerated Lee, Ng et al., ICML 2009
l Nowadays, CNN outperforms DBN for Image or Speech data l However, if there is no topological information, DBN is still a good choice l Also, if the generative model is needed, DBN is used
Generate Face patches Tang, Srivastava, Salakhutdinov, NIPS 2014
Slides by Jiseob Kim jkim@bi.snu.ac.kr
l Idea:
§ Fully connected 네트워크 구조는 학습해야할 파라미터 수가 너무 많음 § 이미지 데이터, 음성 데이터 (spectrogram)과 같이 각 feature들 간의 위상적, 기하적 구조가 있는 경우 Local한 패턴을 학습하 는 것이 효과적
n DBN의 경우 다른 data n CNN의 경우 같은 data
Image 1 Image 2
Structure of Convolutional Neural Network (CNN)
l Convolution과 Pooling (Subsampling)을 반복하여 상위 Feat ure를 구성 l Convolution은 Local영역에서의 특정 Feature를 얻는 과정 l Pooling은 Dimension을 줄이면서도, Translation-invariant한 Feature를 얻는 과정
http://parse.ele.tue.nl/education/cluster2
l The Kernel Detects pattern: l The Resulting value Indicates: § How much the pattern matches at each region
1 1 1 1
l The Pooling Layer summarizes the results of Convolution Layer
§ e.g.) 10x10 result is summarized into 1 cell
l The Result of Pooling Layer is Trans lation-invariant
Higher layer Higher layer
specific, abstract patterns
general patterns
l CNN is just another Neural Network with sparse connections l Learning Algorithm:
§ Back Propagation on Convolution Layers and Fully-Connected Layers Back Propagation
Top Rankers
al.)
(1000-class, 1 million images)
From Kyunghyun Cho’s dnn tutorial
ALL CNN!!
n Krizhevsky et al.: the winner of ImageNet 2012 Competition
1000-class problem, top-5 test error rate of 15.3%
Fully Connected
Input: Spectrogram of Speech
Convolutional Neural Network CNN outperforms all previous methods that uses GMM of MFCC
Slides from Wanli Ouyang wlouyang@ee.cuhk.edu.hk
45
l Webpages: ¡
§ Geoffrey ¡E. ¡Hinton’s ¡readings ¡(with ¡source ¡code ¡available ¡for ¡DBN) ¡ http://www.cs.toronto.edu/~hinton/csc2515/deeprefs.html ¡ ¡ § Notes ¡on ¡Deep ¡Belief ¡Networks ¡ ¡http://www.quantumg.net/dbns.php ¡ ¡ § MLSS ¡Tutorial, ¡October ¡2010, ¡ANU ¡Canberra, ¡Marcus ¡Frean ¡ http://videolectures.net/mlss2010au_frean_deepbeliefnets/ ¡ ¡ § Deep ¡Learning ¡Tutorials ¡http://deeplearning.net/tutorial/ ¡ ¡ § Hinton’s ¡Tutorial, ¡http://videolectures.net/mlss09uk_hinton_dbn/ ¡ ¡ § Fergus’s ¡Tutorial, ¡http://cs.nyu.edu/~fergus/presentations/nips2013_final.pdf ¡ § CUHK ¡MMlab ¡project ¡: ¡ http://mmlab.ie.cuhk.edu.hk/project_deep_learning.html ¡ ¡ ¡
l People: ¡
§ Geoffrey ¡E. ¡Hinton’s ¡http://www.cs.toronto.edu/~hinton ¡ § Andrew ¡Ng ¡http://www.cs.stanford.edu/people/ang/index.html ¡ ¡ § Ruslan ¡Salakhutdinov ¡http://www.utstat.toronto.edu/~rsalakhu/ ¡ ¡ § Yee-‑Whye ¡Teh ¡http://www.gatsby.ucl.ac.uk/~ywteh/ ¡ ¡ § Yoshua ¡Bengio ¡www.iro.umontreal.ca/~bengioy ¡ ¡ ¡ ¡ § Yann ¡LeCun ¡ ¡http://yann.lecun.com/ ¡ ¡ § Marcus ¡Frean ¡http://ecs.victoria.ac.nz/Main/MarcusFrean ¡ ¡ § Rob ¡Fergus ¡http://cs.nyu.edu/~fergus/pmwiki/pmwiki.php ¡ ¡
l Acknowledgement ¡
§ Many ¡materials ¡in ¡this ¡ppt ¡are ¡from ¡these ¡papers, ¡tutorials, ¡etc ¡(especially ¡ Hinton ¡and ¡Frean’s). ¡Sorry ¡for ¡not ¡listing ¡them ¡in ¡full ¡detail. ¡
Dumitru Erhan, Aaron Courville, Yoshua Bengio. Understanding Representations Learned in Deep Architectures. Technical Report.
46
§ P(A, ¡B|C) ¡= ¡P(A|C)P(B|C) ¡ ¡
§ =P(A|C)P(B|C)P(C) ¡
http://www.eecs.qmul.ac.uk/~norman/BBNs/Independence_and_conditional_independence.htm
Smoker? Has Lung cancer Has bronchitis
B C A
47
§ P(A,B,C) ¡= ¡P(A|C)P(B|C)P(C) ¡ § Any ¡two ¡nodes ¡are ¡ conditionally ¡independent ¡given ¡the ¡val ues ¡of ¡ ¡ ¡ ¡ ¡their ¡parents. ¡
§ P(A,B,C) ¡= ¡P(B,C)P(A,C) ¡ § Also ¡called ¡Marcov ¡Random ¡Field ¡(MRF) ¡
B A C P(A,B,C,D) = P(D|A,B)P(B|C)P(A|C)P(C) B A C D B C A B C A
48
l Probability: ¡
) ( ) ; ( ) ; ( ) ; ( ) ( θ θ θ θ θ Z f f f P x x x x;
x
= = ∑
B A C
) , ( ) exp( ) exp( ) exp( ) exp( ) , , (
2 1 2 1 , , 2 1 2 1
w w Z AC w BC w AC w BC w AC w BC w C B A P
C B A
= + + = ∑ θ ;
w1 w2
Example: P(A,B,C) = P(B,C)P(A,C)
Is smoker? Is healthy Has Lung cancer partition function
x
49
D E A B G H h1 h2 y1 h3 y2 y3 Hidden Marcov model MRF in 2D F C I
50
A B C D P(A,B,C,D)=P(A)P(B)P(C|B)P(D|A,B,C) h1 h2 y1 h3 y2 y3 P(y1, y2, y3, h1, h2, h3)=P(h1)P(h2| h1) P(h3| h2) P(y1| h1)P(y2| h2)P(y3| h3)
51
v h ... ... x h1 ... ... h2 h3 ... ... W W 0 W 1 W 2 (a) (b) HMM RBM DBN (c ... W W x Our de
52
l ¡Zoubin ¡Ghahramani ¡‘s ¡video ¡lecture ¡on ¡graphical ¡models: ¡ l http://videolectures.net/mlss07_ghahramani_grafm/ ¡
53
, ) ( ) ; ( ) ; ( ) ; ( ) ; (
) ; ( ) ; (
θ θ θ θ θ
θ θ
Z f e e f f P
E E m m m m m m m m
x x x x
x x x x
= = =
− −
m
m m m
Energy function Partition ¡function MRF in 2D
3 4 3 2 1
D E A B G H F C I
54
= − Σ −
15 1 ) ( ) (
i i i
i i
u x u x
T
55
§ ¡"and" ¡operation ¡ § Sharper ¡than ¡mixture ¡ § Each ¡expert ¡can ¡constrain ¡a ¡different ¡subset ¡of ¡dimensions. ¡
§ “or” ¡operation ¡ § a ¡weighted ¡sum ¡of ¡many ¡density ¡functions
∑ ∏ ∏
=
x
x x x ) ; ( ) ; ( ) ; (
m m m m m m m m
f f P θ θ θ
56
§ Product ¡of ¡experts ¡ § Contrastive ¡divergence ¡ § Restricted ¡Boltzmann ¡Machine ¡
57
l Probability: ¡ l Maximum ¡Likelihood ¡and ¡gradient ¡descent ¡
X x
x x x x x x x X θ θ θ θ θ θ θ θ θ θ θ θ θ θ
θ
∂ ∂ − ∂ ∂ = ∂ ∂ − ∂ ∂ = ∂ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − ∂ = ∂ ∂
= =
) ; ( log ) ; ( log ) ; ( log 1 ) ; ( log ) , ( ) ; ( log 1 ) ( log ) ; ( 1
) , ( 1 1
f f f K d f p f K Z L K
p K k (k) K k (k)
1
+
t t
= = K k k K k k
1 1
θ θ θ
) ( ) (
∑
=
x
) x; ( ) (
m
f Z θ θ
58
l Gradient ¡of ¡Likelihood: ¡
∞ => T
=
∂ ∂ − ∂ ∂ = ∂ ∂
K k (k)
f K d f p L
1
) ; x ( log 1 x ) ; x ( log ) , x ( ) ; X ( θ θ θ θ θ θ θ
Intractable Tractable Gibbs Sampling Fast contrastive divergence T=1 Easy to compute
Sample p(z1,z2,…,zM) θ θ λ θ θ ∂ ∂ + =
+
) ; X (
1
L
t t
CD Minimum P(A,B,C) = P(A|C)P(B|C)P(C) B A C Accurate but slow gradient Approximate but fast gradient
59
x1 x2 h2 h3 h4 x3 h5 h1
More information on Gibbs sampling: Pattern recognition and machine learning(PRML)
60
l The ¡fixed ¡points ¡of ¡ML ¡are ¡not ¡fixed ¡points ¡of ¡CD ¡and ¡vice ¡
§ CD ¡is ¡a ¡biased ¡learning ¡algorithm. ¡ § But ¡the ¡bias ¡is ¡typically ¡very ¡small. ¡ § CD ¡can ¡be ¡used ¡for ¡getting ¡close ¡to ¡ML ¡solution ¡and ¡then ¡ML ¡le arning ¡can ¡be ¡used ¡for ¡fine-‑tuning. ¡
l It ¡is ¡not ¡clear ¡if ¡CD ¡learning ¡converges ¡(to ¡a ¡stable ¡fixed ¡poi nt). ¡At ¡2005, ¡proof ¡is ¡not ¡available. ¡ l Further ¡theoretical ¡results? ¡Please ¡inform ¡us
61
§ Product ¡of ¡experts ¡ § Contrastive ¡divergence ¡ § Restricted ¡Boltzmann ¡Machine ¡
62
l Undirected ¡graphical ¡model, ¡with ¡hidden ¡nodes.
− − =
< i i i j i j i ij
x x x w E λ θ) (x;
, ) ( ) ; ( ) ; ( ) ; ( ) ; (
) ; ( ) ; (
θ θ θ θ θ
θ θ
Z f e e f f P
E E m m m m m m m m
x x x x
x x x x
= = =
− −
Boltzmann machine: E(x,h)=b' x+c' h+h' Wx+x’Ux+h’Vh } , { :
i ij
w λ θ
l Undirected, ¡loopy, ¡layer ¡ l E(x,h)=b' x+c' h+h' Wx ¡
= =
j j i i
x P P h P P ) | ( ) | ( ) | ( ) | ( h h x x x h
− −
=
h x h x h x
h x
, ) , ( ) , (
) , (
E E
e e P
x1 x2 h2 h3 h4 x3 h5 h1 h x
− −
=
h x h x h h x
x
, ) , ( ) , (
) (
E E
e e P
Boltzmann machine: E(x,h)=b' x+c' h+h' Wx+x’Ux+h’Vh
partition function
Read the manuscript for details
64
l E(x,h)=b' x+c' h+h' Wx ¡ l x = [x1 x2 …]T, h = [h1 h2 …]T ¡ l Parameter ¡learning ¡
§ Maximum ¡Log-‑Likelihood ¡
⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = ⇔ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧
= = K k k K k k
P L P
1 1
) log min ) ; ( min ) max θ θ θ
θ θ θ
; (x X ; (x
) ( ) (
, ( (
+ + − + + − h x Wx) h' h c' x b' h Wx) h' h c' x b'
Geoffrey E. Hinton, “Training Products of Experts by Minimizing Contrastive Divergence.” Neural Computation 14, 1771–1800 (2002)
65
l CD ¡for ¡RBM, ¡very ¡fast! ¡
+
1
t t
) ( ) ; ( ) x; (
h , x Wx) h' h c' x b' ( h Wx) h' h c' x b' (
θ θ θ Z x f e e P = = ∑
+ + − + + −
X x
j i j i j i j i j i p j i K k (k) ij
∞ =
1 ) , ( 1
θ
P(xj = 1|h) = σ(bj +W’• j · h) P(hi = 1|x) = σ(ci +Wi · x)
66
h1
X
j i j i ij
h x h x w L − ≈ ∂ ∂
1
) ; ( θ
P(xj = 1|h) = σ(bj +W’• j · h) P(hi = 1|x) = σ(ci +Wi · x)
P(xj = 1|h) = σ(bj +W’• j · h) P(hi = 1|x) = σ(ci +Wi · x) P(xj = 1|h) = σ(bj +W’• j · h)
67
l y: ¡classification ¡label
Hugo Larochelle and Yoshua Bengio, Classification using Discriminative Restricted Boltzmann Machines, ICML 2008.
68
l Multiclass ¡classification ¡ l Collaborative ¡filtering ¡ l Motion ¡capture ¡modeling ¡ l Information ¡retrieval ¡ l Modeling ¡natural ¡images ¡ l Segmentation
Y Li, D Tarlow, R Zemel, Exploring compositional high order pattern potentials for structured output learning, CVPR 2013
2011. Larochelle, H., & Bengio, Y. (2008). Classification using discriminative restricted boltzmann machines. ICML, 2008. Salakhutdinov, R., Mnih, A., & Hinton, G. E. (2007). Restricted Boltzmann machines for collaborative filtering. ICML 2007. Salakhutdinov, R., & Hinton, G. E. (2009). Replicated softmax: an undirected topic model., NIPS 2009. Osindero, S., & Hinton, G. E. (2008). Modeling image patches with a directed hierarchy of markov random field., NIPS 2008
69
70
l A ¡belief ¡net ¡is ¡a ¡directed ¡acyclic ¡g raph ¡composed ¡of ¡random ¡variab
random hidden cause visible effect
71
§ P(x,h1,…,hl) ¡= ¡p(x|h1) ¡p(h1|h2)… ¡p(hl-2|hl-1) ¡p(hl-1,hl) ¡
h1 x h2 h3 … … … … … … … …
Pixels=>edges=> local shapes=> object parts
72
l The ¡mammal ¡brain ¡is ¡organized ¡in ¡a ¡deep ¡architecture ¡wit h ¡a ¡given ¡input ¡percept ¡represented ¡at ¡multiple ¡levels ¡of ¡a bstraction, ¡each ¡level ¡corresponding ¡to ¡a ¡different ¡area ¡of ¡
l An ¡architecture ¡with ¡insufficient ¡depth ¡can ¡require ¡many ¡ more ¡computational ¡elements, ¡potentially ¡exponentially ¡ more ¡(with ¡respect ¡to ¡input ¡size), ¡than ¡architectures ¡whos e ¡depth ¡is ¡matched ¡to ¡the ¡task. ¡ l Since ¡the ¡number ¡of ¡computational ¡elements ¡one ¡can ¡affo rd ¡depends ¡on ¡the ¡number ¡of ¡training ¡examples ¡available ¡t
utational ¡but ¡also ¡statistical: ¡poor ¡generalization ¡may ¡be ¡e xpected ¡when ¡using ¡an ¡insufficiently ¡deep ¡architecture ¡for ¡ representing ¡some ¡functions. ¡
Neuroscience: Theoretical Insights into Brain Function, vol. 165, pp. 33–56, 2007. Yoshua Bengio, “Learning Deep Architectures for AI,” Foundations and Trends in Machine Learning, 2009.
Pixels=>edges=> local shapes=> object parts
73
l Linear ¡regression, ¡logistic ¡regression: ¡ ¡depth ¡1 ¡ l Kernel ¡SVM: ¡depth ¡2 ¡ l Decision ¡tree: ¡depth ¡2 ¡ l Boosting: ¡depth ¡2 ¡ l The ¡basic ¡conclusion ¡that ¡these ¡results ¡suggest ¡is ¡that ¡whe n ¡a ¡function ¡can ¡be ¡compactly ¡represented ¡by ¡a ¡deep ¡archit ecture, ¡it ¡might ¡need ¡a ¡very ¡large ¡architecture ¡to ¡be ¡represe nted ¡by ¡an ¡insufficiently ¡deep ¡one. ¡(Example: ¡logic ¡gates, ¡ multi-‑layer ¡NN ¡with ¡linear ¡threshold ¡units ¡and ¡positive ¡we ight). ¡
Yoshua Bengio, “Learning Deep Architectures for AI,” Foundations and Trends in Machine Learning, 2009.
74
⎯
⎯
X2 X2
⎯
X3 X3
⎯
X1 X1 X4
X4
⎯
X5 X5 2N-1 N⋅2N-1 parameters O(N) parameters
75
l Boosting ¡(2 ¡layers) ¡
§ L ¡1: ¡base ¡learner ¡ § L ¡2: ¡vote ¡or ¡linear ¡combination ¡of ¡layer ¡1 ¡
l Decision ¡tree, ¡ ¡LLE, ¡KNN, ¡Kernel ¡SVM ¡(2 ¡layers) ¡
§ L ¡1: ¡matching ¡degree ¡to ¡a ¡set ¡of ¡local ¡templates. ¡ § L ¡2: ¡Combine ¡these ¡degrees ¡
l Brain: ¡5-‑10 ¡layers
+
i i iK
b ) , ( x x α
76
77
h1 x h2 h3 … … … … … … … …
78
§ Inference ¡problem ¡(the ¡problem ¡of ¡explaining ¡away): ¡
B A C
h11 h12 x1
h1 x … … … …
n P(A,B|C) = P(A|C)P(B|C) n P(h11, h12 | x1) ≠ P(h11| x1) P(h12 | x1)
An example from manuscript Sol: Complementary prior
79
h1 x h2 h4 … … … … … …
… …
h3 … … 2000 1000 500 30 Sol: Complementary prior
n Inference ¡problem ¡(the ¡problem ¡
q Sol: Complementary prior ¡
80
§ Sol: ¡Complementary ¡prior, ¡see ¡the ¡manuscript ¡
§ Greedy ¡layer ¡by ¡layer ¡RBM ¡training ¡(optimize ¡lower ¡boun d) ¡and ¡fine ¡tuning ¡ § Contrastive ¡divergence ¡for ¡RBM ¡training ¡ h1 x h2 h3 … … … … … … … …
… … … … … … … … … … … … h1 x h2 h1 h3 h2
81
l Why ¡greedy ¡layerwise ¡learning ¡work? ¡ l Optimizing ¡a ¡lower ¡bound: ¡ l When ¡we ¡fix ¡parameters ¡for ¡layer ¡1 ¡an d ¡optimize ¡the ¡parameters ¡for ¡layer ¡2, ¡we ¡are ¡optimizing ¡the ¡P(h1) ¡in ¡(1) ¡
∑ ∑
− + ≥ =
1
h 1 1 1 1 1 1
x | h x | h x | h h x | h h x, x )]} ( log ) ( )] ( log ) ( )[log ( { ) ( log ) ( log Q Q P P Q P P
h
… … … … … … … … … … … … h1 x h2 h1 h3 h2
82
l RBM ¡can ¡be ¡considered ¡as ¡DBN ¡that ¡has ¡infinitive ¡layers ¡
T
W
… … … … … … … … … … h0 x0 h1 x1 x2 …
T
W
… … … … h0 x0
83
(BP)
84
Pretraining Fine-tuning
85
l There ¡might ¡be ¡no ¡universally ¡right ¡depth ¡
Copied from http://videolectures.net/mlss09uk_hinton_dbn/
[1] Sutskever, I. and Hinton, G. E., Deep Narrow Sigmoid Belief Networks are Universal Approximators. Neural Computation, 2007
86
Erhan et. al. AISTATS’2009
87
w/o pre-training
with pre-training without pre-training
88
stuff image label stuff image label
If image-label pairs were generated this way, it would make sense to try to go straight from images to labels. For example, do the pixels have even parity? If image-label pairs are generated this way, it makes sense to first learn to recover the stuff that caused the image by inverting the high bandwidth pathway.
high bandwidth low bandwidth
89
l Layer-‑wise ¡pretraining ¡is ¡efficient ¡but ¡not ¡optimal. ¡ ¡ l It ¡is ¡possible ¡to ¡train ¡parameters ¡for ¡all ¡layers ¡using ¡a ¡wake
90
¡ ¡ ¡ ¡After ¡learning ¡many ¡layers ¡of ¡features, ¡we ¡can ¡fine-‑tune ¡the ¡f eatures ¡to ¡improve ¡generation. ¡
§ Adjust ¡the ¡top-‑down ¡weights ¡to ¡be ¡good ¡at ¡reconstructing ¡the ¡fe ature ¡activities ¡in ¡the ¡layer ¡below. ¡
§ Adjust ¡the ¡bottom-‑up ¡weights ¡to ¡be ¡good ¡at ¡reconstructing ¡the ¡f eature ¡activities ¡in ¡the ¡layer ¡above. ¡
91
l RBM ¡has ¡no ¡connection ¡among ¡layers ¡ l This ¡can ¡be ¡generalized. ¡ l Lateral ¡connections ¡for ¡the ¡first ¡layer ¡[1]. ¡ ¡
l Lateral ¡connections ¡at ¡multiple ¡layers ¡[2]. ¡
[1]B. A. Olshausen and D. J. Field, “Sparse coding with an overcomplete basis set: a strategy employed by V1?,” Vision Research, vol. 37, pp. 3311–3325, December 1997. [2]S. Osindero and G. E. Hinton, “Modeling image patches with a directed hierarchy of Markov random field,” in NIPS, 2007.
92
93
94
l Make ¡it ¡[0 ¡1] ¡linearly: ¡x = ax + b l Use ¡another ¡distribution
95
l Static: ¡ l Temporal
96
97
98
l Hand ¡written ¡digits ¡recognition ¡ l Dimensionality ¡reduction ¡ l Information ¡retrieval ¡ ¡ l Segmentation ¡ l Denoising ¡ l Phone ¡recognition ¡ l Object ¡recognition ¡ l Object ¡detection ¡ l … ¡
Hinton, G. E, Osindero, S., and Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural Computation Hinton, G. E. and Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks, Science 2006. Welling, M. etc., Exponential Family Harmoniums with an Application to Information Retrieval, NIPS 2004
recognition. Nair, V. and Hinton, G. E. 3-D Object recognition with deep belief nets. NIPS09
………………………….
99
§ logistic ¡regression ¡19.6%, ¡kNN ¡(k=1) ¡18.4%, ¡Gaussian ¡kern el ¡SVM ¡11.6%, ¡convolutional ¡neural ¡net ¡6.0%, ¡convolution al ¡net ¡+ ¡SVM ¡hybrid ¡5.9%. ¡DBN ¡6.5%. ¡ § With ¡the ¡extra ¡unlabeled ¡data ¡(and ¡the ¡same ¡amount ¡of ¡la beled ¡data ¡as ¡before), ¡DBN ¡achieves ¡5.2%.
100
101
11,000 unlabeled cases 100, 500, or 1000 labeled cases face patches from new people
102
GP on the pixels GP on top-level features GP on top-level features with fine-tuning
103
l They ¡always ¡looked ¡like ¡a ¡really ¡ni ce ¡way ¡to ¡do ¡non-‑linear ¡dimensio nality ¡reduction: ¡
l We ¡now ¡have ¡a ¡much ¡better ¡way ¡t
1000 neurons
500 neurons 500 neurons 250 neurons 250 neurons 30
1000 neurons 28x28 28x28
1 2 3 4 4 3 2 1
W W W W W W W W
T T T T
linear units
104
real data 30-D deep auto 30-D PCA
105
real data 30-D deep auto 30-D logistic PCA 30-D PCA
106
107
§ is ¡a ¡network ¡with ¡deep ¡layers, ¡which ¡provides ¡strong ¡representa tion ¡power; ¡ § is ¡a ¡generative ¡model; ¡ § can ¡be ¡learned ¡by ¡layerwise ¡RBM ¡using ¡Contrastive ¡Divergence; ¡ § has ¡many ¡applications ¡and ¡more ¡applications ¡is ¡yet ¡to ¡be ¡found. ¡
Generative models explicitly or implicitly model the distribution of inputs and outputs. Discriminative models model the posterior probabilities directly.
108
l A very controversial topic l Model
§ DBN is generative, SVM is discriminative. But fine-tuning of DB N is discriminative
l Application
§ SVM is widely applied. § Researchers are expanding the application area of DBN.
l Learning
§ DBN is non-convex and slow § SVM is convex and fast (in linear case).
l Which one is better?
§ Time will say. § You can contribute
Hinton: The superior classification performance of discriminative learning methods holds only for domains in which it is not possible to learn a good generative model. This set of domains is being eroded by Moore’s law.