Op#miza#on ¡Challenges ¡for ¡Deep ¡ Learning ¡
Yoshua ¡Bengio ¡ ¡
- U. ¡Montreal ¡
¡ December ¡12th, ¡2014 ¡ OPT’2014: ¡NIPS ¡Workshop ¡on ¡OpBmizaBon ¡for ¡ Machine ¡Learning ¡ ¡ ¡ ¡ ¡
Op#miza#on Challenges for Deep Learning Yoshua Bengio U. - - PowerPoint PPT Presentation
Op#miza#on Challenges for Deep Learning Yoshua Bengio U. Montreal December 12th, 2014 OPT2014: NIPS Workshop on OpBmizaBon for Machine Learning
Yoshua ¡Bengio ¡ ¡
¡ December ¡12th, ¡2014 ¡ OPT’2014: ¡NIPS ¡Workshop ¡on ¡OpBmizaBon ¡for ¡ Machine ¡Learning ¡ ¡ ¡ ¡ ¡
¡
¡
¡
2 ¡
x ¡ h3 ¡ h2 ¡ h1 ¡ … ¡
(object ¡recogni#on, ¡speech ¡recogni#on, ¡ ¡ language ¡modeling, ¡music ¡modeling) ¡
¡
(B (Bengi engio, ar arxiv 1305.0445 445 Deep learning
sentations: s: looking forward)
3 ¡
(B (Bengi engio, ar arxiv 1305.0445 445 Deep learning
sentations: s: looking forward)
4 ¡
hinged ¡on ¡faster ¡compuBng, ¡GPUs, ¡and ¡large ¡datasets ¡
¡ Because ¡deep ¡learning ¡is ¡ ¡ ¡EASY ¡TO ¡REGULARIZE ¡while ¡ ¡ ¡it ¡is ¡MORE ¡DIFFICULT ¡TO ¡AVOID ¡UNDERFITTING ¡
5 ¡
as ¡Ilya ¡Sutskever ¡would ¡say ¡
6 ¡
(and ¡memory) ¡can ¡grow ¡a ¡lot ¡while ¡computaBon ¡remains ¡ constant ¡or ¡grows ¡as ¡log(capacity). ¡
computaBon ¡grows ¡linearly ¡with ¡capacity ¡(number ¡of ¡ parameters). ¡Each ¡parameter ¡is ¡used ¡for ¡every ¡example. ¡
linear ¡relaBonship ¡while ¡keeping ¡the ¡composiBonal ¡structure ¡ that ¡makes ¡deep ¡learning ¡generalize ¡so ¡well. ¡
7 ¡
unzipped? ¡
8 ¡
introducing ¡an ¡aQenBon ¡ mechanism ¡ ¡
the ¡input ¡sentence ¡to ¡pay ¡most ¡ aQenBon ¡to ¡when ¡predicBng ¡the ¡ next ¡output ¡word, ¡as ¡a ¡funcBon ¡
input ¡bi-‑RNN ¡state ¡
9 ¡
10 ¡
(a) (b) (c) (d)
11 ¡
10 20 30 40 50 60
Sentence length
5 10 15 20 25 30
BLEU score
RNNsearch-50 RNNsearch-30 RNNenc-50 RNNenc-30
Co Conditional Co Computation: only visi sit a sm small fraction of parameters s / example
2002) ¡
distributed ¡gaters ¡selecBng ¡combinatorial ¡ subsets ¡of ¡a ¡deep ¡net ¡
¡
Bengio, ¡Leonard ¡& ¡Courville ¡ ¡ arXiv ¡1305.2982 ¡
(B (Bengi engio, ar arxiv 1305.0445 445 Deep learning
sentations: s: looking forward)
13 ¡
lineariBes ¡compose ¡and ¡yield ¡sharp ¡non-‑linearity ¡à ¡gradients ¡ vanish ¡or ¡explode ¡
back-‑prop ¡
¢ ¡
¢ ¡ … ¡
Issu ssues s wi with Und Undirect rected ed Gra Graphic ical Models Models & & Boltzmann Machines s
loop ¡of ¡training ¡
modes ¡stalls ¡
15 ¡
Training ¡updates ¡ Mixing ¡
vicious ¡circle ¡
vector ¡via ¡a ¡recursive ¡update ¡
16 ¡
tells ¡us ¡how ¡to ¡back-‑prop ¡through ¡Bme. ¡
17 ¡
18 ¡
xt xt−1 xt+1 W W W W V V V U U U st−1
st st+1
Lt+1 Lt−1 Lt xt+2
model: ¡every ¡variable ¡predicted ¡from ¡all ¡previous ¡ones. ¡
the ¡visible ¡variables ¡(inputs, ¡targets) ¡are ¡called ¡GSNs ¡
visible ¡variables ¡via ¡the ¡staBonary ¡distribuBon ¡of ¡the ¡Markov ¡ chain ¡
from ¡the ¡chain ¡as ¡part ¡of ¡training ¡
19 ¡
Increasi sing the Expressi ssive Power of RN RNNs wi with more more De Depth th
¡
20 ¡
+ ¡deep ¡hid-‑to-‑out ¡ + ¡deep ¡hid-‑to-‑hid ¡ +deep ¡in-‑to-‑hid ¡ + ¡skip ¡connecBons ¡for ¡ creaBng ¡shorter ¡paths ¡
is ¡a ¡product ¡of ¡Jacobian ¡matrices, ¡each ¡associated ¡with ¡a ¡step ¡in ¡ the ¡forward ¡computaBon. ¡It ¡can ¡become ¡very ¡small ¡or ¡very ¡large ¡ quickly ¡[Bengio ¡et ¡al ¡1994], ¡and ¡the ¡locality ¡assumpBon ¡of ¡ gradient ¡descent ¡breaks ¡down. ¡ ¡
¡
21 ¡
RNN Tricks s
(Pascanu, ¡Mikolov, ¡Bengio, ¡ICML ¡2013; ¡Bengio, ¡Boulanger ¡& ¡Pascanu, ¡ICASSP ¡2013) ¡
22 ¡
error θ θ
23 ¡
xt xt−1 xt+1 x unfold s
st st+1
W1 W3 W1 W1 W1 W1 W3
st−2
W3 W3 W3
memorizaBon ¡baseline ¡
¡
24 ¡
(Dauphin ¡& ¡Bengio, ¡ ICLR’2013) ¡
25 ¡
Feedforward ¡nets ¡
Sparse gradients Trains deep nets even w/o pretraining
De Deep Sparse se Rec Rectifier Neura tifier Neural Netw Networks
¡(Glorot,Bordes ¡and ¡Bengio ¡AISTATS ¡2011), ¡following ¡up ¡on ¡(Nair ¡& ¡Hinton ¡2010) ¡sotplus ¡RBMs ¡
Leaky integrate-and-fire model Rectifier
Neuroscience motivations Machine learning motivations
Sparse representations
f(x)=max(0,x) ¡ Outstanding ¡results ¡by ¡Krizhevsky ¡et ¡al ¡2012 ¡ killing ¡the ¡state-‑of-‑the-‑art ¡on ¡ImageNet ¡1000: ¡ ¡ ¡ 1st ¡choice ¡ Top-‑5 ¡ 2nd ¡best ¡ 27% ¡err ¡ Previous ¡SOTA ¡ 45% ¡err ¡ 26% ¡err ¡ Krizhevsky ¡et ¡al ¡ 37% ¡err ¡ 15% ¡err ¡
27 ¡
¡ ¡unsupervised ¡pre-‑training ¡èvery ¡different ¡minima ¡
Neural ¡net ¡trajectories ¡in ¡ ¡ funcBon ¡space, ¡visualized ¡by ¡ t-‑SNE ¡ No ¡two ¡training ¡trajectories ¡ end ¡up ¡in ¡the ¡same ¡place ¡à ¡ huge ¡number ¡of ¡effecBve ¡ local ¡minima ¡ w/o ¡unsupervised ¡pre-‑training ¡ with ¡unsupervised ¡pre-‑training ¡
Guide Guided Tra Train inin ing, g, Int Inter ermed ediat ate Co Concepts s
almost ¡impossible ¡to ¡learn ¡by ¡shallow ¡nets, ¡deep ¡nets, ¡SVMs, ¡ trees, ¡forests, ¡boosBng ¡etc ¡
each ¡module ¡separately, ¡then ¡fine-‑tuning, ¡nails ¡it ¡
effecBve ¡local ¡minima ¡
28 ¡
HINT ¡
saddle ¡points ¡dominate ¡in ¡high-‑D ¡
boQom ¡(global ¡minimum ¡error) ¡
29 ¡
Low Low I Index dex Cr Critical Points s
Choromanska ¡et ¡al ¡& ¡LeCun ¡2014, ¡‘The ¡Loss ¡Surface ¡of ¡MulUlayer ¡Nets’ ¡ Shows ¡that ¡deep ¡recBfier ¡nets ¡are ¡analogous ¡to ¡spherical ¡spin-‑glass ¡models ¡ The ¡low-‑index ¡criBcal ¡points ¡of ¡large ¡models ¡concentrate ¡in ¡a ¡band ¡just ¡ above ¡the ¡global ¡minimum ¡
30 ¡
Sa Saddl ddle-F
ree Opti Optimi mizati zation
(Pasc scanu, Da , Daup uphin in, , Ga Gangul uli, Bengio 2014) 4)
31 ¡
Advantage ¡increases ¡ with ¡dimensionality ¡
It It is is possi ssible to esc scape sa saddle points! s!
in ¡high-‑dimensional ¡non-‑convex ¡op1miza1on, ¡Dauphin, ¡ Pascanu, ¡Gulcehre, ¡Cho, ¡Ganguli, ¡Bengio. ¡
batch ¡mode ¡with ¡power ¡method, ¡if ¡we ¡also ¡track ¡most ¡posiBve, ¡ e.g. ¡
¡ ¡ ¡ ¡ ¡ ¡subspace ¡method. ¡ ¡ ¡
32 ¡
v ← (H − λI)v
33 ¡
34 ¡
Issue: ¡underfiYng ¡due ¡to ¡combinatorially ¡many ¡poor ¡ effec1ve ¡local ¡minima, ¡most ¡likely ¡to ¡be ¡flat ¡saddle ¡points ¡
Bengio ¡2013 ¡(also ¡arXiv ¡2012) ¡ where ¡the ¡opBmizer ¡gets ¡stuck ¡
explores a potential solution
exchanging synaptic configurations, exchange ideas through language
Brain space Social success
Genetic Algorithms Evolution of ideas Population of individuals Population of brains Recombination mechanism Culture and language Unit = Gene Unit = Meme = idea
approximate ¡opBmizaBon ¡with ¡respect ¡to ¡some ¡endogenous ¡
37 ¡
approximate ¡local ¡descent ¡in ¡order ¡to ¡gradually ¡improve ¡itself. ¡
computaBons ¡(going ¡through ¡more ¡areas ¡or ¡more ¡ computaBonal ¡steps ¡in ¡sequence ¡over ¡the ¡same ¡areas). ¡
38 ¡
limited ¡by ¡effecUve ¡local ¡minima. ¡
TheoreBcal ¡and ¡experimental ¡results ¡on ¡deep ¡learning ¡suggest: ¡ Possibly ¡due ¡to ¡ill-‑condiBoning ¡and ¡flat ¡saddle ¡points ¡but ¡behaves ¡like ¡local ¡min ¡
abstracBons ¡by ¡chance ¡because ¡these ¡are ¡represented ¡by ¡a ¡deep ¡ sub-‑network ¡in ¡the ¡brain. ¡
39 ¡
signals ¡produced ¡by ¡other ¡humans, ¡which ¡act ¡as ¡hints ¡or ¡indirect ¡ supervision ¡for ¡these ¡high-‑level ¡abstracBons. ¡
SupporBng ¡evidence: ¡(Gulcehre ¡& ¡Bengio ¡ICLR ¡2013) ¡
40 ¡
… … … … … … … … … … … …
Shared ¡input ¡X ¡
LinguisBc ¡exchange ¡ = ¡Bny ¡/ ¡noisy ¡channel ¡
LinguisBc ¡ representaBon ¡ LinguisBc ¡ representaBon ¡
41 ¡
42 ¡
evoluBonary ¡operator, ¡allowing ¡rapid ¡search ¡in ¡the ¡space ¡of ¡ memes, ¡that ¡helps ¡humans ¡build ¡up ¡beQer ¡high-‑level ¡internal ¡ representaBons ¡of ¡their ¡world. ¡
More ¡than ¡random ¡search: ¡ ¡ potenBal ¡exponenBal ¡speed-‑ up ¡by ¡divide-‑and-‑conquer ¡ combinatorial ¡advantage: ¡ can ¡combine ¡soluBons ¡to ¡ independently ¡solved ¡sub-‑ problems ¡
recombinaBon ¡of ¡ideas ¡from ¡other ¡humans) ¡
43 ¡
difficult ¡because ¡we ¡are ¡trying ¡to ¡learn ¡a ¡highly ¡non-‑linear ¡ funcBon ¡that ¡has ¡composiBonal ¡structure. ¡
much ¡progress ¡has ¡been ¡made, ¡yielding ¡SOTA ¡in ¡MT ¡
blown ¡away ¡by ¡recent ¡evidence, ¡both ¡theoreBcal ¡and ¡ experimental ¡
44 ¡
MILA: Montreal Institute for Learning Algorithms