Deep ¡Learning ¡
Russ ¡Salakhutdinov ¡
Associate Professor Machine Learning Department Carnegie Mellon University Canadian Institute of Advanced Research
Deep Learning Russ Salakhutdinov Associate Professor Machine - - PowerPoint PPT Presentation
Deep Learning Russ Salakhutdinov Associate Professor Machine Learning Department Carnegie Mellon University Canadian Institute of Advanced Research Mining for Structure Massive increase in
Russ ¡Salakhutdinov ¡
Associate Professor Machine Learning Department Carnegie Mellon University Canadian Institute of Advanced Research
Images ¡& ¡Video ¡ Rela:onal ¡Data/ ¡ ¡ Social ¡Network ¡
Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡
Speech ¡& ¡Audio ¡ Text ¡& ¡Language ¡ ¡ Product ¡ ¡ Recommenda:on ¡
sta:s:cal ¡correla:on ¡from ¡data ¡in ¡unsupervised ¡or ¡semi-‑supervised ¡way. ¡ ¡
Gene ¡Expression ¡ fMRI ¡ Tumor ¡region ¡
Images ¡& ¡Video ¡ Rela:onal ¡Data/ ¡ ¡ Social ¡Network ¡
Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡
Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Text ¡& ¡Language ¡ ¡ Product ¡ ¡ Recommenda:on ¡ fMRI ¡
sta:s:cal ¡correla:on ¡from ¡data ¡in ¡unsupervised ¡or ¡semi-‑supervised ¡way. ¡ ¡
Tumor ¡region ¡
Develop ¡computer ¡algorithms ¡that ¡can: ¡
Personal ¡assistants, ¡self-‑driving ¡cars, ¡etc. ¡ ¡ ¡
Model ¡Samples ¡
strangers, ¡ ¡coworkers, ¡ ¡conven:oneers, ¡ ¡ aSendants, ¡ ¡patrons ¡ TAGS: ¡ Nearest ¡Neighbor ¡Sentence: ¡ people ¡taking ¡pictures ¡of ¡a ¡crazy ¡person ¡
Plis et.al. , Frontiers in Neuroscience, 2014 ¡
¡
¡
pixel ¡2 ¡ pixel ¡1 ¡
Segway ¡ Non-‑Segway ¡ Input ¡Space ¡
Handle ¡ Wheel ¡
Learning Algorithm Feature Representation
Handle ¡ Wheel ¡
Feature ¡Space ¡
Image ¡ vision ¡features ¡ Recogni:on ¡
Object ¡ detec:on ¡ Audio ¡ classifica:on ¡
Audio ¡ audio ¡features ¡ Speaker ¡ iden:fica:on ¡
Data Feature extraction Learning algorithm
SIFT ¡ Spin ¡image ¡ HoG ¡ RIFT ¡ Textons ¡ GLOH ¡
SIFT ¡ Spin ¡image ¡ HoG ¡ RIFT ¡ Textons ¡ GLOH ¡
ZCR ¡ Spectrogram ¡ MFCC ¡ Rolloff ¡ Flux ¡
ZCR ¡ Spectrogram ¡ MFCC ¡ Rolloff ¡ Flux ¡
RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡
Pair-‑wise ¡ Unary ¡
Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-‑linear ¡models. ¡ ¡
Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ ¡ ¡hidden ¡variables ¡
Graphical ¡Models: ¡Powerful ¡ framework ¡for ¡represen:ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Feature ¡Detectors ¡
Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡
= ¡ …. ¡
New ¡Image: ¡
Logis:c ¡Func:on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡
Sparse ¡ representa=ons ¡
Observed ¡ ¡Data ¡ ¡ Subset ¡of ¡25,000 ¡characters ¡
Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡unlabelled ¡images ¡
= 0.9 * + 0.8 * + 0.6 * …
New ¡Image ¡ Learned ¡features: ¡``topics’’ ¡
russian ¡ russia ¡ moscow ¡ yeltsin ¡ soviet ¡ clinton ¡ house ¡ president ¡ bill ¡ congress ¡ computer ¡ system ¡ product ¡ sogware ¡ develop ¡ trade ¡ country ¡ import ¡ world ¡ economy ¡ stock ¡ wall ¡ street ¡ point ¡ dow ¡
Reuters ¡dataset: ¡ 804,414 ¡unlabeled ¡ newswire ¡stories ¡ Bag-‑of-‑Words ¡ ¡
Image ¡
Low-‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡ Built ¡from ¡unlabeled ¡inputs. ¡ ¡
(Salakhutdinov 2008, Salakhutdinov & Hinton 2012)
Image ¡
Higher-‑level ¡features: ¡ Combina:on ¡of ¡edges ¡ Low-‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡ Built ¡from ¡unlabeled ¡inputs. ¡ ¡
Learn ¡simpler ¡representa:ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡
(Salakhutdinov 2008, Salakhutdinov & Hinton 2012)
HandwriSen ¡Characters ¡
HandwriSen ¡Characters ¡
HandwriSen ¡Characters ¡
Real ¡Data ¡ Simulated ¡
HandwriSen ¡Characters ¡
Real ¡Data ¡ Simulated ¡
HandwriSen ¡Characters ¡
¡
¡
image ¡+ ¡text ¡+ ¡audio. ¡
Audio ¡ Vision ¡ Touch ¡sensors ¡ Motor ¡control ¡
sunset, ¡ pacificocean, ¡ bakerbeach, ¡ seashore, ¡ocean ¡ car, ¡ automobile ¡
“Modality-‑free” ¡representa:on ¡ ¡ “Modality-‑full” ¡representa:on ¡ ¡ “Concept” ¡
sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡
mosque, ¡tower, ¡ building, ¡cathedral, ¡ dome, ¡castle ¡ kitchen, ¡stove, ¡oven, ¡ refrigerator, ¡ microwave ¡ ski, ¡skiing, ¡ skiers, ¡skiiers, ¡ snowmobile ¡ bowl, ¡cup, ¡ soup, ¡cups, ¡ coffee ¡
beach ¡ snow ¡
Nearest Images
(Kiros, Salakhutdinov, Zemel, TACL 2015) ¡
¡
Sample ¡from ¡the ¡Genera=ve ¡Model ¡ (recurrent ¡neural ¡network): ¡
¡ She ¡was ¡in ¡love ¡with ¡him ¡for ¡the ¡first ¡:me ¡in ¡months, ¡so ¡she ¡had ¡no ¡ inten:on ¡of ¡escaping. ¡The ¡sun ¡had ¡risen ¡from ¡the ¡ocean, ¡making ¡her ¡ feel ¡more ¡alive ¡than ¡normal ¡. ¡She ¡is ¡beau:ful, ¡but ¡the ¡truth ¡is ¡that ¡I ¡ do ¡not ¡know ¡what ¡to ¡do. ¡The ¡sun ¡was ¡just ¡star:ng ¡to ¡fade ¡away, ¡ leaving ¡people ¡scaSered ¡around ¡the ¡Atlan:c ¡Ocean. ¡ ¡ ¡ ¡ We ¡were ¡barely ¡able ¡to ¡catch ¡the ¡ breeze ¡at ¡the ¡beach, ¡and ¡it ¡felt ¡as ¡if ¡ someone ¡stepped ¡out ¡of ¡my ¡mind. ¡ ¡
Kiros ¡et.al., ¡NIPS ¡2015 ¡
A ¡man ¡riding ¡ ¡a ¡horse ¡ in ¡a ¡field. ¡ ¡
¡
(Xu ¡et.al., ¡ICML ¡2015) ¡
¡ ¡ A ¡stop ¡sign ¡is ¡flying ¡in ¡
blue ¡skies ¡ ¡
¡ ¡
A ¡pale ¡yellow ¡school ¡bus ¡ is ¡flying ¡in ¡blue ¡skies ¡ ¡
¡ ¡
A ¡herd ¡of ¡elephants ¡is ¡ flying ¡in ¡blue ¡skies ¡ ¡
¡ ¡
A ¡large ¡commercial ¡airplane ¡ is ¡flying ¡in ¡blue ¡skies ¡ ¡
¡ ¡
(Mansimov, ¡ParisoSo, ¡Ba, ¡Salakhutdinov, ¡ICLR ¡2016) ¡ ¡
Input ¡
h3 h2 h1 v W3 W2 W1
Approximate ¡ Inference ¡ Genera:ve ¡ Process ¡
(Hinton ¡et.al., ¡Science ¡1995, ¡ ¡Kingma ¡et.al., ¡NIPS ¡2014) ¡ ¡
A ¡very ¡large ¡commercial ¡ plane ¡flying ¡in ¡clear ¡skies. ¡ ¡ ¡ A ¡very ¡large ¡commercial ¡ plane ¡flying ¡in ¡rainy ¡skies. ¡ ¡ ¡ A ¡herd ¡of ¡elephants ¡walking ¡ across ¡a ¡dry ¡grass ¡field. ¡ A ¡herd ¡of ¡elephants ¡walking ¡ across ¡a ¡green ¡grass ¡field. ¡
(Mansimov, ¡ParisoSo, ¡Ba, ¡Salakhutdinov, ¡ICLR ¡2016) ¡ ¡
A ¡toilet ¡seat ¡sits ¡open ¡in ¡the ¡ bathroom ¡ ¡ ¡ Ask ¡Google? ¡ A ¡toilet ¡seat ¡sits ¡open ¡in ¡the ¡ grass ¡field ¡ ¡ ¡ Bloomberg ¡News ¡ ¡ ¡
One-‑Shot ¡Learning ¡ ¡
¡
¡
A ¡man ¡is ¡driving ¡a ¡car. ¡ A ¡car ¡is ¡being ¡driven ¡by ¡a ¡man. ¡
Same: ¡Score ¡ ¡4.9 ¡
A ¡liSle ¡girl ¡is ¡looking ¡at ¡a ¡ woman ¡in ¡costume. ¡ A ¡liSle ¡girl ¡in ¡costume ¡looks ¡ like ¡a ¡woman. ¡
Different: ¡Score ¡2.9 ¡
A ¡person ¡is ¡performing ¡ tricks ¡on ¡a ¡motorcycle ¡ The ¡performer ¡is ¡tricking ¡a ¡ person ¡on ¡a ¡motorcycle ¡ ¡
Same: ¡Score ¡ ¡4.4 ¡
“zarc”
(Lake, Salakhutdinov, Tenenbaum, Science, 2015)
“zarc” “segway” How ¡can ¡we ¡learn ¡a ¡novel ¡concept ¡– ¡a ¡high ¡dimensional ¡ sta:s:cal ¡object ¡– ¡from ¡few ¡examples. ¡ ¡ ¡
(Lake, Salakhutdinov, Tenenbaum, Science, 2015)
(Lake, Salakhutdinov, Tenenbaum, Science, 2015)
Figure ¡credit: ¡Nando ¡de ¡Freitas ¡
Mnih ¡et.al., ¡2014, ¡Rusu ¡et. ¡al., ¡2015, ¡Wang ¡et.al., ¡2015 ¡
many ¡games ¡at ¡once? ¡
knowledge ¡about ¡the ¡previous ¡games ¡it ¡learnt. ¡ ¡
games ¡(we ¡are ¡extending ¡this ¡to ¡more ¡games). ¡
(Parisotto, Ba, Salakhutdinov, ICLR 2016)
500K ¡frames ¡ Star ¡Gunner: ¡Performance ¡ager ¡learning ¡ ¡on ¡13 ¡other ¡games: ¡ 1M ¡frames ¡
(Parisotto, Ba, Salakhutdinov, ICLR 2016)
¡
applica:on ¡domains: ¡
Ø
Object ¡recogni:on ¡and ¡detec:on, ¡text ¡and ¡image ¡retrieval, ¡handwriSen ¡ character ¡and ¡speech ¡recogni:on, ¡and ¡others. ¡
HMM ¡decoder ¡
Speech ¡Recogni=on ¡
sunset, ¡pacific ¡ocean, ¡ beach, ¡seashore ¡
¡ ¡ ¡ ¡ ¡
Mul=modal ¡Data ¡
¡ ¡ ¡ ¡ ¡
Object ¡Detec=on ¡ Text ¡& ¡image ¡retrieval ¡/ ¡ ¡ Object ¡recogni=on ¡ Learning ¡a ¡Category ¡ Hierarchy ¡
mosque, ¡tower, ¡ building, ¡cathedral, ¡
dome, ¡castle ¡
Image ¡Tagging ¡