Representa)on Learning Russ Salakhutdinov Department of - - PowerPoint PPT Presentation
Representa)on Learning Russ Salakhutdinov Department of - - PowerPoint PPT Presentation
Representa)on Learning Russ Salakhutdinov Department of Computer Science Department of Statistics University of Toronto Convolu)nal Deep Models for Image Recogni)on ( Krizhevsky et.
Convolu)nal ¡Deep ¡Models ¡ ¡ for ¡Image ¡Recogni)on ¡
(Krizhevsky ¡et. ¡al., NIPS 2012)
Convolu)nal ¡Deep ¡Models ¡ ¡ for ¡Image ¡Recogni)on ¡
(Krizhevsky ¡et. ¡al., NIPS 2012)
- ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡
Networks ¡ ¡
- ¡Learning ¡More ¡Structured ¡Models: ¡
Transfer ¡Learning ¡
- ¡Mul)modal ¡Learning ¡
Image ¡
Low-‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡
Example: ¡Deep ¡Boltzmann ¡Machines ¡
(Salakhutdinov & Hinton, AIStats 2009, Neural Computation 2012)
Image ¡
Higher-‑level ¡features: ¡ Combina)on ¡of ¡edges ¡ Low-‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡
Example: ¡Deep ¡Boltzmann ¡Machines ¡
- ¡Learn ¡hierarchies ¡of ¡nonlinear ¡features. ¡
- ¡Unsupervised ¡feature ¡learning ¡– ¡no ¡need ¡ ¡
¡ ¡ ¡to ¡rely ¡on ¡human-‑craNed ¡input ¡features. ¡
(Salakhutdinov & Hinton, AIStats 2009, Neural Computation 2012)
Model ¡Formula)on ¡
model ¡parameters ¡
- Dependencies ¡between ¡hidden ¡variables. ¡
- All ¡connec)ons ¡are ¡undirected. ¡
h3 h2 h1 v W3 W2 W1
- BoPom-‑up ¡and ¡Top-‑down: ¡
Top-‑down ¡ BoPom-‑up ¡ Input ¡
- Unlike ¡many ¡feedforward ¡deep ¡learning ¡architectures. ¡ ¡ ¡
Legal/Judicial Leading Economic Indicators European Community Monetary/Economic Accounts/ Earnings Interbank Markets Government Borrowings Disasters and Accidents Energy Markets
Bag ¡of ¡words ¡
Reuters ¡dataset: ¡804,414 ¡ ¡ newswire ¡stories: ¡unsupervised ¡
Deep ¡Genera)ve ¡Model ¡
Deep ¡Genera)ve ¡Model ¡
NeXlix ¡dataset: ¡ ¡ 480,189 ¡users ¡ ¡ 17,770 ¡movies ¡ ¡
Over ¡100 ¡million ¡ra)ngs ¡
Learned ¡features: ¡``genre’’ ¡
Fahrenheit ¡9/11 ¡ Bowling ¡for ¡Columbine ¡ The ¡People ¡vs. ¡Larry ¡Flynt ¡ Canadian ¡Bacon ¡ La ¡Dolce ¡Vita ¡ Independence ¡Day ¡ The ¡Day ¡ANer ¡Tomorrow ¡ Con ¡Air ¡ Men ¡in ¡Black ¡II ¡ Men ¡in ¡Black ¡ Friday ¡the ¡13th ¡ The ¡Texas ¡Chainsaw ¡Massacre ¡ Children ¡of ¡the ¡Corn ¡ Child's ¡Play ¡ The ¡Return ¡of ¡Michael ¡Myers ¡ Scary ¡Movie ¡ Naked ¡Gun ¡ ¡ Hot ¡Shots! ¡ American ¡Pie ¡ ¡ Police ¡Academy ¡
State-‑of-‑the-‑art ¡performance ¡ ¡
- n ¡the ¡NeXlix ¡dataset ¡– ¡related ¡to ¡Matrix ¡Factoriza)on. ¡ ¡
(Salakhutdinov et. al. ICML 2007 )
Learning ¡Hierarchical ¡Representa)ons ¡
Deep ¡Boltzmann ¡Machines: ¡ ¡ Learning ¡Hierarchical ¡Structure ¡ ¡ in ¡Features: ¡edges, ¡combina)on ¡ ¡
- f ¡edges. ¡ ¡
The ¡Shape ¡Boltzmann ¡Machine: ¡a ¡ Strong ¡Model ¡of ¡Object ¡Shape ¡ ¡ ¡ (Eslami, ¡Heess, ¡Winn, ¡CVPR ¡2012). ¡ ¡ HallucinaAons ¡in ¡Charles ¡Bonnet ¡ Syndrome ¡Induced ¡by ¡Homeostasis: ¡ a ¡Deep ¡Boltzmann ¡Machine ¡Model ¡ (Reichert, ¡Series, ¡Storkey, ¡NIPS ¡2012) ¡
- ¡Learning ¡More ¡Structured ¡Models: ¡
Transfer ¡Learning ¡
- ¡Mul)modal ¡Learning ¡
- ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡
Networks ¡ ¡
Face ¡Recogni)on ¡
Due ¡to ¡extreme ¡illumina)on ¡varia)ons, ¡deep ¡models ¡(Deep ¡ Belief ¡Nets) ¡ ¡perform ¡quite ¡poorly ¡on ¡this ¡dataset. ¡ ¡
Yale ¡B ¡Extended ¡Face ¡Dataset ¡ 4 ¡subsets ¡of ¡increasing ¡illumina)on ¡varia)ons ¡
Consider ¡More ¡Structured ¡Models: ¡undirected ¡+ ¡directed ¡models. ¡
Deep ¡Lamber)an ¡Model ¡
Deep ¡ Undirected ¡ Directed ¡
Combines ¡the ¡elegant ¡proper)es ¡of ¡the ¡Lamber)an ¡model ¡with ¡the ¡ Gaussian ¡DBM ¡model. ¡ Observed ¡ Image ¡
Inferred ¡
(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)
Deep ¡Lamber)an ¡Model ¡
Observed ¡ Image ¡
Image ¡ albedo ¡ Surface ¡ ¡ normals ¡ Light ¡ ¡ source ¡
(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)
Deep ¡Lamber)an ¡Model ¡
Observed ¡ Image ¡
Image ¡ albedo ¡ Surface ¡ ¡ normals ¡ Light ¡ ¡ source ¡ Gaussian ¡Deep ¡ ¡ Boltzmann ¡Machine ¡ Albedo ¡DBM: ¡ Pretrained ¡using ¡ Toronto ¡Face ¡Database ¡
Transfer ¡Learning ¡
Inference: ¡Varia)onal ¡Inference. ¡ Learning: ¡Stochas)c ¡Approxima)on ¡ Inferred ¡
(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)
Face ¡Religh)ng ¡
One ¡Test ¡Image ¡
Face ¡Religh)ng ¡
Observed ¡ Inferred ¡ albedo ¡
Face ¡Religh)ng ¡
One ¡Test ¡Image ¡
Face ¡Religh)ng ¡
Observed ¡ Inferred ¡ albedo ¡
What ¡about ¡building ¡ structured ¡models ¡for ¡ transfer ¡learning? ¡
Supervised ¡Learning ¡
Segway ¡ Motorcycle ¡ Test: ¡ ¡
Transfer ¡Learning ¡
Millions ¡of ¡unlabeled ¡images ¡ ¡ Some ¡labeled ¡images ¡
Bicycle ¡ Elephant ¡ Dolphin ¡ Tractor ¡
Background ¡Knowledge ¡
Learn ¡novel ¡concept ¡ from ¡one ¡or ¡few ¡ examples ¡ Learn ¡to ¡Transfer ¡ Knowledge ¡
Transfer ¡Learning ¡
Test: ¡ ¡ What ¡is ¡this? ¡
Millions ¡of ¡unlabeled ¡images ¡ ¡ Some ¡labeled ¡images ¡
Bicycle ¡ Elephant ¡ Dolphin ¡ Tractor ¡
Background ¡Knowledge ¡
Learn ¡to ¡Transfer ¡ Knowledge ¡ Learn ¡novel ¡concept ¡ from ¡one ¡or ¡few ¡ examples ¡
Learning ¡Category ¡Hierarchy ¡
Learning ¡to ¡share ¡the ¡knowledge ¡across ¡many ¡visual ¡categories. ¡ Learned ¡low-‑level ¡ generic ¡features ¡
… ¡ … ¡
Learned ¡higher-‑level ¡ features ¡
Deep ¡Boltzmann ¡ Machine ¡using ¡ 4 ¡million ¡images ¡
(Salakhutdinov et. al., PAMI 2012, Srivastava and Salakhutdinov, 2013)
Learning ¡Category ¡Hierarchy ¡
Learning ¡to ¡share ¡the ¡knowledge ¡across ¡many ¡visual ¡categories. ¡ Learned ¡low-‑level ¡ generic ¡features ¡
… ¡ … ¡
Learned ¡higher-‑level ¡ features ¡
Deep ¡Boltzmann ¡ Machine ¡using ¡ 4 ¡million ¡images ¡
“global” ¡
woman ¡
“human” ¡ “fruit” ¡ “aquaAc ¡ animal” ¡
Learned ¡super-‑ class ¡hierarchy ¡
shark ¡ ray ¡ turtle ¡ dolphin ¡ baby ¡ man ¡ girl ¡ pear ¡
- range ¡
apple ¡
Hierarchical ¡ structure ¡
(Salakhutdinov et. al., PAMI 2012)
Learning ¡from ¡3 ¡Examples ¡
Given ¡only ¡3 ¡Examples ¡ Generated ¡Samples ¡ Willow ¡Tree ¡ Rocket ¡
- ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡
Networks ¡ ¡
- ¡Learning ¡More ¡Structured ¡Models: ¡
Transfer ¡Learning ¡
- ¡Mul)modal ¡Learning ¡
Shared ¡Concept ¡
“Modality-‑free” ¡representa)on ¡ ¡ “Modality-‑full” ¡representa)on ¡ ¡ “Concept” ¡
sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡
- cean ¡
Challenges ¡-‑ ¡I ¡ ¡
Very ¡different ¡input ¡ representa)ons ¡ Image ¡ Text ¡
sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡
- cean ¡
- ¡Images ¡– ¡real-‑valued, ¡dense ¡
Difficult ¡to ¡learn ¡ cross-‑modal ¡features ¡ from ¡low-‑level ¡ representa)ons. ¡
Dense ¡
- ¡Text ¡– ¡discrete, ¡sparse ¡ ¡
Sparse ¡
Challenges ¡-‑ ¡II ¡ ¡
Noisy ¡and ¡missing ¡data ¡
Image ¡ Text ¡
pentax, ¡k10d, ¡ pentaxda50200, ¡ kangarooisland, ¡sa, ¡ australiansealion ¡ mickikrimmel, ¡ mickipedia, ¡ headshot ¡ unseulpixel, ¡ naturey, ¡crap ¡ < ¡no ¡text> ¡
0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡
Dense, ¡real-‑valued ¡ image ¡features ¡ Gaussian ¡model ¡ Undirected ¡Topic ¡ Model ¡
Mul)modal ¡DBM ¡
Word ¡ counts ¡
(Srivastava and Salakhutdinov, NIPS 2013)
Mul)modal ¡DBM ¡
0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡
Dense, ¡real-‑valued ¡ image ¡features ¡ Gaussian ¡model ¡ Word ¡ counts ¡ Undirected ¡Topic ¡ Model ¡
(Srivastava and Salakhutdinov, NIPS 2013)
Gaussian ¡model ¡
0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡
Mul)modal ¡DBM ¡
Word ¡ counts ¡ Dense, ¡real-‑valued ¡ image ¡features ¡ Undirected ¡Topic ¡ Model ¡
(Srivastava and Salakhutdinov, NIPS 2013)
BoPom-‑up ¡ + ¡ Top-‑down ¡
Text ¡Generated ¡from ¡Images ¡
canada, ¡nature, ¡ sunrise, ¡ontario, ¡fog, ¡ mist, ¡bc, ¡morning ¡ insect, ¡buPerfly, ¡insects, ¡ bug, ¡buPerflies, ¡ lepidoptera ¡ graffi), ¡streetart, ¡stencil, ¡ s)cker, ¡urbanart, ¡graff, ¡ sanfrancisco ¡ portrait, ¡child, ¡kid, ¡ ritraPo, ¡kids, ¡children, ¡ boy, ¡cute, ¡boys, ¡italy ¡ dog, ¡cat, ¡pet, ¡kiPen, ¡ puppy, ¡ginger, ¡tongue, ¡ kiPy, ¡dogs, ¡furry ¡ sea, ¡france, ¡boat, ¡mer, ¡ beach, ¡river, ¡bretagne, ¡ plage, ¡briPany ¡
Given Generated ¡ ¡ ¡ Given Generated ¡ ¡ ¡
Text ¡Generated ¡from ¡Images ¡
Given Generated ¡ ¡ ¡
water, ¡glass, ¡beer, ¡boPle, ¡ drink, ¡wine, ¡bubbles, ¡splash, ¡ drops, ¡drop ¡ portrait, ¡women, ¡army, ¡soldier, ¡ mother, ¡postcard, ¡soldiers ¡
- bama, ¡barackobama, ¡elec)on, ¡
poli)cs, ¡president, ¡hope, ¡change, ¡ sanfrancisco, ¡conven)on, ¡rally ¡
Results ¡
- ¡Logis)c ¡regression ¡on ¡top-‑level ¡representa)on. ¡
- ¡Mul)modal ¡Inputs ¡
Learning ¡Algorithm ¡ MAP ¡ Precision@50 ¡
Random ¡ 0.124 ¡ 0.124 ¡ LDA ¡[Huiskes ¡et. ¡al.] ¡ 0.492 ¡ 0.754 ¡ SVM ¡[Huiskes ¡et. ¡al.] ¡ 0.475 ¡ 0.758 ¡ DBM-‑Labelled ¡ 0.526 ¡ 0.791 ¡ Mean ¡Average ¡Precision ¡ Similar ¡ Features, ¡ 25K ¡
Results ¡
- ¡Logis)c ¡regression ¡on ¡top-‑level ¡representa)on. ¡
- ¡Mul)modal ¡Inputs ¡
Learning ¡Algorithm ¡ MAP ¡ Precision@50 ¡
Random ¡ 0.124 ¡ 0.124 ¡ LDA ¡[Huiskes ¡et. ¡al.] ¡ 0.492 ¡ 0.754 ¡ SVM ¡[Huiskes ¡et. ¡al.] ¡ 0.475 ¡ 0.758 ¡ DBM-‑Labelled ¡ 0.526 ¡ 0.791 ¡ DBM ¡ 0.609 ¡ 0.863 ¡ Deep ¡Belief ¡Net ¡ 0.599 ¡ 0.867 ¡ Mean ¡Average ¡Precision ¡ Similar ¡ Features, ¡ 25K ¡ + ¡1 ¡Million ¡ Unlabelled ¡
Mul)modal ¡DBMs ¡
Samples ¡drawn ¡aNer ¡ every ¡50 ¡steps ¡of ¡ Gibbs ¡updates ¡