Representa)on Learning Russ Salakhutdinov Department of - - PowerPoint PPT Presentation

representa on learning
SMART_READER_LITE
LIVE PREVIEW

Representa)on Learning Russ Salakhutdinov Department of - - PowerPoint PPT Presentation

Representa)on Learning Russ Salakhutdinov Department of Computer Science Department of Statistics University of Toronto Convolu)nal Deep Models for Image Recogni)on ( Krizhevsky et.


slide-1
SLIDE 1

Representa)on ¡Learning ¡

Russ ¡Salakhutdinov ¡

Department of Computer Science Department of Statistics University of Toronto ¡

slide-2
SLIDE 2

Convolu)nal ¡Deep ¡Models ¡ ¡ for ¡Image ¡Recogni)on ¡

(Krizhevsky ¡et. ¡al., NIPS 2012)

slide-3
SLIDE 3

Convolu)nal ¡Deep ¡Models ¡ ¡ for ¡Image ¡Recogni)on ¡

(Krizhevsky ¡et. ¡al., NIPS 2012)

slide-4
SLIDE 4
  • ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡

Networks ¡ ¡

  • ¡Learning ¡More ¡Structured ¡Models: ¡

Transfer ¡Learning ¡

  • ¡Mul)modal ¡Learning ¡
slide-5
SLIDE 5

Image ¡

Low-­‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡

Example: ¡Deep ¡Boltzmann ¡Machines ¡

(Salakhutdinov & Hinton, AIStats 2009, Neural Computation 2012)

slide-6
SLIDE 6

Image ¡

Higher-­‑level ¡features: ¡ Combina)on ¡of ¡edges ¡ Low-­‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡

Example: ¡Deep ¡Boltzmann ¡Machines ¡

  • ¡Learn ¡hierarchies ¡of ¡nonlinear ¡features. ¡
  • ¡Unsupervised ¡feature ¡learning ¡– ¡no ¡need ¡ ¡

¡ ¡ ¡to ¡rely ¡on ¡human-­‑craNed ¡input ¡features. ¡

(Salakhutdinov & Hinton, AIStats 2009, Neural Computation 2012)

slide-7
SLIDE 7

Model ¡Formula)on ¡

model ¡parameters ¡

  • Dependencies ¡between ¡hidden ¡variables. ¡
  • All ¡connec)ons ¡are ¡undirected. ¡

h3 h2 h1 v W3 W2 W1

  • BoPom-­‑up ¡and ¡Top-­‑down: ¡

Top-­‑down ¡ BoPom-­‑up ¡ Input ¡

  • Unlike ¡many ¡feedforward ¡deep ¡learning ¡architectures. ¡ ¡ ¡
slide-8
SLIDE 8

Legal/Judicial Leading Economic Indicators European Community Monetary/Economic Accounts/ Earnings Interbank Markets Government Borrowings Disasters and Accidents Energy Markets

Bag ¡of ¡words ¡

Reuters ¡dataset: ¡804,414 ¡ ¡ newswire ¡stories: ¡unsupervised ¡

Deep ¡Genera)ve ¡Model ¡

slide-9
SLIDE 9

Deep ¡Genera)ve ¡Model ¡

NeXlix ¡dataset: ¡ ¡ 480,189 ¡users ¡ ¡ 17,770 ¡movies ¡ ¡

Over ¡100 ¡million ¡ra)ngs ¡

Learned ¡features: ¡``genre’’ ¡

Fahrenheit ¡9/11 ¡ Bowling ¡for ¡Columbine ¡ The ¡People ¡vs. ¡Larry ¡Flynt ¡ Canadian ¡Bacon ¡ La ¡Dolce ¡Vita ¡ Independence ¡Day ¡ The ¡Day ¡ANer ¡Tomorrow ¡ Con ¡Air ¡ Men ¡in ¡Black ¡II ¡ Men ¡in ¡Black ¡ Friday ¡the ¡13th ¡ The ¡Texas ¡Chainsaw ¡Massacre ¡ Children ¡of ¡the ¡Corn ¡ Child's ¡Play ¡ The ¡Return ¡of ¡Michael ¡Myers ¡ Scary ¡Movie ¡ Naked ¡Gun ¡ ¡ Hot ¡Shots! ¡ American ¡Pie ¡ ¡ Police ¡Academy ¡

State-­‑of-­‑the-­‑art ¡performance ¡ ¡

  • n ¡the ¡NeXlix ¡dataset ¡– ¡related ¡to ¡Matrix ¡Factoriza)on. ¡ ¡

(Salakhutdinov et. al. ICML 2007 )

slide-10
SLIDE 10

Learning ¡Hierarchical ¡Representa)ons ¡

Deep ¡Boltzmann ¡Machines: ¡ ¡ Learning ¡Hierarchical ¡Structure ¡ ¡ in ¡Features: ¡edges, ¡combina)on ¡ ¡

  • f ¡edges. ¡ ¡

The ¡Shape ¡Boltzmann ¡Machine: ¡a ¡ Strong ¡Model ¡of ¡Object ¡Shape ¡ ¡ ¡ (Eslami, ¡Heess, ¡Winn, ¡CVPR ¡2012). ¡ ¡ HallucinaAons ¡in ¡Charles ¡Bonnet ¡ Syndrome ¡Induced ¡by ¡Homeostasis: ¡ a ¡Deep ¡Boltzmann ¡Machine ¡Model ¡ (Reichert, ¡Series, ¡Storkey, ¡NIPS ¡2012) ¡

slide-11
SLIDE 11
  • ¡Learning ¡More ¡Structured ¡Models: ¡

Transfer ¡Learning ¡

  • ¡Mul)modal ¡Learning ¡
  • ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡

Networks ¡ ¡

slide-12
SLIDE 12

Face ¡Recogni)on ¡

Due ¡to ¡extreme ¡illumina)on ¡varia)ons, ¡deep ¡models ¡(Deep ¡ Belief ¡Nets) ¡ ¡perform ¡quite ¡poorly ¡on ¡this ¡dataset. ¡ ¡

Yale ¡B ¡Extended ¡Face ¡Dataset ¡ 4 ¡subsets ¡of ¡increasing ¡illumina)on ¡varia)ons ¡

slide-13
SLIDE 13

Consider ¡More ¡Structured ¡Models: ¡undirected ¡+ ¡directed ¡models. ¡

Deep ¡Lamber)an ¡Model ¡

Deep ¡ Undirected ¡ Directed ¡

Combines ¡the ¡elegant ¡proper)es ¡of ¡the ¡Lamber)an ¡model ¡with ¡the ¡ Gaussian ¡DBM ¡model. ¡ Observed ¡ Image ¡

Inferred ¡

(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)

slide-14
SLIDE 14

Deep ¡Lamber)an ¡Model ¡

Observed ¡ Image ¡

Image ¡ albedo ¡ Surface ¡ ¡ normals ¡ Light ¡ ¡ source ¡

(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)

slide-15
SLIDE 15

Deep ¡Lamber)an ¡Model ¡

Observed ¡ Image ¡

Image ¡ albedo ¡ Surface ¡ ¡ normals ¡ Light ¡ ¡ source ¡ Gaussian ¡Deep ¡ ¡ Boltzmann ¡Machine ¡ Albedo ¡DBM: ¡ Pretrained ¡using ¡ Toronto ¡Face ¡Database ¡

Transfer ¡Learning ¡

Inference: ¡Varia)onal ¡Inference. ¡ Learning: ¡Stochas)c ¡Approxima)on ¡ Inferred ¡

(Tang et. Al., ICML 2012, Tang et. al. CVPR 2012)

slide-16
SLIDE 16

Face ¡Religh)ng ¡

One ¡Test ¡Image ¡

Face ¡Religh)ng ¡

Observed ¡ Inferred ¡ albedo ¡

slide-17
SLIDE 17

Face ¡Religh)ng ¡

One ¡Test ¡Image ¡

Face ¡Religh)ng ¡

Observed ¡ Inferred ¡ albedo ¡

What ¡about ¡building ¡ structured ¡models ¡for ¡ transfer ¡learning? ¡

slide-18
SLIDE 18

Supervised ¡Learning ¡

Segway ¡ Motorcycle ¡ Test: ¡ ¡

slide-19
SLIDE 19

Transfer ¡Learning ¡

Millions ¡of ¡unlabeled ¡images ¡ ¡ Some ¡labeled ¡images ¡

Bicycle ¡ Elephant ¡ Dolphin ¡ Tractor ¡

Background ¡Knowledge ¡

Learn ¡novel ¡concept ¡ from ¡one ¡or ¡few ¡ examples ¡ Learn ¡to ¡Transfer ¡ Knowledge ¡

slide-20
SLIDE 20

Transfer ¡Learning ¡

Test: ¡ ¡ What ¡is ¡this? ¡

Millions ¡of ¡unlabeled ¡images ¡ ¡ Some ¡labeled ¡images ¡

Bicycle ¡ Elephant ¡ Dolphin ¡ Tractor ¡

Background ¡Knowledge ¡

Learn ¡to ¡Transfer ¡ Knowledge ¡ Learn ¡novel ¡concept ¡ from ¡one ¡or ¡few ¡ examples ¡

slide-21
SLIDE 21

Learning ¡Category ¡Hierarchy ¡

Learning ¡to ¡share ¡the ¡knowledge ¡across ¡many ¡visual ¡categories. ¡ Learned ¡low-­‑level ¡ generic ¡features ¡

… ¡ … ¡

Learned ¡higher-­‑level ¡ features ¡

Deep ¡Boltzmann ¡ Machine ¡using ¡ 4 ¡million ¡images ¡

(Salakhutdinov et. al., PAMI 2012, Srivastava and Salakhutdinov, 2013)

slide-22
SLIDE 22

Learning ¡Category ¡Hierarchy ¡

Learning ¡to ¡share ¡the ¡knowledge ¡across ¡many ¡visual ¡categories. ¡ Learned ¡low-­‑level ¡ generic ¡features ¡

… ¡ … ¡

Learned ¡higher-­‑level ¡ features ¡

Deep ¡Boltzmann ¡ Machine ¡using ¡ 4 ¡million ¡images ¡

“global” ¡

woman ¡

“human” ¡ “fruit” ¡ “aquaAc ¡ animal” ¡

Learned ¡super-­‑ class ¡hierarchy ¡

shark ¡ ray ¡ turtle ¡ dolphin ¡ baby ¡ man ¡ girl ¡ pear ¡

  • range ¡

apple ¡

Hierarchical ¡ structure ¡

(Salakhutdinov et. al., PAMI 2012)

slide-23
SLIDE 23

Learning ¡from ¡3 ¡Examples ¡

Given ¡only ¡3 ¡Examples ¡ Generated ¡Samples ¡ Willow ¡Tree ¡ Rocket ¡

slide-24
SLIDE 24
  • ¡Deep ¡Learning: ¡Beyond ¡Feedforward ¡

Networks ¡ ¡

  • ¡Learning ¡More ¡Structured ¡Models: ¡

Transfer ¡Learning ¡

  • ¡Mul)modal ¡Learning ¡
slide-25
SLIDE 25

Shared ¡Concept ¡

“Modality-­‑free” ¡representa)on ¡ ¡ “Modality-­‑full” ¡representa)on ¡ ¡ “Concept” ¡

sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡

  • cean ¡
slide-26
SLIDE 26

Challenges ¡-­‑ ¡I ¡ ¡

Very ¡different ¡input ¡ representa)ons ¡ Image ¡ Text ¡

sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡

  • cean ¡
  • ¡Images ¡– ¡real-­‑valued, ¡dense ¡

Difficult ¡to ¡learn ¡ cross-­‑modal ¡features ¡ from ¡low-­‑level ¡ representa)ons. ¡

Dense ¡

  • ¡Text ¡– ¡discrete, ¡sparse ¡ ¡

Sparse ¡

slide-27
SLIDE 27

Challenges ¡-­‑ ¡II ¡ ¡

Noisy ¡and ¡missing ¡data ¡

Image ¡ Text ¡

pentax, ¡k10d, ¡ pentaxda50200, ¡ kangarooisland, ¡sa, ¡ australiansealion ¡ mickikrimmel, ¡ mickipedia, ¡ headshot ¡ unseulpixel, ¡ naturey, ¡crap ¡ < ¡no ¡text> ¡

slide-28
SLIDE 28

0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡

Dense, ¡real-­‑valued ¡ image ¡features ¡ Gaussian ¡model ¡ Undirected ¡Topic ¡ Model ¡

Mul)modal ¡DBM ¡

Word ¡ counts ¡

(Srivastava and Salakhutdinov, NIPS 2013)

slide-29
SLIDE 29

Mul)modal ¡DBM ¡

0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡

Dense, ¡real-­‑valued ¡ image ¡features ¡ Gaussian ¡model ¡ Word ¡ counts ¡ Undirected ¡Topic ¡ Model ¡

(Srivastava and Salakhutdinov, NIPS 2013)

slide-30
SLIDE 30

Gaussian ¡model ¡

0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡

Mul)modal ¡DBM ¡

Word ¡ counts ¡ Dense, ¡real-­‑valued ¡ image ¡features ¡ Undirected ¡Topic ¡ Model ¡

(Srivastava and Salakhutdinov, NIPS 2013)

BoPom-­‑up ¡ + ¡ Top-­‑down ¡

slide-31
SLIDE 31

Text ¡Generated ¡from ¡Images ¡

canada, ¡nature, ¡ sunrise, ¡ontario, ¡fog, ¡ mist, ¡bc, ¡morning ¡ insect, ¡buPerfly, ¡insects, ¡ bug, ¡buPerflies, ¡ lepidoptera ¡ graffi), ¡streetart, ¡stencil, ¡ s)cker, ¡urbanart, ¡graff, ¡ sanfrancisco ¡ portrait, ¡child, ¡kid, ¡ ritraPo, ¡kids, ¡children, ¡ boy, ¡cute, ¡boys, ¡italy ¡ dog, ¡cat, ¡pet, ¡kiPen, ¡ puppy, ¡ginger, ¡tongue, ¡ kiPy, ¡dogs, ¡furry ¡ sea, ¡france, ¡boat, ¡mer, ¡ beach, ¡river, ¡bretagne, ¡ plage, ¡briPany ¡

Given Generated ¡ ¡ ¡ Given Generated ¡ ¡ ¡

slide-32
SLIDE 32

Text ¡Generated ¡from ¡Images ¡

Given Generated ¡ ¡ ¡

water, ¡glass, ¡beer, ¡boPle, ¡ drink, ¡wine, ¡bubbles, ¡splash, ¡ drops, ¡drop ¡ portrait, ¡women, ¡army, ¡soldier, ¡ mother, ¡postcard, ¡soldiers ¡

  • bama, ¡barackobama, ¡elec)on, ¡

poli)cs, ¡president, ¡hope, ¡change, ¡ sanfrancisco, ¡conven)on, ¡rally ¡

slide-33
SLIDE 33

Results ¡

  • ¡Logis)c ¡regression ¡on ¡top-­‑level ¡representa)on. ¡
  • ¡Mul)modal ¡Inputs ¡

Learning ¡Algorithm ¡ MAP ¡ Precision@50 ¡

Random ¡ 0.124 ¡ 0.124 ¡ LDA ¡[Huiskes ¡et. ¡al.] ¡ 0.492 ¡ 0.754 ¡ SVM ¡[Huiskes ¡et. ¡al.] ¡ 0.475 ¡ 0.758 ¡ DBM-­‑Labelled ¡ 0.526 ¡ 0.791 ¡ Mean ¡Average ¡Precision ¡ Similar ¡ Features, ¡ 25K ¡

slide-34
SLIDE 34

Results ¡

  • ¡Logis)c ¡regression ¡on ¡top-­‑level ¡representa)on. ¡
  • ¡Mul)modal ¡Inputs ¡

Learning ¡Algorithm ¡ MAP ¡ Precision@50 ¡

Random ¡ 0.124 ¡ 0.124 ¡ LDA ¡[Huiskes ¡et. ¡al.] ¡ 0.492 ¡ 0.754 ¡ SVM ¡[Huiskes ¡et. ¡al.] ¡ 0.475 ¡ 0.758 ¡ DBM-­‑Labelled ¡ 0.526 ¡ 0.791 ¡ DBM ¡ 0.609 ¡ 0.863 ¡ Deep ¡Belief ¡Net ¡ 0.599 ¡ 0.867 ¡ Mean ¡Average ¡Precision ¡ Similar ¡ Features, ¡ 25K ¡ + ¡1 ¡Million ¡ Unlabelled ¡

slide-35
SLIDE 35

Mul)modal ¡DBMs ¡

Samples ¡drawn ¡aNer ¡ every ¡50 ¡steps ¡of ¡ Gibbs ¡updates ¡

slide-36
SLIDE 36

Thank ¡you ¡