Deep Learning Russ Salakhutdinov Associate Professor Machine - - PowerPoint PPT Presentation

deep learning
SMART_READER_LITE
LIVE PREVIEW

Deep Learning Russ Salakhutdinov Associate Professor Machine - - PowerPoint PPT Presentation

Deep Learning Russ Salakhutdinov Associate Professor Machine Learning Department Carnegie Mellon University Canadian Institute of Advanced Research Mining for Structure Massive increase in


slide-1
SLIDE 1

Deep ¡Learning ¡

Russ ¡Salakhutdinov ¡

Associate Professor Machine Learning Department Carnegie Mellon University Canadian Institute of Advanced Research

slide-2
SLIDE 2

Images ¡& ¡Video ¡ Rela:onal ¡Data/ ¡ ¡ Social ¡Network ¡

Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡

Mining ¡for ¡Structure ¡

Speech ¡& ¡Audio ¡ Text ¡& ¡Language ¡ ¡ Product ¡ ¡ Recommenda:on ¡

  • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡

sta:s:cal ¡correla:on ¡from ¡data ¡in ¡unsupervised ¡or ¡semi-­‑supervised ¡way. ¡ ¡

  • ¡Mul:ple ¡applica:on ¡domains. ¡

Gene ¡Expression ¡ fMRI ¡ Tumor ¡region ¡

slide-3
SLIDE 3

Images ¡& ¡Video ¡ Rela:onal ¡Data/ ¡ ¡ Social ¡Network ¡

Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡

Mining ¡for ¡Structure ¡

Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Text ¡& ¡Language ¡ ¡ Product ¡ ¡ Recommenda:on ¡ fMRI ¡

  • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡

sta:s:cal ¡correla:on ¡from ¡data ¡in ¡unsupervised ¡or ¡semi-­‑supervised ¡way. ¡ ¡

  • ¡Mul:ple ¡applica:on ¡domains. ¡

Tumor ¡region ¡

Deep ¡Learning ¡

slide-4
SLIDE 4

Impact ¡of ¡Deep ¡Learning ¡

  • ¡Speech ¡Recogni:on ¡
  • ¡Computer ¡Vision ¡
  • ¡Language ¡Understanding ¡ ¡
  • ¡Recommender ¡Systems ¡ ¡
  • ¡Drug ¡Discovery ¡and ¡Medical ¡

Image ¡Analysis ¡ ¡

slide-5
SLIDE 5

Building ¡Ar:ficial ¡Intelligence ¡

Develop ¡computer ¡algorithms ¡that ¡can: ¡

  • ¡See ¡and ¡recognize ¡objects ¡around ¡us ¡
  • ¡Perceive ¡human ¡speech ¡ ¡
  • ¡Understand ¡natural ¡language ¡ ¡ ¡
  • ¡Navigate ¡around ¡autonomously ¡ ¡
  • ¡Display ¡human ¡like ¡Intelligence ¡ ¡

Personal ¡assistants, ¡self-­‑driving ¡cars, ¡etc. ¡ ¡ ¡

slide-6
SLIDE 6

Example: ¡Understanding ¡Images ¡

Model ¡Samples ¡

  • ¡a ¡group ¡of ¡people ¡in ¡a ¡crowded ¡area ¡. ¡
  • ¡a ¡group ¡of ¡people ¡are ¡walking ¡and ¡talking ¡. ¡
  • ¡a ¡group ¡of ¡people, ¡standing ¡around ¡and ¡talking ¡. ¡

strangers, ¡ ¡coworkers, ¡ ¡conven:oneers, ¡ ¡ aSendants, ¡ ¡patrons ¡ TAGS: ¡ Nearest ¡Neighbor ¡Sentence: ¡ people ¡taking ¡pictures ¡of ¡a ¡crazy ¡person ¡

slide-7
SLIDE 7

Speech ¡Recogni:on ¡ ¡

slide-8
SLIDE 8

Deep ¡Learning ¡for ¡Neuroimaging ¡

Plis et.al. , Frontiers in Neuroscience, 2014 ¡

slide-9
SLIDE 9
slide-10
SLIDE 10

Talk ¡Roadmap ¡

  • Introduc:on ¡

¡

  • Mul:-­‑Modal ¡Learning ¡

¡

  • Open ¡Problems ¡
slide-11
SLIDE 11

Learning ¡Feature ¡Representa:ons ¡

pixel ¡2 ¡ pixel ¡1 ¡

Segway ¡ Non-­‑Segway ¡ Input ¡Space ¡

Handle ¡ Wheel ¡

Learning Algorithm Feature Representation

Handle ¡ Wheel ¡

Feature ¡Space ¡

slide-12
SLIDE 12

Tradi:onal ¡Approaches ¡

Image ¡ vision ¡features ¡ Recogni:on ¡

Object ¡ detec:on ¡ Audio ¡ classifica:on ¡

Audio ¡ audio ¡features ¡ Speaker ¡ iden:fica:on ¡

Data Feature extraction Learning algorithm

slide-13
SLIDE 13

Computer ¡Vision ¡Features ¡

SIFT ¡ Spin ¡image ¡ HoG ¡ RIFT ¡ Textons ¡ GLOH ¡

slide-14
SLIDE 14

Computer ¡Vision ¡Features ¡

SIFT ¡ Spin ¡image ¡ HoG ¡ RIFT ¡ Textons ¡ GLOH ¡

Deep ¡Learning ¡

slide-15
SLIDE 15

ZCR ¡ Spectrogram ¡ MFCC ¡ Rolloff ¡ Flux ¡

Audio ¡Features ¡

slide-16
SLIDE 16

Audio ¡Features ¡

ZCR ¡ Spectrogram ¡ MFCC ¡ Rolloff ¡ Flux ¡

Deep ¡Learning ¡

slide-17
SLIDE 17

Restricted ¡Boltzmann ¡Machines ¡

RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡

  • ¡Stochas:c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
  • ¡Bipar:te ¡connec:ons. ¡

Pair-­‑wise ¡ Unary ¡

  • ¡Stochas:c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡

Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ ¡ ¡hidden ¡variables ¡

Graphical ¡Models: ¡Powerful ¡ framework ¡for ¡represen:ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Feature ¡Detectors ¡

slide-18
SLIDE 18

Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡

Learning ¡Features ¡

= ¡ …. ¡

New ¡Image: ¡

Logis:c ¡Func:on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡

Sparse ¡ representa=ons ¡

Observed ¡ ¡Data ¡ ¡ Subset ¡of ¡25,000 ¡characters ¡

slide-19
SLIDE 19

Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡unlabelled ¡images ¡

RBMs ¡for ¡Real-­‑valued ¡Data ¡

= 0.9 * + 0.8 * + 0.6 * …

New ¡Image ¡ Learned ¡features: ¡``topics’’ ¡

russian ¡ russia ¡ moscow ¡ yeltsin ¡ soviet ¡ clinton ¡ house ¡ president ¡ bill ¡ congress ¡ computer ¡ system ¡ product ¡ sogware ¡ develop ¡ trade ¡ country ¡ import ¡ world ¡ economy ¡ stock ¡ wall ¡ street ¡ point ¡ dow ¡

Reuters ¡dataset: ¡ 804,414 ¡unlabeled ¡ newswire ¡stories ¡ Bag-­‑of-­‑Words ¡ ¡

slide-20
SLIDE 20

Image ¡

Low-­‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡ Built ¡from ¡unlabeled ¡inputs. ¡ ¡

Deep ¡Boltzmann ¡Machines ¡

(Salakhutdinov 2008, Salakhutdinov & Hinton 2012)

slide-21
SLIDE 21

Image ¡

Higher-­‑level ¡features: ¡ Combina:on ¡of ¡edges ¡ Low-­‑level ¡features: ¡ Edges ¡ Input: ¡Pixels ¡ Built ¡from ¡unlabeled ¡inputs. ¡ ¡

Deep ¡Boltzmann ¡Machines ¡

Learn ¡simpler ¡representa:ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡

(Salakhutdinov 2008, Salakhutdinov & Hinton 2012)

slide-22
SLIDE 22

Good ¡Genera:ve ¡Model? ¡

HandwriSen ¡Characters ¡

slide-23
SLIDE 23

Good ¡Genera:ve ¡Model? ¡

HandwriSen ¡Characters ¡

slide-24
SLIDE 24

Good ¡Genera:ve ¡Model? ¡

HandwriSen ¡Characters ¡

Real ¡Data ¡ Simulated ¡

slide-25
SLIDE 25

Good ¡Genera:ve ¡Model? ¡

HandwriSen ¡Characters ¡

Real ¡Data ¡ Simulated ¡

slide-26
SLIDE 26

Good ¡Genera:ve ¡Model? ¡

HandwriSen ¡Characters ¡

slide-27
SLIDE 27

Talk ¡Roadmap ¡

  • Introduc:on ¡

¡

  • Mul:-­‑Modal ¡Learning ¡

¡

  • Open ¡Problems ¡
slide-28
SLIDE 28

Data ¡– ¡Collec:on ¡of ¡Modali:es ¡

  • ¡Mul:media ¡content ¡on ¡the ¡web ¡-­‑ ¡

image ¡+ ¡text ¡+ ¡audio. ¡

  • ¡Product ¡recommenda:on ¡
  • systems. ¡
  • ¡Robo:cs ¡applica:ons. ¡

Audio ¡ Vision ¡ Touch ¡sensors ¡ Motor ¡control ¡

sunset, ¡ pacificocean, ¡ bakerbeach, ¡ seashore, ¡ocean ¡ car, ¡ automobile ¡

slide-29
SLIDE 29

Shared ¡Concept ¡

“Modality-­‑free” ¡representa:on ¡ ¡ “Modality-­‑full” ¡representa:on ¡ ¡ “Concept” ¡

sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡

  • cean ¡
slide-30
SLIDE 30

Tagging ¡and ¡Retrieval ¡

mosque, ¡tower, ¡ building, ¡cathedral, ¡ dome, ¡castle ¡ kitchen, ¡stove, ¡oven, ¡ refrigerator, ¡ microwave ¡ ski, ¡skiing, ¡ skiers, ¡skiiers, ¡ snowmobile ¡ bowl, ¡cup, ¡ soup, ¡cups, ¡ coffee ¡

beach ¡ snow ¡

slide-31
SLIDE 31

Mul:modal ¡Linguis:c ¡Regulari:es ¡

Nearest Images

(Kiros, Salakhutdinov, Zemel, TACL 2015) ¡

slide-32
SLIDE 32

Cap:on ¡Genera:on ¡

slide-33
SLIDE 33

Cap:on ¡Genera:on ¡

slide-34
SLIDE 34

Neural ¡Story ¡Telling ¡

¡

Sample ¡from ¡the ¡Genera=ve ¡Model ¡ (recurrent ¡neural ¡network): ¡

¡ She ¡was ¡in ¡love ¡with ¡him ¡for ¡the ¡first ¡:me ¡in ¡months, ¡so ¡she ¡had ¡no ¡ inten:on ¡of ¡escaping. ¡The ¡sun ¡had ¡risen ¡from ¡the ¡ocean, ¡making ¡her ¡ feel ¡more ¡alive ¡than ¡normal ¡. ¡She ¡is ¡beau:ful, ¡but ¡the ¡truth ¡is ¡that ¡I ¡ do ¡not ¡know ¡what ¡to ¡do. ¡The ¡sun ¡was ¡just ¡star:ng ¡to ¡fade ¡away, ¡ leaving ¡people ¡scaSered ¡around ¡the ¡Atlan:c ¡Ocean. ¡ ¡ ¡ ¡ We ¡were ¡barely ¡able ¡to ¡catch ¡the ¡ breeze ¡at ¡the ¡beach, ¡and ¡it ¡felt ¡as ¡if ¡ someone ¡stepped ¡out ¡of ¡my ¡mind. ¡ ¡

Kiros ¡et.al., ¡NIPS ¡2015 ¡

slide-35
SLIDE 35

Cap:on ¡Genera:on ¡with ¡ ¡ Visual ¡ASen:on ¡ ¡

A ¡man ¡riding ¡ ¡a ¡horse ¡ in ¡a ¡field. ¡ ¡

¡

(Xu ¡et.al., ¡ICML ¡2015) ¡

slide-36
SLIDE 36

Ar:ficial ¡Painter ¡

  • ¡Can ¡we ¡generate ¡images ¡from ¡natural ¡language ¡descrip:ons? ¡

¡ ¡ A ¡stop ¡sign ¡is ¡flying ¡in ¡

blue ¡skies ¡ ¡

¡ ¡

A ¡pale ¡yellow ¡school ¡bus ¡ is ¡flying ¡in ¡blue ¡skies ¡ ¡

¡ ¡

A ¡herd ¡of ¡elephants ¡is ¡ flying ¡in ¡blue ¡skies ¡ ¡

¡ ¡

A ¡large ¡commercial ¡airplane ¡ is ¡flying ¡in ¡blue ¡skies ¡ ¡

¡ ¡

(Mansimov, ¡ParisoSo, ¡Ba, ¡Salakhutdinov, ¡ICLR ¡2016) ¡ ¡

slide-37
SLIDE 37

Helmholtz ¡Machines ¡/ ¡ ¡ Varia:onal ¡Autoencoders ¡

Input ¡

h3 h2 h1 v W3 W2 W1

Approximate ¡ Inference ¡ Genera:ve ¡ Process ¡

(Hinton ¡et.al., ¡Science ¡1995, ¡ ¡Kingma ¡et.al., ¡NIPS ¡2014) ¡ ¡

slide-38
SLIDE 38

A ¡very ¡large ¡commercial ¡ plane ¡flying ¡in ¡clear ¡skies. ¡ ¡ ¡ A ¡very ¡large ¡commercial ¡ plane ¡flying ¡in ¡rainy ¡skies. ¡ ¡ ¡ A ¡herd ¡of ¡elephants ¡walking ¡ across ¡a ¡dry ¡grass ¡field. ¡ A ¡herd ¡of ¡elephants ¡walking ¡ across ¡a ¡green ¡grass ¡field. ¡

Genera:ng ¡Images ¡from ¡Cap:ons ¡

(Mansimov, ¡ParisoSo, ¡Ba, ¡Salakhutdinov, ¡ICLR ¡2016) ¡ ¡

slide-39
SLIDE 39

Novel ¡Scene ¡Composi:ons ¡

A ¡toilet ¡seat ¡sits ¡open ¡in ¡the ¡ bathroom ¡ ¡ ¡ Ask ¡Google? ¡ A ¡toilet ¡seat ¡sits ¡open ¡in ¡the ¡ grass ¡field ¡ ¡ ¡ Bloomberg ¡News ¡ ¡ ¡

slide-40
SLIDE 40

(Some) ¡Open ¡Problems ¡

  • Unsupervised ¡Learning ¡/ ¡Transfer ¡Learning ¡/ ¡

One-­‑Shot ¡Learning ¡ ¡

  • Reasoning, ¡ASen:on, ¡and ¡Memory ¡

¡

  • Natural ¡Language ¡Understanding ¡

¡

  • Deep ¡Reinforcement ¡Learning ¡ ¡
slide-41
SLIDE 41

Seman:c ¡Relatedness ¡ ¡ Recurrent ¡Neural ¡Networks ¡

  • ¡How ¡similar ¡the ¡two ¡sentences ¡are ¡on ¡the ¡scale ¡1 ¡to ¡5? ¡

A ¡man ¡is ¡driving ¡a ¡car. ¡ A ¡car ¡is ¡being ¡driven ¡by ¡a ¡man. ¡

Same: ¡Score ¡ ¡4.9 ¡

A ¡liSle ¡girl ¡is ¡looking ¡at ¡a ¡ woman ¡in ¡costume. ¡ A ¡liSle ¡girl ¡in ¡costume ¡looks ¡ like ¡a ¡woman. ¡

Different: ¡Score ¡2.9 ¡

A ¡person ¡is ¡performing ¡ tricks ¡on ¡a ¡motorcycle ¡ The ¡performer ¡is ¡tricking ¡a ¡ person ¡on ¡a ¡motorcycle ¡ ¡

Same: ¡Score ¡ ¡4.4 ¡

slide-42
SLIDE 42

One-­‑Shot ¡Learning ¡

“zarc”

(Lake, Salakhutdinov, Tenenbaum, Science, 2015)

slide-43
SLIDE 43

One-­‑Shot ¡Learning ¡

“zarc” “segway” How ¡can ¡we ¡learn ¡a ¡novel ¡concept ¡– ¡a ¡high ¡dimensional ¡ sta:s:cal ¡object ¡– ¡from ¡few ¡examples. ¡ ¡ ¡

(Lake, Salakhutdinov, Tenenbaum, Science, 2015)

slide-44
SLIDE 44

One-­‑Shot ¡Learning: ¡ ¡ Humans ¡vs. ¡Machines ¡

(Lake, Salakhutdinov, Tenenbaum, Science, 2015)

slide-45
SLIDE 45
  • ¡Agent ¡observes ¡raw ¡pixel ¡
  • input. ¡

Atari ¡Games ¡

  • ¡Goal: ¡maximize ¡the ¡
  • score. ¡

Figure ¡credit: ¡Nando ¡de ¡Freitas ¡

Mnih ¡et.al., ¡2014, ¡Rusu ¡et. ¡al., ¡2015, ¡Wang ¡et.al., ¡2015 ¡

  • ¡Can ¡a ¡single ¡network ¡play ¡

many ¡games ¡at ¡once? ¡

  • ¡Can ¡the ¡network ¡learn ¡new ¡games ¡faster ¡by ¡leveraging ¡

knowledge ¡about ¡the ¡previous ¡games ¡it ¡learnt. ¡ ¡

slide-46
SLIDE 46

Learning ¡to ¡Play ¡Mul:ple ¡Games ¡

  • ¡The ¡mul:task ¡network ¡can ¡match ¡expert ¡performance ¡on ¡8 ¡

games ¡(we ¡are ¡extending ¡this ¡to ¡more ¡games). ¡

(Parisotto, Ba, Salakhutdinov, ICLR 2016)

slide-47
SLIDE 47

Transfer ¡Learning ¡

500K ¡frames ¡ Star ¡Gunner: ¡Performance ¡ager ¡learning ¡ ¡on ¡13 ¡other ¡games: ¡ 1M ¡frames ¡

(Parisotto, Ba, Salakhutdinov, ICLR 2016)

slide-48
SLIDE 48

Summary ¡

  • Efficient ¡learning ¡algorithms ¡for ¡Deep ¡Learning ¡Models ¡

¡

  • Deep ¡models ¡improve ¡the ¡current ¡state-­‑of-­‑the ¡art ¡in ¡many ¡

applica:on ¡domains: ¡

Ø

Object ¡recogni:on ¡and ¡detec:on, ¡text ¡and ¡image ¡retrieval, ¡handwriSen ¡ character ¡and ¡speech ¡recogni:on, ¡and ¡others. ¡

HMM ¡decoder ¡

Speech ¡Recogni=on ¡

sunset, ¡pacific ¡ocean, ¡ beach, ¡seashore ¡

¡ ¡ ¡ ¡ ¡

Mul=modal ¡Data ¡

¡ ¡ ¡ ¡ ¡

Object ¡Detec=on ¡ Text ¡& ¡image ¡retrieval ¡/ ¡ ¡ Object ¡recogni=on ¡ Learning ¡a ¡Category ¡ Hierarchy ¡

mosque, ¡tower, ¡ building, ¡cathedral, ¡

dome, ¡castle ¡

Image ¡Tagging ¡

slide-49
SLIDE 49

Thank ¡you ¡