Object ct Recognition Fereshteh Sadeghi - - PowerPoint PPT Presentation

object ct recognition
SMART_READER_LITE
LIVE PREVIEW

Object ct Recognition Fereshteh Sadeghi - - PowerPoint PPT Presentation

Introduction to Computer Vision: Object ct Recognition Fereshteh Sadeghi fsadeghi@cs.washington.edu Many slides from Larry Zitnick and AlyoshaEfros 1966 Connect a television camera to a


slide-1
SLIDE 1

Object ct ¡ ¡Recognition

Fereshteh Sadeghi

fsadeghi@cs.washington.edu

Many ¡slides ¡from ¡Larry ¡Zitnick and ¡AlyoshaEfros

Introduction ¡to ¡Computer ¡Vision:

slide-2
SLIDE 2

“Connect ¡a ¡television ¡camera ¡to ¡a ¡ computer ¡and ¡get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

Marvin ¡Minsky Turing ¡award, ¡1969

1966

slide-3
SLIDE 3

Marvin ¡Minsky Turing ¡award, ¡1969

Gerald ¡Sussman "You'll ¡notice ¡that ¡Sussman never ¡worked ¡in ¡vision ¡again”

  • ­‑Berthold ¡Horn

How ¡hard ¡is ¡computer ¡vision?

slide-4
SLIDE 4
slide-5
SLIDE 5

Stages ¡of ¡Visual ¡Representation, ¡David ¡Marr, ¡1970

slide-6
SLIDE 6
slide-7
SLIDE 7

1973

The ¡representation ¡and ¡matching ¡of ¡pictorial ¡structures, ¡ Fischler and ¡Elschlager, ¡1973 ¡ a.k.a. ¡constellation ¡model

slide-8
SLIDE 8

1973

slide-9
SLIDE 9

1980’s

AI ¡winter…

A ¡Computational ¡Approach ¡to ¡Edge ¡Detection, ¡Canny ¡1986

…back ¡to ¡basics

slide-10
SLIDE 10

Perceptual ¡organization ¡and ¡the ¡representation ¡of ¡natural ¡form, ¡ Alex ¡Pentland, ¡1986

1986

slide-11
SLIDE 11

1989

Zip ¡codes

MNIST

Backpropagation applied ¡to ¡handwritten ¡zip ¡code ¡recognition, ¡

Lecun et ¡al., ¡1989

slide-12
SLIDE 12

Filters

Input

slide-13
SLIDE 13

1989

Backpropagation applied ¡to ¡handwritten ¡zip ¡code ¡recognition, ¡

Lecun et ¡al., ¡1989

slide-14
SLIDE 14

1998

Neural ¡Network-­‑Based ¡Face ¡Detection, ¡Rowley ¡at ¡al., ¡PAMI ¡1998

Faces

slide-15
SLIDE 15

2001

Rapid ¡Object ¡Detection ¡using ¡a ¡Boosted ¡Cascade ¡of ¡Simple ¡Features, ¡ Viola ¡and ¡Jones, ¡CVPR ¡2001

Boosting ¡+ ¡Cascade ¡= ¡Speed

Sliding ¡window ¡in ¡real ¡time!

slide-16
SLIDE 16
slide-17
SLIDE 17

Why ¡did ¡it ¡work?

  • Simple ¡features ¡(Haar wavelets)

Integral ¡images ¡+ ¡Haar wavelets ¡= ¡fast

  • ­‑

= ¡h

slide-18
SLIDE 18

Face ¡Detection, ¡Viola ¡& ¡Jones, ¡2001

slide-19
SLIDE 19

Why ¡did ¡it ¡work?

slide-20
SLIDE 20

Why ¡did ¡it ¡fail?

slide-21
SLIDE 21

1999*

SIFT (Scale Invariant Feature Transform)

Object ¡Recognition ¡from ¡Local ¡Scale-­‑Invariant ¡Features, ¡Lowe, ¡ICCV ¡1999.

No ¡more ¡sliding ¡windows ¡(interest ¡points) Better ¡features ¡(use ¡more ¡computation)

slide-22
SLIDE 22

[SIFT: Lowe, 2004]

SIFT ¡Matching

slide-23
SLIDE 23

What ¡worked

Panorama ¡stitching

Recognizing ¡panoramas, ¡Brown ¡and ¡Lowe, ¡ICCV 2003

slide-24
SLIDE 24

[SIFT: Lowe, 2004]

SIFT ¡Matching

slide-25
SLIDE 25

2003

Constellation model (redux)

Object ¡Class ¡Recognition ¡by ¡Unsupervised ¡Scale-­‑Invariant ¡Learning, ¡ Fergus ¡et ¡al., ¡CVPR 2003.

slide-26
SLIDE 26

2003

Constellation model (redux)

Joint ¡Gaussian ¡density

The ¡representation ¡and ¡matching ¡of ¡pictorial ¡ structures, ¡Fischler ¡and ¡Elschlager, ¡1973 ¡

slide-27
SLIDE 27

Interest ¡points ¡used ¡to ¡find ¡parts:

Smaller ¡number ¡of ¡candidate ¡parts ¡allows ¡for ¡more ¡ complex ¡spatial ¡models.

slide-28
SLIDE 28

Why ¡it ¡fails

Interest ¡points ¡don’t ¡work ¡for ¡category ¡recognition

slide-29
SLIDE 29

Too ¡many ¡springs…

slide-30
SLIDE 30

Cat?

slide-31
SLIDE 31

Classification Detection Vs. ü Cat Cat Cat

slide-32
SLIDE 32

2005 ¡HOG ¡(histograms ¡of ¡oriented ¡gradients)

Histograms ¡of ¡oriented ¡gradients ¡for ¡human ¡detection, ¡ Dalal and ¡Triggs, ¡CVPR ¡2005.

slide-33
SLIDE 33

Pedestrians

  • Defined ¡by ¡their ¡contours
  • Cluttered ¡backgrounds
  • Significant ¡variance ¡in ¡texture

Interest ¡points ¡won’t ¡work… …back ¡to ¡sliding ¡window.

slide-34
SLIDE 34

2005 ¡HOG ¡(histograms ¡of ¡oriented ¡gradients)

slide-35
SLIDE 35

2005 ¡HOG ¡(histograms ¡of ¡oriented ¡gradients)

SIFT

slide-36
SLIDE 36

2005 ¡HOG ¡(histograms ¡of ¡oriented ¡gradients)

Histograms ¡of ¡oriented ¡gradients ¡for ¡human ¡detection, ¡ Dalal and ¡Triggs, ¡CVPR 2005.

slide-37
SLIDE 37

2005 ¡HOG ¡(histograms ¡of ¡oriented ¡gradients)

Presence ¡ ¡> ¡ ¡Magnitude

ü Normalization ¡by ¡a ¡local ¡window

slide-38
SLIDE 38

Why ¡it ¡worked

We ¡can ¡finally ¡detect ¡object ¡ boundaries ¡in ¡a ¡reliable ¡manner! Computers ¡are ¡fast ¡enough. Hard ¡negative ¡mining

slide-39
SLIDE 39

2007 ¡PASCAL ¡VOC

The ¡PASCAL ¡Visual ¡Object ¡Classes ¡(VOC) ¡Challenge, ¡Everingham, ¡ Van ¡Gool, ¡Williams, ¡Winn ¡and ¡Zisserman, ¡IJCV, ¡2010

20 ¡classes

slide-40
SLIDE 40

2009 ¡ImageNet

ImageNet: ¡A ¡Large-­‑Scale ¡Hierarchical ¡Image ¡Database, ¡ Deng, ¡Dong, ¡Socher, ¡ Li, ¡Li ¡and ¡Fei-­‑Fei, ¡CVPR, ¡2009 Corgi Orb ¡weaving ¡spider 22K ¡categories, ¡14M ¡images

slide-41
SLIDE 41

Why ¡it ¡failed

slide-42
SLIDE 42

2008 ¡DPM ¡(Deformable ¡parts ¡model)

Object ¡Detection ¡with ¡Discriminatively ¡Trained ¡Part ¡Based ¡Model, ¡ Felzenszwalb, ¡Girshick, ¡McAllester and ¡Ramanan, ¡PAMI, ¡2010

slide-43
SLIDE 43

2008 ¡DPM ¡(Deformable ¡parts ¡model)

Object ¡Detection ¡with ¡Discriminatively ¡Trained ¡Part ¡Based ¡Model, ¡ Felzenszwalb, ¡Girshick, ¡McAllester and ¡Ramanan, ¡PAMI, ¡2010

slide-44
SLIDE 44

Star-­‑structure

  • Computationally ¡efficient ¡(distance ¡transform)

Distance transforms of sampled functions, Felzenszwalb and Huttenlocher, Cornell University CIS, Tech. Rep. 2004.

slide-45
SLIDE 45

Multiple ¡components

slide-46
SLIDE 46

Why ¡it ¡worked

  • Multiple ¡components
  • Deformable ¡parts?
  • Hard ¡negative ¡mining
  • Good ¡balance

"How ¡important ¡are ¡'Deformable ¡Parts' ¡in ¡the ¡Deformable ¡Parts ¡Model?“, ¡ Divvala, ¡Efros, ¡and ¡Hebert, ¡Parts ¡and ¡Attributes ¡Workshop, ¡ECCV, 2012

slide-47
SLIDE 47

Do ¡We ¡Need ¡More ¡Training ¡Data ¡or ¡Better ¡Models ¡for ¡Object ¡Detection? ¡ Zhu, ¡Vondrick, ¡ Ramanan, ¡Fowlkes, ¡BMVC 2012.

slide-48
SLIDE 48

HOG SVM Pooling Image

DPM

Limited ¡capacity ¡ classifier Low-­‑level ¡features

Something ¡new?

slide-49
SLIDE 49

49

Problems ¡with ¡Visual Categories

  • A ¡lot ¡of ¡categories ¡are ¡

functional

  • World ¡is ¡too ¡varied
  • Categories ¡are ¡3D, ¡but ¡

images ¡are ¡2D

Char car

slide-50
SLIDE 50
slide-51
SLIDE 51

2009 2012

Images

30K 14M ImageNet

slide-52
SLIDE 52

2009 2012

Categories

22K 256 ImageNet

slide-53
SLIDE 53

2009

Algorithms

HOG SVM Pooling Image

2012

Convolution Convolution Convolution Image Convolution Convolution Dense Dense Dense

slide-54
SLIDE 54

2012 ImageNet 1K

(Fall 2012)

5 10 15 20 25 30 35 40

Error

slide-55
SLIDE 55

5 10 15 20 25 30 35 40

Error

2012 ImageNet 1K

(Fall 2012)

slide-56
SLIDE 56
slide-57
SLIDE 57
slide-58
SLIDE 58

Classification Detection Vs. ü Cat Cat Cat

slide-59
SLIDE 59
  • 1. ¡Input ¡image
  • 2. ¡Extract ¡region ¡

proposals ¡(~2k)

  • 3. ¡Compute ¡CNN ¡

features

  • 4. ¡Classify ¡regions

Online ¡classification ¡demo: http://decaf.berkeleyvision.org/

Object detection

Rich ¡Feature ¡Hierarchies ¡for ¡Accurate ¡Object ¡Detection ¡and ¡Semantic ¡Segmentation, ¡ Girshick, ¡Donahue, ¡ Darrell, ¡Malik, ¡CVPR 2014.

slide-60
SLIDE 60
slide-61
SLIDE 61
slide-62
SLIDE 62
slide-63
SLIDE 63
slide-64
SLIDE 64
slide-65
SLIDE 65
slide-66
SLIDE 66
slide-67
SLIDE 67
slide-68
SLIDE 68

Going ¡beyond ¡categorization…

“Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

slide-69
SLIDE 69

Going ¡beyond ¡categorization…

“Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

slide-70
SLIDE 70

Going ¡beyond ¡categorization…

“Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

MS ¡COCO

slide-71
SLIDE 71

Going ¡beyond ¡categorization…

Show ¡and ¡Tell: ¡A ¡Neural ¡Image ¡Caption ¡Generator Oriol Vinyals, ¡Alexander ¡Toshev, ¡Samy Bengio, ¡Dumitru Erhan, ¡CVPR ¡2015

slide-72
SLIDE 72

…the ¡“giraffe-­‑tree” ¡problem ¡L

a giraffe next to a tree

slide-73
SLIDE 73

3.5 ¡trillion ¡ photographs

6 ¡billion ¡images 70 ¡billion ¡images 1 ¡billion ¡images ¡ served ¡daily 100 ¡hours ¡uploaded ¡ per ¡minute

Big ¡Visual ¡Data

slide-74
SLIDE 74

Too ¡Big ¡for ¡Humans

Digital Dark Matter

[Perona 2010]

slide-75
SLIDE 75

Books