Descriptors II CSE 576 Ali Farhadi Many slides from - - PowerPoint PPT Presentation

descriptors ii
SMART_READER_LITE
LIVE PREVIEW

Descriptors II CSE 576 Ali Farhadi Many slides from - - PowerPoint PPT Presentation

Descriptors II CSE 576 Ali Farhadi Many slides from Larry Zitnick, Steve Seitz How can we find corresponding points? How can we find correspondences? SIFT descriptor Full version


slide-1
SLIDE 1

Descriptors II

CSE ¡576 ¡

Ali ¡Farhadi ¡ ¡ ¡ ¡ Many ¡slides ¡from ¡Larry ¡Zitnick, ¡Steve ¡Seitz ¡

slide-2
SLIDE 2

How can we find corresponding points?

slide-3
SLIDE 3

How can we find correspondences?

slide-4
SLIDE 4

SIFT descriptor

Full version

  • Divide the 16x16 window into a 4x4 grid of cells (2x2 case shown below)
  • Compute an orientation histogram for each cell
  • 16 cells * 8 orientations = 128 dimensional descriptor

Adapted from slide by David Lowe

slide-5
SLIDE 5

Local Descriptors: Shape Context

Count the number of points inside each bin, e.g.: Count = 4 Count = 10 ... Log-polar binning: more precision for nearby points, more flexibility for farther points.

Belongie & Malik, ICCV 2001

  • K. Grauman, B. Leibe
slide-6
SLIDE 6

Texture

  • Texture is characterized by the repetition of basic

elements or textons

  • For stochastic textures, it is the identity of the

textons, not their spatial arrangement, that matters

Julesz, 1981; Cula & Dana, 2001; Leung & Malik 2001; Mori, Belongie & Malik, 2001; Schmid 2001; Varma & Zisserman, 2002, 2003; Lazebnik, Schmid & Ponce, 2003

slide-7
SLIDE 7

Bag-of-words models

  • Orderless document representation: frequencies of words

from a dictionary Salton & McGill (1983)

slide-8
SLIDE 8

Bag-of-words models

US Presidential Speeches Tag Cloud http://chir.ag/phernalia/preztags/

  • Orderless document representation: frequencies of words

from a dictionary Salton & McGill (1983)

slide-9
SLIDE 9

Bag-of-words models

US Presidential Speeches Tag Cloud http://chir.ag/phernalia/preztags/

  • Orderless document representation: frequencies of words

from a dictionary Salton & McGill (1983)

slide-10
SLIDE 10

Bag-of-words models

US Presidential Speeches Tag Cloud http://chir.ag/phernalia/preztags/

  • Orderless document representation: frequencies of words

from a dictionary Salton & McGill (1983)

slide-11
SLIDE 11

Bags of features for image classification

1. Extract ¡features ¡

slide-12
SLIDE 12

1. Extract ¡features ¡ 2. Learn ¡“visual ¡vocabulary” ¡

Bags of features for image classification

slide-13
SLIDE 13

1. Extract ¡features ¡ 2. Learn ¡“visual ¡vocabulary” ¡ 3. QuanHze ¡features ¡using ¡visual ¡vocabulary ¡ ¡

Bags of features for image classification

slide-14
SLIDE 14

1. Extract ¡features ¡ 2. Learn ¡“visual ¡vocabulary” ¡ 3. QuanHze ¡features ¡using ¡visual ¡vocabulary ¡ ¡ 4. Represent ¡images ¡by ¡frequencies ¡of ¡ ¡ “visual ¡words” ¡ ¡

Bags of features for image classification

slide-15
SLIDE 15

Texture representation

Universal texton dictionary histogram Julesz, 1981; Cula & Dana, 2001; Leung & Malik 2001; Mori, Belongie & Malik, 2001; Schmid 2001; Varma & Zisserman, 2002, 2003; Lazebnik, Schmid & Ponce, 2003

slide-16
SLIDE 16
  • Regular ¡grid ¡
  • Vogel ¡& ¡Schiele, ¡2003 ¡
  • Fei-­‑Fei ¡& ¡Perona, ¡2005 ¡
  • Interest ¡point ¡detector ¡
  • Csurka ¡et ¡al. ¡2004 ¡
  • Fei-­‑Fei ¡& ¡Perona, ¡2005 ¡
  • Sivic ¡et ¡al. ¡2005 ¡
  • 1. ¡Feature ¡extracHon ¡
slide-17
SLIDE 17
  • Regular ¡grid ¡
  • Vogel ¡& ¡Schiele, ¡2003 ¡
  • Fei-­‑Fei ¡& ¡Perona, ¡2005 ¡
  • Interest ¡point ¡detector ¡
  • Csurka ¡et ¡al. ¡2004 ¡
  • Fei-­‑Fei ¡& ¡Perona, ¡2005 ¡
  • Sivic ¡et ¡al. ¡2005 ¡
  • Other ¡methods ¡
  • Random ¡sampling ¡(Vidal-­‑Naquet ¡& ¡Ullman, ¡2002) ¡
  • SegmentaHon-­‑based ¡patches ¡(Barnard ¡et ¡al. ¡2003) ¡
  • 1. ¡Feature ¡extracHon ¡
slide-18
SLIDE 18

Normalize ¡patch ¡

Detect ¡patches ¡

[Mikojaczyk ¡and ¡Schmid ¡’02] ¡ [Mata, ¡Chum, ¡Urban ¡& ¡Pajdla, ¡’02] ¡ ¡ [Sivic ¡& ¡Zisserman, ¡’03] ¡

Compute ¡SIFT ¡ descriptor ¡

¡ ¡ ¡ ¡ ¡ ¡[Lowe’99] ¡

Slide ¡credit: ¡Josef ¡Sivic ¡

  • 1. ¡Feature ¡extrac:on ¡
slide-19
SLIDE 19

… ¡

  • 1. ¡Feature ¡extrac:on ¡
slide-20
SLIDE 20
  • 2. ¡Discovering ¡the ¡visual ¡vocabulary ¡

… ¡

slide-21
SLIDE 21
  • 2. ¡Discovering ¡the ¡visual ¡vocabulary ¡

Clustering ¡

… ¡

Slide ¡credit: ¡Josef ¡Sivic ¡

slide-22
SLIDE 22
  • 2. ¡Discovering ¡the ¡visual ¡vocabulary ¡

Clustering ¡

… ¡

Slide ¡credit: ¡Josef ¡Sivic ¡

Visual ¡vocabulary ¡

slide-23
SLIDE 23

Clustering and vector quantization

  • Clustering is a common method for learning a visual

vocabulary or codebook

  • Unsupervised learning process
  • Each cluster center produced by k-means becomes a

codevector

  • Codebook can be learned on separate training set
  • Provided the training set is sufficiently representative, the

codebook will be “universal”

  • The codebook is used for quantizing features
  • A vector quantizer takes a feature vector and maps it to the

index of the nearest codevector in a codebook

  • Codebook = visual vocabulary
  • Codevector = visual word
slide-24
SLIDE 24

Example ¡visual ¡vocabulary ¡

Fei-­‑Fei ¡et ¡al. ¡2005 ¡

slide-25
SLIDE 25

Example codebook

Source: B. Leibe

Appearance codebook

slide-26
SLIDE 26

Another codebook

Appearance codebook

… … … … …

Source: B. Leibe

slide-27
SLIDE 27

Visual vocabularies: Issues

  • How to choose vocabulary size?
  • Too small: visual words not representative of all patches
  • Too large: quantization artifacts,
  • verfitting
  • Computational efficiency
  • Vocabulary trees

(Nister & Stewenius, 2006)

slide-28
SLIDE 28
  • 3. ¡Image ¡representa:on ¡

….. ¡

frequency ¡

codewords ¡

slide-29
SLIDE 29

Image ¡classificaHon ¡

  • Given ¡the ¡bag-­‑of-­‑features ¡representaHons ¡of ¡images ¡from ¡

different ¡classes, ¡learn ¡a ¡classifier ¡using ¡machine ¡learning ¡

slide-30
SLIDE 30

Another Representation: Filter bank

slide-31
SLIDE 31

Image from http://www.texasexplorer.com/austincap2.jpg

Kristen Grauman

slide-32
SLIDE 32

Showing magnitude of responses

Kristen Grauman

slide-33
SLIDE 33

Kristen Grauman

slide-34
SLIDE 34

Kristen Grauman

slide-35
SLIDE 35

Kristen Grauman

slide-36
SLIDE 36

Kristen Grauman

slide-37
SLIDE 37

Kristen Grauman

slide-38
SLIDE 38

Kristen Grauman

slide-39
SLIDE 39

Kristen Grauman

slide-40
SLIDE 40

Kristen Grauman

slide-41
SLIDE 41

Kristen Grauman

slide-42
SLIDE 42

How can we represent texture?

  • Measure responses of various filters at different
  • rientations and scales
  • Idea 1: Record simple statistics (e.g., mean, std.) of

absolute filter responses

slide-43
SLIDE 43

Can you match the texture to the response?

Mean abs responses Filters A B C 1 2 3

slide-44
SLIDE 44

Representing texture by mean abs response

Mean abs responses Filters

slide-45
SLIDE 45

Representing texture

  • Idea 2: take vectors of filter responses at each pixel and

cluster them, then take histograms

slide-46
SLIDE 46

Representing texture

clustering

slide-47
SLIDE 47

But ¡what ¡about ¡layout? ¡

All of these images have the same color histogram

slide-48
SLIDE 48

Spatial pyramid representation

  • Extension of a bag of features
  • Locally orderless representation at several levels of resolution

level 0 Lazebnik, Schmid & Ponce (CVPR 2006)

slide-49
SLIDE 49

level 0 level 1 Lazebnik, Schmid & Ponce (CVPR 2006)

Spatial pyramid representation

  • Extension of a bag of features
  • Locally orderless representation at several levels of resolution
slide-50
SLIDE 50

level 0 level 1 level 2 Lazebnik, Schmid & Ponce (CVPR 2006)

Spatial pyramid representation

  • Extension of a bag of features
  • Locally orderless representation at several levels of resolution
slide-51
SLIDE 51

What about Scenes?