Analysis of Large Scale Visual Recogni4on Fei-Fei Li and - - PowerPoint PPT Presentation

analysis of large scale visual recogni4on
SMART_READER_LITE
LIVE PREVIEW

Analysis of Large Scale Visual Recogni4on Fei-Fei Li and - - PowerPoint PPT Presentation

Analysis of Large Scale Visual Recogni4on Fei-Fei Li and Olga Russakovsky Olga Russakovsky, Jia Deng, Zhiheng Huang, Alex Berg, Li Fei-Fei Detec4ng


slide-1
SLIDE 1

Analysis ¡of ¡Large ¡Scale ¡Visual ¡ Recogni4on ¡

Fei-­‑Fei ¡Li ¡and ¡Olga ¡Russakovsky ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡h"p://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-2
SLIDE 2

Backpack ¡

slide-3
SLIDE 3

Backpack ¡ Flute ¡ Strawberry ¡ Traffic ¡light ¡ Bathing ¡cap ¡ Matchs4ck ¡ Racket ¡ Sea ¡lion ¡

slide-4
SLIDE 4

Large-­‑scale ¡recogni>on ¡

slide-5
SLIDE 5

Large-­‑scale ¡recogni>on ¡

Need ¡benchmark ¡datasets ¡

slide-6
SLIDE 6

PASCAL ¡VOC ¡2005-­‑2012 ¡

Classifica>on: ¡person, ¡motorcycle ¡ Detec4on ¡ Segmenta4on ¡

Person ¡ Motorcycle ¡

Ac>on: ¡riding ¡bicycle ¡

Everingham, ¡Van ¡Gool, ¡Williams, ¡Winn ¡and ¡Zisserman. ¡ The ¡PASCAL ¡Visual ¡Object ¡Classes ¡(VOC) ¡Challenge. ¡IJCV ¡2010. ¡

20 ¡object ¡classes ¡ ¡22,591 ¡images ¡

slide-7
SLIDE 7

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Large ¡Scale ¡Visual ¡

Recogni4on ¡Challenge ¡(ILSVRC) ¡2010-­‑2012 ¡

20 ¡object ¡classes ¡ ¡22,591 ¡images ¡ 1000 ¡object ¡classes ¡ ¡1,431,167 ¡images ¡

Dalma4an ¡

h"p://image-­‑net.org/challenges/LSVRC/{2010,2011,2012} ¡

slide-8
SLIDE 8

Variety ¡of ¡object ¡classes ¡in ¡ILSVRC ¡

slide-9
SLIDE 9

Variety ¡of ¡object ¡classes ¡in ¡ILSVRC ¡

slide-10
SLIDE 10

ILSVRC ¡Task ¡1: ¡Classifica4on ¡

Steel ¡drum ¡

slide-11
SLIDE 11

ILSVRC ¡Task ¡1: ¡Classifica4on ¡

Output: ¡ Scale ¡ T-­‑shirt ¡ Steel ¡drum ¡ Drums4ck ¡ Mud ¡turtle ¡

Steel ¡drum ¡

✔ ¡ ✗ ¡

Output: ¡ Scale ¡ T-­‑shirt ¡ Giant ¡panda ¡ Drums4ck ¡ Mud ¡turtle ¡

slide-12
SLIDE 12

ILSVRC ¡Task ¡1: ¡Classifica4on ¡

Output: ¡ Scale ¡ T-­‑shirt ¡ Steel ¡drum ¡ Drums4ck ¡ Mud ¡turtle ¡

Steel ¡drum ¡

✔ ¡ ✗ ¡

Accuracy ¡= ¡ ¡ ¡

Output: ¡ Scale ¡ T-­‑shirt ¡ Giant ¡panda ¡ Drums4ck ¡ Mud ¡turtle ¡

Σ ¡

100,000 ¡ images ¡

1[correct ¡on ¡image ¡i] ¡

1 ¡ 100,000 ¡

slide-13
SLIDE 13

ILSVRC ¡Task ¡1: ¡Classifica4on ¡

Accuracy ¡(5 ¡predic4ons/image) ¡ # ¡Submissions ¡ 0.72 ¡ 0.74 ¡ 0.85 ¡

2010 ¡ 2011 ¡ 2012 ¡

slide-14
SLIDE 14

ILSVRC ¡Task ¡2: ¡Classifica4on ¡+ ¡Localiza4on ¡

Steel ¡drum ¡

slide-15
SLIDE 15

✔ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡

Steel ¡ drum ¡

Picket ¡ fence ¡

Output ¡

Steel ¡drum ¡

ILSVRC ¡Task ¡2: ¡Classifica4on ¡+ ¡Localiza4on ¡

slide-16
SLIDE 16

✔ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡

Steel ¡ drum ¡

Picket ¡ fence ¡

Output ¡

✗ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡

Steel ¡ drum ¡

Picket ¡ fence ¡

Output ¡(bad ¡localiza4on) ¡

✗ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡ Picket ¡ fence ¡

King ¡ penguin ¡ Output ¡(bad ¡classifica4on) ¡

Steel ¡drum ¡

ILSVRC ¡Task ¡2: ¡Classifica4on ¡+ ¡Localiza4on ¡

slide-17
SLIDE 17

✔ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡

Steel ¡ drum ¡

Picket ¡ fence ¡

Output ¡

Steel ¡drum ¡

ILSVRC ¡Task ¡2: ¡Classifica4on ¡+ ¡Localiza4on ¡

Accuracy ¡= ¡ ¡ ¡ Σ ¡

100,000 ¡ images ¡

1[correct ¡on ¡image ¡i] ¡

1 ¡ 100,000 ¡

slide-18
SLIDE 18

ILSVRC ¡Task ¡2: ¡Classifica4on ¡+ ¡Localiza4on ¡

Accuracy ¡ ¡ ¡ (5 ¡predic4ons) ¡

slide-19
SLIDE 19

What ¡happens ¡under ¡the ¡hood? ¡

slide-20
SLIDE 20

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡
slide-21
SLIDE 21

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-22
SLIDE 22

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡
  • Leading ¡algorithms ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-23
SLIDE 23

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡
  • Leading ¡algorithms ¡
  • A ¡closer ¡look ¡at ¡small ¡objects ¡
  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-24
SLIDE 24

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡
  • Leading ¡algorithms ¡
  • A ¡closer ¡look ¡at ¡small ¡objects ¡
  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-25
SLIDE 25

Easy ¡to ¡localize ¡ Hard ¡to ¡localize ¡

1000 ¡object ¡classes ¡

ILSVRC ¡(2012) ¡

slide-26
SLIDE 26

Easy ¡to ¡localize ¡ Hard ¡to ¡localize ¡

500 ¡classes ¡with ¡smallest ¡objects ¡

ILSVRC-­‑500 ¡(2012) ¡

slide-27
SLIDE 27

Easy ¡to ¡localize ¡ Hard ¡to ¡localize ¡

ILSVRC-­‑500 ¡(2012) ¡ 500 ¡object ¡categories ¡ 25.3% ¡ ¡

PASCAL ¡VOC ¡(2012) ¡ 20 ¡object ¡categories ¡ 25.2% ¡

Object ¡scale ¡(frac4on ¡of ¡image ¡area ¡occupied ¡by ¡target ¡object) ¡

ILSVRC-­‑500 ¡(2012) ¡

500 ¡classes ¡with ¡smallest ¡objects ¡

slide-28
SLIDE 28

Chance ¡Performance ¡of ¡Localiza4on ¡

Steel ¡drum ¡

B1 ¡ B2 ¡ B3 ¡ B4 ¡ B5 ¡ B6 ¡ B7 ¡ B8 ¡ B9 ¡

N ¡= ¡9 ¡here ¡

slide-29
SLIDE 29

Chance ¡Performance ¡of ¡Localiza4on ¡

Steel ¡drum ¡

B1 ¡ B2 ¡ B3 ¡ B4 ¡ B5 ¡ B6 ¡ B7 ¡ B8 ¡ B9 ¡

N ¡= ¡9 ¡here ¡

slide-30
SLIDE 30

Chance ¡Performance ¡of ¡Localiza4on ¡

Steel ¡drum ¡

ILSVRC-­‑500 ¡(2012) ¡ 500 ¡object ¡categories ¡ 8.4% ¡

PASCAL ¡VOC ¡(2012) ¡ 20 ¡object ¡categories ¡ 8.8% ¡

B1 ¡ B2 ¡ B3 ¡ B4 ¡ B5 ¡ B6 ¡ B7 ¡ B8 ¡ B9 ¡

N ¡= ¡9 ¡here ¡

slide-31
SLIDE 31

Level ¡of ¡clufer ¡

Steel ¡drum ¡

  • Generate candidate object

regions using method of Selective Search for Object Detection

vanDeSande et al. ICCV 2011

  • Filter out regions inside object
  • Count regions
slide-32
SLIDE 32

Level ¡of ¡clufer ¡

Steel ¡drum ¡

  • Generate candidate object

regions using method of Selective Search for Object Detection

vanDeSande et al. ICCV 2011

  • Filter out regions inside object
  • Count regions

ILSVRC-­‑500 ¡(2012) ¡ 500 ¡object ¡categories ¡ 128 ¡± ¡35 ¡

PASCAL ¡VOC ¡(2012) ¡ 20 ¡object ¡categories ¡ 130 ¡± ¡29 ¡

slide-33
SLIDE 33

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms ¡
  • A ¡closer ¡look ¡at ¡small ¡objects ¡
  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-34
SLIDE 34

SuperVision ¡(SV) ¡

Alex ¡Krizhevsky, ¡Ilya ¡Sutskever, ¡Geoffrey ¡Hinton ¡ ¡ ¡ ¡(Krizhevsky ¡NIPS12) ¡

Image ¡classifica>on: ¡Deep ¡convolu4onal ¡neural ¡networks ¡

  • 7 ¡hidden ¡“weight” ¡layers, ¡650K ¡neurons, ¡60M ¡parameters, ¡

630M ¡connec4ons ¡ ¡

  • Rec4fied ¡Linear ¡Units, ¡max ¡pooling, ¡dropout ¡trick ¡
  • Randomly ¡extracted ¡224x224 ¡patches ¡for ¡more ¡data ¡
  • Trained ¡with ¡SGD ¡on ¡two ¡GPUs ¡for ¡a ¡week, ¡fully ¡

supervised ¡ Localiza>on: ¡Regression ¡on ¡(x,y,w,h) ¡

hfp://image-­‑net.org/challenges/LSVRC/2012/supervision.pdf ¡

slide-35
SLIDE 35

SuperVision ¡(SV) ¡

Alex ¡Krizhevsky, ¡Ilya ¡Sutskever, ¡Geoffrey ¡Hinton ¡ ¡ ¡ ¡(Krizhevsky ¡NIPS12) ¡

Image ¡classifica>on: ¡Deep ¡convolu4onal ¡neural ¡networks ¡

  • 7 ¡hidden ¡“weight” ¡layers, ¡650K ¡neurons, ¡60M ¡parameters, ¡

630M ¡connec4ons ¡ ¡

  • Rec4fied ¡Linear ¡Units, ¡max ¡pooling, ¡dropout ¡trick ¡
  • Randomly ¡extracted ¡224x224 ¡patches ¡for ¡more ¡data ¡
  • Trained ¡with ¡SGD ¡on ¡two ¡GPUs ¡for ¡a ¡week, ¡fully ¡

supervised ¡ Localiza>on: ¡Regression ¡on ¡(x,y,w,h) ¡

hfp://image-­‑net.org/challenges/LSVRC/2012/supervision.pdf ¡

slide-36
SLIDE 36

OXFORD_VGG ¡(VGG) ¡

Karen ¡Simonyan, ¡Yusuf ¡Aytar, ¡Andrea ¡Vedaldi, ¡Andrew ¡Zisserman ¡

Image ¡classifica>on: ¡Fisher ¡vector ¡+ ¡linear ¡SVM ¡(Sanchez ¡CVPR11) ¡

  • Root-­‑SIFT ¡(Arandjelovic ¡CVPR12), ¡color ¡sta4s4cs, ¡augmenta4on ¡

with ¡patch ¡loca4on ¡(x,y) ¡(Sanchez ¡PRL12) ¡

  • Fisher ¡vectors: ¡1024 ¡Gaussians, ¡135K ¡dimensions ¡ ¡
  • No ¡SPM, ¡product ¡quan4za4on ¡to ¡compress ¡
  • Semi-­‑supervised ¡learning ¡to ¡find ¡addi4onal ¡bounding ¡boxes ¡
  • 1000 ¡one-­‑vs-­‑rest ¡SVM ¡trained ¡with ¡Pegasos ¡SGD ¡
  • 135M ¡parameters! ¡

Localiza>on: ¡Deformable ¡part-­‑based ¡models ¡(Felzenszwalb ¡ PAMI10), ¡ ¡without ¡parts ¡(root-­‑only) ¡

hfp://image-­‑net.org/challenges/LSVRC/2012/oxford_vgg.pdf ¡

slide-37
SLIDE 37

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms: ¡SV ¡and ¡VGG ¡
  • A ¡closer ¡look ¡at ¡small ¡objects ¡
  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-38
SLIDE 38

SV ¡ VGG ¡

Cls+loc ¡accuracy ¡

54.3% ¡ 45.8% ¡

Results ¡on ¡ILSVRC-­‑500 ¡

slide-39
SLIDE 39

Difference ¡in ¡accuracy: ¡SV ¡versus ¡VGG ¡

Classifica4on-­‑only ¡

✔ ¡

Folding ¡ chair ¡ Persian ¡ cat ¡ Loud ¡ speaker ¡

Steel ¡ drum ¡

Picket ¡ fence ¡

slide-40
SLIDE 40

Object ¡scale ¡

  • Cls. ¡Accuracy: ¡SV ¡-­‑ ¡VGG ¡

Difference ¡in ¡accuracy: ¡SV ¡versus ¡VGG ¡

Classifica4on-­‑only ¡

slide-41
SLIDE 41

SV ¡befer ¡

(452 ¡classes) ¡

VGG ¡befer ¡

(34 ¡classes) ¡

Object ¡scale ¡

  • Cls. ¡Accuracy: ¡SV ¡-­‑ ¡VGG ¡

Difference ¡in ¡accuracy: ¡SV ¡versus ¡VGG ¡

Classifica4on-­‑only ¡

slide-42
SLIDE 42

SV ¡befer ¡

(452 ¡classes) ¡

VGG ¡befer ¡

(34 ¡classes) ¡

Object ¡scale ¡

  • Cls. ¡Accuracy: ¡SV ¡-­‑ ¡VGG ¡

Difference ¡in ¡accuracy: ¡SV ¡versus ¡VGG ¡

Classifica4on-­‑only ¡

* ¡ *** ¡ *** ¡ *** ¡ *** ¡ *** ¡ *** ¡

SV ¡beats ¡VGG ¡ VGG ¡beats ¡SV ¡

slide-43
SLIDE 43

SV ¡befer ¡

(452 ¡classes) ¡

VGG ¡befer ¡

(34 ¡classes) ¡

Object ¡scale ¡

  • Cls. ¡Accuracy: ¡SV ¡-­‑ ¡VGG ¡

Difference ¡in ¡accuracy: ¡SV ¡versus ¡VGG ¡

Cls+Loc ¡Accuracy: ¡SV ¡-­‑ ¡VGG ¡ Object ¡scale ¡

Classifica4on-­‑only ¡

VGG ¡befer ¡ (150 ¡classes) ¡ SV ¡befer ¡ (338 ¡classes) ¡

Classifica4on+Localia4on ¡

slide-44
SLIDE 44

Cumula4ve ¡accuracy ¡across ¡scales ¡

SV ¡ VGG ¡ SV ¡ VGG ¡

Object ¡scale ¡ Cumula4ve ¡cls. ¡accuracy ¡

Classifica4on-­‑only ¡

Classifica4on+Localiza4on ¡

Cumula4ve ¡cls+loc ¡accuracy ¡ Object ¡scale ¡

slide-45
SLIDE 45

Cumula4ve ¡accuracy ¡across ¡scales ¡

SV ¡ VGG ¡ SV ¡

Object ¡scale ¡ Cumula4ve ¡cls. ¡accuracy ¡

Classifica4on-­‑only ¡

Classifica4on+Localiza4on ¡

Cumula4ve ¡cls+loc ¡accuracy ¡ Object ¡scale ¡

0.24 ¡

205 ¡smallest ¡

  • bject ¡classes ¡

VGG ¡

slide-46
SLIDE 46

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms: ¡SV ¡and ¡VGG ¡
  • SV ¡always ¡great ¡at ¡classifica4on, ¡but ¡VGG ¡does ¡

befer ¡than ¡SV ¡at ¡localizing ¡small ¡objects ¡

  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-47
SLIDE 47

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms: ¡SV ¡and ¡VGG ¡
  • SV ¡always ¡great ¡at ¡classifica4on, ¡but ¡VGG ¡does ¡

befer ¡than ¡SV ¡at ¡localizing ¡small ¡objects ¡

  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

WHY? Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-48
SLIDE 48

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms: ¡SV ¡and ¡VGG ¡
  • SV ¡always ¡great ¡at ¡classifica4on, ¡but ¡VGG ¡does ¡

befer ¡than ¡SV ¡at ¡localizing ¡small ¡objects ¡

  • A ¡closer ¡look ¡at ¡textured ¡objects ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-49
SLIDE 49

Textured ¡objects ¡(ILSVRC-­‑500) ¡

Amount ¡of ¡texture ¡

Low ¡ High ¡

slide-50
SLIDE 50

No ¡texture ¡ Low ¡texture ¡ Medium ¡texture ¡ High ¡texture ¡ # ¡classes ¡ 116 ¡ 189 ¡ 143 ¡ 52 ¡

Textured ¡objects ¡(ILSVRC-­‑500) ¡

Amount ¡of ¡texture ¡

Low ¡ High ¡

slide-51
SLIDE 51

No ¡texture ¡ Low ¡texture ¡ Medium ¡texture ¡ High ¡texture ¡ # ¡classes ¡ 116 ¡ 189 ¡ 143 ¡ 52 ¡ Object ¡scale ¡ 20.8% ¡ 23.7% ¡ 23.5% ¡ 25.0% ¡

Textured ¡objects ¡(ILSVRC-­‑500) ¡

Amount ¡of ¡texture ¡

Low ¡ High ¡

slide-52
SLIDE 52

No ¡texture ¡ Low ¡texture ¡ Medium ¡texture ¡ High ¡texture ¡ # ¡classes ¡ 116 ¡ 189 ¡149 ¡ 143 ¡115 ¡ 52 ¡35 ¡ Object ¡scale ¡ 20.8% ¡ 23.7% ¡20.8% ¡ 23.5% ¡20.8% ¡ 25.0% ¡20.8% ¡

Textured ¡objects ¡(416 ¡classes) ¡

Amount ¡of ¡texture ¡

Low ¡ High ¡

slide-53
SLIDE 53

Localizing ¡textured ¡objects ¡ ¡

(416 ¡classes, ¡same ¡average ¡object ¡scale ¡at ¡each ¡level ¡of ¡texture) ¡

Localiza4on ¡accuracy ¡ Level ¡of ¡texture ¡

SV ¡ VGG ¡

slide-54
SLIDE 54

Level ¡of ¡texture ¡ Localiza4on ¡accuracy ¡

On ¡correctly ¡classified ¡images ¡

SV ¡ VGG ¡

Localizing ¡textured ¡objects ¡ ¡

(416 ¡classes, ¡same ¡average ¡object ¡scale ¡at ¡each ¡level ¡of ¡texture) ¡

slide-55
SLIDE 55

Level ¡of ¡texture ¡ Localiza4on ¡accuracy ¡

On ¡correctly ¡classified ¡images ¡

SV ¡ VGG ¡

Localizing ¡textured ¡objects ¡ ¡

(416 ¡classes, ¡same ¡average ¡object ¡scale ¡at ¡each ¡level ¡of ¡texture) ¡

slide-56
SLIDE 56

What ¡happens ¡under ¡the ¡hood ¡

  • n ¡classifica4on+localiza4on? ¡

Preliminaries: ¡

  • ILSVRC-­‑500 ¡(2012) ¡dataset ¡– ¡similar ¡to ¡PASCAL ¡
  • Leading ¡algorithms: ¡SV ¡and ¡VGG ¡
  • SV ¡always ¡great ¡at ¡classifica4on, ¡but ¡VGG ¡does ¡

befer ¡than ¡SV ¡at ¡localizing ¡small ¡objects ¡

  • Textured ¡objects ¡easier ¡to ¡localize, ¡especially ¡for ¡SV ¡

Olga ¡Russakovsky, ¡Jia ¡Deng, ¡Zhiheng ¡Huang, ¡Alex ¡Berg, ¡Li ¡Fei-­‑Fei ¡ Detec4ng ¡avocados ¡to ¡zucchinis: ¡what ¡have ¡we ¡done, ¡and ¡where ¡are ¡we ¡going? ¡ ICCV ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡hfp://image-­‑net.org/challenges/LSVRC/2012/analysis ¡

slide-57
SLIDE 57

ILSVRC ¡2013 ¡ ¡with ¡large-­‑scale ¡object ¡detec4on ¡

hfp://image-­‑net.org/challenges/LSVRC/2013/ ¡

Fully ¡annotated ¡200 ¡object ¡classes ¡across ¡60,000 ¡images ¡ ¡ Allows ¡evalua4on ¡of ¡generic ¡object ¡detec4on ¡ in ¡clufered ¡scenes ¡at ¡scale ¡

Person ¡ Car ¡ Motorcycle ¡ Helmet ¡ NEW ¡

slide-58
SLIDE 58

ILSVRC ¡2013 ¡ ¡with ¡large-­‑scale ¡object ¡detec4on ¡

Sta>s>cs ¡ PASCAL ¡VOC ¡2012 ¡ ILSVRC ¡2013 ¡ Object ¡classes ¡ 20 ¡ 200 ¡ Training ¡ Images ¡ 5.7K ¡ 395K ¡ Objects ¡ 13.6K ¡ 345K ¡ Valida4on ¡ Images ¡ 5.8K ¡ 20.1K ¡ Objects ¡ 13.8K ¡ 55.5K ¡ Tes4ng ¡ Images ¡ 11.0K ¡ 40.1K ¡ Objects ¡

  • ­‑-­‑-­‑ ¡
  • ­‑-­‑-­‑ ¡

4x ¡ 10x ¡

hfp://image-­‑net.org/challenges/LSVRC/2013/ ¡

25x ¡ More ¡than ¡50,000 ¡person ¡instances ¡annotated ¡

NEW ¡

slide-59
SLIDE 59

¡

  • 159 ¡downloads ¡so ¡far: ¡

hfp://image-­‑net.org/challenges/LSVRC/2013/ ¡ ¡

  • Submission ¡deadline ¡Nov. ¡15th ¡
  • ICCV ¡workshop ¡on ¡December ¡7th, ¡2013 ¡
  • Fine-­‑Grained ¡Challenge ¡2013: ¡

hfps://sites.google.com/site/fgcomp2013/ ¡ ¡

ILSVRC ¡2013 ¡ ¡with ¡large-­‑scale ¡object ¡detec4on ¡

NEW ¡

slide-60
SLIDE 60

Thank ¡you! ¡

  • Prof. ¡Alex ¡Berg ¡

UNC ¡Chapel ¡Hill ¡ Jonathan ¡Krause ¡ Stanford ¡U. ¡ Sanjeev ¡Satheesh ¡ Stanford ¡U. ¡ Zhiheng ¡Huang ¡ Stanford ¡U. ¡

  • Dr. ¡Jia ¡Deng ¡

Stanford ¡U. ¡ Hao ¡Su ¡ Stanford ¡U. ¡