Part-based R-CNNs for Fine-grained Category Detec7on - - PowerPoint PPT Presentation

part based r cnns for fine grained category detec7on
SMART_READER_LITE
LIVE PREVIEW

Part-based R-CNNs for Fine-grained Category Detec7on - - PowerPoint PPT Presentation

Part-based R-CNNs for Fine-grained Category Detec7on Ning Zhang Jeff Donahue Ross Girshick Trevor Darrell


slide-1
SLIDE 1

Part-­‑based ¡R-­‑CNNs ¡for ¡Fine-­‑grained ¡ Category ¡Detec7on ¡

¡ ¡ ¡Ning ¡Zhang ¡ ¡ ¡ ¡ ¡ ¡ ¡Jeff ¡Donahue ¡ ¡ ¡ ¡ ¡Ross ¡Girshick ¡ ¡ ¡Trevor ¡Darrell ¡ ¡ EECS, ¡UC ¡Berkeley ¡

slide-2
SLIDE 2

Challenges ¡of ¡Fine-­‑grained ¡Categoriza7on ¡

Black ¡footed ¡Albatross ¡

slide-3
SLIDE 3

Challenges ¡of ¡Fine-­‑grained ¡Categoriza7on ¡

Laysan ¡Albatross ¡

slide-4
SLIDE 4

Finding ¡correspondence ¡ ¡

Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

??? ¡

slide-5
SLIDE 5

Finding ¡correspondence ¡ ¡

Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

??? ¡

Blue ¡headed ¡vireo ¡

slide-6
SLIDE 6

Pose-­‑normalized ¡correspondence ¡

Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

slide-7
SLIDE 7

Pose-­‑normalized ¡correspondence ¡

Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

slide-8
SLIDE 8

Pose-­‑normalized ¡correspondence ¡

Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡ Bounding ¡box ¡ Seman7c ¡parts ¡ classifier ¡

2) ¡Feature ¡representa.ons ¡ 1) ¡Correspondence ¡

slide-9
SLIDE 9
  • [Farrell ¡et.al. ¡ICCV ¡2011] ¡
  • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡
  • [Zhang ¡et.al. ¡CVPR ¡2012] ¡
  • [Liu ¡et.al. ¡ECCV ¡2012] ¡
  • [Yang ¡et.al. ¡NIPS ¡2012] ¡
  • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡
  • [Chai ¡et.al. ¡ICCV ¡2013] ¡
  • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡
  • [Liu ¡et.al. ¡ICCV ¡2013] ¡
  • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡
  • [Zhang ¡et.al. ¡ICCV ¡2013] ¡
  • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡

Prior ¡work ¡on ¡fine-­‑grained ¡categoriza7on ¡

Correspondence ¡

Bounding ¡box ¡ assumed ¡at ¡test ¡7me ¡

slide-10
SLIDE 10
  • [Farrell ¡et.al. ¡ICCV ¡2011] ¡
  • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡
  • [Zhang ¡et.al. ¡CVPR ¡2012] ¡
  • [Liu ¡et.al. ¡ECCV ¡2012] ¡
  • [Yang ¡et.al. ¡NIPS ¡2012] ¡
  • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡
  • [Chai ¡et.al. ¡ICCV ¡2013] ¡
  • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡
  • [Liu ¡et.al. ¡ICCV ¡2013] ¡
  • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡
  • [Zhang ¡et.al. ¡ICCV ¡2013] ¡
  • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡

Prior ¡work ¡on ¡fine-­‑grained ¡categoriza7on ¡

Correspondence ¡ Feature ¡representa7on ¡

(color) ¡SIFT: ¡ ¡

  • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ ¡
  • [Zhang ¡et.al. ¡CVPR ¡2012] ¡
  • [Liu ¡et.al. ¡ECCV ¡2012] ¡
  • [Chai ¡et.al. ¡ECCV ¡2012] ¡ ¡
  • [Göring ¡et.al. ¡CVPR ¡2014] ¡

HOG: ¡ ¡

  • [Berg ¡et ¡al. ¡CVPR ¡2013] ¡
  • ¡[Liu ¡et.al. ¡ICCV ¡2013] ¡

Fisher ¡vector: ¡ ¡

  • [Chai ¡et.al. ¡ICCV ¡2013] ¡ ¡
  • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡

Kernel ¡descriptors: ¡

  • [Yang ¡et.al. ¡NIPS ¡2012] ¡
  • [Zhang ¡et.al. ¡ICCV ¡2013] ¡

Bounding ¡box ¡ assumed ¡at ¡test ¡7me ¡

slide-11
SLIDE 11

Progress ¡in ¡deep ¡learning ¡

[Krizhevsky ¡ ¡et.al. ¡NIPS ¡2012] ¡ LeCun ¡et.al. ¡1989-­‑1998 ¡

  • OCR ¡[Ciresan ¡et.al. ¡CVPR ¡2012] ¡

[Wen ¡et.al. ¡ICML ¡2013] ¡ ¡

  • Pedestrian ¡detec.on ¡[Sermanet ¡

et.al. ¡CVPR ¡2013] ¡

  • Scene ¡parsing ¡[Farabet ¡et.al. ¡

PAMI ¡2013] ¡

  • Ac.on ¡recogni.on ¡[Karpathy ¡

et.al. ¡CVPR ¡2014] ¡

  • Face ¡verifica.on ¡[Taigman ¡et.al. ¡

CVPR ¡2014] ¡ ¡

  • Pose ¡es.ma.on ¡[Toshev ¡et.al. ¡

CVPR ¡2014] ¡[Jain ¡et.al. ¡ICLR ¡2014] ¡

  • Object ¡detec.on ¡[Girshick ¡et.al. ¡

CVPR ¡2014] ¡[Sermanet ¡et.al. ¡ICLR ¡ 2014] ¡

slide-12
SLIDE 12

Deep ¡representa7ons ¡for ¡fine-­‑grained ¡

[Donahue ¡et.al. ¡ICML ¡2014] ¡

DPM ¡detec7ons ¡+ ¡DeCAF ¡feature ¡ Bounding ¡ box ¡ assumed ¡

poselet detection

wear shorts wear hat wear sunglasses wear dress is_female

whole person region part-based deep representation

Linear classifier poselet 1 poselet 2 poselet i poselet j

[Zhang ¡et.al. ¡CVPR ¡2014] ¡

poselet ¡detec7ons ¡+ ¡deep ¡ network ¡training ¡from ¡scratch ¡

[Branson ¡et.al. ¡ ¡ BMVC ¡2014.] ¡

DPM ¡keypoint ¡ detec.on ¡ ¡ + ¡ ¡finetuned ¡deep ¡ network ¡ Bounding ¡ box ¡ assumed ¡

slide-13
SLIDE 13

Limita7ons ¡

To ¡find ¡correspondence ¡ Bounding ¡box ¡ assumed ¡at ¡test ¡0me ¡

deformable ¡part ¡models ¡

Hand-­‑engineered ¡ feature(e.g. ¡HOG) ¡

poselets ¡ OR ¡other ¡part ¡detectors ¡

slide-14
SLIDE 14

Limita7ons ¡

To ¡find ¡correspondence ¡ Bounding ¡box ¡ assumed ¡at ¡test ¡0me ¡

deformable ¡part ¡models ¡

Hand-­‑engineered ¡ feature(e.g. ¡HOG) ¡

poselets ¡ OR ¡other ¡part ¡detectors ¡

Recent ¡breakthrough ¡for ¡object ¡detec.on ¡

[Sermanet ¡et.al. ¡ICLR ¡2014] ¡ ¡ [Girshick ¡et.al. ¡CVPR ¡2014] ¡

Can ¡we ¡simultaneously ¡detect ¡

  • bjects ¡and ¡find ¡part ¡

correspondences? ¡

R-­‑CNN ¡ OverFeat ¡

slide-15
SLIDE 15

Extend ¡RCNN ¡to ¡parts ¡

Girshick ¡et.al. ¡Rich ¡Feature ¡Hierarchies ¡for ¡Accurate ¡Object ¡Detec7on ¡ and ¡Seman7c ¡Segmenta7on. ¡CVPR, ¡2014 ¡ ¡

Try ¡R-­‑CNN ¡hhps://github.com/rbgirshick/rcnn ¡ ¡ Try ¡CAFFE ¡ ¡hhp://caffe.berkeleyvision.org ¡

Input ¡ image ¡ Extract ¡region ¡ proposals ¡(~2k ¡/ ¡image) ¡ Compute ¡CNN ¡ ¡ features ¡ Classify ¡regions ¡ (linear ¡SVM) ¡

Use ¡part ¡annota7ons. ¡ Treat ¡object ¡and ¡ parts ¡as ¡individual ¡

  • categories. ¡
slide-16
SLIDE 16

Unifying ¡correspondence ¡and ¡feature ¡learning ¡

single ¡deep ¡ network ¡

  • bject ¡detec7on ¡

and ¡part ¡ localiza7on ¡ discrimina7ve ¡ feature ¡learning ¡

No ¡more ¡bounding ¡box ¡

  • assump7on. ¡

Bounding ¡box ¡ Seman7c ¡parts ¡ classifier ¡

2) ¡Feature ¡representa.ons ¡ 1) ¡Correspondence ¡

slide-17
SLIDE 17

Top ¡scored ¡object ¡and ¡part ¡predic7ons ¡

Input ¡images ¡with ¡region ¡proposals ¡

Overview ¡of ¡our ¡approach ¡ ¡

Object ¡detec7on ¡and ¡part ¡localiza7ons ¡

{"""""""""""""""""}""

classifier

Northern Flicker

Pose-­‑normalized ¡ representa7on ¡

Geometric ¡ Constraints ¡

Box ¡constraint ¡ Gaussian ¡Mixture ¡ Non-­‑parametric ¡

slide-18
SLIDE 18

Object ¡and ¡Part ¡detectors ¡

Region ¡proposals ¡using ¡selec7ve ¡search ¡ ¡ Bounding ¡box ¡and ¡part ¡annota7ons ¡

posi7ve ¡examples ¡ nega7ve ¡examples ¡

slide-19
SLIDE 19

Object ¡and ¡Part ¡detectors ¡

Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡

R-­‑CNN ¡detec7on ¡ for ¡part ¡i ¡

Deep ¡ convolu7on al ¡feature ¡ Learned ¡ detec7on ¡ weight ¡

is ¡sigmoid ¡func7on ¡ d0 ¡ d1 ¡ d2 ¡

slide-20
SLIDE 20

Object ¡and ¡Part ¡detectors ¡

Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡

Geometric ¡ Constraints ¡

Box ¡constraint ¡ Gaussian ¡Mixture ¡ Non-­‑parametric ¡

R-­‑CNN ¡detec7on ¡ for ¡part ¡i ¡

Deep ¡ convolu7on al ¡feature ¡ Learned ¡ detec7on ¡ weight ¡

is ¡sigmoid ¡func7on ¡ d0 ¡ d1 ¡ d2 ¡

slide-21
SLIDE 21

Box ¡constraint ¡

head ¡predic7on ¡ bounding ¡box ¡predic7on ¡

slide-22
SLIDE 22

Geometric ¡constraint: ¡Gaussian ¡Mixture ¡

Bounding ¡box ¡and ¡part ¡annota7ons ¡ Normalize ¡part ¡box ¡coordinates ¡ Generate ¡Gaussian ¡mixture ¡ prior ¡ ¡for ¡each ¡part ¡ Incorporate ¡prior ¡into ¡part ¡detector ¡scores ¡

center ¡of ¡head ¡ center ¡of ¡body ¡

slide-23
SLIDE 23

Geometric ¡constraint: ¡non-­‑parametric ¡

Predicted ¡ bounding ¡box ¡ Nearest ¡neighbors ¡using ¡pool5 ¡feature ¡with ¡cosine ¡distance ¡ Fit ¡one ¡gaussian ¡ using ¡top ¡K ¡neighbors ¡

slide-24
SLIDE 24

Comparison ¡of ¡constraints ¡

Deformable ¡part ¡models ¡

  • Mul7ple ¡components ¡ ¡
  • Deforma7on ¡cost ¡is ¡a ¡per-­‑

component ¡Gaussian ¡prior. ¡

  • R-­‑CNN ¡is ¡a ¡single-­‑component ¡

model, ¡mo7va7ng ¡our ¡MG ¡and ¡ NP ¡constraint. ¡

  • Nonparametric ¡prior ¡on ¡keypoint ¡configura7on ¡
  • space. ¡
  • Our ¡non-­‑parametric ¡prior ¡uses ¡nearest ¡

neighbors ¡on ¡appearance ¡space. ¡ O ¡ Belhumeur ¡et ¡al. ¡Localizing ¡parts ¡of ¡faces ¡using ¡a ¡ consensus ¡of ¡exemplars. ¡In ¡CVPR ¡2011. ¡

slide-25
SLIDE 25

Fine-­‑grained ¡categoriza7on ¡

( ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡) ¡ ¡

Same ¡representa7on ¡for ¡R-­‑CNN ¡detec7on ¡ SVM ¡classifier Northern ¡Flickr ¡ ¡

Bounding ¡box ¡and ¡part ¡predic7ons ¡

slide-26
SLIDE 26

RESULTS ¡

slide-27
SLIDE 27

Dataset: ¡CUB-­‑200-­‑2011 ¡

~12k ¡images, ¡200 ¡classes, ¡15 ¡keypoints ¡ ¡

slide-28
SLIDE 28

Dataset: ¡CUB-­‑200-­‑2011 ¡

head ¡box ¡ body ¡box ¡

~12k ¡images, ¡200 ¡classes, ¡15 ¡keypoints ¡ ¡

slide-29
SLIDE 29

Fine-­‑grained ¡categoriza7on ¡results ¡

56.78 ¡ 59.4 ¡ 62.7 ¡ 64.96 ¡ 67.55 ¡ 67.98 ¡ 68.07 ¡ POOF ¡[1] ¡ Symbio7c ¡[2] ¡ Alignment ¡[3] ¡ DPD+DeCAF ¡[4] ¡ Ours(box) ¡ Ours(GM) ¡ Ours ¡(NP) ¡

Bounding ¡box ¡given ¡ ¡

44.94 ¡ 65.22 ¡ 65.98 ¡ 65.96 ¡ DPD+DeCAF ¡[4] ¡ Ours(box) ¡ Ours(GM) ¡ Ours ¡(NP) ¡

Bounding ¡box ¡not ¡given ¡ ¡

[1] ¡Berg ¡et.al. ¡POOF: ¡Part-­‑based ¡one-­‑vs-­‑one ¡features ¡for ¡fine-­‑grained ¡ categoriza7on, ¡face ¡verifica7on, ¡and ¡ahribute ¡es7ma7on. ¡In ¡CVPR ¡2013. ¡ [2] ¡Chai ¡et.al. ¡Symbio7c ¡segmenta7on ¡and ¡part ¡localiza7on ¡for ¡fine-­‑grained ¡

  • categoriza7on. ¡In ¡ICCV ¡2013. ¡

[3] ¡Gavves ¡et.al. ¡Fine-­‑grained ¡categoriza7on ¡by ¡alignments. ¡In ¡ICCV ¡2013. ¡ [4] ¡Donahue ¡et.al. ¡DeCAF: ¡A ¡deep ¡convolu7onal ¡ac7va7on ¡feature ¡for ¡ generic ¡visual ¡recogni7on. ¡In ¡ICML ¡2014. ¡

¡

Evalua7on ¡metric: ¡classifica7on ¡accuracy ¡(%) ¡

slide-30
SLIDE 30

Does ¡finetuning ¡help? ¡

57.94 ¡ 64.57 ¡ 65.22 ¡ 65.96 ¡ 72.83 ¡ 50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡

groundtruth ¡ bounding ¡box ¡ Ours ¡(box) ¡ Ours(GM) ¡ Ours(NP) ¡ Oracle ¡parts ¡

Accuracy ¡(%) ¡ No ¡finetuning ¡ No ¡bounding ¡box ¡given ¡ ¡

slide-31
SLIDE 31

Does ¡finetuning ¡help? ¡

57.94 ¡ 64.57 ¡ 65.22 ¡ 65.96 ¡ 72.83 ¡ 68.29 ¡ 72.73 ¡ 72.95 ¡

73.89 ¡

82.02 ¡ 50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡

groundtruth ¡ bounding ¡box ¡ Ours ¡(box) ¡ Ours(GM) ¡ Ours(NP) ¡ Oracle ¡parts ¡

Accuracy ¡(%) ¡ No ¡finetuning ¡ Finetuning ¡ No ¡bounding ¡box ¡given ¡ ¡

slide-32
SLIDE 32

Part ¡localiza7on ¡results ¡

Evalua7on ¡metric: ¡

Percentage ¡of ¡Correctly ¡Localized ¡ Parts ¡(PCP) ¡ if ¡overlap ¡of ¡ ¡ > ¡0.5 ¡ part ¡predic7on ¡is ¡correct ¡

groundtruth ¡ predic7on ¡

Bounding ¡Box ¡Given ¡ Head ¡ Body ¡ Strong ¡DPM ¡[1] ¡ 43.49% ¡ 75.15% ¡ Ours ¡(box) ¡ 61.40% ¡ 65.42% ¡ Ours ¡(GM) ¡ 66.03% ¡ 76.62% ¡ Ours ¡(NP) ¡ 68.19% ¡ 79.82% ¡ Bounding ¡Box ¡Unknown ¡ Head ¡ Body ¡ Strong ¡DPM ¡[1] ¡ 37.44% ¡ 47.08% ¡ Ours ¡(box) ¡ 60.56% ¡ 65.31% ¡ Ours ¡(GM) ¡ 61.94% ¡ 70.16% ¡ Ours ¡(NP) ¡ 61.42% ¡ 70.68% ¡

[1] ¡Azizipour ¡et.al. ¡Object ¡detec7on ¡using ¡strongly-­‑supervised ¡deformable ¡ part ¡models. ¡In ¡ECCV ¡2012. ¡ ¡

slide-33
SLIDE 33

Part ¡localiza7on ¡samples ¡

Strong ¡ DPM ¡ part ¡box ¡predic7on ¡ bounding ¡box ¡predic7on ¡ Ours ¡ (box) ¡ Ours ¡ (NP) ¡

slide-34
SLIDE 34

Where ¡doesn’t ¡it ¡work? ¡

  • Limited ¡performance ¡of ¡region ¡proposal ¡by ¡selec7ve ¡

search ¡for ¡small ¡parts. ¡

  • Regional ¡proposal ¡is ¡not ¡designed ¡to ¡pick ¡up ¡parts. ¡

Recall ¡of ¡selec7ve ¡search ¡boxes ¡on ¡CUB200-­‑2011 ¡bird ¡dataset ¡

  • verlap ¡

0.50 ¡ 0.60 ¡ 0.70 ¡ bounding ¡box ¡ 96.70% ¡ 97.68% ¡ 89.50% ¡ head ¡ 93.34% ¡ 73.87% ¡ 37.57% ¡ body ¡ 96.70% ¡ 85.97% ¡ 54.68% ¡ belly ¡ 81.17% ¡ 51.82% ¡ 21.29% ¡ leg ¡ 83.60% ¡ 51.48% ¡ 19.52% ¡

slide-35
SLIDE 35

Where ¡doesn’t ¡it ¡work? ¡

  • Limited ¡performance ¡of ¡region ¡proposal ¡by ¡selec7ve ¡

search ¡for ¡small ¡parts. ¡

  • Regional ¡proposal ¡is ¡not ¡designed ¡to ¡pick ¡up ¡parts. ¡

Recall ¡of ¡selec7ve ¡search ¡boxes ¡on ¡CUB200-­‑2011 ¡bird ¡dataset ¡

  • verlap ¡

0.50 ¡ 0.60 ¡ 0.70 ¡ bounding ¡box ¡ 96.70% ¡ 97.68% ¡ 89.50% ¡ head ¡ 93.34% ¡ 73.87% ¡ 37.57% ¡ body ¡ 96.70% ¡ 85.97% ¡ 54.68% ¡ belly ¡ 81.17% ¡ 51.82% ¡ 21.29% ¡ leg ¡ 83.60% ¡ 51.48% ¡ 19.52% ¡

Revisit ¡sliding ¡window ¡for ¡small ¡parts… ¡

slide-36
SLIDE 36

Take ¡away ¡

  • A ¡unified ¡deep ¡network ¡for ¡both ¡part-­‑localiza7on ¡

and ¡fine-­‑grained ¡categoriza7on. ¡

  • Bounding ¡box ¡is ¡not ¡required ¡at ¡test ¡7me. ¡
  • Pose-­‑normalized ¡representa7on ¡remains ¡

important ¡for ¡fine-­‑grained ¡categoriza7on. ¡

  • R-­‑CNN ¡can ¡also ¡be ¡used ¡for ¡part ¡detec7ons ¡with ¡

geometric ¡constraints. ¡

slide-37
SLIDE 37

Using ¡more ¡parts ¡

head+body ¡ 5 ¡parts ¡ Ours ¡(box) ¡ 65.22% ¡ 62.75% ¡ Ours(GM) ¡ 65.98% ¡ 65.43% ¡ Ours(NP) ¡ 65.96% ¡ 65.72% ¡ Bounding ¡box ¡not ¡given ¡at ¡test ¡7me ¡ without ¡finetuning ¡

Images ¡with ¡5 ¡parts ¡annota7on: ¡ ¡ head, ¡ ¡body, ¡ ¡back, ¡ ¡belly ¡and ¡leg ¡

slide-38
SLIDE 38

Region ¡proposal ¡on ¡Pascal ¡parts ¡

Recall ¡on ¡some ¡parts ¡from ¡PASCAL: ¡ Cat ¡head: ¡98.72 ¡ ¡Cat ¡back: ¡85.32 ¡ Dog ¡frontal ¡face: ¡95.65 ¡ ¡Dog ¡head: ¡98.98 ¡ Sheep ¡tail: ¡31.25 ¡ ¡Sheep ¡torso: ¡38.24 ¡ ¡Sheep ¡ears: ¡42.54 ¡ Cow ¡ears: ¡45.65 ¡ ¡Cow ¡ ¡head: ¡85.23 ¡ Bird ¡beak: ¡48.41 ¡ ¡Bird ¡tail: ¡66.49 ¡ ¡ Part ¡annota7ons ¡on ¡six ¡animal ¡classes ¡from ¡Pascal ¡ ¡ [Azizpour ¡et.al. ¡ ECCV ¡2012] ¡

slide-39
SLIDE 39

Results ¡with ¡no ¡parts ¡