spa al pyramid matching for recognizing natural scene
play

Spa$al Pyramid Matching for Recognizing Natural Scene - PowerPoint PPT Presentation

Spa$al Pyramid Matching for Recognizing Natural Scene Categories Arun Shivanandan Mhd Amro Najjar Many slides adapted from Fei-Fei Li, Rob Fergus, and Antonio Torralba, Svetlana


  1. Spa$al ¡Pyramid ¡Matching ¡for ¡ Recognizing ¡Natural ¡Scene ¡Categories ¡ ¡ Arun ¡Shivanandan ¡ ¡Mhd ¡Amro ¡Najjar ¡ Many slides adapted from Fei-Fei Li, Rob Fergus, and Antonio Torralba, Svetlana Lazebnik, Kristen Grauman

  2. Outline ¡ • Introduc$on ¡ • Bag ¡of ¡Features ¡ • Pyramid ¡Matching ¡ • Spa$al ¡Pyramid ¡Matching ¡ • Feature ¡Extrac$on ¡ • Experiments ¡ • Discussion ¡

  3. Introduc$on ¡ • Objec$ve ¡ ¡ – Recognize ¡the ¡seman$c ¡category ¡of ¡an ¡image ¡ – That ¡is, ¡classify ¡the ¡scene ¡(forest, ¡street, ¡etc.) ¡or ¡ the ¡object ¡of ¡interest ¡in ¡the ¡image ¡ • Method ¡ – Extend ¡Bag ¡of ¡Features ¡by ¡incorpora$ng ¡spa$al ¡ informa$on ¡

  4. Bag ¡of ¡Features ¡ • ¡ ¡Text: ¡Bag ¡of ¡Words ¡ • ¡ ¡Image: ¡Bag ¡of ¡Visual ¡Words ¡ Steps: ¡ I. Interest ¡Points ¡– ¡Harris-­‑Laplace ¡ II. Local ¡descriptors ¡– ¡SIFT ¡etc ¡ III. Clustering ¡– ¡K-­‑means ¡– ¡clusters, ¡visual ¡words ¡ IV. Histogram ¡of ¡visual ¡words ¡– ¡Bag ¡of ¡Features ¡

  5. Bag ¡Of ¡Features ¡cont. ¡

  6. Outline ¡of ¡image ¡classifica$on ¡

  7. Limita$on ¡of ¡Bag ¡of ¡Features ¡ ¡ • Discards ¡informa$on ¡about ¡spa$al ¡layout ¡of ¡ features ¡ • Incapable ¡of ¡capturing ¡a ¡shape ¡or ¡segmen$ng ¡ the ¡object ¡from ¡its ¡background ¡ • Limited ¡descrip$ve ¡ability ¡ • Need ¡to ¡take ¡spa$al ¡informa$on ¡into ¡account ¡

  8. Pyramid ¡Matching ¡ • ¡To ¡find ¡approximate ¡correspondence ¡between ¡two ¡ sets ¡ • ¡Place ¡a ¡sequence ¡of ¡increasingly ¡finer ¡grids ¡over ¡the ¡ feature ¡space ¡(Level ¡i ¡has ¡bins ¡of ¡size ¡2 i ¡) ¡ • Take ¡ ¡weighted ¡sum ¡of ¡ ¡ ¡ ¡ ¡number ¡of ¡matches ¡that ¡ ¡ ¡ ¡ ¡ ¡occur ¡at ¡each ¡level ¡ ¡ ¡

  9. Pyramid ¡Matching ¡cont… ¡

  10. Pyramid ¡Matching ¡Kernel ¡ • ¡Matches ¡at ¡level ¡l ¡includes ¡matches ¡at ¡level ¡l+1 ¡ • ¡Subtrac$on ¡gives ¡new ¡matches ¡at ¡the ¡level ¡ • ¡Penalize ¡results ¡from ¡larger ¡cells ¡by ¡weights ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡ ¡ ¡ l ¡ ¡level ¡ l ¡ • ¡Kernel: ¡

  11. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Lazebnik, Schmid & Ponce (CVPR 2006)

  12. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1 Lazebnik, Schmid & Ponce (CVPR 2006)

  13. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1level 1 Level 2 Lazebnik, Schmid & Ponce (CVPR 2006)

  14. Beyond ¡bag ¡of ¡features… ¡ • Pyramid ¡matching ¡in ¡image ¡space ¡ ¡ • K-­‑means ¡clustering ¡in ¡feature ¡space ¡ • If ¡feature ¡vectors ¡are ¡quan$zed ¡into ¡M ¡ discrete ¡types, ¡the ¡final ¡kernel ¡is: ¡ ¡ • Can ¡be ¡implemented ¡as ¡a ¡concatena$on ¡of ¡ histogram ¡intersec$ons ¡of ¡all ¡channels ¡and ¡at ¡ all ¡resolu$ons ¡

  15. Beyond ¡bag ¡of ¡features… ¡Example ¡

  16. Feature ¡extrac$on ¡ ¡ • Weak ¡features: ¡oriented ¡edge ¡points, ¡points ¡ whose ¡gradient ¡magnitude ¡in ¡a ¡given ¡direc$on ¡ exceeds ¡a ¡minimum ¡threshold. ¡ – 2 ¡scales ¡8 ¡orienta$ons ¡  ¡M ¡= ¡16. ¡ • Strong ¡Features: ¡SIFT ¡ ¡Descriptors ¡of ¡16*16 ¡pixel ¡ patches ¡computed ¡over ¡a ¡grid ¡of ¡spacing ¡of ¡8 ¡ pixels. ¡ – Vocabulary ¡sizes ¡used ¡in ¡the ¡experiments ¡, ¡M=200 ¡and ¡ M=400. ¡

  17. Experiments ¡ • Performed ¡in ¡grayscale ¡for ¡all ¡images ¡ • Mul$class ¡classifica$on ¡is ¡done ¡using ¡SVM, ¡all-­‑ ¡ versus-­‑one ¡rule. ¡ ¡ • Done ¡on ¡three ¡ ¡diverse ¡data ¡sets: ¡Scene ¡ Category ¡Recogni$on, ¡Caltech ¡-­‑101 ¡and ¡Graz ¡

  18. Scene ¡Category ¡Recogni$on ¡– ¡15 ¡ classes ¡

  19. Scene ¡Category ¡Recogni$on-­‑ ¡Results ¡ • Drama$c ¡improvement ¡as ¡we ¡go ¡to ¡higher ¡levels ¡ • For ¡strong ¡features, ¡drop ¡from ¡L=2 ¡to ¡L=3, ¡because ¡ L=3 ¡is ¡too ¡fine, ¡but ¡overall ¡performance ¡is ¡unaffected ¡ ¡ • ¡Increasing ¡the ¡M ¡from ¡200 ¡to ¡400 ¡gives ¡only ¡slight ¡ improvement ¡ • The ¡coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡is ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡

  20. Caltech-­‑101 ¡– ¡101 ¡categories ¡ • Geometrically ¡stable, ¡cluger-­‑less ¡objects ¡ • Best ¡result ¡(64.6%) ¡, ¡beger ¡than ¡state ¡of ¡the ¡ art ¡(53.9%) ¡ • M=200 ¡to ¡400 ¡creates ¡no ¡no$ceable ¡ improvement ¡ Successful and unsuccessful classes

  21. Graz ¡dataset ¡ • High ¡intra-­‑class ¡varia$ons ¡ • Only ¡2 ¡object ¡classes ¡and ¡1 ¡background ¡class, ¡ but ¡with ¡diverse ¡range ¡of ¡scales ¡and ¡poses ¡ • Training ¡-­‑ ¡by ¡providing ¡nega$ve ¡and ¡posi$ve ¡ examples ¡ • Improvement ¡from ¡L=0 ¡to ¡2 ¡is ¡small ¡– ¡ geometric ¡variability ¡provides ¡ligle ¡global ¡ features ¡

  22. Discussion ¡ • Pros ¡ ¡ – Captures ¡the ¡organiza$on ¡of ¡the ¡major ¡elements ¡of ¡ the ¡image ¡ – Provides ¡beger ¡performance ¡than ¡state-­‑of-­‑the-­‑art ¡ – Recogni$on ¡quality ¡not ¡affected ¡by ¡failure ¡at ¡higher ¡ levels ¡ ¡ – Coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡can ¡be ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡ – The ¡pyramid ¡is ¡computed ¡at ¡the ¡original ¡resolu$on ¡of ¡ the ¡image ¡  ¡high ¡frequency ¡details ¡are ¡preserved ¡ – Can ¡be ¡used ¡in ¡a ¡search ¡algorithm ¡ ¡

  23. Discussion ¡ • Cons ¡ ¡ – Not ¡geometrically ¡invariant ¡ – Performance ¡won’t ¡be ¡enhanced ¡by ¡the ¡pyramid ¡ levels ¡when ¡the ¡class ¡contains ¡high ¡geometric ¡ variability ¡ – Can ¡be ¡combined ¡with ¡invariant ¡features ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend