Video Object Recogni/on Chenyi Chen Mo/on is important How - - PowerPoint PPT Presentation

video object recogni on
SMART_READER_LITE
LIVE PREVIEW

Video Object Recogni/on Chenyi Chen Mo/on is important How - - PowerPoint PPT Presentation

Video Object Recogni/on Chenyi Chen Mo/on is important How important? Lets first look at Visual Parsing AEer Recovery From Blindness This is a


slide-1
SLIDE 1

Video ¡Object ¡Recogni/on

Chenyi ¡Chen

slide-2
SLIDE 2

Mo/on ¡is ¡important

  • How ¡important? ¡
  • Let’s ¡first ¡look ¡at ¡“Visual ¡Parsing ¡AEer ¡

Recovery ¡From ¡Blindness” ¡

  • This ¡is ¡a ¡real ¡“vision” ¡paper
slide-3
SLIDE 3

Background

  • Study ¡how ¡do ¡three ¡Indian ¡pa/ents ¡(subjects) ¡

develop ¡object ¡recogni/on ¡ability ¡aEer ¡long ¡ term ¡blindness ¡

  • Give ¡treatment ¡to ¡the ¡subjects ¡
  • During ¡recovery, ¡test ¡on ¡the ¡subjects ¡to ¡see ¡

how ¡they ¡perform ¡on ¡recogni/on ¡tasks ¡

slide-4
SLIDE 4

Background

  • The ¡subjects ¡are: ¡
  • S.K.: ¡age ¡29, ¡male, ¡born ¡blindness, ¡M.A. ¡in ¡

poli/cal ¡science ¡

  • J.A.: ¡age ¡13, ¡male, ¡born ¡blindness, ¡never ¡

received ¡educa/on ¡

  • P.B.: ¡age ¡7, ¡male, ¡born ¡blindness ¡
  • Control ¡group: ¡4 ¡normal ¡sighted ¡adults, ¡similar ¡

social ¡background

slide-5
SLIDE 5

Subjects’ ¡parsing ¡of ¡sta/c ¡images

slide-6
SLIDE 6

S.K. ¡versus ¡simple ¡region ¡par//on ¡ algorithm

slide-7
SLIDE 7

Dynamic ¡informa/on ¡in ¡object ¡ segrega/on

slide-8
SLIDE 8

Mo/lity ¡ra/ng ¡and ¡object ¡recogni/on ¡ results

slide-9
SLIDE 9

Follow-­‑up ¡tes/ng ¡aEer ¡several ¡months

slide-10
SLIDE 10

What ¡do ¡we ¡learn ¡about ¡developing ¡ visual ¡parsing ¡skill

  • Early ¡stages: ¡integra/ve ¡impairments, ¡
  • verfragmenta/on ¡of ¡images, ¡compromise ¡

recogni/on ¡performance ¡

  • However, ¡mo/on ¡effec/vely ¡mi/gates ¡these ¡

integra/ve ¡difficul/es ¡

  • Mo/on ¡appears ¡to ¡be ¡instrumental ¡both ¡in ¡

segrega/ng ¡objects ¡and ¡in ¡binding ¡their ¡ cons/tuents ¡into ¡representa/ons ¡for ¡ recogni/on ¡

slide-11
SLIDE 11
  • So ¡we ¡have ¡some ¡insight ¡of ¡how ¡people ¡

developing ¡visual ¡recogni/on ¡ability ¡ ¡

  • Can ¡we ¡reproduce ¡visual ¡learning ¡process ¡on ¡a ¡

robot? ¡

  • Let’s ¡look ¡at ¡“Learning ¡about ¡Humans ¡During ¡

the ¡First ¡6 ¡Minutes ¡of ¡Life”

slide-12
SLIDE 12

A ¡baby ¡robot

slide-13
SLIDE 13

Hypothesis ¡in ¡social ¡development

  • The ¡infant ¡brain ¡is ¡par/cularly ¡sensi/ve ¡to ¡the ¡

presence ¡of ¡con/ngencies ¡

  • The ¡con/ngency ¡drives ¡the ¡defini/on ¡and ¡

recogni/on ¡of ¡caregivers ¡

  • Human ¡faces ¡become ¡acrac/ve ¡because ¡they ¡

tend ¡to ¡occur ¡in ¡high ¡con/ngency ¡situa/ons

slide-14
SLIDE 14

Goal

  • Whether ¡acous/c ¡con/ngency ¡informa/on ¡

(sound) ¡would ¡be ¡sufficient ¡for ¡the ¡robot ¡to ¡ develop ¡preferences ¡for ¡human ¡faces ¡

  • If ¡so, ¡get ¡a ¡sense ¡for ¡the ¡/me ¡scale ¡of ¡the ¡

learning ¡problem ¡

slide-15
SLIDE 15

A ¡baby ¡robot

slide-16
SLIDE 16

Sedngs

  • The ¡baby ¡robot ¡interacted ¡with ¡the ¡lab ¡

members ¡while ¡recording ¡image ¡it ¡saw ¡

  • Con/ngency ¡detec/on ¡engine ¡analyzes ¡sound ¡

signal ¡for ¡presence ¡of ¡con/ngencies ¡ ¡

  • Whether ¡people ¡were ¡present ¡is ¡not ¡specified ¡
  • Whether ¡people ¡were ¡of ¡any ¡par/cular ¡

relevance ¡is ¡not ¡specified ¡ ¡

  • The ¡only ¡training ¡label ¡is ¡the ¡acous/c ¡

con/ngency ¡signal

slide-17
SLIDE 17

Visual ¡learning ¡engine

  • Probabilis/c ¡model ¡
  • Only ¡needs ¡the ¡images ¡to ¡be ¡weakly ¡labeled ¡as ¡

containing ¡with ¡high ¡or ¡low ¡probability ¡the ¡

  • bject ¡of ¡interest, ¡do ¡not ¡need ¡to ¡indicate ¡

where ¡the ¡objects ¡are ¡located ¡on ¡the ¡image ¡ plane ¡

  • Implementable ¡in ¡a ¡neural ¡network ¡
  • Run ¡in ¡real ¡/me ¡at ¡video ¡frame ¡rate
slide-18
SLIDE 18

Hardware

  • Plush ¡baby ¡doll ¡
  • IEEE1394a ¡webcam ¡(capture ¡images, ¡only ¡

grayscale ¡images ¡used ¡for ¡training) ¡

  • Microphone ¡(receive ¡auditory ¡signal) ¡
  • Loudspeaker ¡(baby ¡makes ¡excited ¡noise) ¡
slide-19
SLIDE 19

Collec/ng ¡data

  • Record ¡the ¡auditory ¡and ¡visual ¡signals ¡for ¡88 ¡

minutes ¡

  • 2877 ¡posi/ve ¡examples ¡
  • 824 ¡nega/ve ¡examples ¡
  • Baby ¡robot ¡was ¡placed ¡in ¡chair, ¡stroller, ¡and ¡a ¡

crib, ¡with ¡bright ¡or ¡dim ¡ligh/ng ¡condi/ons ¡

  • 9 ¡persons ¡interacted ¡with ¡the ¡baby ¡robot
slide-20
SLIDE 20

Collec/ng ¡data

  • Select ¡34 ¡posi/ve ¡examples ¡and ¡200 ¡nega/ve ¡

examples ¡for ¡training ¡(approx. ¡5 ¡min ¡34 ¡sec). ¡ The ¡rest ¡are ¡used ¡for ¡tes/ng ¡

  • The ¡label ¡is ¡noisy
slide-21
SLIDE 21

Results

  • Evalua/on: ¡2-­‑Alterna/ve ¡Forced ¡Choice ¡Task ¡

(2AFC) ¡

  • 86.17% ¡on ¡the ¡face ¡detec/on ¡task ¡( ¡i.e., ¡

deciding ¡which ¡of ¡two ¡images ¡contained ¡a ¡face) ¡

  • 89.7% ¡correct ¡on ¡the ¡con/ngency ¡task ¡(i.e., ¡

deciding ¡which ¡of ¡two ¡images ¡was ¡more ¡likely ¡to ¡ be ¡associated ¡with ¡an ¡auditory ¡con/ngency) ¡

  • 92.3 ¡% ¡correct ¡on ¡the ¡person ¡detec/on ¡task ¡

(i.e., ¡deciding ¡which ¡image ¡contained ¡a ¡person).

slide-22
SLIDE 22

Results

  • Examples ¡images ¡and ¡their ¡pixel-­‑wise ¡

probability ¡images

slide-23
SLIDE 23

Results

  • Infants ¡showed ¡a ¡significant ¡order ¡of ¡tracking ¡

preference ¡in ¡favor ¡the ¡face ¡s/mulus, ¡ followed ¡by ¡the ¡scrambled ¡s/mulus, ¡followed ¡ by ¡the ¡empty ¡s/mulus ¡

  • The ¡robot ¡reproduce ¡the ¡

¡ ¡ ¡ ¡preference ¡order

slide-24
SLIDE 24
  • Video ¡usually ¡contains ¡more ¡data ¡for ¡object ¡

detector ¡training ¡

  • There ¡is ¡a ¡domain ¡difference ¡between ¡video ¡

and ¡s/ll ¡image ¡

  • So ¡“Analysing ¡domain ¡shiE ¡factors ¡between ¡

videos ¡and ¡images ¡for ¡object ¡detec/on” ¡is ¡ necessary

slide-25
SLIDE 25

Goal

  • For ¡a ¡given ¡target ¡test ¡domain ¡(image ¡or ¡

video), ¡the ¡performance ¡of ¡the ¡detector ¡ depends ¡on ¡the ¡domain ¡it ¡was ¡trained ¡on. ¡ ¡

  • Examine ¡the ¡reasons ¡behind ¡this ¡performance ¡
  • gap. ¡
  • Train ¡an ¡object ¡detector ¡with ¡samples ¡either ¡

from ¡s/ll ¡images ¡or ¡from ¡video ¡frames ¡and ¡ then ¡test ¡the ¡detector ¡on ¡both ¡domains.

slide-26
SLIDE 26

Dataset

  • S/ll ¡images ¡(VOC) ¡
  • PASCAL ¡VOC ¡2007 ¡
  • 10 ¡class ¡of ¡moving ¡objects ¡chosen
slide-27
SLIDE 27

Dataset

  • Video ¡frames ¡(VID) ¡
  • YouTube-­‑Objects ¡dataset ¡
  • 10 ¡classes ¡of ¡moving ¡objects ¡
  • Further ¡annotated ¡a ¡few ¡images ¡to ¡make ¡the ¡

dataset ¡have ¡comparable ¡labels ¡with ¡VOC

slide-28
SLIDE 28

Equalizing ¡the ¡number ¡of ¡samples ¡per ¡ class

  • Equalize ¡the ¡training ¡samples ¡of ¡VOC ¡and ¡VID ¡
  • 3097 ¡in ¡total ¡over ¡the ¡10 ¡classes ¡(Table. ¡1) ¡
  • Only ¡the ¡equalized ¡training ¡sets ¡are ¡used ¡
  • trainVOC ¡
  • trainVID ¡
slide-29
SLIDE 29

Domain ¡shiE ¡factors

  • Spa/al ¡loca/on ¡accuracy: ¡accuracy ¡of ¡

bounding ¡box ¡

  • Appearance ¡diversity: ¡consecu/ve ¡frames ¡in ¡

video ¡are ¡similar, ¡thus ¡less ¡diverse ¡

  • Image ¡quality: ¡compression, ¡mo/on ¡blur ¡etc. ¡

in ¡video ¡images ¡

  • Object ¡detector: ¡DPM
slide-30
SLIDE 30

Spa/al ¡loca/on ¡accuracy

  • Method ¡of ¡gedng ¡bounding ¡box ¡on ¡video: ¡
  • PRE: ¡worst ¡
  • FVS: ¡becer ¡
  • Manual ¡label: ¡best
slide-31
SLIDE 31

Spa/al ¡loca/on ¡accuracy

  • Reduce ¡almost ¡4% ¡of ¡the ¡gap ¡(test ¡on ¡VOC)
slide-32
SLIDE 32

Spa/al ¡loca/on ¡accuracy

  • Equaliza/on: ¡using ¡the ¡ground ¡truth ¡(human ¡

labeled) ¡bounding ¡box ¡on ¡trainVID

slide-33
SLIDE 33

Appearance ¡diversity

  • Near ¡iden/cal ¡samples ¡of ¡an ¡object ¡in ¡video
slide-34
SLIDE 34

Appearance ¡diversity

  • Measure ¡diversity: ¡
  • Clustering ¡(agglomera/ve ¡clustering, ¡L2 ¡

distance ¡of ¡HOG ¡features): ¡each ¡cluster ¡ contains ¡visually ¡very ¡similar ¡samples ¡

  • Measure ¡appearance ¡diversity ¡by ¡coun/ng ¡the ¡

number ¡of ¡clusters ¡

  • Equaliza/on: ¡resample ¡training ¡sets ¡so ¡the ¡

number ¡of ¡images ¡and ¡clusters ¡(of ¡trainVOC ¡ and ¡trainVID) ¡are ¡equal

slide-35
SLIDE 35

Appearance ¡diversity

slide-36
SLIDE 36

Appearance ¡diversity

  • Bridge ¡the ¡gap ¡by ¡3.5% ¡(test ¡on ¡VOC) ¡
slide-37
SLIDE 37

Image ¡quality

  • Gradient ¡energy: ¡sum ¡of ¡gradient ¡magnitudes ¡

in ¡HOG ¡cells ¡

  • Equaliza/on: ¡blur ¡trainVOC ¡by ¡applying ¡a ¡

Gaussian ¡filter ¡

slide-38
SLIDE 38

Image ¡quality

slide-39
SLIDE 39

Image ¡quality

  • Closes ¡the ¡gap ¡by ¡1% ¡(test ¡on ¡VOC)
slide-40
SLIDE 40

Training-­‑test ¡set ¡correla/on

  • The ¡final ¡7% ¡performance ¡gap ¡
  • Domain-­‑specific ¡correla/on/bias ¡
  • Find ¡nearest ¡neighbor ¡of ¡tes/ng ¡images ¡in ¡

both ¡training ¡sets

slide-41
SLIDE 41

Training-­‑test ¡set ¡correla/on

  • According ¡to ¡nearest ¡neighbor ¡criterion ¡
  • testVOC ¡is ¡most ¡similar ¡to ¡trainVOC ¡
  • testVID ¡is ¡most ¡similar ¡to ¡trainVID ¡
  • Such ¡correla/on ¡leads ¡to ¡the ¡final ¡

performance ¡gap

slide-42
SLIDE 42
  • Now ¡we ¡understand ¡the ¡gap ¡between ¡video ¡

domain ¡and ¡s/ll ¡image ¡domain ¡

  • We ¡s/ll ¡want ¡to ¡try ¡transferring ¡the ¡

knowledge ¡learnt ¡in ¡video ¡domain ¡to ¡image ¡ domain ¡

  • OK, ¡then ¡let’s ¡look ¡at ¡“Learning ¡Object ¡Class ¡

Detectors ¡from ¡Weakly ¡Annotated ¡Video”

slide-43
SLIDE 43

Benefits ¡of ¡video

  • Easier ¡to ¡automa/cally ¡segment ¡the ¡object ¡

from ¡the ¡background ¡based ¡on ¡mo/on ¡ informa/on ¡

  • Show ¡significant ¡appearances ¡varia/ons ¡of ¡an ¡
  • bject ¡
  • Provide ¡a ¡large ¡number ¡of ¡training ¡images
slide-44
SLIDE 44

Pipeline

  • Each ¡video ¡contains ¡an ¡object ¡as ¡indicated ¡by ¡

the ¡video ¡tag ¡

  • Automa/cally ¡localize ¡object ¡in ¡video ¡clips, ¡
  • utput ¡one ¡bounding ¡box ¡for ¡each ¡video ¡
  • Learn ¡a ¡detector ¡from ¡the ¡video ¡images ¡and ¡

corresponding ¡bounding ¡boxes ¡

  • Domain ¡adapta/on ¡
  • Test ¡the ¡detector ¡on ¡PASCAL ¡07 ¡dataset ¡
slide-45
SLIDE 45

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Extract ¡shots ¡of ¡coherent ¡mo/on ¡from ¡each ¡

video ¡

  • Robustly ¡fit ¡spa/o-­‑temporal ¡bounding ¡boxes ¡

(tube) ¡to ¡each ¡shot ¡(3~15 ¡tubes ¡per ¡shot) ¡

  • Jointly ¡select ¡one ¡tube ¡per ¡video ¡by ¡

minimizing ¡an ¡energy ¡func/on ¡of ¡similarity ¡

  • The ¡selected ¡tubes ¡are ¡the ¡output ¡of ¡the ¡

algorithm ¡(used ¡to ¡train ¡a ¡detector)

slide-46
SLIDE 46

Localizing ¡objects ¡in ¡real-­‑world ¡videos

slide-47
SLIDE 47

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Temporal ¡par**oning ¡into ¡shot ¡
  • Abrupt ¡changes ¡of ¡the ¡visual ¡content ¡of ¡the ¡

video ¡

  • Thresholding ¡color ¡histogram ¡differences ¡in ¡

consecu/ve ¡frames ¡ ¡

slide-48
SLIDE 48

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Forming ¡candidate ¡tubes ¡
  • Large-­‑displacement ¡op/cal ¡flow ¡(LDOF) ¡
  • Clustering ¡the ¡dense ¡point ¡tracks ¡based ¡on ¡the ¡

similarity ¡in ¡their ¡mo/on ¡and ¡proximity ¡in ¡ loca/on ¡

  • Fit ¡spa/o-­‑temporal ¡bounding ¡box ¡to ¡each ¡

mo/on ¡segment

slide-49
SLIDE 49

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Example ¡of ¡tubes
slide-50
SLIDE 50

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Joint ¡selec*on ¡of ¡tubes ¡
  • Energy ¡func/on ¡
  • Each ¡frame ¡s ¡has ¡mul/ple ¡candidate ¡tubes ¡
  • Select ¡one ¡tube ¡from ¡the ¡candidates ¡for ¡each ¡

frame ¡s ¡

  • Selected ¡tubes ¡over ¡all ¡the ¡frames ¡
  • Coefficient ¡α ¡
slide-51
SLIDE 51

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • The ¡pairwise ¡poten*al ¡
  • Measure ¡appearance ¡dissimilarity ¡
  • Encourage ¡selec/ng ¡tubes ¡look ¡similar ¡over ¡

/me ¡

  • Tube ¡ls, ¡lq ¡in ¡two ¡different ¡frame ¡s, ¡q ¡
  • Dissimilarity ¡func/ons ¡Δ ¡(two ¡types ¡of ¡

features) ¡compare ¡the ¡appearance ¡of ¡the ¡two ¡ tubes

slide-52
SLIDE 52

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • The ¡unary ¡poten*al ¡
  • Measure ¡the ¡cost ¡of ¡selec/ng ¡tube ¡ls ¡in ¡shot ¡s ¡
  • Δ: ¡prefer ¡tubes ¡visually ¡homogeneous ¡
  • Γ: ¡percentage ¡of ¡bounding-­‑box ¡perimeter ¡

touching ¡the ¡border ¡of ¡image ¡

  • Ω: ¡objectness ¡probability ¡of ¡ ¡the ¡bounding ¡box ¡
slide-53
SLIDE 53

Localizing ¡objects ¡in ¡real-­‑world ¡videos

  • Minimiza*on ¡
  • Find ¡the ¡configura/on ¡L* ¡of ¡tubes ¡over ¡all ¡

frames ¡that ¡minimizes ¡energy ¡E ¡

  • L* ¡is ¡the ¡final ¡output ¡and ¡will ¡be ¡used ¡to ¡train ¡

an ¡object ¡detector

slide-54
SLIDE 54

Results

  • Automa*c ¡tube ¡selec*on ¡ ¡
  • Compare ¡with ¡ground ¡truth ¡bounding ¡box ¡

(IoU>=50%) ¡

  • The ¡automa/c ¡tube ¡selec/on ¡technique ¡

selects ¡best ¡available ¡tube ¡most ¡of ¡/me

slide-55
SLIDE 55

Learning ¡a ¡detector ¡from ¡the ¡selected ¡ tubes

  • Sampling ¡bounding ¡box ¡
  • Reduce ¡the ¡number ¡to ¡manageable ¡quan/ty ¡
  • Select ¡samples ¡more ¡likely ¡to ¡contain ¡relevant ¡
  • bjects ¡(using ¡Γ ¡and ¡Ω ¡exactly) ¡
  • Train ¡the ¡object ¡detector ¡
  • DPM ¡
  • SPM
slide-56
SLIDE 56

Results

  • Models: ¡
  • VOC: ¡model ¡trained ¡on ¡PASCAL ¡dataset ¡
  • VMA: ¡model ¡trained ¡on ¡manually ¡annotated ¡

frames ¡from ¡video ¡

  • VID: ¡model ¡trained ¡on ¡video ¡with ¡the ¡

proposed ¡automa/c ¡pipeline ¡

  • Test ¡on ¡PASCAL ¡dataset
slide-57
SLIDE 57

Results

  • Object ¡detector ¡without ¡domain ¡adapta*on ¡
  • The ¡bounding ¡boxes ¡generated ¡by ¡the ¡

proposed ¡pipeline ¡is ¡closed ¡to ¡manually ¡ labeled ¡ones ¡

  • Performance ¡gap ¡across ¡domain ¡is ¡large
slide-58
SLIDE 58

Domain ¡adapta/on

  • Domain ¡difference: ¡
  • Higher ¡HOG ¡gradient ¡energy ¡in ¡images ¡
  • SVM ¡based ¡on ¡GIST ¡feature ¡to ¡dis/nguish ¡

video ¡from ¡images, ¡accuracy ¡83% ¡

slide-59
SLIDE 59

Domain ¡adapta/on

  • Large ¡quan/ty ¡of ¡video ¡(source ¡domain) ¡

training ¡data, ¡small ¡number ¡of ¡PASCAL ¡image ¡ (target ¡domain) ¡training ¡data ¡

  • Adapta*on ¡methods: ¡
  • All: ¡directly ¡train ¡a ¡single ¡classifier ¡using ¡the ¡

union ¡of ¡all ¡available ¡training ¡data ¡

  • Pred: ¡use ¡the ¡output ¡of ¡the ¡source ¡classifier ¡as ¡

an ¡addi/onal ¡feature ¡for ¡training ¡the ¡target ¡ classifier ¡

slide-60
SLIDE 60

Domain ¡adapta/on

  • Adapta*on ¡methods ¡(cont.): ¡
  • Prior: ¡the ¡parameters ¡of ¡the ¡source ¡classifier ¡

are ¡used ¡as ¡a ¡prior ¡when ¡learning ¡the ¡target ¡ classifier ¡

  • LinInt: ¡first ¡train ¡two ¡separate ¡classifiers ¡fs(x), ¡

ft(x) ¡from ¡the ¡source ¡and ¡the ¡target ¡training ¡ data, ¡and ¡then ¡linearly ¡interpolate ¡their ¡ predic/ons ¡on ¡new ¡target ¡data ¡at ¡test ¡/me ¡

slide-61
SLIDE 61

Results

  • Object ¡detector ¡with ¡domain ¡adapta*on ¡
  • Improvement ¡w.r.t. ¡VOC ¡model ¡
  • Most ¡method ¡(combine ¡VOC ¡training ¡data ¡at ¡early ¡

stage) ¡degrades ¡performance ¡

  • The ¡LinInt ¡is ¡immune ¡to ¡nega/ve ¡transfer ¡
  • Knowledge ¡can ¡be ¡transferred ¡from ¡video ¡to ¡image ¡

domain

slide-62
SLIDE 62
  • We ¡can ¡not ¡only ¡automa/cally ¡output ¡

bounding ¡boxes ¡on ¡video, ¡but ¡also ¡ automa/cally ¡segment ¡the ¡video ¡into ¡ background ¡and ¡foreground ¡object ¡

  • Fast ¡object ¡segmenta/on ¡in ¡unconstrained ¡

video

slide-63
SLIDE 63

Goal

  • Propose ¡an ¡automa/c ¡technique ¡for ¡

separa/ng ¡foreground ¡objects ¡from ¡the ¡ background ¡in ¡a ¡video ¡

  • Two ¡main ¡stages: ¡
  • 1) ¡Efficient ¡ini/al ¡foreground ¡es/ma/on ¡
  • 2) ¡Foreground-­‑background ¡labeling ¡

refinement

slide-64
SLIDE 64

Efficient ¡ini/al ¡foreground ¡es/ma/on

  • Op*cal ¡flow: ¡supports ¡large ¡displacement ¡and ¡

efficient ¡GPU ¡implementa/on ¡

  • Mo*on ¡boundaries: ¡ ¡
  • magnitude ¡of ¡the ¡gradient ¡of ¡the ¡op/cal ¡flow ¡

field ¡

  • difference ¡in ¡direc/on ¡between ¡the ¡mo/on ¡of ¡

pixel ¡p ¡and ¡its ¡neighbors ¡N ¡(if ¡n ¡is ¡moving ¡in ¡a ¡ different ¡direc/on ¡than ¡all ¡its ¡neighbors, ¡it ¡is ¡ likely ¡to ¡be ¡a ¡mo/on ¡boundary)

slide-65
SLIDE 65

Efficient ¡ini/al ¡foreground ¡es/ma/on

slide-66
SLIDE 66

Efficient ¡ini/al ¡foreground ¡es/ma/on

  • Problems ¡with ¡the ¡mo*on ¡boundaries: ¡
  • Do ¡not ¡completely ¡cover ¡the ¡whole ¡object ¡

boundary ¡

  • Subject ¡to ¡false ¡posi/ve
slide-67
SLIDE 67

Efficient ¡ini/al ¡foreground ¡es/ma/on

  • Inside-­‑outside ¡map ¡(e.g. ¡pixel ¡level, ¡0: ¡
  • utside, ¡1: ¡inside) ¡
  • Es/mates ¡whether ¡a ¡pixel ¡is ¡inside ¡the ¡object ¡

based ¡on ¡the ¡point-­‑in-­‑polygon ¡problem ¡

  • Any ¡ray ¡origina/ng ¡inside ¡a ¡

closed ¡curve ¡intersects ¡it ¡an ¡

  • dd ¡number ¡of ¡/me. ¡Any ¡ray ¡
  • rigina/ng ¡outside ¡intersects ¡it ¡

an ¡even ¡number ¡of ¡/mes.

slide-68
SLIDE 68

Efficient ¡ini/al ¡foreground ¡es/ma/on

  • Inside-­‑outside ¡map ¡(cont.) ¡
  • Incomplete ¡mo/on ¡boundary ¡
  • Shoo/ng ¡8 ¡rays ¡spaced ¡by ¡45 ¡degrees ¡
  • Majority ¡vote ¡for ¡final ¡decision ¡
  • Op/mized ¡data ¡structure ¡for ¡linear ¡/me ¡

implementa/on ¡when ¡compu/ng ¡the ¡map ¡

slide-69
SLIDE 69

Foreground-­‑background ¡labelling ¡ refinement

  • Pixel ¡labelling ¡problem ¡with ¡two ¡labels ¡

(foreground ¡and ¡background) ¡

  • Oversegment ¡each ¡frame ¡into ¡superpixels ¡
  • Assign ¡labels ¡to ¡superpixels ¡
  • Superpixel ¡i ¡at ¡frame ¡t ¡takes ¡a ¡label ¡
  • All ¡superpixels’ ¡labes ¡in ¡all ¡frames
slide-70
SLIDE 70

Foreground-­‑background ¡labelling ¡ refinement

  • Energy ¡func/on ¡
  • Output ¡segmenta/on ¡minimizes ¡
  • Minimize ¡with ¡graph-­‑cut
slide-71
SLIDE 71

Foreground-­‑background ¡labelling ¡ refinement

  • In ¡the ¡energy ¡func/on: ¡
  • A: ¡appearance ¡model, ¡one ¡for ¡foreground, ¡one ¡

for ¡background. ¡Es/mated ¡based ¡on ¡the ¡inside-­‑

  • utside ¡map ¡
  • L: ¡loca/on ¡model, ¡propagate ¡the ¡per-­‑frame ¡

inside-­‑outside ¡maps ¡over ¡/me ¡to ¡build ¡a ¡more ¡ complete ¡loca/on ¡prior ¡

  • V: ¡spa/al ¡smoothness ¡poten/al ¡defined ¡over ¡

edge ¡

  • W: ¡temporal ¡smoothness ¡poten/al ¡defined ¡over ¡

edge ¡

slide-72
SLIDE 72

Experiment ¡evalua/on

  • SegTrack ¡dataset: ¡6 ¡videos ¡
  • Evalua/on: ¡number ¡of ¡wrongly ¡labeled ¡pixels ¡

averaged ¡over ¡fall ¡frames

slide-73
SLIDE 73

Experiment ¡evalua/on

  • Considerably ¡outperforms ¡[6, ¡4, ¡18] ¡
  • On ¡par ¡with ¡[14], ¡which ¡is ¡remarkable, ¡given ¡

that ¡the ¡proposed ¡approach ¡is ¡simpler ¡

  • [27] ¡achieves ¡lower, ¡but ¡is ¡much ¡slower ¡
  • The ¡SegTrack ¡dataset ¡is ¡saturated
slide-74
SLIDE 74

Experiment ¡evalua/on

  • YouTube-­‑Objects ¡dataset: ¡
  • 10 ¡diverse ¡object ¡classes ¡
  • Ground ¡truth ¡bounding ¡box ¡provided ¡for ¡some ¡

frames ¡

  • Fit ¡bounding ¡box ¡to ¡largest ¡connected ¡

component ¡of ¡the ¡segmenta/on ¡output ¡

  • Evalua/on: ¡PASCAL ¡criterion ¡(IoU>=0.5)
slide-75
SLIDE 75

Experiment ¡evalua/on

slide-76
SLIDE 76

Experiment ¡evalua/on

  • Run*me: ¡
  • Intel ¡Core ¡i7 ¡2.0GHz ¡machine ¡
  • Given ¡op/cal ¡flow ¡and ¡superpixels, ¡it ¡takes ¡0.5 ¡

sec/frame ¡

  • Considerably ¡faster ¡than ¡the ¡other ¡strong ¡

baselines ¡(typically ¡>100 ¡sec/frame) ¡

slide-77
SLIDE 77
  • With ¡videos, ¡we ¡are ¡able ¡to ¡extract ¡objects, ¡

but ¡we ¡can ¡even ¡do ¡something ¡more ¡crazy, ¡ which ¡is ¡revealing ¡subtle ¡movement ¡of ¡objects ¡

  • At ¡last, ¡let’s ¡look ¡at ¡“Eulerian ¡Video ¡

Magnifica/on ¡for ¡Revealing ¡Subtle ¡Changes ¡in ¡ the ¡World”

slide-78
SLIDE 78

Goal

  • Reveal ¡temporal ¡varia/ons ¡in ¡videos ¡that ¡are ¡

difficult ¡or ¡impossible ¡to ¡see ¡with ¡the ¡naked ¡ eye ¡and ¡display ¡them ¡in ¡an ¡indica/ve ¡manner ¡

  • Input ¡standard ¡video ¡sequence ¡
  • Output ¡amplified ¡signal ¡to ¡reveal ¡hidden ¡

informa/on

slide-79
SLIDE 79

Results

  • hcps://www.youtube.com/watch?

v=e9ASH8IBJ2U ¡

slide-80
SLIDE 80

It’s ¡amazing, ¡right?

slide-81
SLIDE 81

How ¡it ¡works?

  • First-­‑order ¡mo*on ¡example: ¡
  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡image ¡intensity ¡at ¡posi/on ¡x ¡and ¡/me ¡t ¡
  • ¡ ¡ ¡ ¡ ¡ ¡: ¡displacement ¡func/on ¡
  • Mo/on ¡magnifica/on: ¡synthesize ¡the ¡signal ¡
  • α: ¡amplifica/on ¡factor ¡
slide-82
SLIDE 82

How ¡it ¡works?

  • ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡applying ¡a ¡broadband ¡temporal ¡bandpass ¡

filter, ¡picking ¡out ¡everything ¡except ¡f(x) ¡

  • Define ¡
  • Then ¡ ¡
  • And ¡
slide-83
SLIDE 83

How ¡it ¡works?

slide-84
SLIDE 84

How ¡it ¡works?

  • General ¡case: ¡δ(t) ¡is ¡not ¡en/rely ¡within ¡the ¡

passband ¡of ¡the ¡temporal ¡filter ¡B(x,t) ¡

  • δk(t): ¡different ¡temporal ¡spectral ¡components ¡
  • f ¡δ(t), ¡each ¡will ¡be ¡acenuated ¡by ¡the ¡filter ¡by ¡

a ¡factor ¡ϒk ¡

  • Then, ¡let
slide-85
SLIDE 85

How ¡it ¡works?

  • We ¡need ¡
  • For ¡high ¡spa/al ¡frequencies ¡and ¡large ¡

amplifica/on ¡factor ¡α, ¡the ¡first ¡order ¡Taylor ¡ expansion ¡may ¡not ¡hold ¡ ¡

  • So, ¡we ¡have ¡

¡ ¡ ¡ ¡Higher ¡spa/al ¡frequencies, ¡smaller ¡α

slide-86
SLIDE 86

How ¡it ¡works?

  • Ar/facts
slide-87
SLIDE 87

How ¡it ¡works?

  • Mul/scale ¡analysis ¡
  • Scale-­‑varying ¡process ¡
  • Assign ¡different ¡spa/al ¡frequencies ¡with ¡

different ¡magnifica/on ¡factor ¡α

slide-88
SLIDE 88

Pipeline

slide-89
SLIDE 89

Pipeline

  • Spa/al ¡decomposi/on: ¡video ¡pyramid ¡

constructed ¡by ¡a ¡separable ¡binomial ¡filter ¡of ¡ size ¡five ¡

  • Example ¡temporal ¡

¡ ¡ ¡ ¡filter ¡B(x,t), ¡task ¡ ¡ ¡ ¡ ¡specific ¡

slide-90
SLIDE 90

Thank ¡you!