SLIDE 1 Video ¡Object ¡Recogni/on
Chenyi ¡Chen
SLIDE 2 Mo/on ¡is ¡important
- How ¡important? ¡
- Let’s ¡first ¡look ¡at ¡“Visual ¡Parsing ¡AEer ¡
Recovery ¡From ¡Blindness” ¡
- This ¡is ¡a ¡real ¡“vision” ¡paper
SLIDE 3 Background
- Study ¡how ¡do ¡three ¡Indian ¡pa/ents ¡(subjects) ¡
develop ¡object ¡recogni/on ¡ability ¡aEer ¡long ¡ term ¡blindness ¡
- Give ¡treatment ¡to ¡the ¡subjects ¡
- During ¡recovery, ¡test ¡on ¡the ¡subjects ¡to ¡see ¡
how ¡they ¡perform ¡on ¡recogni/on ¡tasks ¡
SLIDE 4 Background
- The ¡subjects ¡are: ¡
- S.K.: ¡age ¡29, ¡male, ¡born ¡blindness, ¡M.A. ¡in ¡
poli/cal ¡science ¡
- J.A.: ¡age ¡13, ¡male, ¡born ¡blindness, ¡never ¡
received ¡educa/on ¡
- P.B.: ¡age ¡7, ¡male, ¡born ¡blindness ¡
- Control ¡group: ¡4 ¡normal ¡sighted ¡adults, ¡similar ¡
social ¡background
SLIDE 5
Subjects’ ¡parsing ¡of ¡sta/c ¡images
SLIDE 6
S.K. ¡versus ¡simple ¡region ¡par//on ¡ algorithm
SLIDE 7
Dynamic ¡informa/on ¡in ¡object ¡ segrega/on
SLIDE 8
Mo/lity ¡ra/ng ¡and ¡object ¡recogni/on ¡ results
SLIDE 9
Follow-‑up ¡tes/ng ¡aEer ¡several ¡months
SLIDE 10 What ¡do ¡we ¡learn ¡about ¡developing ¡ visual ¡parsing ¡skill
- Early ¡stages: ¡integra/ve ¡impairments, ¡
- verfragmenta/on ¡of ¡images, ¡compromise ¡
recogni/on ¡performance ¡
- However, ¡mo/on ¡effec/vely ¡mi/gates ¡these ¡
integra/ve ¡difficul/es ¡
- Mo/on ¡appears ¡to ¡be ¡instrumental ¡both ¡in ¡
segrega/ng ¡objects ¡and ¡in ¡binding ¡their ¡ cons/tuents ¡into ¡representa/ons ¡for ¡ recogni/on ¡
SLIDE 11
- So ¡we ¡have ¡some ¡insight ¡of ¡how ¡people ¡
developing ¡visual ¡recogni/on ¡ability ¡ ¡
- Can ¡we ¡reproduce ¡visual ¡learning ¡process ¡on ¡a ¡
robot? ¡
- Let’s ¡look ¡at ¡“Learning ¡about ¡Humans ¡During ¡
the ¡First ¡6 ¡Minutes ¡of ¡Life”
SLIDE 12
A ¡baby ¡robot
SLIDE 13 Hypothesis ¡in ¡social ¡development
- The ¡infant ¡brain ¡is ¡par/cularly ¡sensi/ve ¡to ¡the ¡
presence ¡of ¡con/ngencies ¡
- The ¡con/ngency ¡drives ¡the ¡defini/on ¡and ¡
recogni/on ¡of ¡caregivers ¡
- Human ¡faces ¡become ¡acrac/ve ¡because ¡they ¡
tend ¡to ¡occur ¡in ¡high ¡con/ngency ¡situa/ons
SLIDE 14 Goal
- Whether ¡acous/c ¡con/ngency ¡informa/on ¡
(sound) ¡would ¡be ¡sufficient ¡for ¡the ¡robot ¡to ¡ develop ¡preferences ¡for ¡human ¡faces ¡
- If ¡so, ¡get ¡a ¡sense ¡for ¡the ¡/me ¡scale ¡of ¡the ¡
learning ¡problem ¡
SLIDE 15
A ¡baby ¡robot
SLIDE 16 Sedngs
- The ¡baby ¡robot ¡interacted ¡with ¡the ¡lab ¡
members ¡while ¡recording ¡image ¡it ¡saw ¡
- Con/ngency ¡detec/on ¡engine ¡analyzes ¡sound ¡
signal ¡for ¡presence ¡of ¡con/ngencies ¡ ¡
- Whether ¡people ¡were ¡present ¡is ¡not ¡specified ¡
- Whether ¡people ¡were ¡of ¡any ¡par/cular ¡
relevance ¡is ¡not ¡specified ¡ ¡
- The ¡only ¡training ¡label ¡is ¡the ¡acous/c ¡
con/ngency ¡signal
SLIDE 17 Visual ¡learning ¡engine
- Probabilis/c ¡model ¡
- Only ¡needs ¡the ¡images ¡to ¡be ¡weakly ¡labeled ¡as ¡
containing ¡with ¡high ¡or ¡low ¡probability ¡the ¡
- bject ¡of ¡interest, ¡do ¡not ¡need ¡to ¡indicate ¡
where ¡the ¡objects ¡are ¡located ¡on ¡the ¡image ¡ plane ¡
- Implementable ¡in ¡a ¡neural ¡network ¡
- Run ¡in ¡real ¡/me ¡at ¡video ¡frame ¡rate
SLIDE 18 Hardware
- Plush ¡baby ¡doll ¡
- IEEE1394a ¡webcam ¡(capture ¡images, ¡only ¡
grayscale ¡images ¡used ¡for ¡training) ¡
- Microphone ¡(receive ¡auditory ¡signal) ¡
- Loudspeaker ¡(baby ¡makes ¡excited ¡noise) ¡
SLIDE 19 Collec/ng ¡data
- Record ¡the ¡auditory ¡and ¡visual ¡signals ¡for ¡88 ¡
minutes ¡
- 2877 ¡posi/ve ¡examples ¡
- 824 ¡nega/ve ¡examples ¡
- Baby ¡robot ¡was ¡placed ¡in ¡chair, ¡stroller, ¡and ¡a ¡
crib, ¡with ¡bright ¡or ¡dim ¡ligh/ng ¡condi/ons ¡
- 9 ¡persons ¡interacted ¡with ¡the ¡baby ¡robot
SLIDE 20 Collec/ng ¡data
- Select ¡34 ¡posi/ve ¡examples ¡and ¡200 ¡nega/ve ¡
examples ¡for ¡training ¡(approx. ¡5 ¡min ¡34 ¡sec). ¡ The ¡rest ¡are ¡used ¡for ¡tes/ng ¡
SLIDE 21 Results
- Evalua/on: ¡2-‑Alterna/ve ¡Forced ¡Choice ¡Task ¡
(2AFC) ¡
- 86.17% ¡on ¡the ¡face ¡detec/on ¡task ¡( ¡i.e., ¡
deciding ¡which ¡of ¡two ¡images ¡contained ¡a ¡face) ¡
- 89.7% ¡correct ¡on ¡the ¡con/ngency ¡task ¡(i.e., ¡
deciding ¡which ¡of ¡two ¡images ¡was ¡more ¡likely ¡to ¡ be ¡associated ¡with ¡an ¡auditory ¡con/ngency) ¡
- 92.3 ¡% ¡correct ¡on ¡the ¡person ¡detec/on ¡task ¡
(i.e., ¡deciding ¡which ¡image ¡contained ¡a ¡person).
SLIDE 22 Results
- Examples ¡images ¡and ¡their ¡pixel-‑wise ¡
probability ¡images
SLIDE 23 Results
- Infants ¡showed ¡a ¡significant ¡order ¡of ¡tracking ¡
preference ¡in ¡favor ¡the ¡face ¡s/mulus, ¡ followed ¡by ¡the ¡scrambled ¡s/mulus, ¡followed ¡ by ¡the ¡empty ¡s/mulus ¡
- The ¡robot ¡reproduce ¡the ¡
¡ ¡ ¡ ¡preference ¡order
SLIDE 24
- Video ¡usually ¡contains ¡more ¡data ¡for ¡object ¡
detector ¡training ¡
- There ¡is ¡a ¡domain ¡difference ¡between ¡video ¡
and ¡s/ll ¡image ¡
- So ¡“Analysing ¡domain ¡shiE ¡factors ¡between ¡
videos ¡and ¡images ¡for ¡object ¡detec/on” ¡is ¡ necessary
SLIDE 25 Goal
- For ¡a ¡given ¡target ¡test ¡domain ¡(image ¡or ¡
video), ¡the ¡performance ¡of ¡the ¡detector ¡ depends ¡on ¡the ¡domain ¡it ¡was ¡trained ¡on. ¡ ¡
- Examine ¡the ¡reasons ¡behind ¡this ¡performance ¡
- gap. ¡
- Train ¡an ¡object ¡detector ¡with ¡samples ¡either ¡
from ¡s/ll ¡images ¡or ¡from ¡video ¡frames ¡and ¡ then ¡test ¡the ¡detector ¡on ¡both ¡domains.
SLIDE 26 Dataset
- S/ll ¡images ¡(VOC) ¡
- PASCAL ¡VOC ¡2007 ¡
- 10 ¡class ¡of ¡moving ¡objects ¡chosen
SLIDE 27 Dataset
- Video ¡frames ¡(VID) ¡
- YouTube-‑Objects ¡dataset ¡
- 10 ¡classes ¡of ¡moving ¡objects ¡
- Further ¡annotated ¡a ¡few ¡images ¡to ¡make ¡the ¡
dataset ¡have ¡comparable ¡labels ¡with ¡VOC
SLIDE 28 Equalizing ¡the ¡number ¡of ¡samples ¡per ¡ class
- Equalize ¡the ¡training ¡samples ¡of ¡VOC ¡and ¡VID ¡
- 3097 ¡in ¡total ¡over ¡the ¡10 ¡classes ¡(Table. ¡1) ¡
- Only ¡the ¡equalized ¡training ¡sets ¡are ¡used ¡
- trainVOC ¡
- trainVID ¡
SLIDE 29 Domain ¡shiE ¡factors
- Spa/al ¡loca/on ¡accuracy: ¡accuracy ¡of ¡
bounding ¡box ¡
- Appearance ¡diversity: ¡consecu/ve ¡frames ¡in ¡
video ¡are ¡similar, ¡thus ¡less ¡diverse ¡
- Image ¡quality: ¡compression, ¡mo/on ¡blur ¡etc. ¡
in ¡video ¡images ¡
SLIDE 30 Spa/al ¡loca/on ¡accuracy
- Method ¡of ¡gedng ¡bounding ¡box ¡on ¡video: ¡
- PRE: ¡worst ¡
- FVS: ¡becer ¡
- Manual ¡label: ¡best
SLIDE 31 Spa/al ¡loca/on ¡accuracy
- Reduce ¡almost ¡4% ¡of ¡the ¡gap ¡(test ¡on ¡VOC)
SLIDE 32 Spa/al ¡loca/on ¡accuracy
- Equaliza/on: ¡using ¡the ¡ground ¡truth ¡(human ¡
labeled) ¡bounding ¡box ¡on ¡trainVID
SLIDE 33 Appearance ¡diversity
- Near ¡iden/cal ¡samples ¡of ¡an ¡object ¡in ¡video
SLIDE 34 Appearance ¡diversity
- Measure ¡diversity: ¡
- Clustering ¡(agglomera/ve ¡clustering, ¡L2 ¡
distance ¡of ¡HOG ¡features): ¡each ¡cluster ¡ contains ¡visually ¡very ¡similar ¡samples ¡
- Measure ¡appearance ¡diversity ¡by ¡coun/ng ¡the ¡
number ¡of ¡clusters ¡
- Equaliza/on: ¡resample ¡training ¡sets ¡so ¡the ¡
number ¡of ¡images ¡and ¡clusters ¡(of ¡trainVOC ¡ and ¡trainVID) ¡are ¡equal
SLIDE 35
Appearance ¡diversity
SLIDE 36 Appearance ¡diversity
- Bridge ¡the ¡gap ¡by ¡3.5% ¡(test ¡on ¡VOC) ¡
SLIDE 37 Image ¡quality
- Gradient ¡energy: ¡sum ¡of ¡gradient ¡magnitudes ¡
in ¡HOG ¡cells ¡
- Equaliza/on: ¡blur ¡trainVOC ¡by ¡applying ¡a ¡
Gaussian ¡filter ¡
SLIDE 38
Image ¡quality
SLIDE 39 Image ¡quality
- Closes ¡the ¡gap ¡by ¡1% ¡(test ¡on ¡VOC)
SLIDE 40 Training-‑test ¡set ¡correla/on
- The ¡final ¡7% ¡performance ¡gap ¡
- Domain-‑specific ¡correla/on/bias ¡
- Find ¡nearest ¡neighbor ¡of ¡tes/ng ¡images ¡in ¡
both ¡training ¡sets
SLIDE 41 Training-‑test ¡set ¡correla/on
- According ¡to ¡nearest ¡neighbor ¡criterion ¡
- testVOC ¡is ¡most ¡similar ¡to ¡trainVOC ¡
- testVID ¡is ¡most ¡similar ¡to ¡trainVID ¡
- Such ¡correla/on ¡leads ¡to ¡the ¡final ¡
performance ¡gap
SLIDE 42
- Now ¡we ¡understand ¡the ¡gap ¡between ¡video ¡
domain ¡and ¡s/ll ¡image ¡domain ¡
- We ¡s/ll ¡want ¡to ¡try ¡transferring ¡the ¡
knowledge ¡learnt ¡in ¡video ¡domain ¡to ¡image ¡ domain ¡
- OK, ¡then ¡let’s ¡look ¡at ¡“Learning ¡Object ¡Class ¡
Detectors ¡from ¡Weakly ¡Annotated ¡Video”
SLIDE 43 Benefits ¡of ¡video
- Easier ¡to ¡automa/cally ¡segment ¡the ¡object ¡
from ¡the ¡background ¡based ¡on ¡mo/on ¡ informa/on ¡
- Show ¡significant ¡appearances ¡varia/ons ¡of ¡an ¡
- bject ¡
- Provide ¡a ¡large ¡number ¡of ¡training ¡images
SLIDE 44 Pipeline
- Each ¡video ¡contains ¡an ¡object ¡as ¡indicated ¡by ¡
the ¡video ¡tag ¡
- Automa/cally ¡localize ¡object ¡in ¡video ¡clips, ¡
- utput ¡one ¡bounding ¡box ¡for ¡each ¡video ¡
- Learn ¡a ¡detector ¡from ¡the ¡video ¡images ¡and ¡
corresponding ¡bounding ¡boxes ¡
- Domain ¡adapta/on ¡
- Test ¡the ¡detector ¡on ¡PASCAL ¡07 ¡dataset ¡
SLIDE 45 Localizing ¡objects ¡in ¡real-‑world ¡videos
- Extract ¡shots ¡of ¡coherent ¡mo/on ¡from ¡each ¡
video ¡
- Robustly ¡fit ¡spa/o-‑temporal ¡bounding ¡boxes ¡
(tube) ¡to ¡each ¡shot ¡(3~15 ¡tubes ¡per ¡shot) ¡
- Jointly ¡select ¡one ¡tube ¡per ¡video ¡by ¡
minimizing ¡an ¡energy ¡func/on ¡of ¡similarity ¡
- The ¡selected ¡tubes ¡are ¡the ¡output ¡of ¡the ¡
algorithm ¡(used ¡to ¡train ¡a ¡detector)
SLIDE 46
Localizing ¡objects ¡in ¡real-‑world ¡videos
SLIDE 47 Localizing ¡objects ¡in ¡real-‑world ¡videos
- Temporal ¡par**oning ¡into ¡shot ¡
- Abrupt ¡changes ¡of ¡the ¡visual ¡content ¡of ¡the ¡
video ¡
- Thresholding ¡color ¡histogram ¡differences ¡in ¡
consecu/ve ¡frames ¡ ¡
SLIDE 48 Localizing ¡objects ¡in ¡real-‑world ¡videos
- Forming ¡candidate ¡tubes ¡
- Large-‑displacement ¡op/cal ¡flow ¡(LDOF) ¡
- Clustering ¡the ¡dense ¡point ¡tracks ¡based ¡on ¡the ¡
similarity ¡in ¡their ¡mo/on ¡and ¡proximity ¡in ¡ loca/on ¡
- Fit ¡spa/o-‑temporal ¡bounding ¡box ¡to ¡each ¡
mo/on ¡segment
SLIDE 49 Localizing ¡objects ¡in ¡real-‑world ¡videos
SLIDE 50 Localizing ¡objects ¡in ¡real-‑world ¡videos
- Joint ¡selec*on ¡of ¡tubes ¡
- Energy ¡func/on ¡
- Each ¡frame ¡s ¡has ¡mul/ple ¡candidate ¡tubes ¡
- Select ¡one ¡tube ¡from ¡the ¡candidates ¡for ¡each ¡
frame ¡s ¡
- Selected ¡tubes ¡over ¡all ¡the ¡frames ¡
- Coefficient ¡α ¡
SLIDE 51 Localizing ¡objects ¡in ¡real-‑world ¡videos
- The ¡pairwise ¡poten*al ¡
- Measure ¡appearance ¡dissimilarity ¡
- Encourage ¡selec/ng ¡tubes ¡look ¡similar ¡over ¡
/me ¡
- Tube ¡ls, ¡lq ¡in ¡two ¡different ¡frame ¡s, ¡q ¡
- Dissimilarity ¡func/ons ¡Δ ¡(two ¡types ¡of ¡
features) ¡compare ¡the ¡appearance ¡of ¡the ¡two ¡ tubes
SLIDE 52 Localizing ¡objects ¡in ¡real-‑world ¡videos
- The ¡unary ¡poten*al ¡
- Measure ¡the ¡cost ¡of ¡selec/ng ¡tube ¡ls ¡in ¡shot ¡s ¡
- Δ: ¡prefer ¡tubes ¡visually ¡homogeneous ¡
- Γ: ¡percentage ¡of ¡bounding-‑box ¡perimeter ¡
touching ¡the ¡border ¡of ¡image ¡
- Ω: ¡objectness ¡probability ¡of ¡ ¡the ¡bounding ¡box ¡
SLIDE 53 Localizing ¡objects ¡in ¡real-‑world ¡videos
- Minimiza*on ¡
- Find ¡the ¡configura/on ¡L* ¡of ¡tubes ¡over ¡all ¡
frames ¡that ¡minimizes ¡energy ¡E ¡
- L* ¡is ¡the ¡final ¡output ¡and ¡will ¡be ¡used ¡to ¡train ¡
an ¡object ¡detector
SLIDE 54 Results
- Automa*c ¡tube ¡selec*on ¡ ¡
- Compare ¡with ¡ground ¡truth ¡bounding ¡box ¡
(IoU>=50%) ¡
- The ¡automa/c ¡tube ¡selec/on ¡technique ¡
selects ¡best ¡available ¡tube ¡most ¡of ¡/me
SLIDE 55 Learning ¡a ¡detector ¡from ¡the ¡selected ¡ tubes
- Sampling ¡bounding ¡box ¡
- Reduce ¡the ¡number ¡to ¡manageable ¡quan/ty ¡
- Select ¡samples ¡more ¡likely ¡to ¡contain ¡relevant ¡
- bjects ¡(using ¡Γ ¡and ¡Ω ¡exactly) ¡
- Train ¡the ¡object ¡detector ¡
- DPM ¡
- SPM
SLIDE 56 Results
- Models: ¡
- VOC: ¡model ¡trained ¡on ¡PASCAL ¡dataset ¡
- VMA: ¡model ¡trained ¡on ¡manually ¡annotated ¡
frames ¡from ¡video ¡
- VID: ¡model ¡trained ¡on ¡video ¡with ¡the ¡
proposed ¡automa/c ¡pipeline ¡
- Test ¡on ¡PASCAL ¡dataset
SLIDE 57 Results
- Object ¡detector ¡without ¡domain ¡adapta*on ¡
- The ¡bounding ¡boxes ¡generated ¡by ¡the ¡
proposed ¡pipeline ¡is ¡closed ¡to ¡manually ¡ labeled ¡ones ¡
- Performance ¡gap ¡across ¡domain ¡is ¡large
SLIDE 58 Domain ¡adapta/on
- Domain ¡difference: ¡
- Higher ¡HOG ¡gradient ¡energy ¡in ¡images ¡
- SVM ¡based ¡on ¡GIST ¡feature ¡to ¡dis/nguish ¡
video ¡from ¡images, ¡accuracy ¡83% ¡
SLIDE 59 Domain ¡adapta/on
- Large ¡quan/ty ¡of ¡video ¡(source ¡domain) ¡
training ¡data, ¡small ¡number ¡of ¡PASCAL ¡image ¡ (target ¡domain) ¡training ¡data ¡
- Adapta*on ¡methods: ¡
- All: ¡directly ¡train ¡a ¡single ¡classifier ¡using ¡the ¡
union ¡of ¡all ¡available ¡training ¡data ¡
- Pred: ¡use ¡the ¡output ¡of ¡the ¡source ¡classifier ¡as ¡
an ¡addi/onal ¡feature ¡for ¡training ¡the ¡target ¡ classifier ¡
SLIDE 60 Domain ¡adapta/on
- Adapta*on ¡methods ¡(cont.): ¡
- Prior: ¡the ¡parameters ¡of ¡the ¡source ¡classifier ¡
are ¡used ¡as ¡a ¡prior ¡when ¡learning ¡the ¡target ¡ classifier ¡
- LinInt: ¡first ¡train ¡two ¡separate ¡classifiers ¡fs(x), ¡
ft(x) ¡from ¡the ¡source ¡and ¡the ¡target ¡training ¡ data, ¡and ¡then ¡linearly ¡interpolate ¡their ¡ predic/ons ¡on ¡new ¡target ¡data ¡at ¡test ¡/me ¡
SLIDE 61 Results
- Object ¡detector ¡with ¡domain ¡adapta*on ¡
- Improvement ¡w.r.t. ¡VOC ¡model ¡
- Most ¡method ¡(combine ¡VOC ¡training ¡data ¡at ¡early ¡
stage) ¡degrades ¡performance ¡
- The ¡LinInt ¡is ¡immune ¡to ¡nega/ve ¡transfer ¡
- Knowledge ¡can ¡be ¡transferred ¡from ¡video ¡to ¡image ¡
domain
SLIDE 62
- We ¡can ¡not ¡only ¡automa/cally ¡output ¡
bounding ¡boxes ¡on ¡video, ¡but ¡also ¡ automa/cally ¡segment ¡the ¡video ¡into ¡ background ¡and ¡foreground ¡object ¡
- Fast ¡object ¡segmenta/on ¡in ¡unconstrained ¡
video
SLIDE 63 Goal
- Propose ¡an ¡automa/c ¡technique ¡for ¡
separa/ng ¡foreground ¡objects ¡from ¡the ¡ background ¡in ¡a ¡video ¡
- Two ¡main ¡stages: ¡
- 1) ¡Efficient ¡ini/al ¡foreground ¡es/ma/on ¡
- 2) ¡Foreground-‑background ¡labeling ¡
refinement
SLIDE 64 Efficient ¡ini/al ¡foreground ¡es/ma/on
- Op*cal ¡flow: ¡supports ¡large ¡displacement ¡and ¡
efficient ¡GPU ¡implementa/on ¡
- Mo*on ¡boundaries: ¡ ¡
- magnitude ¡of ¡the ¡gradient ¡of ¡the ¡op/cal ¡flow ¡
field ¡
- difference ¡in ¡direc/on ¡between ¡the ¡mo/on ¡of ¡
pixel ¡p ¡and ¡its ¡neighbors ¡N ¡(if ¡n ¡is ¡moving ¡in ¡a ¡ different ¡direc/on ¡than ¡all ¡its ¡neighbors, ¡it ¡is ¡ likely ¡to ¡be ¡a ¡mo/on ¡boundary)
SLIDE 65
Efficient ¡ini/al ¡foreground ¡es/ma/on
SLIDE 66 Efficient ¡ini/al ¡foreground ¡es/ma/on
- Problems ¡with ¡the ¡mo*on ¡boundaries: ¡
- Do ¡not ¡completely ¡cover ¡the ¡whole ¡object ¡
boundary ¡
- Subject ¡to ¡false ¡posi/ve
SLIDE 67 Efficient ¡ini/al ¡foreground ¡es/ma/on
- Inside-‑outside ¡map ¡(e.g. ¡pixel ¡level, ¡0: ¡
- utside, ¡1: ¡inside) ¡
- Es/mates ¡whether ¡a ¡pixel ¡is ¡inside ¡the ¡object ¡
based ¡on ¡the ¡point-‑in-‑polygon ¡problem ¡
- Any ¡ray ¡origina/ng ¡inside ¡a ¡
closed ¡curve ¡intersects ¡it ¡an ¡
- dd ¡number ¡of ¡/me. ¡Any ¡ray ¡
- rigina/ng ¡outside ¡intersects ¡it ¡
an ¡even ¡number ¡of ¡/mes.
SLIDE 68 Efficient ¡ini/al ¡foreground ¡es/ma/on
- Inside-‑outside ¡map ¡(cont.) ¡
- Incomplete ¡mo/on ¡boundary ¡
- Shoo/ng ¡8 ¡rays ¡spaced ¡by ¡45 ¡degrees ¡
- Majority ¡vote ¡for ¡final ¡decision ¡
- Op/mized ¡data ¡structure ¡for ¡linear ¡/me ¡
implementa/on ¡when ¡compu/ng ¡the ¡map ¡
SLIDE 69 Foreground-‑background ¡labelling ¡ refinement
- Pixel ¡labelling ¡problem ¡with ¡two ¡labels ¡
(foreground ¡and ¡background) ¡
- Oversegment ¡each ¡frame ¡into ¡superpixels ¡
- Assign ¡labels ¡to ¡superpixels ¡
- Superpixel ¡i ¡at ¡frame ¡t ¡takes ¡a ¡label ¡
- All ¡superpixels’ ¡labes ¡in ¡all ¡frames
SLIDE 70 Foreground-‑background ¡labelling ¡ refinement
- Energy ¡func/on ¡
- Output ¡segmenta/on ¡minimizes ¡
- Minimize ¡with ¡graph-‑cut
SLIDE 71 Foreground-‑background ¡labelling ¡ refinement
- In ¡the ¡energy ¡func/on: ¡
- A: ¡appearance ¡model, ¡one ¡for ¡foreground, ¡one ¡
for ¡background. ¡Es/mated ¡based ¡on ¡the ¡inside-‑
- utside ¡map ¡
- L: ¡loca/on ¡model, ¡propagate ¡the ¡per-‑frame ¡
inside-‑outside ¡maps ¡over ¡/me ¡to ¡build ¡a ¡more ¡ complete ¡loca/on ¡prior ¡
- V: ¡spa/al ¡smoothness ¡poten/al ¡defined ¡over ¡
edge ¡
- W: ¡temporal ¡smoothness ¡poten/al ¡defined ¡over ¡
edge ¡
SLIDE 72 Experiment ¡evalua/on
- SegTrack ¡dataset: ¡6 ¡videos ¡
- Evalua/on: ¡number ¡of ¡wrongly ¡labeled ¡pixels ¡
averaged ¡over ¡fall ¡frames
SLIDE 73 Experiment ¡evalua/on
- Considerably ¡outperforms ¡[6, ¡4, ¡18] ¡
- On ¡par ¡with ¡[14], ¡which ¡is ¡remarkable, ¡given ¡
that ¡the ¡proposed ¡approach ¡is ¡simpler ¡
- [27] ¡achieves ¡lower, ¡but ¡is ¡much ¡slower ¡
- The ¡SegTrack ¡dataset ¡is ¡saturated
SLIDE 74 Experiment ¡evalua/on
- YouTube-‑Objects ¡dataset: ¡
- 10 ¡diverse ¡object ¡classes ¡
- Ground ¡truth ¡bounding ¡box ¡provided ¡for ¡some ¡
frames ¡
- Fit ¡bounding ¡box ¡to ¡largest ¡connected ¡
component ¡of ¡the ¡segmenta/on ¡output ¡
- Evalua/on: ¡PASCAL ¡criterion ¡(IoU>=0.5)
SLIDE 75
Experiment ¡evalua/on
SLIDE 76 Experiment ¡evalua/on
- Run*me: ¡
- Intel ¡Core ¡i7 ¡2.0GHz ¡machine ¡
- Given ¡op/cal ¡flow ¡and ¡superpixels, ¡it ¡takes ¡0.5 ¡
sec/frame ¡
- Considerably ¡faster ¡than ¡the ¡other ¡strong ¡
baselines ¡(typically ¡>100 ¡sec/frame) ¡
SLIDE 77
- With ¡videos, ¡we ¡are ¡able ¡to ¡extract ¡objects, ¡
but ¡we ¡can ¡even ¡do ¡something ¡more ¡crazy, ¡ which ¡is ¡revealing ¡subtle ¡movement ¡of ¡objects ¡
- At ¡last, ¡let’s ¡look ¡at ¡“Eulerian ¡Video ¡
Magnifica/on ¡for ¡Revealing ¡Subtle ¡Changes ¡in ¡ the ¡World”
SLIDE 78 Goal
- Reveal ¡temporal ¡varia/ons ¡in ¡videos ¡that ¡are ¡
difficult ¡or ¡impossible ¡to ¡see ¡with ¡the ¡naked ¡ eye ¡and ¡display ¡them ¡in ¡an ¡indica/ve ¡manner ¡
- Input ¡standard ¡video ¡sequence ¡
- Output ¡amplified ¡signal ¡to ¡reveal ¡hidden ¡
informa/on
SLIDE 79 Results
- hcps://www.youtube.com/watch?
v=e9ASH8IBJ2U ¡
SLIDE 80
It’s ¡amazing, ¡right?
SLIDE 81 How ¡it ¡works?
- First-‑order ¡mo*on ¡example: ¡
- ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡image ¡intensity ¡at ¡posi/on ¡x ¡and ¡/me ¡t ¡
- ¡ ¡ ¡ ¡ ¡ ¡: ¡displacement ¡func/on ¡
- Mo/on ¡magnifica/on: ¡synthesize ¡the ¡signal ¡
- α: ¡amplifica/on ¡factor ¡
SLIDE 82 How ¡it ¡works?
- ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡applying ¡a ¡broadband ¡temporal ¡bandpass ¡
filter, ¡picking ¡out ¡everything ¡except ¡f(x) ¡
SLIDE 83
How ¡it ¡works?
SLIDE 84 How ¡it ¡works?
- General ¡case: ¡δ(t) ¡is ¡not ¡en/rely ¡within ¡the ¡
passband ¡of ¡the ¡temporal ¡filter ¡B(x,t) ¡
- δk(t): ¡different ¡temporal ¡spectral ¡components ¡
- f ¡δ(t), ¡each ¡will ¡be ¡acenuated ¡by ¡the ¡filter ¡by ¡
a ¡factor ¡ϒk ¡
SLIDE 85 How ¡it ¡works?
- We ¡need ¡
- For ¡high ¡spa/al ¡frequencies ¡and ¡large ¡
amplifica/on ¡factor ¡α, ¡the ¡first ¡order ¡Taylor ¡ expansion ¡may ¡not ¡hold ¡ ¡
¡ ¡ ¡ ¡Higher ¡spa/al ¡frequencies, ¡smaller ¡α
SLIDE 87 How ¡it ¡works?
- Mul/scale ¡analysis ¡
- Scale-‑varying ¡process ¡
- Assign ¡different ¡spa/al ¡frequencies ¡with ¡
different ¡magnifica/on ¡factor ¡α
SLIDE 88
Pipeline
SLIDE 89 Pipeline
- Spa/al ¡decomposi/on: ¡video ¡pyramid ¡
constructed ¡by ¡a ¡separable ¡binomial ¡filter ¡of ¡ size ¡five ¡
¡ ¡ ¡ ¡filter ¡B(x,t), ¡task ¡ ¡ ¡ ¡ ¡specific ¡
SLIDE 90
Thank ¡you!