Learning ¡Realis,c ¡Human ¡Ac,ons ¡ from ¡Movies ¡
- I. ¡Laptev, ¡M. ¡Marszałek, ¡C. ¡Schmid ¡and ¡B. ¡Rozenfeld. ¡ ¡CVPR ¡2008. ¡
Learning Realis,c Human Ac,ons from Movies I. Laptev, M. - - PowerPoint PPT Presentation
Learning Realis,c Human Ac,ons from Movies I. Laptev, M. Marszaek, C. Schmid and B. Rozenfeld. CVPR 2008. Presented by: Islam Beltagy Girish
Problems: ¡
Slide ¡from: ¡link ¡
… 1172 01:20:17,240 --> 01:20:20,437 Why weren't you honest with me? Why'd you keep your marriage a secret? 1173 01:20:20,640 --> 01:20:23,598 lt wasn't my secret, Richard. Victor wanted it that way. 1174 01:20:23,800 --> 01:20:26,189 Not even our closest friends knew about our marriage. … … RICK Why weren't you honest with me? Why did you keep your marriage a secret? Rick sits down with Ilsa. ILSA Oh, it wasn't my secret, Richard. Victor wanted it that way. Not even
marriage. … 01:20:17 01:20:23
sub,tles ¡ movie ¡script ¡
¡ ¡www.dailyscript.com, ¡www.movie-‑page.com, ¡www.weeklyscript.com ¡… ¡
Slide ¡from: ¡link ¡
Example ¡of ¡a ¡“visual ¡false ¡posi2ve” ¡
A ¡black ¡car ¡pulls ¡up, ¡two ¡army ¡
a: ¡quality ¡of ¡sub2tle-‑script ¡matching ¡ ¡ Slide ¡from: ¡link ¡
Bag ¡of ¡space-‑2me ¡features ¡+ ¡mul2-‑channel ¡SVM ¡
Histogram ¡of ¡visual ¡words ¡ Mul2-‑channel ¡ SVM ¡ Classifier ¡ Collec2on ¡of ¡space-‑2me ¡patches ¡ HOG ¡& ¡HOF ¡ patch ¡ descriptors ¡ Visual ¡vocabulary ¡ [Schuldt’04, ¡Niebles’06, ¡Zhang’07] ¡
Slide ¡from: ¡link ¡
[Laptev, ¡IJCV ¡2005] ¡
Slide ¡from: ¡link ¡
spa2al ¡grad. ¡(HOG) ¡ Histogram ¡
flow ¡(HOF) ¡ 3x3x2x4bins ¡HOG ¡ descriptor ¡ 3x3x2x5bins ¡HOF ¡ descriptor ¡ Public ¡code ¡available ¡at ¡ www.irisa.fr/vista/ac2ons ¡
Mul2-‑scale ¡space-‑2me ¡patches ¡from ¡ corner ¡detector ¡ Slide ¡from: ¡link ¡
¡ ¡In ¡the ¡spa2al ¡domain: ¡
1x1 ¡(standard ¡BoF) ¡ 2x2, ¡o2x2 ¡(50% ¡overlap) ¡ h3x1 ¡(horizontal), ¡v1x3 ¡(ver2cal) ¡ 3x3 ¡
¡ ¡In ¡the ¡temporal ¡domain: ¡
t1 ¡(standard ¡BoF), ¡t2, ¡t3 ¡
Slide ¡from: ¡link ¡
Channel ¡c ¡is ¡a ¡combina2on ¡of ¡a ¡detector, ¡descriptor ¡and ¡a ¡
Dc(Hi, ¡Hj) ¡is ¡the ¡chi-‑square ¡distance ¡between ¡histograms ¡ Ac ¡is ¡the ¡mean ¡value ¡of ¡the ¡distances ¡between ¡all ¡training ¡
The ¡best ¡set ¡of ¡channels ¡C ¡for ¡a ¡given ¡training ¡set ¡is ¡found ¡
Slide ¡from: ¡link ¡
For ¡the ¡Hollywood ¡Dataset, ¡ STIPs ¡are ¡calculated ¡only ¡ for ¡specified ¡start ¡& ¡end ¡ frames ¡from ¡the ¡ annota2ons ¡file ¡& ¡not ¡for ¡ the ¡whole ¡clip, ¡unlike ¡the ¡ KTH ¡ac2on ¡clips… ¡
Link ¡
Between ¡which ¡2 ¡categories ¡do ¡you ¡expect ¡the ¡ ¡ most ¡confusion ¡in ¡a ¡6 ¡way ¡mul2-‑classifica2on ¡ task? ¡
KTH ¡Training ¡& ¡Tes2ng ¡ split ¡are ¡based ¡on ¡ making ¡sure ¡that ¡the ¡ same ¡person ¡(actor) ¡ doesn’t ¡appear ¡in ¡both ¡ training ¡& ¡tes2ng! ¡
Between ¡which ¡2 ¡categories ¡do ¡you ¡expect ¡the ¡ ¡ most ¡confusion ¡in ¡a ¡4 ¡way ¡mul2-‑classifica2on ¡ task? ¡
Hollywood ¡Training ¡& ¡ Tes2ng ¡split ¡are ¡based ¡
from ¡the ¡same ¡movie ¡ don’t ¡appear ¡in ¡both ¡ training ¡& ¡tes2ng! ¡
(classes*tests ¡per ¡class) ¡
% ¡ BOXING ¡ CLAPPING ¡ WAVING ¡ JOGGING ¡ RUNNING ¡ WALKING ¡ BOXING ¡ 39 ¡ 47 ¡ 0 ¡ 0 ¡ 0 ¡ 14 ¡ CLAPPING ¡ 0 ¡ 100 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ WAVING ¡ 0 ¡ 11 ¡ 89 ¡ 0 ¡ 0 ¡ 0 ¡ JOGGING ¡ 0 ¡ 0 ¡ 0 ¡ 81 ¡ 13 ¡ 16 ¡ RUNNING ¡ 0 ¡ 0 ¡ 0 ¡ 17 ¡ 83 ¡ 0 ¡ WALKING ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 100 ¡ 81.94% ¡
% ¡ GetOutCar ¡ HandShake ¡ Kiss ¡ Stand-‑Up ¡ GetOutCar ¡ 56 ¡ 0 ¡ 0 ¡ 44 ¡ HandShake ¡ 22 ¡ 11 ¡ 0 ¡ 67 ¡ Kiss ¡ 0 ¡ 0 ¡ 11 ¡ 89 ¡ Stand-‑Up ¡ 0 ¡ 0 ¡ 0 ¡ 100 ¡ 44.44% ¡
Hollywood ¡
v/s ¡ ¡
% ¡ GetOutCar ¡ HandShake ¡ Kiss ¡ Stand-‑Up ¡ GetOutCar ¡ 89 ¡ 0 ¡ 11 ¡ 0 ¡ HandShake ¡ 67 ¡ 22 ¡ 11 ¡ 0 ¡ Kiss ¡ 56 ¡ 22 ¡ 22 ¡ 0 ¡ Stand-‑Up ¡ 56 ¡ 22 ¡ 22 ¡ 0 ¡ 33.33% ¡
Hollywood ¡
v/s ¡ ¡
Dataset ¡
(classes*tests ¡per ¡class) ¡
XY ¡ XYT ¡ XYT3 ¡ KTH ¡
(6*36=216) ¡
76.39% ¡ (165) ¡ 79.17% ¡(171) ¡ 80.56% ¡ ¡ (174) ¡
Hollywood ¡ (4*9=36) ¡
36.11% ¡ (13) ¡ 41.67% ¡ (15) ¡ 47.22% ¡ (17) ¡ Data ¡ HOG ¡ HOF ¡ KTH ¡ 69.44 ¡ 81.94 ¡
Hollywood ¡
44.44 ¡ 30.56 ¡
Versus ¡earlier ¡classifica,on ¡based ¡on ¡HOG/HOF ¡extracted ¡at ¡those ¡STIPs ¡