Telefonica ¡Research ¡ Mul1modal ¡Video ¡copy ¡detec1on ¡
Xavier ¡Anguera, ¡Tomasz ¡Adamek ¡and ¡ Ehsan ¡Younessian* ¡
*School ¡of ¡Computer ¡Engineering, ¡Nanyang ¡Technology ¡ Univ., ¡Singapore, ¡Singapore ¡
Telefonica Research Mul1modal Video copy detec1on Xavier - - PowerPoint PPT Presentation
Telefonica Research Mul1modal Video copy detec1on Xavier Anguera, Tomasz Adamek and Ehsan Younessian* *School of Computer Engineering, Nanyang Technology Univ.,
*School ¡of ¡Computer ¡Engineering, ¡Nanyang ¡Technology ¡ Univ., ¡Singapore, ¡Singapore ¡
the ¡Telefónica ¡Group ¡
centre ¡in ¡Spain ¡ ¡
telecommunica1ons ¡companies ¡by ¡market ¡cap ¡ – operates ¡in ¡25 ¡countries ¡ – customer ¡base ¡277.8 ¡million ¡
Audio-‑only ¡ system ¡ Video-‑only ¡ system ¡ Ranking ¡& ¡relevance ¡ fusion ¡
Video-‑
results ¡ Audio-‑
results ¡ Mul1modal results ¡ Features ¡extrac1on ¡ and ¡indexing ¡
Audio ¡
Video ¡
Video ¡query ¡
Video ¡query ¡ Key-‑frame ¡ extrac1on ¡
Local ¡features ¡extrac1on ¡
Temporal ¡ consistency ¡ ¡ post-‑processing ¡ Matched ¡video ¡ segments ¡ Key-‑frame ¡ matching ¡ ¡
indexing ¡info. ¡ Inserted ¡sta1c ¡ text ¡& ¡banners ¡ filtering ¡ Sub1tle ¡ filtering ¡ Temporal ¡stability ¡& ¡ scale ¡filtering ¡ DART ¡ extrac1on ¡
* ¡D. ¡Marimon, ¡A. ¡Bonnin, ¡T. ¡Adamek, ¡and ¡R ¡.Gimeno, ¡“DARTs:Efficient ¡scale-‑space ¡ extrac1on ¡of ¡daisy ¡key-‑points”, ¡CVPR ¡2009. ¡
2D ¡triangle-‑shaped ¡kernel ¡ Approxima1on ¡of ¡the ¡2nd ¡ deriva1ve ¡of ¡Gaussian ¡ * ¡P. ¡Heckbert, ¡“Filtering ¡by ¡repeated ¡integra1on” ¡SIGGRAPH ¡1986 ¡
* ¡S. ¡Winder, ¡G. ¡Hua, ¡and ¡M. ¡Brown, ¡“Picking ¡the ¡best ¡daisy”, ¡CVPR ¡2009. ¡
CURRENT ¡FRAME ¡ PREVIOUS ¡FRAME ¡ NEXT ¡FRAME ¡
1 ¡ 2 ¡ 1 ¡ 1 ¡
Feature ¡ extrac1on ¡ Mapping ¡ key-‑points ¡to ¡ Visual ¡Words ¡ Adding ¡hits ¡to ¡ inverted ¡file ¡ structure ¡
DART ¡ key-‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Key-‑points ¡ represented ¡with ¡ VW ¡IDs ¡ Hits ¡ 100K ¡VWs ¡
Feature ¡ extrac1on ¡ Mapping ¡ key-‑points ¡to ¡ Visual ¡Words ¡ Vo1ng ¡in ¡the ¡ reduced ¡pose ¡ space ¡ Query ¡key-‑frames ¡ DART ¡ key-‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Key-‑point ¡VW ¡IDs ¡ Selec1on ¡of ¡ relevant ¡ ¡
250 ¡top ¡ranked ¡
Full ¡spa1al ¡ consistency ¡ verifica1on ¡ 100K ¡VWs ¡
Ref ¡keyframe ¡ ¡ tr ¡ Query ¡keyframe ¡ ¡ tq ¡ Δt=tr-‑tq ¡ Δt ¡
Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡
±10s ¡
query ¡video ¡
0.4 ¡ 0.6 ¡ 0.8 ¡ 1 ¡ 1 ¡ 3 ¡ 5 ¡ 7 ¡ 9 ¡ 11 ¡ 13 ¡ 15 ¡ 17 ¡ 19 ¡ 21 ¡ 23 ¡ 25 ¡ 27 ¡ 29 ¡ 31 ¡ 33 ¡ 35 ¡ 37 ¡
Matching ¡ ¡ segment ¡start ¡ Matching ¡ ¡ Segment ¡end ¡ Final ¡video ¡score ¡ Moving ¡average ¡
Fingerprint ¡ extrac1on ¡ Reference ¡video/s ¡ Query ¡video ¡ Fingerprint ¡ hashing ¡ Fingerprint ¡ extrac1on ¡ Deltas ¡histogram ¡ Main ¡peak ¡ selec1on ¡ Matching ¡ density ¡
Matching ¡ algorithm ¡
*T. ¡Kalker ¡and ¡J. ¡Haitsma. ¡A ¡highly ¡robust ¡audio ¡finger-‑ ¡prin1ng ¡system. ¡In ¡Proceedings ¡of ¡ ISMIR’2002, ¡pages ¡144–148, ¡2002. ¡
10ms ¡ 17 ¡MEL-‑spectrum ¡bands ¡
10ms ¡
0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡
16bits ¡
X[i]= iif Ei ! Ei"1 1
# $ % & % 17 ¡MEL-‑spectrum ¡bands ¡
Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-‑tq ¡ Δt ¡
1) ¡ Step ¡1: ¡insert ¡all ¡matches ¡into ¡a ¡histogram ¡based ¡on ¡rela1ve ¡1mes ¡and ¡select ¡the ¡biggest ¡ For ¡every ¡rela1ve ¡1me ¡a ¡different ¡node ¡is ¡created ¡if: ¡
Node ¡with ¡count ¡7 ¡ Count ¡2 ¡ Count ¡4 ¡ >5s ¡
0 ¡ 5 ¡ 10 ¡ 15 ¡
Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-‑tq ¡ Δt ¡ Matching ¡Threshold ¡
1) ¡ 2) ¡ Hamming ¡distance ¡
0 ¡ 5 ¡ 10 ¡ 15 ¡
Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-‑tq ¡ Δt ¡
0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡
Matching ¡Threshold ¡ Output ¡score ¡[0,1] ¡ ¡
1) ¡ 2) ¡ 3) ¡ 10s ¡moving ¡average ¡
Audio-‑only ¡ system ¡ Video-‑only ¡ system ¡ Matching ¡segments ¡fusion ¡
Features ¡extrac1on ¡ and ¡indexing ¡
Audio ¡
Video ¡
Video ¡query ¡
Matching ¡score ¡ normaliza1on ¡ 20best ¡ 20best ¡ Matching ¡score ¡ normaliza1on ¡ Matching ¡scores ¡x ¡ranking ¡scores ¡ 20best ¡mul1modal ¡matches ¡
search ¡results ¡based ¡on ¡visual ¡annota1ons,” ¡in ¡Proc. ¡ACM ¡MM, ¡2008. ¡
MScorei = MScorei MScorej
j=1 20
Audio ¡Matches ¡score ¡histogram ¡ Video ¡Matches ¡score ¡histogram ¡
i
k
k
i
k
k k
Fusion ¡scores ¡histogram ¡ 4422 ¡queries ¡with ¡same ¡ audio ¡& ¡video ¡best ¡match ¡ With ¡only ¡2,3% ¡FA ¡
Query ¡Video ¡
Matching ¡ ¡ segments ¡ Rank ¡ ¡ score ¡ 1 ¡-‑> ¡1 ¡ ¡ 2 ¡-‑> ¡0.95 ¡ 10 ¡-‑> ¡0.55 ¡ ¡ n/a ¡ 10 ¡-‑> ¡0.55 ¡ ¡ 1 ¡-‑> ¡1 ¡
MScore
0.8 ¡ ¡ 0.4 ¡ 0.5 ¡ ¡ n/a ¡ 0.5 ¡ ¡ 0.95 ¡ Final ¡ score ¡
(0.5!0.55+ 0) (0.8+ 0.95) = 0.16 (0.8!1+ 0.4!0.95) (0.8+ 0.95) = 0.67 (0.5!0.55+ 0.95!1) (0.8+ 0.95) = 0.7
NDCR ¡ FA ¡count ¡ Miss ¡count ¡ True ¡ posi6ves ¡ F1 ¡score ¡ Audio ¡only ¡ 43.95 ¡ 407.57 ¡ 30.86 ¡ 90.14 ¡ 0.93 ¡ Video ¡only ¡ 4.83 ¡ 41.63 ¡ 19 ¡ 81.63 ¡ 0.93 ¡ Fusion ¡ 1.2 ¡ 8.84 ¡ 7.77 ¡ 97.20 ¡ 0.91 ¡ Posi1on ¡ 8 ¡ 10 ¡ 4 ¡ 8 ¡ 3 ¡ Actual ¡scores ¡(averaged ¡over ¡all ¡transforma1ons), ¡balanced ¡profile ¡ Out ¡of ¡134 ¡copies ¡per ¡ transforma1on ¡ Only ¡case ¡where ¡the ¡ fusion ¡did ¡not ¡work ¡be^er ¡
– Wrong ¡shot ¡boundaries ¡
– Wrongly ¡matched ¡dark ¡blue ¡text ¡
– Horizontal ¡flip ¡ – Very ¡small ¡Picture ¡in ¡Picture ¡ – Heavy ¡compression ¡ – Very ¡dark ¡and/or ¡empty ¡scenes ¡
REFERENCE ¡ QUERY ¡ OUR ¡RESULT ¡