Telefonica Research Mul1modal Video copy detec1on Xavier - - PowerPoint PPT Presentation

telefonica research mul1modal video copy detec1on
SMART_READER_LITE
LIVE PREVIEW

Telefonica Research Mul1modal Video copy detec1on Xavier - - PowerPoint PPT Presentation

Telefonica Research Mul1modal Video copy detec1on Xavier Anguera, Tomasz Adamek and Ehsan Younessian* *School of Computer Engineering, Nanyang Technology Univ.,


slide-1
SLIDE 1

Telefonica ¡Research ¡ Mul1modal ¡Video ¡copy ¡detec1on ¡

Xavier ¡Anguera, ¡Tomasz ¡Adamek ¡and ¡ Ehsan ¡Younessian* ¡

*School ¡of ¡Computer ¡Engineering, ¡Nanyang ¡Technology ¡ Univ., ¡Singapore, ¡Singapore ¡

slide-2
SLIDE 2

Who ¡we ¡are? ¡

  • Telefónica ¡Research ¡is ¡the ¡innova1on ¡company ¡of ¡

the ¡Telefónica ¡Group ¡

  • Telefónica ¡Research ¡is ¡the ¡largest ¡private ¡R&D ¡

centre ¡in ¡Spain ¡ ¡

  • Telefónica ¡is ¡one ¡of ¡the ¡world’s ¡largest ¡

telecommunica1ons ¡companies ¡by ¡market ¡cap ¡ – operates ¡in ¡25 ¡countries ¡ – customer ¡base ¡277.8 ¡million ¡

slide-3
SLIDE 3

Mul1modal ¡Video ¡Copy ¡detec1on ¡

Audio-­‑only ¡ system ¡ Video-­‑only ¡ system ¡ Ranking ¡& ¡relevance ¡ fusion ¡

Video-­‑

  • nly ¡

results ¡ Audio-­‑

  • nly ¡

results ¡ Mul1modal results ¡ Features ¡extrac1on ¡ and ¡indexing ¡

Audio ¡

  • ref. ¡

Video ¡

  • ref. ¡

Video ¡query ¡

slide-4
SLIDE 4

Video-­‑based ¡block ¡diagram ¡

Video ¡query ¡ Key-­‑frame ¡ extrac1on ¡

Local ¡features ¡extrac1on ¡

Temporal ¡ consistency ¡ ¡ post-­‑processing ¡ Matched ¡video ¡ segments ¡ Key-­‑frame ¡ matching ¡ ¡

  • Ref. ¡Video ¡

indexing ¡info. ¡ Inserted ¡sta1c ¡ text ¡& ¡banners ¡ filtering ¡ Sub1tle ¡ filtering ¡ Temporal ¡stability ¡& ¡ scale ¡filtering ¡ DART ¡ extrac1on ¡

slide-5
SLIDE 5

DART* ¡local ¡features ¡(advantages) ¡

  • Superior ¡to ¡SIFT ¡or ¡SURF ¡

– good ¡repeatability ¡of ¡key-­‑points ¡ – precision ¡vs. ¡recall ¡

  • A^rac1ve ¡for ¡the ¡video ¡copy ¡detec1on ¡task: ¡

– very ¡low ¡computa1onal ¡cost ¡

  • 6x ¡faster ¡that ¡SIFT ¡and ¡3x ¡faster ¡than ¡SURF ¡

– compact ¡descriptor ¡

  • only ¡68 ¡components ¡

* ¡D. ¡Marimon, ¡A. ¡Bonnin, ¡T. ¡Adamek, ¡and ¡R ¡.Gimeno, ¡“DARTs:Efficient ¡scale-­‑space ¡ extrac1on ¡of ¡daisy ¡key-­‑points”, ¡CVPR ¡2009. ¡

slide-6
SLIDE 6

DART: ¡key-­‑point ¡selec1on ¡

  • Efficient ¡computa1on ¡of ¡the ¡scale-­‑space ¡using ¡piece-­‑

wise ¡triangle ¡filters* ¡ ¡

  • Informa1on ¡reused ¡for ¡key-­‑points ¡orienta1on ¡

assignment ¡and ¡descrip1on ¡computa1on ¡

2D ¡triangle-­‑shaped ¡kernel ¡ Approxima1on ¡of ¡the ¡2nd ¡ deriva1ve ¡of ¡Gaussian ¡ * ¡P. ¡Heckbert, ¡“Filtering ¡by ¡repeated ¡integra1on” ¡SIGGRAPH ¡1986 ¡

slide-7
SLIDE 7

DART: ¡key-­‑point ¡descrip1on ¡

  • DAISY*-­‑like ¡descriptor ¡
  • Layout: ¡

– 2 ¡rings, ¡each ¡with ¡8 ¡segments ¡

  • Each ¡segment ¡represented ¡by ¡four ¡

values: ¡

– {|∂x ¡|−∂x; ¡|∂x ¡|+∂x; ¡|∂y|−∂y; ¡|∂y|+∂y} ¡ – (1 ¡+ ¡2x8) ¡x ¡4 ¡= ¡68 ¡components ¡

  • Segments ¡overlap ¡
  • Re-­‑grouping ¡near ¡samples ¡into ¡a ¡single ¡sample ¡

* ¡S. ¡Winder, ¡G. ¡Hua, ¡and ¡M. ¡Brown, ¡“Picking ¡the ¡best ¡daisy”, ¡CVPR ¡2009. ¡

slide-8
SLIDE 8

Inserted ¡sta1c ¡text ¡and ¡banner ¡ detec1on ¡

  • Sliding ¡a ¡temporal ¡window ¡of ¡15 ¡key-­‑frames ¡
  • Detec1on ¡of ¡pixels ¡with ¡zero ¡standard ¡

devia1on ¡intensity ¡

  • Morphological ¡filtering ¡used ¡to ¡fill ¡out ¡holes ¡
  • Designed ¡for ¡longer ¡videos ¡with ¡mul1ple ¡shots ¡

– Problema1c ¡with ¡short ¡videos ¡with ¡sta1c ¡scenes ¡

slide-9
SLIDE 9

Sub1tles ¡detec1on ¡

  • Detec1ng ¡spa1al ¡regions ¡with ¡high ¡density ¡of ¡

ver1cal ¡edges ¡

  • Ver1cal ¡edges ¡computed ¡using ¡Sobel ¡operator ¡
  • Edge ¡density ¡computed ¡within ¡a ¡sliding ¡

window ¡

  • Morphological ¡filtering ¡filling ¡out ¡holes ¡

between ¡le^ers ¡

slide-10
SLIDE 10

Key-­‑point ¡scale ¡& ¡temporal ¡filtering ¡(1/2) ¡

  • Key-­‑point ¡number ¡limits: ¡

– Queries: ¡1200 ¡KPs ¡ – Reference: ¡400 ¡KPs ¡

  • Not ¡all ¡key-­‑points ¡are ¡equally ¡useful: ¡

– Key-­‑points ¡extracted ¡at ¡higher ¡scales ¡are ¡given ¡ more ¡importance ¡ – Favoring ¡temporarily ¡stable ¡key-­‑points ¡

  • Key-­‑point ¡trail ¡length ¡
slide-11
SLIDE 11

CURRENT ¡FRAME ¡ PREVIOUS ¡FRAME ¡ NEXT ¡FRAME ¡

1 ¡ 2 ¡ 1 ¡ 1 ¡

Key-­‑point ¡scale ¡& ¡temporal ¡filtering ¡(2/2) ¡

slide-12
SLIDE 12
  • Ref. ¡key-­‑frame ¡indexing ¡

Feature ¡ extrac1on ¡ Mapping ¡ key-­‑points ¡to ¡ Visual ¡Words ¡ Adding ¡hits ¡to ¡ inverted ¡file ¡ structure ¡

  • Ref. ¡keyframes ¡

DART ¡ key-­‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Key-­‑points ¡ represented ¡with ¡ VW ¡IDs ¡ Hits ¡ 100K ¡VWs ¡

slide-13
SLIDE 13

Query ¡key-­‑frame ¡matching ¡

Feature ¡ extrac1on ¡ Mapping ¡ key-­‑points ¡to ¡ Visual ¡Words ¡ Vo1ng ¡in ¡the ¡ reduced ¡pose ¡ space ¡ Query ¡key-­‑frames ¡ DART ¡ key-­‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Key-­‑point ¡VW ¡IDs ¡ Selec1on ¡of ¡ relevant ¡ ¡

  • ref. ¡key-­‑frames ¡

250 ¡top ¡ranked ¡

  • ref. ¡key-­‑frames ¡

Full ¡spa1al ¡ consistency ¡ verifica1on ¡ 100K ¡VWs ¡

slide-14
SLIDE 14

Matching ¡keyframes ¡temporal ¡consistency ¡ ¡

  • ­‑Nq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nq ¡

Ref ¡keyframe ¡ ¡ tr ¡ Query ¡keyframe ¡ ¡ tq ¡ Δt=tr-­‑tq ¡ Δt ¡

  • Query ¡start-­‑end ¡frames ¡
  • Reference ¡start-­‑end ¡frames ¡

Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡

Step ¡1: ¡insert ¡all ¡matches ¡into ¡a ¡histogram ¡based ¡on ¡rela1ve ¡1mes ¡ and ¡select ¡the ¡20 ¡biggest ¡matches ¡

±10s ¡

slide-15
SLIDE 15

Step ¡2: ¡compute ¡an ¡output ¡score ¡as ¡the ¡density ¡

  • f ¡matches ¡along ¡a ¡10s ¡window ¡ ¡

¡ Foreach ¡matching ¡video ¡(out ¡of ¡20): ¡

Matching ¡keyframes ¡temporal ¡consistency ¡ ¡

query ¡video ¡

0.4 ¡ 0.6 ¡ 0.8 ¡ 1 ¡ 1 ¡ 3 ¡ 5 ¡ 7 ¡ 9 ¡ 11 ¡ 13 ¡ 15 ¡ 17 ¡ 19 ¡ 21 ¡ 23 ¡ 25 ¡ 27 ¡ 29 ¡ 31 ¡ 33 ¡ 35 ¡ 37 ¡

Matching ¡ ¡ segment ¡start ¡ Matching ¡ ¡ Segment ¡end ¡ Final ¡video ¡score ¡ Moving ¡average ¡

slide-16
SLIDE 16

Audio-­‑based ¡system ¡blocks ¡diagram ¡

Fingerprint ¡ extrac1on ¡ Reference ¡video/s ¡ Query ¡video ¡ Fingerprint ¡ hashing ¡ Fingerprint ¡ extrac1on ¡ Deltas ¡histogram ¡ Main ¡peak ¡ selec1on ¡ Matching ¡ density ¡

  • [0,1] ¡score ¡
  • Query ¡start-­‑end ¡frames ¡
  • Reference ¡start-­‑end ¡frames ¡

Matching ¡ algorithm ¡

slide-17
SLIDE 17

Acous1c ¡fingerprint ¡extrac1on* ¡

1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡

*T. ¡Kalker ¡and ¡J. ¡Haitsma. ¡A ¡highly ¡robust ¡audio ¡finger-­‑ ¡prin1ng ¡system. ¡In ¡Proceedings ¡of ¡ ISMIR’2002, ¡pages ¡144–148, ¡2002. ¡

slide-18
SLIDE 18

Acous1c ¡fingerprint ¡extrac1on ¡

2) ¡FFT, ¡bandwidth ¡ limited ¡to ¡ 300-­‑3KHz ¡

10ms ¡ 17 ¡MEL-­‑spectrum ¡bands ¡

1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡

slide-19
SLIDE 19

Acous1c ¡fingerprint ¡extrac1on ¡

2) ¡FFT, ¡bandwidth ¡ limited ¡to ¡ 300-­‑3KHz ¡

10ms ¡

0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡

16bits ¡

X[i]= iif Ei ! Ei"1 1

  • therwise

# $ % & % 17 ¡MEL-­‑spectrum ¡bands ¡

1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡ 3) ¡Con1guous ¡ bands ¡energy ¡ comparison ¡

slide-20
SLIDE 20

Acous1c ¡matching ¡algorithm ¡

  • ­‑Nq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nq ¡

Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-­‑tq ¡ Δt ¡

  • Query ¡start-­‑end ¡frames ¡
  • Reference ¡start-­‑end ¡frames ¡

1) ¡ Step ¡1: ¡insert ¡all ¡matches ¡into ¡a ¡histogram ¡based ¡on ¡rela1ve ¡1mes ¡and ¡select ¡the ¡biggest ¡ For ¡every ¡rela1ve ¡1me ¡a ¡different ¡node ¡is ¡created ¡if: ¡

  • No ¡previous ¡reference ¡video ¡was ¡found ¡at ¡that ¡rela1ve ¡1me ¡OR ¡
  • Time ¡difference ¡between ¡two ¡matches ¡is ¡small ¡(less ¡than ¡5s) ¡
  • Ref. ¡video ¡

Node ¡with ¡count ¡7 ¡ Count ¡2 ¡ Count ¡4 ¡ >5s ¡

slide-21
SLIDE 21

0 ¡ 5 ¡ 10 ¡ 15 ¡

Acous1c ¡matching ¡algorithm ¡

  • ­‑Nq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nq ¡

Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-­‑tq ¡ Δt ¡ Matching ¡Threshold ¡

  • Query ¡start-­‑end ¡frames ¡
  • Reference ¡start-­‑end ¡frames ¡

1) ¡ 2) ¡ Hamming ¡distance ¡

slide-22
SLIDE 22

0 ¡ 5 ¡ 10 ¡ 15 ¡

Acous1c ¡matching ¡algorithm ¡

  • ­‑Nq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nq ¡

Ref ¡fingerprint ¡ ¡ tr ¡ Query ¡fingerprint ¡ ¡ tq ¡ Δt=tr-­‑tq ¡ Δt ¡

0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡

Matching ¡Threshold ¡ Output ¡score ¡[0,1] ¡ ¡

  • Query ¡start-­‑end ¡frames ¡
  • Reference ¡start-­‑end ¡frames ¡

1) ¡ 2) ¡ 3) ¡ 10s ¡moving ¡average ¡

slide-23
SLIDE 23

Fusion ¡system ¡general ¡blocks* ¡

Audio-­‑only ¡ system ¡ Video-­‑only ¡ system ¡ Matching ¡segments ¡fusion ¡

Features ¡extrac1on ¡ and ¡indexing ¡

Audio ¡

  • ref. ¡

Video ¡

  • ref. ¡

Video ¡query ¡

Matching ¡score ¡ normaliza1on ¡ 20best ¡ 20best ¡ Matching ¡score ¡ normaliza1on ¡ Matching ¡scores ¡x ¡ranking ¡scores ¡ 20best ¡mul1modal ¡matches ¡

  • X. ¡Olivares, ¡M. ¡Ciaramita, ¡and ¡R. ¡van ¡Zwol, ¡“Boos1ng ¡image ¡retrieval ¡through ¡aggrega1ng ¡

search ¡results ¡based ¡on ¡visual ¡annota1ons,” ¡in ¡Proc. ¡ACM ¡MM, ¡2008. ¡

slide-24
SLIDE 24
  • Matching ¡score ¡L1 ¡normaliza1on ¡

Fusion ¡steps ¡

MScorei = MScorei MScorej

j=1 20

!

Audio ¡Matches ¡score ¡histogram ¡ Video ¡Matches ¡score ¡histogram ¡

slide-25
SLIDE 25
  • We ¡consider ¡segments ¡with ¡overlap ¡> ¡50% ¡between ¡

both ¡modali1es ¡

  • Combina1on ¡of ¡ranking ¡and ¡matching ¡scores ¡ ¡

Fusion ¡steps ¡

FScorei = 21!rank

i

k

20 "

k

#

MScore

i

k

MScore1

k k

#

Fusion ¡scores ¡histogram ¡ 4422 ¡queries ¡with ¡same ¡ audio ¡& ¡video ¡best ¡match ¡ With ¡only ¡2,3% ¡FA ¡

slide-26
SLIDE 26

Fusion ¡examples ¡

Query ¡Video ¡

  • Ref. ¡1 ¡
  • Ref. ¡2 ¡
  • Ref. ¡3 ¡

Matching ¡ ¡ segments ¡ Rank ¡ ¡ score ¡ 1 ¡-­‑> ¡1 ¡ ¡ 2 ¡-­‑> ¡0.95 ¡ 10 ¡-­‑> ¡0.55 ¡ ¡ n/a ¡ 10 ¡-­‑> ¡0.55 ¡ ¡ 1 ¡-­‑> ¡1 ¡

MScore

0.8 ¡ ¡ 0.4 ¡ 0.5 ¡ ¡ n/a ¡ 0.5 ¡ ¡ 0.95 ¡ Final ¡ score ¡

(0.5!0.55+ 0) (0.8+ 0.95) = 0.16 (0.8!1+ 0.4!0.95) (0.8+ 0.95) = 0.67 (0.5!0.55+ 0.95!1) (0.8+ 0.95) = 0.7

slide-27
SLIDE 27

Official ¡evalua1on ¡results ¡

NDCR ¡ FA ¡count ¡ Miss ¡count ¡ True ¡ posi6ves ¡ F1 ¡score ¡ Audio ¡only ¡ 43.95 ¡ 407.57 ¡ 30.86 ¡ 90.14 ¡ 0.93 ¡ Video ¡only ¡ 4.83 ¡ 41.63 ¡ 19 ¡ 81.63 ¡ 0.93 ¡ Fusion ¡ 1.2 ¡ 8.84 ¡ 7.77 ¡ 97.20 ¡ 0.91 ¡ Posi1on ¡ 8 ¡ 10 ¡ 4 ¡ 8 ¡ 3 ¡ Actual ¡scores ¡(averaged ¡over ¡all ¡transforma1ons), ¡balanced ¡profile ¡ Out ¡of ¡134 ¡copies ¡per ¡ transforma1on ¡ Only ¡case ¡where ¡the ¡ fusion ¡did ¡not ¡work ¡be^er ¡

slide-28
SLIDE 28

Take ¡home ¡messages ¡from ¡the ¡results ¡

  • Fusion ¡is ¡always ¡helping ¡to ¡detect ¡copies ¡
  • We ¡got ¡many ¡false ¡alarms ¡in ¡both ¡video ¡and ¡

audio, ¡mostly ¡due ¡to ¡lack ¡of ¡tuning ¡

– In ¡general, ¡audio ¡fingerprints ¡need ¡some ¡extra ¡work. ¡

  • F1 ¡is ¡very ¡good ¡for ¡videos ¡we ¡do ¡detect ¡
  • Processing ¡1me… ¡we ¡be^er ¡not ¡report ¡on ¡that ¡
slide-29
SLIDE 29

Analysis ¡of ¡errors ¡in ¡audio: ¡misses ¡

  • Music ¡ge‚ng ¡very ¡distorted ¡within ¡the ¡300-­‑3KHz ¡
  • bands. ¡

– Original ¡signal ¡ – Band-­‑limited ¡to ¡300-­‑3KHz ¡

  • Very ¡short ¡audio ¡segments ¡(some1mes ¡with ¡

silences) ¡

  • Strong ¡audio ¡overlap ¡+ ¡reencodings ¡
slide-30
SLIDE 30

Analysis ¡of ¡errors ¡in ¡video ¡

  • False ¡alarms: ¡

– Wrong ¡shot ¡boundaries ¡

  • sta1c ¡shots ¡
  • semi-­‑sta1c ¡shots ¡

– Wrongly ¡matched ¡dark ¡blue ¡text ¡

  • Misses: ¡

– Horizontal ¡flip ¡ – Very ¡small ¡Picture ¡in ¡Picture ¡ – Heavy ¡compression ¡ – Very ¡dark ¡and/or ¡empty ¡scenes ¡

REFERENCE ¡ QUERY ¡ OUR ¡RESULT ¡

slide-31
SLIDE 31

Conclusions ¡and ¡future ¡work ¡

  • Fusion ¡of ¡mul1ple ¡modali1es ¡greatly ¡improves ¡

copy ¡detec1on ¡

– Need ¡to ¡be ¡smarter ¡when ¡fusing ¡segment ¡ boundaries ¡

  • DART ¡features ¡are ¡suitable ¡for ¡the ¡task ¡
  • Audio ¡fingerprints ¡need ¡some ¡extra ¡work ¡to ¡

make ¡them ¡robust ¡to ¡IACC ¡data ¡

  • In ¡general, ¡we ¡need ¡to ¡reduce ¡false ¡alarms ¡