On-the-fly Specific Person Retrieval Omkar M. Parkhi, - - PowerPoint PPT Presentation
On-the-fly Specific Person Retrieval Omkar M. Parkhi, - - PowerPoint PPT Presentation
On-the-fly Specific Person Retrieval Omkar M. Parkhi, Andrea Vedaldi and Andrew Zisserman 24 th May 2012 University of Oxford Overview Textual Queries
Overview ¡
People ¡ “Barack ¡Obama” ¡ “George ¡Bush” ¡ “Courtney ¡Cox” ¡
Ranked ¡Shots ¡ Textual ¡Queries ¡
Search ¡for: ¡ On-‑the-‑fly ¡ i.e. ¡with ¡no ¡previous ¡knowledge ¡
- r ¡model ¡for ¡these ¡queries ¡
¡
Large ¡collecQon ¡
- f ¡
¡ un-‑annotated ¡ videos ¡
¡
Scrubs ¡Data ¡Set ¡
- 12 Episodes from Seasons 1-5 and 8
- 5 hours of video data
- About 400k frames, partitioned into 5k shots
- About 300k near frontal face detections
- 768 x 576 MPEG2 format
Demo ¡
- Search for “Courteney Cox” in Scrubs dataset.
- Steps:
1. Download example images from Google 2. Train a ranking function 3. Apply ranking function to video collection
DEMO ¡
Demo-‑ ¡Scrubs ¡Data ¡Set ¡
Demo-‑ ¡Scrubs ¡Data ¡Set ¡
On ¡the ¡fly ¡person ¡retrieval ¡system ¡
Text Query “Courteney Cox” Negative Training Images Video Collection Face Tracks Facial Features & Descriptors Facial Features & Descriptors Results
ON-LINE PROCESSING OFF-LINE PROCESSING
Google Image Search “Courteney Cox” Facial Features & Descriptors Fast Linear Classifier Ranking
DetecQon ¡and ¡Tracking ¡
- Viola-‑Jones ¡face ¡detecQon ¡on ¡each ¡frame ¡
- Tracking ¡measures ¡“connectedness” ¡of ¡a ¡pair ¡of ¡faces ¡by ¡
point ¡tracks ¡intersecQng ¡both ¡
- Doesn’t ¡require ¡conQguous ¡detecQons ¡
- No ¡driX ¡
- Faces ¡clustered ¡into ¡tracks ¡
[Everingham ¡et ¡al. ¡2006, ¡Apostoloff ¡& ¡Zisserman, ¡2007] ¡
Scrubs ¡Data ¡Set ¡
- 12 Episodes from Seasons 1-5 and 8
- 5 hours of video data
- About 400k frames, partitioned into 5k shots
- 300k face detections
- 6k face tracks
- 768 x 576 MPEG2 format
DetecQng ¡facial ¡feature ¡points ¡
- Pictorial structure model
- Joint ¡model ¡of ¡feature ¡appearance ¡and ¡posiQon ¡
[Felzenszwalb and Huttenlocher’2004, Everingham ¡et ¡al. ¡2006]
Face ¡Appearance ¡RepresentaQon ¡
§ Affine ¡transformaQon ¡of ¡face ¡to ¡canonical ¡frame ¡ § Independent ¡photometric ¡normalizaQon ¡of ¡parts ¡ § Represent ¡gradients ¡over ¡circle ¡centred ¡on ¡facial ¡feature ¡points ¡ § Feature ¡descriptor ¡is ¡a ¡3849 ¡dimensional ¡vector ¡
[Everingham ¡et ¡al. ¡2006]
NegaQve ¡Training ¡Images ¡
- Combination of faces from
- Random downloaded images
- Labeled Faces in the Wild dataset
- Caltech Faces dataset
- About 16k face detections.
Caltech ¡10, ¡000 ¡Web ¡Faces: ¡ h(p://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/ ¡ Labeled ¡Faces ¡in ¡the ¡Wild: ¡ h(p://vis-‑www.cs.umass.edu/lfw/ ¡ ¡
On-‑the-‑fly ¡Person ¡Retrieval ¡
Text Query “Courteney Cox” Negative Training Images Video Collection Face Tracks Facial Features & Descriptors Facial Features & Descriptors Results
ON-LINE PROCESSING OFF-LINE PROCESSING
Google Image Search “Courteney Cox” Facial Features & Descriptors Fast Linear Classifier Ranking
DEMO ¡
Demo-‑ ¡Scrubs ¡Data ¡Set ¡
TRECVid ¡2011 ¡(IACC.1.B) ¡
- About 200 hours of video data.
- 8k videos.
- MPEG4, 320x240 pixels
- 130k shots,
- About 3 million face detections
- 25,535 face tracks.
DEMO ¡
DEMO ¡
Demo ¡-‑ ¡TRECVid ¡2011 ¡(IACC.1.B) ¡
Facial ¡ajributes ¡– ¡FaceTracer ¡project ¡ ¡
§ Examples: ¡
§ ¡gender: ¡male, ¡female ¡
§ ¡age: ¡baby, ¡child, ¡youth, ¡middle ¡age, ¡senior ¡ § ¡race: ¡white, ¡black, ¡asian ¡ § ¡smiling, ¡mustache, ¡eye-‑wear, ¡hair ¡colour ¡
- N. ¡Kumar, ¡P. ¡N. ¡Belhumeur ¡and ¡S. ¡K. ¡Nayar, ¡ ¡
FaceTracer: ¡A ¡Search ¡Engine ¡for ¡Large ¡CollecQons ¡of ¡Images ¡with ¡Faces, ¡ European ¡Conference ¡on ¡Computer ¡Vision ¡(ECCV), ¡2010 ¡ h(p://www.cs.columbia.edu/CAVE/projects/face_search/ ¡ Method ¡
- ¡person ¡independent ¡training ¡set ¡with ¡ajribute ¡
- ¡facial ¡feature ¡representaQon ¡
- ¡discriminaQve ¡training ¡of ¡classifier ¡for ¡ajribute ¡ ¡
DEMO ¡
Facial ¡ajributes ¡– ¡Glasses ¡
DEMO ¡
Facial ¡ajributes ¡– ¡Beard ¡
Facial ¡ajributes ¡– ¡Eyes ¡Closed ¡
QuanQtaQve ¡Performance ¡-‑ ¡Scrubs ¡Dataset ¡
- Performance ¡evaluaQon ¡for ¡3 ¡guest ¡actors ¡(Brendan ¡Fraser, ¡Courteney ¡
Cox ¡and ¡Michael ¡J ¡Fox) ¡
- 12 ¡dataset ¡videos ¡split ¡into ¡training ¡and ¡test ¡sets ¡(3 ¡Training, ¡9 ¡TesQng) ¡
- AnnotaQons: ¡
- Manual ¡labeling ¡of ¡ ¡training ¡and ¡test ¡set ¡for ¡each ¡actor ¡
- Manual ¡labeling ¡of ¡posiQve ¡training ¡images ¡from ¡Google ¡
- NegaQve ¡training ¡images ¡from ¡Caltech ¡Faces ¡dataset. ¡
¡
QuanQtaQve ¡Performance ¡-‑ ¡Scrubs ¡Dataset ¡
- ¡Retrieval ¡Average ¡Precision ¡(AP) ¡
Training Examples Source Average Precision Positive Negative Brendan Fraser Courteney Cox Michael J Fox Scrubs Scrubs 0.56 0.88 0.49 Google Scrubs 0.25 0.62 0.52 Google Caltech 0.41 0.56 0.57
0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ 1 ¡ Brendan ¡Fraser ¡ Courteney ¡Cox ¡ Michael ¡J ¡Fox ¡ +ve=Scrubs ¡-‑ve=Scrubs ¡ +ve=Google ¡-‑ve=Scrubs ¡ +ve=Google ¡-‑ve=Caltech ¡
QuanQtaQve ¡Performance ¡-‑ ¡Scrubs ¡Dataset ¡
- ¡Using ¡more ¡training ¡data ¡per ¡track ¡
Training Examples Source # samples per track Average Precision Positive Negative Brendan Fraser Courteney Cox Michael J Fox Scrubs Scrubs Single 0.56 0.88 0.49 Scrubs Scrubs Multiple 0.6 0.88 0.53
0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ 0.9 ¡ 1 ¡ Brendan ¡Fraser ¡ Courteney ¡Cox ¡ Michael ¡J ¡Fox ¡ +ve=Scrubs ¡-‑ve=Scrubs ¡ Single ¡ +ve=Scrubs ¡-‑ve=Scrubs ¡ MulQple ¡
Future ¡Work ¡
- Exploring sources for positive examples
- Better feature representations
- Combination of attributes and identities