Extending average precision to graded relevance judgements - - PowerPoint PPT Presentation
Extending average precision to graded relevance judgements - - PowerPoint PPT Presentation
Extending average precision to graded relevance judgements Stephen Robertson Evangelos Kanoulas Emine Yilmaz Mo=va=on For binary
Mo=va=on ¡
- For ¡binary ¡relevance, ¡we ¡have ¡a ¡plethora ¡of ¡effec=veness ¡metrics ¡
– most ¡commonly ¡used ¡by ¡far: ¡ ¡(M)AP ¡
we ¡know ¡quite ¡a ¡lot ¡about ¡AP ¡and ¡its ¡rela=on ¡to ¡other ¡binary ¡metrics ¡
- For ¡graded ¡relevance, ¡we ¡have ¡very ¡few ¡
– only ¡commonly ¡used ¡one ¡is ¡nDCG ¡
Some ¡points ¡
Both ¡metrics ¡are ¡top-‑heavy ¡
- AP ¡naturally ¡so ¡
- nDCG ¡requires ¡defini=on ¡of ¡a ¡rank ¡discount ¡func=on ¡
(we ¡would ¡like ¡beQer ¡understanding ¡of ¡discoun=ng ¡by ¡rank) ¡
nDCG ¡also ¡requires ¡a ¡gain ¡func=on ¡
- something ¡similar ¡is ¡almost ¡certainly ¡required ¡for ¡a ¡graded ¡measure ¡
... ¡but ¡alterna=ve ¡interpreta=ons ¡are ¡available ¡
Primary ¡ques=on: ¡ ¡Can ¡we ¡define ¡a ¡graded ¡analogue ¡of ¡AP? ¡
Outline ¡
- What ¡do ¡graded ¡judgements ¡mean ¡
– queries ¡and ¡needs ¡in ¡evalua=on ¡experiments ¡
- Defini=on ¡of ¡Graded ¡Average ¡Precision ¡
– some ¡proper=es ¡
- Evalua=ng ¡GAP ¡
– informa=veness ¡ – discrimina=on ¡ – use ¡for ¡learning ¡to ¡rank ¡
What ¡do ¡graded ¡judgements ¡mean? ¡
Cranfield ¡2 ¡used ¡a ¡5-‑point ¡scale ¡ ¡(4+1) ¡
Quote ¡from ¡one ¡of ¡the ¡judges: ¡
I ¡believe ¡that ¡I ¡have ¡‘scored’ ¡the ¡documents ¡roughly ¡in ¡ propor8on ¡to ¡the ¡degree ¡of ¡irrita8on ¡I ¡should ¡feel ¡if ¡a ¡ librarian ¡produced ¡them ¡in ¡response ¡to ¡my ¡original ¡ query ¡
... ¡but ¡few ¡later ¡experiments ¡have ¡used ¡more ¡ than ¡2 ¡or ¡3 ¡ ¡(1+1 ¡or ¡2+1) ¡ ... ¡un=l ¡the ¡web ¡search ¡engine ¡era ¡
– where ¡we ¡seem ¡to ¡be ¡back ¡to ¡about ¡5 ¡
Aside: ¡queries ¡and ¡needs ¡
Cranfield/TREC ¡tradi=on: ¡
– define/catch ¡informa=on ¡need ¡ – construct ¡query ¡ – judge ¡against ¡need ¡
Web ¡search ¡engine ¡prac=ce ¡
– catch ¡query ¡ – allow ¡for ¡mul=ple ¡needs ¡represented ¡by ¡the ¡same ¡query ¡ – judge ¡accordingly ¡
What ¡do ¡graded ¡judgements ¡mean? ¡
One ¡document ¡is ¡more ¡useful ¡than ¡another ¡ One ¡possible ¡meaning: ¡
- ne ¡document ¡is ¡useful ¡to ¡more ¡users ¡than ¡another ¡
Hence ¡the ¡following: ¡
assume ¡grades ¡of ¡relevance... ¡ ... ¡but ¡that ¡user ¡has ¡a ¡threshold ¡relevance ¡grade ¡
which ¡defines ¡a ¡binary ¡view ¡
different ¡users ¡have ¡different ¡thresholds ¡
described ¡by ¡a ¡probability ¡distribu8on ¡over ¡users ¡
Graded ¡Average ¡Precision ¡
Assume ¡relevance ¡grades ¡{0...c} ¡
– 0 ¡for ¡non-‑relevant, ¡+ ¡c ¡posi=ve ¡grades ¡
gi ¡= ¡P(user ¡threshold ¡is ¡at ¡i) ¡for ¡i ¡∈ ¡{1...c} ¡
i.e. ¡user ¡regards ¡grades ¡{i...c} ¡as ¡relevant, ¡grades ¡{0... (i-‑1)} ¡as ¡not ¡relevant ¡ gis ¡sum ¡to ¡one ¡
Step ¡down ¡the ¡ranked ¡list, ¡stopping ¡at ¡documents ¡ that ¡may ¡be ¡relevant ¡
– then ¡calculate ¡expected ¡precision ¡at ¡each ¡of ¡these ¡
(expected ¡over ¡the ¡popula=on ¡of ¡users) ¡ – ¡formula ¡in ¡the ¡paper ¡
Proper=es ¡of ¡GAP ¡
- Generalises ¡AP ¡
– similarly ¡top-‑heavy ¡
- Behaves ¡correctly ¡under ¡swaps ¡
- Has ¡a ¡similar ¡probabilis=c ¡interpreta=on ¡
- Is ¡the ¡area ¡under ¡a ¡generalised ¡recall-‑precision ¡
curve ¡
- Can ¡be ¡jus=fied ¡under ¡a ¡similar ¡user ¡model ¡
– simple ¡but ¡moderately ¡plausible! ¡ – gis ¡may ¡be ¡es=mated ¡from ¡user ¡click ¡behaviour ¡
Probabilis=c ¡interpreta=on ¡
For ¡AP: ¡
- 1. Choose ¡at ¡random ¡a ¡relevant ¡document ¡d1 ¡
- 2. Choose ¡at ¡random ¡a ¡document ¡d2 ¡ranked ¡above ¡
d1 ¡
- 3. AP ¡= ¡P(d2 ¡is ¡relevant) ¡
For ¡GAP: ¡
Do ¡the ¡same ¡as ¡above, ¡under ¡the ¡GAP ¡user ¡model ¡
- replace ¡relevant ¡by ¡“relevant” ¡in ¡the ¡above ¡– ¡i.e. ¡
considered ¡relevant ¡by ¡a ¡user ¡
Area ¡under ¡curve ¡
Define ¡graded ¡recall ¡
– expected ¡number ¡of ¡“relevant” ¡documents ¡at ¡ some ¡threshold ¡/ ¡expected ¡total ¡
Define ¡graded ¡precision ¡
– similarly ¡
Plot ¡curve ¡
– GAP ¡is ¡approximately ¡area ¡under ¡curve ¡
Note: ¡very ¡different ¡from ¡Gain-‑based ¡defini=ons ¡
- f ¡Kekäläinen ¡and ¡Järvelin ¡
Evalua=ng ¡GAP ¡
Compare ¡with ¡nDCG ¡
- Informa=veness ¡
– should ¡summarise ¡the ¡quality ¡of ¡a ¡search ¡engine ¡ well ¡
- Discrimina=ve ¡power ¡
– should ¡iden=fy ¡significant ¡differences ¡between ¡ systems ¡
- Learning ¡to ¡rank ¡objec=ve ¡
– should ¡lead ¡to ¡good ¡test ¡results ¡with ¡other ¡metrics ¡
Informa=veness ¡
If ¡you ¡know ¡the ¡value ¡of ¡a ¡metric ¡
– how ¡much ¡does ¡this ¡tell ¡you ¡about ¡the ¡performance ¡of ¡ the ¡system? ¡ metric ¡→ ¡probability-‑at-‑rank ¡distribu=on ¡→ ¡RP ¡curve ¡
Maximum ¡entropy ¡method ¡ ¡(Aslam ¡et ¡al) ¡
– find ¡the ¡maxent ¡prob-‑at-‑rank ¡distribu=on ¡
given ¡the ¡metric ¡value ¡and ¡the ¡total ¡rel ¡at ¡each ¡grade ¡
– infer ¡the ¡maxent ¡RP ¡curve ¡ – compare ¡to ¡the ¡actual ¡RP ¡curve ¡
mean ¡RMS ¡error ¡
Do ¡this ¡for ¡GAP ¡and ¡nDCG ¡
TREC9 ¡– ¡rel ¡+ ¡highly ¡rel ¡ choose ¡gi ¡values ¡0.5,0.5 ¡to ¡maximise ¡informa=veness ¡
TREC9 ¡– ¡highly ¡rel ¡only ¡
Discrimina=ve ¡power ¡
How ¡well ¡does ¡the ¡metric ¡discriminate ¡between ¡ systems? ¡
given ¡the ¡set ¡of ¡queries, ¡which ¡metric ¡can ¡beQer ¡ iden=fy ¡significant ¡differences ¡between ¡systems? ¡
Bootstrap ¡method ¡ ¡(Sakai) ¡
mixed ¡results ¡– ¡some=mes ¡nDCG, ¡some=mes ¡GAP ¡ GAP ¡appears ¡to ¡do ¡beQer ¡on ¡the ¡best ¡performing ¡ systems ¡
Learning ¡to ¡rank ¡
Two ¡methods ¡(SooRank ¡and ¡LambdaRank) ¡
- ver ¡two ¡datasets ¡(OHSUMED ¡from ¡Letor ¡and ¡a ¡Web ¡
collec=on ¡with ¡5,000 ¡queries) ¡ 2+1 ¡relevance ¡grades ¡ 5-‑fold ¡cross-‑valida=on ¡for ¡OHSUMED, ¡
Op=mise ¡GAP ¡/ ¡AP ¡/ ¡nDCG ¡
test ¡on ¡nDCG ¡/ ¡AP ¡/ ¡Prec@10 ¡
For ¡both ¡datasets, ¡both ¡methods, ¡and ¡all ¡three ¡test ¡ metrics: ¡
- p=mising ¡on ¡GAP ¡gave ¡beQer ¡results ¡than ¡the ¡other ¡