Extending average precision to graded relevance judgements - - PowerPoint PPT Presentation

extending average precision to graded relevance judgements
SMART_READER_LITE
LIVE PREVIEW

Extending average precision to graded relevance judgements - - PowerPoint PPT Presentation

Extending average precision to graded relevance judgements Stephen Robertson Evangelos Kanoulas Emine Yilmaz Mo=va=on For binary


slide-1
SLIDE 1

Extending ¡average ¡precision ¡ to ¡graded ¡relevance ¡judgements ¡

Stephen ¡Robertson ¡ ¡ ¡ ¡ ¡Evangelos ¡Kanoulas ¡ ¡ ¡ ¡ ¡Emine ¡Yilmaz ¡

slide-2
SLIDE 2

Mo=va=on ¡

  • For ¡binary ¡relevance, ¡we ¡have ¡a ¡plethora ¡of ¡effec=veness ¡metrics ¡

– most ¡commonly ¡used ¡by ¡far: ¡ ¡(M)AP ¡

we ¡know ¡quite ¡a ¡lot ¡about ¡AP ¡and ¡its ¡rela=on ¡to ¡other ¡binary ¡metrics ¡

  • For ¡graded ¡relevance, ¡we ¡have ¡very ¡few ¡

– only ¡commonly ¡used ¡one ¡is ¡nDCG ¡

Some ¡points ¡

Both ¡metrics ¡are ¡top-­‑heavy ¡

  • AP ¡naturally ¡so ¡
  • nDCG ¡requires ¡defini=on ¡of ¡a ¡rank ¡discount ¡func=on ¡

(we ¡would ¡like ¡beQer ¡understanding ¡of ¡discoun=ng ¡by ¡rank) ¡

nDCG ¡also ¡requires ¡a ¡gain ¡func=on ¡

  • something ¡similar ¡is ¡almost ¡certainly ¡required ¡for ¡a ¡graded ¡measure ¡

... ¡but ¡alterna=ve ¡interpreta=ons ¡are ¡available ¡

Primary ¡ques=on: ¡ ¡Can ¡we ¡define ¡a ¡graded ¡analogue ¡of ¡AP? ¡

slide-3
SLIDE 3

Outline ¡

  • What ¡do ¡graded ¡judgements ¡mean ¡

– queries ¡and ¡needs ¡in ¡evalua=on ¡experiments ¡

  • Defini=on ¡of ¡Graded ¡Average ¡Precision ¡

– some ¡proper=es ¡

  • Evalua=ng ¡GAP ¡

– informa=veness ¡ – discrimina=on ¡ – use ¡for ¡learning ¡to ¡rank ¡

slide-4
SLIDE 4

What ¡do ¡graded ¡judgements ¡mean? ¡

Cranfield ¡2 ¡used ¡a ¡5-­‑point ¡scale ¡ ¡(4+1) ¡

Quote ¡from ¡one ¡of ¡the ¡judges: ¡

I ¡believe ¡that ¡I ¡have ¡‘scored’ ¡the ¡documents ¡roughly ¡in ¡ propor8on ¡to ¡the ¡degree ¡of ¡irrita8on ¡I ¡should ¡feel ¡if ¡a ¡ librarian ¡produced ¡them ¡in ¡response ¡to ¡my ¡original ¡ query ¡

... ¡but ¡few ¡later ¡experiments ¡have ¡used ¡more ¡ than ¡2 ¡or ¡3 ¡ ¡(1+1 ¡or ¡2+1) ¡ ... ¡un=l ¡the ¡web ¡search ¡engine ¡era ¡

– where ¡we ¡seem ¡to ¡be ¡back ¡to ¡about ¡5 ¡

slide-5
SLIDE 5

Aside: ¡queries ¡and ¡needs ¡

Cranfield/TREC ¡tradi=on: ¡

– define/catch ¡informa=on ¡need ¡ – construct ¡query ¡ – judge ¡against ¡need ¡

Web ¡search ¡engine ¡prac=ce ¡

– catch ¡query ¡ – allow ¡for ¡mul=ple ¡needs ¡represented ¡by ¡the ¡same ¡query ¡ – judge ¡accordingly ¡

slide-6
SLIDE 6

What ¡do ¡graded ¡judgements ¡mean? ¡

One ¡document ¡is ¡more ¡useful ¡than ¡another ¡ One ¡possible ¡meaning: ¡

  • ne ¡document ¡is ¡useful ¡to ¡more ¡users ¡than ¡another ¡

Hence ¡the ¡following: ¡

assume ¡grades ¡of ¡relevance... ¡ ... ¡but ¡that ¡user ¡has ¡a ¡threshold ¡relevance ¡grade ¡

which ¡defines ¡a ¡binary ¡view ¡

different ¡users ¡have ¡different ¡thresholds ¡

described ¡by ¡a ¡probability ¡distribu8on ¡over ¡users ¡

slide-7
SLIDE 7

Graded ¡Average ¡Precision ¡

Assume ¡relevance ¡grades ¡{0...c} ¡

– 0 ¡for ¡non-­‑relevant, ¡+ ¡c ¡posi=ve ¡grades ¡

gi ¡= ¡P(user ¡threshold ¡is ¡at ¡i) ¡for ¡i ¡∈ ¡{1...c} ¡

i.e. ¡user ¡regards ¡grades ¡{i...c} ¡as ¡relevant, ¡grades ¡{0... (i-­‑1)} ¡as ¡not ¡relevant ¡ gis ¡sum ¡to ¡one ¡

Step ¡down ¡the ¡ranked ¡list, ¡stopping ¡at ¡documents ¡ that ¡may ¡be ¡relevant ¡

– then ¡calculate ¡expected ¡precision ¡at ¡each ¡of ¡these ¡

(expected ¡over ¡the ¡popula=on ¡of ¡users) ¡ – ¡formula ¡in ¡the ¡paper ¡

slide-8
SLIDE 8

Proper=es ¡of ¡GAP ¡

  • Generalises ¡AP ¡

– similarly ¡top-­‑heavy ¡

  • Behaves ¡correctly ¡under ¡swaps ¡
  • Has ¡a ¡similar ¡probabilis=c ¡interpreta=on ¡
  • Is ¡the ¡area ¡under ¡a ¡generalised ¡recall-­‑precision ¡

curve ¡

  • Can ¡be ¡jus=fied ¡under ¡a ¡similar ¡user ¡model ¡

– simple ¡but ¡moderately ¡plausible! ¡ – gis ¡may ¡be ¡es=mated ¡from ¡user ¡click ¡behaviour ¡

slide-9
SLIDE 9

Probabilis=c ¡interpreta=on ¡

For ¡AP: ¡

  • 1. Choose ¡at ¡random ¡a ¡relevant ¡document ¡d1 ¡
  • 2. Choose ¡at ¡random ¡a ¡document ¡d2 ¡ranked ¡above ¡

d1 ¡

  • 3. AP ¡= ¡P(d2 ¡is ¡relevant) ¡

For ¡GAP: ¡

Do ¡the ¡same ¡as ¡above, ¡under ¡the ¡GAP ¡user ¡model ¡

  • replace ¡relevant ¡by ¡“relevant” ¡in ¡the ¡above ¡– ¡i.e. ¡

considered ¡relevant ¡by ¡a ¡user ¡

slide-10
SLIDE 10

Area ¡under ¡curve ¡

Define ¡graded ¡recall ¡

– expected ¡number ¡of ¡“relevant” ¡documents ¡at ¡ some ¡threshold ¡/ ¡expected ¡total ¡

Define ¡graded ¡precision ¡

– similarly ¡

Plot ¡curve ¡

– GAP ¡is ¡approximately ¡area ¡under ¡curve ¡

Note: ¡very ¡different ¡from ¡Gain-­‑based ¡defini=ons ¡

  • f ¡Kekäläinen ¡and ¡Järvelin ¡
slide-11
SLIDE 11

Evalua=ng ¡GAP ¡

Compare ¡with ¡nDCG ¡

  • Informa=veness ¡

– should ¡summarise ¡the ¡quality ¡of ¡a ¡search ¡engine ¡ well ¡

  • Discrimina=ve ¡power ¡

– should ¡iden=fy ¡significant ¡differences ¡between ¡ systems ¡

  • Learning ¡to ¡rank ¡objec=ve ¡

– should ¡lead ¡to ¡good ¡test ¡results ¡with ¡other ¡metrics ¡

slide-12
SLIDE 12

Informa=veness ¡

If ¡you ¡know ¡the ¡value ¡of ¡a ¡metric ¡

– how ¡much ¡does ¡this ¡tell ¡you ¡about ¡the ¡performance ¡of ¡ the ¡system? ¡ metric ¡→ ¡probability-­‑at-­‑rank ¡distribu=on ¡→ ¡RP ¡curve ¡

Maximum ¡entropy ¡method ¡ ¡(Aslam ¡et ¡al) ¡

– find ¡the ¡maxent ¡prob-­‑at-­‑rank ¡distribu=on ¡

given ¡the ¡metric ¡value ¡and ¡the ¡total ¡rel ¡at ¡each ¡grade ¡

– infer ¡the ¡maxent ¡RP ¡curve ¡ – compare ¡to ¡the ¡actual ¡RP ¡curve ¡

mean ¡RMS ¡error ¡

Do ¡this ¡for ¡GAP ¡and ¡nDCG ¡

slide-13
SLIDE 13

TREC9 ¡– ¡rel ¡+ ¡highly ¡rel ¡ choose ¡gi ¡values ¡0.5,0.5 ¡to ¡maximise ¡informa=veness ¡

slide-14
SLIDE 14

TREC9 ¡– ¡highly ¡rel ¡only ¡

slide-15
SLIDE 15

Discrimina=ve ¡power ¡

How ¡well ¡does ¡the ¡metric ¡discriminate ¡between ¡ systems? ¡

given ¡the ¡set ¡of ¡queries, ¡which ¡metric ¡can ¡beQer ¡ iden=fy ¡significant ¡differences ¡between ¡systems? ¡

Bootstrap ¡method ¡ ¡(Sakai) ¡

mixed ¡results ¡– ¡some=mes ¡nDCG, ¡some=mes ¡GAP ¡ GAP ¡appears ¡to ¡do ¡beQer ¡on ¡the ¡best ¡performing ¡ systems ¡

slide-16
SLIDE 16

Learning ¡to ¡rank ¡

Two ¡methods ¡(SooRank ¡and ¡LambdaRank) ¡

  • ver ¡two ¡datasets ¡(OHSUMED ¡from ¡Letor ¡and ¡a ¡Web ¡

collec=on ¡with ¡5,000 ¡queries) ¡ 2+1 ¡relevance ¡grades ¡ 5-­‑fold ¡cross-­‑valida=on ¡for ¡OHSUMED, ¡

Op=mise ¡GAP ¡/ ¡AP ¡/ ¡nDCG ¡

test ¡on ¡nDCG ¡/ ¡AP ¡/ ¡Prec@10 ¡

For ¡both ¡datasets, ¡both ¡methods, ¡and ¡all ¡three ¡test ¡ metrics: ¡

  • p=mising ¡on ¡GAP ¡gave ¡beQer ¡results ¡than ¡the ¡other ¡

two ¡

slide-17
SLIDE 17

Conclusions ¡

We ¡can ¡generalise ¡AP ¡to ¡graded ¡relevance ¡ judgements ¡

– with ¡a ¡par=cular ¡interpreta=on ¡of ¡relevance ¡ grades ¡

as ¡a ¡probability ¡distribu=on ¡over ¡users ¡ ... ¡each ¡user ¡having ¡a ¡binary ¡view ¡of ¡relevance ¡

The ¡resul=ng ¡metric ¡inherits ¡many ¡desirable ¡ proper=es ¡from ¡AP ¡ and ¡is ¡at ¡least ¡compe==ve ¡with ¡nDCG ¡