Empirical Jus-fica-on of the Gain and Discount Func-on for - - PowerPoint PPT Presentation
Empirical Jus-fica-on of the Gain and Discount Func-on for - - PowerPoint PPT Presentation
Empirical Jus-fica-on of the Gain and Discount Func-on for nDCG Evangelos Kanoulas Javed Aslam University of Sheffield Northeastern University Sheffield, UK
- Mul--‑graded ¡relevance ¡judgments ¡
– Documents ¡are ¡judged ¡as ¡non-‑relevant, ¡relevant, ¡ highly ¡relevant, ¡etc… ¡
- Model/assump-ons ¡
– The ¡higher ¡the ¡relevance ¡of ¡a ¡document ¡the ¡more ¡ valuable ¡it ¡is ¡to ¡a ¡user ¡ – The ¡lower ¡in ¡a ¡ranked ¡list ¡a ¡document ¡appears, ¡the ¡ less ¡its ¡value ¡
Overview ¡of ¡nDCG ¡
[Järvelin ¡and ¡Kekäläinen] ¡
- Relevance ¡grades ¡mapped ¡to ¡relevance ¡scores ¡
– (2 ¡for ¡Highly ¡Relevant, ¡1 ¡for ¡Relevant, ¡…) ¡
- Relevance ¡scores ¡mapped ¡to ¡gains, ¡g(reli) ¡
- Each ¡gain ¡value ¡is ¡discounted ¡by ¡a ¡discount ¡factor ¡di ¡, ¡a ¡
func-on ¡of ¡rank ¡i ¡ ¡
- Discounted ¡gain ¡values ¡are ¡summed ¡to ¡rank ¡k ¡, ¡DCG(k) ¡
- ¡Normalized ¡by ¡DCG ¡of ¡an ¡op-mal ¡list ¡up ¡to ¡rank ¡k ¡
nDCG(k) = DCG(k)
- ptDCG(k) where DCG(k) =
g(reli)⋅ di
i=1 k
∑
Overview ¡of ¡nDCG ¡
[Järvelin ¡and ¡Kekäläinen] ¡
- nDCG ¡is ¡a ¡func-onal ¡of ¡
– a ¡gain ¡func-on ¡ – a ¡discount ¡func-on ¡
- Different ¡gain ¡and ¡discount ¡func-ons ¡
accommodate ¡different ¡user ¡search ¡paZerns ¡
– Gain ¡viewed ¡as ¡the ¡gain ¡returned ¡to ¡a ¡user ¡when ¡ examining ¡a ¡document ¡ – Discount ¡viewed ¡as ¡the ¡persistence ¡of ¡user ¡to ¡walk ¡ down ¡the ¡ranked ¡list ¡
Overview ¡of ¡nDCG ¡
[Järvelin ¡and ¡Kekäläinen] ¡
- Some ¡decisions ¡to ¡be ¡made… ¡
– Gain ¡func-on ¡
- ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡most ¡commonly ¡employed ¡
- ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[Burges ¡et ¡al. ¡05] ¡
– Discount ¡func-on ¡ ¡
- 1/rank ¡
- 1/logb(rank) ¡
- 1/log2(rank+1) ¡, ¡most ¡commonly ¡employed ¡
rel(i)
(2rel(i) −1)
Overview ¡of ¡nDCG ¡
[Järvelin ¡and ¡Kekäläinen] ¡
nDCG ¡and ¡User ¡Sa-sfac-on ¡
[Al-‑Maskari ¡et ¡al. ¡07] ¡
- Cumula-ve ¡Gain ¡(CG) ¡more ¡correlated ¡to ¡user ¡
sa-sfac-on ¡than ¡
– Discounted ¡Cumula-ve ¡Gain ¡(DCG) ¡ – nDCG ¡
- Thus ¡: ¡A ¡methodological ¡selec-on ¡of ¡gain ¡and ¡
discount ¡func-on ¡is ¡needed ¡
nDCG ¡and ¡User ¡Sa-sfac-on ¡
- Selec-ng ¡gain ¡and ¡discount ¡func-ons ¡that ¡
correlate ¡with ¡user ¡sa-sfac-on ¡is ¡expensive ¡ (if ¡at ¡all ¡possible) ¡
– Vast ¡differences ¡in ¡user ¡search ¡behavior ¡ – Many ¡possible ¡retrieval ¡tasks ¡ – Difficulty ¡in ¡measuring ¡user ¡sa-sfac-on ¡
Alterna-ve ¡approach ¡
- Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡
proper-es ¡of ¡the ¡metric ¡
– How ¡informa-ve ¡the ¡metric ¡is ¡[Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡[Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡[Bodoff ¡and ¡Li ¡08] ¡
- How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡
queries ¡
- How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡
different ¡sets ¡
Our ¡approach ¡
- Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡
proper-es ¡of ¡the ¡metric ¡
– How ¡informa-ve ¡the ¡metric ¡is ¡[Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡[Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡[Bodoff ¡and ¡Li ¡08] ¡
- How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡
queries ¡
- How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡
different ¡sets ¡
Outline ¡
- Intro ¡
- Methodology ¡ ¡
– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡
- Efficiency-‑ ¡(stability-‑) ¡op-mal ¡func-ons ¡
– Discount ¡func-on ¡ – Gain ¡func-on ¡
- Discrimina-ve ¡power ¡
- Conclusions ¡
How ¡stable/efficient ¡is ¡nDCG? ¡
- Hypothe-cally, ¡systems ¡run ¡on ¡universe ¡of ¡all ¡topics ¡
– Performance ¡of ¡each ¡system ¡measured ¡by ¡mean ¡nDCG ¡ ¡
- Prac-cally, ¡systems ¡run ¡on ¡a ¡specific ¡subset ¡of ¡topics ¡
- How ¡many ¡topics ¡are ¡necessary ¡so ¡that ¡
– mean ¡nDCG ¡values ¡are ¡the ¡same ¡for ¡both ¡sets, ¡and ¡ – ranking ¡of ¡systems ¡is ¡the ¡same ¡for ¡both ¡sets? ¡
- How ¡quickly, ¡in ¡terms ¡of ¡topics, ¡can ¡one ¡arrive ¡at ¡stable ¡
system ¡rankings? ¡
– Variance ¡Decomposi-on ¡
Variability ¡in ¡a ¡metric ¡
0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ nDCG ¡ Topics
Variability ¡due ¡to ¡systems ¡
0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q1 ¡ Q2 ¡ Q3 ¡ Q4 ¡ Q5 ¡ Q6 ¡ Q7 ¡ Q8 ¡ Q9 ¡ Q10 ¡ Sys ¡1 ¡ Sys ¡20 ¡ Sys ¡100 ¡
nDCG ¡
Variability ¡due ¡to ¡topics ¡
0.0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ Sys ¡1 ¡ Sys ¡3 ¡ Sys ¡5 ¡ Sys ¡7 ¡ Sys ¡9 ¡ Sys ¡11 ¡ Sys ¡13 ¡ Sys ¡15 ¡ Q1 ¡ Q2 ¡ Q3 ¡
Topics nDCG ¡
Variability ¡due ¡to ¡system-‑topic ¡ interac-on ¡
0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Q14 ¡ Q15 ¡ Sys ¡3 ¡ Sys ¡7 ¡ Sys ¡9 ¡
Topics nDCG ¡
Variability ¡due ¡to ¡system-‑topic ¡ interac-on ¡
0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Q14 ¡ Q15 ¡ Sys ¡3 ¡ Sys ¡7 ¡ Sys ¡9 ¡
Topics nDCG ¡
nDCG ¡variance ¡component ¡
System ¡ 11% ¡ Topic ¡ 39% ¡ System ¡Topic ¡ 50% ¡
1 ¡topic ¡
nDCG ¡variance ¡components ¡
System ¡ 11% ¡ Topic ¡ 39% ¡ System ¡Topic ¡ 50% ¡
1 ¡topic ¡ Φ = σ2(system) σ2(system) +σ2(topic) +σ2(system topic)
- How ¡stable ¡are ¡the ¡nDCG ¡values ¡
nDCG ¡variance ¡components ¡
System ¡ 55% ¡ Topic ¡ 20% ¡ System ¡ Topic ¡ 25% ¡
10 ¡topics ¡
- How ¡reliable ¡are ¡the ¡nDCG ¡values ¡
Φ = σ2(system) σ2(system) + σ2(topic) # of topics + σ2(system topic) # of topics
nDCG ¡variance ¡components ¡
System ¡ 86% ¡ Topic ¡ 6% ¡ System ¡ Topic ¡ 8% ¡
50 ¡topics ¡
- How ¡reliable ¡are ¡the ¡nDCG ¡values ¡
Φ = σ2(system) σ2(system) + σ2(topic) # of topics + σ2(system topic) # of topics
Op-miza-on ¡framework ¡
- Consider ¡gain ¡and ¡discount ¡func-on ¡employed ¡by ¡nDCG ¡as ¡
unknown ¡
- Impose ¡natural ¡constraints ¡
– Non-‑increasing ¡discount ¡func-on ¡ – Non-‑decreasing ¡gain ¡func-on ¡
- What ¡is ¡the ¡gain ¡and ¡discount ¡func-on ¡that ¡maximizes ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡
- Given ¡than ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡monotonically ¡non-‑decreasing ¡func-on ¡of ¡
the ¡number ¡of ¡topics ¡
– ¡Topic ¡set ¡size ¡= ¡1 ¡ ¡
Φ Φ
Outline ¡
- Intro ¡
- Methodology ¡ ¡
– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡
- Efficiency-‑op-mal ¡func-ons ¡
– Discount ¡func-on ¡ – Gain ¡func-on ¡
- Discrimina-ve ¡power ¡
- Conclusions ¡
Experimental ¡Setup ¡
- TREC ¡9 ¡and ¡10 ¡Web ¡track ¡and ¡TREC ¡12 ¡Robust ¡
track ¡
- 3 ¡relevance ¡grades ¡
– ¡highly ¡relevant, ¡relevant, ¡non-‑relevant ¡
- All ¡systems ¡run ¡over ¡50 ¡queries ¡
Op-mal ¡discount ¡func-on ¡
- Op-miza-on ¡
– Objec-ve ¡func-on, ¡ – Observa-on: ¡nDCG ¡immune ¡to ¡discount ¡func-on ¡ scaling ¡ – Constraints ¡
- Discount ¡func-on ¡is ¡a ¡probability ¡distribu-on ¡
- Discount ¡func-on ¡is ¡non-‑increasing ¡
Φ
Op-mal ¡discount ¡func-on ¡
2 4 6 8 10 0.2 0.4 Discount TREC 10, nDCG at rank 10 Rank log discount Zipfian discount linear discount
- ptimal discount (linear gain)
Op-mal ¡discount ¡func-on ¡
5 10 15 20 0.2 0.4 TREC 10, nDCG at rank 20 Rank Discount log discount Zipfian discount linear discount
- ptimal discount (linear gain)
Op-mal ¡discount ¡func-on ¡
20 40 60 80 100 0.1 0.2 TREC 10, nDCG at rank 100 Rank Discount log discount Zipfian discount linear discount
- ptimal discount (linear gain)
Op-mal ¡discount ¡func-on ¡
- Number ¡of ¡queries ¡required ¡to ¡achieve ¡stable ¡
evalua-on ¡results ¡ Φ ¡≥ ¡0.95 ¡ Zipfian ¡ Linear ¡ Log ¡ Op8mal ¡ TREC ¡9 ¡ 45 ¡ 31 ¡ 29 ¡ 25 ¡ TREC ¡10 ¡ 58 ¡ 64 ¡ 51 ¡ 49 ¡ TREC ¡12 ¡ 104 ¡ 70 ¡ 67 ¡ 53 ¡
Correla-on ¡Study ¡
Kendall’s ¡tau ¡ Zipfian ¡ Linear ¡ Log ¡ TREC ¡9 ¡ 0.835 ¡ 0.956 ¡ 0.937 ¡ TREC ¡10 ¡ 0.895 ¡ 0.8809 ¡ 0.9453 ¡ TREC ¡12 ¡ 0.650 ¡ 0.899 ¡ 0.858 ¡
- Kendall’s ¡tau ¡between ¡rankings ¡induced ¡by ¡
- p-mal ¡discount ¡and ¡
– Zipfian ¡ – Linear ¡ – Log ¡
Some ¡observa-ons ¡… ¡
- Stability-‑ ¡(efficiency-‑) ¡op-mal ¡discount ¡is ¡less ¡
steep ¡than ¡the ¡Zipfian ¡
– Looking ¡further ¡down ¡the ¡ranked ¡list ¡can ¡improve ¡ reliability ¡of ¡system ¡comparisons ¡
- Widely ¡used ¡log ¡discount ¡is ¡the ¡closest ¡to ¡the ¡
- p-mal ¡
– Both ¡with ¡respect ¡to ¡efficiency ¡and ¡system ¡rankings ¡
- The ¡steeper ¡the ¡discount ¡func-on ¡the ¡more ¡
queries ¡required ¡
Op-mal ¡gain ¡func-on ¡
- Op-miza-on ¡
– Objec-ve ¡func-on, ¡ – Observa-on: ¡nDCG ¡immune ¡to ¡gain ¡func-on ¡ scaling ¡ – Constraints ¡
- Gain ¡func-on ¡is ¡a ¡probability ¡distribu-on ¡
- Gain ¡func-on ¡is ¡non-‑decreasing ¡
- Gain ¡for ¡non-‑relevant ¡equal ¡to ¡zero ¡
Φ
Op-mal ¡gain ¡func-on ¡
Op8mal ¡Ra8o ¡ nDCG@3 ¡ nDCG@10 ¡ nDCG@20 ¡ nDCG@100 ¡ nDCG@200 ¡ TREC ¡9 ¡ 1.1 ¡ 1.3 ¡ 1.5 ¡ 1.2 ¡ 1.1 ¡ TREC ¡10 ¡ 1.2 ¡ 1.6 ¡ 2.0 ¡ 1.8 ¡ 1.5 ¡ TREC ¡12 ¡ 1.2 ¡ 1.2 ¡ 1.0 ¡ 1.0 ¡ 1.0 ¡ Linear ¡gain ¡ Exponen8al ¡Gain ¡ Ra-o ¡ 2 ¡ 3 ¡
Op-mal ¡gain ¡func-on ¡
- Number ¡of ¡queries ¡required ¡to ¡achieve ¡stable ¡
evalua-on ¡results ¡ Φ ¡≥ ¡0.95 ¡ Exp ¡ Linear ¡ Op8mal ¡ TREC ¡9 ¡ 30 ¡ 29 ¡ 28 ¡ TREC ¡10 ¡ 52 ¡ 51 ¡ 51 ¡ TREC ¡12 ¡ 72 ¡ 67 ¡ 63 ¡
Correla-on ¡Study ¡
(op-mal ¡gain ¡ra-o ¡= ¡1.2) ¡
0.1 0.2 0.3 0.4 0.5 0.6 0.1 0.2 0.3 0.4 0.5 0.6 nDCG with optimal gain nDCG with exponential gain TREC 9 Kendall’s tau : 0.95677 RMS Error : 0.0013437
Some ¡more ¡observa-ons ¡… ¡
- Relevant ¡documents ¡almost ¡equally ¡
discrimina-ve ¡as ¡highly ¡relevant ¡
– When ¡a ¡system ¡fails ¡to ¡retrieve ¡highly ¡relevant ¡ documents ¡it ¡also ¡fails ¡retrieves ¡relevant ¡ones ¡
- Discount ¡func-ons ¡affects ¡much ¡more ¡the ¡
efficiency ¡of ¡nDCG ¡than ¡gain ¡func-ons ¡
Outline ¡
- Intro ¡
- Methodology ¡ ¡
– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡
- Efficiency-‑op-mal ¡func-ons ¡
– Discount ¡func-on ¡ – Gain ¡func-on ¡
- Analysis ¡of ¡discrimina-ve ¡power ¡
- Conclusions ¡
Discrimina-ve ¡power ¡
Bootstrap ¡Hypothesis ¡Tes-ng ¡[Sakai07] ¡
150 200 250 300 350 400 0.02 0.04 0.06 0.08 0.1 system pair sorted by ASL achieved significance level (ASL) TREC10
- ptimal gain / optimal discount
linear gain / log discount expo gain / log discount linear gain / linear discount
Can ¡not ¡reject ¡the ¡hypothesis ¡ that ¡two ¡systems ¡are ¡ different ¡for ¡235 ¡pairs ¡
Outline ¡
- Intro ¡
- Methodology ¡ ¡
– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡
- Efficiency-‑op-mal ¡func-ons ¡
– Discount ¡func-on ¡ – Gain ¡func-on ¡
- Discrimina-ve ¡power ¡
- Conclusions ¡
Conclusions ¡
- Stability-‑ ¡(efficiency-‑) ¡op-mal ¡discount ¡indicates ¡that ¡looking ¡further ¡
down ¡the ¡ranked ¡list ¡can ¡improve ¡reliability ¡of ¡system ¡comparisons ¡
- Widely ¡used ¡log ¡discount ¡is ¡the ¡closest ¡to ¡the ¡op-mal ¡
– Both ¡regarding ¡efficiency ¡and ¡system ¡rankings ¡
- The ¡steeper ¡the ¡discount ¡func-on ¡the ¡more ¡queries ¡required ¡
- Gain ¡func-on ¡does ¡not ¡affect ¡neither ¡the ¡stability ¡nor ¡the ¡system ¡
rankings ¡as ¡much ¡as ¡the ¡discount ¡func-on ¡
- Stability-‑op-mal ¡nDCG ¡is ¡the ¡most ¡discrimina-ve ¡compared ¡to ¡the ¡