Empirical Jus-fica-on of the Gain and Discount Func-on for - - PowerPoint PPT Presentation

empirical jus fica on of the gain and discount func on
SMART_READER_LITE
LIVE PREVIEW

Empirical Jus-fica-on of the Gain and Discount Func-on for - - PowerPoint PPT Presentation

Empirical Jus-fica-on of the Gain and Discount Func-on for nDCG Evangelos Kanoulas Javed Aslam University of Sheffield Northeastern University Sheffield, UK


slide-1
SLIDE 1

Empirical ¡Jus-fica-on ¡of ¡the ¡Gain ¡ and ¡Discount ¡Func-on ¡for ¡nDCG ¡

Evangelos ¡Kanoulas ¡ University ¡of ¡Sheffield ¡ Sheffield, ¡UK ¡ Javed ¡Aslam ¡ Northeastern ¡University ¡ Boston, ¡USA ¡

slide-2
SLIDE 2
  • Mul--­‑graded ¡relevance ¡judgments ¡

– Documents ¡are ¡judged ¡as ¡non-­‑relevant, ¡relevant, ¡ highly ¡relevant, ¡etc… ¡

  • Model/assump-ons ¡

– The ¡higher ¡the ¡relevance ¡of ¡a ¡document ¡the ¡more ¡ valuable ¡it ¡is ¡to ¡a ¡user ¡ – The ¡lower ¡in ¡a ¡ranked ¡list ¡a ¡document ¡appears, ¡the ¡ less ¡its ¡value ¡

Overview ¡of ¡nDCG ¡

[Järvelin ¡and ¡Kekäläinen] ¡

slide-3
SLIDE 3
  • Relevance ¡grades ¡mapped ¡to ¡relevance ¡scores ¡

– (2 ¡for ¡Highly ¡Relevant, ¡1 ¡for ¡Relevant, ¡…) ¡

  • Relevance ¡scores ¡mapped ¡to ¡gains, ¡g(reli) ¡
  • Each ¡gain ¡value ¡is ¡discounted ¡by ¡a ¡discount ¡factor ¡di ¡, ¡a ¡

func-on ¡of ¡rank ¡i ¡ ¡

  • Discounted ¡gain ¡values ¡are ¡summed ¡to ¡rank ¡k ¡, ¡DCG(k) ¡
  • ¡Normalized ¡by ¡DCG ¡of ¡an ¡op-mal ¡list ¡up ¡to ¡rank ¡k ¡

nDCG(k) = DCG(k)

  • ptDCG(k) where DCG(k) =

g(reli)⋅ di

i=1 k

Overview ¡of ¡nDCG ¡

[Järvelin ¡and ¡Kekäläinen] ¡

slide-4
SLIDE 4
  • nDCG ¡is ¡a ¡func-onal ¡of ¡

– a ¡gain ¡func-on ¡ – a ¡discount ¡func-on ¡

  • Different ¡gain ¡and ¡discount ¡func-ons ¡

accommodate ¡different ¡user ¡search ¡paZerns ¡

– Gain ¡viewed ¡as ¡the ¡gain ¡returned ¡to ¡a ¡user ¡when ¡ examining ¡a ¡document ¡ – Discount ¡viewed ¡as ¡the ¡persistence ¡of ¡user ¡to ¡walk ¡ down ¡the ¡ranked ¡list ¡

Overview ¡of ¡nDCG ¡

[Järvelin ¡and ¡Kekäläinen] ¡

slide-5
SLIDE 5
  • Some ¡decisions ¡to ¡be ¡made… ¡

– Gain ¡func-on ¡

  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡most ¡commonly ¡employed ¡
  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[Burges ¡et ¡al. ¡05] ¡

– Discount ¡func-on ¡ ¡

  • 1/rank ¡
  • 1/logb(rank) ¡
  • 1/log2(rank+1) ¡, ¡most ¡commonly ¡employed ¡

rel(i)

(2rel(i) −1)

Overview ¡of ¡nDCG ¡

[Järvelin ¡and ¡Kekäläinen] ¡

slide-6
SLIDE 6

nDCG ¡and ¡User ¡Sa-sfac-on ¡

[Al-­‑Maskari ¡et ¡al. ¡07] ¡

  • Cumula-ve ¡Gain ¡(CG) ¡more ¡correlated ¡to ¡user ¡

sa-sfac-on ¡than ¡

– Discounted ¡Cumula-ve ¡Gain ¡(DCG) ¡ – nDCG ¡

  • Thus ¡: ¡A ¡methodological ¡selec-on ¡of ¡gain ¡and ¡

discount ¡func-on ¡is ¡needed ¡

slide-7
SLIDE 7

nDCG ¡and ¡User ¡Sa-sfac-on ¡

  • Selec-ng ¡gain ¡and ¡discount ¡func-ons ¡that ¡

correlate ¡with ¡user ¡sa-sfac-on ¡is ¡expensive ¡ (if ¡at ¡all ¡possible) ¡

– Vast ¡differences ¡in ¡user ¡search ¡behavior ¡ – Many ¡possible ¡retrieval ¡tasks ¡ – Difficulty ¡in ¡measuring ¡user ¡sa-sfac-on ¡

slide-8
SLIDE 8

Alterna-ve ¡approach ¡

  • Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡

proper-es ¡of ¡the ¡metric ¡

– How ¡informa-ve ¡the ¡metric ¡is ¡[Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡[Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡[Bodoff ¡and ¡Li ¡08] ¡

  • How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡

queries ¡

  • How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡

different ¡sets ¡

slide-9
SLIDE 9

Our ¡approach ¡

  • Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡

proper-es ¡of ¡the ¡metric ¡

– How ¡informa-ve ¡the ¡metric ¡is ¡[Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡[Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡[Bodoff ¡and ¡Li ¡08] ¡

  • How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡

queries ¡

  • How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡

different ¡sets ¡

slide-10
SLIDE 10

Outline ¡

  • Intro ¡
  • Methodology ¡ ¡

– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡

  • Efficiency-­‑ ¡(stability-­‑) ¡op-mal ¡func-ons ¡

– Discount ¡func-on ¡ – Gain ¡func-on ¡

  • Discrimina-ve ¡power ¡
  • Conclusions ¡
slide-11
SLIDE 11

How ¡stable/efficient ¡is ¡nDCG? ¡

  • Hypothe-cally, ¡systems ¡run ¡on ¡universe ¡of ¡all ¡topics ¡

– Performance ¡of ¡each ¡system ¡measured ¡by ¡mean ¡nDCG ¡ ¡

  • Prac-cally, ¡systems ¡run ¡on ¡a ¡specific ¡subset ¡of ¡topics ¡
  • How ¡many ¡topics ¡are ¡necessary ¡so ¡that ¡

– mean ¡nDCG ¡values ¡are ¡the ¡same ¡for ¡both ¡sets, ¡and ¡ – ranking ¡of ¡systems ¡is ¡the ¡same ¡for ¡both ¡sets? ¡

  • How ¡quickly, ¡in ¡terms ¡of ¡topics, ¡can ¡one ¡arrive ¡at ¡stable ¡

system ¡rankings? ¡

– Variance ¡Decomposi-on ¡

slide-12
SLIDE 12

Variability ¡in ¡a ¡metric ¡

0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ nDCG ¡ Topics

slide-13
SLIDE 13

Variability ¡due ¡to ¡systems ¡

0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q1 ¡ Q2 ¡ Q3 ¡ Q4 ¡ Q5 ¡ Q6 ¡ Q7 ¡ Q8 ¡ Q9 ¡ Q10 ¡ Sys ¡1 ¡ Sys ¡20 ¡ Sys ¡100 ¡

nDCG ¡

slide-14
SLIDE 14

Variability ¡due ¡to ¡topics ¡

0.0 ¡ 0.1 ¡ 0.2 ¡ 0.3 ¡ 0.4 ¡ 0.5 ¡ 0.6 ¡ 0.7 ¡ 0.8 ¡ Sys ¡1 ¡ Sys ¡3 ¡ Sys ¡5 ¡ Sys ¡7 ¡ Sys ¡9 ¡ Sys ¡11 ¡ Sys ¡13 ¡ Sys ¡15 ¡ Q1 ¡ Q2 ¡ Q3 ¡

Topics nDCG ¡

slide-15
SLIDE 15

Variability ¡due ¡to ¡system-­‑topic ¡ interac-on ¡

0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Q14 ¡ Q15 ¡ Sys ¡3 ¡ Sys ¡7 ¡ Sys ¡9 ¡

Topics nDCG ¡

slide-16
SLIDE 16

Variability ¡due ¡to ¡system-­‑topic ¡ interac-on ¡

0.0 ¡ 0.2 ¡ 0.4 ¡ 0.6 ¡ 0.8 ¡ 1.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Q14 ¡ Q15 ¡ Sys ¡3 ¡ Sys ¡7 ¡ Sys ¡9 ¡

Topics nDCG ¡

slide-17
SLIDE 17

nDCG ¡variance ¡component ¡

System ¡ 11% ¡ Topic ¡ 39% ¡ System ¡Topic ¡ 50% ¡

1 ¡topic ¡

slide-18
SLIDE 18

nDCG ¡variance ¡components ¡

System ¡ 11% ¡ Topic ¡ 39% ¡ System ¡Topic ¡ 50% ¡

1 ¡topic ¡ Φ = σ2(system) σ2(system) +σ2(topic) +σ2(system topic)

  • How ¡stable ¡are ¡the ¡nDCG ¡values ¡
slide-19
SLIDE 19

nDCG ¡variance ¡components ¡

System ¡ 55% ¡ Topic ¡ 20% ¡ System ¡ Topic ¡ 25% ¡

10 ¡topics ¡

  • How ¡reliable ¡are ¡the ¡nDCG ¡values ¡

Φ = σ2(system) σ2(system) + σ2(topic) # of topics + σ2(system topic) # of topics

slide-20
SLIDE 20

nDCG ¡variance ¡components ¡

System ¡ 86% ¡ Topic ¡ 6% ¡ System ¡ Topic ¡ 8% ¡

50 ¡topics ¡

  • How ¡reliable ¡are ¡the ¡nDCG ¡values ¡

Φ = σ2(system) σ2(system) + σ2(topic) # of topics + σ2(system topic) # of topics

slide-21
SLIDE 21

Op-miza-on ¡framework ¡

  • Consider ¡gain ¡and ¡discount ¡func-on ¡employed ¡by ¡nDCG ¡as ¡

unknown ¡

  • Impose ¡natural ¡constraints ¡

– Non-­‑increasing ¡discount ¡func-on ¡ – Non-­‑decreasing ¡gain ¡func-on ¡

  • What ¡is ¡the ¡gain ¡and ¡discount ¡func-on ¡that ¡maximizes ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡
  • Given ¡than ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡monotonically ¡non-­‑decreasing ¡func-on ¡of ¡

the ¡number ¡of ¡topics ¡

– ¡Topic ¡set ¡size ¡= ¡1 ¡ ¡

Φ Φ

slide-22
SLIDE 22

Outline ¡

  • Intro ¡
  • Methodology ¡ ¡

– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡

  • Efficiency-­‑op-mal ¡func-ons ¡

– Discount ¡func-on ¡ – Gain ¡func-on ¡

  • Discrimina-ve ¡power ¡
  • Conclusions ¡
slide-23
SLIDE 23

Experimental ¡Setup ¡

  • TREC ¡9 ¡and ¡10 ¡Web ¡track ¡and ¡TREC ¡12 ¡Robust ¡

track ¡

  • 3 ¡relevance ¡grades ¡

– ¡highly ¡relevant, ¡relevant, ¡non-­‑relevant ¡

  • All ¡systems ¡run ¡over ¡50 ¡queries ¡
slide-24
SLIDE 24

Op-mal ¡discount ¡func-on ¡

  • Op-miza-on ¡

– Objec-ve ¡func-on, ¡ – Observa-on: ¡nDCG ¡immune ¡to ¡discount ¡func-on ¡ scaling ¡ – Constraints ¡

  • Discount ¡func-on ¡is ¡a ¡probability ¡distribu-on ¡
  • Discount ¡func-on ¡is ¡non-­‑increasing ¡

Φ

slide-25
SLIDE 25

Op-mal ¡discount ¡func-on ¡

2 4 6 8 10 0.2 0.4 Discount TREC 10, nDCG at rank 10 Rank log discount Zipfian discount linear discount

  • ptimal discount (linear gain)
slide-26
SLIDE 26

Op-mal ¡discount ¡func-on ¡

5 10 15 20 0.2 0.4 TREC 10, nDCG at rank 20 Rank Discount log discount Zipfian discount linear discount

  • ptimal discount (linear gain)
slide-27
SLIDE 27

Op-mal ¡discount ¡func-on ¡

20 40 60 80 100 0.1 0.2 TREC 10, nDCG at rank 100 Rank Discount log discount Zipfian discount linear discount

  • ptimal discount (linear gain)
slide-28
SLIDE 28

Op-mal ¡discount ¡func-on ¡

  • Number ¡of ¡queries ¡required ¡to ¡achieve ¡stable ¡

evalua-on ¡results ¡ Φ ¡≥ ¡0.95 ¡ Zipfian ¡ Linear ¡ Log ¡ Op8mal ¡ TREC ¡9 ¡ 45 ¡ 31 ¡ 29 ¡ 25 ¡ TREC ¡10 ¡ 58 ¡ 64 ¡ 51 ¡ 49 ¡ TREC ¡12 ¡ 104 ¡ 70 ¡ 67 ¡ 53 ¡

slide-29
SLIDE 29

Correla-on ¡Study ¡

Kendall’s ¡tau ¡ Zipfian ¡ Linear ¡ Log ¡ TREC ¡9 ¡ 0.835 ¡ 0.956 ¡ 0.937 ¡ TREC ¡10 ¡ 0.895 ¡ 0.8809 ¡ 0.9453 ¡ TREC ¡12 ¡ 0.650 ¡ 0.899 ¡ 0.858 ¡

  • Kendall’s ¡tau ¡between ¡rankings ¡induced ¡by ¡
  • p-mal ¡discount ¡and ¡

– Zipfian ¡ – Linear ¡ – Log ¡

slide-30
SLIDE 30

Some ¡observa-ons ¡… ¡

  • Stability-­‑ ¡(efficiency-­‑) ¡op-mal ¡discount ¡is ¡less ¡

steep ¡than ¡the ¡Zipfian ¡

– Looking ¡further ¡down ¡the ¡ranked ¡list ¡can ¡improve ¡ reliability ¡of ¡system ¡comparisons ¡

  • Widely ¡used ¡log ¡discount ¡is ¡the ¡closest ¡to ¡the ¡
  • p-mal ¡

– Both ¡with ¡respect ¡to ¡efficiency ¡and ¡system ¡rankings ¡

  • The ¡steeper ¡the ¡discount ¡func-on ¡the ¡more ¡

queries ¡required ¡

slide-31
SLIDE 31

Op-mal ¡gain ¡func-on ¡

  • Op-miza-on ¡

– Objec-ve ¡func-on, ¡ – Observa-on: ¡nDCG ¡immune ¡to ¡gain ¡func-on ¡ scaling ¡ – Constraints ¡

  • Gain ¡func-on ¡is ¡a ¡probability ¡distribu-on ¡
  • Gain ¡func-on ¡is ¡non-­‑decreasing ¡
  • Gain ¡for ¡non-­‑relevant ¡equal ¡to ¡zero ¡

Φ

slide-32
SLIDE 32

Op-mal ¡gain ¡func-on ¡

Op8mal ¡Ra8o ¡ nDCG@3 ¡ nDCG@10 ¡ nDCG@20 ¡ nDCG@100 ¡ nDCG@200 ¡ TREC ¡9 ¡ 1.1 ¡ 1.3 ¡ 1.5 ¡ 1.2 ¡ 1.1 ¡ TREC ¡10 ¡ 1.2 ¡ 1.6 ¡ 2.0 ¡ 1.8 ¡ 1.5 ¡ TREC ¡12 ¡ 1.2 ¡ 1.2 ¡ 1.0 ¡ 1.0 ¡ 1.0 ¡ Linear ¡gain ¡ Exponen8al ¡Gain ¡ Ra-o ¡ 2 ¡ 3 ¡

slide-33
SLIDE 33

Op-mal ¡gain ¡func-on ¡

  • Number ¡of ¡queries ¡required ¡to ¡achieve ¡stable ¡

evalua-on ¡results ¡ Φ ¡≥ ¡0.95 ¡ Exp ¡ Linear ¡ Op8mal ¡ TREC ¡9 ¡ 30 ¡ 29 ¡ 28 ¡ TREC ¡10 ¡ 52 ¡ 51 ¡ 51 ¡ TREC ¡12 ¡ 72 ¡ 67 ¡ 63 ¡

slide-34
SLIDE 34

Correla-on ¡Study ¡

(op-mal ¡gain ¡ra-o ¡= ¡1.2) ¡

0.1 0.2 0.3 0.4 0.5 0.6 0.1 0.2 0.3 0.4 0.5 0.6 nDCG with optimal gain nDCG with exponential gain TREC 9 Kendall’s tau : 0.95677 RMS Error : 0.0013437

slide-35
SLIDE 35

Some ¡more ¡observa-ons ¡… ¡

  • Relevant ¡documents ¡almost ¡equally ¡

discrimina-ve ¡as ¡highly ¡relevant ¡

– When ¡a ¡system ¡fails ¡to ¡retrieve ¡highly ¡relevant ¡ documents ¡it ¡also ¡fails ¡retrieves ¡relevant ¡ones ¡

  • Discount ¡func-ons ¡affects ¡much ¡more ¡the ¡

efficiency ¡of ¡nDCG ¡than ¡gain ¡func-ons ¡

slide-36
SLIDE 36

Outline ¡

  • Intro ¡
  • Methodology ¡ ¡

– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡

  • Efficiency-­‑op-mal ¡func-ons ¡

– Discount ¡func-on ¡ – Gain ¡func-on ¡

  • Analysis ¡of ¡discrimina-ve ¡power ¡
  • Conclusions ¡
slide-37
SLIDE 37

Discrimina-ve ¡power ¡

Bootstrap ¡Hypothesis ¡Tes-ng ¡[Sakai07] ¡

150 200 250 300 350 400 0.02 0.04 0.06 0.08 0.1 system pair sorted by ASL achieved significance level (ASL) TREC10

  • ptimal gain / optimal discount

linear gain / log discount expo gain / log discount linear gain / linear discount

Can ¡not ¡reject ¡the ¡hypothesis ¡ that ¡two ¡systems ¡are ¡ different ¡for ¡235 ¡pairs ¡

slide-38
SLIDE 38

Outline ¡

  • Intro ¡
  • Methodology ¡ ¡

– Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡

  • Efficiency-­‑op-mal ¡func-ons ¡

– Discount ¡func-on ¡ – Gain ¡func-on ¡

  • Discrimina-ve ¡power ¡
  • Conclusions ¡
slide-39
SLIDE 39

Conclusions ¡

  • Stability-­‑ ¡(efficiency-­‑) ¡op-mal ¡discount ¡indicates ¡that ¡looking ¡further ¡

down ¡the ¡ranked ¡list ¡can ¡improve ¡reliability ¡of ¡system ¡comparisons ¡

  • Widely ¡used ¡log ¡discount ¡is ¡the ¡closest ¡to ¡the ¡op-mal ¡

– Both ¡regarding ¡efficiency ¡and ¡system ¡rankings ¡

  • The ¡steeper ¡the ¡discount ¡func-on ¡the ¡more ¡queries ¡required ¡
  • Gain ¡func-on ¡does ¡not ¡affect ¡neither ¡the ¡stability ¡nor ¡the ¡system ¡

rankings ¡as ¡much ¡as ¡the ¡discount ¡func-on ¡

  • Stability-­‑op-mal ¡nDCG ¡is ¡the ¡most ¡discrimina-ve ¡compared ¡to ¡the ¡

nDCG ¡varia-ons ¡in ¡the ¡literature ¡