Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil - - PowerPoint PPT Presentation

score distribution models
SMART_READER_LITE
LIVE PREVIEW

Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil - - PowerPoint PPT Presentation

Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil Pavlu Javed Aslam Score Distributions 2 Score Distributions 2 Score Distributions 9.6592 9.5761 9.4919


slide-1
SLIDE 1

Score Distribution Models

Evangelos Kanoulas Keshi Dai Virgil Pavlu Javed Aslam

slide-2
SLIDE 2

Score Distributions

2

slide-3
SLIDE 3

Score Distributions

2

slide-4
SLIDE 4

Score Distributions

9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351

2

slide-5
SLIDE 5

Score Distributions

9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351

2

slide-6
SLIDE 6

Score Distributions

9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351

3

✗ ✗ ✓ ✓ ✓ ✗ ✓ ✓ ✗ ✗ ✗ ✗

slide-7
SLIDE 7

Score Distributions

  • Applications : norm. for multiple sources

– Information Filtering (e.g. news retrieval) – Recall-oriented IR (e.g. legal, patent IR) – Distributed IR (multiple data collections) – Diversity/Faceted IR (news, images, video, web pages, feeds) – Meta-search

  • To be useful, Score Distributions models

must be reasonably accurate

4

slide-8
SLIDE 8

Modeling Score Distributions

  • Modeling score distributions key to

inference

  • EM to fit the model into the data
  • Dozens of models in the literature

– Negative Exponential (nonrel) & Gaussian (rel) – Gamma & Gaussian – 2 Poisson – 2 Gaussian – …

5

slide-9
SLIDE 9

Motivation

  • What is wrong with Neg. Exponential

& Gaussian?

– It simply does not fit the data – Undesirable IR properties

6

slide-10
SLIDE 10

Motivation

  • What is wrong with Neg. Exponential

& Gaussian?

– It simply does not fit the data – Undesirable IR properties

6

slide-11
SLIDE 11

Our work (some previous)

7

slide-12
SLIDE 12

Our work (some previous)

  • New model

– Theoretical basis – Fits the data better

  • Focus on

getting it right rather than making it simple

7

slide-13
SLIDE 13

Overview

  • Many related problems

– hardest: on modeling [TREC] relevant documents

  • This talk: three of these problems

– Theory – BM25 and LM – Relevant docs score distribution via PR curves

8

slide-14
SLIDE 14

1

DL/TF variable: A case for Gamma- mixture-based distribution model

9

slide-15
SLIDE 15

Why DL/TF

  • BM25
  • LM

10

slide-16
SLIDE 16

Quality classes and term frequency

slide-17
SLIDE 17

Quality classes and term frequency

  • Quality class = set of documents for

which query terms are consistently “generated” by a Poisson process

– can model aspects/facets, doc types,etc

slide-18
SLIDE 18

Quality classes and term frequency

  • Quality class = set of documents for

which query terms are consistently “generated” by a Poisson process

– can model aspects/facets, doc types,etc

  • Distance between terms occurrences

=waiting time between Poisson events

slide-19
SLIDE 19

Quality classes and term frequency

  • Quality class = set of documents for

which query terms are consistently “generated” by a Poisson process

– can model aspects/facets, doc types,etc

  • Distance between terms occurrences

=waiting time between Poisson events

1 2 3 4

!me

slide-20
SLIDE 20

Quality classes and term frequency

  • Quality class = set of documents for

which query terms are consistently “generated” by a Poisson process

– can model aspects/facets, doc types,etc

  • Distance between terms occurrences

=waiting time between Poisson events

waiting times(exp distrib) average waiting time

1 2 3 4

!me

slide-21
SLIDE 21

DL/TF variable

  • θ= average waiting time between terms

– depends on class quality Q and query generality (hardness) g, collection size etc

  • ADL = average document length
  • For each class, model the DL/TF variable

separately for each TF value k

– DL = sum of waiting times

12

slide-22
SLIDE 22

Mixture over TF values

13

k= 1 2 3 4...

slide-23
SLIDE 23

Mixture over TF values

  • PQ[]=geometric mixture over TF values (k)

with rate 1-p

– example: relevant class p=0.1 – nonrelevant class p=0.7 – avg TF = mean(PQ) = 1/p

13

k= 1 2 3 4...

slide-24
SLIDE 24

Mixture over TF values

  • PQ[]=geometric mixture over TF values (k)

with rate 1-p

– example: relevant class p=0.1 – nonrelevant class p=0.7 – avg TF = mean(PQ) = 1/p

  • Model DL/TF as a mixture of gammas

13

k= 1 2 3 4...

slide-25
SLIDE 25

DL/TF per quality class

14

slide-26
SLIDE 26

DL/TF per quality class

  • For a geometric P[], the mixture is

actually a single gamma

14

slide-27
SLIDE 27

DL/TF per quality class

  • For a geometric P[], the mixture is

actually a single gamma

  • Multiple query terms : requires a

proportionality

– usually not achievable in practice – but approx by a gamma with higher “shape”

14

slide-28
SLIDE 28

Gamma mixture for DL/TF

  • mixture
  • approximate

with a single gamma

15

DL/TF

100 200 300 400 500 600 700 800 900 1000 0.005 0.01 0.015 0.02 0.025 0.03

Empirical Histogram MLE Gamma Fit

slide-29
SLIDE 29

Score Transformations

  • r=non-decreasing differentiable

function

  • f(X) = distribution modeled

– Many basic transformations preserve gamma-like distribution shape –

16

slide-30
SLIDE 30

Score Transform: Inversion

17

slide-31
SLIDE 31

Score Transform: Inversion

17

slide-32
SLIDE 32

Score Transformations

  • Saturators r

(RobertsonTF) can make the distribution more “hill”- like

18

2 4 6 8 10 12 14 16 18 20 1 2 3 4 5

TF Robertson’s TF k1=1 k1=3 k1=5

1 2 3 4 5 6 0.005 0.01 0.015 0.02 0.025 0.03 0.035

Frequency BM25 Scores k1=1 k1=3 k1=5

slide-33
SLIDE 33

2

Popular retrieval functions: BM25 and LM

19

slide-34
SLIDE 34

Three fits

  • Theory models

– Mixture of gammas inverted, score transformations

  • Data-driven approach

– maximum likelihood gamma fit

  • Analytical approach

– Traditional ranking functions: TF-IDF, BM25, LM – Make basic assumptions of low level components – Derive score distribution

20

slide-35
SLIDE 35

Analytical Approach:BM25

¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25

21

slide-36
SLIDE 36

Analytical Approach:BM25

¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25

21

slide-37
SLIDE 37

BM25

  • X=DL/TF

22

slide-38
SLIDE 38

BM25

  • X=DL/TF

22

slide-39
SLIDE 39

BM25

23

1 2 3 4 5 6 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045

BM25 score Frequency

BM25 score histogram Analytically Numerical MLE Gamma fit Model (theory)

slide-40
SLIDE 40

5 10 15 20 25 30 2000 4000 6000 ireland, 6.155, 7698 docs TF 0.02 0.04 0.06 0.08 0.1 500 1000 Normalized TF 14 12 10 8 6 4 2 100 200 300 log(Normalized TF) 10 8 6 4 2 100 200 300 log(Normalized TF + CTF/TN) 10 8 6 4 2 100 200 log(lambda*Normalized TF + (1lambda)*CTF/TN) 5 10 15 20 25 30 1 2 x 10

4

peac, 3.876, 35454 docs TF 0.02 0.04 0.06 0.08 0.1 2000 4000 Normalized TF 14 12 10 8 6 4 2 1000 2000 log(Normalized TF) 8 7 6 5 4 3 2 500 1000 log(Normalized TF + CTF/TN) 8 7 6 5 4 3 500 1000 log(lambda*Normalized TF + (1lambda)*CTF/TN) 5 10 15 20 25 30 2 4 6 x 10

4

talk, 2.777, 70795 docs TF 0.02 0.04 0.06 0.08 0.1 5000 10000 15000 Normalized TF 12 10 8 6 4 2 1000 2000 3000 log(Normalized TF) 8 7 6 5 4 3 2 1000 2000 log(Normalized TF + CTF/TN) 8 7 6 5 4 3 1000 2000 3000 log(lambda*Normalized TF + (1lambda)*CTF/TN) 24 22 20 18 16 14 12 2000 4000 BM25 Scores

Analytical Approach:LM

¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks Language ¡Model

24

slide-41
SLIDE 41

LM(Jelinek-Mercer smooth)

25 −7 −6 −5 −4 −3 −2 −1 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

LM (Jelinek−Mercer smoothing) score Frequency

BM25 score histogram Analytically Numerical MLE Gamma fit Model (theory)

slide-42
SLIDE 42

3

Inferring Relevant distribution using a Precision-Recall model

26

slide-43
SLIDE 43

Precision-Recall curves

27

slide-44
SLIDE 44

Precision-Recall curves

  • Model

27

0.2 0.4 0.6 0.8 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

recall precision

Precision−recall curves for various values of rp

slide-45
SLIDE 45

Score Distrib for Relevant Docs

  • Previous work
  • Input :

– Score distribution of relevant documents – Score distribution of non-relevant documents

  • Output :

– PR-curve model

slide-46
SLIDE 46

Score Distrib of Relevant Docs

  • Input :

– Score distribution of non-relevant documents

  • Gamma-based distribution fit to all scores

– PR-curve model

  • Obtain parameter by fitting the model to the data

(ranked list of relevant and non-relevant documents)

  • Output :

– Score distribution of relevant documents

  • for now a very nice/simple model for PR curves; still

a messy derivation

  • use of Recall and Fallout as defined by S.Robertson
slide-47
SLIDE 47

Inferred relevant distribution

  • “Estonia economy”

30

slide-48
SLIDE 48

5 10 15 20 25 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

Inferred relevant distribution

  • “Estonia economy”

30

slide-49
SLIDE 49

Conclusions

  • Quality classes : concept that relates

relevance with Poisson-process parameters

– goes beyond relevance grades assessments – can model aspects(diversity), types of docs etc

  • Models better than traditional ones
  • Relevant class distrib. needs more work

– can be approx inferred form a Prec-Recall model – PR models used too simple (for now)

  • Thank You! Questions ?

31

slide-50
SLIDE 50

32

slide-51
SLIDE 51

Summation over query terms

  • For scores computed as sums of term components

– BM25, LM, TF-IDF

  • Non-relevant documents (low quality Q)

– each term component will be distributed approximately as a Gamma(low shape, low scale). – If the scales are approximately equal their sum follows a Gamma distribution with the same scale

  • Relevant documents

– mixture has more effective components – sum a rich mixture, usually “multiple-hill” like

33