Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil - - PowerPoint PPT Presentation
Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil - - PowerPoint PPT Presentation
Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil Pavlu Javed Aslam Score Distributions 2 Score Distributions 2 Score Distributions 9.6592 9.5761 9.4919
Score Distributions
2
Score Distributions
2
Score Distributions
9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351
2
Score Distributions
9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351
2
Score Distributions
9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351
3
✗ ✗ ✓ ✓ ✓ ✗ ✓ ✓ ✗ ✗ ✗ ✗
Score Distributions
- Applications : norm. for multiple sources
– Information Filtering (e.g. news retrieval) – Recall-oriented IR (e.g. legal, patent IR) – Distributed IR (multiple data collections) – Diversity/Faceted IR (news, images, video, web pages, feeds) – Meta-search
- To be useful, Score Distributions models
must be reasonably accurate
4
Modeling Score Distributions
- Modeling score distributions key to
inference
- EM to fit the model into the data
- Dozens of models in the literature
– Negative Exponential (nonrel) & Gaussian (rel) – Gamma & Gaussian – 2 Poisson – 2 Gaussian – …
5
Motivation
- What is wrong with Neg. Exponential
& Gaussian?
– It simply does not fit the data – Undesirable IR properties
6
Motivation
- What is wrong with Neg. Exponential
& Gaussian?
– It simply does not fit the data – Undesirable IR properties
6
Our work (some previous)
7
Our work (some previous)
- New model
– Theoretical basis – Fits the data better
- Focus on
getting it right rather than making it simple
7
Overview
- Many related problems
– hardest: on modeling [TREC] relevant documents
- This talk: three of these problems
– Theory – BM25 and LM – Relevant docs score distribution via PR curves
8
1
DL/TF variable: A case for Gamma- mixture-based distribution model
9
Why DL/TF
- BM25
- LM
10
Quality classes and term frequency
Quality classes and term frequency
- Quality class = set of documents for
which query terms are consistently “generated” by a Poisson process
– can model aspects/facets, doc types,etc
Quality classes and term frequency
- Quality class = set of documents for
which query terms are consistently “generated” by a Poisson process
– can model aspects/facets, doc types,etc
- Distance between terms occurrences
=waiting time between Poisson events
Quality classes and term frequency
- Quality class = set of documents for
which query terms are consistently “generated” by a Poisson process
– can model aspects/facets, doc types,etc
- Distance between terms occurrences
=waiting time between Poisson events
1 2 3 4
!me
Quality classes and term frequency
- Quality class = set of documents for
which query terms are consistently “generated” by a Poisson process
– can model aspects/facets, doc types,etc
- Distance between terms occurrences
=waiting time between Poisson events
waiting times(exp distrib) average waiting time
1 2 3 4
!me
DL/TF variable
- θ= average waiting time between terms
– depends on class quality Q and query generality (hardness) g, collection size etc
- ADL = average document length
- For each class, model the DL/TF variable
separately for each TF value k
– DL = sum of waiting times
12
Mixture over TF values
13
k= 1 2 3 4...
Mixture over TF values
- PQ[]=geometric mixture over TF values (k)
with rate 1-p
– example: relevant class p=0.1 – nonrelevant class p=0.7 – avg TF = mean(PQ) = 1/p
13
k= 1 2 3 4...
Mixture over TF values
- PQ[]=geometric mixture over TF values (k)
with rate 1-p
– example: relevant class p=0.1 – nonrelevant class p=0.7 – avg TF = mean(PQ) = 1/p
- Model DL/TF as a mixture of gammas
13
k= 1 2 3 4...
DL/TF per quality class
14
DL/TF per quality class
- For a geometric P[], the mixture is
actually a single gamma
14
DL/TF per quality class
- For a geometric P[], the mixture is
actually a single gamma
- Multiple query terms : requires a
proportionality
– usually not achievable in practice – but approx by a gamma with higher “shape”
14
Gamma mixture for DL/TF
- mixture
- approximate
with a single gamma
15
DL/TF
100 200 300 400 500 600 700 800 900 1000 0.005 0.01 0.015 0.02 0.025 0.03
Empirical Histogram MLE Gamma Fit
Score Transformations
- r=non-decreasing differentiable
function
- f(X) = distribution modeled
– Many basic transformations preserve gamma-like distribution shape –
16
Score Transform: Inversion
17
Score Transform: Inversion
17
Score Transformations
- Saturators r
(RobertsonTF) can make the distribution more “hill”- like
18
2 4 6 8 10 12 14 16 18 20 1 2 3 4 5
TF Robertson’s TF k1=1 k1=3 k1=5
1 2 3 4 5 6 0.005 0.01 0.015 0.02 0.025 0.03 0.035
Frequency BM25 Scores k1=1 k1=3 k1=5
2
Popular retrieval functions: BM25 and LM
19
Three fits
- Theory models
– Mixture of gammas inverted, score transformations
- Data-driven approach
– maximum likelihood gamma fit
- Analytical approach
– Traditional ranking functions: TF-IDF, BM25, LM – Make basic assumptions of low level components – Derive score distribution
20
Analytical Approach:BM25
¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25
21
Analytical Approach:BM25
¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25
21
BM25
- X=DL/TF
22
BM25
- X=DL/TF
22
BM25
23
1 2 3 4 5 6 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045
BM25 score Frequency
BM25 score histogram Analytically Numerical MLE Gamma fit Model (theory)
5 10 15 20 25 30 2000 4000 6000 ireland, 6.155, 7698 docs TF 0.02 0.04 0.06 0.08 0.1 500 1000 Normalized TF 14 12 10 8 6 4 2 100 200 300 log(Normalized TF) 10 8 6 4 2 100 200 300 log(Normalized TF + CTF/TN) 10 8 6 4 2 100 200 log(lambda*Normalized TF + (1lambda)*CTF/TN) 5 10 15 20 25 30 1 2 x 10
4
peac, 3.876, 35454 docs TF 0.02 0.04 0.06 0.08 0.1 2000 4000 Normalized TF 14 12 10 8 6 4 2 1000 2000 log(Normalized TF) 8 7 6 5 4 3 2 500 1000 log(Normalized TF + CTF/TN) 8 7 6 5 4 3 500 1000 log(lambda*Normalized TF + (1lambda)*CTF/TN) 5 10 15 20 25 30 2 4 6 x 10
4
talk, 2.777, 70795 docs TF 0.02 0.04 0.06 0.08 0.1 5000 10000 15000 Normalized TF 12 10 8 6 4 2 1000 2000 3000 log(Normalized TF) 8 7 6 5 4 3 2 1000 2000 log(Normalized TF + CTF/TN) 8 7 6 5 4 3 1000 2000 3000 log(lambda*Normalized TF + (1lambda)*CTF/TN) 24 22 20 18 16 14 12 2000 4000 BM25 Scores
Analytical Approach:LM
¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks Language ¡Model
24
LM(Jelinek-Mercer smooth)
25 −7 −6 −5 −4 −3 −2 −1 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
LM (Jelinek−Mercer smoothing) score Frequency
BM25 score histogram Analytically Numerical MLE Gamma fit Model (theory)
3
Inferring Relevant distribution using a Precision-Recall model
26
Precision-Recall curves
27
Precision-Recall curves
- Model
27
0.2 0.4 0.6 0.8 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
recall precision
Precision−recall curves for various values of rp
Score Distrib for Relevant Docs
- Previous work
- Input :
– Score distribution of relevant documents – Score distribution of non-relevant documents
- Output :
– PR-curve model
Score Distrib of Relevant Docs
- Input :
– Score distribution of non-relevant documents
- Gamma-based distribution fit to all scores
– PR-curve model
- Obtain parameter by fitting the model to the data
(ranked list of relevant and non-relevant documents)
- Output :
– Score distribution of relevant documents
- for now a very nice/simple model for PR curves; still
a messy derivation
- use of Recall and Fallout as defined by S.Robertson
Inferred relevant distribution
- “Estonia economy”
30
5 10 15 20 25 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
Inferred relevant distribution
- “Estonia economy”
30
Conclusions
- Quality classes : concept that relates
relevance with Poisson-process parameters
– goes beyond relevance grades assessments – can model aspects(diversity), types of docs etc
- Models better than traditional ones
- Relevant class distrib. needs more work
– can be approx inferred form a Prec-Recall model – PR models used too simple (for now)
- Thank You! Questions ?
31
32
Summation over query terms
- For scores computed as sums of term components
– BM25, LM, TF-IDF
- Non-relevant documents (low quality Q)
– each term component will be distributed approximately as a Gamma(low shape, low scale). – If the scales are approximately equal their sum follows a Gamma distribution with the same scale
- Relevant documents
– mixture has more effective components – sum a rich mixture, usually “multiple-hill” like
33