Sta$s$cal Significance Tes$ng In Theory and In Prac$ce - - PowerPoint PPT Presentation
Sta$s$cal Significance Tes$ng In Theory and In Prac$ce - - PowerPoint PPT Presentation
Sta$s$cal Significance Tes$ng In Theory and In Prac$ce Ben Cartere8e University of Delaware h8p://ir.cis.udel.edu/SIGIR17tutorial Hypotheses and Experiments
Hypotheses ¡and ¡Experiments ¡
- Hypothesis: ¡
– Using ¡an ¡SVM ¡for ¡classifica$on ¡will ¡give ¡be8er ¡accuracy ¡ than ¡using ¡Naïve ¡Bayes ¡ – A ¡“Symbol-‑Refined ¡Tree ¡Subs$tu$on ¡Grammar” ¡will ¡give ¡ be8er ¡parsing ¡results ¡than ¡a ¡simple ¡TSG ¡ – Using ¡deep ¡learning ¡to ¡re-‑rank ¡search ¡results ¡will ¡improve ¡ MAP ¡over ¡other ¡L2R ¡methods ¡
- Experiment: ¡
– Build ¡a ¡baseline ¡system ¡ – Modify ¡it ¡based ¡on ¡your ¡hypothesis ¡ – Test ¡both ¡systems ¡on ¡one ¡or ¡more ¡datasets ¡
2 ¡
Experimental ¡Results ¡
from ¡Shindo ¡et ¡al., ¡Bayesian ¡Symbol-‑Refined ¡Tree ¡Subs5tu5on ¡Grammars ¡for ¡Syntac5c ¡Parsing, ¡ACL ¡2012 ¡ 3 ¡
So ¡What? ¡
- “Do ¡these ¡results ¡support ¡the ¡hypothesis?” ¡
- “Are ¡these ¡results ¡meaningful?” ¡
- “Is ¡it ¡possible ¡that ¡the ¡differences ¡are ¡just ¡
random?” ¡ ¡à ¡sta$s$cal ¡significance ¡tes$ng! ¡
4 ¡
Overview ¡of ¡This ¡Tutorial ¡
Part ¡1: ¡ ¡Tes$ng ¡Sta$s$cal ¡Significance ¡
– May ¡be ¡a ¡review ¡for ¡some ¡of ¡you ¡
Part ¡2: ¡ ¡Fundamentals ¡of ¡Significance ¡Tes$ng ¡ Part ¡3: ¡ ¡Myths ¡and ¡Misconcep$ons ¡ Part ¡4: ¡ ¡Applica$ons, ¡or, ¡Why ¡Bother ¡With ¡ ¡ ¡Fundamentals? ¡ Part ¡5: ¡ ¡Significance ¡Tes$ng ¡in ¡IR ¡Research ¡
5 ¡
Using ¡R ¡
- R ¡is ¡a ¡socware ¡environment ¡for ¡sta$s$cal ¡compu$ng ¡
¡
- Includes ¡built-‑in ¡implementa$ons ¡of ¡many ¡common ¡
tests ¡
– Also ¡has ¡its ¡own ¡programming ¡language ¡for ¡implemen$ng ¡ custom ¡procedures ¡and ¡tests ¡ – This ¡tutorial ¡will ¡cover ¡custom ¡significance ¡tests! ¡ ¡
- Download ¡from ¡h8p://r-‑project.org ¡
– Download ¡TREC-‑7 ¡evalua$on ¡data ¡from ¡ h8p://ir.cis.udel.edu/SIGIR17tutorial/trec7.RData ¡
6 ¡
Background: ¡ ¡Experimenta$on ¡in ¡IR ¡
- The ¡standard ¡experimental ¡seeng ¡in ¡IR ¡is ¡called ¡
the ¡Cranfield ¡paradigm ¡
- Two ¡components: ¡ ¡test ¡collec$ons ¡and ¡
effec$veness ¡measures ¡
– A ¡test ¡collec$on ¡comprises: ¡
- A ¡corpus ¡of ¡documents ¡
- A ¡set ¡of ¡informa$on ¡needs/tasks/topics/queries ¡
- Relevance ¡judgments ¡
– Effec$veness ¡measures ¡such ¡as: ¡
- Precision@10, ¡average ¡precision, ¡nDCG@10, ¡alpha-‑
nDCG@10, ¡etc ¡
7 ¡
Background: ¡ ¡Cranfield ¡
query 1 query 2 query 3 query 4 query 5 A ¡ B ¡ C ¡ D ¡
0.3 0.4 0.1 0.5 0.3 0.2 0.3 0.1 0.2 0.3 0.4 0.4 0.3 0.1 0.2 0.1 0.5 0.4 0.3 0.1 8 ¡
Background: ¡ ¡Cranfield ¡
query 1 query 2 query 3 query 4 query 5 A ¡ B ¡ C ¡ D ¡ 0.3 0.2 0.4 0.1 0.250 0.4 0.3 0.4 0.5 0.400 0.1 0.1 0.3 0.4 0.225 0.5 0.2 0.1 0.3 0.275 0.3 0.3 0.2 0.1 0.225 0.32 0.22 0.28 0.28
9 ¡
Background: ¡ ¡Cranfield ¡
query 1 query 2 query 3 query 4 query 5 A ¡ B ¡ C ¡ D ¡ 0.3 0.2 0.4 0.1 0.250 0.4 0.3 0.4 0.5 0.400 0.1 0.1 0.3 0.4 0.225 0.5 0.2 0.1 0.3 0.275 0.3 0.3 0.2 0.1 0.225 0.32 0.22 0.28 0.28
10 ¡
Background: ¡ ¡Cranfield ¡
query 1 query 2 query 3 query 4 query 5 A ¡ B ¡ C ¡ D ¡ 0.3 0.2 0.4 0.1 0.250 0.4 0.3 0.4 0.5 0.400 0.1 0.1 0.3 0.4 0.225 0.5 0.2 0.1 0.3 0.275 0.3 0.3 0.2 0.1 0.225 0.32 0.22 0.28 0.28
11 ¡
TESTING ¡STATISTICAL ¡SIGNIFICANCE ¡
Part ¡1 ¡
12 ¡
Commonly-‑Used ¡Tests ¡
- Non-‑parametric: ¡
– Sign ¡test/binomial ¡test ¡ – Wilcoxon ¡signed ¡rank ¡test ¡
- Parametric: ¡
– Student’s ¡t-‑test ¡ – ANOVA ¡
- Distribu$on-‑free: ¡
– Randomiza$on ¡test ¡ – Bootstrap ¡test ¡
13 ¡
Sign ¡Test ¡
Query ¡ A ¡ B ¡ B-‑A ¡ sign(B-‑A) ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ +1 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ +1 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
- ‑1 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ +1 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ +1 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ +1 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
- ‑1 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ +1 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ +1 ¡
7 ¡“successes” ¡in ¡9 ¡complete ¡trials ¡ What ¡if ¡each ¡+1/-‑1 ¡was ¡just ¡the ¡ ¡ ¡result ¡of ¡flipping ¡a ¡fair ¡coin? ¡ What ¡is ¡the ¡probability ¡we ¡would ¡see ¡7 ¡or ¡more ¡heads ¡if ¡the ¡coin ¡is ¡fair? ¡
14 ¡
Binomial ¡Distribu$on ¡
What ¡is ¡the ¡probability ¡we ¡would ¡see ¡7 ¡or ¡more ¡heads ¡if ¡the ¡coin ¡is ¡fair? ¡ P(7 ¡heads ¡| ¡9 ¡trials, ¡½ ¡probability) ¡ + ¡P(8 ¡heads ¡| ¡9 ¡trials, ¡½ ¡probability) ¡ + ¡P(9 ¡heads ¡| ¡9 ¡trials, ¡½ ¡probability) ¡ = ¡0.09 ¡ p-‑value ¡= ¡0.09 ¡
15 ¡
Wilcoxon ¡Signed-‑Rank ¡Test ¡
Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ Rank ¡ B-‑A ¡ 1 ¡
- ‑.02 ¡
2 ¡ +.09 ¡ 3 ¡ +.10 ¡ 4 ¡
- ‑.24 ¡
5.5 ¡ +.25 ¡ 5.5 ¡ +.25 ¡ 7 ¡ +.41 ¡ 8 ¡ +.60 ¡ 9 ¡ +.70 ¡
W = 2 +3+ 5.5+ 5.5+ 7+8+ 9 W = 40
16 ¡
Wilcoxon ¡Signed-‑Rank ¡Test ¡
W Density
- 60
- 40
- 20
20 40 60 0.000 0.005 0.010 0.015
W = 40
p− value = 0.02
17 ¡
Student’s ¡t-‑test ¡
Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡
18 ¡
ˆ µ = B − A = 0.214 ˆ σ
B −A = 0.291
t = ˆ µ ˆ σ
B −A
n = 2.33
Student’s ¡t-‑test ¡
p − value = 0.02 σB −A = 0.291
19 ¡
ˆ µ = B − A = 0.214 ˆ σ
B −A = 0.291
t = ˆ µ ˆ σ
B −A
n = 2.33
Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .35 ¡ .25 ¡
- ‑.10 ¡
2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .68 ¡ .43 ¡
- ‑.25 ¡
6 ¡ .85 ¡ .15 ¡
- ‑.70 ¡
7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .50 ¡ .52 ¡ +.02 ¡ 9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .84 ¡ .43 ¡
- ‑.41 ¡
3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .68 ¡ .43 ¡
- ‑.25 ¡
6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .80 ¡ .20 ¡
- ‑.60 ¡
8 ¡ .50 ¡ .52 ¡ +.02 ¡ 9 ¡ .58 ¡ .49 ¡ 0.09 ¡ 10 ¡ .75 ¡ .50 ¡
- ‑.25 ¡
Randomiza$on ¡Test ¡
ˆ µ
0 = B − A = 0.214
ˆ µ
1 = −0.008
ˆ µ
2 = −0.093
20 ¡
Randomiza$on ¡Test ¡
mean
- 0.3
- 0.2
- 0.1
0.0 0.1 0.2 0.3
p − value = 0.02 ˆ µ
0 = B − A = 0.214
21 ¡
Bootstrap ¡Test ¡
Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ s1 ¡ s2 ¡ s3 ¡
- ‑.24 ¡
+.25 ¡
- ‑.24 ¡
+.41 ¡ +.10 ¡ +.60 ¡
- ‑.02 ¡
+.25 ¡
- ‑.70 ¡
0 ¡ +.60 ¡ +.25 ¡ +.25 ¡ +.70 ¡ +.70 ¡ +.10 ¡
- ‑.02 ¡
+.41 ¡ +.25 ¡ +.10 ¡
- ‑.02 ¡
+.10 ¡ +.25 ¡
- ‑.24 ¡
+.25 ¡ 0 ¡ +.70 ¡ +.10 ¡
- ‑.02 ¡
+.25 ¡
22 ¡
Bootstrap ¡Distribu$on ¡
mean
- 0.1
0.0 0.1 0.2 0.3 0.4 0.5
p − value = 0.005
23 ¡
Comparing ¡TREC-‑7 ¡Submissions ¡
- Let’s ¡compare ¡the ¡three ¡submissions ¡from ¡
UMass ¡Amherst ¡
– All ¡three ¡used ¡the ¡InQuery ¡retrieval ¡engine ¡ – Named ¡INQ501, ¡INQ502, ¡INQ503 ¡ – We’ll ¡use ¡all ¡5 ¡tests ¡discussed ¡so ¡far ¡
- Switching ¡to ¡R ¡window… ¡
24 ¡
Comparing ¡Tests ¡
- The ¡best ¡way ¡to ¡understand ¡and ¡compare ¡
tests ¡is ¡to ¡generate ¡random ¡data ¡
- Simple ¡procedure: ¡
– Pick ¡a ¡sample ¡size ¡n ¡ – Sample ¡n ¡values ¡from ¡some ¡distribu$on ¡ – Run ¡tests ¡on ¡those ¡n ¡values ¡ ¡ – Repeat ¡
25 ¡
Empirical ¡Comparisons ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 sign test p−value Wilcoxon signed−rank test p−value 26 ¡
Empirical ¡Comparisons ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 sign test p−value t−test p−value 27 ¡
Empirical ¡Comparisons ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Wilcoxon signed−rank test p−value t−test p−value 28 ¡
Empirical ¡Comparisons ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t−test p−value randomization test p−value 29 ¡
Empirical ¡Comparisons ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t−test p−value bootstrap test p−value 30 ¡
ANOVA ¡
- Compare ¡variance ¡due ¡to ¡system ¡to ¡variance ¡
due ¡to ¡topic ¡
Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 3 ¡ .39 ¡ .15 ¡
- ‑.24 ¡
4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡
- ‑.02 ¡
9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡
ˆ σ
2 = MSE = 0.042
ˆ σ
S 2 = MST = 0.229
F = MST MSE = 5.41
31 ¡
ANOVA ¡
- ANOVA ¡is ¡a ¡generaliza$on ¡of ¡the ¡t-‑test ¡
- Allows ¡comparison ¡of ¡more ¡than ¡just ¡2 ¡
systems ¡
– And ¡across ¡more ¡factors ¡than ¡just ¡system ¡and ¡ topic ¡
- Let’s ¡use ¡ANOVA ¡to ¡compare ¡all ¡three ¡INQ ¡
systems ¡
32 ¡
Summary ¡
- These ¡are ¡6 ¡of ¡the ¡most ¡common ¡tests ¡seen ¡in ¡IR ¡experimenta$on ¡
– Many ¡others ¡in ¡the ¡literature: ¡
- Chi-‑squared ¡
- Propor$on ¡test ¡
- ANCOVA/MANOVA/MANCOVA ¡
- All ¡have ¡in ¡common: ¡
– The ¡use ¡of ¡some ¡probability ¡distribu$on, ¡computa$on ¡of ¡a ¡p-‑value ¡ from ¡that ¡distribu$on ¡
- Nonparametric ¡tests: ¡transform ¡data ¡to ¡be ¡modeled ¡with ¡closed ¡distribu$on ¡
- Parametric ¡tests: ¡es$mate ¡distribu$on ¡parameters ¡from ¡the ¡data ¡itself ¡
- Empirical ¡tests: ¡compute ¡a ¡distribu$on ¡from ¡the ¡data ¡itself ¡
- All ¡produce ¡p-‑values ¡that ¡are ¡highly ¡correlated ¡
– Though ¡they ¡do ¡not ¡always ¡agree ¡about ¡which ¡pairs ¡are ¡significant ¡
33 ¡
FUNDAMENTALS ¡OF ¡ ¡ SIGNIFICANCE ¡TESTING ¡
Part ¡2 ¡
34 ¡
Tes$ng ¡Paradigms ¡
Ronald ¡Fisher ¡ Jerzy ¡Neyman ¡ Egon ¡Pearson ¡ Harold ¡Jeffreys ¡
35 ¡
What ¡Are ¡Tests ¡Really ¡Telling ¡Us? ¡
- Formal ¡set-‑up: ¡
H0: ¡ ¡μ ¡= ¡0 ¡ ¡ ¡or ¡ ¡ ¡H0: ¡ ¡μ ¡≤ ¡0 ¡ H1: ¡ ¡μ ¡≠ ¡0 ¡ ¡ ¡ ¡ ¡ ¡H1: ¡ ¡μ ¡> ¡0 ¡
- The ¡null ¡hypothesis, ¡along ¡with ¡the ¡null ¡distribu$on, ¡is ¡a ¡model ¡
– The ¡test ¡summarizes ¡evidence ¡against ¡the ¡truth ¡of ¡the ¡model ¡
- A ¡significance ¡test ¡is ¡a ¡procedure ¡that ¡takes ¡data, ¡a ¡null ¡hypothesis, ¡
and ¡a ¡procedure ¡for ¡compu$ng ¡a ¡null ¡distribu$on ¡
– It ¡outputs ¡a ¡p-‑value ¡
- The ¡p-‑value ¡is ¡the ¡probability ¡that ¡you ¡would ¡have ¡seen ¡the ¡same ¡
result ¡if ¡H0 ¡were ¡true ¡
– If ¡that ¡probability ¡is ¡low, ¡we ¡typically ¡“reject” ¡H0 ¡
36 ¡
What ¡Are ¡Tests ¡Really ¡Telling ¡Us? ¡
- Fisher: ¡ ¡p-‑value ¡is ¡the ¡likelihood ¡of ¡the ¡data ¡under ¡H0 ¡
– The ¡p-‑value ¡is ¡a ¡conclusion ¡about ¡this ¡par$cular ¡experiment ¡
- nly ¡
– Nothing ¡more, ¡nothing ¡less ¡
- Neyman-‑Pearson: ¡ ¡p ¡< ¡0.05 ¡means ¡we ¡can ¡reject ¡H0 ¡as ¡
being ¡unlikely ¡to ¡be ¡true ¡
– p-‑values ¡lead ¡to ¡inference ¡about ¡the ¡popula$on ¡ – The ¡p-‑value ¡itself ¡is ¡not ¡interes$ng; ¡the ¡inference ¡is ¡ – Note ¡that ¡we ¡do ¡not ¡accept ¡that ¡H1 ¡is ¡true! ¡
- Jeffreys: ¡ ¡posterior ¡probability ¡of ¡H0 ¡being ¡true ¡can ¡be ¡
compared ¡to ¡posterior ¡probability ¡of ¡other ¡models ¡
37 ¡
What ¡Are ¡Tests ¡NOT ¡Telling ¡Us? ¡
- NOT ¡the ¡“probability ¡that ¡the ¡results ¡are ¡due ¡to ¡
chance” ¡
- NOT ¡whether ¡the ¡experiment ¡is ¡reliable ¡
- NOT ¡the ¡probability ¡that ¡H0 ¡is ¡true ¡or ¡false ¡
- NOT ¡that ¡H0 ¡is ¡false ¡if ¡the ¡p-‑value ¡is ¡low ¡
- NOT ¡that ¡H0 ¡is ¡true ¡if ¡the ¡p-‑value ¡is ¡high ¡
38 ¡
Terms ¡and ¡Defini$ons ¡
query 1 query 2 query 3 query 4 query 5 A ¡ B ¡ C ¡ D ¡
0.3 0.4 0.1 0.5 0.3 0.2 0.3 0.1 0.2 0.3 0.4 0.4 0.3 0.1 0.2 0.1 0.5 0.4 0.3 0.1
“subjects” ¡ “treatments” ¡ “measurements” ¡
39 ¡
Terms ¡and ¡Defini$ons ¡
- Single-‑sample ¡vs ¡two-‑sample ¡tests ¡
– A ¡single-‑sample ¡test ¡is ¡for ¡when ¡you ¡apply ¡one ¡or ¡ more ¡“treatments” ¡to ¡a ¡single ¡sample ¡of ¡“subjects” ¡ – In ¡a ¡two-‑sample ¡test, ¡each ¡treatment ¡is ¡applied ¡to ¡a ¡ different ¡sample ¡
- Paired ¡vs ¡unpaired ¡
– Paired ¡tests ¡are ¡a ¡special ¡case ¡of ¡single-‑sample ¡tests: ¡ ¡ subtract ¡evalua$on ¡results ¡for ¡each ¡example ¡to ¡obtain ¡ the ¡measurements ¡to ¡summarize ¡ – Unpaired ¡tests ¡can ¡be ¡single-‑sample ¡too ¡
40 ¡
Terms ¡and ¡Defini$ons ¡
- One-‑tailed ¡vs ¡two-‑tailed ¡
– All ¡the ¡examples ¡done ¡to ¡this ¡point ¡were ¡one-‑ tailed ¡tests ¡
- Compu$ng ¡the ¡p-‑value ¡from ¡the ¡right ¡(upper) ¡tail ¡of ¡the ¡
test ¡sta$s$c ¡distribu$on ¡
– Two-‑tailed ¡tests ¡compute ¡the ¡p-‑value ¡from ¡both ¡ tails ¡ – Result ¡is ¡generally ¡a ¡higher ¡p-‑value ¡
41 ¡
Test ¡Sta$s$cs ¡and ¡Distribu$ons ¡
- Test ¡sta$s$c ¡
– A ¡summary ¡of ¡the ¡data, ¡usually ¡designed ¡to ¡have ¡ specific ¡distribu$on ¡guarantees ¡(asympto$cally) ¡
- Parametric ¡vs ¡non-‑parametric ¡
– If ¡the ¡test ¡sta$s$c ¡distribu$on ¡has ¡any ¡free ¡ parameters, ¡the ¡test ¡is ¡said ¡to ¡be ¡“parametric” ¡
- Confidence ¡interval ¡
42 ¡
Sizes ¡and ¡Values ¡
- Sample ¡size ¡
– The ¡number ¡of ¡subjects/examples ¡in ¡the ¡experiment ¡ – Assumed ¡to ¡be ¡sampled ¡i.i.d. ¡from ¡a ¡much ¡larger ¡popula$on ¡
- Effect ¡size ¡
– A ¡measure ¡of ¡the ¡difference ¡between ¡two ¡“treatments” ¡or ¡algorithms ¡in ¡the ¡ popula$on ¡ – Independent ¡of ¡sample ¡size ¡ – H0: ¡ ¡effect ¡size ¡is ¡zero ¡
- p-‑value ¡
– The ¡likelihood ¡of ¡observing ¡the ¡effect ¡in ¡the ¡sample ¡assuming ¡H0 ¡is ¡true ¡
- Cri$cal ¡value ¡
– The ¡minimum ¡test ¡sta$s$c ¡value ¡necessary ¡to ¡obtain ¡p ¡< ¡α ¡with ¡a ¡given ¡sample ¡ size ¡ – α ¡usually ¡= ¡0.05 ¡
43 ¡
Variance ¡
- Total ¡variance ¡
– The ¡sum ¡of ¡the ¡square ¡differences ¡between ¡ measurements ¡and ¡the ¡overall ¡mean ¡
- Within-‑group ¡variance ¡
– Variance ¡due ¡to ¡subjects/topics ¡ – Paired ¡tests ¡subtract ¡this ¡variance ¡out ¡
- Between-‑group ¡variance ¡
– Variance ¡due ¡to ¡the ¡treatments/systems ¡
44 ¡
P-‑value ¡Distribu$ons ¡
- Variance ¡due ¡to ¡subjects ¡and ¡treatments ¡means ¡
varia$on ¡in ¡p-‑values ¡over ¡experiments ¡
– Therefore ¡we ¡can ¡talk ¡about ¡the ¡probability ¡of ¡observing ¡a ¡ certain ¡p-‑value ¡condi$onal ¡on ¡an ¡experiment ¡
- When ¡the ¡null ¡hypothesis ¡is ¡true, ¡the ¡p-‑value ¡has ¡a ¡
uniform ¡distribu$on ¡
– All ¡values ¡equally ¡likely ¡ – P(p ¡< ¡0.05 ¡| ¡H0 ¡true) ¡= ¡0.05 ¡
- When ¡the ¡null ¡is ¡not ¡true, ¡the ¡p-‑value ¡distribu$on ¡
depends ¡on ¡the ¡popula$on ¡effect ¡size ¡and ¡sample ¡size ¡
45 ¡
High ¡p-‑value ¡≠ ¡True ¡H0 ¡
- Suppose ¡we ¡observe ¡μ̂ ¡= ¡0.02, ¡σ̂ ¡= ¡0.16 ¡with ¡n ¡= ¡50 ¡
– This ¡would ¡not ¡be ¡a ¡significant ¡result; ¡p ¡≈ ¡0.2 ¡ – But ¡if ¡popula$on ¡μ ¡= ¡0.02 ¡and ¡popula$on ¡σ ¡= ¡0.16, ¡it ¡is ¡ possible ¡to ¡get ¡a ¡significant ¡result ¡
- P(p ¡< ¡0.05 ¡| ¡μ ¡= ¡0.02, ¡σ ¡= ¡0.16, ¡n ¡= ¡50) ¡≈ ¡0.14 ¡
- What ¡is ¡P(H0 ¡true ¡| ¡p ¡< ¡0.05)? ¡
H0: ¡ ¡μ ¡= ¡0 ¡ H1: ¡ ¡μ ¡= ¡0.02 ¡
46 ¡
High ¡p-‑value ¡≠ ¡True ¡H0 ¡
P(H0|p < 0.05) = P(p < 0.05|H0) P(p < 0.05|H1)P(H1) + P(p < 0.05|H0)P(H0)
P(p < 0.05|H0) = 0.05 P(p < 0.05|H1) = 0.14 P(H0) = 0.5 P(H1) = 0.5 P(H0|p < 0.05) = 0.27
P(H0)
47 ¡
Accuracy ¡and ¡Power ¡
- Accuracy ¡
– The ¡probability ¡of ¡geeng ¡p ¡≥ ¡α ¡when ¡H0 ¡ is ¡actually ¡true ¡ – Probability ¡of ¡correctly ¡not ¡rejec$ng ¡H0 ¡ – Propor$onal ¡to ¡false ¡posi$ve ¡rate ¡
- Power ¡
– The ¡probability ¡of ¡geeng ¡p ¡< ¡α ¡when ¡the ¡ null ¡hypothesis ¡is ¡actually ¡false ¡ – The ¡probability ¡of ¡correctly ¡rejec$ng ¡H0 ¡ – True ¡posi$ve ¡rate ¡
- Most ¡tests ¡are ¡defined ¡to ¡have ¡a ¡false ¡
posi$ve ¡rate ¡of ¡α ¡when ¡H0 ¡is ¡true ¡
– Achieving ¡a ¡certain ¡power ¡level ¡involves ¡ es$ma$ng ¡effect ¡size ¡and ¡sample ¡size ¡ H0 ¡à à ¡ test ¡result ¡↓ ¡ true ¡ false ¡ not ¡rejected ¡ accuracy ¡ 1-‑α ¡ Type ¡II ¡ ¡ Error ¡ β ¡ rejected ¡ Type ¡I ¡ error ¡ α ¡ power ¡ 1-‑β ¡
48 ¡
Sta$s$cal ¡Tes$ng ¡as ¡Classifica$on ¡
- Con$ngency ¡tables? ¡False ¡posi$ves ¡and ¡nega$ves? ¡
Looks ¡familiar… ¡
- A ¡staXsXcal ¡test ¡with ¡a ¡threshold ¡for ¡significance ¡is ¡a ¡
binary ¡classifier ¡
- Classifiers ¡learn ¡a ¡model ¡of ¡the ¡data: ¡ ¡class ¡modeled ¡as ¡
a ¡func$on ¡of ¡features ¡
– Of ¡course, ¡unlike ¡classifiers, ¡we ¡cannot ¡evaluate ¡sta$s$cal ¡ tests ¡directly—there ¡is ¡no ¡ground ¡truth ¡
- Sta$s$cal ¡tests ¡implicitly ¡model ¡evalua$on ¡data ¡as ¡a ¡
func$on ¡of ¡features, ¡then ¡inference ¡in ¡that ¡model ¡
49 ¡
Modeling ¡Evalua$on ¡
- ANOVA ¡is ¡based ¡on ¡the ¡linear ¡regression ¡model ¡
- yij ¡is ¡the ¡effec$veness ¡of ¡system ¡I ¡on ¡topic ¡j ¡
- μ ¡is ¡the ¡intercept ¡and ¡represents ¡baseline ¡retrieval ¡
effec$veness ¡
- αj ¡represents ¡the ¡“topic ¡effect” ¡
- βi ¡represents ¡the ¡“system ¡effect” ¡
– Different ¡meaning ¡from ¡the ¡α ¡and ¡β ¡in ¡Type ¡I ¡and ¡Type ¡II ¡ error ¡rates ¡(hope ¡this ¡isn’t ¡too ¡confusing!) ¡
- εij ¡is ¡random ¡error ¡
– It ¡represents ¡every ¡effect ¡unspecified ¡in ¡the ¡model ¡
¡
yij = µ +α j + βi +εij
50 ¡
Modeling ¡Evalua$on ¡
- Fit ¡the ¡model ¡using ¡OLS ¡
- Compare ¡β ¡values ¡
- OLS ¡es$mator ¡for ¡βi ¡is ¡mean ¡effec$veness ¡of ¡system ¡i ¡
- εij ¡is ¡assumed ¡to ¡have ¡normal ¡distribu$on ¡with ¡variance ¡σ2 ¡
– Es$mated ¡as ¡variance ¡in ¡differences ¡in ¡effec$veness ¡
- Inference ¡procedure ¡uses ¡those ¡two ¡quan$$es, ¡ignores ¡
everything ¡else ¡
– But ¡it’s ¡all ¡s$ll ¡there, ¡affec$ng ¡the ¡model ¡
yij = µ +α j + βi +εij
51 ¡
All ¡models ¡are ¡ wrong, ¡but ¡some ¡are ¡
- useful. ¡
George ¡E. ¡P. ¡Box ¡
52 ¡
53 ¡
Donald ¡Rumsfeld, ¡Secret ¡Data ¡Analyst ¡ ¡
- Known ¡knowns ¡
– Relevance ¡judgments, ¡ranked ¡list ¡ – Effec$veness ¡measurements ¡
- Known ¡unknowns ¡
– Values ¡of ¡parameters ¡in ¡parametric ¡tests ¡ – Null ¡distribu$on ¡in ¡empirical ¡tests ¡ – Missing ¡judgments, ¡assessor ¡disagreement ¡
- Unknown ¡unknowns ¡
– What’s ¡wrong ¡with ¡the ¡model? ¡ – How ¡do ¡flaws ¡in ¡the ¡model ¡affect ¡inference ¡and ¡conclusions? ¡
54 ¡
Sta$s$cal ¡Significance ¡Tes$ng ¡ In ¡Theory ¡and ¡In ¡Prac$ce ¡
Ben ¡Cartere8e ¡ University ¡of ¡Delaware ¡ ¡ h8p://ir.cis.udel.edu/SIGIR17tutorial ¡ ¡
MYTHS ¡AND ¡MISCONCEPTIONS ¡
Part ¡3 ¡
56 ¡
Myths ¡and ¡Misconcep$ons ¡
- Significance ¡tests ¡lend ¡rigor ¡to ¡our ¡experimenta$on ¡
– Without ¡them, ¡the ¡usual ¡differences ¡of ¡< ¡5% ¡would ¡be ¡ difficult ¡to ¡interpret ¡
- But ¡they ¡are ¡widely ¡misunderstood ¡
– p-‑values ¡can ¡be ¡incorrectly ¡interpreted ¡ – p-‑values ¡can ¡be ¡easily ¡manipulated ¡(even ¡uninten$onally) ¡
- They ¡are ¡fundamentally ¡no ¡more ¡rigorous ¡than ¡any ¡AI/
ML ¡approach ¡to ¡classifica$on ¡
– Though ¡they ¡may ¡have ¡a ¡deeper ¡theore$cal ¡basis ¡
57 ¡
Myth: ¡ ¡H0 ¡is ¡a ¡Realis$c ¡Model ¡
- The ¡first ¡and ¡biggest ¡misconcep$on: ¡ ¡a ¡null ¡hypothesis ¡of ¡
μ ¡= ¡0 ¡is ¡some$mes ¡true ¡
– That ¡is, ¡there ¡is ¡a ¡chance ¡that ¡there ¡really ¡is ¡no ¡effect ¡ – (A ¡one-‑sided ¡null ¡hypothesis ¡may ¡be ¡true ¡of ¡course) ¡
- In ¡AI-‑aligned ¡fields, ¡such ¡a ¡null ¡hypothesis ¡is ¡almost ¡
never ¡true ¡
– Really ¡only ¡when ¡the ¡experimenter ¡made ¡a ¡mistake ¡
- The ¡only ¡ques$on ¡is ¡how ¡big ¡of ¡a ¡sample ¡size ¡will ¡it ¡take ¡
to ¡reject ¡it ¡
– There ¡is ¡always ¡some ¡sample ¡big ¡enough ¡to ¡reject ¡it ¡
58 ¡
Myth: ¡ ¡Rejec$ng ¡H0 ¡Means ¡it ¡is ¡False ¡
- We ¡take ¡p ¡< ¡0.05 ¡as ¡reason ¡to ¡reject ¡H0 ¡
- But ¡a ¡test ¡can ¡reject ¡H0 ¡for ¡many ¡reasons: ¡
– bias ¡or ¡other ¡issues ¡in ¡our ¡sample ¡ – viola$ons ¡of ¡test ¡model ¡assump$ons ¡ – failure ¡to ¡model ¡important ¡sources ¡of ¡variance ¡ – uninten$onal ¡overfieng ¡
- Rejec$ng ¡H0 ¡should ¡not ¡be ¡taken ¡to ¡mean ¡a ¡system ¡is ¡
definitely ¡be8er ¡
– It ¡is ¡more ¡accurate ¡to ¡say ¡whether ¡an ¡experiment ¡is ¡ powerful ¡enough ¡to ¡reject ¡or ¡fail ¡to ¡reject ¡H0 ¡
59 ¡
Myth: ¡ ¡Test ¡Assump$ons ¡ ¡ Are ¡Important ¡
- Consider ¡the ¡t-‑test ¡based ¡on ¡the ¡linear ¡model ¡
- Assump$ons: ¡
– y ¡is ¡unbounded ¡ – linearity ¡and ¡addi$vity ¡ – homoscedas$city ¡ – normality ¡of ¡errors ¡ – (note: ¡ ¡normality ¡of ¡data ¡is ¡not ¡an ¡assump$on) ¡
- All ¡of ¡these ¡are ¡false! ¡
– But ¡that ¡is ¡not ¡sufficient ¡reason ¡to ¡not ¡use ¡the ¡test ¡ – We ¡can ¡evaluate ¡how ¡much ¡their ¡falseness ¡affects ¡accuracy ¡and ¡ power ¡by ¡simula$on ¡
60 ¡
Myth: ¡Test ¡Assump$ons ¡ ¡ Are ¡Important ¡
- OK, ¡so ¡t-‑test ¡assump$ons ¡are ¡false. ¡ ¡Why ¡not ¡use ¡a ¡
different ¡test? ¡
- Every ¡test ¡is ¡based ¡on ¡some ¡model, ¡and ¡every ¡model ¡is ¡
false ¡
– Even ¡so-‑called ¡“assump$on-‑free” ¡tests ¡like ¡Fisher’s ¡exact ¡test ¡or ¡ the ¡bootstrap ¡actually ¡do ¡involve ¡assump$ons ¡
- The ¡tradeoff ¡is ¡generally ¡between ¡simplicity ¡and ¡power ¡
– Fewer ¡assump$ons ¡à ¡less ¡power ¡à ¡fewer ¡significant ¡results ¡
- t-‑test ¡is ¡popular ¡because ¡it ¡is ¡powerful, ¡robust ¡to ¡viola$ons ¡
- f ¡its ¡assump$ons, ¡and ¡computa$onally ¡easy ¡
¡
61 ¡
Myth: ¡ ¡p-‑Values ¡Have ¡ ¡ Intrinsic ¡Meaning ¡
- p ¡< ¡0.05 ¡is ¡ocen ¡taken ¡as ¡a ¡“gold ¡standard” ¡of ¡
proof ¡
- Two ¡things ¡to ¡keep ¡in ¡mind: ¡
– The ¡p-‑value ¡comes ¡out ¡of ¡a ¡model; ¡“all ¡models ¡are ¡ wrong” ¡ – 0.05 ¡is ¡an ¡arbitrary ¡value ¡that ¡was ¡probably ¡first ¡used ¡ as ¡an ¡example ¡
- Any ¡meaning ¡given ¡to ¡a ¡p-‑value ¡is ¡extrinsic ¡
– Usually ¡granted ¡by ¡a ¡community ¡of ¡scien$sts ¡
62 ¡
Myth: ¡ ¡p-‑Values ¡Have ¡ ¡ Intrinsic ¡Meaning ¡
- P-‑values ¡vary ¡depending ¡on ¡choices ¡made ¡in ¡
experimenta$on, ¡on ¡systems ¡being ¡tested, ¡on ¡many ¡other ¡ factors ¡
– A ¡p-‑value ¡cannot ¡be ¡an ¡exact ¡reflec$on ¡of ¡real-‑world ¡ significance ¡
- The ¡real ¡gold ¡standard ¡is ¡whether ¡it ¡helps ¡users ¡
- Any ¡IR ¡evalua$on ¡based ¡on ¡the ¡Cranfield ¡paradigm ¡cannot ¡
directly ¡answer ¡that ¡
- But ¡using ¡a ¡priori ¡power ¡analysis ¡to ¡determine ¡appropriate ¡
sample ¡size ¡comes ¡closer ¡than ¡looking ¡at ¡p-‑values ¡
63 ¡
Myth: ¡ ¡Lower ¡p-‑Values ¡are ¡Be8er ¡
- If ¡a ¡p-‑value ¡of ¡0.04 ¡is ¡be8er ¡than ¡a ¡p-‑value ¡of ¡
0.06, ¡then ¡a ¡p-‑value ¡of ¡0.02 ¡is ¡even ¡be8er, ¡right? ¡
- A ¡p-‑value ¡can ¡be ¡lower ¡for ¡three ¡reasons: ¡
– The ¡effect ¡size ¡is ¡bigger ¡(good) ¡ – The ¡sample ¡size ¡is ¡bigger ¡(bad) ¡ – “Randomness” ¡
- There’s ¡no ¡way ¡to ¡know ¡which ¡of ¡these ¡is ¡the ¡
reason ¡
64 ¡
Myth: ¡ ¡Lower ¡p-‑Values ¡are ¡Be8er ¡
- p-‑value ¡= ¡P(data ¡| ¡H0, ¡test ¡model, ¡inputs) ¡
- For ¡parametric ¡and ¡empirical ¡tests, ¡the ¡null ¡
distribu$on ¡is ¡computed ¡from ¡the ¡input ¡data ¡
– Changing ¡the ¡input ¡data ¡changes ¡the ¡distribu$on ¡ – Which ¡means ¡two ¡t-‑tests ¡on ¡two ¡pairs ¡of ¡runs ¡are ¡ using ¡two ¡different ¡distribu$ons ¡
- p-‑values ¡should ¡not ¡be ¡compared ¡directly ¡
– Fisher ¡and ¡Neyman/Pearson ¡would ¡have ¡agreed ¡on ¡ this! ¡
65 ¡
Myth: ¡ ¡Running ¡Many ¡Tests ¡is ¡OK ¡
- AI ¡experimenta$on ¡ocen ¡happens ¡like ¡this: ¡
- 1. Modify ¡a ¡system, ¡compare ¡to ¡baseline, ¡run ¡test ¡
- 2. Significant? ¡
- No: ¡ ¡go ¡back ¡to ¡step ¡1 ¡
- Yes: ¡ ¡start ¡wri$ng ¡a ¡paper ¡
¡
- How ¡many ¡tests ¡does ¡it ¡take ¡to ¡get ¡to ¡the ¡
endpoint? ¡
– P(mth ¡experiment ¡gives ¡significant ¡result ¡| ¡m ¡ experiments ¡lacking ¡power ¡to ¡reject ¡H0) ¡ – P(at ¡least ¡one ¡significant ¡result ¡| ¡m ¡experiments ¡ lacking ¡power ¡to ¡reject ¡H0) ¡
66 ¡
Mul$ple ¡Comparisons ¡Problem ¡
- P(at ¡least ¡one ¡significant ¡result ¡| ¡m ¡
experiments ¡lacking ¡power ¡to ¡reject ¡H0) ¡
= ¡P(one ¡significant ¡| ¡m) ¡+ ¡P(two ¡significant ¡| ¡m) ¡+ ¡… ¡ = ¡1 ¡– ¡P(none ¡significant ¡| ¡m) ¡ = ¡1 ¡– ¡(1 ¡– ¡α)m ¡
¡
- If ¡you ¡don’t ¡believe ¡the ¡math, ¡simulate ¡it ¡
67 ¡
Mul$ple ¡Comparisons ¡Problem ¡
68 ¡
Summary ¡
- We ¡are ¡taught ¡to ¡use ¡sta$s$cal ¡significance ¡tests ¡
in ¡certain ¡ways ¡
– Tests ¡unmodified ¡from ¡textbook ¡forms ¡ – Received ¡wisdom ¡ – Seldom ¡reflected ¡on ¡in ¡depth ¡
- (And ¡when ¡they ¡are, ¡the ¡usual ¡tendency ¡is ¡to ¡recommend ¡
more ¡conserva$ve ¡procedures) ¡
- Misconcep$ons ¡propagate ¡
- Huge ¡problems ¡like ¡MCP ¡go ¡unaddressed ¡
69 ¡
APPLICATIONS, ¡OR, ¡WHY ¡BOTHER ¡ WITH ¡FUNDAMENTALS? ¡
Part ¡4 ¡
70 ¡
What ¡is ¡a ¡Sta$s$cal ¡Significance ¡Test? ¡
- A ¡sta$s$cal ¡test ¡consists ¡of ¡four ¡things: ¡
– A ¡null ¡hypothesis ¡ – A ¡test ¡sta$s$c ¡ – A ¡null ¡distribu$on ¡for ¡the ¡test ¡sta$s$c ¡ – A ¡cri$cal ¡value ¡in ¡the ¡null ¡distribu$on ¡
- You ¡can ¡invent ¡any ¡test ¡you ¡like! ¡
– … ¡as ¡long ¡as ¡you ¡can ¡compute ¡a ¡test ¡sta$s$c ¡and ¡ its ¡null ¡distribu$on ¡
71 ¡
Why ¡Bother? ¡
- Sources ¡of ¡variance ¡specific ¡to ¡IR: ¡
– Assessor ¡error ¡and ¡disagreement ¡ – Missing ¡relevance ¡judgments ¡ – Total ¡number ¡of ¡relevant ¡documents ¡ – Topic/task ¡type ¡ – Proper$es ¡of ¡document ¡corpus ¡ – Proper$es ¡of ¡effec$veness ¡measures ¡ – Low-‑level ¡system ¡features ¡(stemmer/stopwords/tokeniza$on/etc) ¡ – … ¡
- None ¡of ¡these ¡included ¡in ¡standard ¡test ¡models ¡
- In ¡fact, ¡standard ¡test ¡models ¡account ¡for ¡very ¡li8le ¡
– Not ¡even ¡major ¡issues ¡like ¡mul$ple ¡comparisons ¡ ¡
72 ¡
Mul$ple ¡Comparisons ¡
- Recall ¡that ¡performing ¡many ¡tests ¡of ¡the ¡same ¡or ¡similar ¡
experiments ¡results ¡in ¡higher ¡probability ¡that ¡at ¡least ¡one ¡is ¡ falsely ¡significant ¡
- We ¡should ¡adjust ¡our ¡test ¡results ¡for ¡the ¡fact ¡that ¡we ¡have ¡
made ¡mul$ple ¡comparisons ¡
- Many ¡different ¡approaches ¡in ¡stats ¡literature: ¡
– Bonferroni ¡correc$on ¡ – Tukey’s ¡Honest ¡Significant ¡Differences ¡ – Mul$variate ¡t ¡test ¡
- Instead ¡of ¡picking ¡one ¡of ¡those, ¡let’s ¡reason ¡from ¡principles ¡
73 ¡
Seeng ¡Up ¡a ¡Test ¡
- Start ¡by ¡seeng ¡up ¡a ¡single ¡null ¡hypothesis ¡that ¡all ¡
systems ¡are ¡equal: ¡
– H0: ¡ ¡S1 ¡= ¡S2 ¡= ¡S3 ¡= ¡… ¡= ¡Sm ¡ – This ¡is ¡called ¡the ¡omnibus ¡hypothesis ¡
- How ¡do ¡we ¡compute ¡a ¡null ¡distribu$on? ¡
– Even ¡if ¡all ¡systems ¡are ¡equally ¡effec$ve, ¡random ¡varia$on ¡ will ¡mean ¡that ¡we ¡can ¡order ¡them ¡by ¡average ¡effec$veness ¡
- n ¡a ¡sample ¡
– What ¡is ¡the ¡expected ¡maximum ¡difference ¡between ¡any ¡ two ¡systems ¡over ¡a ¡sample ¡given ¡that ¡all ¡are ¡equally ¡ effec$ve? ¡ – Compute ¡the ¡null ¡distribu$on ¡from ¡there ¡
74 ¡
Seeng ¡Up ¡a ¡Randomiza$on ¡Test ¡
- Use ¡the ¡randomiza$on ¡framework ¡to ¡compute ¡the ¡distribu$on ¡of ¡
maximum ¡difference: ¡
– Randomly ¡permute ¡each ¡row ¡of ¡the ¡evalua$on ¡matrix ¡independently ¡ – Take ¡column ¡averages ¡ – Record ¡maximum ¡difference: ¡ ¡max(effec$veness) ¡– ¡min(effec$veness) ¡ – Repeat ¡105 ¡$mes ¡
- When ¡done, ¡plot ¡a ¡histogram ¡of ¡the ¡recorded ¡maximum ¡differences
—this ¡is ¡your ¡null ¡distribu$on ¡
– Now ¡locate ¡your ¡cri$cal ¡value ¡ – Any ¡pair ¡of ¡systems ¡with ¡difference ¡greater ¡than ¡the ¡cri$cal ¡value ¡is ¡ significant ¡ – And ¡you ¡only ¡did ¡one ¡test ¡instead ¡of ¡O(n2) ¡
- Suscep$bility ¡to ¡MCP ¡much ¡reduced ¡
75 ¡
Randomiza$on ¡Test ¡ ¡ w/ ¡MCP ¡Adjustment ¡
76 ¡
Tukey’s ¡HSD ¡
- That ¡test ¡is ¡a ¡randomiza$on ¡version ¡of ¡Tukey’s ¡
Honest ¡Significant ¡Differences ¡(HSD) ¡test ¡
– a.k.a. ¡Tukey’s ¡range ¡test ¡
- Proper ¡test: ¡
– Fit ¡an ¡ANOVA ¡to ¡all ¡m ¡systems/n ¡ topics ¡evalua$on ¡results ¡ – Test ¡sta$s$c ¡is ¡the ¡range ¡(max ¡minus ¡ min) ¡divided ¡by ¡MSE ¡ – Null ¡distribu$on ¡is ¡the ¡Tukey ¡ distribu$on ¡(implemented ¡in ¡many ¡ stats ¡packages) ¡
77 ¡
Effect ¡on ¡TREC-‑7 ¡Evalua$on ¡
78 ¡
Tests ¡Specific ¡to ¡IR ¡
- Effec$veness ¡measures ¡are ¡not ¡measurements ¡
in ¡the ¡same ¡sense ¡as ¡height, ¡weight, ¡length ¡
– They ¡are ¡sta$s$cs ¡that ¡summarize ¡the ¡posi$ons ¡of ¡ relevant ¡documents ¡in ¡ranked ¡lists ¡
- An ¡IR-‑specific ¡test ¡should ¡start ¡from ¡individual ¡
relevance ¡judgments ¡
– Null ¡hypothesis: ¡ ¡two ¡systems ¡are ¡equally ¡good ¡at ¡ presen$ng ¡relevant ¡documents ¡to ¡users ¡
79 ¡
Likelihood ¡Ra$o ¡Test ¡
- Really ¡a ¡framework ¡for ¡tes$ng ¡
- Needed: ¡ ¡a ¡hypothesized ¡null ¡distribu$on ¡and ¡
a ¡hypothesized ¡“alterna$ve” ¡distribu$on ¡
- Compute ¡the ¡likelihood ¡ra$o ¡between ¡the ¡two ¡
- If ¡the ¡ra$o ¡is ¡above ¡some ¡threshold, ¡reject ¡H0 ¡
80 ¡
ANOVA ¡as ¡a ¡Likelihood ¡Ra$o ¡
- ANOVA ¡is ¡based ¡on ¡the ¡linear ¡model: ¡
- In ¡words, ¡the ¡observed ¡effec$veness ¡of ¡
system ¡j ¡on ¡topic ¡i ¡is ¡sampled ¡randomly ¡
– Sampled ¡from ¡a ¡normal ¡distribu$on ¡with ¡mean ¡ influenced ¡by ¡system ¡and ¡topic ¡ ¡
yij ∼ N(µ + αi + βj, σ2)
L0 = Y
i,j
P(yij|µ = 0, σ = b σ) L1 = Y
i,j
P(yij|µ = b µ, σ = b σ)
81 ¡
A ¡Test ¡for ¡IR ¡
- Instead ¡of ¡the ¡likelihood ¡of ¡effec$veness ¡measure ¡
values, ¡compute ¡the ¡likelihood ¡of ¡the ¡actual ¡relevance ¡ judgments ¡
- Suppose ¡the ¡following: ¡
– Relevance ¡is ¡generated ¡by ¡flipping ¡a ¡biased ¡coin ¡ – The ¡coin’s ¡probability ¡of ¡coming ¡up ¡heads ¡is ¡biased ¡by ¡the ¡ system ¡and ¡the ¡topic ¡
- If ¡one ¡system ¡biases ¡the ¡coin ¡more ¡than ¡another, ¡even ¡
in ¡the ¡presence ¡of ¡topic ¡bias, ¡that ¡system ¡is ¡more ¡ effec$ve ¡at ¡finding ¡relevant ¡documents ¡
82 ¡
Test ¡Model ¡
- Likelihood ¡is ¡based ¡on ¡Bernoulli ¡probabili$es ¡
- This ¡model ¡is ¡s$ll ¡linear ¡in ¡system ¡and ¡topic ¡
effects, ¡but ¡fixes ¡some ¡problems ¡with ¡the ¡t-‑test ¡ ¡
xijk ∼ Bernoulli(pij) logit pij = µ + ↵i + j + ✏ij ✏ij ∼ N(0, 2)
83 ¡
Test ¡Model ¡
- Likelihood ¡func$on: ¡
¡ ¡
- Maximum ¡likelihood ¡es$mator ¡for ¡pij ¡turns ¡out ¡to ¡
be ¡exactly ¡precision@k ¡for ¡system ¡i ¡on ¡topic ¡j ¡
- An ¡evalua$on ¡measure ¡that ¡makes ¡sense ¡for ¡IR ¡
emerges ¡from ¡a ¡test ¡developed ¡for ¡the ¡unique ¡ characteris$c ¡of ¡IR ¡
– Rather ¡than ¡a ¡test ¡that ¡makes ¡li8le ¡sense ¡for ¡IR ¡being ¡ performed ¡on ¡an ¡evalua$on ¡measure ¡developed ¡for ¡IR ¡
LM3 =
N
Y
i=1 M
Y
j=1 K
Y
k=1
p
xijk ij
(1 − pij)1−xijk
L =
N
Y
i=1 M
Y
j=1 K
Y
k=1
P(xijk)
84 ¡
Mean ¡P10 ¡Comparison ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 actual precision at 10 pij estimate of precision at 10 85 ¡
Test ¡Model ¡
xijk ∼ Bernoulli(pij) logit pij ∼ N(µ + βj + αi, σ2) σ ∼ 1/σ µ ∼ N(0, σ2
µ)
σµ ∼ 1/σµ βj ∼ N(0, σ2
α)
σα ∼ 1/σα αi ∼ N(0, σ2
β)
σβ ∼ 1/σβ
N topics M systems
p β α
K ranked docs
x
86 ¡
P-‑values ¡and ¡Posterior ¡Probabili$es ¡
- It ¡is ¡not ¡clear ¡how ¡to ¡get ¡a ¡p-‑value ¡out ¡of ¡this ¡
– No ¡clear ¡null ¡distribu$on ¡or ¡test ¡sta$s$c ¡ – (At ¡least ¡not ¡to ¡me) ¡
- Rather ¡than ¡compute ¡a ¡p-‑value, ¡directly ¡compute ¡
P(β1 ¡> ¡β2) ¡
– Use ¡posterior ¡distribu$ons ¡of ¡β ¡ ¡
- P(β1 ¡> ¡β2) ¡is ¡a ¡lot ¡closer ¡to ¡what ¡we ¡care ¡about ¡
than ¡P(p ¡< ¡0.05 ¡| ¡H0)! ¡
87 ¡
p-‑value ¡Comparison ¡
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t−test p−values posterior probability from Model 3
88 ¡
Mul$ple ¡Comparisons? ¡
xijk ∼ Bernoulli(pij) logit pij ∼ N(µ + βj + αi, σ2) σ ∼ 1/σ µ ∼ N(0, σ2
µ)
σµ ∼ 1/σµ βj ∼ N(0, σ2
α)
σα ∼ 1/σα αi ∼ N(0, σ2
β)
σβ ∼ 1/σβ
N topics M systems
p β α
K ranked docs
x
96 ¡
Mul$ple ¡Comparisons? ¡
- It ¡doesn’t ¡have ¡to ¡be ¡an ¡issue ¡
- Model ¡is ¡fit ¡to ¡all ¡top-‑k ¡ranked ¡documents ¡from ¡
all ¡n ¡systems/m ¡topics ¡
– Just ¡as ¡Tukey’s ¡HSD ¡fits ¡an ¡ANOVA ¡to ¡all ¡n ¡systems/m ¡ topics ¡evalua$on ¡data ¡
- No ¡need ¡to ¡threshold ¡P(β1 ¡> ¡β2) ¡the ¡way ¡we ¡
threshold ¡a ¡p-‑value ¡
– The ¡thresholding ¡at ¡p ¡< ¡0.05 ¡is ¡the ¡main ¡culprit ¡
97 ¡
Adding ¡a ¡User ¡Model ¡
- This ¡new ¡model ¡is ¡meant ¡to ¡be ¡more ¡flexible ¡
than ¡the ¡tradi$onal ¡linear ¡model ¡
– Easier ¡to ¡add ¡new ¡features/components ¡
- Let’s ¡add ¡a ¡general ¡user ¡browsing ¡model ¡
xijk ∼ Quasi-Binomial(1, pij, uk) ΣK
k=1uk = 1
logit pij ∼ N(µ + βj + αi, σ2) σ ∼ 1/σ µ ∼ N(0, σ2
µ)
σµ ∼ 1/σµ βj ∼ N(0, σ2
α)
σα ∼ 1/σα αi ∼ N(0, σ2
β)
σβ ∼ 1/σβ
K
X
k=1
uk = 1
98 ¡
Adding ¡a ¡User ¡Model ¡
- Let’s ¡use ¡uk ¡= ¡θk-‑1(1-‑θ), ¡qv ¡Moffat ¡& ¡Zobel ¡
– θ ¡is ¡a ¡free ¡parameter ¡with ¡value ¡set ¡by ¡the ¡researcher ¡
- Maximize ¡likelihood ¡
– ¡ ¡
- This ¡is ¡exactly ¡the ¡RBP ¡of ¡system ¡j ¡on ¡topic ¡i ¡
– Once ¡again, ¡an ¡evalua$on ¡measure ¡emerges ¡naturally ¡ when ¡we ¡model ¡relevance ¡directly ¡with ¡a ¡user ¡model ¡
pij =
K
X
k=1
θk−1(1 − θ)xijk
99 ¡
RBP ¡Comparison ¡
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 actual RBP pij estimate of RBP 100 ¡
Refined ¡Model ¡
- Now ¡add ¡a ¡model ¡of ¡graded ¡relevance ¡
- We ¡can ¡define ¡uk ¡and ¡Pgain ¡such ¡that ¡nDCG ¡pops ¡
- ut ¡
xijkg ∼ Quasi-Binomial(1, pij, ΣK
k=1uk = 1
uk · Pgain(xijk = g)) Σg∈GPgain(xijk = g) = 1 logit pij ∼ N(µ + βj + αi, σ2) σ ∼ 1/σ µ ∼ N(0, σ2
µ)
σµ ∼ 1/σµ βj ∼ N(0, σ2
α)
σα ∼ 1/σα αi ∼ N(0, σ2
β)
σβ ∼ 1/σβ
K
X
k=1
uk = 1 X
g∈G
Pgain(xijk = g) = 1
xijkg ∼ Quasi-Binomial(1, pij, uk · Pgain(xijk = g))
101 ¡
Summary ¡
- Significance ¡tests ¡are ¡just ¡models ¡
– When ¡we ¡use ¡them ¡“out ¡of ¡the ¡box”, ¡we ¡fail ¡to ¡model ¡many ¡sources ¡of ¡variance ¡in ¡IR ¡
- Variance ¡in ¡relevance, ¡in ¡user ¡behavior, ¡in ¡interac$ons ¡between ¡system ¡components, ¡… ¡
– The ¡things ¡we ¡do ¡model ¡are ¡probably ¡being ¡modeled ¡wrong ¡
- In ¡par$cular ¡addi$vity ¡of ¡system ¡and ¡topic ¡effects ¡
– More ¡correct ¡models ¡could ¡change ¡our ¡conclusions ¡about ¡systems ¡
- We ¡know ¡that ¡modeling ¡mul$ple ¡tes$ng ¡changes ¡our ¡conclusions ¡drama$cally ¡
– Most ¡other ¡concerns ¡we ¡are ¡aware ¡of ¡are ¡extremely ¡minor ¡in ¡comparison ¡ – But ¡what ¡are ¡we ¡not ¡aware ¡of? ¡ ¡What ¡are ¡the ¡unknown ¡unknowns? ¡
- You ¡can ¡make ¡your ¡own ¡tests ¡pre8y ¡easily ¡
– Just ¡think ¡of ¡them ¡as ¡regression ¡problems: ¡evalua$on ¡data ¡regressed ¡on ¡features ¡of ¡systems ¡ and ¡topics ¡
- A ¡p-‑value ¡from ¡a ¡t-‑test ¡or ¡Wilcoxon ¡test ¡is ¡no ¡more ¡valid ¡than ¡a ¡p-‑value ¡from ¡a ¡test ¡
you ¡develop ¡yourself ¡
– Provided ¡you ¡can ¡jus$fy ¡your ¡modeling ¡assump$ons ¡
104 ¡
SIGNIFICANCE ¡TESTING ¡IN ¡ IR ¡RESEARCH ¡
Part ¡5 ¡
106 ¡
What ¡Does ¡it ¡Mean? ¡
- You ¡can ¡always ¡find ¡significance ¡
– With ¡the ¡right ¡sample, ¡the ¡right ¡sample ¡size, ¡the ¡right ¡test, ¡ enough ¡itera$ons ¡of ¡tes$ng ¡ – Sta$s$cal ¡significance ¡is ¡more ¡about ¡weight ¡of ¡evidence ¡
- Significance ¡is ¡only ¡a ¡rough ¡proxy ¡for ¡“interes$ngness” ¡
– A ¡heuris$c ¡
- Looking ¡for ¡a ¡recommenda$on ¡of ¡what ¡test ¡to ¡use? ¡
– I’ll ¡always ¡say ¡the ¡t-‑test, ¡others ¡will ¡say ¡Wilcoxon ¡or ¡ randomiza$on ¡or ¡bootstrap ¡ – The ¡truth ¡is, ¡it ¡doesn’t ¡ma8er ¡much ¡
107 ¡
Searching ¡for ¡Interes$ng ¡Results ¡
- How ¡do ¡we ¡use ¡significance ¡tests ¡in ¡research? ¡
– Conference ¡program ¡commi8ees/journal ¡editors ¡use ¡them ¡ as ¡a ¡guide ¡for ¡determining ¡what ¡to ¡publish ¡
- Publica$on ¡determines ¡research ¡direc$ons ¡that ¡people ¡follow ¡
– Published ¡systems ¡implemented ¡as ¡baselines ¡
– Essen$ally ¡as ¡a ¡heuris$c ¡in ¡a ¡search ¡for ¡the ¡best ¡algorithms ¡
- They ¡can ¡easily ¡be ¡used ¡as ¡a ¡subs$tute ¡for ¡human ¡
judgment ¡
– Like ¡most ¡AI, ¡they ¡should ¡be ¡used ¡as ¡an ¡aide ¡to ¡human ¡ judgment ¡ – There ¡isn’t ¡one ¡right ¡way ¡to ¡do ¡it ¡
- No ¡Free ¡Lunch ¡Theorem ¡applies ¡to ¡significance ¡tes$ng ¡
108 ¡
Searching ¡for ¡Interes$ng ¡Results ¡
- What ¡if ¡significance ¡was ¡granted ¡more ¡
conserva$vely? ¡ ¡e.g. ¡by: ¡
– Correc$ng ¡for ¡mul$ple ¡comparisons ¡ – Using ¡tests ¡that ¡make ¡fewer ¡assump$ons ¡ – Using ¡a ¡lower ¡value ¡of ¡alpha ¡(0.01 ¡for ¡instance) ¡
- Is ¡a ¡more ¡conserva$ve ¡heuris$c ¡always ¡
be8er? ¡
109 ¡
All ¡hypotheses ¡ Sta$s$cally ¡significant ¡ results ¡ Published ¡ results ¡
The ¡State ¡of ¡ ¡ Research ¡Today ¡
InteresXng ¡ ¡ results ¡ 110 ¡
All ¡hypotheses ¡ Sta$s$cally ¡ significant ¡results ¡ Published ¡ results ¡
The ¡State ¡of ¡ ¡ Research ¡When ¡ “Significance” ¡is ¡ Granted ¡More ¡ Conserva$vely ¡
Fewer ¡publica$ons ¡overall ¡ … ¡which ¡means ¡fewer ¡ uninteres$ng ¡publica$ons ¡ … ¡but ¡also ¡that ¡fewer ¡truly ¡ interes$ng ¡results ¡can ¡be ¡ published ¡
InteresXng ¡ ¡ results ¡ 111 ¡
Thought ¡Experiment ¡
- Suppose ¡sta$s$cal ¡significance ¡is ¡a ¡necessary ¡and ¡
sufficient ¡condi$on ¡for ¡publica$on ¡
– Consequences: ¡
- Many ¡published ¡papers ¡are ¡not ¡interes$ng ¡
- Some ¡interes$ng ¡results ¡are ¡not ¡published ¡
- Most ¡uninteres$ng ¡results ¡are ¡not ¡published ¡
– Published ¡uninteres$ng ¡papers ¡-‑> ¡
- $me ¡wasted ¡reading, ¡re-‑implemen$ng ¡
– Unpublished ¡interes$ng ¡results ¡-‑> ¡
- $me ¡wasted ¡each ¡$me ¡results ¡are ¡re-‑discovered ¡
– Unpublished ¡uninteres$ng ¡papers ¡-‑> ¡
- $me ¡wasted ¡each ¡$me ¡experiment ¡is ¡tried ¡and ¡fails ¡
112 ¡
Example: ¡ ¡NLP ¡for ¡IR ¡
- NLP ¡generally ¡doesn’t ¡work ¡for ¡IR ¡
– Maybe ¡in ¡some ¡domains ¡(like ¡QA), ¡for ¡some ¡tasks, ¡but ¡in ¡ general ¡not ¡
- But ¡almost ¡every ¡IR ¡grad ¡student ¡has ¡had ¡some ¡idea ¡for ¡
using ¡NLP ¡to ¡improve ¡IR ¡
– Result: ¡ ¡a ¡handful ¡of ¡published ¡papers ¡from ¡a ¡very ¡large ¡ number ¡of ¡experiments, ¡mostly ¡due ¡to ¡randomness ¡
- e.g. ¡mul$ple ¡tes$ng ¡
– … ¡which ¡gives ¡hope ¡to ¡the ¡next ¡genera$on ¡of ¡students ¡ (who ¡don’t ¡know ¡about ¡the ¡very ¡low ¡success ¡rate) ¡ – … ¡which ¡results ¡in ¡a ¡lot ¡of ¡wasted ¡$me ¡as ¡they ¡re-‑do ¡ experiments ¡already ¡done ¡by ¡every ¡previous ¡genera$on ¡
113 ¡
Example: ¡ ¡NLP ¡for ¡IR ¡
- Would ¡we ¡have ¡been ¡be8er ¡off ¡had ¡that ¡handful ¡
- f ¡papers ¡never ¡been ¡published? ¡
- Would ¡we ¡have ¡been ¡be8er ¡off ¡if ¡all ¡those ¡
nega$ve ¡results ¡had ¡been ¡published? ¡
- Or ¡are ¡we ¡be8er ¡off ¡with ¡grad ¡students ¡having ¡
done ¡the ¡work ¡to ¡gain ¡some ¡intui$on ¡about ¡why ¡ it ¡doesn’t ¡work? ¡ ¡
114 ¡
Reproducibility ¡
- A ¡major ¡topic ¡of ¡discussion ¡recently ¡
– Panel ¡discussions ¡at ¡IR ¡conferences, ¡a ¡track ¡at ¡ ECIR, ¡RIGOR ¡workshop ¡at ¡SIGIR ¡
- Ques$ons: ¡
– What ¡does ¡“reproducibility” ¡mean? ¡ – Why ¡do ¡so ¡many ¡results ¡in ¡IR ¡seem ¡hard ¡to ¡ reproduce? ¡ – What ¡can ¡we ¡do ¡to ¡make ¡it ¡easier ¡to ¡reproduce ¡ them? ¡
115 ¡
Reproducibility ¡
- What ¡does ¡“reproducibility” ¡mean? ¡
– SIGIR ¡RIGOR ¡workshop ¡$ers: ¡
- Repeatability: ¡repeat ¡a ¡previous ¡result ¡under ¡iden$cal ¡condi$ons ¡
- Reproducibility: ¡reproduce ¡a ¡previous ¡result ¡under ¡similar ¡
condi$ons ¡
- Generalizability: ¡apply ¡a ¡technique ¡under ¡different ¡condi$ons ¡
- “Repeatability” ¡means ¡duplica$ng ¡the ¡result ¡exactly ¡
- “Reproducibility” ¡means ¡adding ¡new ¡sources ¡of ¡
variability ¡and ¡randomness ¡
– Expect ¡results ¡to ¡be ¡sta$s$cally ¡similar, ¡that ¡is, ¡within ¡ confidence ¡intervals ¡
116 ¡
Reproducibility ¡
- As ¡a ¡binary ¡indicator, ¡sta$s$cal ¡significance ¡might ¡be ¡likely ¡to ¡
generalize ¡
– In ¡par$cular, ¡if ¡sta$s$cal ¡significance ¡means ¡“results ¡are ¡not ¡due ¡to ¡ chance”, ¡does ¡it ¡follow ¡that ¡a ¡sta$s$cally ¡significant ¡result ¡will ¡ reproduce ¡in ¡different ¡experimental ¡seengs? ¡
- NO ¡
– Significance ¡does ¡NOT ¡mean ¡“results ¡are ¡not ¡due ¡to ¡chance” ¡ – Significance ¡can ¡fail ¡to ¡reproduce ¡for ¡many ¡reasons, ¡all ¡of ¡which ¡we ¡ would ¡a8ribute ¡to ¡“randomness” ¡in ¡our ¡current ¡tes$ng ¡models ¡
- In ¡fact, ¡we ¡should ¡expect ¡many ¡significant ¡results ¡to ¡fail ¡to ¡
reproduce ¡solely ¡because ¡of ¡this ¡“randomness” ¡
– Says ¡nothing ¡about ¡the ¡honesty/integrity ¡of ¡the ¡researchers ¡whose ¡ results ¡didn’t ¡reproduce ¡ – It ¡is ¡only ¡when ¡a ¡result ¡reproduces ¡again ¡and ¡again ¡that ¡we ¡should ¡ accept ¡it ¡
117 ¡
Experimental ¡Validity ¡
significance ¡ internal ¡validity ¡ external ¡validity ¡ construct ¡validity ¡
118 ¡
Takeaways ¡
- Always ¡do ¡significance ¡tests ¡
– But ¡don’t ¡worry ¡too ¡much ¡about ¡which ¡tests ¡to ¡use ¡ – The ¡t-‑test ¡is ¡always ¡a ¡good ¡op$on ¡ – Correc$ng ¡for ¡mul$ple ¡tes$ng ¡is ¡probably ¡not ¡necessary ¡
- Don’t ¡just ¡report ¡p-‑values ¡or ¡* ¡to ¡indicate ¡significance ¡
– Always ¡report ¡es$mated ¡effect ¡sizes ¡and ¡confidence ¡intervals ¡
- Always ¡take ¡results ¡of ¡tests ¡with ¡a ¡grain ¡of ¡salt ¡
– Especially ¡when ¡the ¡effect ¡size ¡is ¡low ¡ – Don’t ¡expect ¡them ¡to ¡generalize ¡a ¡priori ¡ – Build ¡your ¡intui$on ¡and ¡use ¡it ¡
- Significance ¡must ¡be ¡interpreted ¡against ¡the ¡internal ¡and ¡external ¡validity ¡
- f ¡the ¡experiment ¡
– Cranfield: ¡ ¡very ¡strong ¡internal ¡validity; ¡research ¡on ¡its ¡external ¡validity ¡is ¡ en$rely ¡inconclusive ¡
119 ¡