Reusable Test Collec.ons Through Experimental Design Ben - - PowerPoint PPT Presentation

reusable test collec ons through experimental design
SMART_READER_LITE
LIVE PREVIEW

Reusable Test Collec.ons Through Experimental Design Ben - - PowerPoint PPT Presentation

Reusable Test Collec.ons Through Experimental Design Ben Cartere:e, University of Delaware Evagelos Kanoulas, University of Sheffield Virgil Pavlu, Northeastern


slide-1
SLIDE 1

Reusable ¡Test ¡Collec.ons ¡ Through ¡Experimental ¡Design ¡

Ben ¡Cartere:e, ¡University ¡of ¡Delaware ¡ Evagelos ¡Kanoulas, ¡University ¡of ¡Sheffield ¡ Virgil ¡Pavlu, ¡Northeastern ¡University ¡ Hui ¡Fang, ¡University ¡of ¡Delaware ¡

slide-2
SLIDE 2

Reusability ¡

  • Test ¡collec.ons ¡have ¡many ¡uses: ¡

– Evalua.ng ¡systems ¡ – Training ¡systems ¡ – Failure ¡analysis ¡ – … ¡

  • Reusability: ¡ ¡using ¡the ¡topics ¡and ¡relevance ¡judgments ¡

from ¡an ¡evalua.on ¡experiment ¡for ¡purposes ¡beyond ¡ that ¡ini.al ¡experiment ¡ ¡

  • We ¡need ¡some ¡reusability ¡to ¡be ¡able ¡to ¡use ¡a ¡test ¡

collec.on ¡for ¡these ¡purposes ¡

slide-3
SLIDE 3

Query ¡1 ¡ Query ¡2 ¡ Query ¡3 ¡ Query ¡4 ¡ Query ¡5 ¡ Query ¡6 ¡ 0.353 ¡ 0.251 ¡ 0.487 ¡ 0.444 ¡ 0.320 ¡ 0.299 ¡ 0.421 ¡ 0.122 ¡ 0.434 ¡ 0.446 ¡ 0.290 ¡ 0.302 ¡ 0.331 ¡ 0.209 ¡ 0.421 ¡ 0.386 ¡ 0.277 ¡ 0.324 ¡

Experimental ¡Design ¡in ¡IR ¡

slide-4
SLIDE 4

Pooling ¡and ¡Reusability ¡

  • Deep ¡judging ¡during ¡data ¡collec.on ¡produces ¡

a ¡reusable ¡test ¡collec.on ¡

  • How ¡do ¡we ¡know? ¡

– Leave-­‑systems-­‑out ¡experiments: ¡

  • Choose ¡a ¡group ¡of ¡systems ¡to ¡be ¡held ¡out ¡of ¡judgment ¡

collec.on ¡

  • Simulate ¡pooling ¡in ¡remaining ¡systems ¡
  • Use ¡that ¡pool ¡to ¡evaluate ¡all ¡systems ¡
slide-5
SLIDE 5

Low-­‑Cost ¡Experimental ¡Design ¡

Query ¡1 ¡ Query ¡2 ¡ Query ¡3 ¡ Query ¡4 ¡ Query ¡5 ¡ Query ¡6 ¡ 0.353 ¡ 0.251 ¡ 0.487 ¡ 0.444 ¡ 0.320 ¡ 0.299 ¡ 0.421 ¡ 0.122 ¡ 0.434 ¡ 0.446 ¡ 0.290 ¡ 0.302 ¡ 0.331 ¡ 0.209 ¡ 0.421 ¡ 0.386 ¡ 0.277 ¡ 0.324 ¡

slide-6
SLIDE 6

Sampling ¡and ¡Reusability ¡

  • Does ¡sampling ¡produce ¡a ¡reusable ¡collec.on? ¡

– We ¡don’t ¡know… ¡ – … ¡and ¡we ¡can’t ¡simulate ¡it ¡

  • Holding ¡systems ¡out ¡would ¡produce ¡a ¡different ¡

sample ¡

– Meaning ¡we ¡would ¡need ¡judgments ¡that ¡we ¡don’t ¡ have ¡

slide-7
SLIDE 7

Experimen.ng ¡on ¡Reusability ¡

  • Our ¡goal ¡is ¡to ¡define ¡an ¡experimental ¡design ¡that ¡

will ¡allow ¡us ¡to ¡simultaneously: ¡

– Acquire ¡relevance ¡judgments ¡ – Test ¡hypotheses ¡about ¡differences ¡between ¡systems ¡ – Test ¡reusability ¡of ¡the ¡topics ¡and ¡judgments ¡

  • What ¡does ¡it ¡mean ¡to ¡“test ¡reusability”? ¡

– Test ¡a ¡null ¡hypothesis ¡that ¡the ¡collec.on ¡is ¡reusable ¡ – Reject ¡that ¡hypothesis ¡if ¡the ¡data ¡demands ¡it ¡ – Never ¡accept ¡that ¡hypothesis ¡

slide-8
SLIDE 8

Reusability ¡for ¡Evalua.on ¡

  • We ¡focus ¡on ¡evalua.on ¡(rather ¡than ¡training, ¡failure ¡

analysis, ¡etc) ¡

  • Three ¡types ¡of ¡evalua.on: ¡

– Within-­‑site: ¡ ¡a ¡group ¡wants ¡to ¡internally ¡evaluate ¡their ¡systems ¡ – Between-­‑site: ¡ ¡a ¡group ¡wants ¡to ¡compare ¡their ¡systems ¡to ¡those ¡

  • f ¡another ¡group ¡

– Par.cipant-­‑comparison: ¡ ¡a ¡group ¡wants ¡to ¡compare ¡their ¡ systems ¡to ¡those ¡that ¡par.cipated ¡in ¡the ¡original ¡experiment ¡ (e.g. ¡TREC) ¡

  • We ¡want ¡data ¡for ¡each ¡of ¡these ¡
slide-9
SLIDE 9

Blocking ¡on ¡Leave-­‑One-­‑Out ¡

Query ¡1 ¡ Query ¡2 ¡ Query ¡3 ¡ Query ¡4 ¡ Query ¡5 ¡ Query ¡6 ¡ 0.353 ¡ 0.251 ¡ 0.487 ¡ 0.444 ¡ 0.320 ¡ 0.299 ¡ 0.421 ¡ 0.122 ¡ 0.434 ¡ 0.446 ¡ 0.290 ¡ 0.302 ¡ 0.331 ¡ 0.209 ¡ 0.421 ¡ 0.386 ¡ 0.277 ¡ 0.324 ¡

slide-10
SLIDE 10

subset ¡ topic ¡ Site ¡1 ¡ Site ¡2 ¡ Site ¡3 ¡ Site ¡4 ¡ Site ¡5 ¡ Site ¡6 ¡ T0 ¡ 1 ¡ … ¡ n ¡ T1 ¡ n+1 ¡ n+2 ¡ n+3 ¡ n+4 ¡ n+5 ¡ n+6 ¡ n+7 ¡ n+8 ¡ n+9 ¡ n+10 ¡ n+11 ¡ n+12 ¡ n+13 ¡ n+14 ¡ n+15 ¡ T2 ¡ n+16 ¡

All-­‑Site ¡Baseline ¡

Within-­‑Site ¡ ¡ Baseline ¡ (for ¡site ¡6) ¡ Within-­‑Site ¡ ¡ Reuse ¡

slide-11
SLIDE 11

subset ¡ topic ¡ Site ¡1 ¡ Site ¡2 ¡ Site ¡3 ¡ Site ¡4 ¡ Site ¡5 ¡ Site ¡6 ¡ T0 ¡ 1 ¡ … ¡ n ¡ T1 ¡ n+1 ¡ n+2 ¡ n+3 ¡ n+4 ¡ n+5 ¡ n+6 ¡ n+7 ¡ n+8 ¡ n+9 ¡ n+10 ¡ n+11 ¡ n+12 ¡ n+13 ¡ n+14 ¡ n+15 ¡ T2 ¡ n+16 ¡

All-­‑Site ¡Baseline ¡ Between-­‑Site ¡ ¡ Baseline ¡ (for ¡sites ¡5 ¡and ¡6) ¡

Between-­‑Site ¡Reuse ¡

slide-12
SLIDE 12

subset ¡ topic ¡ Site ¡1 ¡ Site ¡2 ¡ Site ¡3 ¡ Site ¡4 ¡ Site ¡5 ¡ Site ¡6 ¡ T0 ¡ 1 ¡ … ¡ n ¡ T1 ¡ n+1 ¡ n+2 ¡ n+3 ¡ n+4 ¡ n+5 ¡ n+6 ¡ n+7 ¡ n+8 ¡ n+9 ¡ n+10 ¡ n+11 ¡ n+12 ¡ n+13 ¡ n+14 ¡ n+15 ¡ T2 ¡ n+16 ¡

All-­‑Site ¡Baseline ¡ Par.cipant ¡ Comparison ¡

slide-13
SLIDE 13

Design ¡Parameters ¡

  • Number ¡of ¡sites: ¡ ¡m ¡
  • Total ¡number ¡of ¡topics: ¡ ¡N ¡
  • Min. ¡size ¡of ¡baseline ¡topic ¡set: ¡ ¡n0 ¡
  • Number ¡to ¡hold ¡out: ¡ ¡k ¡
  • Number ¡of ¡topic ¡groups: ¡ ¡b ¡
  • Size ¡of ¡all-­‑site ¡baseline: ¡ ¡n ¡
  • Size ¡of ¡within-­‑site ¡baseline: ¡
  • Size ¡of ¡between-­‑site ¡baseline: ¡
  • Size ¡of ¡within-­‑site ¡reuse ¡set: ¡
  • Size ¡of ¡between-­‑site ¡reuse ¡set: ¡
  • Size ¡of ¡par.cipant-­‑comparison ¡set: ¡
slide-14
SLIDE 14

Sta.s.cal ¡Analysis ¡

  • Goal ¡of ¡sta.s.cal ¡analysis ¡is ¡to ¡try ¡to ¡reject ¡the ¡hypothesis ¡

about ¡reusability ¡

– Show ¡that ¡the ¡judgments ¡are ¡not ¡reusable ¡

  • Three ¡approaches: ¡

– Show ¡that ¡measures ¡such ¡as ¡average ¡precision ¡on ¡the ¡baseline ¡ sets ¡do ¡not ¡match ¡measures ¡on ¡the ¡reuse ¡sets ¡ – Show ¡that ¡significance ¡tests ¡in ¡the ¡baseline ¡sets ¡do ¡not ¡match ¡ significance ¡tests ¡in ¡the ¡reuse ¡sets ¡ – Show ¡that ¡rankings ¡in ¡the ¡baseline ¡sets ¡do ¡not ¡match ¡rankings ¡in ¡ the ¡reuse ¡sets ¡

  • Note: ¡ ¡within ¡confidence ¡intervals! ¡
slide-15
SLIDE 15

Agreement ¡in ¡Significance ¡

  • Perform ¡significance ¡tests ¡on: ¡

– all ¡pairs ¡of ¡systems ¡in ¡a ¡baseline ¡set ¡ – all ¡pairs ¡of ¡systems ¡in ¡a ¡reuse ¡set ¡

  • If ¡the ¡aggregate ¡outcomes ¡of ¡the ¡tests ¡

disagree ¡significantly, ¡reject ¡reusability ¡

slide-16
SLIDE 16

Within-­‑Site ¡Example ¡

  • Some ¡site ¡submi:ed ¡five ¡runs ¡to ¡the ¡TREC ¡2004 ¡

Robust ¡track ¡

  • Within-­‑site ¡baseline: ¡ ¡210 ¡topics ¡
  • Within-­‑site ¡reuse: ¡ ¡39 ¡topics ¡
  • Perform ¡5*4/2 ¡= ¡10 ¡paired ¡t-­‑tests ¡with ¡each ¡

group ¡of ¡topics ¡

  • Aggregate ¡agreement ¡in ¡a ¡con.ngency ¡table ¡
slide-17
SLIDE 17

Within-­‑Site ¡Example ¡

baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 6 ¡ 0 ¡ p’ ¡≥ ¡0.05 ¡ 3 ¡ 1 ¡

  • 3 ¡significant ¡differences ¡in ¡baseline ¡set ¡that ¡are ¡not ¡

significant ¡in ¡reuse ¡set ¡

–  ¡70% ¡agreement ¡

  • … ¡ ¡is ¡that ¡bad? ¡
slide-18
SLIDE 18

Expected ¡Errors ¡

  • Compare ¡observed ¡error ¡rate ¡to ¡expected ¡error ¡

rate ¡

  • To ¡es.mate ¡expected ¡error ¡rate, ¡use ¡power ¡

analysis ¡(Cohen, ¡1992) ¡

– What ¡is ¡the ¡probability ¡that ¡the ¡observed ¡difference ¡

  • ver ¡210 ¡topics ¡would ¡be ¡found ¡significant? ¡

– What ¡is ¡the ¡probability ¡that ¡the ¡observed ¡difference ¡

  • ver ¡39 ¡topics ¡would ¡be ¡found ¡significant? ¡

– Call ¡these ¡probabili.es ¡q1, ¡q2 ¡

slide-19
SLIDE 19

Expected ¡Errors ¡

  • For ¡each ¡pair ¡of ¡runs: ¡

– q1 ¡= ¡probability ¡that ¡observed ¡difference ¡is ¡significant ¡

  • ver ¡210 ¡queries ¡

– q2 ¡= ¡probability ¡that ¡observed ¡difference ¡is ¡significant ¡

  • ver ¡39 ¡queries ¡

– Expected ¡number ¡of ¡true ¡posi.ves ¡+= ¡q1*q2 ¡ – Expected ¡number ¡of ¡false ¡posi.ves ¡+= ¡q1*(1-­‑q2) ¡ – Expected ¡number ¡of ¡false ¡nega.ves ¡+= ¡(1-­‑q1)*q2 ¡ – Expected ¡number ¡of ¡true ¡nega.ves ¡+= ¡(1-­‑q1)*(1-­‑q2) ¡ ¡

slide-20
SLIDE 20

Observed ¡vs ¡Expected ¡Errors ¡

  • Observed: ¡
  • Expected: ¡
  • Perform ¡a ¡Χ2 ¡

goodness-­‑of-­‑fit ¡ test ¡to ¡compare ¡ the ¡tables ¡

  • p-­‑value ¡= ¡0.88 ¡
  • Do ¡not ¡reject ¡

reusability ¡(for ¡ new ¡systems ¡like ¡ these) ¡

baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 6 ¡ 0 ¡ p’ ¡≥ ¡0.05 ¡ 3 ¡ 1 ¡ baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 7.098 ¡ 0.073 ¡ p’ ¡≥ ¡0.05 ¡ 2.043 ¡ 0.786 ¡

slide-21
SLIDE 21

Valida.on ¡of ¡Design ¡and ¡Analysis ¡

  • Three ¡tests: ¡

– Will ¡we ¡reject ¡reusability ¡when ¡it ¡is ¡not ¡true? ¡ – When ¡reusability ¡is ¡“true”, ¡will ¡the ¡design+analysis ¡ be ¡robust ¡to ¡random ¡differences ¡in ¡topic ¡sets? ¡ – When ¡reusability ¡is ¡“true”, ¡will ¡the ¡design+analysis ¡ be ¡robust ¡to ¡random ¡differences ¡in ¡held-­‑out ¡sites? ¡

slide-22
SLIDE 22

Differences ¡in ¡Topic ¡Samples ¡

  • Set-­‑up: ¡ ¡simulate ¡design, ¡but ¡guarantee ¡

reusability ¡

– Randomly ¡choose ¡k ¡sites ¡to ¡hold ¡out ¡ – Use ¡to ¡define ¡the ¡baseline ¡and ¡reuse ¡sets ¡ – Performance ¡measure ¡on ¡each ¡system/topic ¡is ¡simply ¡ the ¡one ¡calculated ¡using ¡the ¡original ¡judgments ¡

  • Reusability ¡is ¡true ¡because ¡all ¡measures ¡are ¡

exactly ¡the ¡same ¡as ¡when ¡sites ¡are ¡held ¡out ¡

slide-23
SLIDE 23

Observed ¡vs ¡Expected ¡Errors ¡ (Within-­‑Site) ¡

  • Observed: ¡
  • Expected: ¡
  • Perform ¡a ¡Χ2 ¡

goodness-­‑of-­‑fit ¡ test ¡to ¡compare ¡ the ¡tables ¡

  • p-­‑value ¡= ¡0.58 ¡
  • Do ¡not ¡reject ¡

reusability ¡(for ¡ new ¡systems ¡like ¡ these) ¡

baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 196 ¡ 2 ¡ p’ ¡≥ ¡0.05 ¡ 57 ¡ 45 ¡ baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 189.5 ¡ 4.3 ¡ p’ ¡≥ ¡0.05 ¡ 62.1 ¡ 44.1 ¡ based ¡on ¡TREC ¡2008 ¡Million ¡Query ¡track ¡data ¡

slide-24
SLIDE 24

Differences ¡in ¡Held-­‑Out ¡Sites ¡

  • Set-­‑up: ¡ ¡simula.on ¡of ¡design ¡with ¡TREC ¡Robust ¡

data ¡(249 ¡topics, ¡many ¡judgments ¡each) ¡

– Randomly ¡hold ¡two ¡of ¡12 ¡submirng ¡sites ¡out ¡ – Simulate ¡pools ¡of ¡depth ¡10, ¡20, ¡50, ¡100 ¡ – Calculate ¡average ¡precision ¡over ¡simulated ¡pool ¡

  • Previous ¡work ¡suggests ¡reusability ¡is ¡true ¡
  • (Only ¡within-­‑site ¡analysis ¡is ¡possible) ¡
slide-25
SLIDE 25

Observed ¡vs ¡Expected ¡Errors ¡ (Within-­‑Site) ¡

  • Observed: ¡
  • Expected: ¡
  • Perform ¡a ¡Χ2 ¡

goodness-­‑of-­‑fit ¡ test ¡to ¡compare ¡ the ¡tables ¡

  • p-­‑value ¡= ¡0.74 ¡
  • Do ¡not ¡reject ¡

reusability ¡(for ¡ new ¡systems ¡like ¡ these) ¡

baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 130 ¡ 17 ¡ p’ ¡≥ ¡0.05 ¡ 127 ¡ 160 ¡ baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 135.4 ¡ 13.9 ¡ p’ ¡≥ ¡0.05 ¡ 121.6 ¡ 163.1 ¡ based ¡on ¡TREC ¡2004 ¡Robust ¡track ¡data ¡

slide-26
SLIDE 26

TREC ¡2009 ¡Million ¡Query ¡Track ¡

  • We ¡implemented ¡this ¡design ¡as ¡part ¡of ¡the ¡

TREC ¡2009 ¡Million ¡Query ¡Track ¡

– A ¡track ¡devoted ¡to ¡studying ¡low-­‑cost ¡evalua.on ¡ – Assessors ¡judge ¡many ¡queries ¡with ¡shallow ¡ judgments ¡selected ¡according ¡to ¡two ¡approaches ¡

  • statAP ¡(sta.s.cal ¡sampling) ¡
  • MTC ¡(algorithmic ¡selec.on) ¡
  • Eight ¡par.cipa.ng ¡sites, ¡35 ¡total ¡runs ¡
slide-27
SLIDE 27

TREC ¡2009 ¡Million ¡Query ¡Track ¡

  • Of ¡1,000 ¡queries ¡that ¡all ¡sites ¡ran, ¡638 ¡

received ¡judgments ¡

  • Breakdown: ¡

– 146 ¡formed ¡the ¡all-­‑site ¡baseline ¡ – 170 ¡formed ¡the ¡within-­‑site ¡baseline ¡ – 160 ¡for ¡within-­‑site ¡reusability ¡ – 95 ¡with ¡no ¡relevant ¡documents ¡found ¡

  • 34,534 ¡total ¡judgments ¡
slide-28
SLIDE 28
slide-29
SLIDE 29
slide-30
SLIDE 30
slide-31
SLIDE 31

Observed ¡vs ¡Expected ¡Errors ¡ (Between-­‑Site) ¡

  • Observed: ¡
  • Expected: ¡
  • Perform ¡a ¡Χ2 ¡

goodness-­‑of-­‑fit ¡ test ¡to ¡compare ¡ the ¡tables ¡

  • p-­‑value ¡= ¡0 ¡
  • Reject ¡reusability ¡ ¡ ¡

baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 257 ¡ 41 ¡ p’ ¡≥ ¡0.05 ¡ 133 ¡ 100 ¡ baseline ¡tests ¡ reuse ¡tests ¡ p ¡< ¡0.05 ¡ p ¡≥ ¡0.05 ¡ p’ ¡< ¡0.05 ¡ 302.5 ¡ 26.2 ¡ p’ ¡≥ ¡0.05 ¡ 85.1 ¡ 117.2 ¡ based ¡on ¡TREC ¡2009 ¡Million ¡Query ¡track ¡data ¡

slide-32
SLIDE 32

Conclusion ¡

  • We ¡presented ¡an ¡experimental ¡design ¡that ¡allows ¡

simultaneously: ¡

– Collec.ng ¡data ¡for ¡evalua.on ¡ – Tes.ng ¡hypotheses ¡about ¡differences ¡between ¡systems ¡ – Tes.ng ¡hypotheses ¡about ¡reusability ¡

  • We ¡showed ¡how ¡to ¡test ¡hypotheses ¡about ¡significance ¡test ¡

agreement ¡

– Many ¡other ¡types ¡of ¡analysis ¡are ¡possible ¡

  • We ¡presented ¡evidence ¡that ¡the ¡design ¡works ¡
  • We ¡presented ¡evidence ¡that ¡the ¡MQ ¡data ¡is ¡not ¡reusable, ¡

even ¡if ¡it ¡is ¡sufficient ¡for ¡ranking ¡runs ¡