Leveraging Temporal Dynamics of Document Content in - - PowerPoint PPT Presentation

leveraging temporal dynamics of document content in
SMART_READER_LITE
LIVE PREVIEW

Leveraging Temporal Dynamics of Document Content in - - PowerPoint PPT Presentation

Leveraging Temporal Dynamics of Document Content in Relevance Ranking Jonathan L. Elsas (CMU) Susan T. Dumais (MSR) Outline Document Dynamics on


slide-1
SLIDE 1

Leveraging ¡Temporal ¡Dynamics ¡of ¡ Document ¡Content ¡in ¡ ¡ Relevance ¡Ranking ¡

Jonathan ¡L. ¡Elsas ¡(CMU) ¡ Susan ¡T. ¡Dumais ¡(MSR) ¡

slide-2
SLIDE 2

Outline ¡

  • Document ¡Dynamics ¡on ¡the ¡Web ¡

– Previous ¡Work ¡on ¡Change ¡& ¡What’s ¡Missing ¡

  • Our ¡SeHng: ¡Ranking ¡Dynamic ¡Documents ¡

– Test ¡CollecJon ¡& ¡Measuring ¡change ¡

  • Two ¡ways ¡to ¡leverage ¡change ¡in ¡ranking ¡

– Document ¡Prior ¡based ¡on ¡Gross ¡Change ¡Measures ¡ – Document ¡RepresentaJon ¡based ¡on ¡Term-­‑Level ¡ Change ¡

  • Discussion ¡
slide-3
SLIDE 3

The ¡Web ¡is ¡Dynamic ¡

slide-4
SLIDE 4

The ¡Web ¡is ¡Dynamic ¡

1998 ¡ 2007 ¡ 10 ¡Years ¡

slide-5
SLIDE 5

The ¡Web ¡is ¡Dynamic ¡

14 ¡Years ¡ 1996 ¡ 2010 ¡

slide-6
SLIDE 6

The ¡Web ¡is ¡Dynamic ¡

10 ¡Minutes ¡

slide-7
SLIDE 7

Previous ¡Work ¡on ¡Dynamics ¡

Characterizing ¡Change ¡ ImplicaJons ¡of ¡Change ¡

slide-8
SLIDE 8

Characterizing ¡Change ¡

Change ¡& ¡Page ¡ Type ¡/ ¡Source ¡ New ¡Content ¡& ¡ Links ¡ Within-­‑Doc. ¡ Change ¡

Adar ¡et ¡al, ¡WSDM ¡2009 ¡ Fe_erly ¡et ¡al, ¡WWW03 ¡ Ntoulas ¡et ¡al, ¡ ¡WWW04 ¡

slide-9
SLIDE 9

ImplicaJons ¡of ¡Change ¡

On ¡Browsing ¡ On ¡Indexing ¡ On ¡Crawling ¡ ¡

Olston ¡& ¡Pandey, ¡ WWW08 ¡ Adar, ¡et ¡al ¡UIST’08 ¡ Berberich, ¡et ¡al ¡SIGIR’07 ¡

slide-10
SLIDE 10

ImplicaJons ¡of ¡Change ¡

On ¡Ranking? ¡

slide-11
SLIDE 11

ImplicaJons ¡of ¡Change ¡on ¡Ranking ¡

  • Gross ¡Measures ¡of ¡Document ¡Change ¡

Are ¡there ¡general ¡characterisJcs ¡of ¡document ¡ dynamics ¡indicate ¡high ¡quality ¡pages? ¡

  • RepresenJng ¡Term-­‑Level ¡Change ¡Within ¡the ¡

Document ¡

Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡dynamic ¡ content ¡that ¡indicate ¡some ¡content ¡may ¡be ¡more ¡ important? ¡

slide-12
SLIDE 12

Test ¡Setup: ¡Queries ¡& ¡Documents ¡

  • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡

– 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡

  • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡
  • NavigaJonal ¡queries ¡

– 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡

  • 60/40 ¡Training/Test ¡split ¡
slide-13
SLIDE 13

Test ¡Setup: ¡Queries ¡& ¡Documents ¡

  • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡

– 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡

  • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡
  • NavigaJonal ¡queries ¡

– 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡

  • 60/40 ¡Training/Test ¡split ¡

We ¡focus ¡on ¡NavigaJonal ¡Queries ¡ here ¡for ¡ease ¡of ¡evaluaJon. ¡

slide-14
SLIDE 14

Measuring ¡Change: ¡Shingleprints ¡

#be9e ¡ #aaef ¡ #a559 ¡ #18ef ¡ #744e ¡ #b256 ¡ #be9e ¡ #81d3 ¡ #a559 ¡ #18ef ¡ #fa6e ¡ #b256 ¡ D(J) ¡ D(J+1) ¡ Sh(D(J)) ¡ Sh(D(J+1)) ¡

Broder, ¡et ¡al, ¡“SyntacJc ¡Clustering ¡of ¡the ¡Web” ¡ Computer ¡Networks ¡& ¡ISDN ¡Sys., ¡1997 ¡

slide-15
SLIDE 15

1 2 3 4 1 2 3 4 20 40 60% Relevance Level Documents Changed

Change ¡& ¡Relevance ¡

slide-16
SLIDE 16

1 2 3 4 1 2 3 4 20 40 60% Relevance Level Documents Changed

Change ¡& ¡Relevance ¡

62.9% ¡ Ave: ¡ 37.3% ¡

slide-17
SLIDE 17

1 2 3 4 1 2 3 4 0.08 0.16 0.24 Relevance Level Average ShDiff(D)

Change ¡Amount ¡& ¡Relevance ¡

slide-18
SLIDE 18

Change ¡& ¡Relevance ¡

  • More ¡relevance ¡documents ¡tend ¡to ¡change ¡

more ¡open, ¡and ¡to ¡a ¡greater ¡degree ¡than ¡non-­‑ relevant ¡documents. ¡

  • Could ¡favoring ¡dynamic ¡documents ¡in ¡ranking ¡

improve ¡performance? ¡

slide-19
SLIDE 19

Favoring ¡Dynamic ¡Documents ¡

Language-­‑Modeling ¡Ranking ¡FuncJon: ¡

slide-20
SLIDE 20

Favoring ¡Dynamic ¡Documents ¡

Language-­‑Modeling ¡Ranking ¡FuncJon: ¡

Uniform ¡Prior: ¡ “StaJc ¡Model” ¡

slide-21
SLIDE 21

Favoring ¡Dynamic ¡Documents ¡

Language-­‑Modeling ¡Ranking ¡FuncJon: ¡

Uniform ¡Prior: ¡ “Change” ¡Prior: ¡

slide-22
SLIDE 22

Favoring ¡Dynamic ¡Documents ¡

  • −5

5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Change ¡Prior ¡ Baseline ¡StaJc ¡Model ¡

slide-23
SLIDE 23

Favoring ¡Dynamic ¡Documents ¡

  • −5

5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Baseline ¡StaJc ¡Model ¡

Big ¡ ¡improvement ¡at ¡higher ¡ranks, ¡but ¡ possible ¡over-­‑fiHng ¡at ¡rank ¡1 ¡

Change ¡Prior ¡

slide-24
SLIDE 24

Change ¡Within ¡the ¡Document ¡

Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡ dynamic ¡content ¡that ¡indicate ¡some ¡content ¡ may ¡be ¡more ¡important? ¡

slide-25
SLIDE 25

Change ¡Within ¡the ¡Document ¡

Time ¡

  • Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡

Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

slide-26
SLIDE 26

Change ¡Within ¡the ¡Document ¡

Time ¡

  • Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡

Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

slide-27
SLIDE 27

Change ¡Within ¡the ¡Document ¡

Time ¡

  • Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡

Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

slide-28
SLIDE 28

Long-­‑Lived ¡Vocabulary ¡ Short-­‑Lived ¡Vocabulary ¡

Change ¡Within ¡the ¡Document ¡

Time ¡

  • Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡

Dinner ¡ Cooks ¡ Recipes ¡ Latkes ¡ Merrymaking ¡ Frighrully ¡

slide-29
SLIDE 29

Leveraging ¡Change ¡Within ¡the ¡ Document ¡

IdenJfying ¡transient ¡& ¡permanent ¡vocabulary: ¡

  • Short-­‑lived: ¡come ¡& ¡go ¡quickly ¡

¡ ¡ ¡in ¡fewer ¡than ¡50% ¡of ¡the ¡document’s ¡slices ¡

  • Medium-­‑lived: ¡ ¡

¡ ¡ ¡in ¡50-­‑90% ¡of ¡the ¡document's ¡slices ¡

  • Long-­‑lived: ¡tend ¡to ¡sJck ¡for ¡a ¡long ¡Jme ¡

¡ ¡ ¡in ¡> ¡90% ¡of ¡the ¡document’s ¡slices ¡

slide-30
SLIDE 30

Leveraging ¡Change ¡Within ¡the ¡ Document ¡

Model ¡relevance ¡as ¡a ¡mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡

“Dynamic ¡Model” ¡

slide-31
SLIDE 31

DifferenJally ¡weight ¡ long-­‑lived ¡and ¡short-­‑ lived ¡vocabulary. ¡

Leveraging ¡Change ¡Within ¡the ¡ Document ¡

Model ¡relevance ¡as ¡a ¡mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡

“Dynamic ¡Model” ¡

slide-32
SLIDE 32

Leveraging ¡Change ¡Within ¡the ¡ Document ¡

  • −5

5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Change ¡Prior ¡

slide-33
SLIDE 33

Change ¡Prior ¡

Leveraging ¡Change ¡Within ¡the ¡ Document ¡

  • −5

5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡

Consistent ¡& ¡significant ¡improvement ¡ at ¡all ¡rank ¡cutoffs. ¡

slide-34
SLIDE 34

Change ¡& ¡Relevance ¡Ranking ¡

  • Presented ¡two ¡methods ¡for ¡leveraging ¡

changing ¡content ¡in ¡relevance ¡ranking: ¡

– Query-­‑Independent ¡Change ¡Prior, ¡favoring ¡ dynamic ¡documents ¡irrespecJve ¡of ¡query ¡ – Dynamic ¡Document ¡Representa@on, ¡differenJally ¡ weighJng ¡long-­‑term ¡and ¡short-­‑term ¡vocabulary ¡

  • Combined ¡Model: ¡Best ¡of ¡both ¡worlds? ¡
slide-35
SLIDE 35

Combined ¡Model ¡

  • −5

5 10 15 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡ Change ¡Prior ¡

slide-36
SLIDE 36

Combined ¡Model ¡

  • −5

5 10 15 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10

Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡

Combined ¡model ¡shows ¡(roughly) ¡ addiJve ¡improvement ¡

Change ¡Prior ¡

slide-37
SLIDE 37

Conclusion ¡& ¡Next ¡Steps ¡

  • Documents ¡change, ¡and ¡we ¡can ¡use ¡

characterisJcs ¡of ¡those ¡dynamics ¡to ¡improve ¡ retrieval ¡performance. ¡

  • Presented ¡two ¡complementary ¡methods ¡of ¡

leveraging ¡change ¡in ¡ranking. ¡

  • Focus ¡here ¡on ¡navigaJonal ¡queries; ¡current ¡

work ¡is ¡looking ¡at ¡dynamic ¡informaJon ¡needs. ¡

¡ ¡ ¡Relevance ¡may ¡change ¡over ¡Jme. ¡

slide-38
SLIDE 38

Thank ¡You ¡ QuesJons? ¡