Leveraging Temporal Dynamics of Document Content in - - PowerPoint PPT Presentation
Leveraging Temporal Dynamics of Document Content in - - PowerPoint PPT Presentation
Leveraging Temporal Dynamics of Document Content in Relevance Ranking Jonathan L. Elsas (CMU) Susan T. Dumais (MSR) Outline Document Dynamics on
Outline ¡
- Document ¡Dynamics ¡on ¡the ¡Web ¡
– Previous ¡Work ¡on ¡Change ¡& ¡What’s ¡Missing ¡
- Our ¡SeHng: ¡Ranking ¡Dynamic ¡Documents ¡
– Test ¡CollecJon ¡& ¡Measuring ¡change ¡
- Two ¡ways ¡to ¡leverage ¡change ¡in ¡ranking ¡
– Document ¡Prior ¡based ¡on ¡Gross ¡Change ¡Measures ¡ – Document ¡RepresentaJon ¡based ¡on ¡Term-‑Level ¡ Change ¡
- Discussion ¡
The ¡Web ¡is ¡Dynamic ¡
The ¡Web ¡is ¡Dynamic ¡
1998 ¡ 2007 ¡ 10 ¡Years ¡
The ¡Web ¡is ¡Dynamic ¡
14 ¡Years ¡ 1996 ¡ 2010 ¡
The ¡Web ¡is ¡Dynamic ¡
10 ¡Minutes ¡
Previous ¡Work ¡on ¡Dynamics ¡
Characterizing ¡Change ¡ ImplicaJons ¡of ¡Change ¡
Characterizing ¡Change ¡
Change ¡& ¡Page ¡ Type ¡/ ¡Source ¡ New ¡Content ¡& ¡ Links ¡ Within-‑Doc. ¡ Change ¡
Adar ¡et ¡al, ¡WSDM ¡2009 ¡ Fe_erly ¡et ¡al, ¡WWW03 ¡ Ntoulas ¡et ¡al, ¡ ¡WWW04 ¡
ImplicaJons ¡of ¡Change ¡
On ¡Browsing ¡ On ¡Indexing ¡ On ¡Crawling ¡ ¡
Olston ¡& ¡Pandey, ¡ WWW08 ¡ Adar, ¡et ¡al ¡UIST’08 ¡ Berberich, ¡et ¡al ¡SIGIR’07 ¡
ImplicaJons ¡of ¡Change ¡
On ¡Ranking? ¡
ImplicaJons ¡of ¡Change ¡on ¡Ranking ¡
- Gross ¡Measures ¡of ¡Document ¡Change ¡
Are ¡there ¡general ¡characterisJcs ¡of ¡document ¡ dynamics ¡indicate ¡high ¡quality ¡pages? ¡
- RepresenJng ¡Term-‑Level ¡Change ¡Within ¡the ¡
Document ¡
Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡dynamic ¡ content ¡that ¡indicate ¡some ¡content ¡may ¡be ¡more ¡ important? ¡
Test ¡Setup: ¡Queries ¡& ¡Documents ¡
- 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡
– 5-‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡
- 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡
- NavigaJonal ¡queries ¡
– 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡
- 60/40 ¡Training/Test ¡split ¡
Test ¡Setup: ¡Queries ¡& ¡Documents ¡
- 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡
– 5-‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡
- 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡
- NavigaJonal ¡queries ¡
– 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡
- 60/40 ¡Training/Test ¡split ¡
We ¡focus ¡on ¡NavigaJonal ¡Queries ¡ here ¡for ¡ease ¡of ¡evaluaJon. ¡
Measuring ¡Change: ¡Shingleprints ¡
#be9e ¡ #aaef ¡ #a559 ¡ #18ef ¡ #744e ¡ #b256 ¡ #be9e ¡ #81d3 ¡ #a559 ¡ #18ef ¡ #fa6e ¡ #b256 ¡ D(J) ¡ D(J+1) ¡ Sh(D(J)) ¡ Sh(D(J+1)) ¡
Broder, ¡et ¡al, ¡“SyntacJc ¡Clustering ¡of ¡the ¡Web” ¡ Computer ¡Networks ¡& ¡ISDN ¡Sys., ¡1997 ¡
1 2 3 4 1 2 3 4 20 40 60% Relevance Level Documents Changed
Change ¡& ¡Relevance ¡
1 2 3 4 1 2 3 4 20 40 60% Relevance Level Documents Changed
Change ¡& ¡Relevance ¡
62.9% ¡ Ave: ¡ 37.3% ¡
1 2 3 4 1 2 3 4 0.08 0.16 0.24 Relevance Level Average ShDiff(D)
Change ¡Amount ¡& ¡Relevance ¡
Change ¡& ¡Relevance ¡
- More ¡relevance ¡documents ¡tend ¡to ¡change ¡
more ¡open, ¡and ¡to ¡a ¡greater ¡degree ¡than ¡non-‑ relevant ¡documents. ¡
- Could ¡favoring ¡dynamic ¡documents ¡in ¡ranking ¡
improve ¡performance? ¡
Favoring ¡Dynamic ¡Documents ¡
Language-‑Modeling ¡Ranking ¡FuncJon: ¡
Favoring ¡Dynamic ¡Documents ¡
Language-‑Modeling ¡Ranking ¡FuncJon: ¡
Uniform ¡Prior: ¡ “StaJc ¡Model” ¡
Favoring ¡Dynamic ¡Documents ¡
Language-‑Modeling ¡Ranking ¡FuncJon: ¡
Uniform ¡Prior: ¡ “Change” ¡Prior: ¡
Favoring ¡Dynamic ¡Documents ¡
- −5
5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Change ¡Prior ¡ Baseline ¡StaJc ¡Model ¡
Favoring ¡Dynamic ¡Documents ¡
- −5
5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Baseline ¡StaJc ¡Model ¡
Big ¡ ¡improvement ¡at ¡higher ¡ranks, ¡but ¡ possible ¡over-‑fiHng ¡at ¡rank ¡1 ¡
Change ¡Prior ¡
Change ¡Within ¡the ¡Document ¡
Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡ dynamic ¡content ¡that ¡indicate ¡some ¡content ¡ may ¡be ¡more ¡important? ¡
Change ¡Within ¡the ¡Document ¡
Time ¡
- Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡
Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Change ¡Within ¡the ¡Document ¡
Time ¡
- Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡
Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Change ¡Within ¡the ¡Document ¡
Time ¡
- Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡
Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Long-‑Lived ¡Vocabulary ¡ Short-‑Lived ¡Vocabulary ¡
Change ¡Within ¡the ¡Document ¡
Time ¡
- Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡
Dinner ¡ Cooks ¡ Recipes ¡ Latkes ¡ Merrymaking ¡ Frighrully ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡
IdenJfying ¡transient ¡& ¡permanent ¡vocabulary: ¡
- Short-‑lived: ¡come ¡& ¡go ¡quickly ¡
¡ ¡ ¡in ¡fewer ¡than ¡50% ¡of ¡the ¡document’s ¡slices ¡
- Medium-‑lived: ¡ ¡
¡ ¡ ¡in ¡50-‑90% ¡of ¡the ¡document's ¡slices ¡
- Long-‑lived: ¡tend ¡to ¡sJck ¡for ¡a ¡long ¡Jme ¡
¡ ¡ ¡in ¡> ¡90% ¡of ¡the ¡document’s ¡slices ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡
Model ¡relevance ¡as ¡a ¡mixture ¡of ¡LONG-‑ ¡ MEDIUM-‑ ¡and ¡SHORT-‑lived ¡vocabulary: ¡
“Dynamic ¡Model” ¡
DifferenJally ¡weight ¡ long-‑lived ¡and ¡short-‑ lived ¡vocabulary. ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡
Model ¡relevance ¡as ¡a ¡mixture ¡of ¡LONG-‑ ¡ MEDIUM-‑ ¡and ¡SHORT-‑lived ¡vocabulary: ¡
“Dynamic ¡Model” ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡
- −5
5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Change ¡Prior ¡
Change ¡Prior ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡
- −5
5 10 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡
Consistent ¡& ¡significant ¡improvement ¡ at ¡all ¡rank ¡cutoffs. ¡
Change ¡& ¡Relevance ¡Ranking ¡
- Presented ¡two ¡methods ¡for ¡leveraging ¡
changing ¡content ¡in ¡relevance ¡ranking: ¡
– Query-‑Independent ¡Change ¡Prior, ¡favoring ¡ dynamic ¡documents ¡irrespecJve ¡of ¡query ¡ – Dynamic ¡Document ¡Representa@on, ¡differenJally ¡ weighJng ¡long-‑term ¡and ¡short-‑term ¡vocabulary ¡
- Combined ¡Model: ¡Best ¡of ¡both ¡worlds? ¡
Combined ¡Model ¡
- −5
5 10 15 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡ Change ¡Prior ¡
Combined ¡Model ¡
- −5
5 10 15 NDCG cutoff % Gain/Loss in NDCG 1 2 3 5 10
Baseline ¡StaJc ¡Model ¡ Dynamic ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡
Combined ¡model ¡shows ¡(roughly) ¡ addiJve ¡improvement ¡
Change ¡Prior ¡
Conclusion ¡& ¡Next ¡Steps ¡
- Documents ¡change, ¡and ¡we ¡can ¡use ¡
characterisJcs ¡of ¡those ¡dynamics ¡to ¡improve ¡ retrieval ¡performance. ¡
- Presented ¡two ¡complementary ¡methods ¡of ¡
leveraging ¡change ¡in ¡ranking. ¡
- Focus ¡here ¡on ¡navigaJonal ¡queries; ¡current ¡