leveraging temporal dynamics of document content in
play

Leveraging Temporal Dynamics of Document Content in - PowerPoint PPT Presentation

Leveraging Temporal Dynamics of Document Content in Relevance Ranking Jonathan L. Elsas (CMU) Susan T. Dumais (MSR) Outline Document Dynamics on


  1. Leveraging ¡Temporal ¡Dynamics ¡of ¡ Document ¡Content ¡in ¡ ¡ Relevance ¡Ranking ¡ Jonathan ¡L. ¡Elsas ¡(CMU) ¡ Susan ¡T. ¡Dumais ¡(MSR) ¡

  2. Outline ¡ • Document ¡Dynamics ¡on ¡the ¡Web ¡ – Previous ¡Work ¡on ¡Change ¡& ¡What’s ¡Missing ¡ • Our ¡SeHng: ¡Ranking ¡Dynamic ¡Documents ¡ – Test ¡CollecJon ¡& ¡Measuring ¡change ¡ • Two ¡ways ¡to ¡leverage ¡change ¡in ¡ranking ¡ – Document ¡Prior ¡based ¡on ¡Gross ¡Change ¡Measures ¡ – Document ¡RepresentaJon ¡based ¡on ¡Term-­‑Level ¡ Change ¡ • Discussion ¡

  3. The ¡Web ¡is ¡Dynamic ¡

  4. The ¡Web ¡is ¡Dynamic ¡ 2007 ¡ 10 ¡Years ¡ 1998 ¡

  5. The ¡Web ¡is ¡Dynamic ¡ 1996 ¡ 2010 ¡ 14 ¡Years ¡

  6. The ¡Web ¡is ¡Dynamic ¡ 10 ¡Minutes ¡

  7. Previous ¡Work ¡on ¡Dynamics ¡ Characterizing ¡Change ¡ ImplicaJons ¡of ¡Change ¡

  8. Characterizing ¡Change ¡ Change ¡& ¡Page ¡ Type ¡/ ¡Source ¡ Fe_erly ¡et ¡al, ¡WWW03 ¡ New ¡Content ¡& ¡ Links ¡ Ntoulas ¡et ¡al, ¡ ¡WWW04 ¡ Within-­‑Doc. ¡ Change ¡ Adar ¡et ¡al, ¡WSDM ¡2009 ¡

  9. ImplicaJons ¡of ¡Change ¡ On ¡Browsing ¡ Adar, ¡et ¡al ¡UIST’08 ¡ On ¡Indexing ¡ Berberich, ¡et ¡al ¡SIGIR’07 ¡ On ¡Crawling ¡ ¡ Olston ¡& ¡Pandey, ¡ WWW08 ¡

  10. ImplicaJons ¡of ¡Change ¡ On ¡Ranking? ¡

  11. ImplicaJons ¡of ¡Change ¡on ¡Ranking ¡ • Gross ¡Measures ¡of ¡Document ¡Change ¡ Are ¡there ¡general ¡characterisJcs ¡of ¡document ¡ dynamics ¡indicate ¡high ¡quality ¡pages? ¡ • RepresenJng ¡Term-­‑Level ¡Change ¡Within ¡the ¡ Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡dynamic ¡ content ¡that ¡indicate ¡some ¡content ¡may ¡be ¡more ¡ important? ¡

  12. Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡

  13. Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ We ¡focus ¡on ¡NavigaJonal ¡Queries ¡ here ¡for ¡ease ¡of ¡evaluaJon. ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡

  14. Measuring ¡Change: ¡Shingleprints ¡ D(J) ¡ D(J+1) ¡ #be9e ¡ #be9e ¡ #aaef ¡ #81d3 ¡ #a559 ¡ #a559 ¡ #18ef ¡ #18ef ¡ #744e ¡ #fa6e ¡ #b256 ¡ #b256 ¡ Sh(D(J)) ¡ Sh(D(J+1)) ¡ Broder, ¡et ¡al, ¡“SyntacJc ¡Clustering ¡of ¡the ¡Web” ¡ Computer ¡Networks ¡& ¡ISDN ¡Sys., ¡1997 ¡

  15. Change ¡& ¡ Relevance ¡ 60% Documents Changed 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  16. Change ¡& ¡ Relevance ¡ 62.9% ¡ 60% Documents Changed Ave: ¡ 37.3% ¡ 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  17. Change ¡Amount ¡& ¡ Relevance ¡ 0.24 Average ShDiff ( D ) 0.16 0.08 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  18. Change ¡& ¡ Relevance ¡ • More ¡relevance ¡documents ¡tend ¡to ¡change ¡ more ¡open, ¡ and ¡ to ¡a ¡greater ¡degree ¡than ¡non-­‑ relevant ¡documents. ¡ • Could ¡favoring ¡dynamic ¡documents ¡in ¡ranking ¡ improve ¡performance? ¡

  19. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡

  20. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “StaJc ¡Model” ¡

  21. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “Change” ¡Prior: ¡

  22. Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  23. Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 Big ¡ ¡improvement ¡at ¡higher ¡ranks, ¡but ¡ ● possible ¡over-­‑fiHng ¡at ¡rank ¡1 ¡ Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  24. Change ¡Within ¡the ¡Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡ dynamic ¡content ¡that ¡indicate ¡some ¡content ¡ may ¡be ¡more ¡important? ¡

  25. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  26. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  27. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  28. Change ¡Within ¡the ¡Document ¡ Merrymaking ¡ Latkes ¡ Short-­‑Lived ¡Vocabulary ¡ Frighrully ¡ Cooks ¡ Long-­‑Lived ¡Vocabulary ¡ Dinner ¡ Recipes ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡

  29. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ IdenJfying ¡transient ¡& ¡permanent ¡vocabulary: ¡ • Short-­‑lived : ¡come ¡& ¡go ¡quickly ¡ ¡ ¡ ¡in ¡fewer ¡than ¡50% ¡of ¡the ¡document’s ¡slices ¡ • Medium-­‑lived : ¡ ¡ ¡ ¡ ¡in ¡50-­‑90% ¡of ¡the ¡document's ¡slices ¡ • Long-­‑lived : ¡tend ¡to ¡sJck ¡for ¡a ¡long ¡Jme ¡ ¡ ¡ ¡in ¡> ¡90% ¡of ¡the ¡document’s ¡slices ¡

  30. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡ “Dynamic ¡Model” ¡

  31. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡ DifferenJally ¡weight ¡ long-­‑lived ¡and ¡short-­‑ lived ¡vocabulary. ¡ “Dynamic ¡Model” ¡

  32. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  33. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Consistent ¡& ¡significant ¡improvement ¡ Change ¡Prior ¡ at ¡all ¡rank ¡cutoffs. ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  34. Change ¡& ¡Relevance ¡Ranking ¡ • Presented ¡two ¡methods ¡for ¡leveraging ¡ changing ¡content ¡in ¡relevance ¡ranking: ¡ – Query-­‑Independent ¡Change ¡Prior, ¡ favoring ¡ dynamic ¡documents ¡irrespecJve ¡of ¡query ¡ – Dynamic ¡Document ¡Representa@on , ¡differenJally ¡ weighJng ¡long-­‑term ¡and ¡short-­‑term ¡vocabulary ¡ • Combined ¡Model: ¡Best ¡of ¡both ¡worlds? ¡

  35. Combined ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡ 15 ● ● Change ¡Prior ¡ % Gain/Loss in NDCG 10 ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend