Modeling Rich Interac1ons in Session Search Georgetown - - PowerPoint PPT Presentation

modeling rich interac1ons in session search georgetown
SMART_READER_LITE
LIVE PREVIEW

Modeling Rich Interac1ons in Session Search Georgetown - - PowerPoint PPT Presentation

Modeling Rich Interac1ons in Session Search Georgetown University at TREC 2014 Session Track Jiyun Luo, Xuchu Dong and Grace Hui Yang Department of


slide-1
SLIDE 1

Modeling ¡Rich ¡Interac1ons ¡in ¡Session ¡ Search ¡– ¡Georgetown ¡University ¡at ¡TREC ¡ 2014 ¡Session ¡Track ¡ ¡

Jiyun ¡Luo, ¡Xuchu ¡Dong ¡and ¡Grace ¡Hui ¡Yang ¡ Department ¡of ¡Computer ¡Science ¡ Georgetown ¡University ¡ ¡

slide-2
SLIDE 2

Introduc:on ¡

  • Session ¡search ¡

– Document ¡retrieval ¡for ¡an ¡en:re ¡search ¡session. ¡ ¡

  • TREC ¡Session ¡Track ¡provides ¡log ¡data ¡which ¡records ¡

– A ¡sequence ¡of ¡query ¡changes ¡q1,q2…qn-­‑1,qn ¡ – The ¡ranked ¡list ¡for ¡each ¡past ¡query ¡ – Document ¡clicked ¡informa:on ¡and ¡dwell ¡:me. ¡ ¡

  • TREC ¡2014 ¡Session ¡Track: ¡

– RL1 ¡using ¡the ¡last ¡query ¡of ¡a ¡session ¡ – RL2 ¡using ¡any ¡informa:on ¡in ¡current ¡session ¡ – RL3 ¡using ¡informa:on ¡from ¡other ¡sessions ¡

  • We ¡use: ¡ ¡

– ClueWeb12 ¡Category ¡A ¡as ¡our ¡corpus ¡

2 ¡

slide-3
SLIDE 3

Outline ¡

  • Introduc:on ¡
  • Methods ¡and ¡Approaches ¡

– Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡

  • Submissions ¡
  • Evalua:on ¡Result ¡
  • Conclusion ¡

3 ¡

slide-4
SLIDE 4

Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡

  • Mul:nomial ¡ Language ¡ Modeling ¡ + ¡ Dirichlet ¡
  • Smoothing. ¡
  • Term ¡weight ¡P(t|d) ¡as: ¡ ¡

¡ ¡

  • μ ¡is ¡the ¡Dirichlet ¡smoothing ¡parameter, ¡and ¡is ¡

set ¡= ¡5000. ¡

4 ¡

slide-5
SLIDE 5

Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡

  • Idea: ¡Query ¡Change ¡is ¡an ¡important ¡form ¡of ¡user ¡feedback ¡ ¡

– Dongyi ¡Guan, ¡Sicong ¡Zhang, ¡and ¡Hui ¡Yang. ¡2013. ¡U:lizing ¡query ¡change ¡ for ¡session ¡search. ¡ ¡(SIGIR ¡'13). ¡ ¡

  • Defining ¡query ¡change ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡as ¡the ¡syntac:c ¡edi:ng ¡

changes ¡between ¡two ¡adjacent ¡queries: ¡

  • Added ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡; ¡Removed ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡; ¡Theme ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

¡

1 −

− = Δ

i i i

q q q

i

q Δ

5 ¡

Session ¡ Queries ¡ Query ¡Change ¡ Qtheme ¡ ¡ ¡ session ¡52 ¡ Q1 ¡= ¡hydropower ¡efficiency ¡ +Δq2 ¡= ¡environment ¡ hydropower ¡ ¡ Q2 ¡= ¡hydropower ¡environment ¡ -­‑Δq2 ¡= ¡efficiency ¡ Q3 ¡= ¡hydropower ¡damage ¡ +Δq3 ¡= ¡damage ¡ hydropower ¡ ¡

  • ­‑Δq3 ¡= ¡environment ¡

i

q Δ +

i

q Δ −

theme

q

Table ¡1 ¡A ¡example ¡of ¡Query ¡Change ¡

slide-6
SLIDE 6

Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡

  • The ¡relevance ¡score ¡between ¡one ¡query ¡qi ¡and ¡a ¡

document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

¡

6 ¡

Score(qi,d) = logP(qi | d)+αWTheme − βWAdd,In +εW Add,Out−δWRemove

Current ¡reward/ ¡ relevance ¡score ¡ Increase ¡weights ¡ for ¡theme ¡terms ¡ Decrease ¡weights ¡ for ¡old ¡added ¡ terms ¡ Decrease ¡weights ¡ for ¡removed ¡terms ¡ Increase ¡weights ¡ for ¡novel ¡added ¡ terms ¡

slide-7
SLIDE 7

Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡

  • The ¡relevance ¡score ¡between ¡one ¡query ¡qi ¡and ¡a ¡

document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

¡ ¡

  • The ¡QCM ¡model ¡combines ¡all ¡queries ¡in ¡a ¡session ¡with ¡

a ¡discount ¡factor ¡Υ: ¡ ¡

¡

7 ¡

Score(qi,d) = logP(qi | d)+αWTheme − βWAdd,In +εW Add,Out−δWRemove

Scoreqcm(q1..n,d) = γ n−iScore(qi,d)

i=1 n

slide-8
SLIDE 8

Weighted ¡QCM ¡

  • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡

quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡

– Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡

8 ¡

slide-9
SLIDE 9

Weighted ¡QCM ¡

  • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡

quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡

– Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡

9 ¡

!"#$%!"#$ !!..!, ! = !"#$% (!!, !)

!!∈!!""#

+ !! !"#$% (!!, !)

!!∈!!"#

!

The ¡good ¡query ¡set: ¡

Queries ¡bringing ¡at ¡least ¡

  • ne ¡SAT-­‑Click ¡+ ¡the ¡

current ¡query ¡

The ¡bad ¡query ¡set: ¡

Queries ¡bringing ¡no ¡ SAT-­‑Click ¡

slide-10
SLIDE 10

User-­‑Click ¡Model ¡

  • We ¡boost ¡a ¡document’s ¡ranking ¡score, ¡if ¡it ¡is ¡SAT-­‑

Clicked ¡by ¡users ¡ ¡

– Session ¡Level ¡User-­‑Click ¡Model ¡for ¡RL2 ¡

10 ¡

score ¡from ¡QCM ¡ model ¡ boost ¡from ¡Session ¡ level ¡User-­‑Click ¡model ¡ Ψ ¡points ¡for ¡a ¡Strong ¡SAT-­‑Click, ¡θ ¡ points ¡for ¡a ¡Weak ¡SAT-­‑Click, ¡sum ¡up ¡ for ¡the ¡whole ¡session ¡ normaliza1on ¡to ¡(0,1) ¡

slide-11
SLIDE 11

User-­‑Click ¡Model ¡

– Topic ¡Level ¡User-­‑Click ¡Model ¡for ¡RL3 ¡

  • A ¡session ¡cluster ¡is ¡a ¡set ¡of ¡sessions ¡that ¡sharing ¡similar ¡search ¡

topics ¡

11 ¡

boost ¡from ¡Topic ¡level ¡ User-­‑Click ¡model ¡ similar ¡to ¡session ¡level ¡User-­‑Click ¡ model, ¡however ¡calcula:on ¡is ¡done ¡ for ¡the ¡whole ¡session ¡cluster ¡

slide-12
SLIDE 12

Clustering ¡

  • Topic ¡ID ¡is ¡not ¡obtainable ¡in ¡real ¡search ¡prac:ce. ¡ ¡

– cluster ¡sessions ¡by ¡comparing ¡queries’ ¡similarity ¡

Ø Convert ¡all ¡queries ¡in ¡one ¡session ¡to ¡a ¡term ¡vector ¡ Ø Assign ¡idf ¡value ¡as ¡weight ¡to ¡each ¡dimension ¡ Ø Cluster ¡sessions ¡based ¡on ¡the ¡Euclidean ¡distance ¡of ¡ these ¡vectors ¡

  • We ¡use ¡K-­‑means ¡clustering ¡algorithm ¡and ¡set ¡K ¡= ¡60 ¡ ¡

12 ¡

slide-13
SLIDE 13

Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡

  • For ¡sessions ¡that ¡share ¡similar ¡search ¡topics ¡

– predict ¡their ¡performance ¡ ¡ – replace ¡bad ¡sessions’ ¡results ¡with ¡good ¡sessions’ ¡

  • Predict ¡session ¡performance ¡

– Extract ¡several ¡features ¡(n) ¡from ¡the ¡sessions ¡ – Rank ¡sessions ¡by ¡formula: ¡ ¡

13 ¡

!"#$%! ! = 1 #!!"!!"!!#$%!!!"#$!%&$'(!!

! = TRUE !!!..!

∗ !(!

!)!

slide-14
SLIDE 14

Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡

14 ¡

Table&2&Features&Extracted&for&each&Session&

Feature Definition F1 Search intent is comparison F2 No user-click in session s F3 !!"#$$ ≤5s. !!"#$$!!"!!ℎ!!!"#!!"!!"#$$!time in a session. F4 # of unique terms in session s≥20. F5 !!"#$$_!"#_!"#!$ < !!"#$$_!"#_!"#!$

(!)

2 F6 Session s does not contain the most frequent search term in T(s). F7 # of unique terms in session s≤6 F8 #!!"!!"#!!"#!$%!!"!!"!!#$%!! < #!!"!!"#!!"#!$%!!"!!"!!#$%!!′

!!∈!(!)

|!(!)| !

  • Features ¡Table ¡

* ¡T(s) ¡means ¡a ¡session ¡cluster ¡including ¡session ¡s ¡

slide-15
SLIDE 15

Outline ¡

  • Introduc:on ¡
  • Methods ¡and ¡Approaches ¡

– Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡

  • Submissions ¡
  • Evalua:on ¡Result ¡
  • Conclusion ¡

15 ¡

slide-16
SLIDE 16

Our ¡Submissions ¡

16 ¡

GUS14RUN1 ¡ GUS14RUN2 ¡ GUS14RUN3 ¡ RL1 ¡ Ad-­‑hoc ¡Retrieval ¡Model ¡ RL2 ¡ ¡

  • Weighted ¡QCM ¡

(ω=0.65) ¡

  • Session ¡Level ¡User-­‑

Click ¡Model ¡

  • Weighted ¡QCM ¡(ω=0.8) ¡
  • Session ¡Level ¡User-­‑Click ¡Model ¡

RL3 ¡

  • Weighted ¡QCM ¡

(ω=0.65) ¡

  • Topic ¡Level ¡User-­‑

Click ¡Model ¡

  • Weighted ¡QCM ¡

(ω=0.8) ¡

  • Topic ¡Level ¡User-­‑

Click ¡Model ¡

  • Weighted ¡QCM ¡(ω=0.8) ¡
  • Topic ¡Level ¡User-­‑Click ¡

Model ¡using ¡topic ¡ids ¡

  • Session ¡Performance ¡

Predic:on ¡and ¡ Replacement ¡

  • RL3 ¡in ¡RUN1 ¡and ¡RUN2 ¡using ¡session ¡clusters ¡based ¡on ¡query ¡similarity ¡
  • RL3 ¡in ¡RUN3 ¡using ¡session ¡cluster ¡based ¡on ¡topic ¡id ¡
  • Why? ¡similar ¡queries ¡leads ¡to ¡similar ¡retrieval ¡list ¡in ¡our ¡system. ¡Not ¡useful ¡when ¡apply ¡

session ¡replacement ¡strategy ¡

slide-17
SLIDE 17

Evalua1on ¡Results ¡

17 ¡

GUS14RUN1 ¡ GUS14RUN2 ¡ GUS14RUN3 ¡ Max ¡ Med ¡

nDCG@10 ¡ P@10 ¡ nDCG@10 ¡ P@10 ¡ nDCG@10 ¡ P@10 ¡ nDCG@10 ¡ P@10 ¡ nDCG@10 ¡ P@10 ¡

RL1 ¡ 0.2053 ¡ 0.378 ¡ 0.2053 ¡ 0.378 ¡ 0.2053 ¡ 0.378 ¡ 0.3890 ¡ 0.629 ¡ 0.1549 ¡ 0.348 ¡ RL2 ¡ 0.2458 ¡ 0.426 ¡ 0.2482 ¡ 0.427 ¡ 0.2482 ¡ 0.427 ¡ 0.4865 ¡ 0.712 ¡ 0.1626 ¡ 0.372 ¡ RL3 ¡ 0.2443 ¡ 0.423 ¡ 0.2458 ¡ 0.424 ¡ 0.2580 ¡ 0.429 ¡ 0.5111 ¡ 0.744 ¡ 0.1790 ¡ 0.404 ¡

Ø 2nd ¡rank ¡in ¡task ¡RL1, ¡1st ¡rank ¡in ¡task ¡RL2 ¡and ¡RL3 ¡

  • Adjus:ng ¡term ¡weight ¡based ¡on ¡query ¡change ¡is ¡effec:ve ¡
  • Combining ¡queries ¡in ¡a ¡session ¡is ¡useful ¡for ¡Session ¡Track ¡
  • User-­‑Click ¡is ¡effec:ve ¡to ¡predicate ¡relevance ¡

Ø A ¡small ¡performance ¡drop ¡from ¡RL2 ¡to ¡RL3 ¡in ¡RUN1 ¡and ¡RUN2 ¡

  • cluster ¡sessions ¡based ¡on ¡query ¡similarity ¡may ¡work, ¡however ¡need ¡more ¡work ¡to ¡

refine ¡it ¡ Ø A ¡small ¡increase ¡from ¡RL2 ¡to ¡RL3 ¡in ¡RUN3 ¡

  • For ¡sessions ¡sharing ¡same ¡search ¡topics, ¡replacing ¡poor ¡sessions’ ¡results ¡using ¡

good ¡sessions’ ¡is ¡prac:cal. ¡ ¡

slide-18
SLIDE 18
  • Achieve ¡20.9% ¡increase ¡from ¡RL1 ¡to ¡RL2 ¡by ¡

u:lizing ¡

– query ¡change ¡feedback ¡ – user ¡click ¡feedback ¡

  • Achieve ¡4% ¡increase ¡from ¡RL2 ¡to ¡RL3 ¡by ¡

– Topic ¡level ¡User-­‑Click ¡Model ¡ – Session ¡performance ¡predic:on ¡and ¡replacement ¡

Conclusion ¡

slide-19
SLIDE 19

Thanks! ¡

19 ¡

¡ Jiyun ¡Luo, ¡Xuchu ¡Dong ¡and ¡Grace ¡Hui ¡Yang ¡ Department ¡of ¡Computer ¡Science ¡ Georgetown ¡University ¡ ¡ ¡