modeling rich interac1ons in session search georgetown
play

Modeling Rich Interac1ons in Session Search Georgetown - PowerPoint PPT Presentation

Modeling Rich Interac1ons in Session Search Georgetown University at TREC 2014 Session Track Jiyun Luo, Xuchu Dong and Grace Hui Yang Department of


  1. Modeling ¡Rich ¡Interac1ons ¡in ¡Session ¡ Search ¡– ¡Georgetown ¡University ¡at ¡TREC ¡ 2014 ¡Session ¡Track ¡ ¡ Jiyun ¡Luo, ¡Xuchu ¡Dong ¡and ¡Grace ¡Hui ¡Yang ¡ Department ¡of ¡Computer ¡Science ¡ Georgetown ¡University ¡ ¡

  2. Introduc:on ¡ • Session ¡search ¡ – Document ¡retrieval ¡for ¡an ¡en:re ¡search ¡session. ¡ ¡ • TREC ¡Session ¡Track ¡provides ¡log ¡data ¡which ¡records ¡ – A ¡sequence ¡of ¡query ¡changes ¡ q 1 ,q 2 …q n-­‑1 ,q n ¡ – The ¡ranked ¡list ¡for ¡each ¡past ¡query ¡ – Document ¡clicked ¡informa:on ¡and ¡dwell ¡:me. ¡ ¡ • TREC ¡2014 ¡Session ¡Track: ¡ – RL1 ¡using ¡the ¡last ¡query ¡of ¡a ¡session ¡ – RL2 ¡using ¡any ¡informa:on ¡in ¡current ¡session ¡ – RL3 ¡using ¡informa:on ¡from ¡other ¡sessions ¡ • We ¡use: ¡ ¡ – ClueWeb12 ¡Category ¡A ¡as ¡our ¡corpus ¡ 2 ¡

  3. Outline ¡ • Introduc:on ¡ • Methods ¡and ¡Approaches ¡ – Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡ • Submissions ¡ • Evalua:on ¡Result ¡ • Conclusion ¡ 3 ¡

  4. Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ • Mul:nomial ¡ Language ¡ Modeling ¡ + ¡ Dirichlet ¡ Smoothing. ¡ • Term ¡weight ¡P(t|d) ¡as: ¡ ¡ ¡ ¡ • μ ¡is ¡the ¡Dirichlet ¡smoothing ¡parameter, ¡and ¡is ¡ set ¡= ¡5000. ¡ 4 ¡

  5. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ • Idea : ¡Query ¡Change ¡is ¡an ¡important ¡form ¡of ¡user ¡feedback ¡ ¡ – Dongyi ¡Guan, ¡Sicong ¡Zhang, ¡and ¡Hui ¡Yang. ¡2013. ¡U:lizing ¡query ¡change ¡ for ¡session ¡search. ¡ ¡(SIGIR ¡'13). ¡ ¡ • Defining ¡query ¡change ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡as ¡the ¡syntac:c ¡edi:ng ¡ q Δ i changes ¡between ¡two ¡adjacent ¡queries: ¡ q q q Δ = − i i i 1 − q q • Added ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ; ¡ Removed ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ; ¡ Theme ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ q + Δ − Δ theme i i ¡ Table ¡1 ¡A ¡example ¡of ¡Query ¡Change ¡ Session ¡ Queries ¡ Query ¡Change ¡ Q theme ¡ ¡ Q 1 ¡= ¡hydropower ¡efficiency ¡ +Δq 2 ¡= ¡environment ¡ hydropower ¡ ¡ ¡ Q 2 ¡= ¡hydropower ¡environment ¡ -­‑Δq 2 ¡= ¡efficiency ¡ session ¡52 ¡ Q 3 ¡= ¡hydropower ¡damage ¡ +Δq 3 ¡= ¡damage ¡ hydropower ¡ ¡ -­‑Δq 3 ¡= ¡environment ¡ 5 ¡

  6. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ Increase ¡weights ¡ • The ¡relevance ¡score ¡between ¡one ¡query ¡q i ¡and ¡a ¡ Increase ¡weights ¡ for ¡novel ¡added ¡ document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ for ¡theme ¡terms ¡ terms ¡ ¡ Score ( q i , d ) = log P ( q i | d ) + α W Theme − β W Add , In + ε W Add , Out − δ W Re move Current ¡reward/ ¡ Decrease ¡weights ¡ Decrease ¡weights ¡ relevance ¡score ¡ for ¡removed ¡terms ¡ for ¡old ¡added ¡ terms ¡ 6 ¡

  7. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ • The ¡relevance ¡score ¡between ¡one ¡query ¡q i ¡and ¡a ¡ document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Score ( q i , d ) = log P ( q i | d ) + α W Theme − β W Add , In + ε W Add , Out − δ W Re move ¡ • The ¡QCM ¡model ¡combines ¡all ¡queries ¡in ¡a ¡session ¡with ¡ a ¡discount ¡factor ¡Υ: ¡ ¡ ¡ n ∑ γ n − i Score ( q i , d ) Score qcm ( q 1.. n , d ) = i = 1 7 ¡

  8. Weighted ¡QCM ¡ • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡ quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡ – Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡ a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡ 8 ¡

  9. Weighted ¡QCM ¡ • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡ quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡ – Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡ a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡ !"#$% !"#$ ! ! . . ! , ! = !"#$% ( ! ! , ! ) + ! ! !"#$% ( ! ! , ! ) ! ! ! ∈ ! !""# ! ! ∈ ! !"# The ¡good ¡query ¡set: ¡ The ¡bad ¡query ¡set: ¡ Queries ¡bringing ¡at ¡least ¡ Queries ¡bringing ¡no ¡ one ¡SAT-­‑Click ¡+ ¡the ¡ SAT-­‑Click ¡ current ¡query ¡ 9 ¡

  10. User-­‑Click ¡Model ¡ • We ¡boost ¡a ¡document’s ¡ranking ¡score, ¡if ¡it ¡is ¡SAT-­‑ Clicked ¡by ¡users ¡ ¡ – Session ¡Level ¡User-­‑Click ¡Model ¡for ¡RL2 ¡ score ¡from ¡QCM ¡ boost ¡from ¡Session ¡ model ¡ level ¡User-­‑Click ¡model ¡ Ψ ¡points ¡for ¡a ¡Strong ¡SAT-­‑Click, ¡θ ¡ normaliza1on ¡to ¡(0,1) ¡ points ¡for ¡a ¡Weak ¡SAT-­‑Click, ¡sum ¡up ¡ for ¡the ¡whole ¡session ¡ 10 ¡

  11. User-­‑Click ¡Model ¡ – Topic ¡Level ¡User-­‑Click ¡Model ¡for ¡RL3 ¡ boost ¡from ¡ Topic ¡level ¡ User-­‑Click ¡model ¡ similar ¡to ¡session ¡level ¡User-­‑Click ¡ model, ¡however ¡calcula:on ¡is ¡done ¡ for ¡ the ¡whole ¡session ¡cluster ¡ • A ¡session ¡cluster ¡is ¡a ¡set ¡of ¡sessions ¡that ¡sharing ¡similar ¡search ¡ topics ¡ 11 ¡

  12. Clustering ¡ • Topic ¡ID ¡is ¡not ¡obtainable ¡in ¡real ¡search ¡prac:ce. ¡ ¡ – cluster ¡sessions ¡by ¡comparing ¡queries’ ¡similarity ¡ Ø Convert ¡all ¡queries ¡in ¡one ¡session ¡to ¡a ¡term ¡vector ¡ Ø Assign ¡idf ¡value ¡as ¡weight ¡to ¡each ¡dimension ¡ Ø Cluster ¡sessions ¡based ¡on ¡the ¡Euclidean ¡distance ¡of ¡ these ¡vectors ¡ • We ¡use ¡K-­‑means ¡clustering ¡algorithm ¡and ¡set ¡K ¡= ¡60 ¡ ¡ 12 ¡

  13. Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡ • For ¡sessions ¡that ¡share ¡similar ¡search ¡topics ¡ – predict ¡their ¡performance ¡ ¡ – replace ¡bad ¡sessions’ ¡results ¡with ¡good ¡sessions’ ¡ • Predict ¡session ¡performance ¡ – Extract ¡several ¡features ¡(n) ¡from ¡the ¡sessions ¡ – Rank ¡sessions ¡by ¡formula: ¡ ¡ 1 !"#$% ! ! = ∗ ! ( ! ! ) ! # ! !" ! !"!!#$%! ! !"#$!%&$'( ! ! ! = TRUE ! ! ! . . ! 13 ¡

  14. Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡ • Features ¡Table ¡ Table&2&Features&Extracted&for&each&Session& Feature Definition F 1 Search intent is comparison F 2 No user-click in session s ! !"#$$ ≤ 5s. ! !"#$$ ! !" ! ! ℎ ! ! !"# ! !" ! !"#$$ ! time in a session. F 3 # of unique terms in session s ≥ 20. F 4 ( ! ) F 5 ! !"#$$ _ !"# _ !"#!$ ! !"#$$ _ !"# _ !"#!$ < 2 F 6 Session s does not contain the most frequent search term in T ( s ). # of unique terms in session s ≤ 6 F 7 # ! !" ! !"# ! !"#!$% ! !" ! !"!!#$% ! ! ′ F 8 ! ! ∈ ! ( ! ) # ! !" ! !"# ! !"#!$% ! !" ! !"!!#$% ! ! < | ! ( ! ) | ! * ¡T(s) ¡means ¡a ¡session ¡cluster ¡including ¡session ¡s ¡ 14 ¡

  15. Outline ¡ • Introduc:on ¡ • Methods ¡and ¡Approaches ¡ – Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡ • Submissions ¡ • Evalua:on ¡Result ¡ • Conclusion ¡ 15 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend