SLIDE 1
Informa(on ¡Retrieval ¡as ¡ ¡ Sta(s(cal ¡Transla(on ¡
Presented ¡by: ¡Lin ¡Gong ¡
SLIDE 2 Introduc(on ¡
Query ¡genera(on! ¡
- ‑> ¡Find ¡the ¡most ¡likely ¡documents ¡given ¡the ¡query. ¡
How ¡do ¡people ¡search ¡a ¡query? ¡
Informa(on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ need ¡ Ideal ¡ document ¡ segment ¡ Query ¡
SLIDE 3
By ¡Baye’s ¡law: ¡ ¡ query ¡ ¡ maximize ¡
A ¡Closer ¡Look ¡
SLIDE 4 Main ¡Idea ¡
The ¡language ¡modeling ¡approach ¡is ¡novel ¡and ¡mo(vated. ¡ However, ¡it ¡has ¡two ¡problems: ¡
- ‑ ¡Can ¡not ¡model ¡different ¡forms ¡or ¡styles ¡of ¡queries. ¡
- ‑ ¡Can ¡not ¡address ¡the ¡important ¡issues ¡of ¡synonymy ¡and ¡
- polysemy. ¡
The ¡paper ¡proposes ¡a ¡new ¡probabilis(c ¡approach ¡based ¡on ¡ sta(s(cal ¡machine ¡transla(on ¡and ¡aims ¡to ¡develop ¡a ¡general ¡ sta(s(cal ¡framework ¡for ¡handling ¡these ¡issues. ¡ High-‑performance ¡document ¡retrieval ¡systems ¡must ¡be ¡ sophis(cated ¡enough ¡to ¡handle ¡all ¡these ¡problems. ¡
SLIDE 5
What ¡is ¡Sta(s(cal ¡Machine ¡Transla(on? ¡
Machine ¡transla(on: ¡ Sta(s(cal ¡transla(on ¡system: ¡
SLIDE 6 Document-‑Query ¡Transla(on ¡
Model ¡1: ¡A ¡mixture ¡model ¡ q1 ¡ q2 ¡ q3 ¡ qm ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Document ¡: ¡ ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡d1, ¡d2, ¡d3………….. ¡dn ¡
Query: ¡m ¡ Document: ¡n ¡
…. ¡
SLIDE 7
Model ¡1: ¡A ¡Mixture ¡Model ¡ Model ¡0 ¡
SLIDE 8
Possion ¡Distribu(on: ¡
Model ¡1’: ¡A ¡Binomial ¡Model ¡
SLIDE 9
Building ¡a ¡Transla(on-‑Based ¡IR ¡System ¡
Ø Use ¡mutual ¡informa(on ¡sta(s(c ¡to ¡construct ¡an ¡ ar(ficial ¡cumula(ve ¡distribu(on ¡func(on ¡over ¡words ¡ in ¡each ¡document. ¡ Ø Use ¡EM ¡algorithm ¡of ¡three ¡itera(ons ¡to ¡fit ¡the ¡ transla(on ¡probabili(es ¡of ¡Model ¡1 ¡and ¡Model ¡1’. ¡ Ø Do ¡experiments ¡on ¡TREC ¡data. ¡
SLIDE 10
Sample ¡Transla(on ¡Probabili(es ¡ ¡ A]er ¡EM ¡Algorithm ¡
SLIDE 11 Experimental ¡Results ¡
Precision ¡and ¡recall ¡curve ¡on ¡AP. ¡ Average ¡precision: ¡19.4% ¡ ¡ Average ¡recall: ¡10% ¡
¡
Average ¡precision: ¡27.3% ¡ ¡ Average ¡recall: ¡22.8% ¡
¡
Precision ¡and ¡recall ¡curve ¡on ¡SJMN. ¡
SLIDE 12
Experimental ¡Results ¡
Comparison ¡between ¡two ¡and ¡three ¡itera(ons ¡of ¡EM. ¡ ¡ Documents ¡with ¡shorter ¡query ¡length. ¡ Decrease ¡in ¡performance! ¡
SLIDE 13 Experimental ¡Results ¡
Precision ¡and ¡recall ¡curve ¡on ¡SDR. ¡ Comparison ¡between ¡Model ¡0 ¡and ¡LM. ¡ Performance ¡is ¡similar! ¡ Average ¡precision: ¡22.2% ¡ ¡ Average ¡recall: ¡18.4% ¡
¡
SLIDE 14 Conclusion ¡
Ø Propose ¡an ¡approach ¡to ¡informa(on ¡retrieval ¡with ¡ sta(s(cal ¡machine ¡transla(on. ¡ ¡ Ø Present ¡two ¡models ¡for ¡document ¡query ¡genera(on ¡
Ø Train ¡the ¡parameters ¡with ¡EM ¡algorithm ¡and ¡do ¡ experiments ¡on ¡TREC ¡dataset. ¡
SLIDE 15
Thanks! ¡