Informa(on Retrieval as Sta(s(cal Transla(on Presented - - PowerPoint PPT Presentation

informa on retrieval as sta s cal transla on
SMART_READER_LITE
LIVE PREVIEW

Informa(on Retrieval as Sta(s(cal Transla(on Presented - - PowerPoint PPT Presentation

Informa(on Retrieval as Sta(s(cal Transla(on Presented by: Lin Gong Introduc(on How do people search a query? Ideal Informa(on


slide-1
SLIDE 1

Informa(on ¡Retrieval ¡as ¡ ¡ Sta(s(cal ¡Transla(on ¡

Presented ¡by: ¡Lin ¡Gong ¡

slide-2
SLIDE 2

Introduc(on ¡

Query ¡genera(on! ¡

  • ­‑> ¡Find ¡the ¡most ¡likely ¡documents ¡given ¡the ¡query. ¡

How ¡do ¡people ¡search ¡a ¡query? ¡

Informa(on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ need ¡ Ideal ¡ document ¡ segment ¡ Query ¡

slide-3
SLIDE 3

By ¡Baye’s ¡law: ¡ ¡ query ¡ ¡ maximize ¡

A ¡Closer ¡Look ¡

slide-4
SLIDE 4

Main ¡Idea ¡

The ¡language ¡modeling ¡approach ¡is ¡novel ¡and ¡mo(vated. ¡ However, ¡it ¡has ¡two ¡problems: ¡

  • ­‑ ¡Can ¡not ¡model ¡different ¡forms ¡or ¡styles ¡of ¡queries. ¡
  • ­‑ ¡Can ¡not ¡address ¡the ¡important ¡issues ¡of ¡synonymy ¡and ¡
  • polysemy. ¡

The ¡paper ¡proposes ¡a ¡new ¡probabilis(c ¡approach ¡based ¡on ¡ sta(s(cal ¡machine ¡transla(on ¡and ¡aims ¡to ¡develop ¡a ¡general ¡ sta(s(cal ¡framework ¡for ¡handling ¡these ¡issues. ¡ High-­‑performance ¡document ¡retrieval ¡systems ¡must ¡be ¡ sophis(cated ¡enough ¡to ¡handle ¡all ¡these ¡problems. ¡

slide-5
SLIDE 5

What ¡is ¡Sta(s(cal ¡Machine ¡Transla(on? ¡

Machine ¡transla(on: ¡ Sta(s(cal ¡transla(on ¡system: ¡

slide-6
SLIDE 6

Document-­‑Query ¡Transla(on ¡

Model ¡1: ¡A ¡mixture ¡model ¡ q1 ¡ q2 ¡ q3 ¡ qm ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Document ¡: ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡d1, ¡d2, ¡d3………….. ¡dn ¡

Query: ¡m ¡ Document: ¡n ¡

…. ¡

slide-7
SLIDE 7

Model ¡1: ¡A ¡Mixture ¡Model ¡ Model ¡0 ¡

slide-8
SLIDE 8

Possion ¡Distribu(on: ¡

Model ¡1’: ¡A ¡Binomial ¡Model ¡

slide-9
SLIDE 9

Building ¡a ¡Transla(on-­‑Based ¡IR ¡System ¡

Ø Use ¡mutual ¡informa(on ¡sta(s(c ¡to ¡construct ¡an ¡ ar(ficial ¡cumula(ve ¡distribu(on ¡func(on ¡over ¡words ¡ in ¡each ¡document. ¡ Ø Use ¡EM ¡algorithm ¡of ¡three ¡itera(ons ¡to ¡fit ¡the ¡ transla(on ¡probabili(es ¡of ¡Model ¡1 ¡and ¡Model ¡1’. ¡ Ø Do ¡experiments ¡on ¡TREC ¡data. ¡

slide-10
SLIDE 10

Sample ¡Transla(on ¡Probabili(es ¡ ¡ A]er ¡EM ¡Algorithm ¡

slide-11
SLIDE 11

Experimental ¡Results ¡

Precision ¡and ¡recall ¡curve ¡on ¡AP. ¡ Average ¡precision: ¡19.4% ¡ ¡ Average ¡recall: ¡10% ¡

¡

Average ¡precision: ¡27.3% ¡ ¡ Average ¡recall: ¡22.8% ¡

¡

Precision ¡and ¡recall ¡curve ¡on ¡SJMN. ¡

slide-12
SLIDE 12

Experimental ¡Results ¡

Comparison ¡between ¡two ¡and ¡three ¡itera(ons ¡of ¡EM. ¡ ¡ Documents ¡with ¡shorter ¡query ¡length. ¡ Decrease ¡in ¡performance! ¡

slide-13
SLIDE 13

Experimental ¡Results ¡

Precision ¡and ¡recall ¡curve ¡on ¡SDR. ¡ Comparison ¡between ¡Model ¡0 ¡and ¡LM. ¡ Performance ¡is ¡similar! ¡ Average ¡precision: ¡22.2% ¡ ¡ Average ¡recall: ¡18.4% ¡

¡

slide-14
SLIDE 14

Conclusion ¡

Ø Propose ¡an ¡approach ¡to ¡informa(on ¡retrieval ¡with ¡ sta(s(cal ¡machine ¡transla(on. ¡ ¡ Ø Present ¡two ¡models ¡for ¡document ¡query ¡genera(on ¡

  • process. ¡

Ø Train ¡the ¡parameters ¡with ¡EM ¡algorithm ¡and ¡do ¡ experiments ¡on ¡TREC ¡dataset. ¡

slide-15
SLIDE 15

Thanks! ¡