NTCIR 2014 Slides - TUW-IMP at the NTCIR-11 Math-2 Presentation - - PDF document

ntcir 2014 slides tuw imp at the ntcir 11 math 2
SMART_READER_LITE
LIVE PREVIEW

NTCIR 2014 Slides - TUW-IMP at the NTCIR-11 Math-2 Presentation - - PDF document

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/272683082 NTCIR 2014 Slides - TUW-IMP at the NTCIR-11 Math-2 Presentation February 2015 CITATIONS READS 0 51 1 author: Aldo


slide-1
SLIDE 1

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/272683082

NTCIR 2014 Slides - TUW-IMP at the NTCIR-11 Math-2

Presentation · February 2015

CITATIONS READS

51

1 author: Some of the authors of this publication are also working on these related projects: Abstracting Domain-Specific Information Retrieval and Evaluation (ADmIRE) View project Space-time mapping and modelling of soil properties in Mediterranean and Temperate areas View project Aldo Lipani University College London

55 PUBLICATIONS 219 CITATIONS

SEE PROFILE

All content following this page was uploaded by Aldo Lipani on 24 February 2015.

The user has requested enhancement of the downloaded file.

slide-2
SLIDE 2

TUW-IMP at the NTCIR-11 Math-2

ALDO LIPANI, LINDA ANDERSSON, FLORINA PIROI, MIHAI LUPU AND ALLAN HANBURY

Institute of Software Technology and Interactive Systems (ISIS) Vienna University of Technology, Austria {surname}@ifs.tuwien.ac.at

11/12/2014 - Tokyo

slide-3
SLIDE 3

System data

2 |

Main ¡contribu,ons: ¡ 1. Novel ¡way ¡to ¡tokenize ¡formula ¡structures; ¡ 2. Applica,on ¡of ¡a ¡domain ¡specific ¡query ¡expansion; ¡ Developed ¡using ¡the ¡following ¡programming ¡languages: ¡ ¡ 1. Scala ¡2.10 ¡ 2. Java ¡1.7 ¡ ¡ Dependencies: ¡ 1. Apache ¡Lucene ¡4.6 ¡ 2. Apache ¡Commons ¡Compress ¡1.9 ¡ Distributed ¡with ¡Apache License 2.0 on GitHub ¡

slide-4
SLIDE 4

Information Retrieval System

Topics

3 |

Collection Preprocessing Collection Query Preprocessing Indexer Document Preprocessing Scorer Reranker Merger Reranker Run

slide-5
SLIDE 5

The Developed Math Retrieval System

4 |

For IRSCtext English minimal stemmer For IRSCsformula 3 ver. one for each formula tokenizer 3 for formulae and 1 for text Lucene 4.6 - BM25 FOR IRSCtext Query Extension Normalization step, if enabled Merging step TUW-IMP Runs NTCIR-Math2 Topics NTCIR-Math2 Collection

slide-6
SLIDE 6

Information Retrieval System Core for Formulae

Formula Tokenizer Example ¡using ¡the ¡formula ¡of ¡the ¡topic ¡with ¡id ¡NTCIR-­‑Math2-­‑5 ¡ ¡ Latex ¡representa,on: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Tokens ¡extracted ¡with ¡the ¡three ¡formula ¡tokenizers: ¡Literal, ¡L1 ¡and ¡L2 ¡

5 |

slide-7
SLIDE 7

Information Retrieval System Core for Formulae Life Sciences

Formula Tokenizer

apply eq csymbol subscript ci S apply times ci E ci H times apply qvar apply ci x apply divide cn 1 apply csymbol subscript ci G cn E csymbol subscript ci G cn E root apply minus apply csymbol superscript ci g cn 3 apply apply

slide-8
SLIDE 8

Information Retrieval System Core for Text Life Sciences

7 | DomainRules NoRules hyper ok hypo ok hyper ok hypo ok MathIR A kind of 85% 78% 64% 64% Relations 86% 77% 68% 82%

Improvement using NLP_mod

Hyponymy and Hypernymy Extraction Analysis

Example sentences LSP 1 …work such author as Herrick, Goldsmith, and Shakespeare such NP as {NP, }* {(or|and)} NP 2 Even then, we would trail behind other European Community member, such as Germany, France and Italy 3 Bruises, wounds, broken bones or other injuries NP{, NP}*{,} or other NP 4 Temples, treasuries, and other important civic buildings NP{, NP}*{,} and other NP 5 All common-law countries, including Canada and England NP{,} including {NP,}* {or|and} NP 6 … most European countries, especially France, England, and Spain NP{,} especially {NP,}* {or|and} NP

Linguistic patterns:

slide-9
SLIDE 9

Reranking and Merging steps

8 |

To each system core is applied the following normalization step: The merging step is performed summing linearly the output of each system core. All the result sets (formulas and text) are summed linearly, with a second reranking step that groups all formulas

  • ccurring in the same document, which in the final, submitted run, is

assigned a score equal to the sum of the formula scores.

  • 0,4

0,4 0,8 1,2 1,6 2

  • 0,4

0,4 0,8 1,2 1,6 2

k=0.1 k=0.5 k=1 k=3 k=10

slide-10
SLIDE 10

Wiki

Official

Runs’ Settings

 Runs FLA FLASM FLASL FLAN SMWE NO NO YES NO SL YES YES YES YES SNL NO YES NO NO N NO NO NO YES

The retrieved paragraphs must contain at least

  • ne query term extension

The retrieved formulae must contain all the literals tokens that are in the query It normalizes the score as explained in the previous slide The retrieved formulae must contain all the non literals tokens that are in the query

Constraint sets for the submitted runs: SMWE Strict Multi Words Entities SL Strict Literals SNL Strict Non Literals N Normalized

9 |

slide-11
SLIDE 11

Results

10 |

Results ¡taking ¡in ¡count ¡the ¡documents ¡most ¡relevant ¡(relevancy≥3) ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡

MAP ¡ P@10 ¡ P@5 ¡ FLASL ¡ 0,0439 ¡ 0,0840 ¡ 0,1280 ¡ FLAN ¡ 0,0388 ¡ 0,0740 ¡ 0,1200 ¡ FLA ¡ 0,0366 ¡ 0,0800 ¡ 0,1160 ¡ FLASM ¡ 0,0351 ¡ 0,0780 ¡ 0,1200 ¡

0.000 0.100 0.200 0.300 0.400 0.500 0.600 1 6 11 16 21 26 31 36 41 46 MAP Topic FLA FLAN FLASL FLASM

slide-12
SLIDE 12

Results Life Sciences

11 |

Results taking in count all the documents with all the degrees of relevancy (relevancy≥1) MAP ¡ P@10 ¡ P@5 ¡ FLASL ¡ 0,0670 ¡ 0,2380 ¡ 0,3760 ¡ FLAN ¡ 0,0611 ¡ 0,2160 ¡ 0,3320 ¡ FLA ¡ 0,0577 ¡ 0,2200 ¡ 0,3360 ¡ FLASM ¡ 0,0580 ¡ 0,2160 ¡ 0,3480 ¡

0.000 0.050 0.100 0.150 0.200 0.250 1 6 11 16 21 26 31 36 41 46 MAP Topic FLA FLAN FLASL FLASM

slide-13
SLIDE 13

Results Life Sciences

12 |

P@1 ¡ P@2 ¡ P@3 ¡ P@4 ¡ P@5 ¡ P@10 ¡ P@20 ¡ P@30 ¡ P@100 ¡ P@1000 ¡ 0,740 ¡ 0,400 ¡ 0,266 ¡ 0,207 ¡ 0,172 ¡ 0,090 ¡ 0,047 ¡ 0,031 ¡ 0,010 ¡ 0,001 ¡ P@1 ¡ P@2 ¡ P@3 ¡ P@4 ¡ P@5 ¡ P@10 ¡ P@20 ¡ P@30 ¡ P@100 ¡ P@1000 ¡ 0,770 ¡ 0,420 ¡ 0,290 ¡ 0,223 ¡ 0,180 ¡ 0,091 ¡ 0,046 ¡ 0,030 ¡ 0,009 ¡ 0,001 ¡ At the Wikipedia subtask: 1. At page granularity 2. At formula granularity

slide-14
SLIDE 14

Future Work / Conclusion

The IR system is in its infancy:

  • 1. The method of formula token extraction should be extended
  • 2. Closer examination of the impact of extending the query terms with hyponymy and

hypernymy on the retrieval results After examining the relevance judgments, it is clear that in the assessors’ information need, the topic query words clearly carry a weight at least as important as the topic formulae. In our IR model, keywords were given, implicitly, a lower weight than the tokens extracted from formulae. Further more, we believe that some form of unification between the formulae retrieved from the collection and the topic formulae is necessary.

slide-15
SLIDE 15

Thank you

for your attention!

View publication stats View publication stats