information retrieval
play

Information Retrieval ! "#$%&' - PDF document

Information Retrieval ! "#$%&' ()*+o--./0 12'34! 45678' 4 8# 9:&; 4 "#$%&;&


  1. Information Retrieval ��������������� !� "�#$%&�' � (�)��*��+�o��--./0� �1��2'��34�!� 45����678�' 4 8�# 9��:&; 4 "�#$%&;& �</=�)./05�>�o��0���/=�?.@��O�0�/.B��.o/� Yannis Tzitzikas University of Crete CS-463,Spring 05 �������������� ������������������������ �������������� ��ι����� : �ι������� �ι������ • �ι������ • Lexical Analysis ( ���ι���ι�� ������� ) • Stopwords ( ����ι� ������ι���� ) • Stemming ( ��������� �ι����� ) – Manual – Table Lookup – Successor Variety – n-Grams – Affix Removal (Porter’s algorithm) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 2 Retrieval 2005 1

  2. �������������� �ι����� • ������ – !�� ����ι "��� �ι ����ι� ��"� ��ι����� ���������� �ι� ��� ��������� ��� ���ι�������� ��� ( ���ι��� ����ι� #����� ���ι��"���� �"��� ��" ����� ) • �������������� – ��������ι� ������� ( ������ ������� ) ��� ���ι������ • ��"��ι ��� ��������������� – $������� ��� �����������ι�"����� (effectiveness) – $������� ��� ���!��ι�"����� (efficiency) ��� ��������� – ������ ��� �������� ��� ���������� CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 3 Retrieval 2005 %���ι� ��������������� [ � ] ���ι���ι�� ������� – �����&�ι�� ������� , ����ω� , ����ω�������� , �����ω� �����ω� , ��� [ $ ] ������ι��"� ������ (stopwords) – �����ι#� ������ �� ���� �ι��� !ι���ι�ι�� ι���"���� ( ����� , ���ω������ , �������� ���ω������ , ��� ) [ � ] ��������� (stemming) ��� �������ι������ ������ – �����ι#� ��������ω� / ��������ω� ( ���������� , ���������� , �����ι����� ) �ι� ��� �������� ��� ��ι����� ��� ���ι����� �������ι��� ���������� ��� ������ ��� ����&����� [ ! ] ��ι���� ��� ������ ��� �� ����ι����ι����� ���� ����������� – ����� ������ι $���ι ��� ������ ��� �"��� ( ���ι���ι�� , ������� , ��ι������� , ������ ) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 4 Retrieval 2005 2

  3. %���ι� ��������������� ( '' ) ��" �� ������ ������� ����� "���� ���������� Accents Noun Manual Docs stopwords stemming spacing groups indexing structure structure Full text Index terms CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 5 Retrieval 2005 [ � ] ���������� ������η (Lexical Analysis) ����"� : identify tokens – �����&�ι�� ������� , ����ω� , ����ω�������� , �����ω� �����ω� , ��� ���ι��&��ι� ��� ���ι���� ������� : – ����ι� ��� ���ι����� (�#�� • O2, $ι������ ) 6, ) 12 – ������ (hyphens) • “state of the art” vs “state-of-the-art” • “Jean-Luc Hainaut”, “Jean-Roch Meurisse”, F-16, MS-DOS – ������ ������� (punctuations) • OS/2, .NET, command.com – *ι��� - ��#����� • ������� "�� ������������ι �� �ι��� CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 6 Retrieval 2005 3

  4. [ � ] ���ι���ι�� ������� (II) • ���ι���ι�� ������� �ι� ���������ι� – +��� ��ι �ι� �� ������� , ��� �����&�ι�� ���������� ������� • AND, OR, NOT, proximity operators, regular expressions, etc • ,�"��ι ���������� ��"� ���ι���ι��� ������� – ( � ) use a lexical analyzer generator (like lex) • best choice if there are complex cases – (b) write a lexical analyzer by hand ad hoc, • worse choice (error prone) – (c) write a lexical analyzer by hand as a finite state machine CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 7 Retrieval 2005 [ $ ] Stopwords ( ����ι� ������ι���� ) �����ι#� ������ �� ���� �ι��� !ι���ι�ι�� ι���"���� ( ����� , ���ω������ , �������� ���ω������ , ��� ) – e.g. “a”, “the”, “in”, “to”; pronouns: “I”, “he”, “she”, “it”. • -#��� – ������ �������� ���������� ( ��� ��ι 40%) • ����������ι� – -ι ����ι� ������ι���� �����&���ι ��" �� ��&��� ��ι �� ������� – Not every frequent english word should be in the list • Top 200 English words include «time, war, home, life, water, world» • In a CS corpus we could add to the stoplist the words: «computer, program, source, machine, language» • ���$������ – q=“ to be or not to be ” – ( �ι� �� �"�� ���" ���ι��� *������ ���.������ ��� '���� !�� ������ �������������� ) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 8 Retrieval 2005 4

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend