Information Retrieval ��������������� !� "�#$%&�' � (�)��*��+�o��--./0� �1��2'��34�!� 45����678�' 4 8�# 9��:&; 4 "�#$%&;& �</=�)./05�>�o��0���/=�?.@��O�0�/.B��.o/� Yannis Tzitzikas University of Crete CS-463,Spring 05 �������������� ������������������������ �������������� ��ι����� : �ι������� �ι������ • �ι������ • Lexical Analysis ( ���ι���ι�� ������� ) • Stopwords ( ����ι� ������ι���� ) • Stemming ( ��������� �ι����� ) – Manual – Table Lookup – Successor Variety – n-Grams – Affix Removal (Porter’s algorithm) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 2 Retrieval 2005 1
�������������� �ι����� • ������ – !�� ����ι "��� �ι ����ι� ��"� ��ι����� ���������� �ι� ��� ��������� ��� ���ι�������� ��� ( ���ι��� ����ι� #����� ���ι��"���� �"��� ��" ����� ) • �������������� – ��������ι� ������� ( ������ ������� ) ��� ���ι������ • ��"��ι ��� ��������������� – $������� ��� �����������ι�"����� (effectiveness) – $������� ��� ���!��ι�"����� (efficiency) ��� ��������� – ������ ��� �������� ��� ���������� CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 3 Retrieval 2005 %���ι� ��������������� [ � ] ���ι���ι�� ������� – �����&�ι�� ������� , ����ω� , ����ω�������� , �����ω� �����ω� , ��� [ $ ] ������ι��"� ������ (stopwords) – �����ι#� ������ �� ���� �ι��� !ι���ι�ι�� ι���"���� ( ����� , ���ω������ , �������� ���ω������ , ��� ) [ � ] ��������� (stemming) ��� �������ι������ ������ – �����ι#� ��������ω� / ��������ω� ( ���������� , ���������� , �����ι����� ) �ι� ��� �������� ��� ��ι����� ��� ���ι����� �������ι��� ���������� ��� ������ ��� ����&����� [ ! ] ��ι���� ��� ������ ��� �� ����ι����ι����� ���� ����������� – ����� ������ι $���ι ��� ������ ��� �"��� ( ���ι���ι�� , ������� , ��ι������� , ������ ) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 4 Retrieval 2005 2
%���ι� ��������������� ( '' ) ��" �� ������ ������� ����� "���� ���������� Accents Noun Manual Docs stopwords stemming spacing groups indexing structure structure Full text Index terms CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 5 Retrieval 2005 [ � ] ���������� ������η (Lexical Analysis) ����"� : identify tokens – �����&�ι�� ������� , ����ω� , ����ω�������� , �����ω� �����ω� , ��� ���ι��&��ι� ��� ���ι���� ������� : – ����ι� ��� ���ι����� (�#�� • O2, $ι������ ) 6, ) 12 – ������ (hyphens) • “state of the art” vs “state-of-the-art” • “Jean-Luc Hainaut”, “Jean-Roch Meurisse”, F-16, MS-DOS – ������ ������� (punctuations) • OS/2, .NET, command.com – *ι��� - ��#����� • ������� "�� ������������ι �� �ι��� CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 6 Retrieval 2005 3
[ � ] ���ι���ι�� ������� (II) • ���ι���ι�� ������� �ι� ���������ι� – +��� ��ι �ι� �� ������� , ��� �����&�ι�� ���������� ������� • AND, OR, NOT, proximity operators, regular expressions, etc • ,�"��ι ���������� ��"� ���ι���ι��� ������� – ( � ) use a lexical analyzer generator (like lex) • best choice if there are complex cases – (b) write a lexical analyzer by hand ad hoc, • worse choice (error prone) – (c) write a lexical analyzer by hand as a finite state machine CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 7 Retrieval 2005 [ $ ] Stopwords ( ����ι� ������ι���� ) �����ι#� ������ �� ���� �ι��� !ι���ι�ι�� ι���"���� ( ����� , ���ω������ , �������� ���ω������ , ��� ) – e.g. “a”, “the”, “in”, “to”; pronouns: “I”, “he”, “she”, “it”. • -#��� – ������ �������� ���������� ( ��� ��ι 40%) • ����������ι� – -ι ����ι� ������ι���� �����&���ι ��" �� ��&��� ��ι �� ������� – Not every frequent english word should be in the list • Top 200 English words include «time, war, home, life, water, world» • In a CS corpus we could add to the stoplist the words: «computer, program, source, machine, language» • ���$������ – q=“ to be or not to be ” – ( �ι� �� �"�� ���" ���ι��� *������ ���.������ ��� '���� !�� ������ �������������� ) CS-463, Information Yannis Tzitzikas, U. of Crete, Spring 8 Retrieval 2005 4
Recommend
More recommend