ORI: Pontua¸ c˜ ao e o modelo de espa¸ co vetorial
Marcelo Keese Albertini
Faculdade de Computa¸ c˜ ao Universidade Federal de Uberlˆ andia
1/1
ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese - - PowerPoint PPT Presentation
ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese Albertini Faculdade de Computa c ao Universidade Federal de Uberl andia 1/1 Indice 2/1 Veremos hoje Ordenando resultados de busca: import ancia (ao
1/1
2/1
3/1
◮ Documentos s˜
4/1
◮ → centenas de resultados – demais
◮ → 2 resultados – quase nada
5/1
6/1
7/1
8/1
9/1
◮ Consulta: “´
◮ Documento “Pedro ´
◮ jaccard(q, d) = 2/10 10/1
◮ um documento grande provavelmente tem boa sobreposi¸
11/1
12/1
13/1
14/1
15/1
16/1
17/1
18/1
19/1
20/1
21/1
22/1
23/1
24/1
◮ . . . aumenta com o n´
◮ . . . aumenta com a raridade do termo na cole¸
25/1
26/1
27/1
28/1
29/1
30/1
31/1
32/1
33/1
34/1
◮ Ordenar documentos de acordo com o ˆ
◮ Ordenar documentos de acordo com coseno(consulta,
35/1
36/1
37/1
38/1
◮ (se
39/1
40/1
41/1
42/1
43/1
44/1
Frequˆ encia de termos Frequˆ encia em Documentos Normaliza¸ c˜ ao n (natural) tft,d n (n˜ ao) 1 n (nenhum) 1 l (logaritmo) 1 + log(tft,d) t (idf) log N dft c (cosseno)
1
√
w2
1 +w2 2 +...+w2 M
a (aumentado) 0.5 +
0.5×tft,d maxt(tft,d)
p (prob idf) max{0, log N−dft dft } u (pivotado ´ unico) 1/u b (booleano) 1 se tft,d > 0 sen˜ ao L (log m´ edia)
1+log(tft,d) 1+log(mediat∈d(tft,d))
Melhor combina¸ c˜ ao conhecida de op¸ c˜
Padr˜ ao: sem peso
45/1
46/1
47/1
48/1
49/1