ori pontua c ao e o modelo de espa co vetorial
play

ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese - PowerPoint PPT Presentation

ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese Albertini Faculdade de Computa c ao Universidade Federal de Uberl andia 1/1 Indice 2/1 Veremos hoje Ordenando resultados de busca: import ancia (ao


  1. ORI: Pontua¸ c˜ ao e o modelo de espa¸ co vetorial Marcelo Keese Albertini Faculdade de Computa¸ c˜ ao Universidade Federal de Uberlˆ andia 1/1

  2. ´ Indice 2/1

  3. Veremos hoje ◮ Ordenando resultados de busca: importˆ ancia (ao inv´ es de apresentar um conjunto desordenado de resultados) ◮ Frequˆ encia de termos : base da ordena¸ c˜ ao de resultados ( ranking ) ◮ Tf-idf ranking : esquema tradicional de ordena¸ c˜ ao 3/1

  4. Recupera¸ c˜ ao ordenada ◮ At´ e agora, consultas foram booleanas . ◮ Documentos s˜ ao adequados ou n˜ ao para uma consulta ◮ Bom para usu´ arios especialistas com conhecimento avan¸ cado sobre a cole¸ c˜ ao ◮ Bom para programas : programas podem processar milhares de resultados ◮ N˜ ao t˜ ao bom para usu´ arios comuns ◮ Consultas booleanas s˜ ao de dif´ ıcil escrita ◮ Usu´ arios n˜ ao olham centenas de resultados 4/1

  5. Problemas com busca booleana: tudo ou nada http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon ◮ Muito pouco ou resultados demais ◮ Exemplo consulta 1 (conjun¸ c˜ ao booleana): [recupera¸ c˜ ao AND informa¸ c˜ ao] ◮ → centenas de resultados – demais ◮ Exemplo 2 (conjun¸ c˜ ao booleana): [recupera¸ c˜ ao AND informa¸ c˜ ao AND aplica¸ c˜ ao] ◮ → 2 resultados – quase nada ◮ dif´ ıcil encontrar boa consulta para obter entre tudo ou nada 5/1

  6. Tudo ou nada: n˜ ao ´ e problema com recupera¸ c˜ ao ordenada ◮ Com ordena¸ c˜ ao, n´ umero de resultados n˜ ao ´ e problema ◮ Por exemplo, mostrar somente os 10 mais relevantes ◮ N˜ ao sobrecarrega usu´ ario ◮ O que ´ e necess´ ario? Desenvolver um algoritmo de ranking de relevˆ ancia de documentos 6/1

  7. Avalia¸ c˜ ao como base de recupera¸ c˜ ao ordenada ◮ Pontuar mais os documentos mais relevantes ` a consulta ◮ Atribuir pontua¸ c˜ ao em [0 , 1] para cada par consulta-documento ◮ Medida num´ erica e objetiva da relevˆ ancia do documento para a consulta 7/1

  8. Pontuando consultas-documentos ◮ Como pontuamos um par consulta-documento? ◮ Come¸ camos com um consulta de um s´ o termo ◮ Se o termo n˜ ao ocorre no documento, pontua¸ c˜ ao 0 ◮ Quanto maior a frequˆ encia do termo no documento, maior pontua¸ c˜ ao ◮ Veremos alternativas 8/1

  9. Alternativa 1: coeficiente de Jaccard ◮ Mede sobreposi¸ c˜ ao de 2 conjuntos: A e B ◮ Coeficiente de Jaccard: jaccard ( A , B ) = | A ∩ B | | A ∪ B | ( A � = ∅ ou B � = ∅ ) ◮ jaccard ( A , A ) = 1 ◮ jaccard ( A , B ) = 0 se A ∩ B = 0 ◮ A e B n˜ ao tem que ser do mesmo tamanho ◮ Sempre obt´ em n´ umero entre 0 e 1 9/1

  10. Exemplo: coeficiente de Jaccard ◮ Qual ´ e a pontua¸ c˜ ao pelo coeficiente de Jaccard para: ◮ Consulta: “´ aguas de mar¸ co” ◮ Documento “Pedro ´ Alvares Cabral chegou nas ´ aguas brasileiras em mar¸ co” ◮ jaccard ( q , d ) = 2 / 10 10/1

  11. Onde Jaccard falha? ◮ N˜ ao considera frequˆ encia dos termos ◮ Termos raros s˜ ao mais informativos que os frequentes ◮ Precisamos de modos para normalizar pelo tamanho do documento ◮ um documento grande provavelmente tem boa sobreposi¸ c˜ ao com a maior parte das consultas mas n˜ ao ´ e necessariamente relevante 11/1

  12. Matriz de incidˆ encia bin´ aria Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 1 1 0 0 0 1 1 1 0 1 0 0 Brutus C´ esar 1 1 0 1 1 1 0 1 0 0 0 0 Calp´ urnia Cle´ opatra 1 0 0 0 0 0 . . . ario ∈ { 0 , 1 } | V | . Cada documento ´ e representado como um vetor bin´ 12/1

  13. Matriz de contagem Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 157 73 0 0 0 1 4 157 0 2 0 0 Brutus C´ esar 232 227 0 2 1 0 0 10 0 0 0 0 Calpurnia Cle´ opatra 57 0 0 0 0 0 . . . e representado como vetor de contagem ∈ N | V | . Cada documento ´ 13/1

  14. Modelo Bag of words / cole¸ c˜ ao de palavras ◮ Desconsidera ordem dos termos em um documento. ◮ Jo˜ ao ´ e mais r´ apido que Jos´ e tem mesma representa¸ c˜ ao que Jos´ e ´ e mais r´ apido que Jo˜ ao ◮ Isso ´ e chamado de modelo bag of words . ◮ Seguiremos com mais detalhes do modelo bag of words. 14/1

  15. Frequˆ encia de termo tf ◮ A frequˆ encia de termo tf t , d do termo t no documento d ´ e definido como o n´ umero de vezes que t ocorre em d . ◮ Podemos usar tf para pontuar combina¸ c˜ ao consulta-documento. ◮ Por´ em, somente frequˆ encia n˜ ao ´ e bom porque: ◮ Um documento com tf = 10 ocorrˆ encias de um termo ´ e mais relevante que um documento com apenas uma ocorrˆ encia tf = 1. ◮ Mas n˜ ao 10 vezes mais relevante ◮ Relevˆ ancia n˜ ao aumenta proporcionalmente com a frequˆ encia do termo. ◮ Um documento com diversos termos da consulta ´ e mais relevante que outro documento com muitas repeti¸ c˜ oes de apenas um termo 15/1

  16. Em vez de frequˆ encia: log da frequˆ encia ◮ O log da frequˆ encia do termo t em d ´ e definido: � 1 + log 10 tf t , d se tf t , d > 0 w t , d = 0 caso contr´ ario ◮ tf t , d → w t , d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4 etc. ◮ Pontua¸ c˜ ao para um par consulta-documento: soma em rela¸ c˜ ao a termos t em q e d : ao-tf ( q , d ) = � t ∈ q ∩ d (1 + log tf t , d ) pontua¸ c˜ ◮ A pontua¸ c˜ ao ´ e 0 se nenhum dos termos est´ a presente no documento. 16/1

  17. Exerc´ ıcio ◮ Calcular a pontua¸ c˜ ao de Jaccard e pontua¸ c˜ ao de tf para os pares consulta-documento: q: [informa¸ c˜ ao sobre carros] d: “tudo o que vocˆ e sempre quis ◮ saber sobre carros” q: [informa¸ c˜ ao sobre carros] d: “informa¸ c˜ ao sobre caminh˜ oes, ◮ informa¸ c˜ ao sobre avi˜ oes, informa¸ c˜ ao sobre trens” q: [carros verdes e caminh˜ oes verdes] d: “a pol´ ıcia para ◮ carros verdes mais frequentemente” 17/1

  18. Frequˆ encia no documento vs. frequˆ encia na cole¸ c˜ ao ◮ Frequˆ encia de termo no documento ◮ Frequˆ encia de termo na cole¸ c˜ ao 18/1

  19. Peso desejado para termos raros ◮ Termos raros s˜ ao mais informativos ◮ Considere um termo em uma consulta que ´ e raro na cole¸ c˜ ao, e.g. estoicismo ◮ Um documento com esse termo ´ e muito provavelmente relevante ◮ → N´ os queremos pesos altos para termos raros ◮ → N´ os queremos pesos baixos para termos frequentes 19/1

  20. Peso idf ◮ df t ´ e a frequˆ encia na cole¸ c˜ ao de documentos, ou seja,´ e o n´ umero de documentos em que t aparece ◮ df t ´ e uma medida inversa da informa¸ c˜ ao do termo t ◮ Define-se peso idf do termo t como segue: N idf t = log 10 df t ( N ´ e o n´ umero de documentos na cole¸ c˜ ao.) ◮ idf t ´ e a medida de informa¸ c˜ ao do termo [log N / df t ] em vez de [ N / df t ] para amenizar o efeito de idf ◮ 20/1

  21. Exemplos de idf 1 , 000 , 000 Calcular idf t usando a f´ ormula: idf t = log 10 df t termo df t idf t calpurnia 1 6 animal 100 4 domingo 1000 3 voar 10,000 2 sobre 100,000 1 o 1,000,000 0 21/1

  22. Efeito de idf no ranking ◮ A medida idf influencia na ordena¸ c˜ ao quando h´ a pelo menos 2 termos ◮ Por exemplo, na consulta “estoicismo antigo”, peso idf aumenta o peso relativo de estoicismo e reduz peso relativo de antigo . ◮ O idf tem pouco efeito em consultas com um termo . 22/1

  23. Frequˆ encia na cole¸ c˜ ao vs. frequˆ encia no documento termo frequˆ encia na cole¸ c˜ ao frequˆ encia no documento 10440 3997 seguro tentar 10422 8760 ◮ Frequˆ encia de t na cole¸ c˜ ao: n´ umero de ocorrˆ encias de t na cole¸ c˜ ao ◮ Frequˆ encia de t em documentos: n´ umero de documentos em que t ocorre ◮ Qual termo ´ e melhor como termo de busca? ◮ Este exemplo sugere que df (e idf) ´ e melhor como peso que cf (e “icf”) 23/1

  24. Peso tf-idf ◮ O peso tf-idf de um termo ´ e o produto de peso tf e seu peso idf . ◮ w t , d = (1 + log tf t , d ) · log N df t ◮ peso tf ◮ peso idf ◮ Esquema bastante conhecido em RI. ◮ Outros nomes: tf.idf, tf x idf 24/1

  25. Resumo: tf-idf ◮ Atribuir peso tf-idf para cada termo t em cada documento d : w t , d = (1 + log tf t , d ) · log N df t ◮ O peso tf-idf . . . ◮ . . . aumenta com o n´ umero de ocorrˆ encia em um documento. (frequˆ encia do termo) ◮ . . . aumenta com a raridade do termo na cole¸ c˜ ao. (frequˆ encia em document inversa) 25/1

  26. Exerc´ ıcio: frequˆ encia de termo, cole¸ c˜ ao e documento Quantidade S´ ımbolo Defini¸ c˜ ao frequˆ encia de termo tf t , d n´ umero de ocorrˆ encias de t em d frequˆ encia de documentos df t n´ umero de documentos em que t ocorre frequˆ encia de cole¸ c˜ ao cf t n´ umero total de ocorrˆ encias de t na cole¸ c˜ ao (incluindo re- peti¸ c˜ oes em documentos) ◮ Rela¸ c˜ ao entre df e cf? ◮ Rela¸ c˜ ao entre tf e cf? ◮ Rela¸ c˜ ao entre tf e df? 26/1

  27. Matriz de incidˆ encia bin´ aria Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 1 1 0 0 0 1 1 1 0 1 0 0 Brutus C´ esar 1 1 0 1 1 1 0 1 0 0 0 0 Calp´ urnia Cle´ opatra 1 0 0 0 0 0 . . . ario ∈ { 0 , 1 } | V | . Cada documento ´ e representado como um vetor bin´ 27/1

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend