Uma Introdu c ao ` a Minera c ao de Informa c oes na era do - - PowerPoint PPT Presentation

uma introdu c ao a minera c ao de informa c oes na era do
SMART_READER_LITE
LIVE PREVIEW

Uma Introdu c ao ` a Minera c ao de Informa c oes na era do - - PowerPoint PPT Presentation

Uma Introdu c ao ` a Minera c ao de Informa c oes na era do Big Data Fabr cio J. Barth VAGAS Tecnologia e Faculdades BandTec Setembro de 2012 Palestrante Fabr cio J. Barth . Formado em Ci encia da Computa


slide-1
SLIDE 1

Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜

  • es na era do Big Data

Fabr´ ıcio J. Barth

VAGAS Tecnologia e Faculdades BandTec

Setembro de 2012

slide-2
SLIDE 2

Palestrante

  • Fabr´

ıcio J. Barth. Formado em Ciˆ encia da Computa¸ c˜ ao pela FURB. Mestrado e Doutorado em Engenharia da Computa¸ c˜ ao pela USP.

  • Recupera¸

c˜ ao e minera¸ c˜ ao de informa¸ c˜

  • es para

dom´ ınios de investiga¸ c˜ ao; Identifica¸ c˜ ao de temas emergentes e especialistas em bases de patentes e artigos; Desenvolvimento e gest˜ ao de uma plataforma de busca georeferenciada (www.apontador.com.br).

  • Data Scientist na VAGAS Tecnologia

(www.vagas.com.br). Professor da Faculdade BandTec (www.bandtec.com.br).

Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜

  • es na era do Big Data —

Palestrante 2

slide-3
SLIDE 3

Objetivo

Apresentar a importˆ ancia do tema, os conceitos relacionados e alguns exemplos de aplica¸ c˜

  • es.

Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜

  • es na era do Big Data —

Objetivo 3

slide-4
SLIDE 4

Sum´ ario

  • Importˆ

ancia do Tema

  • Manipulando dados estruturados
  • Manipulando dados n˜

ao-estruturados (textos) ⋆ Agrupamento ⋆ Classifica¸ c˜ ao

  • Web Data Mining
  • Considera¸

  • es Finais
  • Referˆ

encias

Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜

  • es na era do Big Data —

Sum´ ario 4

slide-5
SLIDE 5

Importˆ ancia do Tema

5

slide-6
SLIDE 6

Problema

http://investingcaffeine.com/2010/01/07/tmi-the-age-of-information-overload/ Importˆ ancia do Tema — Problema 6

slide-7
SLIDE 7

Alguns dados...

50 100 150 200 250 300 350 400 450 500 Relação Horário x Dia x Quantidade de Notícias Produzidas 2 4 6 8 10 12 14 16 18 20 22 Horário 0 10 20 30 40 50 60 70 80 90 Dia 100 200 300 400 500 Notícias

Quantidade de not´ ıcias publicadas na Web por apenas seis ve´ ıculos de not´ ıcias (D0 = 17/07/2007) Importˆ ancia do Tema — Alguns dados... 7

slide-8
SLIDE 8

Mais dados...

20000 40000 60000 80000 100000 120000 140000 160000 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Quantidade (Notícias) Tempo (Dias) Notícias publicadas na Internet Estadão Folha G1 Globo Online Terra Último Segundo Total

D0 = 17/07/2007 Importˆ ancia do Tema — Mais dados... 8

slide-9
SLIDE 9

Big Data

“We collect an astonishing amount of digital information... ...we’ve long since surpassed our ability to store and process it all. Big data is here, and it’s causing big problems...”[1] Importˆ ancia do Tema — Big Data 9

slide-10
SLIDE 10

Mais n´ umeros

  • A380: Heathrow → JFK: 640 TBs de log
  • Twitter: 12+ TBs of tweet every day
  • Facebook: 25+ TBs of log data every day
  • Sistemas baseados em RFID
  • Smartphones com GPS, aceler´
  • metro, ...

http://www.ibmbigdatahub.com/

  • Mitchell. Mining our reality. Science. 2009

Importˆ ancia do Tema — Mais n´ umeros 10

slide-11
SLIDE 11

Por que minerar informa¸ c˜

  • es?
  • Explicitar conhecimento m´

edico a partir de registros m´ edicos.

  • Identificar comportamento anˆ
  • malo (i.e., fraudes,

falhas)

  • Sumarizar tendˆ

encias de publica¸ c˜

  • es de artigos e

patentes sobre um determinado tema.

  • Sumarizar e filtrar not´

ıcias relevantes.

Importˆ ancia do Tema — Por que minerar informa¸ c˜

  • es?

11

slide-12
SLIDE 12
  • Sumarizar a opini˜

ao expressa na Web sobre a sua empresa.

  • Identificar padr˜
  • es de navega¸

c˜ ao em sites.

  • Identificar conte´

udo impr´

  • prio em sites.
  • Recomenda¸

c˜ ao de livros, filmes, restaurantes e empregos.

Importˆ ancia do Tema — Por que minerar informa¸ c˜

  • es?

12

slide-13
SLIDE 13

Explicitar conhecimento m´ edico a partir de registros m´ edicos

13

slide-14
SLIDE 14

Diagn´

  • stico para o uso de lentes de

contato

O setor de oftalmologia de um hospital da cidade de S˜ ao Paulo possui, no seu banco de dados, um hist´

  • rico de

pacientes que procuraram o hospital queixando-se de problemas na vis˜ ao. A conduta, em alguns casos, realizada pelo corpo cl´ ınico de oftalmologistas do hospital ´ e indicar o uso de lentes ao paciente. Problema: Extrair do banco de dados do hospital uma hip´

  • tese que explica que paciente deve usar ou

n˜ ao lente de contatos.

Explicitar conhecimento m´ edico a partir de registros m´ edicos — Diagn´

  • stico para o uso de lentes de contato

14

slide-15
SLIDE 15

Banco de dados do ambiente de produ¸ c˜ ao

Explicitar conhecimento m´ edico a partir de registros m´ edicos — Banco de dados do ambiente de produ¸ c˜ ao 15

slide-16
SLIDE 16

Por onde come¸ car?

16

slide-17
SLIDE 17

Responder as seguintes perguntas:

  • Que objetos/atributos s˜

ao relevantes para a cria¸ c˜ ao da hip´

  • tese?
  • Como represent´

a-los?

  • Que linguagem de representa¸

c˜ ao de conhecimento deve-se utilizar para representar a hip´

  • tese?
  • Que algoritmo utilizar para gerar a hip´
  • tese?

Por onde come¸ car? — Responder as seguintes perguntas: 17

slide-18
SLIDE 18
  • Que objetos s˜

ao relevantes? ⋆ Depois de um estudo detalhado do problema com especialistas da ´ area... ⋆ Idade do paciente. ⋆ Se o paciente tem ou n˜ ao miopia. ⋆ Se o paciente tem ou n˜ ao astigmatismo. ⋆ Qual ´ e a taxa de lacrimejamento dos olhos do paciente.

  • Como represent´

a-los? Atributo/Valor

Por onde come¸ car? — Responder as seguintes perguntas: 18

slide-19
SLIDE 19

Atributos

  • idade (jovem, adulto, idoso)
  • miopia (m´

ıope, hiperm´ etrope)

  • astigmatismo (n˜

ao, sim)

  • taxa de lacrimejamento (reduzido, normal)
  • lentes de contato (forte, fraca, nenhuma)

Por onde come¸ car? — Atributos 19

slide-20
SLIDE 20

Dados

Idade Miopia Astigmat. Lacrimej. Lentes jovem m´ ıope n˜ ao reduzido nenhuma jovem m´ ıope n˜ ao normal fraca jovem m´ ıope sim reduzido nenhuma jovem m´ ıope sim normal forte jovem hiper n˜ ao reduzido nenhuma jovem hiper n˜ ao normal fraca jovem hiper sim reduzido nenhuma jovem hiper sim normal forte adulto m´ ıope n˜ ao reduzido nenhuma

Por onde come¸ car? — Dados 20

slide-21
SLIDE 21

Idade Miopia Astigmat. Lacrimej. Lentes adulto m´ ıope n˜ ao normal fraca adulto m´ ıope sim reduzido nenhuma adulto m´ ıope sim normal forte adulto hiper sim reduzido nenhuma adulto hiper n˜ ao normal fraca adulto hiper sim reduzido nenhuma adulto hiper sim normal nenhuma

Por onde come¸ car? — Dados 21

slide-22
SLIDE 22

Idade Miopia Astigmat. Lacrimej. Lentes idoso m´ ıope n˜ ao reduzido nenhuma idoso m´ ıope n˜ ao normal nenhuma idoso m´ ıope sim reduzido nenhuma idoso m´ ıope sim normal forte idoso hiper n˜ ao reduzido nenhuma idoso hiper n˜ ao normal fraca idoso hiper sim reduzido nenhuma idoso hiper sim normal nenhuma

Por onde come¸ car? — Dados 22

slide-23
SLIDE 23

Extra¸ c˜ ao de “conhecimento”

  • O que foi apresentado nos slides anteriores pode ser

considerado como conhecimento? N˜ ao

  • Pode ser apresentado como uma informa¸

c˜ ao que consegue explicar a tomada de decis˜ ao dos especialistas? N˜ ao

  • O que fazer?

Por onde come¸ car? — Extra¸ c˜ ao de “conhecimento” 23

slide-24
SLIDE 24

Extra¸ c˜ ao de “conhecimento”

  • Extrair a informa¸

c˜ ao realmente relevante.

  • Utilizar uma linguagem de representa¸

c˜ ao compreens´ ıvel ao ser humano.

(mostrar exemplo no RapidMiner - www.rapid-i.com)

Por onde come¸ car? — Extra¸ c˜ ao de “conhecimento” 24

slide-25
SLIDE 25

´ Arvore de decis˜ ao

Por onde come¸ car? — ´ Arvore de decis˜ ao 25

slide-26
SLIDE 26

Algoritmos Indutores de ´ Arvores de Decis˜ ao

  • Que algoritmo utilizar para gerar hip´
  • teses na

forma de ´ arvores de decis˜ ao?

  • ID3, C4.5[7]: s˜

ao algoritmos indutores de ´ arvore de decis˜ ao, top-down, recursivos e que fazem uso do conceito de entropia para identificar os melhores atributos que representam o conjunto de dados.

Por onde come¸ car? — Algoritmos Indutores de ´ Arvores de Decis˜ ao 26

slide-27
SLIDE 27

Resultado: Sistema Especialista

(none, soft, hard)

Por onde come¸ car? — Resultado: Sistema Especialista 27

slide-28
SLIDE 28

Organizar documentos

28

slide-29
SLIDE 29

O que fazer com grandes quantidades de documentos?

  • Not´

ıcias, patentes, artigos, mensagens de twitter, quest˜

  • es abertas de um question´

ario de pesquisa, ...

  • Para tirar proveito desta informa¸

c˜ ao ´ e necess´ ario

  • rganiz´

a-la de alguma forma: ⋆ Agrupamento de not´ ıcias, patentes, artigos e mensagens. ⋆ Classifica¸ c˜ ao, Recomenda¸ c˜ ao e Filtragem de documentos (not´ ıcias, relat´

  • rios, mensagens do

twitter, avalia¸ c˜ ao de itens).

Organizar documentos — O que fazer com grandes quantidades de documentos? 29

slide-30
SLIDE 30

Exemplo de classifica¸ c˜ ao/agrupamento

Organizar documentos — Exemplo de classifica¸ c˜ ao/agrupamento 30

slide-31
SLIDE 31

Etapas

  • Pr´

e-processamento dos dados.

  • Modelagem (supervisionada ou n˜

ao supervisionada).

  • Avalia¸

c˜ ao do modelo.

  • Utiliza¸

c˜ ao

Organizar documentos — Etapas 31

slide-32
SLIDE 32

Pr´ e-processamento dos dados

32

slide-33
SLIDE 33

Formato de um documento

... Esta disciplina tem como objetivo apresentar os principais conceitos da ´ area de Inteligˆ encia Artificial, caracterizar as principais t´ ecnicas e m´ etodos, e implementar alguns problemas cl´ assicos desta ´ area sob um ponto de vista introdut´

  • rio.

A estrat´ egia de trabalho, o conte´ udo ministrado e a forma depender˜ ao dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜ ao trazer os seus Projetos de Conclus˜ ao de Curso, identificar intersec¸ c˜

  • es entre o projeto e a

disciplina, e propor atividades para a disciplina. ...

Pr´ e-processamento dos dados — Formato de um documento 33

slide-34
SLIDE 34

Conjunto de Exemplos - Atributo/Valor

Doc. apresent form tecnic caracteriz · · · d1 0.33 0.33 0.33 0.33 · · · d2 0.5 0.2 0.33 · · · d3 1 0.6 · · · d4 0.4 0.3 0.33 0.4 · · · d5 1 0.4 0.1 0.1 · · · dn · · · · · · · · · · · · · · ·

Pr´ e-processamento dos dados — Conjunto de Exemplos - Atributo/Valor 34

slide-35
SLIDE 35

Atributo/Valor usando vetores

Como representar os documentos? − → di = (pi1, pi2, · · · , pin) (1)

  • Os atributos s˜

ao as palavras que aparecem nos documentos.

  • Se todas as palavras que aparecem nos documentos

forem utilizadas, o vetor n˜ ao ficar´ a muito grande?

Pr´ e-processamento dos dados — Atributo/Valor usando vetores 35

slide-36
SLIDE 36

Diminuindo a dimensionalidade do vetor

  • Como filtrar as palavras que devem ser usadas como

atributos?

  • Em todos os idiomas existem ´

atomos (palavras) que n˜ ao significam muito. Stop-words

Esta disciplina tem como objetivo apresentar os principais conceitos da ´ area de Inteligˆ encia Artificial, caracterizar as principais t´ ecnicas e m´ etodos, e implementar alguns problemas cl´ assicos desta ´ area sob um ponto de vista introdut´

  • rio.

· · ·

Pr´ e-processamento dos dados — Diminuindo a dimensionalidade do vetor 36

slide-37
SLIDE 37

Diminuindo ainda mais a dimensionalidade do vetor

  • Algumas palavras podem aparecer no texto de diversas

maneiras: t´ ecnica, t´ ecnicas, implementar, implementa¸ c˜ ao...

  • Stemming - encontrar o radical da palavra e usar

apenas o radical.

Pr´ e-processamento dos dados — Diminuindo ainda mais a dimensionalidade do vetor 37

slide-38
SLIDE 38

Atributo/Valor usando vetores

a conhecemos os atributos.

  • E os valores?

⋆ Booleana - se a palavra aparece ou n˜ ao no documento (1 ou 0) ⋆ Por freq¨ uˆ encia do termo - a freq¨ uˆ encia com que a palavra aparece no documento (normalizada ou n˜ ao) ⋆ Pondera¸ c˜ ao tf-idf - o peso ´ e proporcional ao n´ umero de ocorrˆ encias do termo no documento e inversamente proporcional ao n´ umero de documentos onde o termo aparece.

Pr´ e-processamento dos dados — Atributo/Valor usando vetores 38

slide-39
SLIDE 39

Por freq¨ uˆ encia do termo

(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33)

Pr´ e-processamento dos dados — Por freq¨ uˆ encia do termo 39

slide-40
SLIDE 40

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento

40

slide-41
SLIDE 41

Componentes para uma solu¸ c˜ ao...

Coletor Fonte Pré-processamento dos documentos Agrupa documentos Agrupamentos de documentos An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Componentes para uma solu¸ c˜ ao... 41

slide-42
SLIDE 42

Coletando dados do twitter

✞ ☎

$ c u r l −o a b o u t B r a s i l . t x t h t t p s :// stream . t w i t t e r . com/1/ s t a t u s e s / f i l t e r . j s o n ? t r a c k=b r a s i l −u u s e r : passwd % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent L e f t Speed 100 4549k 0 4549k 5986 0 − −: − −: − − 0 : 1 2 : 5 8 − −: − −: − − 6226 $ wc −l a b o u t B r a s i l . t x t 1501 a b o u t B r a s i l . t x t $ date Ter 28 Ago 2012 23:51:10 BRT

✡ ✝ ✆

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Coletando dados do twitter 42

slide-43
SLIDE 43

✞ ☎

# # forma de uso : ruby t w i t t e r . rb > mensagens . csv # r e q u i r e ’ rubygems ’ r e q u i r e ’ j s o n ’ content = F i l e . open ( ’ a b o u t B r a s i l . t x t ’ ) content . each do | l i n e | puts JSON . parse ( l i n e ) [ ’ t e x t ’ ] end

✡ ✝ ✆

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Coletando dados do twitter 43

slide-44
SLIDE 44

Componentes para uma solu¸ c˜ ao...

Coletor Fonte Pré-processamento dos documentos Agrupa documentos Agrupamentos de documentos

Wiki2Group - http://trac.fbarth.net.br/wikiAnalysis An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Componentes para uma solu¸ c˜ ao... 44

slide-45
SLIDE 45

Defini¸ c˜

  • es de Algoritmos de Agrupamento
  • O objetivo dos algoritmos de agrupamento ´

e colocar

  • s objetos similares em um mesmo grupo e objetos

n˜ ao similares em grupos diferentes.

  • Normalmente, objetos s˜

ao descritos e agrupados usando um conjunto de atributos e valores.

ao existe nenhuma informa¸ c˜ ao sobre a classe ou categoria dos objetos.

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Defini¸ c˜

  • es de Algoritmos de

Agrupamento 45

slide-46
SLIDE 46

Algoritmos para Agrupamento - K-means

  • K significa o n´

umero de agrupamentos (que deve ser informado ` a priori).

  • Sequˆ

encia de a¸ c˜

  • es iterativas.
  • A parada ´

e baseada em algum crit´ erio de qualidade dos agrupamentos (por exemplo, similaridade m´ edia).

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Algoritmos para Agrupamento - K-means 46

slide-47
SLIDE 47

Algoritmo para Agrupamento - K-means

1 2 3 4 5 1 2 3 4 5 6 7 8 1 2 3 4 5 1 2 3 4 5 6 7 8 1 2 3 4 5 1 2 3 4 5 6 7 8 (1) Objetos que devem ser agrupados 1 2 3 4 5 1 2 3 4 5 6 7 8 (2) Sorteio dos pontos centrais dos agrupamentos (3) Atribuição dos objetos aos agrupamentos (4) Definição do centro do agrupamento

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Algoritmo para Agrupamento - K-means 47

slide-48
SLIDE 48

Algoritmo para agrupamento dos twittes - Resultados

Execu¸ c˜ ao do processo no RapidMiner

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — Algoritmo para agrupamento dos twittes - Resultados 48

slide-49
SLIDE 49

An´ alise dos agrupamentos (clusters)

RT @TWlTTEI : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ RT @TWlTTEI : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ RT @PiadaDePobre : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ thara RT @soucrack : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ RT @PiadaDePobre : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ thara ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ parapapa ’ ach RT @PiadaDePobre : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ thara ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ parapapa ’ ach RT @PiadaDePobre : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ thara RT @PiadaDePobre : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ thara RT @TWlTTEI : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ RT @TWlTTEI : ’ t c h e r e r e tche tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ tharara ’ ’ An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — An´ alise dos agrupamentos (clusters) 49

slide-50
SLIDE 50

An´ alise do conte´ udo publicado no Twitter atrav´ es de algoritmos de agrupamento — An´ alise dos agrupamentos (clusters) 50

slide-51
SLIDE 51

Classifica¸ c˜ ao de documentos

51

slide-52
SLIDE 52

An´ alise de Sentimento em mensagens no Twitter

Teor das mensagens sobre a empresa Vale nos ´ ultimos sete dias. http://www.opsys.com.br/ - [4] Classifica¸ c˜ ao de documentos — An´ alise de Sentimento em mensagens no Twitter 52

slide-53
SLIDE 53

Conjunto de Exemplos Rotulados

Doc. Mensagem Classe d1 A empresa X ´ e uma empresa muito s´ eria Positivo d2 O produto Y ´ e uma porcaria Negativo d3 Gostei muito da palestra de fulano Positivo d4 Aquela praia ´ e muito bonita Positivo d5 Gostei daquele restaurante Positivo dn · · ·

  • Rotular manualmente
  • Utilizar emoticons :) :(

Classifica¸ c˜ ao de documentos — Conjunto de Exemplos Rotulados 53

slide-54
SLIDE 54

Conjunto de Exemplos - Atributo/Valor e Classe

Doc. restaur empres bom caracteriz · · · Classe d1 0.33 0.33 0.33 0.33 · · · Positivo d2 0.5 0.2 0.33 · · · Negativo d3 1 0.6 · · · Positivo d4 0.4 0.3 0.33 0.4 · · · Positivo d5 1 0.4 0.1 0.1 · · · Positivo dn · · · · · · · · · · · · · · · · · ·

Classifica¸ c˜ ao de documentos — Conjunto de Exemplos - Atributo/Valor e Classe 54

slide-55
SLIDE 55

Classificando objetos

  • Na¨

ıve Bayes [6]

  • Support Vector Machines (SVM) [2]

Classifica¸ c˜ ao de documentos — Classificando objetos 55

slide-56
SLIDE 56

Utiliza¸ c˜ ao

Utilizando o modelo criado ´ e poss´ ıvel inferir se novos twittes possuem sentimento positivo ou negativo. ✞ ☎

Transformando

  • conjunto

de treinamento em um v e t o r de p a l a v r a s Criando

  • modelo

Aplicando

  • modelo a

novos casos Mensagem ”Meu voto e para X, com c e r t e z a ! ” e c l a s s i f i c a d a como POSITIVA Mensagem ” Este produto e muito ruim ” e c l a s s i f i c a d a como NEGATIVA Mensagem ”Nunca mais compro naquela l o j a ! ” e c l a s s i f i c a d a como NEGATIVA Mensagem ” Fulano e um mentiroso ! ” e c l a s s i f i c a d a como NEGATIVA Mensagem ”X l i d e r a inten ˜ A§ ˜ A£o de voto ” e c l a s s i f i c a d a como POSITIVA

✡ ✝ ✆

Classifica¸ c˜ ao de documentos — Utiliza¸ c˜ ao 56

slide-57
SLIDE 57

Outro Exemplo: Classifica¸ c˜ ao e Filtragem de Not´ ıcias

Classifica¸ c˜ ao de documentos — Outro Exemplo: Classifica¸ c˜ ao e Filtragem de Not´ ıcias 57

slide-58
SLIDE 58

Qual ´ e o problema?

http://fbarth.net.br/projetos/riInteligente.html - Sistema FaroFino [5] Classifica¸ c˜ ao de documentos — Qual ´ e o problema? 58

slide-59
SLIDE 59

Processo de trabalho

Coletor de RSS Web Pré-processamento dos documentos Classifica e filtra documentos Notícia 1 = gostei Notícia 2 = não gostei Notícia 3 = gostei Notícia 4 = gostei Notícia 5 = gostei Notícia 6 = não gostei Notícia 7 = gostei Algoritmo gerador de hipóteses ID3, C4.5, J4.8 Naïve Bayes Knn, SVM Hipótese Treinamento, Testes e Prototipação implementação Classifica¸ c˜ ao de documentos — Processo de trabalho 59

slide-60
SLIDE 60

Minerando o log de um servidor Web

60

slide-61
SLIDE 61

Processo de minera¸ c˜ ao de padr˜

  • es na

Web

Padrões

Log dos servidores de aplicação

Agrupamento de pageview Análise de correlação Mineração de regras de associação Mineração de padrões sequenciais Banco de dados com as transações dos usuários Pré−processamento dos dados Identificação de pageview Identificação de seções Integração de dados Transformação dos dados Limpeza dos dados Padrões de uso

Minerando o log de um servidor Web — Processo de minera¸ c˜ ao de padr˜

  • es na Web

61

slide-62
SLIDE 62

Exemplo t´ ıpico de log

Minerando o log de um servidor Web — Exemplo t´ ıpico de log 62

slide-63
SLIDE 63

Pr´ e-processamento do log: identifica¸ c˜ ao de usu´ arios

Minerando o log de um servidor Web — Pr´ e-processamento do log: identifica¸ c˜ ao de usu´ arios 63

slide-64
SLIDE 64

Pr´ e-processamento do log: identifica¸ c˜ ao das se¸ c˜

  • es

Minerando o log de um servidor Web — Pr´ e-processamento do log: identifica¸ c˜ ao das se¸ c˜

  • es

64

slide-65
SLIDE 65

Matriz de transa¸ c˜

  • es

Minerando o log de um servidor Web — Matriz de transa¸ c˜

  • es

65

slide-66
SLIDE 66

Matriz de transa¸ c˜

  • es com

meta-informa¸ c˜

  • es sobre as p´

aginas

usu´ ario categoria1 categoria2 categoria3 · · · categoriam user1 2 · · · 1 user2 1 1 · · · user3 2 1 · · · user4 1 · · · · · · · · · · · · · · · · · · · · · usern 1 1 · · · 1

  • Cada p´

agina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial)

  • Cada p´

agina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego) Minerando o log de um servidor Web — Matriz de transa¸ c˜

  • es com meta-informa¸

  • es sobre as p´

aginas 66

slide-67
SLIDE 67

Regras de Associa¸ c˜ ao

  • Caso do supermercado (fralda → cerveja)
  • Quem acessa a p´

agina sobre futebol tamb´ em acessa a p´ agina de volei em 90% dos casos (futebol → volei).

  • Quem acessa a p´

agina de ofertas e a p´ agina de material de constru¸ c˜ ao tamb´ em finaliza a compra em 83% dos casos (ofertas ∧ material constru¸ c˜ ao → compra)

Minerando o log de um servidor Web — Regras de Associa¸ c˜ ao 67

slide-68
SLIDE 68

Considera¸ c˜

  • es Finais

68

slide-69
SLIDE 69

Processo

Acertivo

Utilização Avaliação Criação dos modelos Pré−processamento Entendimento do problema Ferramentas (i.e., RapidMiner, Weka, libsvm, Octave, Matlab)

Levantamento de requisitos Análise descritiva dos dados Eficiente (tempo e espaço) Considera¸ c˜

  • es Finais —

Processo 69

slide-70
SLIDE 70

Considera¸ c˜

  • es Finais
  • Foram vistos: problemas de classifica¸

c˜ ao, agrupamento e an´ alise de log. Tem muito mais de onde vieram estes...

  • Aten¸

c˜ ao para o processo! Pr´ e-processamento, cria¸ c˜ ao dos modelos, avalia¸ c˜ ao e aplica¸ c˜ ao.

  • Mahout, Hadoop, Carrot2. Antes de instalar

ferramentas para a minera¸ c˜ ao das informa¸ c˜

  • es, tente

entender os seus dados e os seus problemas! Fa¸ ca uma an´ alise descritiva dos dados.

  • Muitos dados... Muitas oportunidades...

Considera¸ c˜

  • es Finais —

Considera¸ c˜

  • es Finais

70

slide-71
SLIDE 71

Obrigado!

http://fbarth.net.br http://fbarth.net.br/materiais/palestras.html fabricio.barth@gmail.com

Considera¸ c˜

  • es Finais —

Obrigado! 71

slide-72
SLIDE 72

Referˆ encias

72

slide-73
SLIDE 73

References

[1] Data, data everywhere. a special report on managing infor-

  • mation. The Economist, pages 1–16, February 2010.

[2] Chih-Chung Chang and Chih-Jen Lin. LIBSVM: A li- brary for support vector machines. ACM Transactions

  • n Intelligent Systems and Technology,

2:27:1–27:27,

  • 2011. Software available at http://www.csie.ntu.edu.

tw/~cjlin/libsvm. [3] Bing Liu. Web Data Mining: Exploring Hyperlinks, Con- tents, and Usage Data (Data-Centric Systems and Appli- cations). Springer, 1st ed. 2007. corr. 2nd printing edition, January 2009. 72-1

slide-74
SLIDE 74

[4] Thomas Jefferson P. Lopes, Gabriel Koji Lemos Hi- ratani, Fabr´ ıcio J. Barth, Orlando Rodrigues, Jr., and Ju- liana Maraccini Pinto. Minera¸ c˜ ao de opini˜

  • es aplicada `

a an´ alise de investimentos. In Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web, WebMedia ’08, pages 117–120, New York, NY, USA, 2008. ACM. [5] Jo˜ ao Carlos Medau, Maria Cristina Belderrain, and Fabr´ ıcio J. Barth. Reordena¸ c˜ ao de resultados de busca na web conforme crit´ erio de relevˆ ancia definido pelo usu´ ario. In Anais do XI Simp´

  • sio Brasileiro de Sistemas Multim´

ıdia e Web - WebMedia, pages 220–222, 2005. [6] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. 72-2

slide-75
SLIDE 75

[7] J. R. Quinlan. Knowledge Acquisition for Knowledge-Based Systems, chapter Simplifying Decision Trees. Academic Press, 1988. [8] Stuart J. Russel and Peter Norvig. Artificial intelligence: a modern approach. Prentice-Hall, 2 edition, 2003. [9] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, second edition, 2005. 72-3