Latent Dirichlet Allocation Alberto Bie+ Trop - - PowerPoint PPT Presentation

latent dirichlet allocation
SMART_READER_LITE
LIVE PREVIEW

Latent Dirichlet Allocation Alberto Bie+ Trop - - PowerPoint PPT Presentation

Latent Dirichlet Allocation Alberto Bie+ Trop dinformation Topic modeling Dcouvrir la structure thma5que cache dans chaque document dune archive


slide-1
SLIDE 1

Latent ¡Dirichlet ¡ Allocation ¡

Alberto ¡Bie+ ¡

slide-2
SLIDE 2

Trop ¡d’information ¡

slide-3
SLIDE 3

Topic ¡modeling ¡

  • Découvrir ¡la ¡structure ¡théma5que ¡cachée ¡dans ¡chaque ¡

document ¡d’une ¡archive ¡

  • Permet: ¡
  • Organisa5on ¡automa5que ¡des ¡documents ¡par ¡thème ¡
  • Compréhension ¡d’un ¡document ¡
  • Recherche ¡
  • Résumé ¡
slide-4
SLIDE 4

Découvrir ¡les ¡thèmes ¡d’un ¡corpus ¡ de ¡documents ¡

human evolution disease computer genome evolutionary host models dna species bacteria information genetic

  • rganisms

diseases data genes life resistance computers sequence

  • rigin

bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations

slide-5
SLIDE 5

Annotation ¡d’images ¡

SKY WATER TREE MOUNTAIN PEOPLE SCOTLAND WATER FLOWER HILLS TREE SKY WATER BUILDING PEOPLE WATER FISH WATER OCEAN TREE CORAL PEOPLE MARKET PATTERN TEXTILE DISPLAY BIRDS NEST TREE BRANCH LEAVES

slide-6
SLIDE 6

Exploration ¡de ¡thèmes ¡

slide-7
SLIDE 7

Mais ¡aussi… ¡

  • Trouver ¡des ¡rela5ons ¡entre ¡les ¡thèmes ¡
  • Hiérarchies ¡de ¡thèmes ¡
  • Evolu5on ¡des ¡thèmes ¡au ¡cours ¡du ¡temps ¡
  • Prédic5on ¡de ¡liens ¡entre ¡ar5cles ¡
  • Collabora've ¡filtering ¡(ex: ¡recommanda5on ¡de ¡films) ¡
slide-8
SLIDE 8

Latent ¡Dirichlet ¡Allocation ¡(LDA) ¡

  • Modèle ¡probabiliste ¡généra5f ¡d’un ¡corpus ¡de ¡documents ¡
  • Modèle ¡Bayésien ¡hiérarchique ¡à ¡ ¡3 ¡niveaux ¡
  • Pour ¡chaque ¡document: ¡
  • On ¡choisit ¡un ¡mélange ¡de ¡thèmes ¡(topic ¡mixture) ¡
  • Pour ¡chaque ¡mot, ¡on ¡choisit ¡un ¡thème ¡dans ¡ce ¡mélange ¡
  • Et ¡on ¡choisit ¡un ¡mot ¡depuis ¡ce ¡thème ¡
  • Appren5ssage ¡de ¡ces ¡caractéris5ques ¡par ¡inférence ¡
slide-9
SLIDE 9

Modèle ¡

slide-10
SLIDE 10

Modèles ¡graphiques ¡

slide-11
SLIDE 11

Modèles ¡graphiques ¡

w M N (a) unigram z w M N (b) mixture of unigrams

slide-12
SLIDE 12

Modèle ¡graphique ¡LDA ¡

θd Zd,n Wd,n N D K

βk

α

η

Proportions parameter Per-document topic proportions Per-word topic assignment Observed word Topics Topic parameter

slide-13
SLIDE 13

Modèle ¡graphique ¡LDA ¡

θd Zd,n Wd,n N D K

βk

α

η

Proportions parameter Per-document topic proportions Per-word topic assignment Observed word Topics Topic parameter

p(θ, z, w|α, β) = p(θ|α)

N

Ÿ

n=1

p(zn|θ)p(wn|βzn)

slide-14
SLIDE 14

Processus ¡de ¡génération ¡

  • 1. Choisir θ ∼ Dirichlet(α).
  • 2. Pour chaque mot wn:
  • Choisir un topic zn ∼ Multinomial(θ)
  • Choisir un mot wn ∼ Multinomial(βk), avec k = zn.
slide-15
SLIDE 15

Dirichlet? ¡

p(θ|α) = Γ(qk

i=1 αi)

rk

i=1 Γ(αi)

θα1−1

1

· · · θαk−1

k

Γ( ) la fonction Gamma. Cette distribution

que ∀i, θi ≥ 0 et qk

i=1 θi = 1 (

slide-16
SLIDE 16

α ¡= ¡10 ¡

item value

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1

  • 6
  • 11
  • 1 2 3 4 5 6 7 8 9 10

2

  • 7
  • 12
  • 1 2 3 4 5 6 7 8 9 10

3

  • 8
  • 13
  • 1 2 3 4 5 6 7 8 9 10

4

  • 9
  • 14
  • 1 2 3 4 5 6 7 8 9 10

5

  • 10
  • 15
  • 1 2 3 4 5 6 7 8 9 10
slide-17
SLIDE 17

α ¡= ¡0.1 ¡

item value

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1

  • 6
  • 11
  • 1 2 3 4 5 6 7 8 9 10

2

  • 7
  • 12
  • 1 2 3 4 5 6 7 8 9 10

3

  • 8
  • 13
  • 1 2 3 4 5 6 7 8 9 10

4

  • 9
  • 14
  • 1 2 3 4 5 6 7 8 9 10

5

  • 10
  • 15
  • 1 2 3 4 5 6 7 8 9 10
slide-18
SLIDE 18

Inférence ¡

slide-19
SLIDE 19

Inférence ¡

Topics Documents Topic proportions and assignments

slide-20
SLIDE 20

Inférence ¡

θd Zd,n Wd,n N D K

βk

α

η

Proportions parameter Per-document topic proportions Per-word topic assignment Observed word Topics Topic parameter

slide-21
SLIDE 21

Inférence ¡

  • Es5mer ¡la ¡loi ¡à ¡posteriori ¡des ¡variables ¡cachées ¡connaissant ¡

les ¡données ¡

  • Inenvisageable ¡en ¡pra5que ¡

p(◊, z|w, –, —) = p(◊, z, w|–, —) p(w|–, —) resement très difficile à calculer, comme

slide-22
SLIDE 22

Inférence ¡approchée ¡

  • Markov ¡Chain ¡Monte ¡Carlo ¡
  • Es5mer ¡la ¡distribu5on ¡par ¡échan5llonnage ¡
  • Collapsed ¡Gibbs ¡sampling ¡
  • Varia0onal ¡inference ¡
  • Es5mer ¡la ¡distribu5on ¡par ¡une ¡op5misa5on ¡
slide-23
SLIDE 23

Exemple ¡

  • 17000 ¡documents ¡du ¡magazine ¡Science ¡(1990-­‑2000) ¡
  • 11 ¡millions ¡de ¡mots ¡
  • 20000 ¡termes ¡uniques ¡
  • LDA ¡avec ¡100 ¡topics ¡(inférence ¡varia5onnelle) ¡
slide-24
SLIDE 24

Exemple ¡

1 8 16 26 36 46 56 66 76 86 96 Topics Probability 0.0 0.1 0.2 0.3 0.4

slide-25
SLIDE 25

Exemple ¡

human evolution disease computer genome evolutionary host models dna species bacteria information genetic

  • rganisms

diseases data genes life resistance computers sequence

  • rigin

bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations

slide-26
SLIDE 26

Exemple ¡

problem model selection species problems rate male forest mathematical constant males ecology number distribution females fish new time sex ecological mathematics number species conservation university size female diversity two values evolution population first value populations natural numbers average population ecosystems work rates sexual populations time data behavior endangered mathematicians density evolutionary tropical chaos measured genetic forests chaotic models reproductive ecosystem

slide-27
SLIDE 27

Exemple ¡

slide-28
SLIDE 28

Bibliographie ¡

  • David ¡M. ¡Blei, ¡Andrew ¡Y. ¡Ng, ¡and ¡Michael ¡I. ¡Jordan. ¡Latent ¡

dirichlet ¡alloca5on. ¡Journal ¡of ¡Machine ¡Learning ¡Research, ¡ 3:993–1022, ¡2003. ¡ ¡

  • David ¡M. ¡Blei. ¡Introduc5on ¡to ¡probabilis5c ¡topic ¡models. ¡In ¡

Communica'ons ¡of ¡the ¡ACM, ¡à ¡paraître. ¡ ¡

  • David ¡M. ¡Blei. ¡Probabilis5c ¡Topic ¡Models. ¡KDD ¡2011 ¡tutorial. ¡