K-Means + GMMs Clustering Readings: EM, GMM Readings: Matt - - PowerPoint PPT Presentation

k means gmms
SMART_READER_LITE
LIVE PREVIEW

K-Means + GMMs Clustering Readings: EM, GMM Readings: Matt - - PowerPoint PPT Presentation

10-601 Introduction to Machine Learning Machine Learning Department School of Computer Science Carnegie Mellon University K-Means + GMMs Clustering Readings: EM, GMM Readings: Matt Gormley Murphy


slide-1
SLIDE 1

K-­‑Means + GMMs

1

10-­‑601 ¡Introduction ¡to ¡Machine ¡Learning

Matt ¡Gormley Lecture ¡16 March ¡20, ¡2017

Machine ¡Learning ¡Department School ¡of ¡Computer ¡Science Carnegie ¡Mellon ¡University Clustering ¡Readings: Murphy ¡25.5 Bishop ¡12.1, ¡12.3 HTF ¡14.3.0 Mitchell ¡-­‑-­‑ EM, ¡GMM ¡Readings: Murphy ¡11.4.1, ¡11.4.2, ¡11.4.4 Bishop ¡9 HTF ¡8.5 ¡-­‑ 8.5.3 Mitchell ¡6.12 ¡-­‑ 6.12.2

slide-2
SLIDE 2

Reminders

  • Homework 5: ¡Readings / ¡Application of ¡ML

– Release: ¡Wed, ¡Mar. ¡08 – Due: ¡Wed, ¡Mar. ¡22 ¡at ¡11:59pm

2

slide-3
SLIDE 3

Peer ¡Tutoring

3

Tutor Tutee

slide-4
SLIDE 4

K-­‑MEANS

5

slide-5
SLIDE 5

K-­‑Means ¡Outline

  • Clustering: ¡Motivation ¡/ ¡Applications
  • Optimization ¡Background

– Coordinate ¡Descent – Block ¡Coordinate ¡Descent

  • Clustering

– Inputs ¡and ¡Outputs – Objective-­‑based ¡Clustering

  • K-­‑Means

– K-­‑Means ¡Objective – Computational ¡Complexity – K-­‑Means ¡Algorithm ¡/ ¡Lloyd’s ¡Method

  • K-­‑Means ¡Initialization

– Random – Farthest ¡Point – K-­‑Means++

6

This ¡Lecture Last ¡Lecture

slide-6
SLIDE 6

Clustering, ¡Informal ¡Goals

Goal: ¡Automatically ¡partition ¡unlabeled data ¡into ¡groups ¡of ¡similar ¡ datapoints. Question: ¡When ¡and ¡why ¡would ¡we ¡want ¡to ¡do ¡this?

  • ¡Automatically ¡organizing ¡data.

Useful ¡for:

  • ¡Representing ¡high-­‑dimensional ¡data ¡in ¡a ¡low-­‑dimensional ¡space ¡(e.g., ¡

for ¡visualization ¡purposes).

  • ¡Understanding ¡hidden ¡structure ¡in ¡data.
  • ¡Preprocessing ¡for ¡further ¡analysis.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-7
SLIDE 7
  • Cluster ¡news ¡articles ¡or ¡web ¡pages ¡or ¡search ¡results ¡by ¡topic.

Applications (Clustering ¡comes ¡up ¡everywhere…)

  • Cluster ¡protein ¡sequences ¡by ¡function ¡or ¡genes ¡according ¡to ¡expression ¡

profile.

  • Cluster ¡users ¡of ¡social ¡networks ¡by ¡interest ¡(community ¡detection).

Facebook network Twitter Network

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-8
SLIDE 8
  • Cluster ¡customers ¡according ¡to ¡purchase ¡history.

Applications ¡(Clustering ¡comes ¡up ¡everywhere…)

  • Cluster ¡galaxies ¡or ¡nearby ¡stars (e.g. ¡Sloan ¡Digital ¡Sky ¡Survey)
  • And ¡many ¡many more ¡applications….

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-9
SLIDE 9

Optimization ¡Background

Whiteboard:

– Coordinate ¡Descent – Block ¡Coordinate ¡Descent

10

slide-10
SLIDE 10

Clustering

Question: ¡Which ¡of ¡these ¡partitions ¡is ¡“better”?

11

slide-11
SLIDE 11

Clustering

Whiteboard:

– Inputs ¡and ¡Outputs – Objective-­‑based ¡Clustering

12

slide-12
SLIDE 12

K-­‑Means

Whiteboard:

– K-­‑Means ¡Objective – Computational ¡Complexity – K-­‑Means ¡Algorithm ¡/ ¡Lloyd’s ¡Method

13

slide-13
SLIDE 13

K-­‑Means ¡Initialization

Whiteboard:

– Random – Furthest ¡Traversal – K-­‑Means++

14

slide-14
SLIDE 14

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-15
SLIDE 15

Example: ¡Given ¡a ¡set ¡of ¡datapoints

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-16
SLIDE 16

Select ¡initial ¡centers ¡at ¡random

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-17
SLIDE 17

Assign ¡each ¡point ¡to ¡its ¡nearest ¡center

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-18
SLIDE 18

Recompute optimal ¡centers ¡given ¡a ¡fixed ¡clustering

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-19
SLIDE 19

Assign ¡each ¡point ¡to ¡its ¡nearest ¡center

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-20
SLIDE 20

Recompute optimal ¡centers ¡given ¡a ¡fixed ¡clustering

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-21
SLIDE 21

Assign ¡each ¡point ¡to ¡its ¡nearest ¡center

Lloyd’s ¡method: ¡Random ¡Initialization

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-22
SLIDE 22

Recompute optimal ¡centers ¡given ¡a ¡fixed ¡clustering

Lloyd’s ¡method: ¡Random ¡Initialization

Get ¡a ¡good ¡ ¡quality ¡solution ¡in ¡this ¡example.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-23
SLIDE 23

Lloyd’s ¡method: ¡Performance

It ¡always ¡converges, ¡but ¡it ¡may ¡converge ¡at ¡a ¡local ¡optimum ¡that ¡is ¡ different ¡from ¡the ¡global ¡optimum, ¡and ¡in ¡fact ¡could ¡be ¡arbitrarily ¡ worse ¡in ¡terms ¡of ¡its ¡score.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-24
SLIDE 24

Lloyd’s ¡method: ¡Performance

Local ¡optimum: ¡every ¡point ¡is ¡assigned ¡to ¡its ¡nearest ¡center ¡and ¡ every ¡center ¡is ¡the ¡mean ¡value ¡of ¡its ¡points.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-25
SLIDE 25

Lloyd’s ¡method: ¡Performance

.It ¡is ¡arbitrarily ¡worse ¡than ¡optimum ¡solution….

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-26
SLIDE 26

Lloyd’s ¡method: ¡Performance

This ¡bad ¡performance, ¡can ¡happen ¡ even ¡with ¡well ¡separated ¡Gaussian ¡ clusters.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-27
SLIDE 27

Lloyd’s ¡method: ¡Performance

This ¡bad ¡performance, ¡can ¡ happen ¡even ¡with ¡well ¡ separated ¡Gaussian ¡clusters. Some ¡Gaussian ¡are ¡ combined…..

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-28
SLIDE 28

Lloyd’s ¡method: ¡Performance

  • For ¡k ¡equal-­‑sized ¡Gaussians, ¡Pr[each ¡initial ¡center ¡is ¡in ¡a ¡

different ¡Gaussian] ¡≈

"! "$ ≈ % &$

  • Becomes ¡unlikely ¡as ¡k ¡gets ¡large. ¡
  • If ¡we ¡do ¡random ¡initialization, ¡as ¡k increases, ¡it ¡becomes ¡more ¡likely ¡

we ¡won’t ¡have ¡perfectly ¡picked ¡one ¡center ¡per ¡Gaussian ¡in ¡our ¡ initialization ¡(so ¡Lloyd’s ¡method ¡will ¡output ¡a ¡bad ¡solution).

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-29
SLIDE 29

Another ¡Initialization ¡Idea: ¡Furthest ¡Point ¡ Heuristic

Choose ¡𝐝𝟐 arbitrarily ¡(or ¡at ¡random).

  • Pick ¡𝐝𝐤 among ¡datapoints ¡𝐲𝟐, 𝐲𝟑, … , 𝐲𝐨 that ¡is ¡farthest ¡

from ¡previously ¡chosen ¡𝐝𝟐, 𝐝𝟑, … , 𝐝𝒌0𝟐

  • For ¡j = 2, … , k

Fixes ¡the ¡Gaussian ¡problem. ¡But ¡it ¡can ¡be ¡thrown ¡off ¡by ¡

  • utliers….

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-30
SLIDE 30

Furthest ¡point ¡heuristic ¡does ¡well ¡on ¡previous ¡ example

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-31
SLIDE 31

(0,1) (0,-­‑1) (-­‑2,0) (3,0)

Furthest ¡point ¡initialization ¡heuristic ¡sensitive ¡ to ¡outliers

Assume ¡k=3

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-32
SLIDE 32

(0,1) (0,-­‑1) (-­‑2,0) (3,0)

Furthest ¡point ¡initialization ¡heuristic ¡sensitive ¡ to ¡outliers

Assume ¡k=3

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-33
SLIDE 33

K-­‑means++ ¡Initialization: ¡D6 sampling ¡[AV07]

  • Choose ¡𝐝𝟐 at ¡random.
  • Pick ¡𝐝𝐤 among ¡𝐲𝟐, 𝐲𝟑, … , 𝐲𝒐 according ¡to ¡the ¡distribution
  • For ¡j = 2, … , k
  • Interpolate ¡between ¡random ¡and ¡furthest ¡point ¡initialization

𝐐𝐬(𝐝𝐤 = 𝐲𝐣) ∝ 𝐧𝐣𝐨𝐤?@𝐤 ¡ 𝐲𝐣 − 𝐝𝐤?

𝟑

  • Let ¡D(x) be ¡the ¡distance ¡between ¡a ¡point ¡𝑦 and ¡its ¡nearest ¡center. ¡

Chose ¡the ¡next ¡center ¡proportional ¡to ¡D6(𝐲). D6(𝐲𝐣)

Theorem: ¡K-­‑means++ ¡always ¡attains ¡an ¡O(log ¡k) ¡approximation ¡to ¡optimal ¡ k-­‑means ¡solution ¡in ¡expectation. Running ¡Lloyd’s can ¡only ¡further ¡improve ¡the ¡cost.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-34
SLIDE 34

K-­‑means++ ¡Idea: ¡D6 sampling

  • Interpolate ¡between ¡random ¡and ¡furthest ¡point ¡initialization
  • Let ¡D(x) be ¡the ¡distance ¡between ¡a ¡point ¡𝑦 and ¡its ¡nearest ¡center.

Chose ¡the ¡next ¡center ¡proportional ¡to ¡DD 𝐲 = 𝐧𝐣𝐨𝐤?@𝐤 ¡

𝐲𝐣 − 𝐝𝐤?

𝜷

.

  • 𝛽 = 0, ¡random ¡sampling
  • 𝛽 = ∞, ¡furthest ¡point ¡ (Side ¡note: ¡it ¡actually ¡works ¡well ¡for ¡k-­‑center)
  • 𝛽 = 2, ¡k-­‑means++

Side ¡note: ¡𝛽 = 1, ¡works ¡well ¡for ¡k-­‑median ¡

Slide ¡adapted ¡from ¡Nina ¡Balcan

slide-35
SLIDE 35

(0,1) (0,-­‑1) (-­‑2,0) (3,0)

K-­‑means ¡++ ¡Fix

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-36
SLIDE 36

K-­‑means++/ Lloyd’s Running ¡Time

Repeat until ¡there ¡is ¡no ¡change ¡in ¡the ¡cost.

  • For ¡each ¡j: ¡ ¡CK ←{𝑦 ∈ 𝑇 whose ¡closest ¡center ¡is ¡𝐝𝐤}
  • For ¡each ¡j: ¡𝐝𝐤 ←mean ¡of ¡CK

Each ¡round ¡takes ¡time ¡ O(nkd).

  • K-­‑means ¡++ ¡initialization: ¡O(nd) ¡and ¡one ¡pass ¡over ¡data ¡to ¡select ¡

next ¡center. ¡So ¡O(nkd) ¡time ¡in ¡total.

  • Lloyd’s ¡method
  • Exponential ¡# ¡of ¡rounds ¡in ¡the ¡worst ¡case ¡[AV07].
  • Expected ¡polynomial ¡time ¡in ¡the ¡smoothed ¡analysis ¡(non ¡worst-­‑case) ¡

model!

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-37
SLIDE 37

K-­‑means++/ Lloyd’s ¡Summary

  • Exponential ¡# ¡of ¡rounds ¡in ¡the ¡worst ¡case ¡[AV07].
  • Expected ¡polynomial ¡time ¡in ¡the ¡smoothed ¡analysis ¡model!
  • K-­‑means++ ¡always ¡attains ¡an ¡O(log ¡k) ¡approximation ¡to ¡optimal ¡

k-­‑means ¡solution ¡in ¡expectation.

  • Running ¡Lloyd’s ¡can ¡only ¡further ¡improve ¡the ¡cost.
  • Does ¡well ¡in ¡practice.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-38
SLIDE 38

What ¡value ¡of ¡k?

  • Hold-­‑out ¡validation/cross-­‑validation ¡on ¡auxiliary ¡task ¡(e.g., ¡

supervised ¡learning ¡task).

  • Heuristic: ¡Find ¡large ¡gap ¡between ¡(k ¡-­‑ 1)-­‑means ¡cost ¡and ¡

k-­‑means ¡cost.

  • Try ¡hierarchical ¡clustering.

Slide ¡courtesy ¡of ¡Nina ¡Balcan

slide-39
SLIDE 39

EM ¡AND ¡GMMS

43

slide-40
SLIDE 40

Expectation-­‑Maximization ¡Outline

  • Background

– Multivariate ¡Gaussian ¡Distribution – Marginal ¡Probabilities

  • Building ¡up ¡to ¡GMMs

– Distinction ¡#1: ¡Model ¡vs. ¡Objective ¡Function – Gaussian ¡Naïve ¡Bayes ¡(GNB) – Gaussian ¡Discriminant ¡Analysis – Gaussian ¡Mixture ¡Model ¡(GMM)

  • Expectation-­‑Maximization

– Distinction ¡#2: ¡Data ¡Likelihood ¡vs. ¡Marginal ¡Data ¡Likelihood – Distinction ¡#3: ¡Latent ¡Variables ¡vs. ¡Parameters – Objective ¡Functions ¡for ¡EM – Hard ¡(Viterbi) ¡EM ¡Algorithm

  • Example: ¡K-­‑Means ¡as ¡Hard ¡EM

– Soft ¡(Standard) ¡EM ¡Algorithm

  • Example: ¡Soft ¡EM ¡for ¡GMM
  • Properties ¡of ¡EM

– Nonconvexity / ¡Local ¡Optimization – Example: ¡Grammar ¡Induction – Variants ¡of ¡EM

44

slide-41
SLIDE 41

Background

Whiteboard

– Multivariate ¡Gaussian ¡Distribution – Marginal ¡Probabilities

46

slide-42
SLIDE 42

GAUSSIAN ¡MIXTURE ¡MODEL ¡ (GMM)

47

slide-43
SLIDE 43

Building ¡up ¡to ¡GMMs

Whiteboard

– Distinction ¡#1: ¡Model ¡vs. ¡Objective ¡Function – Gaussian ¡Naïve ¡Bayes ¡(GNB) – Gaussian ¡Discriminant ¡Analysis – Gaussian ¡Mixture ¡Model ¡(GMM)

48

slide-44
SLIDE 44

Gaussian ¡Discriminant ¡ Analysis

49

Data: ¡ Model:

Joint:

Log-­‑likelihood: Generative ¡Story: z ∼ Categorical(φ) ∼ Gaussian(µz, Σz)

p(, z; φ, µ, Σ) = p(|z; µ, Σ)p(z; φ)

D = {((i), (i))}N

i=1 where (i) ∈ RM and z(i) ∈ {1, . . . , K}

(φ, µ, Σ) =

N

  • i=1

p((i), z(i); φ, µ, Σ) =

N

  • i=1

p((i)|z(i); µ, Σ) + p(z(i); φ)

slide-45
SLIDE 45

Gaussian ¡Discriminant ¡ Analysis

50

Data: ¡ Log-­‑likelihood:

D = {((i), (i))}N

i=1 where (i) ∈ RM and z(i) ∈ {1, . . . , K}

Maximum ¡Likelihood ¡Estimates: Take ¡the ¡derivative ¡of ¡the ¡Lagrangian, ¡set ¡it ¡equal ¡to ¡zero ¡ and ¡solve.

φk = 1 N

N

  • i=1

I(z(i) = k), ∀k µk = N

i=1 I(z(i) = k)(i)

N

i=1 I(z(i) = k)

, ∀k Σk = N

i=1 I(z(i) = k)((i) − µk)((i) − µk)T

N

i=1 I(z(i) = k)

, ∀k

(φ, µ, Σ) =

N

  • i=1

p((i)|z(i); µ, Σ) + p(z(i); φ)

Implementation: ¡ Just ¡counting ¡

slide-46
SLIDE 46

Gaussian ¡Mixture-­‑Model

51

Data: ¡

Assume we are given data, , consisting of fully unsupervised ex- amples in dimensions: D = {(i)}N

i=1 where (i) ∈ RM

Model:

Joint: Marginal:

(Marginal) ¡Log-­‑likelihood: Generative ¡Story: z ∼ Categorical(φ) ∼ Gaussian(µz, Σz)

p(; φ, µ, Σ) =

K

  • z=1

p(|z; µ, Σ)p(z; φ) p(, z; φ, µ, Σ) = p(|z; µ, Σ)p(z; φ)

(φ, µ, Σ) =

N

  • i=1

p((i); φ, µ, Σ) =

N

  • i=1
  • K
  • z=1

p((i)|z; µ, Σ)p(z; φ)

slide-47
SLIDE 47

Mixture-­‑Model

52

Data: ¡

Assume we are given data, , consisting of fully unsupervised ex- amples in dimensions: D = {(i)}N

i=1 where (i) ∈ RM

Model:

pθ,φ(, z) = pθ(|z)pφ(z) pθ,φ() =

K

  • z=1

pθ(|z)pφ(z)

Joint: Marginal:

(Marginal) ¡Log-­‑likelihood:

(θ) =

N

  • i=1

pθ,φ((i)) =

N

  • i=1
  • K
  • z=1

pθ((i)|z)pφ(z)

Generative ¡Story: ∼ Multinomial ∼ pθ(·|z) z ∼ Categorical(φ)

  • Gaussian
slide-48
SLIDE 48

Mixture-­‑Model

53

Data: ¡

Assume we are given data, , consisting of fully unsupervised ex- amples in dimensions: D = {(i)}N

i=1 where (i) ∈ RM

Model:

pθ,φ(, z) = pθ(|z)pφ(z) pθ,φ() =

K

  • z=1

pθ(|z)pφ(z)

Joint: Marginal:

(Marginal) ¡Log-­‑likelihood:

(θ) =

N

  • i=1

pθ,φ((i)) =

N

  • i=1
  • K
  • z=1

pθ((i)|z)pφ(z)

Generative ¡Story: ∼ Multinomial ∼ pθ(·|z) z ∼ Categorical(φ)

  • Gaussian

This ¡could ¡be ¡any ¡ arbitrary ¡distribution ¡ parameterized ¡by ¡θ. Today ¡we’re ¡thinking ¡ about ¡the ¡case ¡where ¡it ¡ is ¡a ¡Multivariate ¡ Gaussian.

slide-49
SLIDE 49

Unsupervised ¡Learning: ¡Parameters ¡ are ¡coupled ¡by ¡marginalization. Supervised ¡Learning: ¡The ¡ parameters ¡decouple!

Learning ¡a ¡Mixture ¡Model

54

X1 XM X2 Z …

θ∗, φ∗ =

θ,φ N

  • i=1

pθ((i)|z(i))pφ(z(i)) θ∗ =

θ N

  • i=1

pθ((i)|z(i)) φ∗ =

θ N

  • i=1

pφ(z(i))

X1 XM X2 Z …

D = {(i)}N

i=1 θ∗, φ∗ =

θ,φ N

  • i=1
  • K
  • z=1

pθ((i)|z)pφ(z)

D = {((i), (i))}N

i=1

slide-50
SLIDE 50

Unsupervised ¡Learning: ¡Parameters ¡ are ¡coupled ¡by ¡marginalization. Supervised ¡Learning: ¡The ¡ parameters ¡decouple!

Learning ¡a ¡Mixture ¡Model

55

X1 XM X2 Z …

θ∗, φ∗ =

θ,φ N

  • i=1

pθ((i)|z(i))pφ(z(i)) θ∗ =

θ N

  • i=1

pθ((i)|z(i)) φ∗ =

θ N

  • i=1

pφ(z(i))

X1 XM X2 Z …

D = {(i)}N

i=1 θ∗, φ∗ =

θ,φ N

  • i=1
  • K
  • z=1

pθ((i)|z)pφ(z)

Training ¡certainly ¡isn’t ¡as ¡simple ¡ as ¡the ¡supervised ¡case. In ¡many ¡cases, ¡we ¡could ¡still ¡use ¡ some ¡black-­‑box ¡optimization ¡ method ¡(e.g. ¡Newton-­‑Raphson) ¡ to ¡solve ¡this ¡coupled

  • ptimization ¡problem.

This ¡lecture ¡is ¡about ¡a ¡more ¡ problem-­‑specific ¡method: ¡EM.

D = {((i), (i))}N

i=1

slide-51
SLIDE 51

EXAMPLE: ¡K-­‑MEANS ¡VS ¡GMM

56

slide-52
SLIDE 52

Example: ¡K-­‑Means

57

slide-53
SLIDE 53

Example: ¡K-­‑Means

58

slide-54
SLIDE 54

Example: ¡K-­‑Means

59

slide-55
SLIDE 55

Example: ¡K-­‑Means

60

slide-56
SLIDE 56

Example: ¡K-­‑Means

61

slide-57
SLIDE 57

Example: ¡K-­‑Means

62

slide-58
SLIDE 58

Example: ¡K-­‑Means

63

slide-59
SLIDE 59

Example: ¡K-­‑Means

64

slide-60
SLIDE 60

Example: ¡GMM

65

slide-61
SLIDE 61

Example: ¡GMM

66

slide-62
SLIDE 62

Example: ¡GMM

67

slide-63
SLIDE 63

Example: ¡GMM

68

slide-64
SLIDE 64

Example: ¡GMM

69

slide-65
SLIDE 65

Example: ¡GMM

70

slide-66
SLIDE 66

Example: ¡GMM

71

slide-67
SLIDE 67

Example: ¡GMM

72

slide-68
SLIDE 68

Example: ¡GMM

73

slide-69
SLIDE 69

Example: ¡GMM

74

slide-70
SLIDE 70

Example: ¡GMM

75

slide-71
SLIDE 71

Example: ¡GMM

76

slide-72
SLIDE 72

Example: ¡GMM

77

slide-73
SLIDE 73

Example: ¡GMM

78

slide-74
SLIDE 74

Example: ¡GMM

79

slide-75
SLIDE 75

Example: ¡GMM

80

slide-76
SLIDE 76

Example: ¡GMM

81

slide-77
SLIDE 77

Example: ¡GMM

82

slide-78
SLIDE 78

Example: ¡GMM

83

slide-79
SLIDE 79

Example: ¡GMM

84

slide-80
SLIDE 80

Example: ¡GMM

85

slide-81
SLIDE 81

Example: ¡GMM

86

slide-82
SLIDE 82

K-­‑Means ¡vs. ¡GMM

Convergence: ¡ K-­‑Means tends ¡to ¡converge much ¡faster ¡than ¡a ¡GMM Speed: ¡ Each ¡iteration ¡of ¡K-­‑Means is ¡computationally ¡less ¡intensive than ¡ each ¡iteration ¡of ¡a ¡GMM Initialization: ¡ To ¡initialize a ¡GMM, ¡we ¡typically ¡first ¡run ¡K-­‑Means and ¡use ¡the ¡ resulting ¡cluster ¡centers ¡as ¡the ¡means ¡of ¡the ¡Gaussian ¡components Output: ¡ A ¡GMM ¡yields ¡a ¡probability ¡distribution ¡over ¡the ¡cluster ¡assignment ¡ for ¡each ¡point; ¡whereas ¡K-­‑Means gives ¡a ¡single ¡hard ¡assignment

87