EM & Hidden Markov Models CMSC 691 UMBC Recap from last time - PowerPoint PPT Presentation

2 State HMM Likelihood 𝑞 𝑊| start 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 … z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 … z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 3 |𝑊 𝑞 𝑥 4 |𝑊 𝑞 𝑥 1 |𝑊 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 2 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4 N V end w 1 w 2 w 3 w 4 start .7 .2 .1 N .7 .2 .05 .05 N .15 .8 .05 V .2 .6 .1 .1 V .6 .35 .05

2 State HMM Likelihood 𝑞 𝑊| start 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 … z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 … z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 3 |𝑊 𝑞 𝑥 4 |𝑊 𝑞 𝑥 1 |𝑊 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 2 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4 Q: What’s the probability of N V end (N, w 1 ), (V, w 2 ), (V, w 3 ), (N, w 4 )? w 1 w 2 w 3 w 4 start .7 .2 .1 N .7 .2 .05 .05 N .15 .8 .05 V .2 .6 .1 .1 V .6 .35 .05

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 w 1 w 2 w 3 w 4 Q: What’s the probability of N V end (N, w 1 ), (V, w 2 ), (V, w 3 ), (N, w 4 )? w 1 w 2 w 3 w 4 start .7 .2 .1 N .7 .2 .05 .05 A: (.7*.7) * (.8*.6) * (.35*.1) * (.6*.05) = N .15 .8 .05 V .2 .6 .1 .1 0.0002822 V .6 .35 .05

2 State HMM Likelihood 𝑞 𝑊| start 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 𝑞 𝑊| 𝑊 … z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 𝑞 𝑂| 𝑂 … z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 3 |𝑊 𝑞 𝑥 4 |𝑊 𝑞 𝑥 1 |𝑊 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 2 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4 Q: What’s the probability of N V end (N, w 1 ), (V, w 2 ), (N, w 3 ), (N, w 4 )? w 1 w 2 w 3 w 4 start .7 .2 .1 N .7 .2 .05 .05 N .15 .8 .05 V .2 .6 .1 .1 V .6 .35 .05

2 State HMM Likelihood z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4 N V end Q: What’s the probability of w 1 w 2 w 3 w 4 (N, w 1 ), (V, w 2 ), (N, w 3 ), (N, w 4 )? start .7 .2 .1 N .7 .2 .05 .05 A: (.7*.7) * (.8*.6) * (.6*.05) * (.15*.05) = N .15 .8 .05 V .2 .6 .1 .1 0.00007056 V .6 .35 .05

Agenda HMM Detailed Definition HMM Parameter Estimation EM for HMMs General Approach Expectation Calculation

Estimating Parameters from Observed Data 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V Transition Counts 𝑞 𝑂| start 𝑞 𝑊| 𝑂 N V end z 1 = z 2 = z 3 = z 4 = N N N N start 𝑞 𝑥 4 |𝑂 N 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 V w 1 w 2 w 3 w 4 Emission Counts w 1 w 2 W 3 w 4 z 1 = z 2 = z 3 = z 4 = N V V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start end emission not shown 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

Estimating Parameters from Observed Data 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V Transition Counts 𝑞 𝑂| start 𝑞 𝑊| 𝑂 N V end z 1 = z 2 = z 3 = z 4 = N N N N start 2 0 0 𝑞 𝑥 4 |𝑂 N 1 2 2 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 V 2 1 0 w 1 w 2 w 3 w 4 Emission Counts w 1 w 2 W 3 w 4 z 1 = z 2 = z 3 = z 4 = N 2 0 1 2 V V V V V 0 2 1 0 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start end emission not shown 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

Estimating Parameters from Observed Data 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V Transition MLE 𝑞 𝑂| start 𝑞 𝑊| 𝑂 N V end z 1 = z 2 = z 3 = z 4 = N N N N start 1 0 0 𝑞 𝑥 4 |𝑂 N .2 .4 .4 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 V 2/3 1/3 0 w 1 w 2 w 3 w 4 Emission MLE w 1 w 2 W 3 w 4 z 1 = z 2 = z 3 = z 4 = N .4 0 .2 .4 V V V V V 0 2/3 1/3 0 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start end emission not shown 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

What If We Don’t Observe 𝑨 ? Approach: Develop EM algorithm Goal: Estimate 𝑞 𝑢 𝑡 ′ 𝑡) and 𝑞 𝑓 𝑤 𝑡) Why: Compute 𝔽 𝑨 𝑗 =𝑡→𝑨 𝑗+1 =𝑡 ′ 𝑑 𝑡 → 𝑡 ′ 𝔽 𝑨 𝑗 =𝑡→𝑥 𝑗 =𝑤 𝑑 𝑡 → 𝑤

Expectation Maximization (EM) 0. Assume some value for your parameters Two step, iterative algorithm 1. E-step: count under uncertainty, assuming these parameters 2. M-step: maximize log-likelihood, assuming these uncertain counts estimated counts

Expectation Maximization (EM) p obs (w | s) 0. Assume some value for your parameters p trans (s’ | s) Two step, iterative algorithm 1. E-step: count under uncertainty, assuming these parameters 2. M-step: maximize log-likelihood, assuming these uncertain counts estimated counts

Expectation Maximization (EM) p obs (w | s) 0. Assume some value for your parameters p trans (s’ | s) Two step, iterative algorithm 1. E-step: count under uncertainty, assuming these parameters 𝑞 ∗ 𝑨 𝑗 = 𝑡, 𝑨 𝑗+1 = 𝑡 ′ 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝑞 ∗ 𝑨 𝑗 = 𝑡 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝑞(𝑨 𝑗 = 𝑡, 𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑨 𝑗 = 𝑡, 𝑨 𝑗+1 = 𝑡 ′ , 𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) 2. M-step: maximize log-likelihood, assuming these uncertain counts estimated counts

M-Step “ maximize log-likelihood, assuming these uncertain counts ” 𝑑(𝑡 → 𝑡 ′ ) 𝑞 new 𝑡 ′ 𝑡) = σ 𝑡 ′′ 𝑑(𝑡 → 𝑡 ′′ ) if we observed the hidden transitions…

M-Step “ maximize log-likelihood, assuming these uncertain counts ” 𝔽 𝑡→𝑡 ′ [𝑑 𝑡 → 𝑡 ′ ] 𝑞 new 𝑡 ′ 𝑡) = σ 𝑡 ′′ 𝔽 𝑡→𝑡 ′′ [𝑑 𝑡 → 𝑡′′ ] we don’t observe the hidden transitions, but we can approximately count

M-Step “ maximize log-likelihood, assuming these uncertain counts ” 𝔽 𝑡→𝑡 ′ [𝑑 𝑡 → 𝑡 ′ ] 𝑞 new 𝑡 ′ 𝑡) = σ 𝑡 ′′ 𝔽 𝑡→𝑡 ′′ [𝑑 𝑡 → 𝑡′′ ] we don’t observe the hidden transitions, but we can approximately count we compute these in the E-step

Expectation Maximization (EM) p obs (w | s) 0. Assume some value for your parameters p trans (s’ | s) Two step, iterative algorithm 1. E-step: count under uncertainty, assuming these parameters 𝑞 ∗ 𝑨 𝑗 = 𝑡, 𝑨 𝑗+1 = 𝑡 ′ 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝑞 ∗ 𝑨 𝑗 = 𝑡 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝑞(𝑨 𝑗 = 𝑡, 𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑨 𝑗 = 𝑡, 𝑨 𝑗+1 = 𝑡 ′ , 𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) 2. M-step: maximize log-likelihood, assuming these uncertain counts Baum-Welch estimated counts

Estimating Parameters from Unobserved Data Expected Transition Counts N V end ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 start 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = N V V V V ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 V ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission Counts 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 N N N N N ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 V 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 ∗ 𝑥 4 |𝑊 end emission not shown 𝑞 𝑞 𝑞 𝑞 𝑞 w 1 w 2 w 3 w 4

Estimating Parameters from Unobserved Data Expected all of these p* arcs are Transition Counts specific to a time-step N V end ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 start 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = N V V V V ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 V ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission Counts 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 N N N N N ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 V 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 ∗ 𝑥 4 |𝑊 end emission not shown 𝑞 𝑞 𝑞 𝑞 𝑞 w 1 w 2 w 3 w 4

Estimating Parameters from Unobserved Data all of these p* arcs are Expected specific to a time-step Transition Counts N V end ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 start 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = =.5 =.3 =.3 N V V V V ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 V ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission Counts 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 =.4 =.6 =.5 N N N N N ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 V 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 ∗ 𝑥 4 |𝑊 end emission not shown 𝑞 𝑞 𝑞 𝑞 𝑞 w 1 w 2 w 3 w 4

Estimating Parameters from Unobserved Data all of these p* arcs are Expected specific to a time-step Transition Counts N V end ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 start 𝑞 𝑞 𝑞 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = =.5 =.3 =.3 N 1.5 V V V V ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 V 1.1 ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission Counts 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 =.4 =.6 =.5 N N N N N ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 V 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 ∗ 𝑥 4 |𝑊 end emission not shown 𝑞 𝑞 𝑞 𝑞 𝑞 w 1 w 2 w 3 w 4

Estimating Parameters from Unobserved Data Expected Transition Counts N V end ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 start 1.8 .1 .1 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = N 1.5 .8 .1 V V V V ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 V 1.4 1.1 .4 ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission Counts 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 N N N N N .4 .3 .2 .2 ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 V .1 .6 .3 .3 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 ∗ 𝑥 4 |𝑊 end emission not shown 𝑞 𝑞 𝑞 𝑞 𝑞 (these numbers are made up) w 1 w 2 w 3 w 4

Estimating Parameters from Unobserved Data Expected Transition MLE N V end start 1.8/2 .1/2 .1/2 N 1.5/ .8/ .1/ ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 𝑞 𝑞 𝑞 2.4 2.4 2.4 z 1 = z 2 = z 3 = z 4 = V 1.4/2.9 1.1/ .4/ V V V V 2.9 2.9 ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission MLE 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 N N N N N .4/ .3/ .2/ .2/ 1.1 1.1 1.1 1.1 ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 𝑞 𝑞 𝑞 V .1/ .6/ .3/ .3/ ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 1.3 1.3 1.3 1.3 𝑞 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑊 𝑞 end emission not shown (these numbers are made up) w 1 w 2 w 3 w 4

Semi-Supervised Parameter Estimation Transition Counts Emission Counts N V end w 1 w 2 W 3 w 4 start 2 0 0 N 2 0 1 2 N 1 2 2 V 0 2 1 0 V 2 1 0

Semi-Supervised Parameter Estimation Transition Counts Emission Counts N V end w 1 w 2 W 3 w 4 start 2 0 0 N 2 0 1 2 N 1 2 2 V 0 2 1 0 V 2 1 0 Expected Transition Counts Expected Emission Counts N V end w 1 w 2 W 3 w 4 start 1.8 .1 .1 N .4 .3 .2 .2 N 1.5 .8 .1 V .1 .6 .3 .3 V 1.4 1.1 .4

Semi-Supervised Parameter Estimation Transition Counts Emission Counts N V end w 1 w 2 W 3 w 4 start 2 0 0 N 2 0 1 2 N 1 2 2 V 0 2 1 0 V 2 1 0 Mixed Transition Counts Mixed Emission Counts N V end w 1 w 2 W 3 w 4 start 3.8 .1 .1 N 2.4 .3 1.2 2.2 N 2.5 2.8 2.1 V .1 2.6 1.3 .3 V 3.4 2.1 .4 Expected Transition Counts Expected Emission Counts N V end w 1 w 2 W 3 w 4 start 1.8 .1 .1 N .4 .3 .2 .2 N 1.5 .8 .1 V .1 .6 .3 .3 V 1.4 1.1 .4

EM Math maximize the average log-likelihood of our complete data (z, w), averaged across all z and according to how likely our current model thinks z is max 𝔽 𝑨 ~ 𝑞 𝜄 (𝑢) (⋅|𝑥) log 𝑞 𝜄 (𝑨, 𝑥) current parameters 𝜄 new parameters posterior distribution new parameters

EM Math maximize the average log-likelihood of our complete data (z, w), averaged across all z and according to how likely our current model thinks z is max 𝔽 𝑨 ~ 𝑞 𝜄 (𝑢) (⋅|𝑥) log 𝑞 𝜄 (𝑨, 𝑥) current parameters 𝜄 new parameters posterior distribution new parameters 𝑨 ∈ 𝑡 1 , … , 𝑡 𝐿 𝑂 ෍ log 𝑞 𝜄 (𝑨 𝑗 |𝑨 𝑗−1 ) + log 𝑞 𝜄 (𝑥 𝑗 |𝑨 𝑗 ) 𝑗

Estimating Parameters from Unobserved Data Expected Transition MLE N V end start 1.8/2 .1/2 .1/2 N 1.5/ .8/ .1/ ∗ 𝑊| start ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 ∗ 𝑊| 𝑊 𝑞 𝑞 𝑞 𝑞 2.4 2.4 2.4 z 1 = z 2 = z 3 = z 4 = V 1.4/2.9 1.1/ .4/ V V V V 2.9 2.9 ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 ∗ 𝑊| 𝑂 ∗ 𝑂| 𝑊 𝑞 𝑞 𝑞 𝑞 ∗ 𝑂| 𝑊 ∗ 𝑂| 𝑊 𝑞 𝑞 Expected ∗ 𝑂| start Emission MLE 𝑞 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 ∗ 𝑂| 𝑂 𝑞 𝑞 𝑞 z 1 = z 2 = z 3 = z 4 = w 1 w 2 W 3 w 4 N N N N N .4/ .3/ .2/ .2/ 1.1 1.1 1.1 1.1 ∗ 𝑥 3 |𝑊 ∗ 𝑥 1 |𝑊 ∗ 𝑥 2 |𝑊 𝑞 𝑞 𝑞 V .1/ .6/ .3/ .3/ ∗ 𝑥 4 |𝑂 ∗ 𝑥 1 |𝑂 ∗ 𝑥 2 |𝑂 ∗ 𝑥 3 |𝑂 1.3 1.3 1.3 1.3 𝑞 𝑞 𝑞 𝑞 ∗ 𝑥 4 |𝑊 𝑞 end emission not shown (these numbers are made up) w 1 w 2 w 3 w 4

EM For HMMs (Baum-Welch Algorithm) L = 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) for(i = 1; i ≤ N; ++ i) { for(state = 0; state < K*; ++state) { 𝑞(𝑨 𝑗 = state ,𝑥 1 ,⋯,𝑥 𝑂 ) c obs (obs i | state) += 𝑀 for(prev = 0; prev < K*; ++prev) { 𝑞(𝑨 𝑗 = state ,𝑨 𝑗+1 = next ,𝑥 1 ,⋯,𝑥 𝑂 ) c trans (state | prev) += 𝑀 } } }

EM For HMMs (Baum-Welch L = 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) Algorithm) for(i = 1; i ≤ N; ++i) { for(state = 0; state < K*; ++state) { c obs (obs i | state) += 𝑞 𝑨 𝑗 = state ,𝑥 1 ,…,𝑥 𝑗 = obs i 𝑞 𝑥 𝑗+1:𝑂 𝑨 𝑗 = state ) 𝑀 for(prev = 0; prev < K*; ++prev) { u = p obs (obs i | state) * p trans (state | prev) c trans (state | prev) += 𝑞 𝑨 𝑗−1 = prev ,𝑥 1:𝑗−1 ∗𝑣∗𝑞 𝑥 𝑗+1:𝑂 𝑨 𝑗 = state ) 𝑀 } } }

EM For HMMs L = 𝑞(𝑥 1 , ⋯ , 𝑥 𝑂 ) (Baum-Welch for(i = 1; i ≤ N; ++i) { for(state = 0; state < K*; ++state) { Algorithm) c obs (obs i | state) += 𝛽( state , 𝑗) 𝛾( state , 𝑗) 𝑞 𝑨 𝑗 = state ,𝑥 1 ,…,𝑥 𝑗 = obs i 𝑞 𝑥 𝑗+1:𝑂 𝑨 𝑗 = state ) 𝑀 for(prev = 0; prev < K*; ++prev) { u = p obs (obs i | state) * p trans (state | prev) c trans (state | prev) += 𝛽( prev , 𝑗 − 1) 𝛾( state , 𝑗) 𝑞 𝑨 𝑗−1 = prev ,𝑥 1:𝑗−1 ∗𝑣∗𝑞 𝑥 𝑗+1:𝑂 𝑨 𝑗 = state ) 𝑀 } } }

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B z i-1 z i+1 z i = = C = C C β( i, s ) is the total probability of all paths: α( i, s ) is the total probability of all paths: 1. that start at step i at state s 1. that start from the beginning 2. that terminate at the end 2. that end (currently) in s at step i 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B z i-1 z i+1 z i = = C = C C α( i, B ) β( i, B ) β( i, s ) is the total probability of all paths: α( i, s ) is the total probability of all paths: 1. that start at step i at state s 1. that start from the beginning 2. that terminate at the end 2. that end (currently) in s at step i 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B z i-1 z i+1 z i = = C = C C α( i, B ) β( i, B ) α( i, B ) * β( i, B ) = total probability of paths through state B at step i α( i, s ) is the total probability of all paths: β( i, s ) is the total probability of all paths: 1. that start from the beginning 1. that start at step i at state s 2. that end (currently) in s at step i 2. that terminate at the end 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B we can compute posterior state z i-1 z i+1 z i = probabilities = C = C C (normalize by marginal likelihood) α( i, B ) β( i, B ) α( i, s ) * β( i, s ) = total probability of paths through state s at step i α( i, s ) is the total probability of all paths: β( i, s ) is the total probability of all paths: 1. that start from the beginning 1. that start at step i at state s 2. that end (currently) in s at step i 2. that terminate at the end 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B z i-1 z i+1 z i = = C = C C α( i, B ) β( i+1, s ) β( i, s ) is the total probability of all paths: α( i, s ) is the total probability of all paths: 1. that start at step i at state s 1. that start from the beginning 2. that terminate at the end 2. that end (currently) in s at step i 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A z i-1 z i+1 z i = = B = B B z i-1 z i+1 z i = = C = C C α( i, B ) β( i+1, s’ ) α( i, B ) * p( s’ | B) * p(obs at i+1 | s’) * β( i+1, s’ ) = total probability of paths through the B → s’ arc (at time i) α( i, s ) is the total probability of all paths: β( i, s ) is the total probability of all paths: 1. that start from the beginning 1. that start at step i at state s 2. that end (currently) in s at step i 2. that terminate at the end 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

Why Do We Need Backward Values? z i-1 z i+1 z i = = A = A A we can compute z i-1 z i+1 z i = posterior transition = B = B B probabilities (normalize by z i-1 z i+1 z i = marginal likelihood) = C = C C α( i, B ) β( i+1, s’ ) α( i, B ) * p( s’ | B) * p(obs at i+1 | s’) * β( i+1, s’ ) = total probability of paths through the B → s’ arc (at time i) α( i, s ) is the total probability of all paths: β( i, s ) is the total probability of all paths: 1. that start from the beginning 1. that start at step i at state s 2. that end (currently) in s at step i 2. that terminate at the end 3. (that emit the observation obs at i+1) 3. that emit the observation obs at i

With Both Forward and Backward Values α( i, s ) * β( i, s) = total probability of paths through state s at step i α( i, s) * p( s’ | B) * p(obs at i+1 | s’) * β( i+1, s’ ) = total probability of paths through the s → s ’ arc (at time i)

With Both Forward and Backward Values α( i, s ) * β( i, s) = total probability of paths through state s at step i 𝑞 𝑨 𝑗 = 𝑡 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝛽 𝑗, 𝑡 ∗ 𝛾(𝑗, 𝑡) 𝛽(𝑂 + 1, END ) α( i, s) * p( s’ | B) * p(obs at i+1 | s’) * β( i+1, s’ ) = total probability of paths through the s → s ’ arc (at time i)

With Both Forward and Backward Values α( i, s ) * β( i, s) = total probability of paths through state s at step i 𝑞 𝑨 𝑗 = 𝑡 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝛽 𝑗, 𝑡 ∗ 𝛾(𝑗, 𝑡) 𝛽(𝑂 + 1, END ) α( i, s) * p( s’ | B) * p(obs at i+1 | s’) * β( i+1, s’ ) = total probability of paths through the s → s ’ arc (at time i) 𝑞 𝑨 𝑗 = 𝑡, 𝑨 𝑗+1 = 𝑡 ′ 𝑥 1 , ⋯ , 𝑥 𝑂 ) = 𝛽 𝑗, 𝑡 ∗ 𝑞 𝑡 ′ 𝑡 ∗ 𝑞 obs 𝑗+1 𝑡 ′ ∗ 𝛾(𝑗 + 1, 𝑡′) 𝛽(𝑂 + 1, END )

HMM Expectation Calculation 𝑞 𝑨 1 , 𝑥 1 , 𝑨 2 , 𝑥 2 , … , 𝑨 𝑂 , 𝑥 𝑂 = 𝑞 𝑨 1 | 𝑨 0 𝑞 𝑥 1 |𝑨 1 ⋯ 𝑞 𝑨 𝑂 | 𝑨 𝑂−1 𝑞 𝑥 𝑂 |𝑨 𝑂 emission transition = ෑ 𝑞 𝑥 𝑗 |𝑨 𝑗 𝑞 𝑨 𝑗 | 𝑨 𝑗−1 probabilities/parameters probabilities/parameters 𝑗 Calculate the forward (log) likelihood of an observed (sub-)sequence w 1 , …, w J Calculate the backward (log) likelihood of an observed (sub-)sequence w J+1 , …, w N

HMM Likelihood Task Marginalize over all latent sequence joint likelihoods 𝑞 𝑥 1 , 𝑥 2 , … , 𝑥 𝑂 = ෍ 𝑞 𝑨 1 , 𝑥 1 , 𝑨 2 , 𝑥 2 , … , 𝑨 𝑂 , 𝑥 𝑂 𝑨 1 ,⋯,𝑨 𝑂 Q: In a K-state HMM for a length N observation sequence, how many summands (different latent sequences) are there?

HMM Likelihood Task Marginalize over all latent sequence joint likelihoods 𝑞 𝑥 1 , 𝑥 2 , … , 𝑥 𝑂 = ෍ 𝑞 𝑨 1 , 𝑥 1 , 𝑨 2 , 𝑥 2 , … , 𝑨 𝑂 , 𝑥 𝑂 𝑨 1 ,⋯,𝑨 𝑂 Q: In a K-state HMM for a length N observation sequence, how many summands (different latent sequences) are there? A: K N

HMM Likelihood Task Marginalize over all latent sequence joint likelihoods 𝑞 𝑥 1 , 𝑥 2 , … , 𝑥 𝑂 = ෍ 𝑞 𝑨 1 , 𝑥 1 , 𝑨 2 , 𝑥 2 , … , 𝑨 𝑂 , 𝑥 𝑂 𝑨 1 ,⋯,𝑨 𝑂 Q: In a K-state HMM for a length N observation sequence, how many summands (different latent sequences) are there? A: K N Goal: Find a way to compute this exponential sum efficiently (in polynomial time)

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 Up until here, all the computation was the same z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 Up until here, all the computation was the same Let’s reuse what computations we can z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N Solution: pass information “forward” in 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 the graph, e.g., from time step 2 to 3… 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 z 1 = z 2 = z 3 = z 4 = V V V V 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N Solution: pass information “forward” in 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 the graph, e.g., from time step 2 to 3… 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 Issue: these highlighted paths are only z 1 = z 2 = z 3 = z 4 = 2 of the 16 possible paths through the V V V V trellis 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

2 State HMM Likelihood 𝑞 𝑊| 𝑊 z 1 = z 2 = z 3 = z 4 = 𝑞 𝑂| 𝑊 V V V V 𝑞 𝑂| start 𝑞 𝑊| 𝑂 z 1 = z 2 = z 3 = z 4 = N N N N Solution: pass information “forward” in 𝑞 𝑥 1 |𝑂 𝑞 𝑥 4 |𝑂 𝑞 𝑥 3 |𝑊 the graph, e.g., from time step 2 to 3… 𝑞 𝑥 2 |𝑊 w 1 w 2 w 3 w 4 Issue: these highlighted paths are only z 1 = z 2 = z 3 = z 4 = 2 of the 16 possible paths through the V V V V trellis 𝑞 𝑊| 𝑂 𝑞 𝑂| 𝑊 𝑞 𝑂| start 𝑞 𝑂| 𝑂 z 1 = z 2 = z 3 = z 4 = Solution: marginalize out all N N N N information from previous timesteps 𝑞 𝑥 2 |𝑊 𝑞 𝑥 4 |𝑂 𝑞 𝑥 1 |𝑂 𝑞 𝑥 3 |𝑂 w 1 w 2 w 3 w 4

Reusing Computation z i-2 z i-1 z i = = A = A A z i-2 z i-1 z i = = B = B B z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B”

Reusing Computation 𝛽(𝑗 − 1, 𝐵) z i-2 z i-1 z i = = A = A A 𝛽(𝑗 − 1, 𝐶) z i-2 z i-1 z i = = B = B B 𝛽(𝑗 − 1, 𝐷) z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B” Assume that all necessary information has been computed and stored in 𝛽(𝑗 − 1, 𝐵) , 𝛽(𝑗 − 1, 𝐶) , 𝛽(𝑗 − 1, 𝐷)

Reusing Computation 𝛽(𝑗 − 1, 𝐵) z i-2 z i-1 z i = = A = A A 𝛽(𝑗 − 1, 𝐶) 𝛽(𝑗, 𝐶) z i-2 z i-1 z i = = B = B B 𝛽(𝑗 − 1, 𝐷) z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B” Assume that all necessary information has been computed and stored in 𝛽(𝑗 − 1, 𝐵) , 𝛽(𝑗 − 1, 𝐶) , 𝛽(𝑗 − 1, 𝐷) Marginalize (sum) across the previous timestep’s possible states

Reusing Computation 𝛽(𝑗 − 1, 𝐵) z i-2 z i-1 z i = = A = A A 𝛽(𝑗 − 1, 𝐶) 𝛽(𝑗, 𝐶) z i-2 z i-1 z i = = B = B B 𝛽(𝑗 − 1, 𝐷) z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B” marginalize across the previous hidden state values 𝛽 𝑗, 𝐶 = ෍ 𝛽 𝑗 − 1, 𝑡 ∗ 𝑞 𝐶 𝑡) ∗ 𝑞(obs at 𝑗 | 𝐶) 𝑡

Reusing Computation 𝛽(𝑗 − 1, 𝐵) z i-2 z i-1 z i = = A = A A 𝛽(𝑗 − 1, 𝐶) 𝛽(𝑗, 𝐶) z i-2 z i-1 z i = = B = B B 𝛽(𝑗 − 1, 𝐷) z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B” marginalize across the previous hidden state values 𝛽 𝑗, 𝐶 = ෍ 𝛽 𝑗 − 1, 𝑡 ∗ 𝑞 𝐶 𝑡) ∗ 𝑞(obs at 𝑗 | 𝐶) 𝑡 computing α at time i-1 will correctly incorporate paths through time i-2 : we correctly obey the Markov property

Forward Probability z i-2 z i-1 z i = = A = A A z i-2 z i-1 z i = = B = B B z i-2 z i-1 z i = = C = C C let’s first consider “ any shared path ending with B (AB, BB, or CB) → B” marginalize across the previous hidden state values α(i, B) is the total probability of all 𝛽 𝑗 − 1, 𝑡 ′ ∗ 𝑞 𝐶 𝑡 ′ ) ∗ 𝑞(obs at 𝑗 | 𝐶) 𝛽 𝑗, 𝐶 = ෍ paths to that state B from the 𝑡 ′ beginning computing α at time i-1 will correctly incorporate paths through time i-2 : we correctly obey the Markov property

Forward Probability 𝛽 𝑗 − 1, 𝑡 ′ ∗ 𝑞 𝑡 𝑡 ′ ) ∗ 𝑞(obs at 𝑗 | 𝑡) 𝛽 𝑗, 𝑡 = ෍ 𝑡 ′ α(i, s ) is the total probability of all paths: 1. that start from the beginning 2. that end (currently) in s at step i 3. that emit the observation obs at i

Forward Probability 𝛽 𝑗 − 1, 𝑡 ′ ∗ 𝑞 𝑡 𝑡 ′ ) ∗ 𝑞(obs at 𝑗 | 𝑡) 𝛽 𝑗, 𝑡 = ෍ 𝑡 ′ what are the what’s the total probability how likely is it to get immediate ways to up until now? into state s this way? get into state s ? α(i, s ) is the total probability of all paths: 1. that start from the beginning 2. that end (currently) in s at step i 3. that emit the observation obs at i

Forward Algorithm α : a 2D table, N+2 x K* N+2: number of observations (+2 for the BOS & EOS symbols) K*: number of states Use dynamic programming to build the α left-to- right

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 for(i = 1; i ≤ N+1; ++ i) { }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { } }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = p emission (obs i | state) } }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = p emission (obs i | state) for(old = 0; old < K*; ++old) { p move = p transition (state | old) α [i][state] += α [i-1][old] * p obs * p move } } }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 we still need to learn these α [0][START] = 1.0 (EM if not observed) for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = p emission (obs i | state) for(old = 0; old < K*; ++old) { p move = p transition (state | old) α [i][state] += α [i-1][old] * p obs * p move } } }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 Q: What do we return? (How do we return the likelihood of the sequence?) for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = p emission (obs i | state) for(old = 0; old < K*; ++old) { p move = p transition (state | old) α [i][state] += α [i-1][old] * p obs * p move } } }

Forward Algorithm α = double[N+2][K*] α [0][*] = 0.0 α [0][START] = 1.0 Q: What do we return? (How do we return the likelihood of the sequence?) for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = p emission (obs i | state) A: α [N+1][end] for(old = 0; old < K*; ++old) { p move = p transition (state | old) α [i][state] += α [i-1][old] * p obs * p move } } }

Interactive HMM Example https://goo.gl/rbHEoc (Jason Eisner, 2002) Original: http://www.cs.jhu.edu/~jason/465/PowerPoint/lect24-hmm.xls

Forward Algorithm in α = double[N+2][K*] Log-Space α [0][*] = - ∞ α [0][*] = 0.0 for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = log p emission (obs i | state) for(old = 0; old < K*; ++old) { p move = log p transition (state | old) α [i][state] = logadd( α [i][state], α [i-1][old] + p obs + p move ) } } }

Forward Algorithm in α = double[N+2][K*] Log-Space α [0][*] = - ∞ α [0][*] = 0.0 for(i = 1; i ≤ N+1; ++ i) { for(state = 0; state < K*; ++state) { p obs = log p emission (obs i | state) for(old = 0; old < K*; ++old) { p move = log p transition (state | old) α [i][state] = logadd( α [i][state], α [i-1][old] + p obs + p move ) scipy.misc.logsumexp } } logadd 𝑚𝑞, 𝑚𝑟 = ቊ 𝑚𝑞 + log 1 + exp 𝑚𝑟 − 𝑚𝑞 , 𝑚𝑞 ≥ 𝑚𝑟 } 𝑚𝑟 + log 1 + exp 𝑚𝑞 − 𝑚𝑟 , 𝑚𝑟 > 𝑚𝑞

EM & Hidden Markov Models CMSC 691 UMBC Recap from last time - PowerPoint PPT Presentation

EM & Hidden Markov Models CMSC 691 UMBC Recap from last time Expectation Maximization (EM) 0. Assume some value for your parameters Two step, iterative algorithm 1. E-step: count under uncertainty, assuming these parameters 2. M-step:

Hidden Markov Models Discrete Markov Processes 1 Hidden Markov Models Hidden Markov Models 2

CSCE 471/871 Lecture 3: Markov Chains Markov Chains and and Hidden Markov Models Hidden

Outline depmixS4: an R-package for hidden Markov models Hidden Markov Models Ingmar Visser 1

Markov chains and Hidden Markov Models 9000 Markov chains and HMMs We will discuss: Markov

Hidden Markov Models Steven J Zeil Old Dominion Univ. Fall 2010 1 Discrete Markov Processes

Hidden Markov Models Pratik Lahiri Introduction A hidden Markov model (HMM) is a

Markov Models Kunsch, H.R., State Space and Hidden Markov Models . ETH- Zurich, Zurich;

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University Markov Chains and

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University 2 Markov Chains

Markov Chains Markov Processes Discrete-time Markov Chains Continuous-time Markov Chains Dr

Markov Chains and Hidden Markov Models COMP 571 - Spring 2015 Luay Nakhleh, Rice University

The Hidden Markov The Hidden Markov Model (HMM) Model (HMM) 1 Lecture Outline Lecture Outline

Hidden Markov Models Markov Model (Finite State Machine with Probs) Modeling a sequence of

A spectral algorithm for learning hidden Markov models . . . h 3 h 2 h 1 x 3 x 2 x 1 Daniel Hsu

CS 4495 Computer Vision Hidden Markov Models Aaron Bobick School of Interactive Computing

Outline Sequential Data - Part 2 Greg Mori - CMPT 419/726 Hidden Markov Models - Most Likely

Reusing Constraint Proofs in Program Analysis Andrea Aquino , Francesco A. Bianchi ,

Discrete parafermions and quantum-group symmetries Yacine Ikhlef LPTHE (CNRS/Paris-6) joint

Learning Discrete and Continuous Factors of Data via Alternating Disentanglement Yeonwoo Jeong,

Another family of Steiner triple systems without almost parallel classes Daniel Horsley (Monash

An Introduction to Z3 Huixing Fang National Trusted Embedded Software Engineering Technology

CpSc 538G: Course Overview Mark Greenstreet September 7, 2016 Outline: What is verification?

Removing Apparent Singularities of Linear Differential Systems with Rational Function Coefficients

I2RS Service Topology Draft-hares-i2rs-service-topo-dm-05 I2RS Service Topology Model Why