 
              Hidden ¡Markov ¡Models ¡II ¡ Machine ¡Learning ¡10-‑601B ¡ Seyoung ¡Kim ¡ Many ¡of ¡these ¡slides ¡are ¡derived ¡from ¡Tom ¡ Mitchell, ¡Ziv ¡Bar-‑Joseph. ¡Thanks! ¡
A ¡Hidden ¡Markov ¡Model ¡ • The ¡joint ¡probability ¡of ¡(Q,O) ¡is ¡defined ¡as ¡ T ∏ P ( Q , O ) = p ( q 1 ) p ( o 1 | q 1 ) p ( q t | q t − 1 ) p ( o t | q t ) t = 2 emission ¡ transiPon ¡ IniPal ¡probability ¡ probability ¡ probability ¡ …. ¡ q 1 ¡ q 2 ¡ q 3 ¡ q T ¡ o 1 ¡ o 2 ¡ o 3 ¡ o T ¡
Learning ¡HMMs ¡ • UnPl ¡now ¡we ¡assumed ¡that ¡the ¡emission ¡and ¡transiPon ¡ probabiliPes ¡are ¡known ¡ • This ¡is ¡usually ¡not ¡the ¡case ¡ ¡ ¡ ¡ ¡-‑ ¡How ¡is ¡“AI” ¡pronounced ¡by ¡different ¡individuals? ¡ ¡ ¡ ¡ ¡-‑ ¡What ¡is ¡the ¡probability ¡of ¡hearing ¡“class” ¡a[er ¡“AI”? ¡ 3 ¡
Learning ¡HMM ¡When ¡Hidden ¡States ¡are ¡ Observed ¡ • Assume ¡both ¡hidden ¡and ¡observed ¡states ¡are ¡observed ¡ – Data: ¡((O 1 ,Q 1 ), ¡…, ¡(O K ,Q K )) ¡for ¡K ¡sequences, ¡where ¡O k ¡= ¡(o 1 k ,…,o T k ) ¡ Q k =(q 1 k ,…,q T k ) ¡ • MLE ¡for ¡learning! ¡ argmax log p (( O 1 , Q 1 ),...,( O K , Q K )) T k | q 1 k | q t − 1 k | q t ∏ ( q 1 k ) p ( o 1 k ) ∏ k ) k ) argmax log p p ( q t p ( o t k t = 2 4 ¡
Learning ¡HMM ¡When ¡Hidden ¡States ¡are ¡ Observed ¡ • MLE ¡for ¡HMM ¡ log p (( O 1 , Q 1 ),...,( O K , Q K )) T k | q 1 k | q t − 1 k | q t ∏ ( q 1 ∏ k ) p ( o 1 k ) k ) k ) = log p p ( q t p ( o t k t = 2 k | q 1 k | q t k | q t − 1 ∑ ∑ ∑ ∑ ∑ ∑ k ) k ) + k ) k ) log p ( q 1 log p ( o 1 log p ( o t log p ( q t = + + k k k t k t Involves ¡only ¡ Involves ¡only ¡ Involves ¡only ¡ iniPal ¡ emission ¡ transiPon ¡ probabiliPes ¡ probabiliPes ¡ probabiliPes ¡ • DifferenPate ¡w.r.t. ¡each ¡parameters ¡and ¡set ¡it ¡to ¡0 ¡and ¡solve! ¡ Closed ¡form ¡soluPon ¡ 5 ¡
Example ¡ • Assume ¡the ¡model ¡below ¡ • We ¡also ¡observe ¡the ¡following ¡sequence: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 1,2,2,5,6,5,1 ¡ ¡ ¡ ¡ ¡ ¡ 1,3,2,5,6,5,2 ¡ ¡ ¡ ¡ ¡ ¡ 3,2,1,3,6,5,4 ¡ • How ¡can ¡we ¡determine ¡the ¡iniPal, ¡transiPon ¡and ¡emission ¡ probabiliPes? ¡ A ¡ B ¡ 6 ¡
Ini>al ¡probabili>es ¡ Q: ¡assume ¡we ¡can ¡observe ¡the ¡following ¡sets ¡of ¡states: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ AAABBAA ¡ 1,2,2,5,6,5,1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AABBBBB ¡ 1,3,2,5,6,5,2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BAABBAB ¡ 3,2,1,3,6,5,4 ¡ ¡ ¡ ¡ ¡ ¡how ¡can ¡we ¡learn ¡the ¡iniPal ¡probabiliPes? ¡ k ¡is ¡the ¡number ¡of ¡ sequences ¡avialable ¡for ¡ A: ¡Maximum ¡likelihood ¡esPmaPon ¡ training ¡ ¡ ¡ ¡ ¡Find ¡the ¡iniPal ¡probabiliPes ¡ π ¡such ¡that ¡ T k | q 1 k | q t − 1 k | q t π * = argmax log ∏ ( q 1 k ) p ( o 1 k ) ∏ k ) k ) p p ( q t p ( o t k t = 2 π * = argmax log ∏ ( q 1 k ) p k π A ¡= ¡#A/ ¡(#A+#B) ¡ A ¡ B ¡ 7 ¡
Transi>on ¡probabili>es ¡ Q: ¡assume ¡we ¡can ¡observe ¡the ¡set ¡of ¡states: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AAABBAA ¡ 1,2,2,5,6,5,1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AABBBBB ¡ 1,3,2,5,6,5,2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BAABBAB ¡ 3,2,1,3,6,5,4 ¡ remember ¡that ¡we ¡defined ¡ ¡ ¡ ¡ ¡ ¡how ¡can ¡we ¡learn ¡the ¡transiPon ¡probabiliPes? ¡ a i,j =p(q t =s j |q t-‑1 =s i ) ¡ A: ¡Maximum ¡likelihood ¡esPmaPon ¡ ¡ ¡ ¡ ¡Find ¡a ¡transiPon ¡matrix ¡ a ¡such ¡that ¡ T k | q 1 k | q t − 1 k | q t a * = argmax log ∏ ( q 1 ∏ k ) p ( o 1 k ) k ) k ) p p ( q t p ( o t k t = 2 T k | q t − 1 a * = argmax log ∏ ∏ k ) p ( q t k t = 2 A ¡ B ¡ a A,B ¡= ¡#AB ¡/ ¡(#AB+#AA) ¡ 8 ¡
Transi>on ¡probabili>es ¡ Q: ¡assume ¡we ¡can ¡observe ¡the ¡set ¡of ¡states: ¡ Moving ¡window ¡of ¡size ¡2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AAABBAA ¡ 1,2,2,5,6,5,1 ¡ -‑>#AA, ¡#AB, ¡#BA, ¡#BB ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AABBBBB ¡ 1,3,2,5,6,5,2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BAABBAB ¡ 3,2,1,3,6,5,4 ¡ remember ¡that ¡we ¡defined ¡ ¡ ¡ ¡ ¡ ¡how ¡can ¡we ¡learn ¡the ¡transiPon ¡probabiliPes? ¡ a i,j =p(q t =s j |q t-‑1 =s i ) ¡ A: ¡Maximum ¡likelihood ¡esPmaPon ¡ ¡ ¡ ¡ ¡Find ¡a ¡transiPon ¡matrix ¡ a ¡such ¡that ¡ T k | q 1 k | q t − 1 k | q t a * = argmax log ∏ ( q 1 ∏ k ) p ( o 1 k ) k ) k ) p p ( q t p ( o t k t = 2 T k | q t − 1 a * = argmax log ∏ ∏ k ) p ( q t k t = 2 A ¡ B ¡ a A,B ¡= ¡#AB ¡/ ¡(#AB+#AA) ¡ 9 ¡
Emission ¡probabili>es ¡ Q: ¡assume ¡we ¡can ¡observe ¡the ¡set ¡of ¡states: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AAABBAA ¡ 1,2,2,5,6,5,1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡AABBBBB ¡ 1,3,2,5,6,5,2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BAABBAB ¡ 3,2,1,3,6,5,4 ¡ remember ¡that ¡we ¡defined ¡ ¡ ¡ ¡ ¡ ¡how ¡can ¡we ¡learn ¡the ¡transiPon ¡probabiliPes? ¡ b i (o t ) ¡= ¡P(o t ¡| ¡s i ) ¡ A: ¡Maximum ¡likelihood ¡esPmaPon ¡ ¡ ¡ ¡ ¡Find ¡an ¡emission ¡matrix ¡ b ¡ such ¡that ¡ T k | q 1 k | q t − 1 k | q t b * = argmax log ∏ ( q 1 k ) p ( o 1 k ) ∏ k ) k ) p p ( q t p ( o t k t = 2 T k | q 1 k | q t b * = argmax log ∏ ∏ k ) k ) p ( o 1 p ( o t k t = 2 A ¡ b A (5)= ¡#A5 ¡/ ¡(#A1+#A2 ¡+ ¡… ¡+#A6)=#A5/#A ¡ B ¡ 10 ¡
Learning ¡HMMs ¡ • In ¡most ¡case ¡we ¡do ¡not ¡know ¡what ¡states ¡generated ¡each ¡of ¡ the ¡outputs ¡(hidden ¡states ¡are ¡unobserved) ¡ – … ¡but ¡had ¡we ¡known, ¡it ¡would ¡be ¡very ¡easy ¡to ¡determine ¡an ¡emission ¡ and ¡transiPon ¡model! ¡ – On ¡the ¡other ¡hand, ¡if ¡we ¡had ¡such ¡a ¡model ¡we ¡could ¡determine ¡the ¡set ¡ of ¡states ¡using ¡the ¡inference ¡methods ¡we ¡discussed ¡ 11 ¡
Expecta>on ¡Maximiza>on ¡(EM) ¡ • Appropriate ¡for ¡problems ¡with ¡‘missing ¡values’ ¡for ¡the ¡ variables. ¡ • For ¡example, ¡in ¡HMMs ¡we ¡usually ¡do ¡not ¡observe ¡the ¡states ¡ • Assume ¡complete ¡data ¡log ¡likelihood ¡and ¡maximize ¡expected ¡ log ¡likelihood ¡ argmax E [log p (( O 1 , Q 1 ),...,( O K , Q K ))] T k | q 1 k | q t − 1 k | q t ∏ ( q 1 k ) p ( o 1 k ) ∏ k ) k )] argmax E [log p p ( q t p ( o t k t = 2 ¡ ¡ ¡ ¡where ¡the ¡expectaPon ¡is ¡taken ¡with ¡respect ¡to ¡p(Q|O, ¡ parameters) ¡ ¡ ¡ 12 ¡
Expecta>on ¡Maximiza>on ¡(EM): ¡Quick ¡ reminder ¡ • Two ¡steps ¡ – E ¡step: ¡Fill ¡in ¡the ¡missing ¡variables ¡with ¡the ¡expected ¡values ¡ – M ¡step: ¡Regular ¡maximum ¡likelihood ¡esPmaPon ¡(MLE) ¡using ¡the ¡values ¡computed ¡in ¡the ¡ E ¡step ¡and ¡the ¡values ¡of ¡the ¡other ¡variables ¡ • Guaranteed ¡to ¡converge ¡(though ¡only ¡to ¡a ¡local ¡minima). ¡ expected ¡values ¡for ¡ (missing) ¡variables ¡ M ¡step ¡ E ¡step ¡ parameters ¡ 13 ¡
E ¡Step ¡ • In ¡our ¡example, ¡with ¡complete ¡data, ¡we ¡needed ¡ – #A, ¡#B ¡to ¡esPmate ¡iniPal ¡probabiliPes ¡and ¡emission ¡probabiliPes ¡ – #AA, ¡#AB, ¡#BA, ¡#BB ¡to ¡esPmate ¡transiPon ¡probabiliPes ¡ • When ¡hidden ¡states ¡are ¡not ¡observed, ¡we ¡need ¡“expected ¡ counts” ¡in ¡E ¡step ¡ A ¡ B ¡ 14 ¡ 14 ¡
Recommend
More recommend