Markov Models and Hidden Markov Models Robert Platt Northeastern - PowerPoint PPT Presentation

Markov Models and Hidden Markov Models Robert Platt Northeastern University Some images and slides are used from: 1. CS188 UC Berkeley 2. RN, AIMA

Markov Models We have already seen that an MDP provides a useful framework for modeling stochastic control problems. Markov Models: model any kind of temporally dynamic system.

Probability again: Independence Two random variables, x and y , are independent when: The outcomes of two different coin flips are usually independent of each other Image: Berkeley CS188 course notes (downloaded Summer 2015)

Probability again: Independence If: Then: Why?

Are T and W independent? T W P hot sun 0.4 hot rain 0.1 cold sun 0.2 cold rain 0.3 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Are T and W independent? T P hot 0.5 cold 0.5 T W P hot sun 0.4 hot rain 0.1 cold sun 0.2 cold rain 0.3 W P sun 0.6 rain 0.4 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Are T and W independent? T P hot 0.5 cold 0.5 T W P T W P hot sun 0.4 hot sun 0.3 hot rain 0.1 hot rain 0.2 cold sun 0.2 cold sun 0.3 cold rain 0.3 cold rain 0.2 W P sun 0.6 rain 0.4 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Conditional independence Independence: Conditional independence: Equivalent statements of conditional independence: Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Conditional independence: example  What about this domain:  T raffjc  Umbrella  Raining Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Conditional independence: example  What about this domain:  Fire  Smoke  Alarm Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Markov Processes State at time=1 State at time=2 transitions

Markov Processes State at time=1 State at time=2 transitions Since this is a Markov process, we assume transitions are Markov: Process model: Markov assumption:

Markov Processes How do we calculate:

Markov Processes How do we calculate: Can we simplify this expression?

Markov Processes How do we calculate:

Markov Processes How do we calculate: In general:

Markov Processes How do we calculate: Process model In general:

Markov Processes: example  States: X = {rain, sun}  Initial distribution: 1.0 sun  Process model: P(X t | X t-1 ): T wo new ways of representing the same CPT X t-1 X t P(X t |X t-1 ) sun sun 0.9 0.9 sun sun 0.3 0.1 sun rain 0.1 0.9 0.3 rain sun rain rain rain sun 0.3 0.7 0.7 rain rain 0.7 0.1 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Simulating dynamics forward Joint distribution: But, suppose we want to predict the state at time T, given a prior distribution at time 1? ...

Markov Processes: example 0.3 0.9  Initial distribution: 1.0 sun rain sun 0.7 0.1  What is the probability distribution after one step? Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Simulating dynamics forward  From initial observation of sun P( X 1 ) P( X 2 ) P( X 3 ) P( X 4 ) P( X ∞ )  From initial observation of rain P( X 1 ) P( X 2 ) P( X 3 ) P( X 4 ) P( X ∞ )  From yet another initial distribution P(X 1 ): … P( X 1 ) P( X ∞ ) Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Simulating dynamics forward  From initial observation of sun P( X 1 ) P( X 2 ) P( X 3 ) P( X 4 ) P( X ∞ )  From initial observation of rain This is called the stationary distribution P( X 1 ) P( X 2 ) P( X 3 ) P( X 4 ) P( X ∞ )  From yet another initial distribution P(X 1 ): … P( X 1 ) P( X ∞ ) Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Hidden Markov Models (HMMs) Hidden Markov Models: markov models applied to estimation problems – speech to text – tracking in computer vision – robot localization

Hidden Markov Models (HMMs) Called an “emission” State, , is assumed to be unobserved However, you get to make one observation, , on each timestep.

Hidden Markov Models (HMMs) Sensor Markov Assumption: the current observation depends only on current state:

HMM example Rain t-1 Rain t Rain t+1 Umbrella Umbrella Umbrella R t R t+1 P(R t+1 |R t ) t-1 t t+1 +r +r 0.7 +r -r 0.3 -r +r 0.3 -r -r 0.7  An HMM is defjned by: R t U t P(U t |R t )  Initial distribution: +r +u 0.9  T ransitions: +r -u 0.1  Emissions: -r +u 0.2 -r -u 0.8 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Real world HMM applications  Speech recognition HMMs:  Observations are acoustic signals (continuous valued)  States are specifjc positions in specifjc words (so, tens of thousands)  Machine translation HMMs:  Observations are words (tens of thousands)  States are translation options  Robot tracking:  Observations are range readings (continuous)  States are positions on a map (continuous) Slide: Berkeley CS188 course notes (downloaded Summer 2015)

HMM Filtering  Filtering, or monitoring, is the task of tracking the distribution B t (X) = P t (X t | e 1 , …, e t ) (the belief state) over time  We start with B 1 (X) in an initial setting, usually uniform  As time passes, or we get observations, we update B(X)  The Kalman fjlter was invented in the 60’s and fjrst implemented as a method of trajectory estimation for the Apollo program Slide: Berkeley CS188 course notes (downloaded Summer 2015)

HMM Filtering Given a prior distribution, , and a series of observations, , calculate the posterior distribution: Two steps: Process update Observation update

HMM Filtering Given a prior distribution, , and a series of observations, , calculate the posterior distribution: “Beliefs” Two steps: Process update Observation update

Process update This is just forward simulation of the Markov Model

Process update: example  As time passes, uncertainty “accumulates” (T ransition model: ghosts usually go clockwise) T = 1 T = 2 T = 5 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Observation update Where is a normalization factor

Observation update  As we get observations, beliefs get reweighted, uncertainty “decreases” Before observation After observation Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Robot localization example Prob 0 1 Observation model: can read in which directions there is a wall, never more than 1 mistake Process model: may not execute action with small prob. Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Robot localization example Prob 0 1 Lighter grey: was possible to get the reading, but less likely b/c required 1 mistake Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Robot localization example Prob 0 1 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Weather HMM example R t R t+1 P(R t+1 |R t ) +r +r 0.7 +r -r 0.3 -r +r 0.3 B(+r) = 0.5 -r -r 0.7 B(-r) = 0.5 Rain 0 Rain 1 Rain 2 R t U t P(U t |R t ) +r +u 0.9 +r -u 0.1 -r +u 0.2 Umbrella 1 Umbrella 2 -r -u 0.8 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Weather HMM example R t R t+1 P(R t+1 |R t ) +r +r 0.7 B’(+r) = 0.5 B’(-r) = 0.5 +r -r 0.3 -r +r 0.3 -r -r 0.7 B(+r) = 0.5 B(-r) = 0.5 Rain 0 Rain 1 Rain 2 R t U t P(U t |R t ) +r +u 0.9 +r -u 0.1 -r +u 0.2 Umbrella 1 Umbrella 2 -r -u 0.8 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Weather HMM example R t R t+1 P(R t+1 |R t ) +r +r 0.7 B’(+r) = 0.5 B’(-r) = 0.5 +r -r 0.3 -r +r 0.3 -r -r 0.7 B(+r) = 0.818 B(+r) = 0.5 B(-r) = 0.182 B(-r) = 0.5 Rain 0 Rain 1 Rain 2 R t U t P(U t |R t ) +r +u 0.9 +r -u 0.1 -r +u 0.2 Umbrella 1 Umbrella 2 -r -u 0.8 Slide: Berkeley CS188 course notes (downloaded Summer 2015)

Markov Models and Hidden Markov Models Robert Platt Northeastern - PowerPoint PPT Presentation

Markov Models and Hidden Markov Models Robert Platt Northeastern University Some images and slides are used from: 1. CS188 UC Berkeley 2. RN, AIMA Markov Models We have already seen that an MDP provides a useful framework for modeling

Hidden Markov Models Discrete Markov Processes 1 Hidden Markov Models Hidden Markov Models 2

CSCE 471/871 Lecture 3: Markov Chains Markov Chains and and Hidden Markov Models Hidden

Outline depmixS4: an R-package for hidden Markov models Hidden Markov Models Ingmar Visser 1

Markov chains and Hidden Markov Models 9000 Markov chains and HMMs We will discuss: Markov

Hidden Markov Models Steven J Zeil Old Dominion Univ. Fall 2010 1 Discrete Markov Processes

Hidden Markov Models Pratik Lahiri Introduction A hidden Markov model (HMM) is a

Markov Models Kunsch, H.R., State Space and Hidden Markov Models . ETH- Zurich, Zurich;

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University Markov Chains and

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University 2 Markov Chains

Markov Chains Markov Processes Discrete-time Markov Chains Continuous-time Markov Chains Dr

The Hidden Markov The Hidden Markov Model (HMM) Model (HMM) 1 Lecture Outline Lecture Outline

Markov Chains and Hidden Markov Models COMP 571 - Spring 2015 Luay Nakhleh, Rice University

Hidden Markov Models Markov Model (Finite State Machine with Probs) Modeling a sequence of

A spectral algorithm for learning hidden Markov models . . . h 3 h 2 h 1 x 3 x 2 x 1 Daniel Hsu

CS 4495 Computer Vision Hidden Markov Models Aaron Bobick School of Interactive Computing

Outline Sequential Data - Part 2 Greg Mori - CMPT 419/726 Hidden Markov Models - Most Likely

Cumulative Prospect Theory Meets Reinforcement Learning: Prediction and Control Prashanth L.A.

Developing and managing dynamic business collaborations A rule based approach for modeling and

Parallel Programming and Heterogeneous Computing Shared-Memory: Concurrency & Synchronization

Income Growth in the 21st Century: Forecasts with an Overlapping Generations Model David de la

with the Guarded Action Language Quentin Meunier, Yann Thierry-Mieg, Emmanuelle Encrenaz

Neutrino Oscillations and and Lorentz Violation Results from MiniBooNE Outline: z - LSND -

Probabilistic Modeling: Bayesian Networks Bioinformatics: Sequence Analysis COMP 571 - Spring

high performance networking from GPU kernels Feras Daoud Technion Israel Institute of

Markov Models and Hidden Markov Models Robert Platt Northeastern - PowerPoint PPT Presentation

Markov Models and Hidden Markov Models Robert Platt Northeastern University Some images and slides are used from: 1. CS188 UC Berkeley 2. RN, AIMA Markov Models We have already seen that an MDP provides a useful framework for modeling

Hidden Markov Models Discrete Markov Processes 1 Hidden Markov Models Hidden Markov Models 2

CSCE 471/871 Lecture 3: Markov Chains Markov Chains and and Hidden Markov Models Hidden

Outline depmixS4: an R-package for hidden Markov models Hidden Markov Models Ingmar Visser 1

Markov chains and Hidden Markov Models 9000 Markov chains and HMMs We will discuss: Markov

Hidden Markov Models Steven J Zeil Old Dominion Univ. Fall 2010 1 Discrete Markov Processes

Hidden Markov Models Pratik Lahiri Introduction A hidden Markov model (HMM) is a

Markov Models Kunsch, H.R., State Space and Hidden Markov Models . ETH- Zurich, Zurich;

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University Markov Chains and

Markov Chains and Hidden Markov Models COMP 571 Luay Nakhleh, Rice University 2 Markov Chains

Markov Chains Markov Processes Discrete-time Markov Chains Continuous-time Markov Chains Dr

The Hidden Markov The Hidden Markov Model (HMM) Model (HMM) 1 Lecture Outline Lecture Outline

Markov Chains and Hidden Markov Models COMP 571 - Spring 2015 Luay Nakhleh, Rice University

Hidden Markov Models Markov Model (Finite State Machine with Probs) Modeling a sequence of

A spectral algorithm for learning hidden Markov models . . . h 3 h 2 h 1 x 3 x 2 x 1 Daniel Hsu

CS 4495 Computer Vision Hidden Markov Models Aaron Bobick School of Interactive Computing

Outline Sequential Data - Part 2 Greg Mori - CMPT 419/726 Hidden Markov Models - Most Likely

Cumulative Prospect Theory Meets Reinforcement Learning: Prediction and Control Prashanth L.A.

Developing and managing dynamic business collaborations A rule based approach for modeling and

Parallel Programming and Heterogeneous Computing Shared-Memory: Concurrency &amp; Synchronization

Income Growth in the 21st Century: Forecasts with an Overlapping Generations Model David de la

with the Guarded Action Language Quentin Meunier, Yann Thierry-Mieg, Emmanuelle Encrenaz

Neutrino Oscillations and and Lorentz Violation Results from MiniBooNE Outline: z - LSND -

Probabilistic Modeling: Bayesian Networks Bioinformatics: Sequence Analysis COMP 571 - Spring

high performance networking from GPU kernels Feras Daoud Technion Israel Institute of

Parallel Programming and Heterogeneous Computing Shared-Memory: Concurrency & Synchronization