DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif - - PowerPoint PPT Presentation
DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif - - PowerPoint PPT Presentation
DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif discovery Input: X 1 A set of DNA sequences X 2 bound by the same TF X 3 Upstream regions of co- regulated genes X 4 Sequences bound in a
DNA motif discovery
- Input:
– A set of DNA sequences bound by the same TF
- Upstream regions of co-
regulated genes
- Sequences bound in a
ChIP-chip/seq experiment
X1 X2 X3 X4 Xn
- Output:
– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites
TTATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCA TATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTG GAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGG AAGACTCTCCTCCGTGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATA AAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATC AAATTAACAACCATAGGATGATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGAT CTATTAACAGATATATAAATGGAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTC AAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCT CATTCAGAAGAAGTGATTGTACCTGAGTTCAATTCTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAA TTAAGAAATTTATAAGCGCTTATGATGCTAAACCGGATTTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATAT TGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGATTTTGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCA TCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAAGTTCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATC CTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTGCTCACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTT TGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCAACTGGCAGTGGATTGTCTTCTTCGGCCGCATTC ATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATATGTCCAAGCAAAATTTAATGCGTATTACGG TCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTTGCGGTGAGGAAGATCATGCTCTATA CGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAAATTAGCTTTGTTATTGCGAAC ACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCACTACAGCTGCAAATGTTT TAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAGATTTCATGAACGT TTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAGATGCTAGTA CTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGAAGAAT TCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAATC TTTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTG ATGAACGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAA ATGGATCATATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACAT AGAAAAGGTAAAAGAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATC ATCGTCTCTAAACCAGCATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCA TTTTTTTCTACTCATAACTTTAGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACT ACTTAATAAATGATTGTATGATAATGTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTT GATATGCTTTCAACCGCTGCGTTTTGGATACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGAC GTCTTATCATATGTCAAAGTCATTTGCGAAGTTCTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGA AACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTACGAGAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCA GATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACAGAAAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCA CCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGAAAAATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGT AAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCATTTTCCATTAAATCTCTGTTCTCTCTTACTTATATGAT GATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCATACCCCATAGAGAAGATCTTTCGGTTCGAAGACAT TCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATTTAAGCGGCTCTTCAAAAAGATTGAACTCTC GCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAAGAGTATAAGTCATCTCAGAGTAATAT AACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATACAGCTCATTCTGGAAGAAAATC TATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACAACCAGGACTTGAAGCCCG TCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATCAACACTTGGCAAAT ATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCATATA TATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTC TAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTC TGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACT CTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATCAAATTAACAACCATAGGATG AATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAATGGAA GCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAAT TTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCTCATTCAGAAGAAGTGATTGTACCTGAGTTCAA CTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAATTAAGAAATTTATAAGCGCTTATGATGCTAAACCGG TTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATATTGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGAT TGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCATCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAA TCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATCCTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTG CACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTTTGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCA TGGCAGTGGATTGTCTTCTTCGGCCGCATTCATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATAT CCAAGCAAAATTTAATGCGTATTACGGTCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTT GGTGAGGAAGATCATGCTCTATACGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAA TAGCTTTGTTATTGCGAACACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCAC CAGCTGCAAATGTTTTAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAG TTCATGAACGTTTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAG GCTAGTACTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGA AATTCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAAT TTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTGATG CGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAAATGGATC ATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACATAGAAAAGGTAA GAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATCATCGTCTCTAAACCA ATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCATTTTTTTCTACTCATAACT AGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACTACTTAATAAATGATTGTATGATA GTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTTGATATGCTTTCAACCGCTGCGTTTTGG ACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGACGTCTTATCATATGTCAAAGTCATTTGCGAAG CTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGAAACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTAC GAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCAGATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACA AAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCACCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGA AATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGTAAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCA TTCCATTAAATCTCTGTTCTCTCTTACTTATATGATGATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCAT CCCATAGAGAAGATCTTTCGGTTCGAAGACATTCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATT AGCGGCTCTTCAAAAAGATTGAACTCTCGCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAA GTATAAGTCATCTCAGAGTAATATAACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATA GCTCATTCTGGAAGAAAATCTATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACA CAGGACTTGAAGCCCGTCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATC CACTTGGCAAATTGCAGCTACAGGTCTACAACTGGGTCTAAATTGGTGGCAGTGTTGGATAACAATTTGGATTGGGTACGGTTTCGT GTGCTTTTGTTGTTTTGGCCTCTAGAGTTGGATCTGCTTATCATTTGTCATTCCCTATATCATCTAGAGCATCATTCGGTATTTTCT
Genes ¡ TF ¡binding ¡ sites ¡
Regulatory ¡elements ¡– ¡TF ¡binding ¡sites ¡
General transcriptional machinery
TSS gene
Transcription factors (TFs) TF binding sites
DNA motif discovery ¡
- Models? ¡
Consensus
R T G A S T C A Y
IUPAC codes
PWM (PSSM) Motif logo Position Weight Matrix
1 2 3 4 5 6 7 8 9 A 0.54 0.01 0.01 0.97 0.00 0.01 0.06 0.97 0.01 C 0.04 0.01 0.01 0.01 0.44 0.01 0.93 0.01 0.41 G 0.41 0.01 0.93 0.01 0.56 0.01 0.01 0.01 0.04 T 0.01 0.97 0.05 0.01 0.00 0.97 0.00 0.01 0.54
Motif logos and the information content
- The IC of a motif tells us how different the
motif is from the background distribution
- In general, when building a motif (and especially a motif logo) the
background distribution is assumed to be uniform (bA=bC=bG=bT=0.25)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 A
0.25 0.42 0.62 0.30 0.00 1.00 0.00 0.00 0.00 0.00 0.23 0.05 0.15 0.20
C
0.25 0.10 0.03 0.32 1.00 0.00 1.00 0.00 0.00 0.00 0.15 0.30 0.33 0.26
G 0.25 0.33 0.30 0.15 0.00 0.00 0.00 1.00 0.00 1.00 0.32 0.03 0.10 0.16 T
0.25 0.15 0.05 0.23 0.00 0.00 0.00 0.00 1.00 0.00 0.30 0.62 0.42 0.38
IC is 0 + (1 x log2(1/0.25)) + 0 + 0=2 IC is 4 x 0.25 x log2(0.25/0.25)=0
DNA ¡mo'f ¡discovery ¡
- Similar ¡to ¡a ¡local ¡alignment ¡problem ¡
DNA ¡mo'f ¡discovery ¡
- Similar ¡to ¡a ¡local ¡alignment ¡problem, ¡but… ¡
- What ¡makes ¡mo'f ¡discovery ¡hard? ¡ ¡
– Mo'fs ¡act ¡at ¡variable ¡distances ¡upstream ¡(or ¡ downstream) ¡of ¡target ¡genes ¡ ¡ – Mo'fs ¡are ¡short ¡(5-‑15bp) ¡ ¡ – Mo'fs ¡are ¡degenerate ¡
¡
Where ¡do ¡ambiguous ¡bases ¡come ¡from?
…
bHLH
(Pho4, 1A0A)
Forkhead
(Foxo4, 3L2C)
bZIP
(Gcn4, 1YSA)
Homeodomain
(Pdx1, 2H1K)
Where ¡do ¡ambiguous ¡bases ¡come ¡from?
PDB structure: 1MDY
Where ¡does ¡specificity ¡come ¡from? ¡
Where ¡does ¡specificity ¡come ¡from? ¡
DNA motif discovery
- Input:
– A set of DNA sequences bound by the same TF
- Upstream regions of co-
regulated genes
- Sequences bound in a
ChIP-chip/seq experiment
X1 X2 X3 X4 Xn
- Output:
– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites
Aligned ¡sequences ¡<=> ¡PWM ¡
- Given ¡a ¡set ¡of ¡aligned ¡sequences, ¡it ¡is ¡straighXorward ¡to ¡
construct ¡a ¡PWM ¡
- Given ¡a ¡PWM, ¡we ¡can ¡construct ¡the ¡alignment ¡
- In ¡a ¡typical ¡case, ¡neither ¡the ¡PWM ¡nor ¡the ¡alignment ¡are ¡
known ¡
We ¡can ¡use ¡Expecta'on ¡Maximiza'on ¡
The ¡MEME ¡Algorithm ¡ ¡
- MEME ¡(Mul'ple ¡Em ¡for ¡Mo'f ¡Elicita'on): ¡Bailey ¡& ¡Elkan, ¡1994 ¡
- Uses ¡EM ¡to ¡find ¡mul'ple ¡mo'fs ¡in ¡a ¡set ¡of ¡sequences ¡
- First ¡EM ¡approach ¡to ¡mo'f ¡discovery: ¡Lawrence ¡& ¡Reilly ¡1990 ¡
Gibbs ¡Sampling ¡ ¡
- A ¡general ¡procedure ¡for ¡sampling ¡from ¡the ¡joint ¡distribu'on ¡of ¡
a ¡set ¡of ¡random ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡P(U1...Un) ¡
¡by ¡itera'vely ¡sampling ¡from ¡individual ¡condi'onal ¡distribu'ons ¡ ¡
¡ ¡ ¡P(Uj |U1... Uj-1, Uj+1... Un)
- Applica'on ¡to ¡mo'f ¡finding: ¡Lawrence ¡et ¡al. ¡1993 ¡
- We ¡can ¡view ¡Gibbs ¡sampling ¡as ¡a ¡stochas'c ¡analog ¡of ¡EM ¡for ¡
the ¡mo'f ¡discovery ¡task ¡
- Advantage: ¡less ¡suscep'ble ¡to ¡local ¡minima ¡than ¡EM ¡
The ¡PRIORITY ¡framework ¡
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =
Z3 Zi = 0
- Goal: find optimal values for and that maximize the posterior
φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z)
- Input:
– – background model
- Output:
– the starting locations of binding sites in the DNA sequences – the motif model (PWM)
The ¡PRIORITY ¡framework ¡
- Input:
– – background model
- Output:
– the starting locations of binding sites in the DNA sequences – the motif model (PWM)
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =
Z3 Zi = 0
- Goal: find optimal values for and that maximize the posterior
φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z)
Posterior
The ¡PRIORITY ¡framework ¡
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =
Z3 Zi = 0
- Goal: find optimal values for and that maximize the posterior
φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z)
Posterior Likelihood
- Input:
– – background model
- Output:
– the starting locations of binding sites in the DNA sequences – the motif model (PWM)
The ¡PRIORITY ¡framework ¡
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =
Z3 Zi = 0
- Goal: find optimal values for and that maximize the posterior
φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z)
Posterior Likelihood Prior
- Input:
– – background model
- Output:
– the starting locations of binding sites in the DNA sequences – the motif model (PWM)
The ¡PRIORITY ¡framework ¡
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =
Z3 Zi = 0
- Goal: find optimal values for and that maximize the posterior
φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z)
Posterior Likelihood Prior
) ∝ P ) ×
- Input:
– – background model
- Output:
– the starting locations of binding sites in the DNA sequences – the motif model (PWM)
The ¡PRIORITY ¡framework ¡
- Goal: find optimal values for and that maximize the posterior
- Gibbs sampling: sample from the posterior by sampling iteratively
from individual conditional distributions
- For faster convergence: collapsed Gibbs sampling
- Integrate out and sample only the from
P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)
Positional prior
φ Z φ Z
arg max
φ,Z
P(φ, Z | X, φ0) = arg max
φ,Z
P(X | φ, Z, φ0) × P(φ) × P(Z) Xi Zi
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
Z3
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
Z3
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
- 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡
PWM
Compute frequencies Align the sites
Z
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
Z3
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
- 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡
PWM
- 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡
possible ¡values ¡for ¡Zi
P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)
Xi
Compute frequencies Align the sites
Z
- 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
- 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡
PWM
- 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡
possible ¡values ¡for ¡Zi
P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)
Xi
Compute frequencies Align the sites
Z
Z3
- 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
Z3
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
- 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡
PWM
- 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡
possible ¡values ¡for ¡Zi
P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)
Xi
Compute frequencies Align the sites
Z
- 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡
PRIORITY ¡– ¡Gibbs ¡sampling ¡
- Input: ,
- Output: ,
X1 X2 X3 X4 Xn
Z1 Z2 Zn Z4
X Z φ = φ0
- 1. ¡Randomly ¡choose ¡the ¡Zs ¡
- 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡
PWM
- 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡