DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif - - PowerPoint PPT Presentation

dna mo f discovery
SMART_READER_LITE
LIVE PREVIEW

DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif - - PowerPoint PPT Presentation

DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif discovery Input: X 1 A set of DNA sequences X 2 bound by the same TF X 3 Upstream regions of co- regulated genes X 4 Sequences bound in a


slide-1
SLIDE 1

DNA ¡Mo'f ¡Discovery

¡

COMPSCI ¡260 ¡– ¡Spring ¡2016 ¡

slide-2
SLIDE 2

DNA motif discovery

  • Input:

– A set of DNA sequences bound by the same TF

  • Upstream regions of co-

regulated genes

  • Sequences bound in a

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

  • Output:

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

slide-3
SLIDE 3

TTATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCA TATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTG GAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGG AAGACTCTCCTCCGTGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATA AAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATC AAATTAACAACCATAGGATGATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGAT CTATTAACAGATATATAAATGGAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTC AAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCT CATTCAGAAGAAGTGATTGTACCTGAGTTCAATTCTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAA TTAAGAAATTTATAAGCGCTTATGATGCTAAACCGGATTTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATAT TGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGATTTTGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCA TCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAAGTTCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATC CTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTGCTCACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTT TGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCAACTGGCAGTGGATTGTCTTCTTCGGCCGCATTC ATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATATGTCCAAGCAAAATTTAATGCGTATTACGG TCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTTGCGGTGAGGAAGATCATGCTCTATA CGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAAATTAGCTTTGTTATTGCGAAC ACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCACTACAGCTGCAAATGTTT TAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAGATTTCATGAACGT TTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAGATGCTAGTA CTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGAAGAAT TCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAATC TTTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTG ATGAACGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAA ATGGATCATATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACAT AGAAAAGGTAAAAGAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATC ATCGTCTCTAAACCAGCATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCA TTTTTTTCTACTCATAACTTTAGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACT ACTTAATAAATGATTGTATGATAATGTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTT GATATGCTTTCAACCGCTGCGTTTTGGATACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGAC GTCTTATCATATGTCAAAGTCATTTGCGAAGTTCTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGA AACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTACGAGAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCA GATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACAGAAAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCA CCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGAAAAATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGT AAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCATTTTCCATTAAATCTCTGTTCTCTCTTACTTATATGAT GATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCATACCCCATAGAGAAGATCTTTCGGTTCGAAGACAT TCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATTTAAGCGGCTCTTCAAAAAGATTGAACTCTC GCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAAGAGTATAAGTCATCTCAGAGTAATAT AACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATACAGCTCATTCTGGAAGAAAATC TATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACAACCAGGACTTGAAGCCCG TCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATCAACACTTGGCAAAT ATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCATATA TATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTC TAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTC TGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACT CTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATCAAATTAACAACCATAGGATG AATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAATGGAA GCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAAT TTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCTCATTCAGAAGAAGTGATTGTACCTGAGTTCAA CTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAATTAAGAAATTTATAAGCGCTTATGATGCTAAACCGG TTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATATTGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGAT TGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCATCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAA TCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATCCTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTG CACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTTTGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCA TGGCAGTGGATTGTCTTCTTCGGCCGCATTCATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATAT CCAAGCAAAATTTAATGCGTATTACGGTCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTT GGTGAGGAAGATCATGCTCTATACGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAA TAGCTTTGTTATTGCGAACACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCAC CAGCTGCAAATGTTTTAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAG TTCATGAACGTTTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAG GCTAGTACTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGA AATTCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAAT TTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTGATG CGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAAATGGATC ATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACATAGAAAAGGTAA GAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATCATCGTCTCTAAACCA ATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCATTTTTTTCTACTCATAACT AGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACTACTTAATAAATGATTGTATGATA GTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTTGATATGCTTTCAACCGCTGCGTTTTGG ACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGACGTCTTATCATATGTCAAAGTCATTTGCGAAG CTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGAAACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTAC GAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCAGATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACA AAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCACCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGA AATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGTAAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCA TTCCATTAAATCTCTGTTCTCTCTTACTTATATGATGATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCAT CCCATAGAGAAGATCTTTCGGTTCGAAGACATTCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATT AGCGGCTCTTCAAAAAGATTGAACTCTCGCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAA GTATAAGTCATCTCAGAGTAATATAACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATA GCTCATTCTGGAAGAAAATCTATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACA CAGGACTTGAAGCCCGTCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATC CACTTGGCAAATTGCAGCTACAGGTCTACAACTGGGTCTAAATTGGTGGCAGTGTTGGATAACAATTTGGATTGGGTACGGTTTCGT GTGCTTTTGTTGTTTTGGCCTCTAGAGTTGGATCTGCTTATCATTTGTCATTCCCTATATCATCTAGAGCATCATTCGGTATTTTCT

Genes ¡ TF ¡binding ¡ sites ¡

slide-4
SLIDE 4

Regulatory ¡elements ¡– ¡TF ¡binding ¡sites ¡

General transcriptional machinery

TSS gene

Transcription factors (TFs) TF binding sites

slide-5
SLIDE 5

DNA motif discovery ¡

  • Models? ¡

Consensus

R T G A S T C A Y

IUPAC codes

PWM (PSSM) Motif logo Position Weight Matrix

1 2 3 4 5 6 7 8 9 A 0.54 0.01 0.01 0.97 0.00 0.01 0.06 0.97 0.01 C 0.04 0.01 0.01 0.01 0.44 0.01 0.93 0.01 0.41 G 0.41 0.01 0.93 0.01 0.56 0.01 0.01 0.01 0.04 T 0.01 0.97 0.05 0.01 0.00 0.97 0.00 0.01 0.54

slide-6
SLIDE 6

Motif logos and the information content

  • The IC of a motif tells us how different the

motif is from the background distribution

  • In general, when building a motif (and especially a motif logo) the

background distribution is assumed to be uniform (bA=bC=bG=bT=0.25)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 A

0.25 0.42 0.62 0.30 0.00 1.00 0.00 0.00 0.00 0.00 0.23 0.05 0.15 0.20

C

0.25 0.10 0.03 0.32 1.00 0.00 1.00 0.00 0.00 0.00 0.15 0.30 0.33 0.26

G 0.25 0.33 0.30 0.15 0.00 0.00 0.00 1.00 0.00 1.00 0.32 0.03 0.10 0.16 T

0.25 0.15 0.05 0.23 0.00 0.00 0.00 0.00 1.00 0.00 0.30 0.62 0.42 0.38

IC is 0 + (1 x log2(1/0.25)) + 0 + 0=2 IC is 4 x 0.25 x log2(0.25/0.25)=0

slide-7
SLIDE 7

DNA ¡mo'f ¡discovery ¡

  • Similar ¡to ¡a ¡local ¡alignment ¡problem ¡
slide-8
SLIDE 8

DNA ¡mo'f ¡discovery ¡

  • Similar ¡to ¡a ¡local ¡alignment ¡problem, ¡but… ¡
  • What ¡makes ¡mo'f ¡discovery ¡hard? ¡ ¡

– Mo'fs ¡act ¡at ¡variable ¡distances ¡upstream ¡(or ¡ downstream) ¡of ¡target ¡genes ¡ ¡ – Mo'fs ¡are ¡short ¡(5-­‑15bp) ¡ ¡ – Mo'fs ¡are ¡degenerate ¡

¡

slide-9
SLIDE 9

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

bHLH

(Pho4, 1A0A)

Forkhead

(Foxo4, 3L2C)

bZIP

(Gcn4, 1YSA)

Homeodomain

(Pdx1, 2H1K)

slide-10
SLIDE 10

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

PDB structure: 1MDY

slide-11
SLIDE 11

Where ¡does ¡specificity ¡come ¡from? ¡

slide-12
SLIDE 12

Where ¡does ¡specificity ¡come ¡from? ¡

slide-13
SLIDE 13

DNA motif discovery

  • Input:

– A set of DNA sequences bound by the same TF

  • Upstream regions of co-

regulated genes

  • Sequences bound in a

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

  • Output:

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

slide-14
SLIDE 14

Aligned ¡sequences ¡<=> ¡PWM ¡

  • Given ¡a ¡set ¡of ¡aligned ¡sequences, ¡it ¡is ¡straighXorward ¡to ¡

construct ¡a ¡PWM ¡

  • Given ¡a ¡PWM, ¡we ¡can ¡construct ¡the ¡alignment ¡
  • In ¡a ¡typical ¡case, ¡neither ¡the ¡PWM ¡nor ¡the ¡alignment ¡are ¡

known ¡

We ¡can ¡use ¡Expecta'on ¡Maximiza'on ¡

slide-15
SLIDE 15

The ¡MEME ¡Algorithm ¡ ¡

  • MEME ¡(Mul'ple ¡Em ¡for ¡Mo'f ¡Elicita'on): ¡Bailey ¡& ¡Elkan, ¡1994 ¡
  • Uses ¡EM ¡to ¡find ¡mul'ple ¡mo'fs ¡in ¡a ¡set ¡of ¡sequences ¡
  • First ¡EM ¡approach ¡to ¡mo'f ¡discovery: ¡Lawrence ¡& ¡Reilly ¡1990 ¡
slide-16
SLIDE 16

Gibbs ¡Sampling ¡ ¡

  • A ¡general ¡procedure ¡for ¡sampling ¡from ¡the ¡joint ¡distribu'on ¡of ¡

a ¡set ¡of ¡random ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡P(U1...Un) ¡

¡by ¡itera'vely ¡sampling ¡from ¡individual ¡condi'onal ¡distribu'ons ¡ ¡

¡ ¡ ¡P(Uj |U1... Uj-1, Uj+1... Un)

  • Applica'on ¡to ¡mo'f ¡finding: ¡Lawrence ¡et ¡al. ¡1993 ¡
  • We ¡can ¡view ¡Gibbs ¡sampling ¡as ¡a ¡stochas'c ¡analog ¡of ¡EM ¡for ¡

the ¡mo'f ¡discovery ¡task ¡

  • Advantage: ¡less ¡suscep'ble ¡to ¡local ¡minima ¡than ¡EM ¡
slide-17
SLIDE 17

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

  • Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

  • Input:

– – background model

  • Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

slide-18
SLIDE 18

The ¡PRIORITY ¡framework ¡

  • Input:

– – background model

  • Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

  • Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior

slide-19
SLIDE 19

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

  • Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood

  • Input:

– – background model

  • Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

slide-20
SLIDE 20

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

  • Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood Prior

  • Input:

– – background model

  • Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

slide-21
SLIDE 21

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

  • Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood Prior

) ∝ P ) ×

  • Input:

– – background model

  • Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

slide-22
SLIDE 22

The ¡PRIORITY ¡framework ¡

  • Goal: find optimal values for and that maximize the posterior
  • Gibbs sampling: sample from the posterior by sampling iteratively

from individual conditional distributions

  • For faster convergence: collapsed Gibbs sampling
  • Integrate out and sample only the from

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Positional prior

φ Z φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z) Xi Zi

slide-23
SLIDE 23

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
slide-24
SLIDE 24

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
  • 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

Compute frequencies Align the sites

Z

slide-25
SLIDE 25

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
  • 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

  • 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

slide-26
SLIDE 26
  • 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
  • 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

  • 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

Z3

slide-27
SLIDE 27
  • 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
  • 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

  • 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

slide-28
SLIDE 28
  • 4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

  • Input: ,
  • Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

  • 1. ¡Randomly ¡choose ¡the ¡Zs ¡
  • 2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

  • 3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

Un'l ¡convergence ¡

Z3

slide-29
SLIDE 29

Posi'onal ¡priors ¡

Most ¡probabilis'c ¡approaches ¡ (MEME, ¡AlignACE, ¡MDscan, ¡ ¡ Consensus, ¡BioProspector, ¡etc.) ¡ implicitly ¡use ¡uniform ¡priors ¡ X1 X2 Xn PRIORITY ¡uses ¡posi-onal ¡priors ¡ derived ¡from ¡relevant ¡biological ¡ informa'on ¡(DNA ¡accessibility, ¡ evolu'onary ¡conserva'on, ¡etc.) ¡ P(Z1) P(Z2) P(Zn) X1 X2 Xn

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)