[PPT] - DNA Mo'f Discovery COMPSCI 260 Spring 2016 DNA motif PowerPoint Presentation

SLIDE 1

DNA ¡Mo'f ¡Discovery

¡

COMPSCI ¡260 ¡– ¡Spring ¡2016 ¡

SLIDE 2

DNA motif discovery

Input:

– A set of DNA sequences bound by the same TF

Upstream regions of co-

regulated genes

Sequences bound in a

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

Output:

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

SLIDE 3

TTATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCA TATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTG GAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGG AAGACTCTCCTCCGTGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATA AAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATC AAATTAACAACCATAGGATGATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGAT CTATTAACAGATATATAAATGGAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTC AAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCT CATTCAGAAGAAGTGATTGTACCTGAGTTCAATTCTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAA TTAAGAAATTTATAAGCGCTTATGATGCTAAACCGGATTTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATAT TGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGATTTTGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCA TCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAAGTTCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATC CTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTGCTCACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTT TGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCAACTGGCAGTGGATTGTCTTCTTCGGCCGCATTC ATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATATGTCCAAGCAAAATTTAATGCGTATTACGG TCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTTGCGGTGAGGAAGATCATGCTCTATA CGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAAATTAGCTTTGTTATTGCGAAC ACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCACTACAGCTGCAAATGTTT TAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAGATTTCATGAACGT TTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAGATGCTAGTA CTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGAAGAAT TCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAATC TTTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTG ATGAACGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAA ATGGATCATATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACAT AGAAAAGGTAAAAGAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATC ATCGTCTCTAAACCAGCATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCA TTTTTTTCTACTCATAACTTTAGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACT ACTTAATAAATGATTGTATGATAATGTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTT GATATGCTTTCAACCGCTGCGTTTTGGATACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGAC GTCTTATCATATGTCAAAGTCATTTGCGAAGTTCTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGA AACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTACGAGAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCA GATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACAGAAAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCA CCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGAAAAATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGT AAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCATTTTCCATTAAATCTCTGTTCTCTCTTACTTATATGAT GATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCATACCCCATAGAGAAGATCTTTCGGTTCGAAGACAT TCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATTTAAGCGGCTCTTCAAAAAGATTGAACTCTC GCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAAGAGTATAAGTCATCTCAGAGTAATAT AACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATACAGCTCATTCTGGAAGAAAATC TATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACAACCAGGACTTGAAGCCCG TCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATCAACACTTGGCAAAT ATATTGAATTTTCAAAAATTCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCATTACCACCATATA TATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTC TAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTC TGCGTCCTCGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACT CTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATTAACGAATCAAATTAACAACCATAGGATG AATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAATGGAA GCTGCATAACCACTTTAACTAATACTTTCAACATTTTCAGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAAT TTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGACTAAATCTCATTCAGAAGAAGTGATTGTACCTGAGTTCAA CTAGCGCAAAGGAATTACCAAGACCATTGGCCGAAAAGTGCCCGAGCATAATTAAGAAATTTATAAGCGCTTATGATGCTAAACCGG TTTGTTGCTAGATCGCCTGGTAGAGTCAATCTAATTGGTGAACATATTGATTATTGTGACTTCTCGGTTTTACCTTTAGCTATTGAT TGATATGCTTTGCGCCGTCAAAGTTTTGAACGAGAAAAATCCATCCATTACCTTAATAAATGCTGATCCCAAATTTGCTCAAAGGAA TCGATTTGCCGTTGGACGGTTCTTATGTCACAATTGATCCTTCTGTGTCGGACTGGTCTAATTACTTTAAATGTGGTCTCCATGTTG CACTCTTTTCTAAAGAAACTTGCACCGGAAAGGTTTGCCAGTGCTCCTCTGGCCGGGCTGCAAGTCTTCTGTGAGGGTGATGTACCA TGGCAGTGGATTGTCTTCTTCGGCCGCATTCATTTGTGCCGTTGCTTTAGCTGTTGTTAAAGCGAATATGGGCCCTGGTTATCATAT CCAAGCAAAATTTAATGCGTATTACGGTCGTTGCAGAACATTATGTTGGTGTTAACAATGGCGGTATGGATCAGGCTGCCTCTGTTT GGTGAGGAAGATCATGCTCTATACGTTGAGTTCAAACCGCAGTTGAAGGCTACTCCGTTTAAATTTCCGCAATTAAAAAACCATGAA TAGCTTTGTTATTGCGAACACCCTTGTTGTATCTAACAAGTTTGAAACCGCCCCAACCAACTATAATTTAAGAGTGGTAGAAGTCAC CAGCTGCAAATGTTTTAGCTGCCACGTACGGTGTTGTTTTACTTTCTGGAAAAGAAGGATCGAGCACGAATAAAGGTAATCTAAGAG TTCATGAACGTTTATTATGCCAGATATCACAACATTTCCACACCCTGGAACGGCGATATTGAATCCGGCATCGAACGGTTAACAAAG GCTAGTACTAGTTGAAGAGTCTCTCGCCAATAAGAAACAGGGCTTTAGTGTTGACGATGTCGCACAATCCTTGAATTGTTCTCGCGA AATTCACAAGAGACTACTTAACAACATCTCCAGTGAGATTTCAAGTCTTAAAGCTATATCAGAGGGCTAAGCATGTGTATTCTGAAT TTAAGAGTCTTGAAGGCTGTGAAATTAATGACTACAGCGAGCTTTACTGCCGACGAAGACTTTTTCAAGCAATTTGGTGCCTTGATG CGAGTCTCAAGCTTCTTGCGATAAACTTTACGAATGTTCTTGTCCAGAGATTGACAAAATTTGTTCCATTGCTTTGTCAAATGGATC ATGGTTCCCGTTTGACCGGAGCTGGCTGGGGTGGTTGTACTGTTCACTTGGTTCCAGGGGGCCCAAATGGCAACATAGAAAAGGTAA GAAGCCCTTGCCAATGAGTTCTACAAGGTCAAGTACCCTAAGATCACTGATGCTGAGCTAGAAAATGCTATCATCGTCTCTAAACCA ATTGGGCAGCTGTCTATATGAATTATAAGTATACTTCTTTTTTTTACTTTGTTCAGAACAACTTCTCATTTTTTTCTACTCATAACT AGCATCACAAAATACGCAATAATAACGAGTAGTAACACTTTTATAGTTCATACATGCTTCAACTACTTAATAAATGATTGTATGATA GTTTTCAATGTAAGAGATTTCGATTATCCACAAACTTTAAAACACAGGGACAAAATTCTTGATATGCTTTCAACCGCTGCGTTTTGG ACCTATTCTTGACATGATATGACTACCATTTTGTTATTGTACGTGGGGCAGTTGACGTCTTATCATATGTCAAAGTCATTTGCGAAG CTTGGCAAGTTGCCAACTGACGAGATGCAGTAAAAAGAGATTGCCGTCTTGAAACTTTTTGTCCTTTTTTTTTTCCGGGGACTCTAC GAACCCTTTGTCCTACTGATTAATTTTGTACTGAATTTGGACAATTCAGATTTTAGTAGACAAGCGCGAGGAGGAAAAGAAATGACA AAAATTCCGATGGACAAGAAGATAGGAAAAAAAAAAAGCTTTCACCGATTTCCTAGACCGGAAAAAAGTCGTATGACATCAGAATGA AATTTTCAAGTTAGACAAGGACAAAATCAGGACAAATTGTAAAGATATAATAAACTATTTGATTCAGCGCCAATTTGCCCTTTTCCA TTCCATTAAATCTCTGTTCTCTCTTACTTATATGATGATTAGGTATCATCTGTATAAAACTCCTTTCTTAATTTCACTCTAAAGCAT CCCATAGAGAAGATCTTTCGGTTCGAAGACATTCCTACGCATAATAAGAATAGGAGGGAATAATGCCAGACAATCTATCATTACATT AGCGGCTCTTCAAAAAGATTGAACTCTCGCCAACTTATGGAATCTTCCAATGAGACCTTTGCGCCAAATAATGTGGATTTGGAAAAA GTATAAGTCATCTCAGAGTAATATAACTACCGAAGTTTATGAGGCATCGAGCTTTGAAGAAAAAGTAAGCTCAGAAAAACCTCAATA GCTCATTCTGGAAGAAAATCTATTATGAATATGTGGTCGTTGACAAATCAATCTTGGGTGTTTCTATTCTGGATTCATTTATGTACA CAGGACTTGAAGCCCGTCGAAAAAGAAAGGCGGGTTTGGTCCTGGTACAATTATTGTTACTTCTGGCTTGCTGAATGTTTCAATATC CACTTGGCAAATTGCAGCTACAGGTCTACAACTGGGTCTAAATTGGTGGCAGTGTTGGATAACAATTTGGATTGGGTACGGTTTCGT GTGCTTTTGTTGTTTTGGCCTCTAGAGTTGGATCTGCTTATCATTTGTCATTCCCTATATCATCTAGAGCATCATTCGGTATTTTCT

Genes ¡ TF ¡binding ¡ sites ¡

SLIDE 4

Regulatory ¡elements ¡– ¡TF ¡binding ¡sites ¡

General transcriptional machinery

TSS gene

Transcription factors (TFs) TF binding sites

SLIDE 5

DNA motif discovery ¡

Models? ¡

Consensus

R T G A S T C A Y

IUPAC codes

PWM (PSSM) Motif logo Position Weight Matrix

1 2 3 4 5 6 7 8 9 A 0.54 0.01 0.01 0.97 0.00 0.01 0.06 0.97 0.01 C 0.04 0.01 0.01 0.01 0.44 0.01 0.93 0.01 0.41 G 0.41 0.01 0.93 0.01 0.56 0.01 0.01 0.01 0.04 T 0.01 0.97 0.05 0.01 0.00 0.97 0.00 0.01 0.54

SLIDE 6

Motif logos and the information content

The IC of a motif tells us how different the

motif is from the background distribution

In general, when building a motif (and especially a motif logo) the

background distribution is assumed to be uniform (bA=bC=bG=bT=0.25)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 A

0.25 0.42 0.62 0.30 0.00 1.00 0.00 0.00 0.00 0.00 0.23 0.05 0.15 0.20

C

0.25 0.10 0.03 0.32 1.00 0.00 1.00 0.00 0.00 0.00 0.15 0.30 0.33 0.26

G 0.25 0.33 0.30 0.15 0.00 0.00 0.00 1.00 0.00 1.00 0.32 0.03 0.10 0.16 T

0.25 0.15 0.05 0.23 0.00 0.00 0.00 0.00 1.00 0.00 0.30 0.62 0.42 0.38

IC is 0 + (1 x log2(1/0.25)) + 0 + 0=2 IC is 4 x 0.25 x log2(0.25/0.25)=0

SLIDE 7

DNA ¡mo'f ¡discovery ¡

Similar ¡to ¡a ¡local ¡alignment ¡problem ¡

SLIDE 8

DNA ¡mo'f ¡discovery ¡

Similar ¡to ¡a ¡local ¡alignment ¡problem, ¡but… ¡
What ¡makes ¡mo'f ¡discovery ¡hard? ¡ ¡

– Mo'fs ¡act ¡at ¡variable ¡distances ¡upstream ¡(or ¡ downstream) ¡of ¡target ¡genes ¡ ¡ – Mo'fs ¡are ¡short ¡(5-‑15bp) ¡ ¡ – Mo'fs ¡are ¡degenerate ¡

¡

SLIDE 9

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

…

bHLH

(Pho4, 1A0A)

Forkhead

(Foxo4, 3L2C)

bZIP

(Gcn4, 1YSA)

Homeodomain

(Pdx1, 2H1K)

SLIDE 10

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

PDB structure: 1MDY

SLIDE 11

Where ¡does ¡specificity ¡come ¡from? ¡

SLIDE 12

Where ¡does ¡specificity ¡come ¡from? ¡

SLIDE 13

DNA motif discovery

Input:

– A set of DNA sequences bound by the same TF

Upstream regions of co-

regulated genes

Sequences bound in a

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

Output:

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

SLIDE 14

Aligned ¡sequences ¡<=> ¡PWM ¡

Given ¡a ¡set ¡of ¡aligned ¡sequences, ¡it ¡is ¡straighXorward ¡to ¡

construct ¡a ¡PWM ¡

Given ¡a ¡PWM, ¡we ¡can ¡construct ¡the ¡alignment ¡
In ¡a ¡typical ¡case, ¡neither ¡the ¡PWM ¡nor ¡the ¡alignment ¡are ¡

known ¡

We ¡can ¡use ¡Expecta'on ¡Maximiza'on ¡

SLIDE 15

The ¡MEME ¡Algorithm ¡ ¡

MEME ¡(Mul'ple ¡Em ¡for ¡Mo'f ¡Elicita'on): ¡Bailey ¡& ¡Elkan, ¡1994 ¡
Uses ¡EM ¡to ¡find ¡mul'ple ¡mo'fs ¡in ¡a ¡set ¡of ¡sequences ¡
First ¡EM ¡approach ¡to ¡mo'f ¡discovery: ¡Lawrence ¡& ¡Reilly ¡1990 ¡

SLIDE 16

Gibbs ¡Sampling ¡ ¡

A ¡general ¡procedure ¡for ¡sampling ¡from ¡the ¡joint ¡distribu'on ¡of ¡

a ¡set ¡of ¡random ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡P(U1...Un) ¡

¡by ¡itera'vely ¡sampling ¡from ¡individual ¡condi'onal ¡distribu'ons ¡ ¡

¡ ¡ ¡P(Uj |U1... Uj-1, Uj+1... Un)

Applica'on ¡to ¡mo'f ¡finding: ¡Lawrence ¡et ¡al. ¡1993 ¡
We ¡can ¡view ¡Gibbs ¡sampling ¡as ¡a ¡stochas'c ¡analog ¡of ¡EM ¡for ¡

the ¡mo'f ¡discovery ¡task ¡

Advantage: ¡less ¡suscep'ble ¡to ¡local ¡minima ¡than ¡EM ¡

SLIDE 17

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Input:

– – background model

Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

SLIDE 18

The ¡PRIORITY ¡framework ¡

Input:

– – background model

Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior

SLIDE 19

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood

Input:

– – background model

Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

SLIDE 20

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood Prior

Input:

– – background model

Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

SLIDE 21

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

Goal: find optimal values for and that maximize the posterior

φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior Likelihood Prior

) ∝ P ) ×

Input:

– – background model

Output:

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

SLIDE 22

The ¡PRIORITY ¡framework ¡

Goal: find optimal values for and that maximize the posterior
Gibbs sampling: sample from the posterior by sampling iteratively

from individual conditional distributions

For faster convergence: collapsed Gibbs sampling
Integrate out and sample only the from

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Positional prior

φ Z φ Z

arg max

φ,Z

P(φ, Z | X, φ0) = arg max

φ,Z

P(X | φ, Z, φ0) × P(φ) × P(Z) Xi Zi

SLIDE 23

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

1. ¡Randomly ¡choose ¡the ¡Zs ¡

SLIDE 24

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

1. ¡Randomly ¡choose ¡the ¡Zs ¡
2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

Compute frequencies Align the sites

Z

SLIDE 25

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

1. ¡Randomly ¡choose ¡the ¡Zs ¡
2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

SLIDE 26

4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

1. ¡Randomly ¡choose ¡the ¡Zs ¡
2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

Z3

SLIDE 27

4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

Z3

1. ¡Randomly ¡choose ¡the ¡Zs ¡
2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

SLIDE 28

4. ¡Sample ¡Zi ¡based ¡on ¡this ¡probability ¡=> ¡new ¡Zi ¡ ¡

PRIORITY ¡– ¡Gibbs ¡sampling ¡

Input: ,
Output: ,

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X Z φ = φ0

1. ¡Randomly ¡choose ¡the ¡Zs ¡
2. ¡Use ¡current ¡sites ¡to ¡build ¡a ¡PWM ¡

PWM

3. ¡Choose ¡sequence ¡i ¡and ¡compute ¡the ¡probability ¡distribu'on ¡over ¡the ¡ ¡

possible ¡values ¡for ¡Zi

P(Zi | Z[−i], X, φ0) ∝ P(Xi | Z, φ0) × P(Zi)

Xi

Compute frequencies Align the sites

Z

Un'l ¡convergence ¡

Z3

SLIDE 29

Posi'onal ¡priors ¡

Most ¡probabilis'c ¡approaches ¡ (MEME, ¡AlignACE, ¡MDscan, ¡ ¡ Consensus, ¡BioProspector, ¡etc.) ¡ implicitly ¡use ¡uniform ¡priors ¡ X1 X2 Xn PRIORITY ¡uses ¡posi-onal ¡priors ¡ derived ¡from ¡relevant ¡biological ¡ informa'on ¡(DNA ¡accessibility, ¡ evolu'onary ¡conserva'on, ¡etc.) ¡ P(Z1) P(Z2) P(Zn) X1 X2 Xn

DNA ¡Mo'f ¡Discovery

¡

COMPSCI ¡260 ¡– ¡Spring ¡2016 ¡

DNA motif discovery

– A set of DNA sequences bound by the same TF

regulated genes

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

Genes ¡ TF ¡binding ¡ sites ¡

Regulatory ¡elements ¡– ¡TF ¡binding ¡sites ¡

General transcriptional machinery

TSS gene

Transcription factors (TFs) TF binding sites

DNA motif discovery ¡

Consensus

R T G A S T C A Y

PWM (PSSM) Motif logo Position Weight Matrix

Motif logos and the information content

motif is from the background distribution

background distribution is assumed to be uniform (bA=bC=bG=bT=0.25)

IC is 0 + (1 x log2(1/0.25)) + 0 + 0=2 IC is 4 x 0.25 x log2(0.25/0.25)=0

DNA ¡mo'f ¡discovery ¡

DNA ¡mo'f ¡discovery ¡

– Mo'fs ¡act ¡at ¡variable ¡distances ¡upstream ¡(or ¡ downstream) ¡of ¡target ¡genes ¡ ¡ – Mo'fs ¡are ¡short ¡(5-­‑15bp) ¡ ¡ – Mo'fs ¡are ¡degenerate ¡

¡

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

…

bHLH

Forkhead

bZIP

Homeodomain

Where ¡do ¡ambiguous ¡bases ¡come ¡from?

PDB structure: 1MDY

Where ¡does ¡specificity ¡come ¡from? ¡

Where ¡does ¡specificity ¡come ¡from? ¡

DNA motif discovery

– A set of DNA sequences bound by the same TF

regulated genes

ChIP-chip/seq experiment

X1 X2 X3 X4 Xn

– Locations of the binding sites in the sequences – Each sequence is believed to contain a binding site – Parameters of the model describing the binding sites

Aligned ¡sequences ¡<=> ¡PWM ¡

construct ¡a ¡PWM ¡

known ¡

We ¡can ¡use ¡Expecta'on ¡Maximiza'on ¡

The ¡MEME ¡Algorithm ¡ ¡

Gibbs ¡Sampling ¡ ¡

a ¡set ¡of ¡random ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡P(U1...Un) ¡

¡ ¡ ¡P(Uj |U1... Uj-1, Uj+1... Un)

the ¡mo'f ¡discovery ¡task ¡

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

φ Z

arg max

P(φ, Z | X, φ0) = arg max

P(X | φ, Z, φ0) × P(φ) × P(Z)

– – background model

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

The ¡PRIORITY ¡framework ¡

– – background model

– the starting locations of binding sites in the DNA sequences – the motif model (PWM)

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

φ Z

arg max

P(φ, Z | X, φ0) = arg max

P(X | φ, Z, φ0) × P(φ) × P(Z)

Posterior

The ¡PRIORITY ¡framework ¡

X1 X2 X3 X4 Xn

Z1 Z2 Zn Z4

X = (X1, . . . , Xn) Z = (Z1, . . . , Zn) φ = φ0 =

Z3 Zi = 0

φ Z

– Mo'fs ¡act ¡at ¡variable ¡distances ¡upstream ¡(or ¡ downstream) ¡of ¡target ¡genes ¡ ¡ – Mo'fs ¡are ¡short ¡(5-‑15bp) ¡ ¡ – Mo'fs ¡are ¡degenerate ¡