10-601 Machine Learning HMM applica)ons in computa)onal - - PowerPoint PPT Presentation

10 601 machine learning
SMART_READER_LITE
LIVE PREVIEW

10-601 Machine Learning HMM applica)ons in computa)onal - - PowerPoint PPT Presentation

10-601 Machine Learning HMM applica)ons in computa)onal biology Central dogma CCTGAGCCAACTATTGATGAA DNA transcription mRNA CCUGAGCCAACUAUUGAUGAA translation Protein PEPTIDE 2 Biological data


slide-1
SLIDE 1

HMM ¡applica)ons ¡in ¡computa)onal ¡ biology ¡

10-601 Machine Learning

slide-2
SLIDE 2

2 ¡

Central ¡dogma ¡

Protein mRNA DNA

transcription translation CCTGAGCCAACTATTGATGAA

PEPTIDE

CCUGAGCCAACUAUUGAUGAA

slide-3
SLIDE 3

Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡

DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡

Next ¡genera*on ¡sequencing ¡

slide-4
SLIDE 4

Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡

DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡

Array ¡/ ¡sequencing ¡ technology ¡

slide-5
SLIDE 5

Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡

DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡

Protein ¡interac*ons ¡

  • ¡38,000 ¡ ¡iden)fied ¡interac)ons ¡
  • ¡Hundreds ¡of ¡thousands ¡of ¡

predic)ons ¡

slide-6
SLIDE 6

6 ¡

slide-7
SLIDE 7

FDA ¡Approves ¡Gene-­‑Based ¡Breast ¡Cancer ¡ Test* ¡ ¡

“ ¡MammaPrint ¡is ¡a ¡DNA ¡ microarray-­‑based ¡test ¡that ¡ measures ¡the ¡ac)vity ¡of ¡70 ¡ genes ¡in ¡a ¡sample ¡of ¡a ¡ woman's ¡breast-­‑cancer ¡tumor ¡ and ¡then ¡uses ¡a ¡specific ¡ formula ¡to ¡determine ¡whether ¡ the ¡pa)ent ¡is ¡deemed ¡low ¡risk ¡

  • r ¡high ¡risk ¡for ¡the ¡spread ¡of ¡

the ¡cancer ¡to ¡another ¡site.” ¡

*Washington ¡Post, ¡2/06/2007 ¡

slide-8
SLIDE 8

8 ¡

slide-9
SLIDE 9

Ac)ve ¡Learning ¡

9 ¡

slide-10
SLIDE 10

Sequencing ¡DNA ¡

Due ¡to ¡accumulated ¡errors, ¡we ¡could ¡only ¡reliably ¡read ¡at ¡most ¡ 100-­‑200 ¡nucleo*des. ¡

¡

First ¡human ¡genome ¡draT ¡in ¡2001 ¡

slide-11
SLIDE 11

DARPA ¡Shredder ¡Challenge ¡

slide-12
SLIDE 12

DARPA ¡Shredder ¡Challenge ¡

slide-13
SLIDE 13

Shotgun ¡Sequencing ¡

Wikipedia ¡

slide-14
SLIDE 14

Caveats ¡

  • ¡Errors ¡in ¡reading ¡
  • ¡Non-­‑trivial ¡assembly ¡task: ¡repeats ¡in ¡the ¡genome ¡ ¡

MacCallum ¡et ¡al., ¡GB ¡2009 ¡

slide-15
SLIDE 15

Error ¡Correc*on ¡in ¡DNA ¡sequencing ¡

  • ¡The ¡fragmenta)on ¡happens ¡at ¡random ¡loca)ons ¡of ¡the ¡molecules. ¡

¡ ¡We ¡expect ¡all ¡posi)ons ¡in ¡the ¡genome ¡to ¡have ¡the ¡same ¡# ¡number ¡of ¡ reads ¡ ¡ K-­‑mers ¡= ¡substrings ¡of ¡length ¡K ¡of ¡the ¡reads. ¡Errors ¡create ¡error ¡k-­‑mers. ¡

Kellly ¡et ¡al., ¡GB ¡2010 ¡

slide-16
SLIDE 16

Transcriptome ¡Shotgun ¡Sequencing ¡(RNA-­‑Seq) ¡

Sequencing ¡RNA ¡transcripts. ¡ Reminder: ¡

  • (mRNA) ¡Transcripts ¡are ¡“expression ¡products” ¡of ¡genes. ¡
  • Different ¡genes ¡having ¡different ¡expression ¡levels ¡so ¡some ¡

transcripts ¡are ¡more ¡or ¡less ¡abundant ¡than ¡others. ¡

¡

@Friedrich ¡Miescher ¡Laboratory ¡

slide-17
SLIDE 17

Challenges ¡

  • Large ¡datasets: ¡10-­‑100 ¡millions ¡reads ¡of ¡75-­‑150 ¡bps. ¡
  • Memory ¡efficiency: ¡Too ¡)me ¡consuming ¡to ¡perform ¡out-­‑

memory ¡processing ¡of ¡data. ¡ ¡ ¡ DNA ¡Sequencing ¡ ¡+ ¡others ¡: ¡alterna)ve ¡slicing, ¡RNA ¡edi)ng, ¡ post-­‑transcrip)on ¡modifica)on. ¡ ¡

slide-18
SLIDE 18
  • Some ¡transcripts ¡are ¡more ¡prone ¡to ¡errors ¡
  • Errors ¡are ¡harder ¡to ¡correct ¡in ¡reads ¡from ¡lowly ¡expressed ¡transcripts ¡ ¡

Errors ¡are ¡non ¡uniformly ¡distributed ¡

slide-19
SLIDE 19

SEECER ¡ Error ¡Correc*on ¡+ ¡Consensus ¡sequence ¡ es*ma*on ¡for ¡RNA-­‑Seq ¡data ¡ ¡

slide-20
SLIDE 20

Key ¡idea: ¡HMM ¡model ¡

The ¡way ¡sequencers ¡work: ¡

  • Read ¡leher ¡by ¡leher ¡sequen)ally ¡
  • Possible ¡errors: ¡Inser)on ¡, ¡Dele)on ¡or ¡Misread ¡of ¡a ¡nucleo)de ¡

Salmela ¡et ¡al., ¡Bioinforma)cs ¡2011 ¡

slide-21
SLIDE 21
slide-22
SLIDE 22

Building ¡(Learning) ¡the ¡HMMs ¡ and ¡Making ¡Correc*ons ¡(Inference) ¡

Learning ¡= ¡Expecta)on-­‑Maximiza)on ¡ ¡ Inference ¡= ¡Viterbi ¡algorithm ¡

Seeding: ¡ ¡ Guessing ¡possible ¡reads ¡using ¡k-­‑mer ¡overlaps. ¡ Construc)ng ¡the ¡HMM ¡from ¡these ¡reads. ¡ ¡ ¡ Speed ¡up: ¡ The ¡k-­‑mer ¡overlaps ¡yield ¡approximate ¡mul)ple ¡alignments ¡of ¡reads. ¡ We ¡can ¡learn ¡HMM ¡parameters ¡from ¡this ¡directly. ¡

slide-23
SLIDE 23

Clustering ¡to ¡improve ¡seeding ¡

Real ¡biological ¡differences ¡should ¡be ¡supported ¡by ¡a ¡set ¡of ¡reads ¡with ¡ similar ¡mismatches ¡to ¡the ¡consensus ¡

slide-24
SLIDE 24
  • 1. Clustering ¡posi)ons ¡with ¡mismatches ¡to ¡

iden)fy ¡clusters ¡of ¡correlated ¡posi)ons. ¡

  • 2. Build ¡a ¡similarity ¡matrix ¡between ¡these ¡

posi)ons. ¡

  • 3. Use ¡Spectral ¡clustering ¡to ¡find ¡clusters ¡of ¡

correlated ¡posi)ons. ¡

  • 4. Filter ¡reads ¡have ¡mismatches ¡in ¡these ¡clusters. ¡
slide-25
SLIDE 25

Comparison ¡to ¡other ¡methods ¡

slide-26
SLIDE 26

Using ¡the ¡corrected ¡reads, ¡the ¡assembler ¡can ¡ recover ¡more ¡transcripts ¡

slide-27
SLIDE 27
  • Approximate ¡learning ¡to ¡speed ¡up ¡on ¡large ¡datasets. ¡
  • In ¡real ¡world, ¡one ¡technique ¡is ¡not ¡enough. ¡A ¡solu)on ¡involves ¡using ¡

many ¡techniques. ¡

  • Precision ¡and ¡Recall ¡are ¡trade-­‑offs. ¡

¡

Things ¡that ¡work ¡

slide-28
SLIDE 28

28 ¡

Central ¡dogma ¡

Protein mRNA DNA

transcription translation CCTGAGCCAACTATTGATGAA

PEPTIDE

CCUGAGCCAACUAUUGAUGAA

TF ¡ Different ¡regulators ¡control ¡the ¡informa)on ¡flow ¡from ¡DNA ¡to ¡protein ¡ miR ¡ Transcrip)on ¡factors ¡(TFs) ¡bind ¡to ¡DNA ¡and ¡ ac)vate ¡genes ¡ Micro ¡RNAs ¡(miRs) ¡bind ¡to ¡mRNA ¡to ¡down ¡ regulate ¡their ¡expression ¡

slide-29
SLIDE 29

Lee ¡et ¡al ¡Science ¡2002 ¡ Bar-­‑Joseph ¡et ¡al ¡Nature ¡Biotechnology ¡ 2003 ¡

Integra)ng ¡expression ¡and ¡protein-­‑ DNA ¡interac)on ¡data ¡

slide-30
SLIDE 30

Methods ¡for ¡reconstruc)ng ¡ ¡ networks ¡in ¡cells ¡

Venancio et al Genome Biology 2009 Amit et al Science 2009 Gerstein et al Science 2010

slide-31
SLIDE 31

Key ¡problem: ¡Most ¡high-­‑throughput ¡ data ¡is ¡sta)c ¡

Sequencing ¡ mo)f ¡ CHIP-­‑chip ¡ PPI ¡ microarray ¡ Sta)c ¡data ¡sources ¡ Time-­‑series ¡measurements ¡ Time ¡

slide-32
SLIDE 32

DREM: ¡Dynamic ¡Regulatory ¡Events ¡Miner ¡

slide-33
SLIDE 33

TF ¡C ¡ )me ¡

Expression ¡ Level ¡

Time ¡Series ¡Expression ¡Data ¡ Sta*c ¡TF-­‑DNA ¡Binding ¡Data ¡ ¡

TF ¡A ¡ TF ¡B ¡ TF ¡D ¡ a ¡ b ¡

slide-34
SLIDE 34

TF ¡C ¡ )me ¡

Expression ¡ Level ¡

Model ¡Structure ¡

)me ¡ 1 ¡ 0.1 ¡ 0.9 ¡ 1 ¡ 0.95 ¡ 0.05 ¡

Expression ¡ Level ¡

Time ¡Series ¡Expression ¡Data ¡ Sta*c ¡TF-­‑DNA ¡Binding ¡Data ¡ ¡ IOHMM ¡Model ¡

TF ¡A ¡ TF ¡B ¡ TF ¡D ¡ ? ¡ ? ¡ a ¡ b ¡ c ¡ d ¡

slide-35
SLIDE 35

Things ¡are ¡a ¡bit ¡more ¡complicated: ¡Real ¡ data ¡

slide-36
SLIDE 36

A ¡Hidden ¡Markov ¡Model ¡

⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = Θ

∏ ∏ ∏

= − = = T t t t n i T t t t

i H i H p i H i O p O H L

2 1 1 1

)) ( | ) ( ( )) ( | ) ( ( ) ; , (

Hidden ¡States ¡ Observed ¡outputs ¡ (expression ¡levels) ¡ t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Schliep ¡et ¡al ¡Bioinforma2cs ¡2003 ¡ 1 ¡

slide-37
SLIDE 37

Sum ¡over ¡ all ¡genes ¡ Sum ¡over ¡all ¡ paths ¡Q ¡ Product ¡over ¡all ¡Gaussian ¡ emission ¡density ¡values ¡

  • n ¡path ¡

Product ¡over ¡all ¡transi)on ¡probabili)es ¡on ¡path ¡ ¡ ¡

Input ¡– ¡Output ¡Hidden ¡ Markov ¡Model ¡

Input ¡(Sta)c ¡TF-­‑gene ¡interac)ons) ¡ Hidden ¡States ¡(transi)ons ¡

between ¡states ¡form ¡a ¡tree ¡ structure) ¡

Emissions ¡(Distribu)on ¡of ¡

expression ¡values) ¡

Ig t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Log ¡Likelihood ¡ But ¡how ¡do ¡we ¡express ¡these ¡condi)onal ¡probabili)es? ¡

slide-38
SLIDE 38

Input-­‑Output ¡Hidden ¡Markov ¡Model ¡

learning ¡the ¡transi)on ¡probabili)es ¡

Ig t=1 ¡ t=2 ¡ H1 O1 O2

P(H2

1 = q(2)| H1 = q(1), Ig) = ?

P(H 2

2 = q(2)| H1 = q(1), Ig) = ?

How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡

H2

2

H2

1

slide-39
SLIDE 39

Input-­‑Output ¡Hidden ¡Markov ¡Model ¡

learning ¡the ¡transi)on ¡probabili)es ¡

How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ Op)mize ¡wi’’s ¡with ¡a ¡logis)c ¡regression ¡classifier ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡

Sum ¡over ¡all ¡ ¡ regulators ¡

ˆ W = argmax

W

l(W)+ ln p(W)

[ ]

likelihood ¡with ¡ parameters ¡W ¡ L1-­‑penalty ¡to ¡ ¡ promote ¡sparsity ¡ ¡

Ig t=1 ¡ t=2 ¡ H1 O1 O2

H2

2

H2

1

P(H1

2 = q(2)| H1 = q(1), Ig) =

1 1+exp(w0 + Ig,rwr )

r

slide-40
SLIDE 40

1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡

  • E. ¡coli. ¡response ¡

PLoS ¡Comp. ¡Bio. ¡ 2008 ¡ Nature ¡MSB ¡2011 ¡

IRF7 ¡

Fly ¡development ¡

Science ¡2010 ¡

Genome ¡Research ¡2010, ¡ PLoS ¡ONE ¡2011 ¡

Mouse ¡Immune ¡response ¡ Stem ¡cells ¡differen*a*on ¡

slide-41
SLIDE 41

mirDREM ¡

!"#$%&"'()'*$#+,"-./+#)'*$

01,23$#4'&,$-)5*"6

!78 !79 !70 : ; < 2

91,=>("-%%'*$,?#)#

!'4- @

  • $
  • ,
  • >

( "

  • %

% ' * $

8 A B8 : ; < 2

!'4-

4'CD:,8 4'CD:,9 8 A B8

4'CD:,->("-%%'*$

!'4-

4'C9

8 A B8

4'C8 4'C9 !7,9 !7,9 !7,0 !7,0 !7,8

@-$-,->("-%%'*$

4CD:,; 4CD:,< 4'C,8

EF EF 0F 0F

4'C,9

G*%)B)"#$%&"'()'*$#+,"-./+#)'*$

81,C-./+#)*"3,'$)-"#&)'*$%

slide-42
SLIDE 42

Sum ¡over ¡ all ¡genes ¡ Sum ¡over ¡all ¡ paths ¡Q ¡ Product ¡over ¡all ¡Gaussian ¡ emission ¡density ¡values ¡

  • n ¡path ¡

Product ¡over ¡all ¡transi)on ¡probabili)es ¡on ¡path ¡ ¡ ¡

Input ¡– ¡Output ¡Hidden ¡ Markov ¡Model ¡

Input ¡(Sta*c ¡TF-­‑gene ¡interac)ons) ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Dynamic ¡miR-­‑gene ¡interac)ons) ¡

Hidden ¡States ¡(transi)ons ¡

between ¡states ¡form ¡a ¡tree ¡ structure) ¡

Emissions ¡(Distribu)on ¡of ¡

expression ¡values) ¡

Ig t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Log ¡Likelihood ¡ But ¡how ¡do ¡we ¡express ¡these ¡condi)onal ¡probabili)es? ¡

Mg

1

Mg

3

Mg

2

, Mg

t )

slide-43
SLIDE 43

Input-­‑Output ¡Hidden ¡Markov ¡Model ¡

learning ¡the ¡transi)on ¡probabili)es ¡

P(H2 = q(2) | H1 = q(1), Ig) = 1 1+ exp(w0 + Ig,rwr + Mg,r

1 wm m

)

r

How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ Op)mize ¡wi’’s ¡with ¡a ¡constrained ¡logis)c ¡regression ¡classifier ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡

Sum ¡over ¡all ¡ ¡ TFs ¡

ˆ W = argmax

W

l(W)+ ln p(W)

[ ]

likelihood ¡with ¡ parameters ¡W ¡ L1-­‑penalty ¡to ¡ ¡ promote ¡sparsity ¡ ¡

wi ≤ 0,i ∈ miRNAs

s.t. ¡ Ig t=1 ¡ t=2 ¡ H1 O1 O2

H2

2

H2

1

Mg

1

Sum ¡over ¡all ¡ ¡ miRs ¡

slide-44
SLIDE 44

Applica)on ¡to ¡mouse ¡data ¡to ¡ understand ¡human ¡lung ¡disease ¡

Idiopathic ¡pulmonary ¡fibrosis ¡(IPF) ¡ ¡

  • ­‑100,000 ¡people ¡are ¡affected ¡(USA) ¡
  • ­‑about ¡30,000 ¡new ¡cases ¡each ¡year ¡
  • ­‑50% ¡death ¡rate ¡aTer ¡3 ¡years ¡

¡

  • ­‑pathways ¡for ¡lung ¡development ¡appear ¡ac)vated ¡

in ¡reverse ¡direc)on ¡during ¡the ¡disease ¡ ¡

Extensive ¡lung ¡fibrosis ¡ ¡ (source:wikipedia) ¡

slide-45
SLIDE 45

day 4 week 1 week 2 week 6 A B C D E F G H I

Gene expression ratio Time

1 2

  • 1
  • 2

f

2 4 7 8 6 5 3

FOXLf NKX6 2 FOXOfe3 IRFfe2e3e4e5e8e9 NKX3 f MEF2A LHX3 NFIL3 HMGA2 FOXJ2 CDC5L miR-f9tb miR-32 miR-669c IRFf-5e7-9 LMO2 FOXLf HNF4A YYf CUXf ZEBf HLF TCFAP4 NRfI2e3 GATAf-3e6 MYODf CASR CXADR PRKARfA SPG7 TRIMf3 miR-f88-3p CEBPAeB JUNeBeD GFIfeB TBX5 STATf-3 ESFfe4 PAX2e8 FOSeB LEFf RUNXfe2 SMAD4 TCF7 MAX NFIC SOX5 PDXf TFDPf NR3Cf NKX6 2 HMGA2 SRY USF2 ARID5B CTFf ESCOf NKX2 5 EFNA2 MYC NFKBf NKX2 f ASCLf MYF5e6 MYOG TFF3 miR-34f miR-f54* ARNT AHR EGR2e3 miR-574-3p miR-34b-3p miR-467a* miR-338-5p miR-467e* miR-467e miR-878-3p miR-f55 ETSf CEBPBeD ELF2 miR-345-5p miR-f27 miR-f99a-3p FOSLfe2 FOSeB JUNBeD ATM ELF4 ELK3 EPHBf ERG FSCNf KCNH6 PIK3R3 PSMDf2 SLC6A2 TNFRSFfA STAT6 miR-3td miR-466d-3p miR-467c miR-22 miR-467e miR-3ta miR-466a-3p miR-23b miR-f92 PTGDR SRPR E2Ffe2e4e5e7 TFDPfe2 RBf POU3F2 POU2Ff UBE4AeB NFIL3 PTGDR SRPR TFDPfe2 UBE4Ae B E2Ffe2e4e5e7 NFYAeB HESf MAX ESRf MYC PLAU ATFfe2e3e4e7 ELKf TBX5 RBf SMAD3 HICf miR-324-5p miR-342-3p miR-55fb miR-7tt miR-69t miR-2f4 miR-485 miR-484 miR-378 miR-4ff* miR-29b miR-29c miR-29a miR-55fb miR-337-3p miR-f8fc miR-3t2c* let-7f* miR-f42-5p miR-ftfb E2Ffe2e4e5e7 TFDPfe2 PTGDR SRPR RBf UBE4AeB miR-29b miR-423-5p miR-467a miR-29a let-7i* miR-224 miR-29c miR-f26-3p miR-45f miR-7f4 miR-43f miR-337-5p miR-f25a-5p miR-337-3p miR-f84 miR-38t-3p

Joint ¡dynamic ¡network ¡for ¡lung ¡development ¡

  • 22 ¡out ¡56 ¡miRNAs ¡predicted ¡by ¡the ¡method ¡are ¡differen)ally ¡expressed ¡

in ¡pa)ent ¡cohorts ¡with ¡the ¡IPF ¡lung ¡disease ¡

  • different ¡to ¡development ¡miR-­‑30d ¡is ¡down ¡regulated ¡in ¡IPF ¡pa)ents ¡