10-601 Machine Learning HMM applica)ons in computa)onal - - PowerPoint PPT Presentation
10-601 Machine Learning HMM applica)ons in computa)onal - - PowerPoint PPT Presentation
10-601 Machine Learning HMM applica)ons in computa)onal biology Central dogma CCTGAGCCAACTATTGATGAA DNA transcription mRNA CCUGAGCCAACUAUUGAUGAA translation Protein PEPTIDE 2 Biological data
2 ¡
Central ¡dogma ¡
Protein mRNA DNA
transcription translation CCTGAGCCAACTATTGATGAA
PEPTIDE
CCUGAGCCAACUAUUGAUGAA
Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡
DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡
Next ¡genera*on ¡sequencing ¡
Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡
DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡
Array ¡/ ¡sequencing ¡ technology ¡
Biological ¡data ¡is ¡rapidly ¡ accumula)ng ¡
DNA ¡ RNA ¡ transcription translation Proteins ¡ Transcrip2on ¡factors ¡
Protein ¡interac*ons ¡
- ¡38,000 ¡ ¡iden)fied ¡interac)ons ¡
- ¡Hundreds ¡of ¡thousands ¡of ¡
predic)ons ¡
6 ¡
FDA ¡Approves ¡Gene-‑Based ¡Breast ¡Cancer ¡ Test* ¡ ¡
“ ¡MammaPrint ¡is ¡a ¡DNA ¡ microarray-‑based ¡test ¡that ¡ measures ¡the ¡ac)vity ¡of ¡70 ¡ genes ¡in ¡a ¡sample ¡of ¡a ¡ woman's ¡breast-‑cancer ¡tumor ¡ and ¡then ¡uses ¡a ¡specific ¡ formula ¡to ¡determine ¡whether ¡ the ¡pa)ent ¡is ¡deemed ¡low ¡risk ¡
- r ¡high ¡risk ¡for ¡the ¡spread ¡of ¡
the ¡cancer ¡to ¡another ¡site.” ¡
*Washington ¡Post, ¡2/06/2007 ¡
8 ¡
Ac)ve ¡Learning ¡
9 ¡
Sequencing ¡DNA ¡
Due ¡to ¡accumulated ¡errors, ¡we ¡could ¡only ¡reliably ¡read ¡at ¡most ¡ 100-‑200 ¡nucleo*des. ¡
¡
First ¡human ¡genome ¡draT ¡in ¡2001 ¡
DARPA ¡Shredder ¡Challenge ¡
DARPA ¡Shredder ¡Challenge ¡
Shotgun ¡Sequencing ¡
Wikipedia ¡
Caveats ¡
- ¡Errors ¡in ¡reading ¡
- ¡Non-‑trivial ¡assembly ¡task: ¡repeats ¡in ¡the ¡genome ¡ ¡
MacCallum ¡et ¡al., ¡GB ¡2009 ¡
Error ¡Correc*on ¡in ¡DNA ¡sequencing ¡
- ¡The ¡fragmenta)on ¡happens ¡at ¡random ¡loca)ons ¡of ¡the ¡molecules. ¡
¡ ¡We ¡expect ¡all ¡posi)ons ¡in ¡the ¡genome ¡to ¡have ¡the ¡same ¡# ¡number ¡of ¡ reads ¡ ¡ K-‑mers ¡= ¡substrings ¡of ¡length ¡K ¡of ¡the ¡reads. ¡Errors ¡create ¡error ¡k-‑mers. ¡
Kellly ¡et ¡al., ¡GB ¡2010 ¡
Transcriptome ¡Shotgun ¡Sequencing ¡(RNA-‑Seq) ¡
Sequencing ¡RNA ¡transcripts. ¡ Reminder: ¡
- (mRNA) ¡Transcripts ¡are ¡“expression ¡products” ¡of ¡genes. ¡
- Different ¡genes ¡having ¡different ¡expression ¡levels ¡so ¡some ¡
transcripts ¡are ¡more ¡or ¡less ¡abundant ¡than ¡others. ¡
¡
@Friedrich ¡Miescher ¡Laboratory ¡
Challenges ¡
- Large ¡datasets: ¡10-‑100 ¡millions ¡reads ¡of ¡75-‑150 ¡bps. ¡
- Memory ¡efficiency: ¡Too ¡)me ¡consuming ¡to ¡perform ¡out-‑
memory ¡processing ¡of ¡data. ¡ ¡ ¡ DNA ¡Sequencing ¡ ¡+ ¡others ¡: ¡alterna)ve ¡slicing, ¡RNA ¡edi)ng, ¡ post-‑transcrip)on ¡modifica)on. ¡ ¡
- Some ¡transcripts ¡are ¡more ¡prone ¡to ¡errors ¡
- Errors ¡are ¡harder ¡to ¡correct ¡in ¡reads ¡from ¡lowly ¡expressed ¡transcripts ¡ ¡
Errors ¡are ¡non ¡uniformly ¡distributed ¡
SEECER ¡ Error ¡Correc*on ¡+ ¡Consensus ¡sequence ¡ es*ma*on ¡for ¡RNA-‑Seq ¡data ¡ ¡
Key ¡idea: ¡HMM ¡model ¡
The ¡way ¡sequencers ¡work: ¡
- Read ¡leher ¡by ¡leher ¡sequen)ally ¡
- Possible ¡errors: ¡Inser)on ¡, ¡Dele)on ¡or ¡Misread ¡of ¡a ¡nucleo)de ¡
Salmela ¡et ¡al., ¡Bioinforma)cs ¡2011 ¡
Building ¡(Learning) ¡the ¡HMMs ¡ and ¡Making ¡Correc*ons ¡(Inference) ¡
Learning ¡= ¡Expecta)on-‑Maximiza)on ¡ ¡ Inference ¡= ¡Viterbi ¡algorithm ¡
Seeding: ¡ ¡ Guessing ¡possible ¡reads ¡using ¡k-‑mer ¡overlaps. ¡ Construc)ng ¡the ¡HMM ¡from ¡these ¡reads. ¡ ¡ ¡ Speed ¡up: ¡ The ¡k-‑mer ¡overlaps ¡yield ¡approximate ¡mul)ple ¡alignments ¡of ¡reads. ¡ We ¡can ¡learn ¡HMM ¡parameters ¡from ¡this ¡directly. ¡
Clustering ¡to ¡improve ¡seeding ¡
Real ¡biological ¡differences ¡should ¡be ¡supported ¡by ¡a ¡set ¡of ¡reads ¡with ¡ similar ¡mismatches ¡to ¡the ¡consensus ¡
- 1. Clustering ¡posi)ons ¡with ¡mismatches ¡to ¡
iden)fy ¡clusters ¡of ¡correlated ¡posi)ons. ¡
- 2. Build ¡a ¡similarity ¡matrix ¡between ¡these ¡
posi)ons. ¡
- 3. Use ¡Spectral ¡clustering ¡to ¡find ¡clusters ¡of ¡
correlated ¡posi)ons. ¡
- 4. Filter ¡reads ¡have ¡mismatches ¡in ¡these ¡clusters. ¡
Comparison ¡to ¡other ¡methods ¡
Using ¡the ¡corrected ¡reads, ¡the ¡assembler ¡can ¡ recover ¡more ¡transcripts ¡
- Approximate ¡learning ¡to ¡speed ¡up ¡on ¡large ¡datasets. ¡
- In ¡real ¡world, ¡one ¡technique ¡is ¡not ¡enough. ¡A ¡solu)on ¡involves ¡using ¡
many ¡techniques. ¡
- Precision ¡and ¡Recall ¡are ¡trade-‑offs. ¡
¡
Things ¡that ¡work ¡
28 ¡
Central ¡dogma ¡
Protein mRNA DNA
transcription translation CCTGAGCCAACTATTGATGAA
PEPTIDE
CCUGAGCCAACUAUUGAUGAA
TF ¡ Different ¡regulators ¡control ¡the ¡informa)on ¡flow ¡from ¡DNA ¡to ¡protein ¡ miR ¡ Transcrip)on ¡factors ¡(TFs) ¡bind ¡to ¡DNA ¡and ¡ ac)vate ¡genes ¡ Micro ¡RNAs ¡(miRs) ¡bind ¡to ¡mRNA ¡to ¡down ¡ regulate ¡their ¡expression ¡
Lee ¡et ¡al ¡Science ¡2002 ¡ Bar-‑Joseph ¡et ¡al ¡Nature ¡Biotechnology ¡ 2003 ¡
Integra)ng ¡expression ¡and ¡protein-‑ DNA ¡interac)on ¡data ¡
Methods ¡for ¡reconstruc)ng ¡ ¡ networks ¡in ¡cells ¡
Venancio et al Genome Biology 2009 Amit et al Science 2009 Gerstein et al Science 2010
Key ¡problem: ¡Most ¡high-‑throughput ¡ data ¡is ¡sta)c ¡
Sequencing ¡ mo)f ¡ CHIP-‑chip ¡ PPI ¡ microarray ¡ Sta)c ¡data ¡sources ¡ Time-‑series ¡measurements ¡ Time ¡
DREM: ¡Dynamic ¡Regulatory ¡Events ¡Miner ¡
TF ¡C ¡ )me ¡
Expression ¡ Level ¡
Time ¡Series ¡Expression ¡Data ¡ Sta*c ¡TF-‑DNA ¡Binding ¡Data ¡ ¡
TF ¡A ¡ TF ¡B ¡ TF ¡D ¡ a ¡ b ¡
TF ¡C ¡ )me ¡
Expression ¡ Level ¡
Model ¡Structure ¡
)me ¡ 1 ¡ 0.1 ¡ 0.9 ¡ 1 ¡ 0.95 ¡ 0.05 ¡
Expression ¡ Level ¡
Time ¡Series ¡Expression ¡Data ¡ Sta*c ¡TF-‑DNA ¡Binding ¡Data ¡ ¡ IOHMM ¡Model ¡
TF ¡A ¡ TF ¡B ¡ TF ¡D ¡ ? ¡ ? ¡ a ¡ b ¡ c ¡ d ¡
Things ¡are ¡a ¡bit ¡more ¡complicated: ¡Real ¡ data ¡
A ¡Hidden ¡Markov ¡Model ¡
⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = Θ
∏ ∏ ∏
= − = = T t t t n i T t t t
i H i H p i H i O p O H L
2 1 1 1
)) ( | ) ( ( )) ( | ) ( ( ) ; , (
Hidden ¡States ¡ Observed ¡outputs ¡ (expression ¡levels) ¡ t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Schliep ¡et ¡al ¡Bioinforma2cs ¡2003 ¡ 1 ¡
Sum ¡over ¡ all ¡genes ¡ Sum ¡over ¡all ¡ paths ¡Q ¡ Product ¡over ¡all ¡Gaussian ¡ emission ¡density ¡values ¡
- n ¡path ¡
Product ¡over ¡all ¡transi)on ¡probabili)es ¡on ¡path ¡ ¡ ¡
Input ¡– ¡Output ¡Hidden ¡ Markov ¡Model ¡
Input ¡(Sta)c ¡TF-‑gene ¡interac)ons) ¡ Hidden ¡States ¡(transi)ons ¡
between ¡states ¡form ¡a ¡tree ¡ structure) ¡
Emissions ¡(Distribu)on ¡of ¡
expression ¡values) ¡
Ig t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Log ¡Likelihood ¡ But ¡how ¡do ¡we ¡express ¡these ¡condi)onal ¡probabili)es? ¡
Input-‑Output ¡Hidden ¡Markov ¡Model ¡
learning ¡the ¡transi)on ¡probabili)es ¡
Ig t=1 ¡ t=2 ¡ H1 O1 O2
P(H2
1 = q(2)| H1 = q(1), Ig) = ?
P(H 2
2 = q(2)| H1 = q(1), Ig) = ?
How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡
H2
2
H2
1
Input-‑Output ¡Hidden ¡Markov ¡Model ¡
learning ¡the ¡transi)on ¡probabili)es ¡
How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ Op)mize ¡wi’’s ¡with ¡a ¡logis)c ¡regression ¡classifier ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡
Sum ¡over ¡all ¡ ¡ regulators ¡
ˆ W = argmax
W
l(W)+ ln p(W)
[ ]
likelihood ¡with ¡ parameters ¡W ¡ L1-‑penalty ¡to ¡ ¡ promote ¡sparsity ¡ ¡
Ig t=1 ¡ t=2 ¡ H1 O1 O2
H2
2
H2
1
P(H1
2 = q(2)| H1 = q(1), Ig) =
1 1+exp(w0 + Ig,rwr )
r
∑
1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡
- E. ¡coli. ¡response ¡
PLoS ¡Comp. ¡Bio. ¡ 2008 ¡ Nature ¡MSB ¡2011 ¡
IRF7 ¡
Fly ¡development ¡
Science ¡2010 ¡
Genome ¡Research ¡2010, ¡ PLoS ¡ONE ¡2011 ¡
Mouse ¡Immune ¡response ¡ Stem ¡cells ¡differen*a*on ¡
mirDREM ¡
!"#$%&"'()'*$#+,"-./+#)'*$
01,23$#4'&,$-)5*"6
!78 !79 !70 : ; < 2
91,=>("-%%'*$,?#)#
!'4- @
- $
- ,
- >
( "
- %
% ' * $
8 A B8 : ; < 2
!'4-
4'CD:,8 4'CD:,9 8 A B8
4'CD:,->("-%%'*$
!'4-
4'C9
8 A B8
4'C8 4'C9 !7,9 !7,9 !7,0 !7,0 !7,8
@-$-,->("-%%'*$
4CD:,; 4CD:,< 4'C,8
EF EF 0F 0F
4'C,9
G*%)B)"#$%&"'()'*$#+,"-./+#)'*$
81,C-./+#)*"3,'$)-"#&)'*$%
Sum ¡over ¡ all ¡genes ¡ Sum ¡over ¡all ¡ paths ¡Q ¡ Product ¡over ¡all ¡Gaussian ¡ emission ¡density ¡values ¡
- n ¡path ¡
Product ¡over ¡all ¡transi)on ¡probabili)es ¡on ¡path ¡ ¡ ¡
Input ¡– ¡Output ¡Hidden ¡ Markov ¡Model ¡
Input ¡(Sta*c ¡TF-‑gene ¡interac)ons) ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Dynamic ¡miR-‑gene ¡interac)ons) ¡
Hidden ¡States ¡(transi)ons ¡
between ¡states ¡form ¡a ¡tree ¡ structure) ¡
Emissions ¡(Distribu)on ¡of ¡
expression ¡values) ¡
Ig t=0 ¡ t=1 ¡ t=2 ¡ t=3 ¡ H0 H1 H2 H3 O0 O1 O2 O3 Log ¡Likelihood ¡ But ¡how ¡do ¡we ¡express ¡these ¡condi)onal ¡probabili)es? ¡
Mg
1
Mg
3
Mg
2
, Mg
t )
Input-‑Output ¡Hidden ¡Markov ¡Model ¡
learning ¡the ¡transi)on ¡probabili)es ¡
P(H2 = q(2) | H1 = q(1), Ig) = 1 1+ exp(w0 + Ig,rwr + Mg,r
1 wm m
∑
)
r
∑
How ¡do ¡compute ¡P ¡for ¡a ¡state ¡with ¡2 ¡children? ¡ Op)mize ¡wi’’s ¡with ¡a ¡constrained ¡logis)c ¡regression ¡classifier ¡ We ¡can ¡write ¡it ¡as ¡a ¡logis)c ¡regression ¡ ¡ classifica)on ¡problem! ¡
Sum ¡over ¡all ¡ ¡ TFs ¡
ˆ W = argmax
W
l(W)+ ln p(W)
[ ]
likelihood ¡with ¡ parameters ¡W ¡ L1-‑penalty ¡to ¡ ¡ promote ¡sparsity ¡ ¡
wi ≤ 0,i ∈ miRNAs
s.t. ¡ Ig t=1 ¡ t=2 ¡ H1 O1 O2
H2
2
H2
1
Mg
1
Sum ¡over ¡all ¡ ¡ miRs ¡
Applica)on ¡to ¡mouse ¡data ¡to ¡ understand ¡human ¡lung ¡disease ¡
Idiopathic ¡pulmonary ¡fibrosis ¡(IPF) ¡ ¡
- ‑100,000 ¡people ¡are ¡affected ¡(USA) ¡
- ‑about ¡30,000 ¡new ¡cases ¡each ¡year ¡
- ‑50% ¡death ¡rate ¡aTer ¡3 ¡years ¡
¡
- ‑pathways ¡for ¡lung ¡development ¡appear ¡ac)vated ¡
in ¡reverse ¡direc)on ¡during ¡the ¡disease ¡ ¡
Extensive ¡lung ¡fibrosis ¡ ¡ (source:wikipedia) ¡
day 4 week 1 week 2 week 6 A B C D E F G H I
Gene expression ratio Time
1 2
- 1
- 2
f
2 4 7 8 6 5 3
FOXLf NKX6 2 FOXOfe3 IRFfe2e3e4e5e8e9 NKX3 f MEF2A LHX3 NFIL3 HMGA2 FOXJ2 CDC5L miR-f9tb miR-32 miR-669c IRFf-5e7-9 LMO2 FOXLf HNF4A YYf CUXf ZEBf HLF TCFAP4 NRfI2e3 GATAf-3e6 MYODf CASR CXADR PRKARfA SPG7 TRIMf3 miR-f88-3p CEBPAeB JUNeBeD GFIfeB TBX5 STATf-3 ESFfe4 PAX2e8 FOSeB LEFf RUNXfe2 SMAD4 TCF7 MAX NFIC SOX5 PDXf TFDPf NR3Cf NKX6 2 HMGA2 SRY USF2 ARID5B CTFf ESCOf NKX2 5 EFNA2 MYC NFKBf NKX2 f ASCLf MYF5e6 MYOG TFF3 miR-34f miR-f54* ARNT AHR EGR2e3 miR-574-3p miR-34b-3p miR-467a* miR-338-5p miR-467e* miR-467e miR-878-3p miR-f55 ETSf CEBPBeD ELF2 miR-345-5p miR-f27 miR-f99a-3p FOSLfe2 FOSeB JUNBeD ATM ELF4 ELK3 EPHBf ERG FSCNf KCNH6 PIK3R3 PSMDf2 SLC6A2 TNFRSFfA STAT6 miR-3td miR-466d-3p miR-467c miR-22 miR-467e miR-3ta miR-466a-3p miR-23b miR-f92 PTGDR SRPR E2Ffe2e4e5e7 TFDPfe2 RBf POU3F2 POU2Ff UBE4AeB NFIL3 PTGDR SRPR TFDPfe2 UBE4Ae B E2Ffe2e4e5e7 NFYAeB HESf MAX ESRf MYC PLAU ATFfe2e3e4e7 ELKf TBX5 RBf SMAD3 HICf miR-324-5p miR-342-3p miR-55fb miR-7tt miR-69t miR-2f4 miR-485 miR-484 miR-378 miR-4ff* miR-29b miR-29c miR-29a miR-55fb miR-337-3p miR-f8fc miR-3t2c* let-7f* miR-f42-5p miR-ftfb E2Ffe2e4e5e7 TFDPfe2 PTGDR SRPR RBf UBE4AeB miR-29b miR-423-5p miR-467a miR-29a let-7i* miR-224 miR-29c miR-f26-3p miR-45f miR-7f4 miR-43f miR-337-5p miR-f25a-5p miR-337-3p miR-f84 miR-38t-3p
Joint ¡dynamic ¡network ¡for ¡lung ¡development ¡
- 22 ¡out ¡56 ¡miRNAs ¡predicted ¡by ¡the ¡method ¡are ¡differen)ally ¡expressed ¡
in ¡pa)ent ¡cohorts ¡with ¡the ¡IPF ¡lung ¡disease ¡
- different ¡to ¡development ¡miR-‑30d ¡is ¡down ¡regulated ¡in ¡IPF ¡pa)ents ¡