SLIDE 1
Decoding Chromatin States with Epigenome Data
02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
SLIDE 2 HMMs for Decoding Chromatin States
- Epigene8c ¡modifica8ons ¡of ¡the ¡genome ¡have ¡been ¡associated ¡
with ¡
– Establishing ¡cell ¡iden88es ¡during ¡development ¡ – DNA ¡repair, ¡replica8on ¡ – Human ¡diseases ¡ – ¡ ¡
- De ¡novo ¡discovery ¡of ¡chroma8n ¡states ¡given ¡epigene8c ¡marks ¡
with ¡HMMs ¡
– Emission ¡probabili8es: ¡which ¡histone ¡marks ¡co-‑occur? ¡ – Transi8on ¡probabili8es: ¡how ¡chroma8n ¡states ¡are ¡distributed ¡spa8ally ¡ across ¡the ¡genome ¡ ¡
SLIDE 3 Dataset
- Genome-‑wide ¡occupancy ¡data ¡in ¡human ¡CD4 ¡T-‑cells ¡from ¡
ChIP-‑seq ¡experiments ¡ ¡
– 38 ¡different ¡histone ¡methyla8on ¡and ¡acetyla8on ¡marks ¡ – Histone ¡variant ¡H2AZ ¡ – RNA ¡polymerase ¡II ¡ – CTCF ¡ – E.g., ¡H3K9me3 ¡trimethylated ¡lysine ¡9 ¡of ¡histone ¡3 ¡ ¡ ¡
SLIDE 4 HMMs for Decoding Chromatin States
- Hidden ¡states ¡for ¡unknown ¡chroma8n ¡states ¡
– Models ¡with ¡varying ¡number ¡of ¡states ¡ – 79 ¡states, ¡pruned ¡to ¡51 ¡states ¡
- Histone ¡mark ¡data ¡as ¡observa8ons ¡
– Data ¡are ¡binarized ¡(a\er ¡thresholding) ¡for ¡each ¡window ¡of ¡size ¡200bp ¡ ¡ – Binomial ¡distribu8on ¡for ¡each ¡histone ¡mark ¡as ¡emission ¡probability ¡ – All ¡histone ¡marks ¡are ¡treated ¡as ¡independent ¡
SLIDE 5
Example of Chromatin State Annotation
Posterior ¡ probability ¡of ¡ states ¡at ¡ each ¡locus, ¡ given ¡data ¡
SLIDE 6
Estimated Chromatin States - Emission Probabilities
Genomic ¡func8onal ¡ enrichment ¡ Emission ¡probabili8es ¡
SLIDE 7 GO Enrichment for Promoter States
- Although ¡states ¡3-‑8 ¡were ¡promoter ¡states, ¡each ¡state ¡is ¡
enriched ¡for ¡genes ¡with ¡different ¡GO ¡categories ¡
SLIDE 8 Comparison of Promoter States
- Different ¡promoter ¡states ¡peak ¡at ¡different ¡sites ¡
SLIDE 9
Comparison of Transcribed States
SLIDE 10 GWAS and Chromatin States
- GWAS-‑enriched ¡chroma8n ¡state ¡33 ¡
SLIDE 11
Power for Discovering Chromatin States
SLIDE 12 Feature Selection
- We ¡may ¡not ¡need ¡all ¡of ¡the ¡histone ¡marks ¡to ¡explain ¡the ¡
chroma8n ¡state ¡
- Feature ¡selec8on ¡as ¡step-‑wise ¡forward ¡selec8on ¡to ¡select ¡a ¡
subset ¡of ¡histone ¡marks ¡that ¡describe ¡the ¡chroma8n ¡state ¡
SLIDE 13
Feature Selection
SLIDE 14
Epigenome and Gene Expression
SLIDE 15 Epigenome and Transcription
- Histone ¡modifica8on ¡levels ¡can ¡influence ¡gene ¡expressions ¡
- Nucleosome ¡posi8ons ¡can ¡influence ¡gene ¡expressions ¡
– DNA ¡sequence ¡specifici8es ¡of ¡nucleosome ¡and ¡transcrip8on ¡factor ¡ binding ¡sites ¡ – Nucleosomes ¡as ¡repressors ¡
- Methyla8on ¡usually ¡represses ¡transcrip8on ¡
SLIDE 16 Key Questions
- Is ¡there ¡a ¡quan8ta8ve ¡rela8onship ¡between ¡histone ¡
modifica8ons ¡levels ¡and ¡transcrip8on? ¡
- Is ¡there ¡a ¡subset ¡of ¡histone ¡modifica8ons ¡that ¡predict ¡
transcrip8on ¡becer ¡than ¡others? ¡
- Are ¡there ¡different ¡requirements ¡for ¡epigene8c ¡marks ¡for ¡
different ¡promoter ¡types? ¡
- Do ¡these ¡rela8onships ¡between ¡histone ¡modifica8ons ¡and ¡
transcrip8on ¡hold ¡in ¡different ¡8ssue ¡types? ¡
SLIDE 17 Dataset
- 38 ¡histone ¡modifica8ons ¡and ¡one ¡histone ¡variant ¡in ¡human ¡
CD4+ ¡T-‑cells ¡
– ChIP-‑seq ¡data ¡ ¡ – In ¡a ¡region ¡of ¡4,001 ¡bp ¡surrounding ¡the ¡transcrip8on ¡start ¡sites ¡of ¡ 14,801 ¡RefSeq ¡genes ¡
- Gene ¡expression ¡levels ¡in ¡the ¡CD4+ ¡T-‑cells ¡
- 9 ¡histone ¡modifica8ons ¡in ¡CD36+ ¡and ¡CD133+ ¡cells ¡
- Gene ¡expression ¡levels ¡in ¡CD36+ ¡and ¡CD133+ ¡cells ¡
Histone ¡modifica8on ¡levels ¡are ¡predic8ve ¡for ¡gene ¡
- expression. ¡(Karlic ¡et ¡al., ¡PNAS, ¡2010) ¡ ¡
SLIDE 18 Linear Models
- Linear ¡regression ¡method ¡
– Predictors: ¡histone ¡marks ¡ ¡
- No ¡binariza8on ¡
- For ¡genes ¡with ¡no ¡histone ¡modifica8ons ¡for ¡par8cular ¡
modifica8ons, ¡add ¡a ¡pseudocount ¡ – Responses: ¡gene ¡expressions ¡ – Promoter ¡regions ¡of ¡different ¡genes ¡as ¡samples ¡
SLIDE 19 Linear Models
- Full ¡model ¡including ¡all ¡histone ¡modifica8ons ¡
- Compute ¡r2 ¡between ¡observed ¡gene ¡expressions ¡and ¡
predicted ¡values ¡to ¡assess ¡the ¡predic8ve ¡power ¡of ¡the ¡model ¡
SLIDE 20 Linear Models
- Selec8ng ¡the ¡histone ¡modifica8ons ¡with ¡the ¡most ¡predic8ve ¡
power ¡
SLIDE 21 Linear Models
- Selec8ng ¡the ¡histone ¡modifica8ons ¡with ¡the ¡most ¡predic8ve ¡
power ¡with ¡BIC ¡scores ¡
SLIDE 22
Prediction Accuracy
SLIDE 23 Searching for Histone Modifications with the Most Predictive Power
- The ¡most ¡frequently ¡appearing ¡histone ¡modifica8ons ¡in ¡
models ¡with ¡1, ¡2, ¡3 ¡histone ¡modifica8ons ¡
SLIDE 24 Model with One Histone Modification
expressions ¡and ¡each ¡ histone ¡modifica8on ¡
- Redundancy ¡in ¡histone ¡
modifica8ons ¡
SLIDE 25 Histone Modifications and Promoter Types
- Different ¡promoter ¡types ¡to ¡be ¡considered ¡
– LCPs ¡: ¡low ¡CpG ¡content ¡promoters ¡ – HCPs ¡: ¡high ¡CpG ¡content ¡promoters ¡ – Nucleosomes ¡in ¡HCPs ¡almost ¡always ¡have ¡H3K4me3 ¡marks, ¡whereas ¡ nucleosomes ¡in ¡LCPs ¡carry ¡this ¡modifica8on ¡only ¡when ¡they ¡are ¡
- expressed. ¡
- Hypothesis: ¡expression ¡levels ¡of ¡genes ¡with ¡LCPs ¡and ¡HCPs ¡can ¡
be ¡predicted ¡by ¡different ¡sets ¡of ¡histone ¡modifica8ons ¡
SLIDE 26 Histone Modifications and Promoter Types
– 1,779 ¡LCPs ¡and ¡7,089 ¡HCPs ¡in ¡the ¡dataset ¡ – Fit ¡different ¡models ¡to ¡each ¡of ¡LCPs ¡and ¡HCPs ¡and ¡compare ¡them ¡with ¡ the ¡model ¡es8mated ¡from ¡the ¡full ¡dataset ¡
SLIDE 27
Histone Modifications and Promoter Types
SLIDE 28 Considering Different Tissue Types
- Used ¡the ¡model ¡trained ¡on ¡CD4+ ¡data ¡to ¡predict ¡gene ¡
expressions ¡in ¡CD133+ ¡and ¡CD36+ ¡cells ¡
- Used ¡only ¡those ¡gene ¡expressions ¡with ¡more ¡than ¡five ¡fold ¡
differences ¡between ¡CD4+ ¡and ¡CD133+ ¡(also ¡between ¡CD4+ ¡ and ¡CD36+) ¡
SLIDE 29 Nucleosome and Transcription
- DNA ¡sequence ¡mo8fs ¡with ¡high ¡nucleosome ¡binding ¡affini8es ¡
– Poten8ally ¡related ¡to ¡bending ¡DNA ¡around ¡the ¡nucleosomes ¡
- DNA ¡sequence ¡mo8fs ¡with ¡high ¡transcrip8on ¡factor ¡binding ¡
affini8es ¡
– TF ¡concentra8on ¡can ¡also ¡influence ¡gene ¡expression ¡
- Compe88on ¡between ¡nucleosomes ¡and ¡transcrip8on ¡factors ¡
can ¡influence ¡the ¡transcrip8on ¡
SLIDE 30 DNA Sequence, DNA-binding Proteins, and Gene Expression
- Mixture ¡model ¡for ¡predic8ng ¡gene ¡expressions ¡from ¡
nucleosomes ¡and ¡other ¡DNA ¡binding ¡proteins ¡
– E: ¡gene ¡expression ¡ – C: ¡protein ¡configura8ons ¡
SLIDE 31 DNA Sequence, DNA-binding Proteins, and Gene Expression
- Mixture ¡propor8ons ¡
- Mixture ¡component ¡models ¡
SLIDE 32
Nucleosome and Transcription
SLIDE 33
Nucleosome and Transcription
SLIDE 34
Competition between Nucleosomes and Transcription Factors
SLIDE 35
Competition between Nucleosomes and Transcription Factors
SLIDE 36
Transcriptional Noise
SLIDE 37
Cooperative Binding Reduces Transcriptional Noise
SLIDE 38 Fuzzy Nucleosomes
- Well-‑posi8oned ¡vs. ¡fuzzy ¡nucleosomes ¡
– Can ¡be ¡inferred ¡from ¡DNA ¡sequences ¡ – In ¡fuzzy ¡nucleosomes, ¡many ¡nucleosome ¡posi8ons ¡are ¡observed ¡
Well-‑posi8oned ¡ nucleosomes ¡ Fuzzy ¡nucleosomes ¡
SLIDE 39 Summary
- Histone ¡modifica8ons ¡contain ¡informa8on ¡on ¡chroma8n ¡
- states. ¡Chroma8n ¡states ¡can ¡be ¡poten8ally ¡decoded ¡from ¡
epigene8c ¡data. ¡
- Epigene8cs ¡and ¡gene ¡expressions ¡
– histone ¡modifica8ons ¡can ¡influence ¡gene ¡expression ¡ – nucleosome ¡posi8ons ¡and ¡the ¡compe88on ¡between ¡TFs ¡and ¡ nucleosome ¡can ¡influence ¡gene ¡expression ¡