Introduc)on ¡to ¡Chroma)n ¡IP ¡– ¡ sequencing ¡(ChIP-‑seq) ¡data ¡analysis ¡
Linköping, ¡21 ¡April ¡2016 ¡ ¡ Agata ¡Smialowska ¡ BILS ¡/ ¡NBIS, ¡SciLifeLab, ¡Stockholm ¡University ¡
Introduc)on ¡to ¡Bioinforma)cs ¡using ¡NGS ¡data ¡ ¡
Introduc)on to Chroma)n IP sequencing (ChIP-seq) data - - PowerPoint PPT Presentation
Introduc)on to Chroma)n IP sequencing (ChIP-seq) data analysis Introduc)on to Bioinforma)cs using NGS data Linkping, 21 April 2016 Agata
Linköping, ¡21 ¡April ¡2016 ¡ ¡ Agata ¡Smialowska ¡ BILS ¡/ ¡NBIS, ¡SciLifeLab, ¡Stockholm ¡University ¡
Introduc)on ¡to ¡Bioinforma)cs ¡using ¡NGS ¡data ¡ ¡
PEV ¡ Posi)on ¡effect ¡ variega)on ¡ in ¡Drosophila ¡eye ¡ (nature.com) ¡ Juxtaposi)on ¡of ¡eye ¡colour ¡genes ¡with ¡heterochroma)n ¡results ¡in ¡the ¡“moWled” ¡eye ¡ coloura)on ¡(red ¡and ¡white). ¡
¡
Proteins, ¡which ¡bind ¡heterochroma)n, ¡act ¡to ¡“spread” ¡the ¡silencing ¡signal ¡by ¡ providing ¡a ¡forward ¡feedback ¡loop. ¡
¡
Heterochroma)n ¡Protein ¡1; ¡Histone ¡methyltransferase ¡Su(var)3-‑9; ¡H3K9 ¡ methyla)on ¡
First ¡observed ¡by ¡
1930 ¡
RnDsystems ¡
General ¡transcrip)on ¡machinery ¡
Promoter-‑associated ¡ transcrip)on ¡factors ¡
Distal ¡enhancers ¡
Histone ¡modifica)ons ¡ and ¡variants ¡ Ac)va)on ¡states ¡ Co-‑factors ¡
design ¡study ¡ ¡
¡ perform ¡precipita)on ¡ ¡ construct ¡library ¡ ¡ sequence ¡library ¡ ¡ bioinforma1c ¡analysis ¡
Workflow ¡of ¡a ¡ChIP-‑seq ¡study ¡
Liu, ¡PoW ¡and ¡Huss, ¡BMC ¡Biology ¡2010 ¡
blocking ¡(R.A. ¡Fisher, ¡1935) ¡
to ¡par))on ¡biological ¡varia)on ¡from ¡technical ¡varia)on ¡
cannot ¡be ¡linearly ¡scaled ¡to ¡genome ¡size ¡
confidence ¡and ¡gives ¡a ¡direct ¡measure ¡of ¡fragment ¡size, ¡which ¡
Ideal ¡design: ¡ ¡ Each ¡sample ¡has ¡a ¡matched ¡input ¡ Input ¡sequenced ¡to ¡a ¡comparable ¡depth ¡ ¡ as ¡IP ¡sample ¡ ¡ ≥2 ¡biological ¡replicates ¡for ¡site ¡iden)fica)on ¡ ≥3 ¡biological ¡replicates ¡for ¡differen)al ¡binding ¡
input ¡ library/sequencing ¡
ChIP ¡ replicates ¡ input ¡ library/sequencing ¡ ChIP ¡ replicates ¡
input ¡ library/sequencing ¡ ChIP ¡ replicates ¡ under-‑sequenced ¡input ¡ ChIP ¡ well-‑sequenced ¡input ¡ ChIP ¡
sample ¡
technical ¡replicates ¡are ¡generally ¡a ¡waste ¡of ¡)me ¡ and ¡money ¡ ¡
libraries ¡ sequencing ¡
replicates ¡ libraries ¡ sequencing ¡
many ¡studies ¡do ¡not ¡account ¡for ¡batch ¡ effects ¡
so ¡if ¡you ¡care ¡about ¡reproducibility ¡
samples ¡ experiment ¡
)me ¡-‑-‑-‑-‑-‑-‑-‑> ¡ experiment1 ¡ experiment2 ¡ Experiment3… ¡ libraries, ¡sequencing, ¡etc ¡
pooled ¡data ¡ under-‑sequenced ¡data ¡
if ¡you ¡need ¡to ¡pool ¡your ¡data, ¡then ¡it ¡is ¡under-‑sequenced ¡
pooled ¡data ¡ actual ¡replicates ¡
TF: ¡20 ¡M ¡ point-‑source ¡ mixed ¡signal ¡ broad ¡signal ¡ No ¡clear ¡guidelines ¡for ¡mixed ¡and ¡broad ¡type ¡of ¡peaks ¡ Transcrip)on ¡ Factors ¡ Chroma)n ¡ ¡ Remodellers ¡
¡
Histone ¡marks ¡ Chroma)n ¡ ¡ Remodellers ¡
¡
Histone ¡marks ¡
¡
RNA ¡polymerase ¡II ¡ Human: ¡ ? ¡ ? ¡ H3K4me3: ¡25 ¡M ¡ H3K36me3: ¡35 ¡M ¡ H3K27me3: ¡40 ¡M ¡ H3K9me3: ¡>55 ¡ ¡M ¡ Source: ¡The ¡ENCODE ¡consor)um; ¡ ¡Jung ¡et ¡al, ¡NAR ¡2014 ¡
The ¡ENCODE ¡(Encyclopedia ¡of ¡DNA ¡Elements) ¡Consor)um ¡and ¡the ¡ Roadmap ¡Epigenomics ¡Consor)um ¡are ¡a ¡vast ¡resource ¡of ¡various ¡ kinds ¡of ¡func)onal ¡genomics ¡data ¡(as ¡well ¡as ¡RNA-‑seq ¡data). ¡ ¡
Park, ¡Nature ¡Rev ¡Gene)cs, ¡2009 ¡ ¡
Park, ¡Nature ¡Rev ¡Gene)cs, ¡2009 ¡ ¡ Chromator ¡(Drosophila) ¡– ¡protein ¡binding ¡ methylated ¡histones ¡
design ¡study ¡ ¡
¡ perform ¡precipita)on ¡ ¡ construct ¡library ¡ ¡ sequence ¡library ¡ ¡ library ¡quality ¡control ¡ filter ¡sequences ¡ ¡ align ¡sequences ¡ ¡ filter ¡alignments ¡ ¡ iden1fy ¡peaks ¡/ ¡regions ¡of ¡enrichment ¡ ¡ assess ¡data ¡quality ¡ ¡ understand ¡the ¡data ¡/ ¡results ¡ ¡ downstream ¡analyses ¡
Workflow ¡of ¡a ¡ChIP-‑seq ¡study ¡
Itera)ve ¡process ¡
tag ¡density ¡distribu)on ¡ reproducibility ¡ similarity ¡of ¡coverage ¡ signal ¡at ¡known ¡sites ¡ … ¡ Sposng ¡inconsistencies ¡ Confounding ¡factors ¡ Under-‑sequenced ¡libraries ¡ … ¡
Marinov ¡et ¡al, ¡G3 ¡2013 ¡ ¡ Library ¡complexity ¡
Sequence ¡duplica)on ¡level ¡> ¡80% ¡(low ¡complexity ¡library) ¡
NRF: ¡Non-‑redundant ¡frac)on ¡(of ¡reads): ¡propor)on ¡of ¡unique ¡tags ¡/ ¡total ¡ ¡ less ¡than ¡20% ¡of ¡reads ¡should ¡be ¡duplicates ¡for ¡10 ¡million ¡reads ¡sequenced ¡(ENCODE) ¡
FastQC ¡ Babraham ¡Ins)tute ¡
Marinov ¡et ¡al, ¡G3 ¡2013 ¡ ¡ Objec)ve ¡(i.e. ¡peak ¡independent) ¡ metrics ¡to ¡quan)fy ¡enrichment ¡in ¡ ChIP-‑seq; ¡ ¡ for ¡TF ¡in ¡mammalian ¡systems: ¡ ¡ Normalised ¡Strand ¡Correla)on ¡NSC ¡ Rela)ve ¡Strand ¡Correla)on ¡RSC ¡ Large-‑scale ¡quality ¡analysis ¡of ¡ published ¡ChIP-‑seq ¡data ¡sets: ¡ 20% ¡low ¡quality ¡ 25% ¡intermediate ¡quality ¡ 30% ¡inputs ¡have ¡metrics ¡similar ¡to ¡IPs ¡
Carroll ¡et ¡al, ¡Front ¡Genet ¡2014 ¡ The ¡correla)on ¡between ¡signal ¡of ¡the ¡5ʹ″ ¡end ¡of ¡reads ¡on ¡the ¡(+) ¡and ¡(-‑) ¡strands ¡is ¡assessed ¡ axer ¡successive ¡shixs ¡of ¡the ¡reads ¡on ¡the ¡(+) ¡strand ¡and ¡the ¡point ¡of ¡maximum ¡correla)on ¡ between ¡the ¡two ¡strands ¡is ¡used ¡as ¡an ¡es)ma)on ¡of ¡fragment ¡length. ¡ Strand ¡shix ¡ Cross ¡correla)on ¡
Carroll ¡et ¡al, ¡Front ¡Genet ¡2014 ¡
NSC ¡= ¡
Max ¡CC ¡value ¡(fLen) ¡ Min ¡CC ¡
RSC ¡= ¡
Max ¡CC ¡– ¡Min ¡CC ¡ Phantom ¡CC ¡– ¡Min ¡CC ¡
ENCFF000OWMed.sorted.1.bam.picard.bam
NSC=1.14102,RSC=1.06452,Qtag=1 −500 500 1000 1500 0.286 0.288 0.290 0.292 0.294 0.296 0.298 0.300 strand−shift (100,265,245) cross−correlationENCFF000PET.sorted.1.bam.picard.bam
NSC=1.01443,RSC=0.289702,Qtag=−1 −500 500 1000 1500 0.19 0.20 0.21 0.22 0.23 strand−shift (130) cross−correlationENCFF000PMG.sorted.1.bam
NSC=1.28071,RSC=0.987276,Qtag=0 −500 500 1000 1500 0.25 0.26 0.27 0.28 0.29 0.30 strand−shift (125) cross−correlationENCFF000PMJ.sorted.1.bam
NSC=1.21367,RSC=1.39752,Qtag=1 −500 500 1000 1500 0.274 0.275 0.276 0.277 0.278 strand−shift (90,200,210) cross−correlationENCFF000PON.sorted.1.bam.picard.bam
NSC=1.0166,RSC=0.92739,Qtag=0Very ¡good ¡ enrichment ¡ Acceptable ¡ enrichment ¡ Poor ¡enrichment, ¡ possibly ¡ undersequenced ¡ No ¡clustering ¡ Good ¡input ¡ Read ¡ clustering ¡ Bad ¡input ¡ Input ¡ ChIP ¡
hWp://deeptools.readthedocs.org ¡ Diaz ¡et ¡al, ¡Genome ¡Biol ¡2012 ¡
Park, ¡Nature ¡Rev ¡Gene)cs, ¡2009 ¡ ¡
appropriate ¡methodologies ¡depend ¡on ¡data ¡type ¡ SPP ¡ MACS2 ¡ punctate ¡ mixed ¡signal ¡ broad ¡signal ¡
This ¡is ¡an ¡ac)ve ¡area ¡of ¡algorithm ¡development ¡ Transcrip)on ¡ Factors ¡ Chroma)n ¡ ¡ Remodellers ¡
¡
Histone ¡marks ¡ Chroma)n ¡ ¡ Remodellers ¡
¡
Histone ¡marks ¡
¡
RNA ¡polymerase ¡II ¡
Symmetry ¡in ¡reads ¡ mapped ¡to ¡opposite ¡ DNA ¡strands ¡ Computa)on ¡of ¡ enrichment ¡model ¡
Pepke, ¡2009 ¡
Wilbanks ¡2010 ¡
Wilbanks ¡2010 ¡ Sequence-‑specific ¡binding ¡(TFs) ¡ Distributed ¡binding ¡(histones, ¡RNApol2) ¡
Jung ¡2014 ¡ 55M ¡ human ¡
Jung ¡2014 ¡ 55M ¡ human ¡
Carroll ¡et ¡al, ¡Front ¡Genet ¡2014 ¡ DER ¡– ¡Duke ¡Excluded ¡Regions ¡ (11 ¡repeat ¡classes) ¡ UHS ¡– ¡Ultra ¡High ¡Signal ¡ (open ¡chroma)n) ¡ DAC ¡– ¡consensus ¡excluded ¡regions ¡ Reads ¡mapped ¡to ¡these ¡regions ¡should ¡be ¡ filtered ¡out ¡prior ¡to ¡peak ¡calling ¡ ¡ Tracks ¡available ¡from ¡UCSC ¡for ¡human, ¡ mouse, ¡fly ¡and ¡worm ¡
strand ¡cross-‑correla)on, ¡Irreproducible ¡discovery ¡rate) ¡
peak ¡type). ¡For ¡human ¡genome ¡and ¡broad-‑source ¡peaks, ¡min. ¡ 40-‑50M ¡reads ¡is ¡required. ¡
bound ¡as ¡nega)ve ¡controls) ¡
Rhee ¡and ¡Pugh, ¡Cell ¡2011 ¡ ¡
Clifford ¡et ¡al, ¡Nature ¡Rev ¡Genet, ¡ ¡2014 ¡
– Mo)f ¡discovery ¡ – Annota)on ¡ – Integra)on ¡of ¡binding ¡and ¡expression ¡data ¡ – Integra)on ¡of ¡various ¡binding ¡datasets ¡ – Differen)al ¡binding ¡
Match, ¡HOMER, ¡RSAT) ¡
Enrichment ¡of ¡known ¡mo)fs ¡(Homer): ¡
Binding ¡profile ¡of ¡a ¡TF ¡in ¡rela)on ¡to ¡the ¡transcrip)on ¡start ¡site ¡
deepTools ¡ ngsplots ¡ seqMiner ¡
different ¡datasets ¡
summarise ¡reads ¡mapped ¡in ¡peaks; ¡normalisa)on; ¡ sta)s)cal ¡tes)ng; ¡R ¡environment ¡
– edgeR ¡/ ¡csaw ¡ – DiffBind ¡(implements ¡several ¡normalisa)on ¡methods) ¡ ¡
– DROMPA ¡ – Diffreps ¡
condensa)on, ¡DNA ¡methyla)on, ¡… ¡
Gene ¡model ¡ Alterna)ve ¡transcripts ¡ Histone ¡modifica)ons ¡ Chroma)n ¡structure ¡ Transcrip)on ¡factor ¡binding ¡sites ¡ DNA ¡conserva)on ¡ Single ¡nucleo)de ¡polymorphisms ¡(SNP) ¡ Repeats ¡
Gene ¡model ¡ Alterna)ve ¡transcripts ¡ Histone ¡modifica)ons ¡ Chroma)n ¡structure ¡ Transcrip)on ¡factor ¡binding ¡sites ¡ DNA ¡conserva)on ¡ Single ¡nucleo)de ¡polymorphisms ¡(SNP) ¡ Repeats ¡
Gene ¡model ¡ Alterna)ve ¡transcripts ¡ Histone ¡modifica)ons ¡ Chroma)n ¡structure ¡ Transcrip)on ¡factor ¡binding ¡sites ¡ DNA ¡conserva)on ¡ Single ¡nucleo)de ¡polymorphisms ¡(SNP) ¡ Repeats ¡
Gene ¡model ¡ Alterna)ve ¡transcripts ¡ Histone ¡modifica)ons ¡ Chroma)n ¡structure ¡ Transcrip)on ¡factor ¡binding ¡sites ¡ DNA ¡conserva)on ¡ Single ¡nucleo)de ¡polymorphisms ¡(SNP) ¡ Repeats ¡
Gene ¡model ¡ Alterna)ve ¡transcripts ¡ Histone ¡modifica)ons ¡ Chroma)n ¡structure ¡ Transcrip)on ¡factor ¡binding ¡sites ¡ DNA ¡conserva)on ¡ Single ¡nucleo)de ¡polymorphisms ¡(SNP) ¡ Repeats ¡
accessibility ¡and ¡small ¡RNA ¡transcripts ¡ ¡
exo ¡data. ¡Carrol ¡et ¡al, ¡Front. ¡Genet. ¡2014 ¡
consor)a. ¡Landt ¡et ¡al, ¡Genome ¡Res. ¡2012 ¡
– Rsubread ¡(read ¡mapping; ¡not ¡ideal ¡for ¡global ¡alignment) ¡ – Rbow)e ¡(global ¡alignment) ¡ – GenomicRanges ¡(tools ¡for ¡manipula)ng ¡range ¡data) ¡ – Rsamtools ¡(SAM ¡/ ¡BAM ¡support) ¡ – htSeqTools ¡(tools ¡for ¡NGS ¡data; ¡post-‑alignment ¡QC) ¡ – chipseq ¡(u)li)es ¡for ¡ChIP-‑seq ¡analysis) ¡ – Csaw ¡(a ¡pipeline ¡for ¡ChIP-‑seq ¡analysis, ¡including ¡sta)s)cal ¡analysis ¡of ¡differen)al ¡occupancy) ¡
– SPP ¡ – BayesPeak ¡(HMM ¡and ¡Bayesian ¡sta)s)cs) ¡ – MOSAiCS ¡(model-‑based ¡one ¡and ¡two ¡Sample ¡Analysis ¡and ¡Inference ¡for ¡ChIP-‑Seq) ¡ – iSeq ¡(Hidden ¡Ising ¡models) ¡ – ChIPseqR ¡(developed ¡to ¡analyse ¡nucleosome ¡posi)oning ¡data) ¡
– ChIPQC ¡
– edgeR ¡ – DESeq, ¡DESeq2 ¡ – DiffBind ¡(compa)ble ¡with ¡objects ¡used ¡for ¡ChIPQC, ¡wrapper ¡for ¡DESeq ¡and ¡edgeR ¡DE ¡func)ons) ¡
– ChIPpeakAnno ¡(annota)ng ¡peaks ¡with ¡genome ¡context ¡informa)on) ¡
Cross-‑correla)on ¡ Cumula)ve ¡enrichment ¡
−500 500 1000 1500 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24 strand−shift (100) cross−correlation
ENCFF000PED.chr12.bam
NSC=2.50193,RSC=1.87725,Qtag=2
Clustering ¡of ¡libraries ¡ ¡ by ¡reads ¡mapped ¡in ¡bins, ¡ genome ¡– ¡wide ¡(spearman) ¡ Clustering ¡of ¡libraries ¡ ¡ by ¡reads ¡mapped ¡in ¡peaks ¡ (pearson) ¡
HeLa ¡ Sknsh ¡& ¡ HepG2 ¡ neural ¡ HepG2 ¡ neural ¡ Sknsh ¡ HeLa ¡ HepG2 ¡
I ¡
Ch ¡
Ch ¡
I ¡ I ¡
Ch ¡
Binding ¡profile ¡around ¡TSS ¡
agata.smialowska@bils.se ¡
determined ¡by ¡the ¡QC) ¡
ChIP-‑exo, ¡a ¡new ¡varia)on ¡of ¡ChIP-‑seq) ¡– ¡it ¡is ¡not ¡necessarily ¡a ¡bad ¡thing, ¡if ¡ sequence ¡duplica)on ¡levels ¡are ¡low; ¡however ¡it ¡may ¡indicate ¡low ¡ complexity ¡of ¡the ¡library ¡– ¡a ¡warning ¡sign ¡that ¡the ¡enrichment ¡in ¡ChIP ¡was ¡ not ¡successful ¡or ¡the ¡libraries ¡are ¡over-‑amplified ¡(oxen ¡the ¡laWer ¡is ¡the ¡ consequence ¡of ¡the ¡former) ¡
Sequence ¡duplica)on ¡level ¡> ¡70% ¡(low ¡complexity ¡library) ¡
NRF: ¡Non-‑redundant ¡frac)on ¡(of ¡reads): ¡propor)on ¡of ¡unique ¡tags ¡/ ¡total ¡ ¡ less ¡than ¡20% ¡of ¡reads ¡should ¡be ¡duplicates ¡for ¡10 ¡million ¡reads ¡sequenced ¡(ENCODE) ¡
best) ¡and ¡type ¡(primary ¡assembly, ¡or ¡assembly ¡from ¡individual ¡ chromosome ¡sequences ¡+ ¡non-‑chromosomal ¡con)gs; ¡not ¡the ¡top ¡level ¡ assembly); ¡choose ¡the ¡matching ¡annota)on ¡file ¡(GTF, ¡GFF) ¡
available) ¡
– BAM ¡files ¡or ¡tracks ¡(wig, ¡bedgraph, ¡bigWig) ¡ – Local ¡(IGV) ¡or ¡web-‑based ¡(UCSC ¡genome ¡browser) ¡ – Data ¡quality ¡assessment ¡
length ¡signal ¡to ¡read ¡length ¡signal ¡ ¡
¡ ¡
event, ¡the ¡dis)nct ¡clustering ¡of ¡(+) ¡and ¡(-‑) ¡reads ¡around ¡this ¡site ¡is ¡very ¡ apparent ¡
CC(Fragment ¡length) ¡
min ¡(CC) ¡
CC(Fragment ¡length)-‑min ¡(CC) ¡ ¡
CC ¡(read ¡length) ¡– ¡min ¡(CC) ¡ ¡
Wilbanks ¡2010 ¡
Peak ¡overlap ¡(Ho ¡et ¡al, ¡2012) ¡ > ¡50 ¡% ¡ 20 ¡% ¡
Jung ¡2014 ¡