ChIP-seq analysis Morgane Thomas-Chollier Computa)onal - - PowerPoint PPT Presentation

chip seq analysis
SMART_READER_LITE
LIVE PREVIEW

ChIP-seq analysis Morgane Thomas-Chollier Computa)onal - - PowerPoint PPT Presentation

ChIP-seq analysis Morgane Thomas-Chollier Computa)onal systems biology - IBENS mthomas@biologie.ens.fr M2 Computa6onal analysis of cis-regulatory


slide-1
SLIDE 1

ChIP-­‑seq ¡analysis ¡

Morgane ¡Thomas-­‑Chollier ¡

¡

Computa)onal ¡systems ¡biology ¡-­‑ ¡IBENS ¡

mthomas@biologie.ens.fr ¡ ¡ Denis ¡Thieffry, ¡Jacques ¡van ¡Helden ¡and ¡Carl ¡Herrmann ¡kindly ¡shared ¡some ¡of ¡their ¡slides. ¡ ¡

M2 ¡– ¡Computa6onal ¡analysis ¡of ¡cis-­‑regulatory ¡sequences ¡2013/2014 ¡

slide-2
SLIDE 2

2005 2006 2007 2008 2009 2010 2011 2012 2013

Pubmed hits per year for "ChiP-Seq"

50 100 150 200 250 300

The ¡ChIP-­‑seq ¡era ¡

slide-3
SLIDE 3

Aim ¡of ¡the ¡course ¡

1 ¡-­‑ ¡From ¡reads ¡to ¡peaks ¡(= ¡primary ¡analysis) ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2 ¡-­‑ ¡Secondary ¡analysis ¡ ¡-­‑ ¡mo6f ¡discovery ¡in ¡peaks ¡ ¡-­‑ ¡func6onal ¡annota6on ¡of ¡peaks ¡

slide-4
SLIDE 4

ChIP ¡(=Chroma6n ¡Immuno-­‑Precipita6on) ¡

¡ ¡ ¡ ¡ ¡

in ¡vivo ¡experimental ¡methods ¡to ¡iden6fy ¡binding ¡sites ¡

differences ¡in ¡methods ¡to ¡detect ¡the ¡bound ¡DNA ¡ ¡

  • ­‑ small-­‑scale: ¡PCR ¡/ ¡qPCR ¡

¡

  • ­‑ ¡large-­‑scale: ¡ ¡
  • ­‑ ¡microarray ¡= ¡ChIP-­‑on-­‑chip ¡
  • ­‑ ¡sequencing ¡= ¡ChIP-­‑seq ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

h9p://www.chip-­‑an)bodies.com/ ¡

slide-5
SLIDE 5

ChIP-­‑seq ¡

  • Mardis. ¡Nat ¡Methods ¡(2007) ¡

aim: ¡find ¡all ¡regions ¡bound ¡by ¡a ¡specific ¡transcripIon ¡factor ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡by ¡histones ¡bearing ¡a ¡specific ¡modificaIon ¡ ¡in ¡a ¡given ¡experimental ¡condi)on ¡(cell ¡type, ¡developmental ¡stage,...)

¡ ¡ and ¡then ¡what ¡???? ¡

slide-6
SLIDE 6

ChIP-­‑seq ¡

Experimental ¡approach ¡ BioinformaIc ¡approach ¡ and ¡then ¡what ¡???? ¡

slide-7
SLIDE 7

Different ¡ChIP ¡profiles ¡

Park, ¡Nature ¡reviews ¡2009 ¡

slide-8
SLIDE 8

ChIP-seq dataset (=treatment) background noise signal

= +

How do we estimate the noise ?

Modelling ¡noise ¡levels ¡

slide-9
SLIDE 9

Modelling ¡noise ¡levels ¡

  • noise ¡is ¡not ¡uniform ¡(chromaIn ¡conformaIon, ¡local ¡biases, ¡

mappability) ¡

  • input ¡dataset ¡is ¡mandatory ¡for ¡reliable ¡local ¡esImaIon ¡! ¡ ¡

(although ¡some ¡algorithms ¡do ¡not ¡require ¡it ¡… ¡:-­‑( ¡ ¡) ¡

treatment input

?

slide-10
SLIDE 10

From ¡sequence ¡reads ¡to ¡peaks ¡

FASTQ ¡

sequences ¡(reads ¡length ¡36 ¡bp) ¡ ¡ from ¡Illumina ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

slide-11
SLIDE 11

FASTQ ¡format ¡

@SRR002012.1 Oct4:5:1:871:340 GGCGCACTTACACCCTACATCCATTG + IIIIG1?II;IIIII1IIII1%.I7I @SRR002012.2 Oct4:5:1:804:348 GTCTGCATTATCTACCAGCACTTCCC + IIIIIIIII'I2IIIII:)I2II3I0 @SRR002012.3 Oct4:5:1:767:334 GCTGTCTTCCCGCTGTTTTATCCCCC + III8IIIIIII3III6II%II*III3 @SRR002012.4 Oct4:5:1:805:329 GTAGTTTACCTGTTCATATGTTTCTG + IIIIIII9IIIIII?IIIIIIII7II

SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS..................................................... ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII...................... .................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ...................... !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | 33 59 64 73 104 126 0 40 S - Sanger Phred+33, raw reads typically (0, 40) X - Solexa Solexa+64, raw reads typically (-5, 40) I - Illumina 1.3+ Phred+64, raw reads typically (0, 40) J - Illumina 1.5+ Phred+64, raw reads typically (3, 40) with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold)

adapted ¡from ¡Wikipedia ¡ >SRR002012.1 Oct4:5:1:871:340 GGCGCACTTACACCCTACATCCATTG >SRR002012.2 Oct4:5:1:804:348 GTCTGCATTATCTACCAGCACTTCCC >SRR002012.3 Oct4:5:1:767:334 GCTGTCTTCCCGCTGTTTTATCCCCC >SRR002012.4 Oct4:5:1:805:329 GTAGTTTACCTGTTCATATGTTTCTG

slide-12
SLIDE 12

FASTQ ¡

sequences ¡(reads ¡length ¡36 ¡bp) ¡ ¡ from ¡Illumina ¡ quality ¡check ¡ FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-13
SLIDE 13

h]p://www.bioinformaIcs.bbsrc.ac.uk/projects/fastqc/ ¡ ¡

h]p://bioinfo-­‑core.org/index.php/9th_Discussion-­‑28_October_2010 ¡ h]p://bioinfo.cipf.es/courses/mda11/lib/exe/fetch.php?media=ngs_qc_tutorial_mda_val_2011.pdf ¡

slide-14
SLIDE 14

modEncode Kni Drosophila

slide-15
SLIDE 15

FASTQ ¡

sequences ¡(reads ¡length ¡30/34 ¡bp) ¡ ¡ from ¡Illumina ¡ quality ¡check ¡ FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ remove ¡adapter ¡sequences ¡ cutadapt ¡

h]p://code.google.com/p/cutadapt/ ¡

quality ¡check ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-16
SLIDE 16

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

mapping ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡

Langmead, Genome Biol 10:R25 (2009)

BED ¡ BAM ¡ SAM ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-17
SLIDE 17

Mapping ¡

h]p://bifx-­‑core.bio.ed.ac.uk:8080/galaxy/u/shaun%20webb/p/ngs-­‑workshop ¡ ¡BowIe ¡and ¡Colourspace ¡BowIe ¡ ¡BWA ¡ ¡LastZ ¡ ¡ ¡Tophat ¡… ¡

slide-18
SLIDE 18

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

quality ¡check ¡ Samstat ¡

Lassmann ¡et ¡al. ¡Bioinforma)cs ¡(2010) ¡

mapping ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡

Langmead, Genome Biol 10:R25 (2009)

BED ¡ BAM ¡ SAM ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-19
SLIDE 19

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

quality ¡check ¡ Samstat ¡

Lassmann ¡et ¡al. ¡Bioinforma)cs ¡(2010) ¡

visualiza6on ¡ mapping ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡

Langmead, Genome Biol 10:R25 (2009)

GR Input

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

cutadapt ¡ FASTQC ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-20
SLIDE 20

mapping ¡ peak-­‑calling ¡

Valouev ¡Nat ¡Methods ¡(2008), ¡Jothi, ¡NAR ¡(2008) ¡

slide-21
SLIDE 21

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

quality ¡check ¡ Samstat ¡

Lassmann ¡et ¡al. ¡Bioinforma)cs ¡(2010) ¡

visualiza6on ¡ mapping ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡

Langmead, Genome Biol 10:R25 (2009)

GR Input

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

cutadapt ¡ FASTQC ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-22
SLIDE 22

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

Samstat ¡ visualiza6on ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡ FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

cutadapt ¡ FASTQC ¡

BED ¡ BAM ¡ SAM ¡

peak ¡calling ¡ MACS ¡

Zhang, ¡Genome ¡Biol ¡(2008) ¡ ¡

peaks

MACS ¡ ¡ treatment ¡vs ¡control ¡

Cut-­‑off ¡FDR ¡(2%) ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-23
SLIDE 23

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

Samstat ¡ visualiza6on ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡ FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

cutadapt ¡ FASTQC ¡

BED ¡ BAM ¡ SAM ¡

peak ¡calling ¡ MACS ¡

Zhang, ¡Genome ¡Biol ¡(2008) ¡ ¡

peaks

MACS ¡ ¡ treatment ¡vs ¡control ¡

Cut-­‑off ¡FDR ¡(2%) ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-24
SLIDE 24

mapping ¡ peak-­‑calling ¡

Valouev ¡Nat ¡Methods ¡(2008), ¡Jothi, ¡NAR ¡(2008) ¡

slide-25
SLIDE 25

bimodal ¡enrichment ¡pa]ern ¡

1 ¡– ¡modelling ¡the ¡read ¡shij ¡size ¡ ¡ 2 ¡– ¡peak ¡calling ¡

1 : search high-quality paired peaks : separates their forward and reverse reads, and aligns them by the midpoint. The distance between the modes of the forward and reverse peaks in the alignment is defined as d, and MACS shifts all reads by d/2 toward the 3′ ends to better locate the precise binding sites. 2: uses the shift size to search for peaks, Poisson distribution to measure the p-value of each peak, and False Discovery Rate (FDR) calculation using the input data

Two steps strategy :

peak model forward tags reverse tags shifted tags d =119 600 0.0 400 200 Distance to the middle 200 400 600 0.1 0.2 0.3 Percentage 0.4 0.5

Feng, ¡J., ¡Liu, ¡T., ¡& ¡Zhang, ¡Y. ¡(2011). ¡Using ¡MACS ¡to ¡Iden)fy ¡Peaks ¡from ¡ChIP-­‑Seq ¡Data, ¡ Current ¡Protocols ¡in ¡Bioinforma)cs ¡ ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-26
SLIDE 26

ChIP-­‑seq ¡signal ¡for ¡transcrip6on ¡factors ¡

We ¡expect ¡to ¡see ¡a ¡typical ¡strand ¡asymetry ¡in ¡read ¡densiIes ¡ ¡ → ¡ChIP ¡peak ¡recogniIon ¡pa]ern ¡ ¡ ¡

slide-27
SLIDE 27

Tag ¡shiSing ¡

Each ¡tag ¡is ¡shijed ¡by ¡d/2 ¡(i.e. ¡towards ¡the ¡middle ¡of ¡the ¡IP ¡fragment) ¡ where ¡d ¡represent ¡the ¡fragment ¡length ¡ ¡

slide-28
SLIDE 28

FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ FASTQC ¡

FASTQ ¡ FASTQ ¡

Samstat ¡ visualiza6on ¡ BowIe ¡

BED ¡ BAM ¡ SAM ¡ FASTQ ¡

FASTQC ¡ experiment ¡ ¡ ¡ ¡Input ¡

FASTQ ¡

cutadapt ¡ FASTQC ¡

BED ¡ BAM ¡ SAM ¡

peak ¡calling ¡ MACS ¡

Zhang, ¡Genome ¡Biol ¡(2008) ¡ ¡ BED ¡

peak ¡list ¡

From ¡sequence ¡reads ¡to ¡peaks ¡

slide-29
SLIDE 29

Peak ¡list ¡(BED ¡file) ¡

chr1 ¡145436475 ¡145438649 ¡1478 ¡3206.01 ¡+ ¡ chr4 ¡50881 ¡52467 ¡19930 ¡3180.67 ¡+ ¡ chr9 ¡31335610 ¡31336400 ¡26372 ¡3170.26 ¡+ ¡ chr6 ¡36971531 ¡36973765 ¡22937 ¡3147.85 ¡+ ¡ chr4 ¡16234642 ¡16236143 ¡20221 ¡3133.43 ¡+ ¡ chr21 ¡40144820 ¡40146203 ¡17188 ¡3131.68 ¡+ ¡ chr19 ¡40916830 ¡40918210 ¡13487 ¡3127.46 ¡+ ¡ chr4 ¡140477689 ¡140479184 ¡20737 ¡3115.67 ¡+ ¡ chr3 ¡12996108 ¡12998488 ¡18417 ¡3108.55 ¡+ ¡ chr9 ¡749205 ¡752142 ¡26263 ¡3101.90 ¡+ ¡ chr1 ¡11628770 ¡11630411 ¡268 ¡3100.00 ¡+ ¡ chr1 ¡153742611 ¡153744775 ¡1556 ¡3100.00 ¡+ ¡

slide-30
SLIDE 30

Read ¡mapping ¡programs ¡

  • BowIe ¡(BowIe2) ¡
  • BWA ¡
  • Generally ¡not ¡having ¡a ¡strong ¡influence ¡on ¡the ¡results ¡

» Parameters: ¡retain ¡uniquely ¡mapped ¡reads ¡

slide-31
SLIDE 31

Peak-­‑calling ¡programs ¡

  • Strong ¡influence ¡on ¡the ¡called ¡peaks ¡

» Many ¡different ¡programs ¡ » They ¡do ¡not ¡share ¡the ¡same ¡« ¡default ¡» ¡threshold ¡to ¡retain ¡peaks ¡ » The ¡top ¡highest ¡peaks ¡are ¡usually ¡common, ¡but ¡the ¡less ¡obvious ¡peaks ¡ are ¡ojen ¡not ¡shared ¡between ¡different ¡peak ¡callers ¡

Mali ¡Salmon-­‑Divon ¡et ¡al, ¡BMC ¡Bioinforma)cs, ¡2010 ¡ ¡ ¡ ¡

slide-32
SLIDE 32

Peak ¡calling ¡programs ¡

  • To ¡be ¡chosen ¡according ¡to ¡type ¡of ¡expected ¡peaks ¡

» TranscripIon ¡factors ¡and ¡« ¡sharp ¡» ¡peaks ¡ » ChromaIn ¡marks ¡and ¡« ¡broad ¡peaks ¡» ¡

  • Many ¡new ¡programs ¡sIll ¡developped ¡! ¡

» MACS ¡is ¡currently ¡commonly ¡usedfor ¡sharp ¡peaks ¡ » SICER ¡is ¡good ¡with ¡broad ¡signal ¡

slide-33
SLIDE 33

Aim ¡of ¡the ¡course ¡

1 ¡-­‑ ¡From ¡reads ¡to ¡peaks ¡(= ¡primary ¡analysis) ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2 ¡-­‑ ¡Secondary ¡analysis ¡ ¡-­‑ ¡mo6f ¡discovery ¡in ¡peaks ¡ ¡-­‑ ¡func6onal ¡annota6on ¡of ¡peaks ¡

slide-34
SLIDE 34

Visualizing ¡in ¡a ¡genome ¡browser ¡

  • Local ¡tools ¡(IGV) ¡ ¡

» Fast ¡ » Ideal ¡for ¡sensiIve ¡datasets ¡

  • web-­‑based ¡tools ¡(UCSC ¡browser) ¡with ¡custom ¡tracks ¡

» Integrated ¡with ¡many ¡other ¡informaIon ¡(conservaIon,…) ¡ » Easy ¡to ¡share ¡between ¡collaborators ¡

  • File ¡formats ¡

» BED ¡=> ¡simply ¡defines ¡a ¡region ¡(start-­‑end) ¡ » WIG, ¡bedgraph ¡=> ¡value ¡assigned ¡to ¡each ¡posiIon ¡ ¡

slide-35
SLIDE 35

Vizualizing ¡in ¡IGV ¡

You ¡will ¡manipulate ¡these ¡data…. ¡

slide-36
SLIDE 36

Aim ¡of ¡the ¡course ¡

1 ¡-­‑ ¡From ¡reads ¡to ¡peaks ¡(= ¡primary ¡analysis) ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2 ¡-­‑ ¡Secondary ¡analysis ¡ ¡-­‑ ¡mo6f ¡discovery ¡in ¡peaks ¡ ¡-­‑ ¡func6onal ¡annota6on ¡of ¡peaks ¡

slide-37
SLIDE 37

de ¡novo ¡mo6f ¡discovery ¡

target ¡gene ¡

cis-­‑regulatory ¡elements ¡

target ¡gene ¡ target ¡gene ¡

transcripIon ¡factor ¡ binding ¡moIf ¡ Problem ¡: ¡ ¡ How ¡can ¡we ¡model/describe ¡ the ¡binding ¡specificity ¡of ¡ ¡ a ¡given ¡TF ¡? ¡

slide-38
SLIDE 38
  • Find ¡excepIonal ¡moIfs ¡based ¡on ¡the ¡sequence ¡only ¡

(A ¡priori ¡no ¡knowledge ¡of ¡the ¡moIf ¡to ¡look ¡for) ¡

¡

¡

  • Criteria ¡of ¡excepIonality: ¡

¡

  • higher/lower ¡frequency ¡than ¡expected ¡by ¡chance ¡ ¡

(over-­‑/under-­‑representa6on) ¡ ¡ ¡

  • concentraIon ¡at ¡specific ¡posiIons ¡relaIve ¡to ¡some ¡reference ¡coordinate ¡

(posi6onal ¡bias) ¡ ¡

.-;82-3&

  • <</%%$3<$;&

K&

de ¡novo ¡mo6f ¡discovery ¡

slide-39
SLIDE 39
  • Tools ¡already ¡exist ¡for ¡a ¡long ¡Ime ¡! ¡

¡

  • MEME ¡(1994) ¡
  • RSAT ¡oligo-­‑analysis ¡(1998) ¡
  • AlignACE ¡(2000) ¡
  • Weeder ¡(2001) ¡
  • MoIfSampler ¡(2001) ¡

¡ ¡ ¡ ¡

Why ¡do ¡we ¡need ¡new ¡approaches ¡for ¡genome-­‑wide ¡datasets ¡? ¡

de ¡novo ¡mo6f ¡discovery ¡

slide-40
SLIDE 40

New ¡approaches ¡for ¡ChIP-­‑seq ¡datasets ¡

¡

  • Size, ¡size, ¡size ¡
  • ­‑ limited ¡numbers ¡of ¡promoters ¡and ¡enhancers ¡

¡

  • ­‑ ¡dozens ¡of ¡thousands ¡of ¡peaks ¡!!!!!! ¡

¡

h]p://www.genomequest.com/landing-­‑pages/ODI-­‑webinar-­‑web.html ¡

slide-41
SLIDE 41

¡

  • Size, ¡size, ¡size ¡
  • ­‑ limited ¡numbers ¡of ¡promoters ¡and ¡enhancers ¡

¡

  • ­‑ ¡dozens ¡of ¡thousands ¡of ¡peaks ¡!!!!!! ¡
  • the ¡problem ¡is ¡slightly ¡different ¡
  • ­‑ promoters: ¡200-­‑2000bp ¡from ¡co-­‑regulated ¡genes ¡

¡

  • ­‑ peaks: ¡300bp, ¡posiIonal ¡bias ¡

¡

h]p://www.genomequest.com/landing-­‑pages/ODI-­‑webinar-­‑web.html ¡

.-;82-3&

  • <</%%$3<$;&

K&

New ¡approaches ¡for ¡ChIP-­‑seq ¡datasets ¡

slide-42
SLIDE 42

¡

  • Size, ¡size, ¡size ¡
  • ­‑ limited ¡numbers ¡of ¡promoters ¡and ¡enhancers ¡

¡

  • ­‑ ¡dozens ¡of ¡thousands ¡of ¡peaks ¡!!!!!! ¡
  • the ¡problem ¡is ¡slightly ¡different ¡
  • ­‑ promoters: ¡200-­‑2000bp ¡from ¡co-­‑regulated ¡genes ¡

¡

  • ­‑ peaks: ¡300bp, ¡posiIonal ¡bias ¡
  • mo6f ¡analysis: ¡not ¡just ¡for ¡specialists ¡anymore ¡! ¡
  • ­‑ complete ¡user-­‑friendly ¡workflows ¡

¡ ¡

h]p://www.genomequest.com/landing-­‑pages/ODI-­‑webinar-­‑web.html ¡

.-;82-3&

  • <</%%$3<$;&

K&

New ¡approaches ¡for ¡ChIP-­‑seq ¡datasets ¡

slide-43
SLIDE 43

Comparison ¡of ¡tools ¡for ¡ChIP-­‑seq ¡

Program peak-motifs ChipMunk CompleteMotifs MEME-ChIP MICSA GimmeMotifs Web interface yes yes yes yes no no Size limitation unrestricted (Web site tested with 22 Mb) 100kb (web site) 500kb (web site) unrestricted, but motif discovery restricted to 600 peaks clipped to 100bp motif discovery restricted to a few hundred base pairs

  • Stand-alone version

yes yes no yes yes yes Tasks peak finding no no no no yes no annotation of peak-flanking genes no no yes no no sequence composition (mono- and di-nucleotides) yes no no no no motif discovery yes yes yes yes yes yes enrichment in motifs from databases no no yes yes no enrichment in discovered motifs yes no no no no peak scoring no no no yes yes no motif clustering no no no no yes comparison discovered motifs / motif DB yes no no yes yes sequence scanning for site prediction yes no no yes no positional distribution of sites inside peaks yes no yes no yes visualization in genome browsers yes no yes no no Motif discovery algorithms RSAT oligo-analysis RSAT dyad-analysis RSAT position-analysis RSAT local-word-analysis + in stand-alone version: MEME ChIPMunk ChipMunk ChipMunk MEME Weeder MEME DREME MEME MEME Weeder MotifSampler BioProspector Gadem Improbizer MDmodule Trawler MoAn Pattern matching algorithms RSAT matrix-scan-quick no patser MAST + AME (enrichment) no Motif comparison algorithm RSAT compare-motifs no STAMP TOMTOM STAMP Motif clustering algorithm STAMP Comparison between discovered motifs yes no yes no yes Motif database comparisons JASPAR UNIPROBE DMMPMM RegulonDB upload your own database no JASPAR TRANSFAC JASPAR TRANSFAC UNIPROBE FLYREG DPINTERACT SCPD DMMPMM and many others no Motif sizes variable (multiple word assembly) user-specified <=25 for MEME <=12 for Weeder <=13 for ChipMunk predefined ranges (small, medium, large, extra-large) Multiple motifs yes no yes yes yes Ref (PMID) This article 20736340 21183585 21486936 20375099 21081511

slide-44
SLIDE 44

Program peak-motifs ChipMunk CompleteMotifs MEME-ChIP MICSA GimmeMotifs Web interface yes yes yes yes no no Size limitation unrestricted (Web site tested with 22 Mb) 100kb (web site) 500kb (web site) unrestricted, but motif discovery restricted to 600 peaks clipped to 100bp motif discovery restricted to a few hundred base pairs

  • Stand-alone version

yes yes no yes yes yes Tasks peak finding no no no no yes no annotation of peak-flanking genes no no yes no no sequence composition (mono- and di-nucleotides) yes no no no no motif discovery yes yes yes yes yes yes enrichment in motifs from databases no no yes yes no enrichment in discovered motifs yes no no no no peak scoring no no no yes yes no motif clustering no no no no yes comparison discovered motifs / motif DB yes no no yes yes sequence scanning for site prediction yes no no yes no positional distribution of sites inside peaks yes no yes no yes visualization in genome browsers yes no yes no no Motif discovery algorithms RSAT oligo-analysis RSAT dyad-analysis RSAT position-analysis RSAT local-word-analysis + in stand-alone version: MEME ChIPMunk ChipMunk ChipMunk MEME Weeder MEME DREME MEME MEME Weeder MotifSampler BioProspector Gadem Improbizer MDmodule Trawler MoAn Pattern matching algorithms RSAT matrix-scan-quick no patser MAST + AME (enrichment) no Motif comparison algorithm RSAT compare-motifs no STAMP TOMTOM STAMP Motif clustering algorithm STAMP Comparison between discovered motifs yes no yes no yes Motif database comparisons JASPAR UNIPROBE DMMPMM RegulonDB upload your own database no JASPAR TRANSFAC JASPAR TRANSFAC UNIPROBE FLYREG DPINTERACT SCPD DMMPMM and many others no Motif sizes variable (multiple word assembly) user-specified <=25 for MEME <=12 for Weeder <=13 for ChipMunk predefined ranges (small, medium, large, extra-large) Multiple motifs yes no yes yes yes Ref (PMID) This article 20736340 21183585 21486936 20375099 21081511

Program peak-motifs ChipMunk CompleteMotifs MEME-ChIP MICSA GimmeMotifs Web interface yes yes yes yes no no Size limitation unrestricted (Web site tested with 22 Mb) 100kb (web site) 500kb (web site) unrestricted, but motif discovery restricted to 600 peaks clipped to 100bp motif discovery restricted to a few hundred base pairs

  • Thomas-­‑Chollier, ¡Herrmann, ¡Defrance, ¡Sand, ¡Thieffry, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2012 ¡ ¡

Comparison ¡of ¡tools ¡for ¡ChIP-­‑seq ¡

slide-45
SLIDE 45

Program peak-motifs ChipMunk CompleteMotifs MEME-ChIP MICSA GimmeMotifs Web interface yes yes yes yes no no Size limitation unrestricted (Web site tested with 22 Mb) 100kb (web site) 500kb (web site) unrestricted, but motif discovery restricted to 600 peaks clipped to 100bp motif discovery restricted to a few hundred base pairs

  • Stand-alone version

yes yes no yes yes yes Tasks peak finding no no no no yes no annotation of peak-flanking genes no no yes no no sequence composition (mono- and di-nucleotides) yes no no no no motif discovery yes yes yes yes yes yes enrichment in motifs from databases no no yes yes no enrichment in discovered motifs yes no no no no peak scoring no no no yes yes no motif clustering no no no no yes comparison discovered motifs / motif DB yes no no yes yes sequence scanning for site prediction yes no no yes no positional distribution of sites inside peaks yes no yes no yes visualization in genome browsers yes no yes no no Motif discovery algorithms RSAT oligo-analysis RSAT dyad-analysis RSAT position-analysis RSAT local-word-analysis + in stand-alone version: MEME ChIPMunk ChipMunk ChipMunk MEME Weeder MEME DREME MEME MEME Weeder MotifSampler BioProspector Gadem Improbizer MDmodule Trawler MoAn Pattern matching algorithms RSAT matrix-scan-quick no patser MAST + AME (enrichment) no Motif comparison algorithm RSAT compare-motifs no STAMP TOMTOM STAMP Motif clustering algorithm STAMP Comparison between discovered motifs yes no yes no yes Motif database comparisons JASPAR UNIPROBE DMMPMM RegulonDB upload your own database no JASPAR TRANSFAC JASPAR TRANSFAC UNIPROBE FLYREG DPINTERACT SCPD DMMPMM and many others no Motif sizes variable (multiple word assembly) user-specified <=25 for MEME <=12 for Weeder <=13 for ChipMunk predefined ranges (small, medium, large, extra-large) Multiple motifs yes no yes yes yes Ref (PMID) This article 20736340 21183585 21486936 20375099 21081511

Program peak-motifs ChipMunk CompleteMotifs MEME-ChIP MICSA GimmeMotifs Web interface yes yes yes yes no no Size limitation unrestricted (Web site tested with 22 Mb) 100kb (web site) 500kb (web site) unrestricted, but motif discovery restricted to 600 peaks clipped to 100bp motif discovery restricted to a few hundred base pairs

  • Thomas-­‑Chollier, ¡Herrmann, ¡Defrance, ¡Sand, ¡Thieffry, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2012 ¡ ¡

Comparison ¡of ¡tools ¡for ¡ChIP-­‑seq ¡

slide-46
SLIDE 46
  • fast ¡and ¡scalable ¡ ¡
  • treat ¡full-­‑size ¡datasets ¡

¡

500 1000 1500 2000 2500 3000 3500 4000 4500 5000 10 20 30 40 50 60 70 80 90 100 Time (seconds) sequence size (Mb) peak-motifs: oligo-analysis-7nt peak-motifs: dyad-analysis peak-motifs: position-analysis-7nt peak-motifs: local-words-7nt dreme chipmunk meme

typical ChIP-seq dataset

1h

Thomas-­‑Chollier, ¡Herrmann, ¡Defrance, ¡Sand, ¡Thieffry, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2012 ¡ ¡

size limit of other websites

RSAT ¡peak-­‑mo6fs ¡

slide-47
SLIDE 47
  • fast ¡and ¡scalable ¡ ¡
  • treat ¡full-­‑size ¡datasets ¡
  • complete ¡pipeline ¡

¡

Thomas-­‑Chollier, ¡Herrmann, ¡Defrance, ¡Sand, ¡Thieffry, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2012 ¡ ¡

RSAT ¡peak-­‑mo6fs ¡

slide-48
SLIDE 48
  • fast ¡and ¡scalable ¡ ¡
  • treat ¡full-­‑size ¡datasets ¡
  • complete ¡pipeline ¡
  • web ¡interface ¡

¡

Thomas-­‑Chollier, ¡Defrance, ¡Medina-­‑Rivera, ¡Sand, ¡Herrmann, ¡Thieffry, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2011 ¡ ¡ Medina-­‑Rivera, ¡Abreu-­‑Goodger, ¡Thomas-­‑Chollier, ¡Salgado, ¡Collado-­‑Vides, ¡van ¡Helden ¡Nucleic ¡Acids ¡Research, ¡2011 ¡ Sand, ¡Thomas-­‑Chollier, ¡van ¡Helden ¡Bioinforma4cs, ¡2009 ¡ Thomas-­‑Chollier*, ¡Sand*, ¡Turatsinze, ¡Janky, ¡Defrance, ¡Vervisch, ¡van ¡Helden ¡ ¡Nucleic ¡Acids ¡Research, ¡2008 ¡ Sand, ¡Thomas-­‑Chollier, ¡Vervisch, ¡van ¡Helden ¡ ¡Nature ¡Protocols, ¡2008 ¡ Thomas-­‑Chollier*, ¡Turatsinze*, ¡Defrance, ¡van ¡Helden ¡Nature ¡Protocols, ¡2008 ¡ van ¡Helden, ¡Nucleic ¡Acids ¡Research, ¡2003 ¡

Jacques ¡van ¡Helden ¡

within ¡RSAT ¡

RSAT ¡peak-­‑mo6fs ¡

slide-49
SLIDE 49
slide-50
SLIDE 50

RSAT ¡peak-­‑mo6fs ¡

  • fast ¡and ¡scalable ¡ ¡
  • treat ¡full-­‑size ¡datasets ¡
  • complete ¡pipeline ¡
  • web ¡interface ¡
  • accessible ¡to ¡non-­‑specialists ¡
  • using ¡4 ¡complementary ¡algorithms ¡

¡

500 1000 1500 2000 2500 3000 3500 4000 4500 5000 10 20 30 40 50 60 70 80 90 100 Time (seconds) sequence size (Mb) peak-motifs: oligo-analysis-7nt peak-motifs: dyad-analysis peak-motifs: position-analysis-7nt peak-motifs: local-words-7nt dreme chipmunk meme

  • Global ¡over-­‑representa6on ¡
  • oligo-­‑analysis ¡
  • dyad-­‑analysis ¡(spaced ¡mo6fs) ¡

¡

  • Posi6onal ¡bias ¡
  • posi6on-­‑analysis ¡
  • local-­‑words ¡

.-;82-3&

  • <</%%$3<$;&

K&

slide-51
SLIDE 51

Mo6f ¡discovery ¡methods: ¡frequency ¡

!"#$%&'$()(**+***&,& !"#$%#"&'"()"#% *+),-./'(0%#"&'"()"#% 123"(%+4+56+76"8% !&+-#./012-3&-4&."516/$&'783-#816,&139&:"516/$& '#/62"0$;23)&<-%%$<2-3,&

97#".4"0%4#%":;")$"0%<=>".% /))'.."()"#%

:=.$<0$9&-<</%%$3<$;&'>0?&-%9$%&@1%A-5&#-9$6,&& B7;$%5$9&'0$;0&;$C/$3<$;,&

?%

97#".4"0&!"#$%&

  • <</%%$3<$;&<-#./0$9&

4%-#D&&& @:;")$"0&!"#$%&

  • <</%%$3<$;&<-#./0$9&

4%-#D&& !3"/."A)+6%,=>".#% B."&'"()5"#%B./>%$"#$% #"&'"()"#%

BE&

  • ligo-­‑analysis ¡ ¡

dyad-­‑analysis ¡(spaced ¡mo6fs) ¡

Thomas-­‑Chollier, ¡Darbo, ¡Herrmann, ¡Defrance, ¡Thieffry, ¡van ¡Helden ¡Nature ¡Protocols,2012 ¡

slide-52
SLIDE 52

*%

F"#$%&'$()(**+***G&,& 97#".4"0%/))'.."()"#%;".%25(0/2% @:;")$"0%/))'.."()"#%;".%25(0/2%B/66/25(-%+(% 3/>/-"("/'#%>/0"6%

H839-I;&>J&30& H839-I;&>J&30& .-;82-3& .-;82-3&

  • <</%%$3<$;&

K& K& C%

!"#$%&'$()(**+***&,& :=.$<0$9&-<</%%$3<$;&83&I?-6$&;$C/$3<$;& B7;$%5$9&83&I839-I& 97#".4"0%4#%":;")$"0%<=>".%/))'.."()"#% 97#".4"0%/))'."()"#%;".%25(0/2%

posi6on-­‑analysis ¡ ¡ ¡ ¡ local-­‑words ¡

Mo6f ¡discovery ¡methods: ¡posi6onal ¡bias ¡

Thomas-­‑Chollier, ¡Darbo, ¡Herrmann, ¡Defrance, ¡Thieffry, ¡van ¡Helden ¡Nature ¡Protocols,2012 ¡

slide-53
SLIDE 53

Direct ¡versus ¡indirect ¡binding ¡

  • ChIP-­‑seq ¡does ¡not ¡necessarily ¡reveal ¡direct ¡binding ¡

¡

Direct ¡binding ¡ Indirect ¡binding ¡

  • The ¡moIf ¡of ¡the ¡targeted ¡TF ¡is ¡not ¡always ¡found ¡in ¡peaks ¡! ¡

¡

slide-54
SLIDE 54

Aim ¡of ¡the ¡course ¡

1 ¡-­‑ ¡From ¡reads ¡to ¡peaks ¡(= ¡primary ¡analysis) ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2 ¡-­‑ ¡Secondary ¡analysis ¡ ¡-­‑ ¡mo6f ¡discovery ¡in ¡peaks ¡ ¡-­‑ ¡func6onal ¡annota6on ¡of ¡peaks ¡

slide-55
SLIDE 55

Distance ¡to ¡closest ¡TSS ¡

Distance of the peaks to the closest TSS

Distance to the closest TSS Number of peaks 20 40 60 80 100 −5000 −2500 2500 5000

slide-56
SLIDE 56

Localisa6on ¡of ¡the ¡peaks ¡in ¡the ¡genome ¡

slide-57
SLIDE 57

Genes ¡ ¡→ ¡ ¡Regions ¡ ¡← ¡ ¡Peaks ¡

  • Idea ¡: ¡ ¡

assign ¡funcIonal ¡annotaIon ¡to ¡genomic ¡regions ¡ use ¡staIsIcs ¡to ¡avoid ¡biases ¡

  • assign ¡to ¡each ¡gene ¡a ¡regulatory ¡domain ¡

basal ¡(-­‑5kb/+1kb ¡from ¡TSS) ¡ extended ¡(up ¡to ¡nearest ¡ ¡

basal ¡region ¡; ¡max ¡1Mb) ¡

  • each ¡domain ¡is ¡annotated ¡to ¡the ¡funcIonal ¡terms ¡of ¡the ¡

corresponding ¡gene ¡ ¡ → ¡"Func6onal ¡domains" ¡

"GREAT improves functional interpretation of cis-regulatory regions" McLean et al. Nat. Biotech. (2010)

slide-58
SLIDE 58

Genes ¡ ¡→ ¡ ¡Regions ¡ ¡← ¡ ¡Peaks ¡

"GREAT improves functional interpretation of cis-regulatory regions" McLean et al. Nat. Biotech. (2010)

term A term B

Given that 60% of the genome is annotated to A, would I randomly expect 3 or more peaks to fall into region A ? Given that 15% of the genome is annotated to B, would I randomly expect 3 or more peaks to fall into region B ?

p = 0.07 p > 0.5

slide-59
SLIDE 59

To ¡read ¡further ¡… ¡

  • ChIP–seq ¡and ¡beyond: ¡new ¡and ¡improved ¡methodologies ¡to ¡

detect ¡and ¡characterize ¡protein–DNA ¡interac6ons ¡

» Terrence ¡S. ¡Furey ¡-­‑ ¡Nature ¡Reviews ¡GeneIcs ¡13, ¡840-­‑852 ¡(December ¡ 2012) ¡

  • ChIP-­‑Seq: ¡advantages ¡and ¡challenges ¡of ¡a ¡maturing ¡technology ¡

» Peter ¡J. ¡Park ¡-­‑ ¡Nat ¡Rev ¡Genet. ¡2009 ¡October; ¡10(10): ¡669–680 ¡

  • Computa6on ¡for ¡ChIP-­‑seq ¡and ¡RNA-­‑seq ¡studies ¡

» Shirley ¡Pepke ¡et ¡al ¡-­‑ ¡Nature ¡Methods ¡6, ¡S22 ¡-­‑ ¡S32 ¡(2009) ¡ ¡