Transcriptome and isoform reconstruc1on with short reads - - PowerPoint PPT Presentation

transcriptome and isoform reconstruc1on with short reads
SMART_READER_LITE
LIVE PREVIEW

Transcriptome and isoform reconstruc1on with short reads - - PowerPoint PPT Presentation

Transcriptome and isoform reconstruc1on with short reads Tangled up in reads Topics of this lecture Mapping-based reconstruc1on methods Case


slide-1
SLIDE 1

Transcriptome ¡and ¡isoform ¡ reconstruc1on ¡with ¡short ¡reads ¡ ¡

Tangled ¡up ¡in ¡reads ¡ ¡

slide-2
SLIDE 2

Topics ¡of ¡this ¡lecture ¡ ¡

  • Mapping-­‑based ¡reconstruc1on ¡methods ¡

– Case ¡study: ¡The ¡domes1c ¡dog ¡

  • De-­‑novo ¡reconstruc1on ¡method ¡

– Trinity ¡ ¡

slide-3
SLIDE 3

Transcriptome ¡assembly ¡

Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

slide-4
SLIDE 4

Transcriptome ¡assembly ¡

Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

slide-5
SLIDE 5

Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡ Read-aligner Splice-junction mapper Filtering read alignments Annotate genes Estimate gene expresssion Augment annotation Use existing annotation RNA-seq Genome Annotation

slide-6
SLIDE 6

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

slide-7
SLIDE 7

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Has shared an environment with humans for > 5000 years Affected by many of the same diseases as man > Cancer > Heart disease > Exposed to many of the same environ. influences Extensive breeding and selection > Many dog breeds are prone to certain diseases > Long haplotypes ideal for association studies Requires a high quality genome...and detailed annotation! Question: what genes are located in my region of interest?

slide-8
SLIDE 8

Recently, the Broad institute released an updated build, canFam3.1 85 Mb of additional sequence integrated 99.8% of euchromatic portion of genome covered, high quality Recovered 100s of GC-rich promoter regions Now approaches level of quality/completion of mouse or human > the annotation...not so much. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

slide-9
SLIDE 9

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ strong discrepancy between well-annotated human genome and dog. Why? > largely homology-based > only few dog-specific gene annotations > almost no isoform information Majority of loci likely incomplete, many dog-specific genes probably missing

slide-10
SLIDE 10

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ 10 tissues at great depth (> 20 million reads) blood, brain, heart, kidney, liver, lung, muscle, ovary, skin, testes Stranded paired-end libraries Poly-A selected: default approach, recovers mostly protein-coding genes DSN prep: Targets all RNAs, but normalizes library to avoid strong biases

An improved canine genome and a comprehensive catalogue of coding genes and non-coding

  • transcripts. Hoeppner MP et al. PLoS One 2014 Mar 13;9(3):e91172
slide-11
SLIDE 11

Align ¡reads ¡with ¡Tophat/Bow1e ¡ Reconstruct ¡transcripts ¡with ¡ Cufflinks ¡ Reconcile ¡de-­‑novo ¡annota1on ¡ with ¡reference ¡ Annotate ¡novel ¡transcripts ¡ Quan1fy ¡ Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡

slide-12
SLIDE 12

Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡

Reference ¡ Genome ¡ RNA-­‑seq ¡

slide-13
SLIDE 13

¡ ¡

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

0 ¡ 50000 ¡ 100000 ¡ 150000 ¡ 200000 ¡ 250000 ¡ Poly-­‑A ¡ DSN ¡

Transcript reconstruction using cufflinks for both libraries DSN recovers more transcripts than polyA Transcriptional diversity is highest in testes

slide-14
SLIDE 14

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

slide-15
SLIDE 15

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Transcript reconstruction using cufflinks for both libraries

slide-16
SLIDE 16

RNA ¡flavors ¡

Landscape ¡of ¡transcrip/on ¡in ¡human ¡ cells, ¡S ¡Djebali ¡et ¡al. ¡Nature ¡2012 ¡ ¡

slide-17
SLIDE 17

Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Augmented annotation and transcript classification

slide-18
SLIDE 18

Several ¡soYwares ¡

  • Cufflinks ¡
  • Scripture ¡
  • Ballgown ¡
  • StringTie ¡
slide-19
SLIDE 19

Transcriptome ¡assembly ¡

Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

slide-20
SLIDE 20

¡ ¡

De-­‑novo ¡transcriptome ¡assembly ¡ For the majority of species, there are no comprehensive genome sequences… Transcriptomics can inform a broad range of questions without reference à De-novo transcriptome assembly from extracted RNA

slide-21
SLIDE 21

De-­‑novo ¡transcriptome ¡reconstruc1on ¡ Assembler Characterize Estimate gene expresssion Annotate RNA-seq Determine gene content

slide-22
SLIDE 22

De-­‑novo ¡transcriptome ¡assembly ¡ ¡

Manfred ¡Grabherr ¡ Brian ¡Haas ¡ Moran ¡Yassour ¡ Kers1n ¡Lindblad-­‑Toh ¡ Aviv ¡Regev ¡ Nir ¡Friedman ¡ David ¡Eccles ¡ Alexie ¡Papanicolaou ¡ Michael ¡O` ¡ … ¡ ¡

slide-23
SLIDE 23

The ¡k-­‑mer ¡

  • ­‑ K ¡consecu1ve ¡nucleo1des ¡

¡

Reads ¡ K-­‑mers ¡ Graph ¡

slide-24
SLIDE 24

The ¡de ¡Bruijn ¡Graph ¡

  • ­‑ Graph ¡of ¡overlapping ¡sequences ¡
  • ­‑ Intended ¡for ¡cryptology ¡
  • ­‑ Fixed ¡length ¡element: ¡k ¡

¡ CTTGGAA TTGGAAC TGGAACA GGAACAA GAACAAT

slide-25
SLIDE 25

The ¡de ¡Bruijn ¡Graph ¡

  • ­‑ Graph ¡has ¡“nodes” ¡and ¡“edges” ¡

¡ G GGCAATTGACTTTT… CTTGGAACAAT TGAATT A GAAGGGAGTTCCACT…

slide-26
SLIDE 26

Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡29, ¡599–600 ¡ ¡

slide-27
SLIDE 27

Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡29, ¡599–600 ¡ ¡

slide-28
SLIDE 28

Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡29, ¡599–600 ¡ ¡

slide-29
SLIDE 29

Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡29, ¡599–600 ¡ ¡

slide-30
SLIDE 30

Inchworm ¡Algorithm ¡

Decompose ¡all ¡reads ¡into ¡overlapping ¡Kmers ¡(25-­‑mers) ¡ Extend ¡kmer ¡at ¡3’ ¡end, ¡guided ¡by ¡coverage. ¡

G ¡ A ¡ T ¡ C ¡

Iden1fy ¡seed ¡kmer ¡as ¡most ¡abundant ¡Kmer, ¡ignoring ¡low-­‑complexity ¡kmers. ¡

GATTACA ¡

9 ¡

slide-31
SLIDE 31

Inchworm ¡Algorithm ¡

G ¡ A ¡ T ¡ C ¡

4 ¡

GATTACA ¡

9 ¡

slide-32
SLIDE 32

Inchworm ¡Algorithm ¡

G ¡ A ¡ T ¡ C ¡

4 ¡ 1 ¡

GATTACA ¡

9 ¡

slide-33
SLIDE 33

Inchworm ¡Algorithm ¡

G ¡ A ¡ T ¡ C ¡

4 ¡ 1 ¡ 0 ¡

GATTACA ¡

9 ¡

slide-34
SLIDE 34

Inchworm ¡Algorithm ¡

G ¡ A ¡ T ¡ C ¡

4 ¡ 1 ¡ 0 ¡ 4 ¡

GATTACA ¡

9 ¡

slide-35
SLIDE 35

GATTACA ¡ G ¡ A ¡ T ¡ C ¡

4 ¡ 1 ¡ 0 ¡ 4 ¡ 9 ¡

Inchworm ¡Algorithm ¡

slide-36
SLIDE 36

GATTACA ¡ G ¡ A ¡ T ¡ C ¡ G ¡ A ¡ T ¡ C ¡ G ¡ A ¡ T ¡ C ¡

4 ¡ 1 ¡ 0 ¡ 4 ¡ 9 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 5 ¡ 1 ¡ 0 ¡ 0 ¡

Inchworm ¡Algorithm ¡

slide-37
SLIDE 37

GATTACA ¡ G ¡ A ¡

4 ¡ 9 ¡ 5 ¡

A ¡ T ¡ C ¡ G ¡ T ¡ C ¡ G ¡ A ¡ T ¡ C ¡

1 ¡ 0 ¡ 4 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 0 ¡ 0 ¡

Inchworm ¡Algorithm ¡

slide-38
SLIDE 38

GATTACA ¡ G ¡ A ¡

4 ¡ 9 ¡ 5 ¡

Inchworm ¡Algorithm ¡

slide-39
SLIDE 39

GATTACA ¡ G ¡ A ¡

4 ¡ 9 ¡ 5 ¡

G ¡ A ¡ T ¡ C ¡

6 ¡ 1 ¡ 0 ¡ 0 ¡

Inchworm ¡Algorithm ¡

slide-40
SLIDE 40

GATTACA ¡ G ¡ A ¡

4 ¡ 9 ¡ 5 ¡

A ¡

6 ¡

A ¡

7 ¡

Inchworm ¡Algorithm ¡

Remove ¡assembled ¡kmers ¡from ¡catalog, ¡then ¡repeat ¡the ¡en1re ¡process. ¡ Report ¡con1g: ¡ ¡ ¡ ¡ ¡ ¡….AAGATTACAGA…. ¡ ¡

slide-41
SLIDE 41

Inchworm ¡Con1gs ¡from ¡Alt-­‑Spliced ¡Transcripts ¡ => ¡Minimal ¡lossless ¡representa1on ¡of ¡data ¡ ¡

+ ¡

slide-42
SLIDE 42

Chrysalis ¡

Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡

slide-43
SLIDE 43

Chrysalis ¡

Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡

slide-44
SLIDE 44

Chrysalis ¡

Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡ Verify ¡via ¡“welds” ¡

slide-45
SLIDE 45

Chrysalis ¡

Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡ Verify ¡via ¡“welds” ¡

Build ¡de ¡Bruijn ¡Graphs ¡ (ideally, ¡one ¡per ¡gene) ¡ Build ¡de ¡Bruijn ¡Graphs ¡ (ideally, ¡one ¡per ¡gene) ¡

slide-46
SLIDE 46
slide-47
SLIDE 47
slide-48
SLIDE 48
slide-49
SLIDE 49

Completeness ¡and ¡coverage ¡as ¡func1on ¡of ¡read ¡counts ¡

Grabherr ¡et ¡al. ¡Nature ¡Biotechnology ¡29, ¡644–652 ¡(2011) ¡ ¡