Introduc)on to the Analysis of RNA-seq Data Lecture - - PowerPoint PPT Presentation

introduc on to the analysis of rna seq data
SMART_READER_LITE
LIVE PREVIEW

Introduc)on to the Analysis of RNA-seq Data Lecture - - PowerPoint PPT Presentation

Introduc)on to the Analysis of RNA-seq Data Lecture 9: September 18, 2012 Introduc)on What is RNA-seq? RNA-seq refers to the method


slide-1
SLIDE 1

Introduc)on ¡to ¡the ¡Analysis ¡of ¡ ¡ RNA-­‑seq ¡Data ¡

Lecture ¡9: ¡September ¡18, ¡2012 ¡

¡

slide-2
SLIDE 2

Introduc)on ¡

slide-3
SLIDE 3

What ¡is ¡RNA-­‑seq? ¡

  • RNA-­‑seq ¡refers ¡to ¡the ¡method ¡of ¡using ¡Next ¡

Genera)on ¡Sequencing ¡(NGS) ¡technology ¡ to ¡measure ¡RNA ¡levels. ¡

  • Is ¡used ¡to ¡evaluate ¡the ¡“expression ¡level” ¡of ¡

a ¡gene ¡(or ¡“gene ¡expression”). ¡

  • Many ¡events ¡can ¡control ¡the ¡expression ¡

level ¡of ¡a ¡gene ¡so ¡simply ¡looking ¡at ¡the ¡ genome ¡and ¡annota)ng ¡a ¡gene ¡is ¡not ¡ enough ¡informa)on. ¡

slide-4
SLIDE 4

4 ¡

Item ¡to ¡be ¡sequenced: ¡

  • 1. Extract ¡all ¡mRNA. ¡
  • 2. Prepare ¡a ¡library ¡of ¡ ¡
  • fragments. ¡
  • 3. Sequence ¡fragments. ¡
  • 4. Analysis, ¡analysis, ¡
  • analysis. ¡

¡

slide-5
SLIDE 5

5 ¡

Not ¡all ¡gene)c ¡code ¡is ¡transcribed ¡and ¡translated, ¡ and ¡the ¡rate ¡of ¡transcrip)on ¡will ¡affect ¡the ¡ amount ¡of ¡protein ¡being ¡made. ¡

  • The ¡goal ¡is ¡to ¡es)mate ¡the ¡amount ¡of ¡protein ¡

that ¡will ¡be ¡made. ¡

slide-6
SLIDE 6

Splicing ¡

  • A ¡very ¡important ¡modifica)on ¡of ¡eukaryo)c ¡pre-­‑

mRNA ¡is ¡splicing. ¡

  • The ¡majority ¡of ¡eukaryo)c ¡pre-­‑mRNAs ¡consist ¡of ¡

alterna)ng ¡segments ¡called ¡exons ¡and ¡introns. ¡ ¡

  • During ¡splicing, ¡an ¡RNA-­‑protein ¡complex ¡called ¡a ¡

spliceosome ¡will ¡remove ¡an ¡intron ¡and ¡splice ¡ together ¡the ¡neighboring ¡exon ¡regions. ¡

  • The ¡spliced ¡together ¡exons ¡create ¡the ¡code ¡that ¡

will ¡be ¡translated ¡into ¡proteins. ¡

6 ¡

slide-7
SLIDE 7

From ¡pre-­‑mRNA ¡to ¡mRNA ¡

7 ¡

mRNA ¡that ¡will ¡be ¡sequenced ¡

slide-8
SLIDE 8

Alterna)ve ¡Splicing ¡

  • Some ¡introns ¡or ¡exons ¡can ¡be ¡either ¡removed ¡
  • r ¡retained ¡in ¡mature ¡mRNA. ¡
  • This ¡is ¡referred ¡to ¡as ¡alterna.ve ¡splicing ¡and ¡it ¡

creates ¡a ¡series ¡of ¡different ¡transcripts ¡from ¡a ¡ single ¡gene. ¡

  • These ¡different ¡transcripts ¡can ¡be ¡poten)ally ¡

translated ¡into ¡different ¡proteins, ¡splicing ¡ extends ¡the ¡complexity ¡of ¡eukaryo)c ¡gene ¡

  • expression. ¡

8 ¡

slide-9
SLIDE 9

Isoform 1 Isoform 2 Isoform 3 exon 1 exon 2 exon 3 exon 4 exon 5

Alterna)ve ¡Splicing ¡

slide-10
SLIDE 10

Alterna)ve ¡Splicing ¡Con)nued ¡ ¡

  • Extensive ¡RNA ¡processing ¡is ¡considered ¡an ¡

evolu)onary ¡advantage ¡that ¡is ¡made ¡possible ¡ by ¡the ¡nucleus ¡of ¡eukaryotes. ¡

  • In ¡prokaryotes ¡transcrip)on ¡and ¡transla)on ¡

happen ¡together, ¡while ¡in ¡eukaryotes ¡the ¡ nuclear ¡membrane ¡separates ¡the ¡two ¡ processes, ¡giving ¡)me ¡for ¡RNA ¡processing ¡to ¡

  • ccur. ¡
  • Approximately ¡40% ¡of ¡human ¡genes ¡produce ¡

different ¡proteins ¡because ¡of ¡alterna)ve ¡

  • splicing. ¡

10 ¡

slide-11
SLIDE 11

11 ¡

slide-12
SLIDE 12

Splicing ¡Junc)on ¡

12 ¡

  • The ¡consensus ¡sequence ¡within ¡the ¡intron ¡

region ¡creates ¡a ¡splicing ¡junc)on ¡that ¡is ¡more ¡ easily ¡iden)fiable ¡from ¡a ¡computa)onal ¡ perspec)ve. ¡

  • Referred ¡to ¡as ¡“canonical ¡splicing ¡forms”. ¡
  • GU-­‑AG ¡is ¡the ¡most ¡common ¡canonical ¡form ¡

but ¡there ¡are ¡others. ¡

slide-13
SLIDE 13

Two ¡main ¡purposes ¡of ¡RNA-­‑seq ¡data: ¡ ¡

  • 1. Annota.on. ¡Detect ¡alterna)ve ¡splicing ¡

junc)ons, ¡and ¡annotate ¡genes ¡in ¡an ¡ iden)fied ¡genome. ¡ ¡Requires ¡knowledge ¡or ¡ par2al ¡knowledge ¡of ¡genome. ¡

  • 2. Gene ¡Expression. ¡ ¡ ¡Assemble ¡transcripts ¡and ¡

determine ¡the ¡number ¡of ¡each ¡such ¡

  • transcript. ¡ ¡Does ¡not ¡require ¡knowing ¡

genome ¡but ¡is ¡significantly ¡easier ¡if ¡you ¡do. ¡

13 ¡

slide-14
SLIDE 14

RNA ¡Splicing ¡and ¡Disease ¡

  • Approximately ¡15% ¡of ¡the ¡muta)ons ¡that ¡

cause ¡gene)c ¡diseases ¡affect ¡pre-­‑mRNA ¡

  • splicing. ¡
  • Many ¡are ¡muta)ons ¡at ¡the ¡splice ¡sites, ¡the ¡

branch ¡point, ¡or ¡sequences ¡that ¡promote ¡ (enhancers) ¡or ¡inhibit ¡(silencers) ¡of ¡certain ¡

  • exons. ¡
  • OMIM ¡(Online ¡Mendelian ¡Inheritance ¡Man) ¡is ¡

a ¡database ¡of ¡human ¡gene)c ¡and ¡disorders ¡at ¡ NCBI ¡website. ¡

14 ¡

slide-15
SLIDE 15

RNA-­‑seq ¡Analysis ¡and ¡Tools ¡

  • Alignment ¡
  • Differen)al ¡Expression ¡
  • Genome ¡Annota)on ¡
  • Isoform ¡Detec)on ¡
  • RNA ¡Quan)fica)on ¡
  • Visualizers ¡ ¡

15 ¡

  • Aligners ¡
  • Splice ¡junc)on ¡detectors ¡
  • De ¡novo ¡RNA ¡transcript ¡

assemblers ¡

  • Reference ¡guided ¡RNA ¡

transcript ¡assemblers ¡

slide-16
SLIDE 16

Detec)on ¡of ¡Splice ¡Junc)ons ¡

slide-17
SLIDE 17

Gene ¡Finding ¡Approaches ¡ ¡

  • Similarity-­‑based ¡approaches: ¡use ¡similarity ¡

between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡

  • Compara)ve ¡genomics: ¡aligning ¡genomic ¡

sequences ¡from ¡different ¡species. ¡ ¡

  • RNA-­‑seq ¡data ¡to ¡detect ¡splicing ¡junc)ons ¡and ¡

construct ¡RNA ¡transcripts. ¡ ¡

17 ¡

slide-18
SLIDE 18

Gene ¡Finding ¡Approaches ¡ ¡

  • Similarity-­‑based ¡approaches: ¡use ¡similarity ¡

between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡

  • Compara)ve ¡genomics: ¡aligning ¡genomic ¡

sequences ¡from ¡different ¡species. ¡ ¡

  • RNA-­‑seq ¡data ¡to ¡detect ¡splicing ¡junc.ons ¡and ¡

construct ¡RNA ¡transcripts. ¡ ¡

18 ¡

slide-19
SLIDE 19

Alignment ¡of ¡RNA-­‑seq ¡Reads ¡

19 ¡

exon ¡region ¡ exon ¡region ¡ Whenever ¡a ¡RNA-­‑seq ¡read ¡spans ¡an ¡exon ¡boundary, ¡part ¡

  • f ¡the ¡read ¡will ¡not ¡map ¡con)guously ¡to ¡the ¡reference, ¡ ¡

which ¡ohen ¡causes ¡the ¡mapping ¡procedure ¡to ¡fail ¡for ¡that ¡

  • read. ¡
slide-20
SLIDE 20

Alignment ¡of ¡RNA-­‑seq ¡Reads ¡

20 ¡

exon ¡region ¡

  • Previous ¡methods ¡solve ¡this ¡problem ¡by ¡concatena)ng ¡

known ¡adjacent ¡exons ¡and ¡then ¡crea)ng ¡synthe)c ¡ sequence ¡fragments ¡from ¡these ¡spliced ¡transcripts ¡ ¡

slide-21
SLIDE 21

RNA-­‑Seq ¡Alignment ¡Programs ¡

  • GSNAP ¡(Genomic ¡Short-­‑read ¡Nucleo)de ¡

Alignment ¡Program): ¡aligns ¡both ¡single-­‑ ¡and ¡ paired-­‑end ¡reads. ¡Uses ¡a ¡probabilis)c ¡model ¡

  • r ¡a ¡database ¡of ¡known ¡splice ¡sites. ¡
  • MicroRazerS: ¡aligns ¡short ¡RNA-­‑seq ¡reads. ¡
  • Others: ¡BWA, ¡Bow)e, ¡OSA, ¡RUM, ¡PALMapper, ¡

many ¡more. ¡

21 ¡

slide-22
SLIDE 22

22 ¡

slide-23
SLIDE 23

TopHat ¡is ¡a ¡fast ¡splice ¡junc)on ¡mapper ¡for ¡RNA-­‑ Seq ¡reads. ¡It ¡aligns ¡RNA-­‑Seq ¡reads ¡to ¡ mammalian-­‑sized ¡genomes ¡using ¡the ¡ultra ¡high-­‑ throughput ¡short ¡read ¡aligner ¡and ¡then ¡analyzes ¡ the ¡mapping ¡results ¡to ¡iden)fy ¡splice ¡junc)ons ¡ between ¡exons. ¡

23 ¡

slide-24
SLIDE 24

TopHat ¡(Trapnell ¡et ¡al., ¡2009) ¡

  • TopHat ¡iden)fies ¡splice ¡sites ¡ab ¡ini2o ¡by ¡large-­‑

scale ¡mapping ¡of ¡RNA-­‑seq ¡reads ¡

  • Maps ¡reads ¡to ¡splice ¡sites ¡in ¡a ¡mammalian ¡

genome ¡at ¡a ¡rate ¡of ¡~2.2 ¡million ¡reads/hour ¡

– This ¡is ¡sufficient ¡to ¡process ¡an ¡en)re ¡RNA-­‑seq ¡ experiment ¡in ¡a ¡couple ¡of ¡hours ¡on ¡a ¡standard ¡ desktop ¡computer. ¡ – No ¡high ¡performance ¡machine/server ¡is ¡needed ¡to ¡ run ¡TopHat. ¡

24 ¡

slide-25
SLIDE 25

25 ¡

slide-26
SLIDE 26
  • 1. All ¡reads ¡are ¡mapped ¡to ¡the ¡reference ¡

genome ¡using ¡Bow)e. ¡ ¡ ¡

– Reads ¡that ¡are ¡unmapped ¡are ¡set ¡aside ¡as ¡IUM ¡ (ini)ally ¡unmapped) ¡reads. ¡ ¡ ¡ – Low ¡complexity ¡reads ¡are ¡omimed ¡from ¡the ¡IUM ¡

  • set. ¡
  • 2. The ¡mapped ¡reads ¡are ¡assembled ¡using ¡the ¡

assembly ¡module ¡from ¡Maq ¡(Resequencing ¡ algorithm). ¡

– Genes ¡transcribed ¡at ¡low ¡levels ¡will ¡sequenced ¡ with ¡low ¡coverage ¡and ¡the ¡exons ¡will ¡have ¡gaps. ¡ – TopHat ¡has ¡a ¡parameter ¡that ¡determines ¡when ¡ two ¡exons ¡should ¡be ¡merged. ¡ ¡

26 ¡

slide-27
SLIDE 27

27 ¡

slide-28
SLIDE 28
  • 3. To ¡map ¡reads ¡to ¡splice ¡junc)ons, ¡TopHat ¡

enumerates ¡all ¡canonical ¡donor ¡and ¡acceptor ¡sites ¡ within ¡the ¡island ¡sequences ¡(as ¡well ¡as ¡their ¡reverse ¡ complements). ¡

  • 4. It ¡considers ¡all ¡pairings ¡of ¡these ¡sites ¡that ¡could ¡

form ¡canonical ¡(GT-­‑AG) ¡introns ¡between ¡ neighboring ¡islands ¡of ¡reads. ¡

– Each ¡possible ¡intron ¡is ¡checked ¡against ¡the ¡IUM ¡reads ¡for ¡ reads ¡that ¡span ¡the ¡splice ¡junc)on. ¡ ¡ ¡ – By ¡default, ¡TopHat ¡only ¡examines ¡poten)al ¡introns ¡longer ¡ than ¡70bp ¡and ¡shorter ¡than ¡20,000bp. ¡ – The ¡program ¡excludes ¡donor-­‑acceptor ¡pairs ¡that ¡fall ¡ en)rely ¡within ¡a ¡single ¡island. ¡

28 ¡

slide-29
SLIDE 29

29 ¡

GT ¡ AG ¡ AG ¡

Transcripts ¡ Tophat ¡searches ¡the ¡IUM ¡reads ¡in ¡order ¡to ¡find ¡reads ¡ that ¡span ¡junc)ons ¡using ¡a ¡seed-­‑and-­‑extend ¡strategy. ¡

  • Sophis)cated ¡data ¡structures ¡amor)ze ¡the ¡cost ¡of ¡

searching ¡for ¡a ¡spliced ¡alignment ¡over ¡many ¡reads. ¡

slide-30
SLIDE 30

Other ¡Splice ¡Junc)on ¡Detec)on ¡SW ¡

  • TopHat ¡is ¡the ¡most ¡commonly ¡used ¡program. ¡
  • SOAPsplice, ¡Basplice, ¡HMMSplicer, ¡PASTA, ¡

TrueSight ¡and ¡many ¡more. ¡

  • Some ¡methods ¡require ¡some ¡sort ¡of ¡training ¡

step ¡or ¡prior ¡knowledge ¡of ¡the ¡canonical ¡form ¡

  • r ¡loca)on. ¡ ¡Ideally, ¡you ¡want ¡to ¡use ¡a ¡method ¡

that ¡avoids ¡any ¡prior ¡knowledge ¡or ¡training. ¡

30 ¡

slide-31
SLIDE 31

Shortcomings ¡of ¡Exis)ng ¡Tools ¡

Exis)ng ¡programs ¡fail ¡to ¡detect ¡splice ¡junc)ons ¡ for ¡a ¡variety ¡of ¡reasons, ¡including: ¡

  • Very ¡low ¡sequencing ¡coverage, ¡in ¡which ¡case ¡

there ¡might ¡not ¡be ¡any ¡read ¡that ¡straddles ¡the ¡ junc)on ¡with ¡sufficient ¡sequence ¡on ¡each ¡side. ¡

  • Junc)ons ¡spanning ¡very ¡long ¡introns. ¡
  • Junc)ons ¡with ¡non-­‑canonical ¡forms. ¡

31 ¡

slide-32
SLIDE 32

Paper ¡Reviews ¡and ¡Presenta)ons ¡

slide-33
SLIDE 33

Paper ¡Reviews ¡

  • Each ¡person ¡taking ¡the ¡course ¡for ¡credit ¡will ¡

be ¡asked ¡to ¡write ¡a ¡1 ¡to ¡2 ¡page, ¡single-­‑spaced ¡ paper ¡review ¡for ¡each ¡paper ¡presented. ¡

– These ¡must ¡be ¡handed ¡in ¡via ¡email ¡or ¡paper ¡prior ¡ to ¡the ¡beginning ¡of ¡class ¡(before ¡9:30 ¡am). ¡ – Broken ¡down ¡into ¡the ¡following ¡ques)ons: ¡

  • 1. Summary ¡of ¡paper ¡
  • 2. Cri)cism ¡of ¡the ¡paper. ¡
  • 3. Possible ¡extension. ¡

33 ¡

slide-34
SLIDE 34

Presenta)ons ¡

  • If ¡you ¡are ¡taking ¡the ¡course ¡for ¡credit, ¡you ¡will ¡

be ¡asked ¡to ¡present ¡twice: ¡

– A ¡15 ¡minute ¡presenta)on ¡about ¡your ¡project ¡ proposal ¡(September ¡25, ¡2012). ¡ – A ¡50 ¡minute ¡paper ¡presenta)on, ¡which ¡will ¡ include ¡leading ¡a ¡15 ¡minute ¡discussion ¡of ¡the ¡

  • paper. ¡
  • You ¡will ¡also ¡be ¡graded ¡on ¡your ¡par)cipa)on ¡

in ¡the ¡discussion. ¡

34 ¡