the rna seq analysis pipeline
play

THE RNA-SEQ ANALYSIS PIPELINE Alicia Oshlack Murdoch - PowerPoint PPT Presentation

THE RNA-SEQ ANALYSIS PIPELINE Alicia Oshlack Murdoch Childrens Research Ins5tute Two ways to look at sequencing data Sequence of Posi5on of mapped


  1. THE ¡RNA-­‑SEQ ¡ANALYSIS ¡PIPELINE ¡ Alicia ¡Oshlack ¡ Murdoch ¡Childrens ¡Research ¡Ins5tute ¡

  2. Two ¡ways ¡to ¡look ¡at ¡sequencing ¡data ¡ Sequence ¡of Posi5on ¡of ¡mapped ¡ (mapped) ¡read ¡ read ¡ • genome ¡sequencing ¡ ¡ • RNA-­‑seq ¡ • variant ¡detec5on ¡ • ChIP-­‑seq ¡ ¡ • Muta5on ¡detec5on ¡ • MeDIP-­‑seq ¡for ¡DNA ¡methyla5on ¡ • genomic ¡rearrangements ¡ etc. ¡ • Bisulfite-­‑seq ¡(methyla5on) ¡ • RNA ¡edi5ng ¡etc. ¡ 2 ¡

  3. Two ¡ways ¡to ¡look ¡at ¡RNA-­‑seq ¡data ¡ Sequence ¡of Posi5on ¡of ¡mapped ¡ (mapped) ¡read ¡ read ¡ • ¡Determining ¡genes/ • Expression ¡levels ¡ transcripts ¡ • Differen5al ¡expression ¡ 3 ¡

  4. Benefits ¡and ¡opportuni5es ¡of ¡RNA-­‑seq ¡ • All ¡transcripts ¡are ¡sequenced ¡not ¡just ¡ones ¡for ¡ which ¡probes ¡are ¡designed ¡(cf ¡microarrays) ¡ • Annota5on ¡of ¡new ¡exons, ¡transcribed ¡regions, ¡ genes ¡or ¡non-­‑coding ¡RNAs ¡ • Whole ¡transcriptome ¡sequencing ¡ – The ¡ability ¡to ¡look ¡at ¡alterna5ve ¡splicing ¡ – Allele ¡specific ¡expression ¡ – RNA ¡edi5ng ¡

  5. This ¡talk ¡ • Analysis ¡of ¡RNA-­‑seq ¡data ¡for ¡the ¡purpose ¡of ¡ determining ¡differen5al ¡expression ¡ • How ¡much ¡are ¡expression ¡levels ¡changing ¡ between ¡samples? ¡

  6. RNA-­‑seq ¡ Pepke ¡et ¡al, ¡Nature ¡Methods, ¡2009 ¡

  7. Raw ¡data ¡ • Short ¡sequence ¡reads ¡ • Quality ¡scores ¡ @SEQ_ID � GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT � + � !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 ¡

  8. RNA-­‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡

  9. Map ¡reads ¡to ¡the ¡genome ¡ • Accuracy ¡vs ¡speed ¡ • Many ¡aligners ¡available ¡(BWA, ¡Bow5e, ¡ Novoalign,…) ¡

  10. Sequencing ¡transcripts ¡not ¡the ¡genome ¡ Gene ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ transcript ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡

  11. Splice ¡site ¡mapping ¡ • Build ¡a ¡junc5on ¡library ¡from ¡ all ¡combina5ons ¡of ¡known ¡ exon ¡boundaries ¡ • Determine ¡where ¡splice ¡ junc5ons ¡occur ¡using ¡the ¡ data ¡itself ¡-­‑ ¡unbiased ¡by ¡ annota5on. ¡ • Several ¡so]ware ¡packages ¡ to ¡do ¡this ¡such ¡as ¡TopHat, ¡ SplitSeek, ¡SpliceMap… ¡ Gerber ¡et ¡al, ¡Nat ¡Methods, ¡2011 ¡

  12. Which ¡transcriptome ¡to ¡use? ¡

  13. RNA-­‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡

  14. Op5on ¡1 ¡ • Use ¡annota5on ¡ – Works ¡well ¡for ¡human ¡and ¡mouse ¡but ¡it’s ¡only ¡as ¡ good ¡as ¡your ¡annota5on ¡ – No ¡novel ¡transcripts ¡are ¡analysed ¡

  15. Op5on ¡2: ¡Genome ¡guided ¡transcript ¡ assembly ¡ • Uses ¡the ¡loca5on ¡and ¡density ¡of ¡reads ¡along ¡ the ¡genome ¡to ¡assemble ¡transcripts ¡ • E.g. ¡Cufflinks ¡ • Can’t ¡assemble ¡across ¡breaks ¡in ¡the ¡genome ¡ – Cancer, ¡poor ¡genomes ¡

  16. Op5on ¡3: ¡De ¡novo ¡transcriptome ¡ assembly ¡ • Assemble ¡transcripts ¡from ¡the ¡data ¡without ¡using ¡a ¡ reference ¡genome ¡ • “Harder” ¡than ¡genome ¡assembly ¡ – Orders ¡of ¡magnitude ¡varia5on ¡in ¡coverage ¡ – Con5gs ¡are ¡short ¡ – Alterna5ve ¡isoforms/transcripts ¡have ¡overlapping ¡sequences ¡ – *Very* ¡computa5onally ¡intensive ¡ • So]ware ¡includes ¡ ¡ – Oases/velvet ¡ – TransAbyss ¡ – Trinity ¡ ¡ – … ¡

  17. Example: ¡Annota5ng ¡the ¡chicken ¡W ¡ chromosome ¡ ¡ ¡Z ¡ ¡ ¡ ¡Z ¡ ¡ ¡Z ¡ ¡ ¡W ¡ Male ¡ Female ¡ Two ¡hypotheses ¡for ¡mechanisms ¡of ¡avian ¡sex ¡determina5on: ¡ 1. Dominant ¡ovary ¡determining ¡gene ¡on ¡W ¡(cf ¡mammals) ¡ 2. Dosage ¡of ¡Z-­‑linked ¡genes ¡

  18. There ¡is ¡an ¡annotated ¡chicken ¡genome ¡ • Chicken ¡W ¡chromosome ¡is ¡poorly ¡assembled ¡ • Are ¡genes ¡on ¡other ¡chromosomes ¡really ¡on ¡ the ¡W, ¡in ¡par5cular ¡the ¡random ¡chromosome? ¡ Chromosome Assembled Size inc. Estimated Estimated Size (Mb) random (Mb) Size (Mb) Genes (Ensembl) Z 69 70 80 796 W 0.24 0.89 18-54 46 Un_random 56 - - 1287

  19. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Experimental ¡design ¡ +12hour ¡Blastoderms ¡ Pooled ¡Samples ¡ 12 ¡Female ¡ ¡ ¡ PCR ¡Sexing ¡ 12 ¡Female ¡ RNA ¡ RNA-­‑seq ¡ 12 ¡Male ¡ 12 ¡Male ¡ • Illumina ¡HiSeq2000 ¡ • Paired-­‑end ¡100bp ¡ • 4 ¡lanes ¡ Stage ¡26 ¡paired ¡gonads ¡(day ¡4.5) ¡ • >80million ¡reads/ sample ¡ 16 ¡Female ¡gonads ¡ Hand ¡plate ¡for ¡PCR ¡Sexing ¡ 16 ¡Female ¡gonads ¡ 16 ¡Male ¡gonads ¡ RNA ¡ 16 ¡Male ¡gonads ¡

  20. Defining ¡the ¡transcriptome ¡ • Annota5on ¡~20,000 ¡genes ¡ • Genome ¡guided ¡assembly ¡(Cufflinks) ¡~45,000 ¡ genes ¡ • De ¡novo ¡transcriptome ¡assembly ¡~2.5 ¡million ¡ transcripts ¡(Abyss ¡with ¡filtering)! ¡ A ¡combined ¡approach ¡ • Assemble ¡cufflink ¡genes ¡using ¡transcripts ¡from ¡ our ¡de ¡novo ¡assembly ¡

  21. Annota5on ¡of ¡the ¡chicken ¡W ¡ combined ¡all ¡three ¡approaches ¡ Blastoderm Coverage W/W_random Chromsome Abyss Transcripts Gonads Coverage Un_random Chromosome Cufflinks Transcripts Autosomes Ensembl Transcripts 391 Coverage RASA1 − W 0 Genome Abyss Cufflinks Ensembl 1000 1500 2000 2500 3000 3500 base position Full ¡list ¡of ¡W ¡genes/transcripts ¡for ¡differen5al ¡expression ¡

  22. Summariza5on ¡ Take ¡your ¡“transcriptome” ¡and ¡add ¡ up ¡the ¡reads ¡

  23. CDS ¡ CDS ¡ CDS ¡ CDS ¡ Exons ¡ Coding ¡Sequence ¡ Introns ¡ Splice ¡Junc5ons ¡  ¡Reads ¡in ¡exons ¡  ¡Exons ¡+ ¡junc5ons ¡  ¡All ¡reads ¡start ¡to ¡end ¡of ¡transcript ¡  ¡De ¡novo ¡methods ¡

  24. CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡1 ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡2 ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡3 ¡ Even ¡when ¡all ¡transcripts ¡are ¡“known” ¡summariza5on ¡or ¡expression ¡ quan5fica5on ¡is ¡difficult. ¡How ¡do ¡you ¡assign ¡reads ¡to ¡transcripts? ¡

  25. Summariza5on ¡turns ¡mapped ¡reads ¡ into ¡a ¡table ¡of ¡counts ¡ Tag ¡ID � A1 � A2 � B1 � B2 � ENSG00000124208 � 478 � 619 � 4830 � 7165 � ENSG00000182463 � 27 � 20 � 48 � 55 � ENSG00000125835 � 132 � 200 � 560 � 408 � ENSG00000125834 � 42 � 60 � 131 � 99 � ENSG00000197818 � 21 � 29 � 52 � 44 � ENSG00000125831 � 0 � 0 � 0 � 0 � ENSG00000215443 � 4 � 4 � 9 � 7 � ENSG00000222008 � 30 � 23 � 0 � 0 � ENSG00000101444 � 46 � 63 � 54 � 53 � ENSG00000101333 � 2256 � 2793 � 2702 � 2976 � … � … ¡tens ¡of ¡thousands ¡more ¡tags ¡… � ** ¡very ¡high ¡dimensional ¡data ¡** ¡

  26. RNA-­‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡

  27. Assessing ¡differen5al ¡expression ¡(DE) ¡ • Which ¡genes ¡are ¡changing ¡in ¡their ¡abundance ¡ between ¡samples? ¡ • Sta5s5cal ¡tests ¡for ¡DE ¡(edgeR) ¡

  28. Normaliza5on ¡ Accoun5ng ¡for/removing ¡technical ¡ sources ¡of ¡varia5on ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend