RNAseq analysis -its complicated Oktober 2016 RNA - - PowerPoint PPT Presentation

rnaseq analysis
SMART_READER_LITE
LIVE PREVIEW

RNAseq analysis -its complicated Oktober 2016 RNA - - PowerPoint PPT Presentation

RNAseq analysis -its complicated Oktober 2016 RNA reads are not enough to iden;fy func;onal RNAs Defining functional DNA elements in the human genome Kellis M et al.


slide-1
SLIDE 1

RNAseq ¡analysis ¡

  • ­‑it’s ¡complicated ¡

Oktober ¡2016 ¡ ¡

slide-2
SLIDE 2

Defining functional DNA elements in the human genome Kellis M et al. PNAS 2014;111:6131-6138

RNA ¡reads ¡are ¡not ¡enough ¡to ¡iden;fy ¡ func;onal ¡RNAs ¡

slide-3
SLIDE 3

Depending ¡on ¡the ¡steps ¡from ¡sample ¡ to ¡RNA ¡seq ¡will ¡give ¡different ¡results ¡

AAAAAAAA ¡

enrichments ¡-­‑> ¡ reads ¡-­‑> ¡ library ¡-­‑> ¡ RNA-­‑> ¡

PolyA ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(mRNA) ¡ RiboMinus ¡ ¡ ¡ ¡ ¡ ¡(-­‑ ¡rRNA) ¡ Size ¡ ¡<50 ¡nt ¡ ¡ ¡ ¡ ¡(miRNA ¡) ¡ ….. ¡ ¡ Size ¡of ¡fragment ¡ Strand ¡specific ¡ 5’ ¡end ¡specific ¡ ¡ 3’ ¡end ¡specific ¡ ….. ¡ ¡ Single ¡end ¡(1 ¡read ¡per ¡fragment) ¡ Paired ¡end ¡(2 ¡reads ¡per ¡fragment) ¡

slide-4
SLIDE 4

Mapping ¡(Pär ¡Engström) ¡

  • Use ¡RNA ¡specific ¡mapper ¡
  • Use ¡a ¡two-­‑pass ¡workflow ¡
  • STAR ¡or ¡HISAT ¡ ¡ ¡
  • If ¡you ¡want ¡to ¡run ¡Cufflinks, ¡use ¡TopHat ¡or ¡

HISAT ¡

  • For ¡long ¡(PacBio) ¡reads, ¡STAR, ¡BLAT ¡or ¡GMAP ¡

can ¡be ¡used ¡

slide-5
SLIDE 5

RNA-­‑seq ¡analysis ¡workflow ¡

Reads( Reference( Mapping( Mapped(reads(

STAR( genome.fa( mappedReads.bam( reads.fastq.gz(

Gene( expression(

Gene(annotaCon:( ref.bed(/(ref.ga(

slide-6
SLIDE 6

Gene ¡and ¡Isoform ¡detec;on ¡

slide-7
SLIDE 7

Do ¡a ¡lot ¡of ¡QC ¡

Reads( Reference( Mapping( Mapped(reads(

STAR( genome.fa( mappedReads.bam( reads.fastq.gz(

Gene( expression(

Gene(annotaCon:( ref.bed(/(ref.ga(

Read(QC( $(FastQC( Mapping( staCsCcs( Mapping(QC( $(RseQC( Outlier( detecCon,( sample(swaps(

slide-8
SLIDE 8

More ¡varia;on ¡when ¡using ¡top ¡hat ¡2 ¡with ¡ default ¡secngs ¡than ¡when ¡using ¡STAR ¡or ¡ Stampy ¡with ¡default ¡secng ¡

  • 60

70 80 90 Cg4a_KS2 Cg88_14_KS3 Cg88_44_KS2 Cg89_16_KS2 Cg89_3_KS1 Cg8c_KS2 Cg8f_KS1 Cg94_6_KS1 Cr1GR1_2_KS1 Cr1GR1_2_KS2 Cr1GR1_2_KS3 Cr23_9_KS2 Cr39_1_TS1_KS1 Cr75_2_3_KS1 Cr79_29_extra1 Cr84_21_KS1 CrN22561_KS2 Inter3_1 Inter4_1_1 Inter4_1_2 Inter4_1_3 Inter4_1_4 Inter5_1 Intra6_3 Intra7_2_1 Intra7_2_2 Intra7_2_3 Intra8_2

species Percent properly mapped paired end reads

Colour

  • Stampy

STAR Tophat2 Shape

  • Flower

Leaf

Compare mapping efficacy of different RNA−seq assemblers

C.rubella ¡ C.grandiflora ¡ hybrid ¡ C.grandiflora ¡

slide-9
SLIDE 9

RNA ¡QC ¡ ¡Åsa ¡Björklund ¡

slide-10
SLIDE 10

Sample$swaps$and$outliers$can$be$ iden0fied$using$PCA$

Reference( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene(

Table(with( counts,( rpkms,( fpkms(or( similar(

Sample$swaps$and$outliers$can$be$ iden0fied$using$PCA$

Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene(

Table(with( counts,( rpkms,( fpkms(or( similar(

slide-11
SLIDE 11

RNA ¡QC ¡

PCA(analysis(detected(potenCal( sample(swaps(

slide-12
SLIDE 12

Principal ¡component ¡1 ¡separates ¡ samples ¡from ¡flowers ¡and ¡leaves ¡ ¡

  • −150

−100 −50 50 100 150 −50 50 PC1 PC2

  • Cg4a_KS2_F

Cg4a_KS2_L Cg88_14_KS3_F Cg88_14_KS3_L Cg88_44_KS2_F Cg88_44_KS2_L Cg89_16_KS2_F Cg89_16_KS2_L Cg89_3_KS1_F Cg89_3_KS1_L Cg8c_KS2_F Cg8c_KS2_L Cg8f_KS1_F Cg8f_KS1_L Cg94_6_KS1_F Cg94_6_KS1_L Cr1GR1_2_KS1_F Cr1GR1_2_KS1_L Cr1GR1_2_KS2_F Cr1GR1_2_KS2_L Cr1GR1_2_KS3_F Cr1GR1_2_KS3_L Cr23_9_KS2_F Cr23_9_KS2_L Cr39_1_TS1_KS1_F Cr39_1_TS1_KS1_L Cr75_2_3_KS1_F Cr75_2_3_KS1_L Cr79_29_extra1_F Cr79_29_extra1_L Cr84_21_KS1_F Cr84_21_KS1_L CrN22561_KS2_F CrN22561_KS2_L Inter3_1_F Inter3_1_L Inter4_1_1_F Inter4_1_1_L Inter4_1_2_F Inter4_1_2_L Inter4_1_3_F Inter4_1_4_L Inter5_1_F Inter5_1_L Intra6_3_F Intra6_3_L Intra7_2_1_F Intra7_2_1_L Intra7_2_2_F Intra7_2_2_L Intra7_2_3_F Intra7_2_3_L Intra8_2_F Intra8_2_L

  • C. ¡rubella ¡ ¡
slide-13
SLIDE 13

Principal ¡component ¡2 ¡and ¡3 ¡separates ¡the ¡different ¡species ¡ ¡

  • C. ¡rubella ¡ ¡

−60 −40 −20 0 20 40 60 80 −50 50 100 PC2 PC3

  • C. ¡grandiflora ¡
  • C. ¡rubella ¡ ¡

hybrid ¡

slide-14
SLIDE 14

Differen;al ¡expression ¡analysis ¡ ¡ Mikael ¡Huss ¡

¡ The ¡iden;fica;on ¡of ¡genes ¡(or ¡other ¡types ¡of ¡genomic ¡features, ¡such ¡as ¡transcripts ¡or ¡ exons) ¡that ¡are ¡expressed ¡in ¡significantly ¡different ¡quan;;es ¡in ¡dis;nct ¡groups ¡of ¡ samples, ¡be ¡it ¡biological ¡condi;ons ¡(drug-­‑treated ¡vs. ¡controls), ¡diseased ¡vs. ¡healthy ¡ individuals, ¡different ¡;ssues, ¡different ¡stages ¡of ¡development, ¡or ¡something ¡else. ¡ Typically ¡univariate ¡analysis ¡(one ¡ gene ¡at ¡a ¡;me) ¡– ¡even ¡though ¡we ¡ know ¡that ¡genes ¡are ¡not ¡ independent ¡

slide-15
SLIDE 15

Decision ¡tree ¡for ¡so/ware ¡selec2on ¡(2016) ¡

Sleuth ¡ , ¡Sleuth ¡ ¡ ? ¡

slide-16
SLIDE 16

Gene-­‑set ¡analysis ¡(GSA) ¡ ¡

Immune ¡response Pyruvate

Gene-­‑level ¡data Gene-­‑set ¡data ¡(results)

PPARG

Gen Gene-­‑s e-­‑set ¡ ¡analy analysis sis GO-­‑terms Pathways Chromosomal ¡loca?ons Transcrip?on ¡factors Histone ¡modifica?ons Diseases etc… Samples Genes

We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen;al ¡expression ¡analysis ¡ However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-­‑wide ¡data. ¡

slide-17
SLIDE 17

miRNA ¡seq ¡analysis ¡

(Berezikov ¡et ¡al. ¡Genome ¡Research, ¡2011.) ¡

slide-18
SLIDE 18

(Sandberg,$Nature$Methods$2014)$

Single ¡cell ¡sequencing ¡

slide-19
SLIDE 19

Allele ¡specific ¡expression ¡

Adopted from Unneberg, 2010

Adding another layer to transcriptome complexity...

  • ...and each gene is present on two chromosomes.

=> it has two alleles

slide-20
SLIDE 20

Exercises ¡

  • Mapping ¡

– STAR ¡ ¡ – HISAT2 ¡

  • Tutorial ¡for ¡reference ¡guided ¡assembly ¡

– Cufflinks ¡ – String;e ¡

  • Tutorial ¡for ¡de ¡novo ¡assembly ¡

– Trinity ¡

  • Visualise ¡mapped ¡reads ¡and ¡assembled ¡

transcripts ¡on ¡reference ¡

– IGV ¡

  • RNA ¡quality ¡controll ¡

– Tutorial ¡for ¡RNA ¡seq ¡Quality ¡Control ¡

  • Differen;al ¡expression ¡analysis ¡

– DEseq2 ¡ – Calisto ¡and ¡Sleuth ¡ – mul; ¡variate ¡analysis ¡in ¡SIMCA ¡

  • small ¡RNA ¡analysis ¡

– miRNA ¡analysis ¡

  • Introductory ¡

– Introduc;on ¡to ¡the ¡RNA ¡seq ¡data ¡provided ¡ – Short ¡introduc;on ¡to ¡R ¡ – Short ¡introduc;on ¡to ¡IGV ¡

  • Beta ¡labs ¡

– Single ¡cell ¡RNA ¡PCA ¡and ¡clustering ¡ – Gene ¡set ¡analysis ¡

  • UPPMAX ¡

– sbatch ¡script ¡example ¡

slide-21
SLIDE 21

Need ¡help?? ¡

  • We ¡are ¡here ¡for ¡you. ¡Apply ¡for ¡help. ¡