RNAseq ¡analysis ¡
- ‑it’s ¡complicated ¡
RNAseq analysis -its complicated Oktober 2016 RNA - - PowerPoint PPT Presentation
RNAseq analysis -its complicated Oktober 2016 RNA reads are not enough to iden;fy func;onal RNAs Defining functional DNA elements in the human genome Kellis M et al.
Defining functional DNA elements in the human genome Kellis M et al. PNAS 2014;111:6131-6138
AAAAAAAA ¡
enrichments ¡-‑> ¡ reads ¡-‑> ¡ library ¡-‑> ¡ RNA-‑> ¡
PolyA ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(mRNA) ¡ RiboMinus ¡ ¡ ¡ ¡ ¡ ¡(-‑ ¡rRNA) ¡ Size ¡ ¡<50 ¡nt ¡ ¡ ¡ ¡ ¡(miRNA ¡) ¡ ….. ¡ ¡ Size ¡of ¡fragment ¡ Strand ¡specific ¡ 5’ ¡end ¡specific ¡ ¡ 3’ ¡end ¡specific ¡ ….. ¡ ¡ Single ¡end ¡(1 ¡read ¡per ¡fragment) ¡ Paired ¡end ¡(2 ¡reads ¡per ¡fragment) ¡
STAR( genome.fa( mappedReads.bam( reads.fastq.gz(
Gene(annotaCon:( ref.bed(/(ref.ga(
Reads( Reference( Mapping( Mapped(reads(
STAR( genome.fa( mappedReads.bam( reads.fastq.gz(
Gene( expression(
Gene(annotaCon:( ref.bed(/(ref.ga(
Read(QC( $(FastQC( Mapping( staCsCcs( Mapping(QC( $(RseQC( Outlier( detecCon,( sample(swaps(
70 80 90 Cg4a_KS2 Cg88_14_KS3 Cg88_44_KS2 Cg89_16_KS2 Cg89_3_KS1 Cg8c_KS2 Cg8f_KS1 Cg94_6_KS1 Cr1GR1_2_KS1 Cr1GR1_2_KS2 Cr1GR1_2_KS3 Cr23_9_KS2 Cr39_1_TS1_KS1 Cr75_2_3_KS1 Cr79_29_extra1 Cr84_21_KS1 CrN22561_KS2 Inter3_1 Inter4_1_1 Inter4_1_2 Inter4_1_3 Inter4_1_4 Inter5_1 Intra6_3 Intra7_2_1 Intra7_2_2 Intra7_2_3 Intra8_2
species Percent properly mapped paired end reads
Colour
STAR Tophat2 Shape
Leaf
Compare mapping efficacy of different RNA−seq assemblers
C.rubella ¡ C.grandiflora ¡ hybrid ¡ C.grandiflora ¡
Reference( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene(
Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene( Reads( Reference( Mapping( Mapped(reads( Expression(( per(gene(
−100 −50 50 100 150 −50 50 PC1 PC2
Cg4a_KS2_L Cg88_14_KS3_F Cg88_14_KS3_L Cg88_44_KS2_F Cg88_44_KS2_L Cg89_16_KS2_F Cg89_16_KS2_L Cg89_3_KS1_F Cg89_3_KS1_L Cg8c_KS2_F Cg8c_KS2_L Cg8f_KS1_F Cg8f_KS1_L Cg94_6_KS1_F Cg94_6_KS1_L Cr1GR1_2_KS1_F Cr1GR1_2_KS1_L Cr1GR1_2_KS2_F Cr1GR1_2_KS2_L Cr1GR1_2_KS3_F Cr1GR1_2_KS3_L Cr23_9_KS2_F Cr23_9_KS2_L Cr39_1_TS1_KS1_F Cr39_1_TS1_KS1_L Cr75_2_3_KS1_F Cr75_2_3_KS1_L Cr79_29_extra1_F Cr79_29_extra1_L Cr84_21_KS1_F Cr84_21_KS1_L CrN22561_KS2_F CrN22561_KS2_L Inter3_1_F Inter3_1_L Inter4_1_1_F Inter4_1_1_L Inter4_1_2_F Inter4_1_2_L Inter4_1_3_F Inter4_1_4_L Inter5_1_F Inter5_1_L Intra6_3_F Intra6_3_L Intra7_2_1_F Intra7_2_1_L Intra7_2_2_F Intra7_2_2_L Intra7_2_3_F Intra7_2_3_L Intra8_2_F Intra8_2_L
−60 −40 −20 0 20 40 60 80 −50 50 100 PC2 PC3
hybrid ¡
¡ The ¡iden;fica;on ¡of ¡genes ¡(or ¡other ¡types ¡of ¡genomic ¡features, ¡such ¡as ¡transcripts ¡or ¡ exons) ¡that ¡are ¡expressed ¡in ¡significantly ¡different ¡quan;;es ¡in ¡dis;nct ¡groups ¡of ¡ samples, ¡be ¡it ¡biological ¡condi;ons ¡(drug-‑treated ¡vs. ¡controls), ¡diseased ¡vs. ¡healthy ¡ individuals, ¡different ¡;ssues, ¡different ¡stages ¡of ¡development, ¡or ¡something ¡else. ¡ Typically ¡univariate ¡analysis ¡(one ¡ gene ¡at ¡a ¡;me) ¡– ¡even ¡though ¡we ¡ know ¡that ¡genes ¡are ¡not ¡ independent ¡
Sleuth ¡ , ¡Sleuth ¡ ¡ ? ¡
Immune ¡response Pyruvate
Gene-‑level ¡data Gene-‑set ¡data ¡(results)
PPARG
Gen Gene-‑s e-‑set ¡ ¡analy analysis sis GO-‑terms Pathways Chromosomal ¡loca?ons Transcrip?on ¡factors Histone ¡modifica?ons Diseases etc… Samples Genes
We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen;al ¡expression ¡analysis ¡ However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-‑wide ¡data. ¡
(Berezikov ¡et ¡al. ¡Genome ¡Research, ¡2011.) ¡
(Sandberg,$Nature$Methods$2014)$
Adopted from Unneberg, 2010
Adding another layer to transcriptome complexity...
=> it has two alleles
– STAR ¡ ¡ – HISAT2 ¡
– Cufflinks ¡ – String;e ¡
– Trinity ¡
transcripts ¡on ¡reference ¡
– IGV ¡
– Tutorial ¡for ¡RNA ¡seq ¡Quality ¡Control ¡
– DEseq2 ¡ – Calisto ¡and ¡Sleuth ¡ – mul; ¡variate ¡analysis ¡in ¡SIMCA ¡
– miRNA ¡analysis ¡
– Introduc;on ¡to ¡the ¡RNA ¡seq ¡data ¡provided ¡ – Short ¡introduc;on ¡to ¡R ¡ – Short ¡introduc;on ¡to ¡IGV ¡
– Single ¡cell ¡RNA ¡PCA ¡and ¡clustering ¡ – Gene ¡set ¡analysis ¡
– sbatch ¡script ¡example ¡