Alternative Splicing, RNA-Seq 02-715 Advanced Topics in - - PowerPoint PPT Presentation
Alternative Splicing, RNA-Seq 02-715 Advanced Topics in - - PowerPoint PPT Presentation
Alternative Splicing, RNA-Seq 02-715 Advanced Topics in Computa8onal Genomics Alternative Splicing Pre-mRNAs can be spliced and different combina8ons of exons lead
Alternative Splicing
- Pre-‑mRNAs ¡can ¡be ¡spliced ¡and ¡different ¡combina8ons ¡of ¡
exons ¡lead ¡to ¡different ¡transcripts ¡
- Pre-‑mRNA ¡CasseCe ¡Exon ¡
High-Throughput Data
- Exon ¡abundance ¡
measurements ¡
- mRNA ¡abundance ¡(gene ¡
expression) ¡ measurements ¡
Tissue-specific Expressions of Exons
- ¡Clustering ¡exon ¡
measurements ¡for ¡27 ¡ mouse ¡8ssues ¡
Motivation
- Are ¡any ¡8ssue/condi8on-‑specific ¡alterna8ve ¡splicing ¡paCerns ¡
that ¡underlie ¡the ¡observed ¡high-‑throughput ¡exon ¡abundance ¡ measurements? ¡
- How ¡can ¡we ¡take ¡advantage ¡of ¡gene ¡expression ¡data ¡in ¡
addi8on ¡to ¡exon ¡abundance ¡data? ¡
- How ¡can ¡we ¡dis8nguish ¡between ¡varia8ons ¡in ¡true ¡alterna8ve ¡
splicing ¡in ¡condi8ons/8ssue-‑types ¡and ¡the ¡background ¡noise? ¡
Proposed Approach
- Advantages ¡of ¡probabilis8c ¡modeling ¡
– More ¡flexible ¡than ¡conven8onal ¡matrix ¡factoriza8on ¡methods ¡such ¡as ¡ PCA ¡and ¡factor ¡analysis ¡ – Provides ¡means ¡to ¡incorporate ¡prior ¡knowledge ¡
- Supervised ¡vs. ¡unsupervised ¡learning ¡
– Supervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡assumed ¡to ¡be ¡ known ¡and ¡we ¡try ¡to ¡look ¡for ¡paCerns ¡that ¡dis8nguish ¡among ¡the ¡ condi8ons/8ssue-‑types ¡ – Unsupervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡not ¡known ¡ (e.g., ¡PCA) ¡ – Semi-‑supervised ¡learning? ¡ ¡
Probabilistic Matrix Factorization
- Observed ¡measurements ¡
– xt
e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[0,1]: ¡observa8on ¡for ¡exon ¡e ¡(e=1,…,E) ¡and ¡condi8on ¡t ¡(t=1,
…,T) ¡ – νte ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡R: ¡expression ¡level ¡of ¡gene ¡corresponding ¡to ¡exon ¡e ¡and ¡ condi8on ¡t ¡
- Factor ¡model ¡for ¡exon ¡abundance ¡xt
e ¡
- C: ¡the ¡number ¡of ¡latent ¡factors ¡
- λc={λc,1, ¡…, ¡λc,T}: ¡the ¡c-‑th ¡factor ¡describing ¡underlying ¡alterna8ve ¡
splicing ¡signal ¡
- mc
e: ¡exon-‑specific ¡weight ¡(exon ¡e) ¡for ¡the ¡c-‑th ¡factor ¡ ¡ ¡ ¡ ¡ ¡ ¡
∈ ∈
Sparsity Constraint
- Not ¡all ¡of ¡the ¡alterna8ve-‑splicing ¡signals ¡(λc‘s) ¡are ¡present ¡in ¡
each ¡exon ¡abundance ¡measurements ¡(xe ={x1
e ,…, ¡xT e})
- Enforcing ¡sparsity ¡by ¡introducing ¡another ¡layer ¡of ¡latent ¡
variables ¡sc
e’s ¡
– sc
e ¡=0: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡not ¡present ¡in ¡
the ¡given ¡exon ¡ – sc
e ¡=+1: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡present ¡with ¡
posi8ve ¡weight ¡ – sc
e ¡=-‑1: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡present ¡with ¡
nega8ve ¡weight ¡ – Sparse ¡prior: ¡ ¡
Model for Exon Abundance Measurements
- Pudng ¡it ¡together, ¡we ¡have ¡a ¡mixture ¡model ¡
Incorporating Gene Expression Data
- If ¡the ¡expression ¡of ¡a ¡gene ¡is ¡absent ¡in ¡condi8on ¡t, ¡the ¡
corresponding ¡entry ¡for ¡exon-‑abundance ¡measurements ¡ should ¡be ¡ignored, ¡or ¡modeled ¡as ¡background ¡model. ¡
- Introduce ¡an ¡indicator ¡variable ¡nt
e ¡to ¡model ¡whether ¡gene ¡e ¡is ¡
expressed ¡or ¡not ¡under ¡condi8on ¡t ¡ ¡
Probabilistic Model for Detecting Alternative Splicing Signals
- Graphical ¡model ¡representa8on ¡
Learning the Model
- EM ¡algorithm ¡
– nt
e, ¡sc e, ¡mc e‘s ¡are ¡unobserved ¡latent ¡variables ¡
– In ¡order ¡to ¡improve ¡the ¡efficiency ¡of ¡the ¡E-‑step, ¡introduce ¡varia8onal ¡ approxima8on ¡
Learning the Model
- Some ¡issues ¡that ¡need ¡to ¡be ¡considered ¡
– The ¡varia8onal ¡EM ¡algorithm ¡converges ¡to ¡the ¡local ¡minimum ¡(no ¡ guarantee ¡for ¡global ¡op8mum) ¡ – The ¡results ¡can ¡be ¡sensi8ve ¡to ¡ini8aliza8on ¡method ¡ – The ¡number ¡of ¡factors ¡C ¡needs ¡to ¡be ¡pre-‑specified ¡
- Also ¡can ¡be ¡determined ¡by ¡cross ¡valida8on ¡
– The ¡sparsity ¡level ¡P(sc
e=0) ¡needs ¡to ¡be ¡specified ¡by ¡the ¡user ¡
Incorporating Prior Knowledge
- If ¡there ¡are ¡known ¡alterna8ve-‑splicing ¡signals, ¡one ¡can ¡fix ¡λc‘s ¡
for ¡those ¡known ¡factors ¡and ¡learn ¡the ¡weights ¡along ¡with ¡the ¡ factors ¡and ¡weights ¡for ¡other ¡unknown ¡signals ¡
- Also, ¡the ¡known ¡λc‘s ¡can ¡be ¡used ¡to ¡ini8alize ¡the ¡varia8onal ¡
EM ¡algorithm ¡
Dataset
- Dataset ¡of ¡Fagnani ¡et ¡al. ¡(2007) ¡
– 3707 ¡casseCe ¡exons ¡measured ¡across ¡27 ¡mouse ¡8ssues ¡ – CNS, ¡muscle, ¡embryo, ¡and ¡diges8ve ¡8ssues ¡
- Comparison ¡of ¡methods ¡such ¡as ¡SVD, ¡supervised ¡learning ¡
methods ¡
SVD Analysis
Eigen-‑exons ¡
Enrichment Analysis
- Comparison ¡of ¡different ¡methods ¡
Results from Probabilistic Model
- Varying ¡the ¡number ¡of ¡alterna8ve-‑splicing ¡signals ¡
Regulatory Features Associated with Alternative Splicing Signals
- Enriched ¡mo8fs ¡
– Nova ¡YCAY ¡mo8fs: ¡enriched ¡in ¡the ¡downstream ¡introns ¡of ¡exons ¡ associated ¡with ¡increased ¡inclusion ¡in ¡CNS ¡and ¡downstream ¡of ¡exons ¡ downregulated ¡in ¡those ¡8ssues ¡ – Fox ¡mo8f ¡variants: ¡associated ¡with ¡inclusion ¡in ¡muscle ¡and ¡brain ¡ 8ssues ¡when ¡appearing ¡in ¡the ¡downstream ¡intron ¡ – CU-‑rich ¡mo8fs: ¡enriched ¡in ¡up ¡and ¡downstream ¡of ¡exons ¡exhibi8ng ¡ splicing ¡changes ¡in ¡several ¡8ssue ¡groups ¡including ¡CNS ¡
RNA-Seq
- Transcriptome ¡sequencing ¡provides ¡
– Access ¡to ¡rare ¡transcripts ¡ ¡ – Nucleo8de-‑resolu8on ¡of ¡transcripts ¡ – Detec8on ¡of ¡novel ¡transcripts, ¡alterna8ve-‑splicing ¡paCerns ¡ – Allele-‑specific ¡transcript ¡abundance ¡
RNA-Seq for HapMap3 Individuals
(Montgomery et al., Nature, 2010)
- RNA-‑Seq ¡for ¡mRNAs ¡of ¡60 ¡HapMap3 ¡individuals ¡
- Mapping ¡the ¡reads ¡
– 86% ¡of ¡the ¡reads ¡map ¡to ¡known ¡exons ¡in ¡Ensembl ¡ – 15% ¡of ¡the ¡read ¡pairs ¡span ¡more ¡than ¡one ¡exon ¡
- Assembling ¡the ¡exons ¡and ¡reads ¡into ¡isoforms ¡and ¡transcripts ¡
- 90,064 ¡exons, ¡15,967 ¡transcripts, ¡10,777 ¡genes ¡
Alternative Splicing and eQTLs
- eQTLs ¡are ¡enriched ¡in ¡first, ¡second, ¡and ¡last ¡exons ¡ ¡
Alternative Splicing and Genetic Variation
- The ¡gene8c ¡varia8on ¡
affects ¡both ¡transcript ¡ abundance ¡and ¡ transcript ¡diversity ¡ ¡
Alternative Splicing and Genetic Variation
- The ¡gene8c ¡varia8on ¡