Alternative Splicing, RNA-Seq 02-715 Advanced Topics in - - PowerPoint PPT Presentation

alternative splicing rna seq
SMART_READER_LITE
LIVE PREVIEW

Alternative Splicing, RNA-Seq 02-715 Advanced Topics in - - PowerPoint PPT Presentation

Alternative Splicing, RNA-Seq 02-715 Advanced Topics in Computa8onal Genomics Alternative Splicing Pre-mRNAs can be spliced and different combina8ons of exons lead


slide-1
SLIDE 1

Alternative Splicing, RNA-Seq

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Alternative Splicing

  • Pre-­‑mRNAs ¡can ¡be ¡spliced ¡and ¡different ¡combina8ons ¡of ¡

exons ¡lead ¡to ¡different ¡transcripts ¡

  • Pre-­‑mRNA ¡CasseCe ¡Exon ¡
slide-3
SLIDE 3

High-Throughput Data

  • Exon ¡abundance ¡

measurements ¡

  • mRNA ¡abundance ¡(gene ¡

expression) ¡ measurements ¡

slide-4
SLIDE 4

Tissue-specific Expressions of Exons

  • ¡Clustering ¡exon ¡

measurements ¡for ¡27 ¡ mouse ¡8ssues ¡

slide-5
SLIDE 5

Motivation

  • Are ¡any ¡8ssue/condi8on-­‑specific ¡alterna8ve ¡splicing ¡paCerns ¡

that ¡underlie ¡the ¡observed ¡high-­‑throughput ¡exon ¡abundance ¡ measurements? ¡

  • How ¡can ¡we ¡take ¡advantage ¡of ¡gene ¡expression ¡data ¡in ¡

addi8on ¡to ¡exon ¡abundance ¡data? ¡

  • How ¡can ¡we ¡dis8nguish ¡between ¡varia8ons ¡in ¡true ¡alterna8ve ¡

splicing ¡in ¡condi8ons/8ssue-­‑types ¡and ¡the ¡background ¡noise? ¡

slide-6
SLIDE 6

Proposed Approach

  • Advantages ¡of ¡probabilis8c ¡modeling ¡

– More ¡flexible ¡than ¡conven8onal ¡matrix ¡factoriza8on ¡methods ¡such ¡as ¡ PCA ¡and ¡factor ¡analysis ¡ – Provides ¡means ¡to ¡incorporate ¡prior ¡knowledge ¡

  • Supervised ¡vs. ¡unsupervised ¡learning ¡

– Supervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡assumed ¡to ¡be ¡ known ¡and ¡we ¡try ¡to ¡look ¡for ¡paCerns ¡that ¡dis8nguish ¡among ¡the ¡ condi8ons/8ssue-­‑types ¡ – Unsupervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡not ¡known ¡ (e.g., ¡PCA) ¡ – Semi-­‑supervised ¡learning? ¡ ¡

slide-7
SLIDE 7

Probabilistic Matrix Factorization

  • Observed ¡measurements ¡

– xt

e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[0,1]: ¡observa8on ¡for ¡exon ¡e ¡(e=1,…,E) ¡and ¡condi8on ¡t ¡(t=1,

…,T) ¡ – νte ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡R: ¡expression ¡level ¡of ¡gene ¡corresponding ¡to ¡exon ¡e ¡and ¡ condi8on ¡t ¡

  • Factor ¡model ¡for ¡exon ¡abundance ¡xt

e ¡

  • C: ¡the ¡number ¡of ¡latent ¡factors ¡
  • λc={λc,1, ¡…, ¡λc,T}: ¡the ¡c-­‑th ¡factor ¡describing ¡underlying ¡alterna8ve ¡

splicing ¡signal ¡

  • mc

e: ¡exon-­‑specific ¡weight ¡(exon ¡e) ¡for ¡the ¡c-­‑th ¡factor ¡ ¡ ¡ ¡ ¡ ¡ ¡

∈ ∈

slide-8
SLIDE 8

Sparsity Constraint

  • Not ¡all ¡of ¡the ¡alterna8ve-­‑splicing ¡signals ¡(λc‘s) ¡are ¡present ¡in ¡

each ¡exon ¡abundance ¡measurements ¡(xe ={x1

e ,…, ¡xT e})

  • Enforcing ¡sparsity ¡by ¡introducing ¡another ¡layer ¡of ¡latent ¡

variables ¡sc

e’s ¡

– sc

e ¡=0: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡not ¡present ¡in ¡

the ¡given ¡exon ¡ – sc

e ¡=+1: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡present ¡with ¡

posi8ve ¡weight ¡ – sc

e ¡=-­‑1: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡present ¡with ¡

nega8ve ¡weight ¡ – Sparse ¡prior: ¡ ¡

slide-9
SLIDE 9

Model for Exon Abundance Measurements

  • Pudng ¡it ¡together, ¡we ¡have ¡a ¡mixture ¡model ¡
slide-10
SLIDE 10

Incorporating Gene Expression Data

  • If ¡the ¡expression ¡of ¡a ¡gene ¡is ¡absent ¡in ¡condi8on ¡t, ¡the ¡

corresponding ¡entry ¡for ¡exon-­‑abundance ¡measurements ¡ should ¡be ¡ignored, ¡or ¡modeled ¡as ¡background ¡model. ¡

  • Introduce ¡an ¡indicator ¡variable ¡nt

e ¡to ¡model ¡whether ¡gene ¡e ¡is ¡

expressed ¡or ¡not ¡under ¡condi8on ¡t ¡ ¡

slide-11
SLIDE 11

Probabilistic Model for Detecting Alternative Splicing Signals

  • Graphical ¡model ¡representa8on ¡
slide-12
SLIDE 12

Learning the Model

  • EM ¡algorithm ¡

– nt

e, ¡sc e, ¡mc e‘s ¡are ¡unobserved ¡latent ¡variables ¡

– In ¡order ¡to ¡improve ¡the ¡efficiency ¡of ¡the ¡E-­‑step, ¡introduce ¡varia8onal ¡ approxima8on ¡

slide-13
SLIDE 13

Learning the Model

  • Some ¡issues ¡that ¡need ¡to ¡be ¡considered ¡

– The ¡varia8onal ¡EM ¡algorithm ¡converges ¡to ¡the ¡local ¡minimum ¡(no ¡ guarantee ¡for ¡global ¡op8mum) ¡ – The ¡results ¡can ¡be ¡sensi8ve ¡to ¡ini8aliza8on ¡method ¡ – The ¡number ¡of ¡factors ¡C ¡needs ¡to ¡be ¡pre-­‑specified ¡

  • Also ¡can ¡be ¡determined ¡by ¡cross ¡valida8on ¡

– The ¡sparsity ¡level ¡P(sc

e=0) ¡needs ¡to ¡be ¡specified ¡by ¡the ¡user ¡

slide-14
SLIDE 14

Incorporating Prior Knowledge

  • If ¡there ¡are ¡known ¡alterna8ve-­‑splicing ¡signals, ¡one ¡can ¡fix ¡λc‘s ¡

for ¡those ¡known ¡factors ¡and ¡learn ¡the ¡weights ¡along ¡with ¡the ¡ factors ¡and ¡weights ¡for ¡other ¡unknown ¡signals ¡

  • Also, ¡the ¡known ¡λc‘s ¡can ¡be ¡used ¡to ¡ini8alize ¡the ¡varia8onal ¡

EM ¡algorithm ¡

slide-15
SLIDE 15

Dataset

  • Dataset ¡of ¡Fagnani ¡et ¡al. ¡(2007) ¡

– 3707 ¡casseCe ¡exons ¡measured ¡across ¡27 ¡mouse ¡8ssues ¡ – CNS, ¡muscle, ¡embryo, ¡and ¡diges8ve ¡8ssues ¡

  • Comparison ¡of ¡methods ¡such ¡as ¡SVD, ¡supervised ¡learning ¡

methods ¡

slide-16
SLIDE 16

SVD Analysis

Eigen-­‑exons ¡

slide-17
SLIDE 17

Enrichment Analysis

  • Comparison ¡of ¡different ¡methods ¡
slide-18
SLIDE 18

Results from Probabilistic Model

  • Varying ¡the ¡number ¡of ¡alterna8ve-­‑splicing ¡signals ¡
slide-19
SLIDE 19

Regulatory Features Associated with Alternative Splicing Signals

  • Enriched ¡mo8fs ¡

– Nova ¡YCAY ¡mo8fs: ¡enriched ¡in ¡the ¡downstream ¡introns ¡of ¡exons ¡ associated ¡with ¡increased ¡inclusion ¡in ¡CNS ¡and ¡downstream ¡of ¡exons ¡ downregulated ¡in ¡those ¡8ssues ¡ – Fox ¡mo8f ¡variants: ¡associated ¡with ¡inclusion ¡in ¡muscle ¡and ¡brain ¡ 8ssues ¡when ¡appearing ¡in ¡the ¡downstream ¡intron ¡ – CU-­‑rich ¡mo8fs: ¡enriched ¡in ¡up ¡and ¡downstream ¡of ¡exons ¡exhibi8ng ¡ splicing ¡changes ¡in ¡several ¡8ssue ¡groups ¡including ¡CNS ¡

slide-20
SLIDE 20

RNA-Seq

  • Transcriptome ¡sequencing ¡provides ¡

– Access ¡to ¡rare ¡transcripts ¡ ¡ – Nucleo8de-­‑resolu8on ¡of ¡transcripts ¡ – Detec8on ¡of ¡novel ¡transcripts, ¡alterna8ve-­‑splicing ¡paCerns ¡ – Allele-­‑specific ¡transcript ¡abundance ¡

slide-21
SLIDE 21

RNA-Seq for HapMap3 Individuals

(Montgomery et al., Nature, 2010)

  • RNA-­‑Seq ¡for ¡mRNAs ¡of ¡60 ¡HapMap3 ¡individuals ¡
  • Mapping ¡the ¡reads ¡

– 86% ¡of ¡the ¡reads ¡map ¡to ¡known ¡exons ¡in ¡Ensembl ¡ – 15% ¡of ¡the ¡read ¡pairs ¡span ¡more ¡than ¡one ¡exon ¡

  • Assembling ¡the ¡exons ¡and ¡reads ¡into ¡isoforms ¡and ¡transcripts ¡
  • 90,064 ¡exons, ¡15,967 ¡transcripts, ¡10,777 ¡genes ¡
slide-22
SLIDE 22

Alternative Splicing and eQTLs

  • eQTLs ¡are ¡enriched ¡in ¡first, ¡second, ¡and ¡last ¡exons ¡ ¡
slide-23
SLIDE 23

Alternative Splicing and Genetic Variation

  • The ¡gene8c ¡varia8on ¡

affects ¡both ¡transcript ¡ abundance ¡and ¡ transcript ¡diversity ¡ ¡

slide-24
SLIDE 24

Alternative Splicing and Genetic Variation

  • The ¡gene8c ¡varia8on ¡

affects ¡the ¡transcript ¡ abundance ¡but ¡not ¡the ¡ diversity ¡