Genome-wide approaches to study alterna5ve splicing using - - PowerPoint PPT Presentation

genome wide approaches to study alterna5ve splicing using
SMART_READER_LITE
LIVE PREVIEW

Genome-wide approaches to study alterna5ve splicing using - - PowerPoint PPT Presentation

Genome-wide approaches to study alterna5ve splicing using RNA-seq data Kathi Zarnack zarnack@ebi.ac.uk Cambridge, 06/02/2013 Introducing myself postdoc at


slide-1
SLIDE 1

Genome-­‑wide ¡approaches ¡to ¡study ¡ alterna5ve ¡splicing ¡using ¡RNA-­‑seq ¡data ¡

Kathi ¡Zarnack ¡ zarnack@ebi.ac.uk ¡ Cambridge, ¡06/02/2013 ¡

slide-2
SLIDE 2

Introducing ¡myself ¡

postdoc ¡at ¡the ¡CRUK ¡London ¡Research ¡Ins5tute ¡in ¡the ¡group ¡of ¡

  • Prof. ¡Nick ¡Luscombe ¡(hPp://www.luscombelab.org) ¡

¡ ¡ ¡ PhD ¡in ¡Molecular ¡Microbiology ¡ switch ¡to ¡Bioinforma8cs ¡for ¡my ¡postdoc ¡ ¡ interested ¡in ¡pos:ranscrip8onal ¡regula8on ¡and ¡the ¡ac5on ¡of ¡ RNA-­‑binding ¡proteins ¡

slide-3
SLIDE 3

Outline ¡of ¡this ¡lecture ¡

  • Introduc5on: ¡

– Alterna5ve ¡splicing ¡(AS) ¡ – Global ¡iden5fica5on ¡of ¡AS ¡events ¡

  • Focus ¡of ¡this ¡Review: ¡

– Major ¡challenges ¡ – Different ¡approaches ¡to ¡extract ¡AS ¡ events ¡from ¡RNA-­‑seq ¡data ¡ – Applica5ons ¡

  • Conclusions ¡

¡

slide-4
SLIDE 4

INTRODUCTION ¡I ¡

Alterna5ve ¡Splicing ¡(AS) ¡

slide-5
SLIDE 5

The ¡complex ¡life ¡of ¡mRNA ¡

McKee ¡and ¡SIlver ¡(2007) ¡ Cell ¡Res ¡17, ¡581-­‑90 ¡

slide-6
SLIDE 6

Alterna5ve ¡splicing ¡(AS) ¡

Image ¡taken ¡from ¡hPp://as-­‑alps.nagahama-­‑i-­‑bio.ac.jp/ ¡

slide-7
SLIDE 7

Example ¡I: ¡Dscam ¡in ¡Drosophila ¡

  • ¡neuronal ¡cell-­‑surface ¡receptor ¡
  • ¡more ¡than ¡38,000 ¡different ¡isoforms ¡
  • ¡homophilic ¡interac5ons ¡mediate ¡repulsion ¡of ¡axons ¡and ¡dendrites ¡

Zipursky ¡et ¡al. ¡(2006) ¡Trends ¡Biochem ¡Sci ¡10:581-­‑8; ¡Hemani ¡and ¡Soller ¡(2012) ¡Biochem ¡Soc ¡Trans ¡40: ¡804-­‑9 ¡

slide-8
SLIDE 8

Example ¡2: ¡Developmental ¡switch ¡

Gabut ¡et ¡al. ¡(2011) ¡Cell ¡147, ¡132-­‑146 ¡

slide-9
SLIDE 9

Types ¡of ¡alterna5ve ¡splicing ¡events ¡

Cassette exon Mutually exclusive exons Retained intron Alternative 5’splice sites Alternative 3’splice sites Alternative promoters Alternative poly-A sites

Picture ¡taken ¡from ¡Lu ¡et ¡al. ¡(2011) ¡Handbook ¡on ¡Sta5s5cal ¡Bioinforma5cs, ¡Springer ¡Verlag ¡Berlin ¡Heidelberg ¡

slide-10
SLIDE 10

The ¡regula5on ¡of ¡AS ¡events ¡

Chen ¡and ¡Manley ¡(2009) ¡Nat ¡Rev ¡Mol ¡Cell ¡Biol ¡10, ¡741-­‑54 ¡

spliceosome ¡ large ¡ribonucleoprotein ¡complexes ¡ (U1/U2/U4-­‑U5-­‑U6 ¡snRNPs) ¡ a ¡mul5tude ¡of ¡addi5onal ¡ trans-­‑ac5ng ¡splicing ¡regulators ¡ interplay ¡determines ¡the ¡splicing ¡decision ¡ at ¡each ¡individual ¡exon ¡

slide-11
SLIDE 11

Misregula5on ¡in ¡disease ¡

A ¡large ¡number ¡of ¡disease ¡are ¡associated ¡with ¡muta5ons ¡ in ¡RNA-­‑binding ¡proteins ¡ ¡

  • ­‑ ¡FMRP ¡(Fragile ¡X ¡Mental ¡Retarda5on ¡Protein; ¡associated ¡

with ¡Fragile ¡X ¡Syndrome) ¡

  • ­‑ ¡SMN ¡(Survival ¡Motor ¡Neuron ¡Protein; ¡mutated ¡in ¡Spinal ¡

Muscular ¡Atrophy) ¡

  • ­‑ ¡TDP-­‑43 ¡(associated ¡with ¡familial ¡form ¡of ¡Amyotrophic ¡

Lateral ¡Sclerosis) ¡

  • ­‑ ¡FUS ¡(Fused ¡in ¡Sarcoma; ¡associated ¡also ¡with ¡ALS ¡and ¡

FTLD) ¡

slide-12
SLIDE 12

AS ¡as ¡therapeu5c ¡targets ¡

Singh ¡and ¡Cooper ¡(20012) ¡Trends ¡Mol ¡Med ¡18, ¡472-­‑82. ¡

slide-13
SLIDE 13

INTRODUCTION ¡II ¡

Global ¡iden5fica5on ¡of ¡AS ¡ events ¡

slide-14
SLIDE 14

Expressed ¡sequence ¡tags ¡(ESTs) ¡

  • ¡cloning ¡and ¡sequencing ¡of ¡large ¡cDNA ¡fragments ¡(300-­‑400 ¡nt) ¡
  • ¡genomic ¡alignment ¡with ¡special ¡tools, ¡eg. ¡BLAT1 ¡(BLAST-­‑like ¡

Alignment ¡Tool) ¡

  • ¡some ¡aligner ¡take ¡into ¡consider ¡consensus ¡splice ¡sites, ¡eg. ¡

GMAP2 ¡

1 Kent ¡(2002) ¡Genome ¡Res ¡12: ¡656-­‑64. ¡ 2 Wu ¡and ¡Watanabe ¡(2005) ¡Bioinforma5cs ¡21: ¡1859-­‑75. ¡

slide-15
SLIDE 15

Microarrays ¡

Exon ¡arrays ¡ Splice-­‑junc8on ¡arrays ¡ reciprocal ¡behaviour ¡of ¡probes ¡ that ¡measure ¡inclusion ¡and ¡ exclusion ¡of ¡the ¡exon ¡ reciprocal ¡behaviour ¡of ¡probes ¡ that ¡measure ¡inclusion ¡and ¡ exclusion ¡of ¡the ¡exon ¡

slide-16
SLIDE 16

High-­‑throughput ¡RNA ¡sequencing ¡

Image ¡taken ¡from ¡cmb.molgen.mpg.de ¡

slide-17
SLIDE 17

Different ¡types ¡of ¡RNA-­‑seq ¡

Different ¡experimental ¡protocols: ¡

  • stranded ¡vs. ¡unstranded ¡libraries ¡
  • single-­‑end ¡(SE) ¡vs. ¡paired-­‑end ¡(PE) ¡

Illumina ¡HiSeq ¡ ABI ¡DNA ¡Analyzer ¡

Different ¡sequencing ¡technologies: ¡

  • ¡

¡varying ¡read ¡lengths ¡

  • ¡

¡different ¡error ¡rates ¡

slide-18
SLIDE 18

FOCUS ¡OF ¡THIS ¡REVIEW ¡

slide-19
SLIDE 19

Focus ¡of ¡this ¡review ¡

“In ¡theory, ¡RNA-­‑seq ¡can ¡be ¡used ¡to ¡build ¡a ¡complete ¡map ¡of ¡the ¡ transcriptome ¡across ¡all ¡cell ¡types, ¡pertuba5ons ¡and ¡states. ¡To ¡fully ¡realize ¡ this ¡goal, ¡however, ¡RNA-­‑seq ¡requires ¡powerful ¡computa5onal ¡tools.” ¡

Garber ¡et ¡al. ¡(2011) ¡Computa5onal ¡methods ¡for ¡transcriptome ¡annota5on ¡and ¡quan5fica5on ¡ using ¡RNA-­‑seq. ¡Nat ¡Methods ¡8: ¡469-­‑77. ¡

Here, ¡I ¡will ¡review ¡computa5onal ¡approaches ¡to ¡extract ¡ alterna5ve ¡splicing ¡informa5on ¡from ¡RNA-­‑seq ¡data. ¡ In ¡par5cular, ¡I ¡will ¡

  • ¡explain ¡the ¡major ¡challenges ¡
  • ¡introduce ¡the ¡different ¡solu8ons ¡and ¡how ¡they ¡were ¡

implemented ¡in ¡various ¡available ¡tools ¡

  • ¡discuss ¡their ¡benefits ¡for ¡addressing ¡different ¡biological ¡

ques5ons ¡ ¡ ¡

slide-20
SLIDE 20

The ¡goal ¡

  • 1. Genomic ¡alignment ¡

(con5nuous ¡or ¡splice-­‑aware) ¡

  • 2. Transcript ¡reconstruc5on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

(or ¡use ¡known ¡annota5on) ¡

  • 3. Quan5fica5on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

(gene-­‑level ¡or ¡transcript-­‑level) ¡

Haas ¡and ¡Zody ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡421-­‑3 ¡

slide-21
SLIDE 21

Genomic ¡alignment ¡

Splice-­‑aware ¡alignment ¡tools: ¡TopHat1, ¡SpliceMap2, ¡GSNAP3, ¡QPALMA4 ¡

1 Wang ¡et ¡al. ¡(2008) ¡Nature ¡456: ¡470-­‑6; ¡ ¡ 2 Wu ¡and ¡Nacu ¡(2010) ¡Bioinforma5cs ¡26: ¡873-­‑81. ¡ 3 Robertson ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡909-­‑12. ¡ 4 Birol ¡et ¡al. ¡(2009) ¡Bioinforma5cs ¡25: ¡2872-­‑77. ¡

slide-22
SLIDE 22

Transcript ¡reconstruc5on ¡

Cufflinks1: ¡minimal ¡set ¡of ¡ compa5ble ¡isoforms ¡(maximum ¡ precision) ¡ ¡ Scripture2: ¡all ¡isoforms ¡that ¡are ¡ compa5ble ¡with ¡the ¡read ¡data ¡ (maximum ¡sensi5vity) ¡

1 Trapnell ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡511-­‑15 ¡ 2 GuPman ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡503-­‑10 ¡

slide-23
SLIDE 23

Novel ¡transcript ¡structures ¡

GuPman ¡et ¡al. ¡(2010) ¡ Nat ¡Biotechnol ¡28: ¡503-­‑10 ¡

slide-24
SLIDE 24

Quan5fying ¡transcript ¡abundance ¡

Challenges: ¡ 1. millions ¡of ¡reads ¡ 2. most ¡reads ¡cannot ¡be ¡mapped ¡unequivocally ¡to ¡a ¡single ¡ transcript ¡isoform ¡ 3. discriminate ¡gene-­‑level ¡from ¡transcript-­‑level ¡changes ¡in ¡ expression ¡ 4. exon-­‑centric ¡vs. ¡transcript-­‑centric ¡view ¡of ¡alterna5ve ¡splicing ¡

slide-25
SLIDE 25

DIFFERENT ¡APPROACHES ¡

slide-26
SLIDE 26

Global ¡analyses ¡of ¡alterna5ve ¡splicing ¡

ARTICLES

Alternative isoform regulation in human tissue transcriptomes

Eric T. Wang1,2*, Rickard Sandberg1,3*, Shujun Luo4, Irina Khrebtukova4, Lu Zhang4, Christine Mayr5, Stephen F. Kingsmore6, Gary P. Schroth4 & Christopher B. Burge1

Through alternative processing of pre-messenger RNAs, individual mammalian genes often produce multiple mRNA and protein isoforms that may have related, distinct or even opposing functions. Here we report an in-depth analysis of 15 diverse human tissue and cell line transcriptomes on the basis of deep sequencing of complementary DNA fragments, yielding a digital inventory of gene and mRNA isoform expression. Analyses in which sequence reads are mapped to exon–exon junctions indicated that 92–94% of human genes undergo alternative splicing, ,86% with a minor isoform frequency of 15%

  • r more. Differences in isoform-specific read densities indicated that most alternative splicing and alternative cleavage and

polyadenylation events vary between tissues, whereas variation between individuals was approximately twofold to threefold less common. Extreme or ‘switch-like’ regulation of splicing between tissues was associated with increased sequence conservation in regulatory regions and with generation of full-length open reading frames. Patterns of alternative splicing and alternative cleavage and polyadenylation were strongly correlated across tissues, suggesting coordinated regulation of these processes, and sequence conservation of a subset of known regulatory motifs in both alternative introns and 39 untranslated regions suggested common involvement of specific factors in tissue-level regulation of both splicing and polyadenylation.

Vol 456 |27 November 2008 |doi:10.1038/nature07509

5 ¡human ¡cells ¡lines ¡and ¡10 ¡different ¡5ssues ¡ ¡

slide-27
SLIDE 27

“Percent ¡spliced ¡in” ¡(PSI, ¡Ψ) ¡

Ψ ¡= ¡

Σ ¡inclusion ¡reads ¡ Σ ¡inclusion ¡+ ¡exclusion ¡reads ¡ Ψ ¡denotes ¡the ¡frac5on ¡of ¡transcripts ¡ that ¡contain ¡a ¡given ¡exon. ¡

slide-28
SLIDE 28

Mixture ¡of ¡Isoforms ¡(MISO1) ¡

probabilis5c ¡framework ¡to ¡es5mate ¡the ¡expression ¡of ¡alterna5ve ¡ spliced ¡exons ¡and ¡assess ¡the ¡confidence ¡of ¡these ¡es8mates ¡

1 ¡Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡ 1009-­‑15. ¡

Addi5onal ¡informa5on: ¡

  • ¡reads ¡from ¡flanking ¡cons8tu8ve ¡exons ¡
  • ¡es5mated ¡insert ¡size ¡of ¡paired-­‑end ¡reads ¡
slide-29
SLIDE 29

Transcript-­‑centric ¡expression ¡ es5mates ¡

major ¡challenge: ¡read ¡assignment ¡uncertainty ¡ ¡ simplest ¡solu5on: ¡coun5ng ¡only ¡reads ¡that ¡map ¡uniquely ¡ to ¡a ¡single ¡isoform ¡(ALEXA-­‑seq1) ¡ ¡

1 Griffith ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡843-­‑7. ¡ Image ¡taken ¡from ¡Garber ¡et ¡al. ¡(2011) ¡Nat ¡Methods ¡8: ¡469-­‑77. ¡

slide-30
SLIDE 30

Cufflinks ¡

sta5s5cal ¡model ¡to ¡address ¡read ¡ assignment ¡uncertainty ¡ ¡ probability ¡to ¡observe ¡a ¡ par5cular ¡RNA-­‑seq ¡fragment ¡ assuming ¡different ¡transcript ¡ abundances ¡

Trapnell ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡511-­‑15 ¡

slide-31
SLIDE 31

The ¡importance ¡of ¡biological ¡variability ¡

Var(Expr) ¡= ¡Across-­‑group ¡variability ¡+ ¡Measurement ¡error ¡+ ¡Biological ¡variability ¡ differences ¡between ¡tumor ¡samples ¡ and ¡matched ¡healthy ¡controls ¡ true ¡expression ¡values ¡vary ¡ between ¡individuals ¡ (stochas5c ¡process) ¡

  • eg. ¡laboratory ¡or ¡

batch ¡effects ¡

Hansen ¡et ¡al. ¡(2011) ¡Nat ¡Biotechnol ¡29: ¡572-­‑3. ¡

Over-­‑predic8on ¡of ¡differen8ally ¡ abundant ¡transcripts ¡ High ¡false-­‑posi8ve ¡rates ¡

slide-32
SLIDE 32

DEXSeq ¡

R/Bioconductor ¡package ¡ ¡ Detec5on ¡of ¡alterna5ve ¡spliced ¡exons ¡using ¡GLMs ¡modelling ¡gene-­‑level ¡ and ¡exon-­‑level ¡effects, ¡taking ¡into ¡account ¡biological ¡varia5on ¡

Anders ¡et ¡al. ¡(2012) ¡ Genome ¡Res ¡22: ¡2008-­‑17. ¡

slide-33
SLIDE 33

Cuffdiff ¡2 ¡

addresses ¡count ¡uncertainty ¡and ¡count ¡overdispersion ¡ ¡ used ¡to ¡accurately ¡iden5fy ¡GENE ¡expression ¡changes ¡ ¡ ¡

Trapnell ¡et ¡al. ¡(2013) ¡Nat ¡Biotechnol ¡31: ¡46-­‑53. ¡

slide-34
SLIDE 34

VALIDATION ¡

slide-35
SLIDE 35

Valida5on ¡

  • 1. ¡Using ¡quan5ta5ve ¡RT-­‑PCR ¡(qRT-­‑PCR) ¡to ¡measure ¡inclusion ¡
  • f ¡individual ¡exons ¡

MISO: ¡ ¡52 ¡exons ¡tested ¡ Pearson ¡correla5on ¡r=0.87 ¡

Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡1009-­‑15. ¡

slide-36
SLIDE 36

Valida5on ¡

  • 2. ¡Comparison ¡with ¡splicing ¡microarrays ¡

Cuffdiff ¡2: ¡ ¡microarray ¡analysis ¡of ¡HOXA1 ¡KD ¡ Spearman ¡correla5on ¡0.86 ¡

Trapnell ¡et ¡al. ¡(2013) ¡Nat ¡Biotechnol ¡31: ¡46-­‑53. ¡

slide-37
SLIDE 37

Valida5on ¡

  • 3. ¡Addi5onal ¡func5onal ¡data, ¡eg. ¡associa5on ¡of ¡observed ¡

changes ¡with ¡known ¡regulators ¡

MISO: ¡ ¡CLIP-­‑seq ¡to ¡map ¡transcriptome-­‑wide ¡ binding ¡of ¡the ¡RNA-­‑binding ¡protein ¡hnRNP ¡H1 ¡

Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡1009-­‑15. ¡

slide-38
SLIDE 38

APPLICATIONS ¡

slide-39
SLIDE 39

Regulatory ¡RNAmaps ¡

many ¡regulatory ¡RNA-­‑binding ¡proteins ¡(RBPs) ¡can ¡have ¡both ¡ac5vate ¡ and ¡repress ¡the ¡inclusion ¡of ¡an ¡alterna5ve ¡exon ¡ ¡ genome-­‑wide ¡RNAmaps ¡revealed ¡how ¡the ¡posi5on ¡of ¡RBP ¡binding ¡ can ¡determine ¡the ¡splicing ¡outcome ¡

Ule ¡et ¡al. ¡(2006) ¡Nature ¡444: ¡580-­‑6; ¡Licalatosi ¡et ¡al. ¡(2008) ¡Nature ¡456: ¡464-­‑9. ¡

slide-40
SLIDE 40

Deciphering ¡the ¡splicing ¡code ¡

Barash ¡et ¡al. ¡(2013) ¡Nature ¡465: ¡53-­‑9. ¡

slide-41
SLIDE 41

Deciphering ¡the ¡splicing ¡code ¡

Barash ¡et ¡al. ¡(2013) ¡Nature ¡465: ¡53-­‑9. ¡

slide-42
SLIDE 42

Evolu5onary ¡studies ¡

The Evolutionary Landscape

  • f Alternative Splicing in

Vertebrate Species

Nuno L. Barbosa-Morais,1,2 Manuel Irimia,1* Qun Pan,1* Hui Y. Xiong,3* Serge Gueroussov,1,4* Leo J. Lee,3 Valentina Slobodeniuc,1 Claudia Kutter,5 Stephen Watt,5 Recep Ç

  • lak,1,6

TaeHyung Kim,1,7 Christine M. Misquitta-Ali,1 Michael D. Wilson,4,5,7 Philip M. Kim,1,4,6 Duncan T. Odom,5,8 Brendan J. Frey,1,3 Benjamin J. Blencowe1,4† How species with similar repertoires of protein-coding genes differ so markedly at the phenotypic level is poorly understood. By comparing organ transcriptomes from vertebrate species spanning ~350 million years of evolution, we observed significant differences in alternative splicing complexity between vertebrate lineages, with the highest complexity in primates. Within 6 million years, the splicing profiles of physiologically equivalent organs diverged such that they are more strongly related to the identity of a species than they are to organ type. Most vertebrate species-specific splicing patterns are cis-directed. However, a subset of pronounced splicing changes are predicted to remodel protein interactions involving trans-acting regulators. These events likely further contributed to the diversification of splicing and other transcriptomic changes that underlie phenotypic differences among vertebrate species.

Evolutionary Dynamics of Gene and Isoform Regulation in Mammalian Tissues

Jason Merkin,1 Caitlin Russell,1 Ping Chen,1,3 Christopher B. Burge1,2* Most mammalian genes produce multiple distinct messenger RNAs through alternative splicing, but the extent of splicing conservation is not clear. To assess tissue-specific transcriptome variation across mammals, we sequenced complementary DNA from nine tissues from four mammals and

  • ne bird in biological triplicate, at unprecedented depth. We find that while tissue-specific gene

expression programs are largely conserved, alternative splicing is well conserved in only a subset of tissues and is frequently lineage-specific. Thousands of previously unknown, lineage-specific, and conserved alternative exons were identified; widely conserved alternative exons had signatures

  • f binding by MBNL, PTB, RBFOX, STAR, and TIA family splicing factors, implicating them as

ancestral mammalian splicing regulators. Our data also indicate that alternative splicing often alters protein phosphorylatability, delimiting the scope of kinase signaling.

A

slide-43
SLIDE 43

Evolu5onary ¡studies ¡

A B

slide-44
SLIDE 44

Evolu5onary ¡studies ¡

B

slide-45
SLIDE 45

The ¡suppression ¡of ¡cryp5c ¡exons ¡

Zarnack ¡et ¡al. ¡(2013) ¡Cell ¡152: ¡453-­‑66. ¡

slide-46
SLIDE 46
slide-47
SLIDE 47

Conclusions ¡

  • High-­‑throughput ¡sequencing-­‑based ¡technologies ¡have ¡

revolu5onized ¡our ¡global ¡view ¡of ¡alterna5ve ¡splicing ¡

  • Data ¡analyses ¡is ¡challenging ¡
  • Several ¡tools ¡have ¡been ¡developed ¡and ¡successfully ¡applied ¡to ¡

address ¡major ¡ques5ons ¡in ¡AS ¡regula5on ¡and ¡func5on ¡

  • However, ¡there ¡are ¡s5ll ¡a ¡number ¡of ¡pisalls ¡
  • Future ¡developments, ¡both ¡on ¡the ¡level ¡of ¡computa5onal ¡

approaches ¡and ¡experimental ¡protocols, ¡will ¡be ¡required ¡to ¡ fully ¡unravel ¡the ¡complexity ¡of ¡the ¡human ¡transcriptome ¡

slide-48
SLIDE 48