Genome-wide approaches to study alterna5ve splicing using - - PowerPoint PPT Presentation
Genome-wide approaches to study alterna5ve splicing using - - PowerPoint PPT Presentation
Genome-wide approaches to study alterna5ve splicing using RNA-seq data Kathi Zarnack zarnack@ebi.ac.uk Cambridge, 06/02/2013 Introducing myself postdoc at
Introducing ¡myself ¡
postdoc ¡at ¡the ¡CRUK ¡London ¡Research ¡Ins5tute ¡in ¡the ¡group ¡of ¡
- Prof. ¡Nick ¡Luscombe ¡(hPp://www.luscombelab.org) ¡
¡ ¡ ¡ PhD ¡in ¡Molecular ¡Microbiology ¡ switch ¡to ¡Bioinforma8cs ¡for ¡my ¡postdoc ¡ ¡ interested ¡in ¡pos:ranscrip8onal ¡regula8on ¡and ¡the ¡ac5on ¡of ¡ RNA-‑binding ¡proteins ¡
Outline ¡of ¡this ¡lecture ¡
- Introduc5on: ¡
– Alterna5ve ¡splicing ¡(AS) ¡ – Global ¡iden5fica5on ¡of ¡AS ¡events ¡
- Focus ¡of ¡this ¡Review: ¡
– Major ¡challenges ¡ – Different ¡approaches ¡to ¡extract ¡AS ¡ events ¡from ¡RNA-‑seq ¡data ¡ – Applica5ons ¡
- Conclusions ¡
¡
INTRODUCTION ¡I ¡
Alterna5ve ¡Splicing ¡(AS) ¡
The ¡complex ¡life ¡of ¡mRNA ¡
McKee ¡and ¡SIlver ¡(2007) ¡ Cell ¡Res ¡17, ¡581-‑90 ¡
Alterna5ve ¡splicing ¡(AS) ¡
Image ¡taken ¡from ¡hPp://as-‑alps.nagahama-‑i-‑bio.ac.jp/ ¡
Example ¡I: ¡Dscam ¡in ¡Drosophila ¡
- ¡neuronal ¡cell-‑surface ¡receptor ¡
- ¡more ¡than ¡38,000 ¡different ¡isoforms ¡
- ¡homophilic ¡interac5ons ¡mediate ¡repulsion ¡of ¡axons ¡and ¡dendrites ¡
Zipursky ¡et ¡al. ¡(2006) ¡Trends ¡Biochem ¡Sci ¡10:581-‑8; ¡Hemani ¡and ¡Soller ¡(2012) ¡Biochem ¡Soc ¡Trans ¡40: ¡804-‑9 ¡
Example ¡2: ¡Developmental ¡switch ¡
Gabut ¡et ¡al. ¡(2011) ¡Cell ¡147, ¡132-‑146 ¡
Types ¡of ¡alterna5ve ¡splicing ¡events ¡
Cassette exon Mutually exclusive exons Retained intron Alternative 5’splice sites Alternative 3’splice sites Alternative promoters Alternative poly-A sites
Picture ¡taken ¡from ¡Lu ¡et ¡al. ¡(2011) ¡Handbook ¡on ¡Sta5s5cal ¡Bioinforma5cs, ¡Springer ¡Verlag ¡Berlin ¡Heidelberg ¡
The ¡regula5on ¡of ¡AS ¡events ¡
Chen ¡and ¡Manley ¡(2009) ¡Nat ¡Rev ¡Mol ¡Cell ¡Biol ¡10, ¡741-‑54 ¡
spliceosome ¡ large ¡ribonucleoprotein ¡complexes ¡ (U1/U2/U4-‑U5-‑U6 ¡snRNPs) ¡ a ¡mul5tude ¡of ¡addi5onal ¡ trans-‑ac5ng ¡splicing ¡regulators ¡ interplay ¡determines ¡the ¡splicing ¡decision ¡ at ¡each ¡individual ¡exon ¡
Misregula5on ¡in ¡disease ¡
A ¡large ¡number ¡of ¡disease ¡are ¡associated ¡with ¡muta5ons ¡ in ¡RNA-‑binding ¡proteins ¡ ¡
- ‑ ¡FMRP ¡(Fragile ¡X ¡Mental ¡Retarda5on ¡Protein; ¡associated ¡
with ¡Fragile ¡X ¡Syndrome) ¡
- ‑ ¡SMN ¡(Survival ¡Motor ¡Neuron ¡Protein; ¡mutated ¡in ¡Spinal ¡
Muscular ¡Atrophy) ¡
- ‑ ¡TDP-‑43 ¡(associated ¡with ¡familial ¡form ¡of ¡Amyotrophic ¡
Lateral ¡Sclerosis) ¡
- ‑ ¡FUS ¡(Fused ¡in ¡Sarcoma; ¡associated ¡also ¡with ¡ALS ¡and ¡
FTLD) ¡
AS ¡as ¡therapeu5c ¡targets ¡
Singh ¡and ¡Cooper ¡(20012) ¡Trends ¡Mol ¡Med ¡18, ¡472-‑82. ¡
INTRODUCTION ¡II ¡
Global ¡iden5fica5on ¡of ¡AS ¡ events ¡
Expressed ¡sequence ¡tags ¡(ESTs) ¡
- ¡cloning ¡and ¡sequencing ¡of ¡large ¡cDNA ¡fragments ¡(300-‑400 ¡nt) ¡
- ¡genomic ¡alignment ¡with ¡special ¡tools, ¡eg. ¡BLAT1 ¡(BLAST-‑like ¡
Alignment ¡Tool) ¡
- ¡some ¡aligner ¡take ¡into ¡consider ¡consensus ¡splice ¡sites, ¡eg. ¡
GMAP2 ¡
1 Kent ¡(2002) ¡Genome ¡Res ¡12: ¡656-‑64. ¡ 2 Wu ¡and ¡Watanabe ¡(2005) ¡Bioinforma5cs ¡21: ¡1859-‑75. ¡
Microarrays ¡
Exon ¡arrays ¡ Splice-‑junc8on ¡arrays ¡ reciprocal ¡behaviour ¡of ¡probes ¡ that ¡measure ¡inclusion ¡and ¡ exclusion ¡of ¡the ¡exon ¡ reciprocal ¡behaviour ¡of ¡probes ¡ that ¡measure ¡inclusion ¡and ¡ exclusion ¡of ¡the ¡exon ¡
High-‑throughput ¡RNA ¡sequencing ¡
Image ¡taken ¡from ¡cmb.molgen.mpg.de ¡
Different ¡types ¡of ¡RNA-‑seq ¡
Different ¡experimental ¡protocols: ¡
- stranded ¡vs. ¡unstranded ¡libraries ¡
- single-‑end ¡(SE) ¡vs. ¡paired-‑end ¡(PE) ¡
Illumina ¡HiSeq ¡ ABI ¡DNA ¡Analyzer ¡
Different ¡sequencing ¡technologies: ¡
- ¡
¡varying ¡read ¡lengths ¡
- ¡
¡different ¡error ¡rates ¡
FOCUS ¡OF ¡THIS ¡REVIEW ¡
Focus ¡of ¡this ¡review ¡
“In ¡theory, ¡RNA-‑seq ¡can ¡be ¡used ¡to ¡build ¡a ¡complete ¡map ¡of ¡the ¡ transcriptome ¡across ¡all ¡cell ¡types, ¡pertuba5ons ¡and ¡states. ¡To ¡fully ¡realize ¡ this ¡goal, ¡however, ¡RNA-‑seq ¡requires ¡powerful ¡computa5onal ¡tools.” ¡
Garber ¡et ¡al. ¡(2011) ¡Computa5onal ¡methods ¡for ¡transcriptome ¡annota5on ¡and ¡quan5fica5on ¡ using ¡RNA-‑seq. ¡Nat ¡Methods ¡8: ¡469-‑77. ¡
Here, ¡I ¡will ¡review ¡computa5onal ¡approaches ¡to ¡extract ¡ alterna5ve ¡splicing ¡informa5on ¡from ¡RNA-‑seq ¡data. ¡ In ¡par5cular, ¡I ¡will ¡
- ¡explain ¡the ¡major ¡challenges ¡
- ¡introduce ¡the ¡different ¡solu8ons ¡and ¡how ¡they ¡were ¡
implemented ¡in ¡various ¡available ¡tools ¡
- ¡discuss ¡their ¡benefits ¡for ¡addressing ¡different ¡biological ¡
ques5ons ¡ ¡ ¡
The ¡goal ¡
- 1. Genomic ¡alignment ¡
(con5nuous ¡or ¡splice-‑aware) ¡
- 2. Transcript ¡reconstruc5on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
(or ¡use ¡known ¡annota5on) ¡
- 3. Quan5fica5on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
(gene-‑level ¡or ¡transcript-‑level) ¡
Haas ¡and ¡Zody ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡421-‑3 ¡
Genomic ¡alignment ¡
Splice-‑aware ¡alignment ¡tools: ¡TopHat1, ¡SpliceMap2, ¡GSNAP3, ¡QPALMA4 ¡
1 Wang ¡et ¡al. ¡(2008) ¡Nature ¡456: ¡470-‑6; ¡ ¡ 2 Wu ¡and ¡Nacu ¡(2010) ¡Bioinforma5cs ¡26: ¡873-‑81. ¡ 3 Robertson ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡909-‑12. ¡ 4 Birol ¡et ¡al. ¡(2009) ¡Bioinforma5cs ¡25: ¡2872-‑77. ¡
Transcript ¡reconstruc5on ¡
Cufflinks1: ¡minimal ¡set ¡of ¡ compa5ble ¡isoforms ¡(maximum ¡ precision) ¡ ¡ Scripture2: ¡all ¡isoforms ¡that ¡are ¡ compa5ble ¡with ¡the ¡read ¡data ¡ (maximum ¡sensi5vity) ¡
1 Trapnell ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡511-‑15 ¡ 2 GuPman ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡503-‑10 ¡
Novel ¡transcript ¡structures ¡
GuPman ¡et ¡al. ¡(2010) ¡ Nat ¡Biotechnol ¡28: ¡503-‑10 ¡
Quan5fying ¡transcript ¡abundance ¡
Challenges: ¡ 1. millions ¡of ¡reads ¡ 2. most ¡reads ¡cannot ¡be ¡mapped ¡unequivocally ¡to ¡a ¡single ¡ transcript ¡isoform ¡ 3. discriminate ¡gene-‑level ¡from ¡transcript-‑level ¡changes ¡in ¡ expression ¡ 4. exon-‑centric ¡vs. ¡transcript-‑centric ¡view ¡of ¡alterna5ve ¡splicing ¡
DIFFERENT ¡APPROACHES ¡
Global ¡analyses ¡of ¡alterna5ve ¡splicing ¡
ARTICLES
Alternative isoform regulation in human tissue transcriptomes
Eric T. Wang1,2*, Rickard Sandberg1,3*, Shujun Luo4, Irina Khrebtukova4, Lu Zhang4, Christine Mayr5, Stephen F. Kingsmore6, Gary P. Schroth4 & Christopher B. Burge1
Through alternative processing of pre-messenger RNAs, individual mammalian genes often produce multiple mRNA and protein isoforms that may have related, distinct or even opposing functions. Here we report an in-depth analysis of 15 diverse human tissue and cell line transcriptomes on the basis of deep sequencing of complementary DNA fragments, yielding a digital inventory of gene and mRNA isoform expression. Analyses in which sequence reads are mapped to exon–exon junctions indicated that 92–94% of human genes undergo alternative splicing, ,86% with a minor isoform frequency of 15%
- r more. Differences in isoform-specific read densities indicated that most alternative splicing and alternative cleavage and
polyadenylation events vary between tissues, whereas variation between individuals was approximately twofold to threefold less common. Extreme or ‘switch-like’ regulation of splicing between tissues was associated with increased sequence conservation in regulatory regions and with generation of full-length open reading frames. Patterns of alternative splicing and alternative cleavage and polyadenylation were strongly correlated across tissues, suggesting coordinated regulation of these processes, and sequence conservation of a subset of known regulatory motifs in both alternative introns and 39 untranslated regions suggested common involvement of specific factors in tissue-level regulation of both splicing and polyadenylation.
Vol 456 |27 November 2008 |doi:10.1038/nature07509
5 ¡human ¡cells ¡lines ¡and ¡10 ¡different ¡5ssues ¡ ¡
“Percent ¡spliced ¡in” ¡(PSI, ¡Ψ) ¡
Ψ ¡= ¡
Σ ¡inclusion ¡reads ¡ Σ ¡inclusion ¡+ ¡exclusion ¡reads ¡ Ψ ¡denotes ¡the ¡frac5on ¡of ¡transcripts ¡ that ¡contain ¡a ¡given ¡exon. ¡
Mixture ¡of ¡Isoforms ¡(MISO1) ¡
probabilis5c ¡framework ¡to ¡es5mate ¡the ¡expression ¡of ¡alterna5ve ¡ spliced ¡exons ¡and ¡assess ¡the ¡confidence ¡of ¡these ¡es8mates ¡
1 ¡Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡ 1009-‑15. ¡
Addi5onal ¡informa5on: ¡
- ¡reads ¡from ¡flanking ¡cons8tu8ve ¡exons ¡
- ¡es5mated ¡insert ¡size ¡of ¡paired-‑end ¡reads ¡
Transcript-‑centric ¡expression ¡ es5mates ¡
major ¡challenge: ¡read ¡assignment ¡uncertainty ¡ ¡ simplest ¡solu5on: ¡coun5ng ¡only ¡reads ¡that ¡map ¡uniquely ¡ to ¡a ¡single ¡isoform ¡(ALEXA-‑seq1) ¡ ¡
1 Griffith ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡843-‑7. ¡ Image ¡taken ¡from ¡Garber ¡et ¡al. ¡(2011) ¡Nat ¡Methods ¡8: ¡469-‑77. ¡
Cufflinks ¡
sta5s5cal ¡model ¡to ¡address ¡read ¡ assignment ¡uncertainty ¡ ¡ probability ¡to ¡observe ¡a ¡ par5cular ¡RNA-‑seq ¡fragment ¡ assuming ¡different ¡transcript ¡ abundances ¡
Trapnell ¡et ¡al. ¡(2010) ¡Nat ¡Biotechnol ¡28: ¡511-‑15 ¡
The ¡importance ¡of ¡biological ¡variability ¡
Var(Expr) ¡= ¡Across-‑group ¡variability ¡+ ¡Measurement ¡error ¡+ ¡Biological ¡variability ¡ differences ¡between ¡tumor ¡samples ¡ and ¡matched ¡healthy ¡controls ¡ true ¡expression ¡values ¡vary ¡ between ¡individuals ¡ (stochas5c ¡process) ¡
- eg. ¡laboratory ¡or ¡
batch ¡effects ¡
Hansen ¡et ¡al. ¡(2011) ¡Nat ¡Biotechnol ¡29: ¡572-‑3. ¡
Over-‑predic8on ¡of ¡differen8ally ¡ abundant ¡transcripts ¡ High ¡false-‑posi8ve ¡rates ¡
DEXSeq ¡
R/Bioconductor ¡package ¡ ¡ Detec5on ¡of ¡alterna5ve ¡spliced ¡exons ¡using ¡GLMs ¡modelling ¡gene-‑level ¡ and ¡exon-‑level ¡effects, ¡taking ¡into ¡account ¡biological ¡varia5on ¡
Anders ¡et ¡al. ¡(2012) ¡ Genome ¡Res ¡22: ¡2008-‑17. ¡
Cuffdiff ¡2 ¡
addresses ¡count ¡uncertainty ¡and ¡count ¡overdispersion ¡ ¡ used ¡to ¡accurately ¡iden5fy ¡GENE ¡expression ¡changes ¡ ¡ ¡
Trapnell ¡et ¡al. ¡(2013) ¡Nat ¡Biotechnol ¡31: ¡46-‑53. ¡
VALIDATION ¡
Valida5on ¡
- 1. ¡Using ¡quan5ta5ve ¡RT-‑PCR ¡(qRT-‑PCR) ¡to ¡measure ¡inclusion ¡
- f ¡individual ¡exons ¡
MISO: ¡ ¡52 ¡exons ¡tested ¡ Pearson ¡correla5on ¡r=0.87 ¡
Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡1009-‑15. ¡
Valida5on ¡
- 2. ¡Comparison ¡with ¡splicing ¡microarrays ¡
Cuffdiff ¡2: ¡ ¡microarray ¡analysis ¡of ¡HOXA1 ¡KD ¡ Spearman ¡correla5on ¡0.86 ¡
Trapnell ¡et ¡al. ¡(2013) ¡Nat ¡Biotechnol ¡31: ¡46-‑53. ¡
Valida5on ¡
- 3. ¡Addi5onal ¡func5onal ¡data, ¡eg. ¡associa5on ¡of ¡observed ¡
changes ¡with ¡known ¡regulators ¡
MISO: ¡ ¡CLIP-‑seq ¡to ¡map ¡transcriptome-‑wide ¡ binding ¡of ¡the ¡RNA-‑binding ¡protein ¡hnRNP ¡H1 ¡
Katz ¡et ¡al. ¡(2010) ¡Nat ¡Methods ¡7: ¡1009-‑15. ¡
APPLICATIONS ¡
Regulatory ¡RNAmaps ¡
many ¡regulatory ¡RNA-‑binding ¡proteins ¡(RBPs) ¡can ¡have ¡both ¡ac5vate ¡ and ¡repress ¡the ¡inclusion ¡of ¡an ¡alterna5ve ¡exon ¡ ¡ genome-‑wide ¡RNAmaps ¡revealed ¡how ¡the ¡posi5on ¡of ¡RBP ¡binding ¡ can ¡determine ¡the ¡splicing ¡outcome ¡
Ule ¡et ¡al. ¡(2006) ¡Nature ¡444: ¡580-‑6; ¡Licalatosi ¡et ¡al. ¡(2008) ¡Nature ¡456: ¡464-‑9. ¡
Deciphering ¡the ¡splicing ¡code ¡
Barash ¡et ¡al. ¡(2013) ¡Nature ¡465: ¡53-‑9. ¡
Deciphering ¡the ¡splicing ¡code ¡
Barash ¡et ¡al. ¡(2013) ¡Nature ¡465: ¡53-‑9. ¡
Evolu5onary ¡studies ¡
The Evolutionary Landscape
- f Alternative Splicing in
Vertebrate Species
Nuno L. Barbosa-Morais,1,2 Manuel Irimia,1* Qun Pan,1* Hui Y. Xiong,3* Serge Gueroussov,1,4* Leo J. Lee,3 Valentina Slobodeniuc,1 Claudia Kutter,5 Stephen Watt,5 Recep Ç
- lak,1,6
TaeHyung Kim,1,7 Christine M. Misquitta-Ali,1 Michael D. Wilson,4,5,7 Philip M. Kim,1,4,6 Duncan T. Odom,5,8 Brendan J. Frey,1,3 Benjamin J. Blencowe1,4† How species with similar repertoires of protein-coding genes differ so markedly at the phenotypic level is poorly understood. By comparing organ transcriptomes from vertebrate species spanning ~350 million years of evolution, we observed significant differences in alternative splicing complexity between vertebrate lineages, with the highest complexity in primates. Within 6 million years, the splicing profiles of physiologically equivalent organs diverged such that they are more strongly related to the identity of a species than they are to organ type. Most vertebrate species-specific splicing patterns are cis-directed. However, a subset of pronounced splicing changes are predicted to remodel protein interactions involving trans-acting regulators. These events likely further contributed to the diversification of splicing and other transcriptomic changes that underlie phenotypic differences among vertebrate species.
Evolutionary Dynamics of Gene and Isoform Regulation in Mammalian Tissues
Jason Merkin,1 Caitlin Russell,1 Ping Chen,1,3 Christopher B. Burge1,2* Most mammalian genes produce multiple distinct messenger RNAs through alternative splicing, but the extent of splicing conservation is not clear. To assess tissue-specific transcriptome variation across mammals, we sequenced complementary DNA from nine tissues from four mammals and
- ne bird in biological triplicate, at unprecedented depth. We find that while tissue-specific gene
expression programs are largely conserved, alternative splicing is well conserved in only a subset of tissues and is frequently lineage-specific. Thousands of previously unknown, lineage-specific, and conserved alternative exons were identified; widely conserved alternative exons had signatures
- f binding by MBNL, PTB, RBFOX, STAR, and TIA family splicing factors, implicating them as
ancestral mammalian splicing regulators. Our data also indicate that alternative splicing often alters protein phosphorylatability, delimiting the scope of kinase signaling.
A
Evolu5onary ¡studies ¡
A B
Evolu5onary ¡studies ¡
B
The ¡suppression ¡of ¡cryp5c ¡exons ¡
Zarnack ¡et ¡al. ¡(2013) ¡Cell ¡152: ¡453-‑66. ¡
Conclusions ¡
- High-‑throughput ¡sequencing-‑based ¡technologies ¡have ¡
revolu5onized ¡our ¡global ¡view ¡of ¡alterna5ve ¡splicing ¡
- Data ¡analyses ¡is ¡challenging ¡
- Several ¡tools ¡have ¡been ¡developed ¡and ¡successfully ¡applied ¡to ¡
address ¡major ¡ques5ons ¡in ¡AS ¡regula5on ¡and ¡func5on ¡
- However, ¡there ¡are ¡s5ll ¡a ¡number ¡of ¡pisalls ¡
- Future ¡developments, ¡both ¡on ¡the ¡level ¡of ¡computa5onal ¡