gene set analysis and data integra on
play

Gene-set analysis and data integra/on Leif Leif Vremo mo - PowerPoint PPT Presentation

Gene-set analysis and data integra/on Leif Leif Vremo mo leif.varemo@scilifelab.se Bioinforma6cs Long-term Support (WABI) Systems Biology Facility @ Chalmers Outline Gene-set


  1. Gene-­‑set ¡analysis ¡and ¡data ¡integra/on ¡ Leif ¡ Leif ¡Väremo mo leif.varemo@scilifelab.se Bioinforma6cs ¡Long-­‑term ¡Support ¡(WABI) Systems ¡Biology ¡Facility ¡@ ¡Chalmers

  2. Outline ¡ • Gene-­‑set ¡analysis ¡-­‑ ¡What ¡and ¡why? ¡ • Gene-­‑set ¡collec3ons ¡ • Methods ¡for ¡GSA ¡ • Gene-­‑set ¡direc3onality, ¡overlap/interac3ons, ¡biases ¡ • Things ¡to ¡consider ¡ Will try to be practical, without getting to the detail of code-level 2

  3. What ¡is ¡gene-­‑set ¡analysis ¡(GSA)? ¡ Samples Immune ¡response Genes Pyruvate PPARG GO-­‑terms Gene-­‑s Gen e-­‑set ¡ ¡analy analysis sis Pathways Gene-­‑level ¡data Gene-­‑set ¡data ¡(results) Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen3al ¡expression ¡analysis ¡ Diseases However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-­‑wide ¡data. ¡ etc… 3

  4. Many ¡names ¡for ¡gene-­‑set ¡analysis ¡(GSA) ¡ • Func3onal ¡annota3on ¡ • Pathway ¡analysis ¡ • Gene-­‑set ¡enrichment ¡analysis ¡ • GO-­‑term ¡analysis ¡ • Gene ¡list ¡enrichment ¡analysis ¡ • … ¡ 4

  5. Examples ¡ 5 Images sources: Garg et al. Sci Rep 5 (2015); Gutteridge et al. PLoS ONE 8 (2013); Han et al. BMC Genomics 15 (2014)

  6. Why ¡gene-­‑set ¡analysis ¡(GSA)? ¡ • Interpreta3on ¡of ¡genome-­‑wide ¡results ¡ • Gene-­‑sets ¡are ¡(typically) ¡fewer ¡than ¡all ¡the ¡genes ¡and ¡have ¡ more ¡descrip3ve ¡names ¡ • Difficult ¡to ¡manage ¡a ¡long ¡list ¡of ¡significant ¡genes ¡ • Integrates ¡external ¡informa3on ¡into ¡the ¡analysis ¡ • Less ¡prone ¡to ¡false-­‑posi3ves ¡on ¡the ¡gene-­‑level ¡ • Top ¡genes ¡might ¡not ¡be ¡the ¡interes3ng ¡ones, ¡several ¡ coordinated ¡smaller ¡changes ¡ • Detect ¡paQerns ¡that ¡would ¡be ¡difficult ¡to ¡discern ¡simply ¡by ¡ manually ¡going ¡through ¡e.g. ¡the ¡list ¡of ¡differen3ally ¡expressed ¡ genes ¡ 6

  7. Gene-­‑sets ¡ 7

  8. So ¡what ¡about ¡gene-­‑sets? ¡ • Depends ¡on ¡the ¡research ¡ques3on ¡ • Several ¡databases/resources ¡available ¡providing ¡gene-­‑set ¡ collec3ons ¡(e.g. ¡MSigDB, ¡Enrichr) ¡ • GO-­‑terms ¡are ¡probably ¡one ¡of ¡the ¡most ¡widely ¡used ¡gene-­‑sets ¡ GO-­‑terms Pathways Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons Diseases Metabolites etc… 8

  9. Gene-­‑set ¡example: ¡ ¡ Gene ¡ontology ¡(GO) ¡terms ¡ • Hierarchical graph with three categories (or parents): Biological process, Molecular function, Cellular compartment • Terms get more and more detailed moving down the hierarchy • Genes can belong to multiple GO terms 9

  10. Gene-­‑set ¡example: ¡ ¡ Metabolic ¡pathways ¡or ¡metabolites ¡ 10

  11. Gene-­‑set ¡example: ¡ ¡ Transcrip/on ¡factor ¡targets ¡ 11

  12. Gene-­‑set ¡example: ¡Hallmark ¡gene-­‑sets ¡ “Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate expression. The hallmarks reduce noise and redundancy and provide a better delineated biological space for GSEA.” http://software.broadinstitute.org/gsea/msigdb/collections.jsp Liberzon et al. (2015) Cell Systems 1:417-425 12

  13. Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡ http://software.broadinstitute.org/gsea/msigdb/index.jsp http://amp.pharm.mssm.edu/Enrichr/#stats 13

  14. Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡ • Sooner ¡or ¡later ¡you ¡will ¡run ¡into ¡the ¡problem ¡of ¡matching ¡your ¡ data ¡to ¡gene-­‑set ¡collec3ons ¡due ¡to ¡the ¡existence ¡of ¡several ¡ gene ¡ID ¡types ¡ 14

  15. Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡ http://www.ensembl.org/biomart/martview One way to map different gene IDs to each other, or to assemble a gene-set collection with the gene IDs used by your data See also: https://david.ncifcrf.gov/content.jsp?file=conversion.html 15

  16. Gene-­‑set ¡analysis ¡tools ¡and ¡methods ¡ 16

  17. Tools ¡and ¡methods ¡for ¡GSA ¡ OmicsTools (several platforms) Bioconductor (R packages) http://omictools.com/gene-set-analysis-category https://bioconductor.org/packages/release/BiocViews.html#___GeneSetEnrichment • Hypergeometric test / Fisher’s exact test (a.k.a overrepresentation analysis) • DAVID (browser) • Enrichr (browser) • GSEA (Java, R) • piano (R) 17

  18. Overrepresenta/on ¡analysis ¡ Is this overlap Hypergeometric test Selected Not selected bigger than (Fisher’s exact test) In GO-term 8 2 expected by Not in GO-term random 92 19768 chance? All genes (universe) GO:000237 GO:002736 Selected list of GO:003478 genes GO:009835 18

  19. Overrepresenta/on ¡analysis ¡ http://amp.pharm.mssm.edu/Enrichr/ https://david.ncifcrf.gov/home.jsp 19

  20. Overrepresenta/on ¡analysis ¡ Requires ¡a ¡cutoff ¡(arbitrary) ¡ • Omits ¡the ¡actual ¡values ¡of ¡the ¡gene-­‑level ¡sta3s3cs ¡ • Good ¡for ¡e.g. ¡overlap ¡of ¡significant ¡genes ¡in ¡two ¡comparisons ¡ • Computa3onally ¡fast ¡ • In ¡general, ¡it ¡is ¡recommended ¡to ¡use ¡some ¡kind ¡of ¡gene-­‑set ¡analysis. ¡This ¡ • will ¡use ¡all ¡gene-­‑level ¡data ¡and ¡can ¡detect ¡small ¡but ¡coordinate ¡changes ¡that ¡ collec3vely ¡contribute ¡to ¡some ¡biological ¡process ¡ 20

  21. GSA: ¡a ¡simple ¡example ¡ ​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 • S is the gene-set statistic • G are gene-level statistics of the genes in the gene-set ​𝑇↓𝑗 = 𝑛𝑓𝑏𝑜 ( ​𝐻↓𝑗 ) -­‑6 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡ Samples Gene-set 1 ​𝑇↓ 1 =−0.1 Genes ​𝑇↓ 2 =6.2 Gene-set 2 Permute the gene-labels (or sample labels) and redo the calculations over and over again (e.g. 10,000 times)! ​𝑞↓𝑗 = fraction ¡of ¡​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 ¡that ¡is ¡more ¡extreme ¡than ¡​𝑇↓𝑗 21

  22. Gene-­‑level ¡sta/s/cs ¡ p-­‑values ¡ • t-­‑values, ¡etc ¡ • Fold-­‑changes ¡ • Ranks ¡ • Correla3ons ¡ • Signal ¡to ¡noise ¡ra3o ¡ • … ¡ • 22

  23. GSEA ¡ Mootha et al Nature Genetics, 2003; Subramanian PNAS 2005 23

  24. Piano ¡– ¡a ¡plaJorm ¡for ¡GSA ¡(in ¡R) ¡ • Reporter ¡features • Parametric ¡analysis ¡of ¡gene-­‑set ¡enrichment, ¡PAGE • Tail ¡strength ¡ • Wilcoxon ¡rank-­‑sum ¡test Consensus • Gene-­‑set ¡enrichment ¡analysis, ¡GSEA ¡(two ¡implementa6ons) result • Mean • Median • Sum • Maxmean Disclaimer: The author of this presentation is the developer of piano 24

  25. Direc/onality, ¡overlap, ¡interac/on, ¡biases… ¡ 25

  26. Direc/onality ¡of ¡gene-­‑sets ¡ 26 Disclaimer: The author of this presentation is the developer of piano

  27. Gene-­‑set ¡overlap ¡and ¡interac/on ¡ Gene-overlap network Examples of gene-set “interactions” • High number of very overlapping gene-sets (representing a similar biological theme) can bias interpretation and take attention from other biological themes that are represented by fewer gene- sets. • Can be valuable to take gene-set interaction into account 27

  28. Exploi/ng ¡the ¡gene-­‑set ¡interac/on ¡network ¡ Samples Metabolite-reaction-gene relations Enzymes/genes Genes Substrates Gene-sets (metabolites) m m Products m m Reaction 28 Disclaimer: The author of this presentation is the developer of Kiwi

  29. When ¡is ¡GSA ¡biologically ¡meaningful? ¡ “Heavily annotated (“multifunctional”) genes are likely to appear in genomics study results and drive the generation of biologically nonspecific enrichment results as well as highly fragile significances” Uniqueness constraint “To assess uniqueness, we compared the output of each algorithm when given the experimental input hit lists to that of the algorithm when the top 100 multifunctional genes was the input“ Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957 29

  30. When ¡is ¡GSA ¡biologically ¡meaningful? ¡ Robustness constraint “Assessed robustness by removing the 5% of most multi- functional genes from the experimental hit lists” Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957 30

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend