Gene-set analysis and data integra/on Leif Leif Vremo mo - - PowerPoint PPT Presentation

gene set analysis and data integra on
SMART_READER_LITE
LIVE PREVIEW

Gene-set analysis and data integra/on Leif Leif Vremo mo - - PowerPoint PPT Presentation

Gene-set analysis and data integra/on Leif Leif Vremo mo leif.varemo@scilifelab.se Bioinforma6cs Long-term Support (WABI) Systems Biology Facility @ Chalmers Outline Gene-set


slide-1
SLIDE 1

Leif ¡ Leif ¡Väremo mo

leif.varemo@scilifelab.se

Bioinforma6cs ¡Long-­‑term ¡Support ¡(WABI) Systems ¡Biology ¡Facility ¡@ ¡Chalmers

Gene-­‑set ¡analysis ¡and ¡data ¡integra/on ¡

slide-2
SLIDE 2

Outline ¡

Will try to be practical, without getting to the detail of code-level

  • Gene-­‑set ¡analysis ¡-­‑ ¡What ¡and ¡why? ¡
  • Gene-­‑set ¡collec3ons ¡
  • Methods ¡for ¡GSA ¡
  • Gene-­‑set ¡direc3onality, ¡overlap/interac3ons, ¡biases ¡
  • Things ¡to ¡consider ¡

2

slide-3
SLIDE 3

What ¡is ¡gene-­‑set ¡analysis ¡(GSA)? ¡

Immune ¡response Pyruvate

Gene-­‑level ¡data Gene-­‑set ¡data ¡(results)

PPARG

Gen Gene-­‑s e-­‑set ¡ ¡analy analysis sis GO-­‑terms Pathways Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons Diseases etc… Samples Genes

We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen3al ¡expression ¡analysis ¡ However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-­‑wide ¡data. ¡

3

slide-4
SLIDE 4

Many ¡names ¡for ¡gene-­‑set ¡analysis ¡(GSA) ¡

  • Func3onal ¡annota3on ¡
  • Pathway ¡analysis ¡
  • Gene-­‑set ¡enrichment ¡analysis ¡
  • GO-­‑term ¡analysis ¡
  • Gene ¡list ¡enrichment ¡analysis ¡
  • … ¡

4

slide-5
SLIDE 5

Examples ¡

5

Images sources: Garg et al. Sci Rep 5 (2015); Gutteridge et al. PLoS ONE 8 (2013); Han et al. BMC Genomics 15 (2014)

slide-6
SLIDE 6

Why ¡gene-­‑set ¡analysis ¡(GSA)? ¡

  • Interpreta3on ¡of ¡genome-­‑wide ¡results ¡
  • Gene-­‑sets ¡are ¡(typically) ¡fewer ¡than ¡all ¡the ¡genes ¡and ¡have ¡

more ¡descrip3ve ¡names ¡

  • Difficult ¡to ¡manage ¡a ¡long ¡list ¡of ¡significant ¡genes ¡
  • Integrates ¡external ¡informa3on ¡into ¡the ¡analysis ¡
  • Less ¡prone ¡to ¡false-­‑posi3ves ¡on ¡the ¡gene-­‑level ¡
  • Top ¡genes ¡might ¡not ¡be ¡the ¡interes3ng ¡ones, ¡several ¡

coordinated ¡smaller ¡changes ¡

  • Detect ¡paQerns ¡that ¡would ¡be ¡difficult ¡to ¡discern ¡simply ¡by ¡

manually ¡going ¡through ¡e.g. ¡the ¡list ¡of ¡differen3ally ¡expressed ¡ genes ¡

6

slide-7
SLIDE 7

Gene-­‑sets ¡

7

slide-8
SLIDE 8

So ¡what ¡about ¡gene-­‑sets? ¡

  • Depends ¡on ¡the ¡research ¡ques3on ¡
  • Several ¡databases/resources ¡available ¡providing ¡gene-­‑set ¡

collec3ons ¡(e.g. ¡MSigDB, ¡Enrichr) ¡

  • GO-­‑terms ¡are ¡probably ¡one ¡of ¡the ¡most ¡widely ¡used ¡gene-­‑sets ¡

GO-­‑terms Pathways Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons Diseases Metabolites etc…

8

slide-9
SLIDE 9

Gene-­‑set ¡example: ¡ ¡ Gene ¡ontology ¡(GO) ¡terms ¡

  • Hierarchical graph with three categories (or parents):

Biological process, Molecular function, Cellular compartment

  • Terms get more and more detailed moving down the hierarchy
  • Genes can belong to multiple GO terms

9

slide-10
SLIDE 10

Gene-­‑set ¡example: ¡ ¡ Metabolic ¡pathways ¡or ¡metabolites ¡

10

slide-11
SLIDE 11

Gene-­‑set ¡example: ¡ ¡ Transcrip/on ¡factor ¡targets ¡

11

slide-12
SLIDE 12

Gene-­‑set ¡example: ¡Hallmark ¡gene-­‑sets ¡

“Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate

  • expression. The hallmarks reduce noise and redundancy

and provide a better delineated biological space for GSEA.”

Liberzon et al. (2015) Cell Systems 1:417-425 http://software.broadinstitute.org/gsea/msigdb/collections.jsp

12

slide-13
SLIDE 13

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

http://amp.pharm.mssm.edu/Enrichr/#stats http://software.broadinstitute.org/gsea/msigdb/index.jsp

13

slide-14
SLIDE 14

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

  • Sooner ¡or ¡later ¡you ¡will ¡run ¡into ¡the ¡problem ¡of ¡matching ¡your ¡

data ¡to ¡gene-­‑set ¡collec3ons ¡due ¡to ¡the ¡existence ¡of ¡several ¡ gene ¡ID ¡types ¡

14

slide-15
SLIDE 15

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

http://www.ensembl.org/biomart/martview

One way to map different gene IDs to each other, or to assemble a gene-set collection with the gene IDs used by your data

See also: https://david.ncifcrf.gov/content.jsp?file=conversion.html

15

slide-16
SLIDE 16

Gene-­‑set ¡analysis ¡tools ¡and ¡methods ¡

16

slide-17
SLIDE 17

Tools ¡and ¡methods ¡for ¡GSA ¡

OmicsTools (several platforms)

http://omictools.com/gene-set-analysis-category

Bioconductor (R packages)

https://bioconductor.org/packages/release/BiocViews.html#___GeneSetEnrichment

  • Hypergeometric test / Fisher’s exact test

(a.k.a overrepresentation analysis)

  • DAVID (browser)
  • Enrichr (browser)
  • GSEA (Java, R)
  • piano (R)

17

slide-18
SLIDE 18

Overrepresenta/on ¡analysis ¡

All genes (universe) Selected list of genes GO:003478 GO:000237 GO:002736 GO:009835 Is this overlap bigger than expected by random chance? 8 2 92 19768 Selected Not selected In GO-term Not in GO-term Hypergeometric test (Fisher’s exact test)

18

slide-19
SLIDE 19

Overrepresenta/on ¡analysis ¡

https://david.ncifcrf.gov/home.jsp http://amp.pharm.mssm.edu/Enrichr/

19

slide-20
SLIDE 20

Overrepresenta/on ¡analysis ¡

  • Requires ¡a ¡cutoff ¡(arbitrary) ¡
  • Omits ¡the ¡actual ¡values ¡of ¡the ¡gene-­‑level ¡sta3s3cs ¡
  • Good ¡for ¡e.g. ¡overlap ¡of ¡significant ¡genes ¡in ¡two ¡comparisons ¡
  • Computa3onally ¡fast ¡
  • In ¡general, ¡it ¡is ¡recommended ¡to ¡use ¡some ¡kind ¡of ¡gene-­‑set ¡analysis. ¡This ¡

will ¡use ¡all ¡gene-­‑level ¡data ¡and ¡can ¡detect ¡small ¡but ¡coordinate ¡changes ¡that ¡ collec3vely ¡contribute ¡to ¡some ¡biological ¡process ¡

20

slide-21
SLIDE 21

GSA: ¡a ¡simple ¡example ¡

Samples Genes

Gene-set 1 Gene-set 2

​𝑇↓𝑗 =𝑛𝑓𝑏𝑜(​𝐻↓𝑗 )

  • S is the gene-set statistic
  • G are gene-level statistics of the genes in the gene-set

​𝑇↓1 =−0.1 ​𝑇↓2 =6.2

Permute the gene-labels (or sample labels) and redo the calculations over and over again (e.g. 10,000 times)!

​𝑞↓𝑗 =fraction ¡of ¡​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 ¡that ¡is ¡more ¡extreme ¡than ¡​𝑇↓𝑗 ​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒

  • ­‑6 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡

21

slide-22
SLIDE 22

Gene-­‑level ¡sta/s/cs ¡

  • p-­‑values ¡
  • t-­‑values, ¡etc ¡
  • Fold-­‑changes ¡
  • Ranks ¡
  • Correla3ons ¡
  • Signal ¡to ¡noise ¡ra3o ¡
  • … ¡

22

slide-23
SLIDE 23

GSEA ¡

Mootha et al Nature Genetics, 2003; Subramanian PNAS 2005

23

slide-24
SLIDE 24

Piano ¡– ¡a ¡plaJorm ¡for ¡GSA ¡(in ¡R) ¡

  • Reporter ¡features
  • Parametric ¡analysis ¡of ¡gene-­‑set ¡enrichment, ¡PAGE
  • Tail ¡strength ¡
  • Wilcoxon ¡rank-­‑sum ¡test
  • Gene-­‑set ¡enrichment ¡analysis, ¡GSEA ¡(two ¡implementa6ons)
  • Mean
  • Median
  • Sum
  • Maxmean

Consensus result

Disclaimer: The author of this presentation is the developer of piano 24

slide-25
SLIDE 25

Direc/onality, ¡overlap, ¡interac/on, ¡biases… ¡

25

slide-26
SLIDE 26

Direc/onality ¡of ¡gene-­‑sets ¡

Disclaimer: The author of this presentation is the developer of piano 26

slide-27
SLIDE 27

Gene-­‑set ¡overlap ¡and ¡interac/on ¡

Gene-overlap network Examples of gene-set “interactions”

  • High number of very overlapping gene-sets (representing a

similar biological theme) can bias interpretation and take attention from other biological themes that are represented by fewer gene- sets.

  • Can be valuable to take gene-set interaction into account

27

slide-28
SLIDE 28

Metabolite-reaction-gene relations

Reaction Enzymes/genes Products Substrates

m m m m

Gene-sets (metabolites)

Samples Genes

Exploi/ng ¡the ¡gene-­‑set ¡interac/on ¡network ¡

Disclaimer: The author of this presentation is the developer of Kiwi 28

slide-29
SLIDE 29

When ¡is ¡GSA ¡biologically ¡meaningful? ¡

29

“Heavily annotated (“multifunctional”) genes are likely to appear in genomics study results and drive the generation of biologically nonspecific enrichment results as well as highly fragile significances”

Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957

Uniqueness constraint “To assess uniqueness, we compared the output of each algorithm when given the experimental input hit lists to that of the algorithm when the top 100 multifunctional genes was the input“

slide-30
SLIDE 30

30

When ¡is ¡GSA ¡biologically ¡meaningful? ¡

Robustness constraint “Assessed robustness by removing the 5%

  • f most multi-

functional genes from the experimental hit lists”

Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957

slide-31
SLIDE 31

Considera/ons ¡when ¡performing ¡GSA ¡

  • Bias ¡in ¡gene-­‑set ¡collec3ons ¡(popular ¡domains, ¡mul3func3onal ¡genes, ¡… ¡) ¡
  • Gene-­‑set ¡names ¡can ¡be ¡misleading ¡(revisit ¡the ¡genes!) ¡
  • Consider ¡the ¡gene-­‑set ¡size, ¡i.e. ¡number ¡of ¡genes ¡(specific ¡or ¡general) ¡
  • Posi3ve ¡and ¡nega3ve ¡associa3on ¡between ¡genes ¡and ¡gene-­‑sets ¡makes ¡gene-­‑

level ¡fold-­‑changes ¡tricky ¡to ¡interpret ¡correctly ¡

  • (Typically) ¡binary ¡associa3on ¡to ¡gene-­‑sets, ¡does ¡not ¡take ¡into ¡account ¡

varying ¡levels ¡of ¡influence ¡from ¡individual ¡genes ¡on ¡the ¡process ¡that ¡is ¡ represented ¡by ¡the ¡gene-­‑sets ¡

  • Remember ¡to ¡revisit ¡the ¡gene-­‑level ¡data! ¡In ¡par3cular ¡if ¡a ¡permuta3on ¡

based ¡approach ¡is ¡used ¡for ¡gene-­‑set ¡significance ¡calcula3on. ¡Are ¡the ¡genes ¡ significant? ¡Are ¡they ¡correctly ¡assigned ¡to ¡the ¡specific ¡gene-­‑set? ¡

  • Remember ¡to ¡adjust ¡for ¡mul3ple ¡tes3ng ¡

Gene-­‑set ¡analysis ¡is ¡a ¡very ¡efficient ¡and ¡useful ¡tool ¡to ¡interpret ¡your ¡ genome-­‑wide ¡data! ¡Just ¡remember ¡to ¡cri/cally ¡evaluate ¡the ¡results ¡J J ¡

31