Gene-set analysis and data integra/on Leif Vremo - - PowerPoint PPT Presentation

gene set analysis and data integra on
SMART_READER_LITE
LIVE PREVIEW

Gene-set analysis and data integra/on Leif Vremo - - PowerPoint PPT Presentation

Gene-set analysis and data integra/on Leif Vremo leif.varemo@scilifelab.se Outline Gene-set analysis - What and why? Gene-set


slide-1
SLIDE 1

Gene-­‑set ¡analysis ¡and ¡ ¡ data ¡integra/on ¡

Leif ¡Väremo ¡ ¡ leif.varemo@scilifelab.se ¡

slide-2
SLIDE 2

Outline ¡

Will ¡try ¡to ¡be ¡prac7cal, ¡without ¡ge=ng ¡to ¡the ¡detail ¡of ¡code-­‑level ¡

  • Gene-­‑set ¡analysis ¡-­‑ ¡What ¡and ¡why? ¡
  • Gene-­‑set ¡collec7ons ¡
  • Methods ¡for ¡GSA ¡
  • A ¡few ¡words ¡on ¡gene-­‑set ¡direc7onality ¡and ¡overlap/interac7ons ¡
  • An ¡example ¡
  • Things ¡to ¡consider ¡
slide-3
SLIDE 3

What ¡is ¡gene-­‑set ¡analysis ¡(GSA)? ¡

Immune ¡response Pyruvate

Gene-­‑level ¡data Gene-­‑set ¡data ¡(results)

PPARG

Gen Gene-­‑s e-­‑set ¡ ¡analy analysis sis GO-­‑terms Pathways Chromosomal ¡loca?ons Transcrip?on ¡factors Histone ¡modifica?ons Diseases etc… Samples Genes

We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen7al ¡expression ¡analysis ¡ However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-­‑wide ¡data. ¡

slide-4
SLIDE 4

Many ¡names ¡for ¡gene-­‑set ¡analysis ¡

  • Pathway ¡analysis ¡
  • Gene-­‑set ¡enrichment ¡analysis ¡
  • GO-­‑term ¡analysis ¡
  • Gene ¡list ¡enrichment ¡analysis ¡
  • … ¡
slide-5
SLIDE 5

Why ¡gene-­‑set ¡analysis ¡(GSA)? ¡

  • Interpreta7on ¡of ¡genome-­‑wide ¡results ¡
  • Gene-­‑sets ¡are ¡(typically) ¡fewer ¡than ¡all ¡the ¡genes ¡and ¡have ¡

more ¡descrip7ve ¡names ¡

  • Difficult ¡to ¡manage ¡a ¡long ¡list ¡of ¡significant ¡genes ¡
  • Integrates ¡external ¡informa7on ¡into ¡the ¡analysis ¡
  • Less ¡prone ¡to ¡false-­‑posi7ves ¡on ¡the ¡gene-­‑level ¡
  • Top ¡genes ¡might ¡not ¡be ¡the ¡interes7ng ¡ones, ¡several ¡

coordinated ¡smaller ¡changes ¡

  • Detect ¡paTerns ¡that ¡would ¡be ¡difficult ¡to ¡discern ¡simply ¡by ¡

manually ¡going ¡through ¡e.g. ¡the ¡list ¡of ¡differen7ally ¡expressed ¡ genes ¡

slide-6
SLIDE 6

Gene-­‑sets ¡

slide-7
SLIDE 7

So ¡what ¡about ¡gene-­‑sets? ¡

  • Depends ¡on ¡the ¡research ¡ques7on ¡
  • Several ¡databases/resources ¡available ¡providing ¡gene-­‑set ¡

collec7ons ¡(e.g. ¡MSigDB, ¡Enrichr) ¡

  • GO-­‑terms ¡are ¡probably ¡one ¡of ¡the ¡most ¡widely ¡used ¡gene-­‑sets ¡

GO-­‑terms Pathways Chromosomal ¡loca?ons Transcrip?on ¡factors Histone ¡modifica?ons Diseases Metabolites etc…

slide-8
SLIDE 8

Gene-­‑set ¡example: ¡Gene ¡ontology ¡(GO) ¡terms ¡

  • Hierarchical ¡graph ¡with ¡three ¡categories ¡(or ¡parents): ¡

Biological ¡process, ¡Molecular ¡func7on, ¡Cellular ¡compartment ¡

  • Terms ¡get ¡more ¡and ¡more ¡detailed ¡moving ¡down ¡the ¡hierarchy ¡
  • Genes ¡can ¡belong ¡to ¡mul7ple ¡GO ¡terms ¡
slide-9
SLIDE 9

Gene-­‑set ¡example: ¡Metabolic ¡pathways ¡or ¡metabolites ¡

slide-10
SLIDE 10

Gene-­‑set ¡example: ¡Transcrip/on ¡factor ¡targets ¡

slide-11
SLIDE 11

Gene-­‑set ¡example: ¡Hallmark ¡gene-­‑sets ¡

“Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate

  • expression. The hallmarks reduce noise and redundancy

and provide a better delineated biological space for GSEA.” ¡

Liberzon ¡et ¡al. ¡(2015) ¡Cell ¡Systems ¡1:417-­‑425 ¡ hTp://soaware.broadins7tute.org/gsea/msigdb/collec7ons.jsp ¡

slide-12
SLIDE 12

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

hTp://amp.pharm.mssm.edu/Enrichr/#stats ¡ hTp://soaware.broadins7tute.org/gsea/msigdb/index.jsp ¡

slide-13
SLIDE 13

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

  • Sooner ¡or ¡later ¡you ¡will ¡run ¡into ¡the ¡problem ¡of ¡matching ¡

your ¡data ¡to ¡gene-­‑set ¡collec7ons ¡due ¡to ¡the ¡existence ¡of ¡ several ¡gene ¡ID ¡types ¡

slide-14
SLIDE 14

Where ¡to ¡get ¡gene-­‑set ¡collec/ons? ¡

hTp://www.ensembl.org/biomart/martview ¡

One ¡way ¡to ¡map ¡different ¡gene ¡IDs ¡to ¡each ¡other, ¡or ¡to ¡assemble ¡a ¡gene-­‑set ¡collec7on ¡ with ¡the ¡gene ¡IDs ¡used ¡by ¡your ¡data ¡

slide-15
SLIDE 15

Gene-­‑set ¡analysis ¡

slide-16
SLIDE 16

Tools ¡and ¡methods ¡for ¡GSA ¡

OmicsTools ¡(several ¡pladorms) ¡

hTp://omictools.com/gene-­‑set-­‑analysis-­‑category ¡

Bioconductor ¡(R ¡packages) ¡

hTps://bioconductor.org/packages/release/BiocViews.html#___GeneSetEnrichment ¡

  • Hypergeometric ¡test ¡/ ¡Fisher’s ¡exact ¡test ¡

(a.k.a ¡overrepresenta7on ¡analysis) ¡

  • DAVID ¡(browser) ¡
  • Enrichr ¡(browser) ¡
  • GSEA ¡(Java, ¡R) ¡
  • Piano ¡(R) ¡
slide-17
SLIDE 17

Overrepresenta/on ¡analysis ¡

All ¡genes ¡(universe) ¡ Selected ¡ list ¡of ¡ genes ¡ GO:003478 ¡ GO:000237 ¡ GO:002736 ¡ GO:009835 ¡ Is ¡this ¡overlap ¡ bigger ¡than ¡ expected ¡by ¡ random ¡chance? ¡ 8 ¡ 2 ¡ 92 ¡ 19768 ¡ Selected ¡ ¡ ¡ ¡ ¡ ¡ ¡Not ¡selected ¡ In ¡GO-­‑term ¡

¡

Not ¡in ¡GO-­‑term ¡ Hypergeometric ¡test ¡ (Fisher’s ¡exact ¡test) ¡

slide-18
SLIDE 18

Overrepresenta/on ¡analysis ¡

hTps://david.ncifcrf.gov/home.jsp ¡ hTp://amp.pharm.mssm.edu/Enrichr/ ¡

slide-19
SLIDE 19
  • Requires ¡a ¡cutoff ¡(arbitrary) ¡
  • Omits ¡the ¡actual ¡values ¡of ¡the ¡gene-­‑level ¡sta7s7cs ¡
  • Good ¡for ¡e.g. ¡overlap ¡of ¡significant ¡genes ¡in ¡two ¡

comparisons ¡

  • Computa7onally ¡fast ¡
  • In ¡general, ¡it ¡is ¡recommended ¡to ¡use ¡some ¡kind ¡of ¡

gene-­‑set ¡analysis. ¡This ¡will ¡use ¡all ¡gene-­‑level ¡data ¡ and ¡can ¡detect ¡small ¡but ¡coordinate ¡changes ¡that ¡ collec7vely ¡contribute ¡to ¡some ¡biological ¡process ¡ Overrepresenta/on ¡analysis ¡

slide-20
SLIDE 20

GSA: ¡a ¡simple ¡example ¡

Samples Genes

Gene-­‑set ¡1 ¡ Gene-­‑set ¡2 ¡ ​𝑇↓𝑗 =𝑛𝑓𝑏𝑜(​𝐻↓𝑗 ) ¡

  • S ¡is ¡the ¡gene-­‑set ¡sta7s7c ¡
  • G ¡are ¡gene-­‑level ¡sta7s7cs ¡of ¡the ¡genes ¡in ¡the ¡gene-­‑set ¡

​𝑇↓1 =−0.1 ¡ ​𝑇↓2 =6.2 ¡ Permute ¡the ¡gene-­‑labels ¡(or ¡sample ¡labels) ¡and ¡redo ¡the ¡ calcula7ons ¡over ¡and ¡over ¡again ¡(e.g. ¡10,000 ¡7mes)! ¡ ​𝑞↓𝑗 =fraction ¡of ¡​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 ¡that ¡is ¡more ¡extreme ¡than ¡​𝑇↓𝑗 ¡ ​𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 ¡

  • ­‑6 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡
slide-21
SLIDE 21

Gene-­‑level ¡sta/s/cs ¡

  • P-­‑values ¡
  • T-­‑values, ¡etc ¡
  • Fold-­‑changes ¡
  • Correla7ons ¡
  • Signal ¡to ¡noise ¡ra7o ¡
  • … ¡
slide-22
SLIDE 22

GSEA ¡

Mootha ¡et ¡al ¡Nature ¡Gene7cs, ¡2003; ¡Subramanian ¡PNAS ¡2005 ¡ ¡

slide-23
SLIDE 23

Piano ¡– ¡a ¡plaJorm ¡for ¡gene-­‑set ¡analysis ¡(in ¡R) ¡

  • Reporter ¡features
  • Parametric ¡analysis ¡of ¡gene-­‑set ¡enrichment, ¡PAGE
  • Tail ¡strength ¡
  • Wilcoxon ¡rank-­‑sum ¡test
  • Gene-­‑set ¡enrichment ¡analysis, ¡GSEA ¡
  • Mean
  • Median
  • Sum
  • Maxmean

Consensus result

Disclaimer: ¡The ¡author ¡of ¡this ¡presenta7on ¡is ¡the ¡developer ¡of ¡piano ¡

slide-24
SLIDE 24

Direc/onality ¡of ¡gene-­‑sets ¡

Disclaimer: ¡The ¡author ¡of ¡this ¡presenta7on ¡is ¡the ¡developer ¡of ¡piano ¡

slide-25
SLIDE 25

Gene-­‑set ¡overlap ¡and ¡interac/on ¡

Gene-­‑overlap ¡network ¡ Examples ¡of ¡gene-­‑set ¡“interac7ons” ¡

  • High ¡number ¡of ¡very ¡overlapping ¡gene-­‑sets ¡(represen7ng ¡a ¡similar ¡

biological ¡theme) ¡can ¡bias ¡interpreta7on ¡and ¡take ¡aTen7on ¡from ¡other ¡ biological ¡themes ¡that ¡are ¡represented ¡by ¡fewer ¡gene-­‑sets. ¡

  • Can ¡be ¡valuable ¡to ¡take ¡gene-­‑set ¡interac7on ¡into ¡account ¡
slide-26
SLIDE 26

Metabolite-reaction-gene relations

Reaction Enzymes/genes Products Substrates

m m m m

Gene-sets (metabolites)

Samples Genes

Exploi/ng ¡the ¡gene-­‑set ¡interac/on ¡network ¡

Disclaimer: ¡The ¡author ¡of ¡this ¡presenta7on ¡is ¡the ¡developer ¡of ¡Kiwi ¡

slide-27
SLIDE 27

Example ¡

Using ¡GSA ¡of ¡histone ¡ modifica7on ¡gene-­‑sets ¡to ¡ pinpoint ¡a ¡candidate ¡ epigene7c ¡mechanism ¡ behind ¡observed ¡ transcrip7onal ¡changes. ¡

slide-28
SLIDE 28

Considera/ons ¡when ¡performing ¡GSA ¡

  • Bias ¡in ¡gene-­‑set ¡collec7ons ¡
  • Gene-­‑set ¡names ¡can ¡be ¡misleading ¡(revisit ¡the ¡genes!) ¡
  • Consider ¡the ¡gene-­‑set ¡size, ¡i.e. ¡number ¡of ¡genes ¡(specific ¡or ¡general) ¡
  • Posi7ve ¡and ¡nega7ve ¡associa7on ¡between ¡genes ¡and ¡gene-­‑sets ¡makes ¡gene-­‑level ¡

fold-­‑changes ¡tricky ¡to ¡interpret ¡correctly ¡

  • (Typically) ¡binary ¡associa7on ¡to ¡gene-­‑sets, ¡does ¡not ¡take ¡into ¡account ¡varying ¡levels ¡
  • f ¡influence ¡from ¡individual ¡genes ¡on ¡the ¡process ¡that ¡is ¡represented ¡by ¡the ¡gene-­‑

sets ¡

  • Remember ¡to ¡revisit ¡the ¡gene-­‑level ¡data! ¡In ¡par7cular ¡if ¡a ¡permuta7on ¡based ¡

approach ¡is ¡used ¡for ¡gene-­‑set ¡significance ¡calcula7on. ¡Are ¡the ¡genes ¡significant? ¡Are ¡ they ¡correctly ¡assigned ¡to ¡the ¡specific ¡gene-­‑set? ¡

  • Remember ¡to ¡adjust ¡for ¡mul7ple ¡tes7ng ¡