Structured Association 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

structured association
SMART_READER_LITE
LIVE PREVIEW

Structured Association 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

Structured Association 02-715 Advanced Topics in Computa8onal Genomics Structured Association Gflasso (Kim & Xing, 2009)


slide-1
SLIDE 1

Structured Association

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Gflasso ¡(Kim ¡& ¡Xing, ¡2009) ¡

ACGTTTTACTGTACAATT ¡ ACGTTTTACTGTACAATT ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡

Structured Association

  • ¡Greater ¡power ¡
  • ¡Fewer ¡false ¡posi2ves ¡
  • ¡Phenome ¡associa2ons ¡
slide-3
SLIDE 3

¡ ¡ ¡Network-­‑constrained ¡regulariza8on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Li ¡& ¡Li, ¡2008) ¡

ACGTTTTACTGTACAATT ¡

Structured Association

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡

ACGTTTTACTGTACAATT ¡

slide-4
SLIDE 4

Regression with Regularization

  • Fused ¡lasso ¡(Tibshirani ¡et ¡al., ¡2004) ¡
slide-5
SLIDE 5

Regression with Regularization (Fused Lasso)

Standard ¡ regression ¡ Fusion ¡penalty ¡

  • nly ¡

Fused ¡lasso ¡ lasso ¡

  • Black ¡line: ¡true ¡values ¡
  • Red ¡line: ¡es8mated ¡values ¡
slide-6
SLIDE 6

Genotype ¡

x ¡ = ¡

2.1 ¡ ¡

Trait ¡

Lasso for Reducing False Positives

(Tibshirani, 1996)

Many ¡zero ¡associa8ons ¡(sparse ¡results), ¡but ¡ what ¡if ¡there ¡are ¡mul8ple ¡related ¡traits? ¡

+ ¡ | βj |

T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡

Lasso ¡Penalty ¡ ¡ ¡ ¡ for ¡ ¡sparsity ¡

Associa8on ¡Strength ¡

argmin (y – Xβ) (y – Xβ)

β

slide-7
SLIDE 7

Genotype ¡

(3.4, ¡1.5, ¡2.1, ¡0.9, ¡1.8) ¡ ¡

Trait ¡

Multivariate Regression for Multiple-Trait Association Analysis

T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡

Allergy ¡ Lung ¡ physiology ¡

Associa8on ¡Strength ¡

x ¡ = ¡ + ¡ We ¡introduce ¡ ¡

graph-­‑guided ¡fusion ¡penalty ¡

argmin (y – Xβ) (y – Xβ)

β

+ ¡ | βj |

Associa8on ¡strength ¡ ¡ ¡ between ¡ ¡ SNP ¡j and ¡Trait k: βjk

slide-8
SLIDE 8

Multiple-trait Association: Graph-Constrained Fused Lasso

Step ¡1: ¡Thresholded ¡correla8on ¡graph ¡

  • f ¡phenotypes ¡

ACGTTTTACTGTACAATT ¡ Step ¡2: ¡Graph-­‑constrained ¡fused ¡lasso ¡

Lasso ¡ Penalty ¡

Graph-­‑constrained ¡fusion ¡ penalty ¡

Fusion ¡

slide-9
SLIDE 9

Fusion Penalty

  • Fusion Penalty: | βjk - βjm |
  • For two correlated traits (connected in the network), the

association strengths may have similar values. ACGTTTTACTGTACAATT ¡

SNP ¡j Trait ¡m Trait ¡k

Associa8on ¡strength ¡ ¡ ¡between ¡ SNP j and ¡Trait k: βjk Associa8on ¡strength ¡ ¡ ¡between ¡ SNP ¡j and ¡Trait m: βjm

slide-10
SLIDE 10

ACGTTTTACTGTACAATT ¡

Overall ¡effect ¡

Graph-Constrained Fused Lasso

  • Fusion effect propagates to the entire network
  • Association between SNPs and subnetworks of traits
slide-11
SLIDE 11

ACGTTTTACTGTACAATT ¡

Multiple-trait Association: Graph-Weighted Fused Lasso

  • Subnetwork structure is embedded as a densely connected

nodes with large edge weights

  • Edges with small weights are effectively ignored

Overall ¡effect ¡

slide-12
SLIDE 12

Estimating Parameters

  • Quadratic programming formulation

– Graph-constrained fused lasso – Graph-weighted fused lasso

  • Many publicly available software packages for solving

convex optimization problems can be used

slide-13
SLIDE 13

Improving Scalability

Itera8ve ¡op8miza8on ¡

  • ¡Update ¡βk
  • ¡Update ¡djk’s, ¡djml’s ¡ ¡

Original ¡problem ¡ ¡ Equivalently ¡ Using ¡a ¡varia8onal ¡formula8on ¡

slide-14
SLIDE 14
  • 50 SNPs taken

from HapMap chromosome 7, CEU population

  • 10 traits

Trait ¡ Correla8on ¡ Matrix ¡ True ¡ Regression ¡ Coefficients ¡ Single ¡SNP-­‑ Single ¡Trait ¡ Test ¡ Significant ¡ at ¡α ¡= ¡0.01 ¡ Lasso ¡ Graph-­‑guided ¡ Fused ¡Lasso ¡ Thresholded ¡Trait ¡ Correla8on ¡Network ¡

Simula2on ¡ Results ¡

Phenotypes ¡ SNPs ¡

No ¡ associa8on ¡ High ¡ associa8on ¡

slide-15
SLIDE 15

Asthma ¡Trait ¡Network ¡

Subnetwork ¡for ¡ quality ¡of ¡life ¡ Subnetwork ¡ for ¡lung ¡ physiology ¡

Phenotype ¡Correla8on ¡ Network ¡

Subnetwork ¡for ¡ Asthma ¡symptoms ¡

slide-16
SLIDE 16

Results from Single-SNP/Trait Test

Single-­‑Marker ¡ Single-­‑Trait ¡Test ¡

SNPs ¡ Phenotypes ¡ Phenotypes ¡

Trait ¡Network ¡

Lung ¡physiology-­‑related ¡traits ¡I ¡

  • ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡
  • ¡Pre ¡FEF ¡25-­‑75 ¡predicted ¡value ¡ ¡
  • ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡
  • ¡Body ¡Mass ¡Index ¡ ¡
  • ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡
  • ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡
  • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡
  • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡

Q551R ¡SNP ¡

  • ¡Codes ¡for ¡amino-­‑acid ¡changes ¡in ¡the ¡

intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡

  • ¡Exon ¡11 ¡

Permuta8on ¡test ¡ α ¡= ¡0.05 ¡ Permuta8on ¡test ¡ α ¡= ¡0.01 ¡

No ¡ associa8on ¡ High ¡ associa8on ¡

slide-17
SLIDE 17

Trait ¡Network ¡ Lasso ¡ Graph-­‑guided ¡ Fused ¡Lasso ¡

Comparison of Gflasso with Others

Single-­‑Marker ¡ Single-­‑Trait ¡Test ¡

SNPs ¡ Phenotypes ¡ Phenotypes ¡

? ¡

Lung ¡physiology-­‑related ¡traits ¡I ¡

  • ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡
  • ¡Pre ¡FEF ¡25-­‑75 ¡predicted ¡value ¡ ¡
  • ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡
  • ¡Body ¡Mass ¡Index ¡ ¡
  • ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡
  • ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡
  • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡
  • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡

Q551R ¡SNP ¡

  • ¡Codes ¡for ¡amino-­‑acid ¡changes ¡in ¡the ¡

intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡

  • ¡Exon ¡11 ¡ ¡

No ¡ associa8on ¡ High ¡ associa8on ¡

slide-18
SLIDE 18

Simulation Results

slide-19
SLIDE 19

Linkage Disequilibrium Structure in IL-4R gene

SNP ¡Q551R ¡ SNP ¡rs3024660 ¡ SNP ¡rs3024622 ¡

r2 ¡=0.64 ¡ ¡ r2 ¡=0.07 ¡ ¡

slide-20
SLIDE 20

Bias and Variance Tradeoff

  • The ¡penalty ¡func8on ¡introduces ¡bias ¡to ¡the ¡es8ma8on ¡

process, ¡but ¡can ¡reduce ¡the ¡variance ¡

  • The ¡amount ¡of ¡the ¡bias ¡is ¡controlled ¡by ¡selec8ng ¡the ¡

appropriate ¡regulariza8on ¡parameter ¡

slide-21
SLIDE 21

Network-Constrained Regularization for Leveraging Pathway Information (Li and Li, 2008)

  • Pathway ¡databases ¡as ¡prior ¡biological ¡knowledge ¡

– KEGG, ¡Reactome, ¡BioCarta, ¡BioCyc ¡

  • Leverage ¡the ¡pathway ¡informa8on ¡to ¡detect ¡genes ¡in ¡pathway ¡

relevant ¡to ¡the ¡given ¡outcome ¡

slide-22
SLIDE 22

Graph Laplacian

  • Graph ¡Laplacian: ¡L ¡= ¡D-­‑W ¡

– Weighted ¡adjacency ¡matrix ¡W: ¡wij=wji, ¡wij=0 ¡if ¡no ¡edges ¡between ¡ nodes ¡i ¡and ¡j ¡ – Degree ¡matrix ¡D: ¡diagonal ¡matrix ¡with ¡diagonal ¡entries ¡

  • Normalized ¡graph ¡Laplacian: ¡
  • Symmetric ¡and ¡posi8ve ¡definite ¡
slide-23
SLIDE 23

Network-Constrained Regularized Regression

  • Network-­‑constrained ¡regulariza8on ¡criterion ¡
  • Equivalently, ¡
  • If ¡L=I, ¡it ¡becomes ¡elas8c ¡net ¡
slide-24
SLIDE 24

Optimization

  • Cast ¡it ¡as ¡a ¡lasso ¡op8miza8on ¡problem ¡

¡ ¡where ¡

slide-25
SLIDE 25

Simulation Studies

  • Model: ¡ ¡

– 200 ¡transcrip8on ¡factors, ¡each ¡regula8ng ¡10 ¡genes ¡ – four ¡transcrip8on ¡factors ¡and ¡their ¡target ¡genes ¡are ¡relevant ¡to ¡the ¡ given ¡response ¡

slide-26
SLIDE 26

Results from Simulation Study

  • Comparison ¡of ¡lasso, ¡elas8c ¡net, ¡and ¡network-­‑constrained ¡

regularized ¡regression ¡

slide-27
SLIDE 27

Analysis of Glioblastoma Dataset

  • Response: ¡Cancer ¡survival/death ¡
  • Predictors: ¡1533 ¡genes ¡on ¡33 ¡KEGG ¡pathways ¡
slide-28
SLIDE 28

Gene Graph Components Relevant to Cancer Survival