Structured Association 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation
Structured Association 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation
Structured Association 02-715 Advanced Topics in Computa8onal Genomics Structured Association Gflasso (Kim & Xing, 2009)
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Gflasso ¡(Kim ¡& ¡Xing, ¡2009) ¡
ACGTTTTACTGTACAATT ¡ ACGTTTTACTGTACAATT ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡
Structured Association
- ¡Greater ¡power ¡
- ¡Fewer ¡false ¡posi2ves ¡
- ¡Phenome ¡associa2ons ¡
¡ ¡ ¡Network-‑constrained ¡regulariza8on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Li ¡& ¡Li, ¡2008) ¡
ACGTTTTACTGTACAATT ¡
Structured Association
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡
ACGTTTTACTGTACAATT ¡
Regression with Regularization
- Fused ¡lasso ¡(Tibshirani ¡et ¡al., ¡2004) ¡
Regression with Regularization (Fused Lasso)
Standard ¡ regression ¡ Fusion ¡penalty ¡
- nly ¡
Fused ¡lasso ¡ lasso ¡
- Black ¡line: ¡true ¡values ¡
- Red ¡line: ¡es8mated ¡values ¡
Genotype ¡
x ¡ = ¡
2.1 ¡ ¡
Trait ¡
Lasso for Reducing False Positives
(Tibshirani, 1996)
Many ¡zero ¡associa8ons ¡(sparse ¡results), ¡but ¡ what ¡if ¡there ¡are ¡mul8ple ¡related ¡traits? ¡
+ ¡ | βj |
T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡
Lasso ¡Penalty ¡ ¡ ¡ ¡ for ¡ ¡sparsity ¡
Associa8on ¡Strength ¡
argmin (y – Xβ) (y – Xβ)
β
Genotype ¡
(3.4, ¡1.5, ¡2.1, ¡0.9, ¡1.8) ¡ ¡
Trait ¡
Multivariate Regression for Multiple-Trait Association Analysis
T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡
Allergy ¡ Lung ¡ physiology ¡
Associa8on ¡Strength ¡
x ¡ = ¡ + ¡ We ¡introduce ¡ ¡
graph-‑guided ¡fusion ¡penalty ¡
argmin (y – Xβ) (y – Xβ)
β
+ ¡ | βj |
Associa8on ¡strength ¡ ¡ ¡ between ¡ ¡ SNP ¡j and ¡Trait k: βjk
Multiple-trait Association: Graph-Constrained Fused Lasso
Step ¡1: ¡Thresholded ¡correla8on ¡graph ¡
- f ¡phenotypes ¡
ACGTTTTACTGTACAATT ¡ Step ¡2: ¡Graph-‑constrained ¡fused ¡lasso ¡
Lasso ¡ Penalty ¡
Graph-‑constrained ¡fusion ¡ penalty ¡
Fusion ¡
Fusion Penalty
- Fusion Penalty: | βjk - βjm |
- For two correlated traits (connected in the network), the
association strengths may have similar values. ACGTTTTACTGTACAATT ¡
SNP ¡j Trait ¡m Trait ¡k
Associa8on ¡strength ¡ ¡ ¡between ¡ SNP j and ¡Trait k: βjk Associa8on ¡strength ¡ ¡ ¡between ¡ SNP ¡j and ¡Trait m: βjm
ACGTTTTACTGTACAATT ¡
Overall ¡effect ¡
Graph-Constrained Fused Lasso
- Fusion effect propagates to the entire network
- Association between SNPs and subnetworks of traits
ACGTTTTACTGTACAATT ¡
Multiple-trait Association: Graph-Weighted Fused Lasso
- Subnetwork structure is embedded as a densely connected
nodes with large edge weights
- Edges with small weights are effectively ignored
Overall ¡effect ¡
Estimating Parameters
- Quadratic programming formulation
– Graph-constrained fused lasso – Graph-weighted fused lasso
- Many publicly available software packages for solving
convex optimization problems can be used
Improving Scalability
Itera8ve ¡op8miza8on ¡
- ¡Update ¡βk
- ¡Update ¡djk’s, ¡djml’s ¡ ¡
Original ¡problem ¡ ¡ Equivalently ¡ Using ¡a ¡varia8onal ¡formula8on ¡
- 50 SNPs taken
from HapMap chromosome 7, CEU population
- 10 traits
Trait ¡ Correla8on ¡ Matrix ¡ True ¡ Regression ¡ Coefficients ¡ Single ¡SNP-‑ Single ¡Trait ¡ Test ¡ Significant ¡ at ¡α ¡= ¡0.01 ¡ Lasso ¡ Graph-‑guided ¡ Fused ¡Lasso ¡ Thresholded ¡Trait ¡ Correla8on ¡Network ¡
Simula2on ¡ Results ¡
Phenotypes ¡ SNPs ¡
No ¡ associa8on ¡ High ¡ associa8on ¡
Asthma ¡Trait ¡Network ¡
Subnetwork ¡for ¡ quality ¡of ¡life ¡ Subnetwork ¡ for ¡lung ¡ physiology ¡
Phenotype ¡Correla8on ¡ Network ¡
Subnetwork ¡for ¡ Asthma ¡symptoms ¡
Results from Single-SNP/Trait Test
Single-‑Marker ¡ Single-‑Trait ¡Test ¡
SNPs ¡ Phenotypes ¡ Phenotypes ¡
Trait ¡Network ¡
Lung ¡physiology-‑related ¡traits ¡I ¡
- ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡
- ¡Pre ¡FEF ¡25-‑75 ¡predicted ¡value ¡ ¡
- ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡
- ¡Body ¡Mass ¡Index ¡ ¡
- ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡
- ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡
- ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡
- ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡
Q551R ¡SNP ¡
- ¡Codes ¡for ¡amino-‑acid ¡changes ¡in ¡the ¡
intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡
- ¡Exon ¡11 ¡
Permuta8on ¡test ¡ α ¡= ¡0.05 ¡ Permuta8on ¡test ¡ α ¡= ¡0.01 ¡
No ¡ associa8on ¡ High ¡ associa8on ¡
Trait ¡Network ¡ Lasso ¡ Graph-‑guided ¡ Fused ¡Lasso ¡
Comparison of Gflasso with Others
Single-‑Marker ¡ Single-‑Trait ¡Test ¡
SNPs ¡ Phenotypes ¡ Phenotypes ¡
? ¡
Lung ¡physiology-‑related ¡traits ¡I ¡
- ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡
- ¡Pre ¡FEF ¡25-‑75 ¡predicted ¡value ¡ ¡
- ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡
- ¡Body ¡Mass ¡Index ¡ ¡
- ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡
- ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡
- ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡
- ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡
Q551R ¡SNP ¡
- ¡Codes ¡for ¡amino-‑acid ¡changes ¡in ¡the ¡
intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡
- ¡Exon ¡11 ¡ ¡
No ¡ associa8on ¡ High ¡ associa8on ¡
Simulation Results
Linkage Disequilibrium Structure in IL-4R gene
SNP ¡Q551R ¡ SNP ¡rs3024660 ¡ SNP ¡rs3024622 ¡
r2 ¡=0.64 ¡ ¡ r2 ¡=0.07 ¡ ¡
Bias and Variance Tradeoff
- The ¡penalty ¡func8on ¡introduces ¡bias ¡to ¡the ¡es8ma8on ¡
process, ¡but ¡can ¡reduce ¡the ¡variance ¡
- The ¡amount ¡of ¡the ¡bias ¡is ¡controlled ¡by ¡selec8ng ¡the ¡
appropriate ¡regulariza8on ¡parameter ¡
Network-Constrained Regularization for Leveraging Pathway Information (Li and Li, 2008)
- Pathway ¡databases ¡as ¡prior ¡biological ¡knowledge ¡
– KEGG, ¡Reactome, ¡BioCarta, ¡BioCyc ¡
- Leverage ¡the ¡pathway ¡informa8on ¡to ¡detect ¡genes ¡in ¡pathway ¡
relevant ¡to ¡the ¡given ¡outcome ¡
Graph Laplacian
- Graph ¡Laplacian: ¡L ¡= ¡D-‑W ¡
– Weighted ¡adjacency ¡matrix ¡W: ¡wij=wji, ¡wij=0 ¡if ¡no ¡edges ¡between ¡ nodes ¡i ¡and ¡j ¡ – Degree ¡matrix ¡D: ¡diagonal ¡matrix ¡with ¡diagonal ¡entries ¡
- Normalized ¡graph ¡Laplacian: ¡
- Symmetric ¡and ¡posi8ve ¡definite ¡
Network-Constrained Regularized Regression
- Network-‑constrained ¡regulariza8on ¡criterion ¡
- Equivalently, ¡
- If ¡L=I, ¡it ¡becomes ¡elas8c ¡net ¡
Optimization
- Cast ¡it ¡as ¡a ¡lasso ¡op8miza8on ¡problem ¡
¡ ¡where ¡
Simulation Studies
- Model: ¡ ¡
– 200 ¡transcrip8on ¡factors, ¡each ¡regula8ng ¡10 ¡genes ¡ – four ¡transcrip8on ¡factors ¡and ¡their ¡target ¡genes ¡are ¡relevant ¡to ¡the ¡ given ¡response ¡
Results from Simulation Study
- Comparison ¡of ¡lasso, ¡elas8c ¡net, ¡and ¡network-‑constrained ¡
regularized ¡regression ¡
Analysis of Glioblastoma Dataset
- Response: ¡Cancer ¡survival/death ¡
- Predictors: ¡1533 ¡genes ¡on ¡33 ¡KEGG ¡pathways ¡