Genome-Wide Associa/on Studies: Case/Control Studies 02-223 - - PowerPoint PPT Presentation
Genome-Wide Associa/on Studies: Case/Control Studies 02-223 - - PowerPoint PPT Presentation
Genome-Wide Associa/on Studies: Case/Control Studies 02-223 How to Analyze Your Own Genome Fall 2013 Genome Polymorphisms A Human TCGAGGTATTAAC Genealogy The
Genome ¡Polymorphisms ¡
TCGAGGTATTAAC
The ¡ancestral ¡chromosome ¡
A Human Genealogy ¡
TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * *
From SNPS … ¡
A ¡disease ¡muta?on ¡
Finding ¡Disease ¡Muta/ons ¡
- Case/control ¡data ¡are ¡collected ¡from ¡unrelated ¡individuals ¡
– All ¡individuals ¡are ¡related ¡if ¡we ¡go ¡back ¡far ¡enough ¡in ¡the ¡ancestry ¡
Balding, ¡Nature ¡Reviews ¡Gene?cs, ¡2006 ¡
Overview ¡
- How ¡can ¡we ¡iden?fy ¡disease-‑related ¡gene?c ¡loci? ¡
- Linkage ¡analysis ¡
– Data ¡are ¡collected ¡for ¡family ¡members ¡ – Difficult ¡to ¡collect ¡data ¡on ¡a ¡large ¡number ¡of ¡families ¡ – Effec?ve ¡for ¡rare ¡diseases ¡ – Low ¡resolu?on ¡on ¡the ¡genomes ¡due ¡to ¡only ¡few ¡recombina?ons ¡ » a ¡large ¡region ¡of ¡linkage ¡
- Genome-‑wide ¡associa?on ¡studies ¡(GWAS) ¡
– Data ¡are ¡collected ¡for ¡unrelated ¡individuals ¡ – Easier ¡to ¡find ¡a ¡large ¡number ¡of ¡affected ¡individuals ¡ – Effec?ve ¡for ¡common ¡diseases, ¡compared ¡to ¡family-‑based ¡method ¡ – Rela?vely ¡high ¡resolu?on ¡for ¡pinpoin?ng ¡the ¡locus ¡linked ¡to ¡the ¡ phenotype ¡ » A ¡rela?vely ¡small ¡region ¡of ¡SNP ¡markers ¡in ¡linkage ¡disequilibrium ¡
How ¡Can ¡We ¡Iden/fy ¡the ¡Unknown ¡Disease ¡Locus? ¡
- Idea: ¡Given ¡a ¡map ¡of ¡gene?c ¡markers, ¡let’s ¡look ¡for ¡the ¡
markers ¡that ¡are ¡linked ¡to ¡the ¡unknown ¡disease ¡locus ¡(i.e. ¡ linkage ¡between ¡the ¡disease ¡locus ¡and ¡the ¡marker ¡locus) ¡
Disease ¡ ¡ Locus ¡ Marker ¡near ¡the ¡ disease ¡locus ¡ (r<<0.5) ¡ Markers ¡far ¡from ¡ the ¡disease ¡locus ¡ ¡ (r=0.5) ¡
Linkage ¡Analysis ¡vs. ¡Associa/on ¡Analysis ¡
Strachan ¡& ¡Read, ¡Human ¡Molecular ¡Gene?cs, ¡2001 ¡
(Number ¡of ¡recombina?on ¡sites) ¡ (shared ¡genome ¡segments ¡among ¡different ¡individuals ¡in ¡the ¡study) ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡
- Data ¡are ¡collected ¡for ¡genotypes ¡and ¡phenotypes ¡for ¡a ¡large ¡
number ¡of ¡unrelated ¡individuals ¡
– Genotypes: ¡ ¡
- ocen ¡SNP ¡genotypes ¡are ¡used ¡because ¡of ¡the ¡ease ¡of ¡genotyping ¡
and ¡abundance ¡across ¡genomes. ¡
- For ¡SNPs, ¡minor ¡allele ¡homozygous, ¡heterozygous, ¡and ¡major ¡allele ¡
heterozygous ¡sites ¡are ¡coded ¡as ¡0, ¡1, ¡and ¡2. ¡ – Phenotypes: ¡ ¡
- Categorical ¡data ¡(e.g., ¡case/control ¡labels ¡for ¡individuals) ¡
- Con?nuous-‑valued ¡data ¡(e.g., ¡height, ¡cholesterol ¡level, ¡blood ¡IgE ¡
level) ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡
- Data ¡collected ¡for ¡GWAS ¡can ¡be ¡represented ¡as ¡two ¡matrices ¡
Genotype ¡Data ¡ ¡ Phenotype ¡Data ¡ N ¡individuals ¡ N ¡individuals ¡ J ¡SNPs ¡ ¡ K ¡phenotypes ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡
- For ¡each ¡SNP ¡and ¡each ¡phenotype, ¡perform ¡a ¡sta?s?cal ¡test ¡
for ¡“associa?on” ¡ ¡
- Repeat ¡this ¡for ¡all ¡(SNP, ¡phenotype) ¡pairs ¡
- Iden?fy ¡the ¡(SNP, ¡phenotype) ¡pairs ¡with ¡“significant” ¡
associa?on. ¡ ¡
– The ¡genome ¡region ¡around ¡the ¡SNP ¡is ¡likely ¡to ¡influence ¡the ¡ phenotype ¡
Genotype ¡Data ¡ Phenotype ¡Data ¡ N ¡individuals ¡ N ¡individuals ¡ J ¡SNPs ¡ ¡ K ¡phenotypes ¡ Are ¡the ¡SNP ¡and ¡the ¡phenotype ¡ significantly ¡associated? ¡
GWAS: ¡Case/Control ¡Study ¡
Genotype ¡Data ¡ N ¡individuals ¡ N ¡individuals ¡ J ¡SNPs ¡ ¡ One ¡phenotype ¡for ¡case/ control ¡labels ¡ Are ¡the ¡SNP ¡and ¡the ¡phenotype ¡ significantly ¡associated? ¡
GWAS: ¡Case/Control ¡Study ¡
- For ¡each ¡marker ¡locus, ¡find ¡the ¡
3x2 ¡con?ngency ¡table ¡containing ¡ the ¡counts ¡of ¡three ¡genotypes ¡
- ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡2 ¡df ¡(degree ¡of ¡
freedom) ¡under ¡the ¡null ¡ hypothesis ¡of ¡no ¡associa?on ¡ ¡
Genotype Case Control Total AA Ncase,AA Ncontrol,AA NAA Aa Ncase,Aa Ncontrol,Aa NAa aa Ncase,aa Ncontrol,aa Naa Total Ncase Ncontrol N
Genotype ¡score ¡= ¡the ¡number ¡of ¡minor ¡alleles ¡ ¡
2
χ
GWAS: ¡Case/Control ¡Study ¡
- Alterna?vely, ¡assume ¡an ¡addi?ve ¡model, ¡where ¡the ¡
heterozygote ¡risk ¡is ¡approximately ¡between ¡the ¡two ¡ homozygotes ¡
- Form ¡a ¡2x2 ¡con?ngency ¡table. ¡Each ¡individual ¡contributes ¡
twice ¡from ¡each ¡of ¡the ¡two ¡chromosomes. ¡
- ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡1df ¡
Allele Type Case Control Total A Gcase,A Gcontrol,A GA a Gcase,a Gcontrol,a Ga Total 2xNcase 2xNcontrol 2N
2
χ
Test ¡(Chi-‑square ¡Test) ¡
- Sta?s?cal ¡test ¡of ¡associa?on ¡
- P-‑value ¡= ¡probability ¡of ¡the ¡observed ¡data ¡under ¡the ¡null ¡hypothesis ¡
- In ¡case/control ¡associa?on ¡study, ¡the ¡null ¡hypothesis ¡is ¡ ¡
¡ H0: ¡There ¡is ¡no ¡associa?on ¡between ¡the ¡given ¡marker ¡and ¡disease ¡labels. ¡
- Low ¡p-‑value ¡(p-‑value ¡< ¡α, ¡where ¡α ¡is ¡a ¡user-‑specified ¡value) ¡means ¡
the ¡observed ¡data ¡are ¡unlikely ¡under ¡the ¡null ¡hypothesis. ¡Thus, ¡we ¡ reject ¡the ¡null ¡hypothesis ¡(H0) ¡and ¡declare ¡there ¡is ¡a ¡significant ¡ associa?on ¡between ¡the ¡SNP ¡and ¡disease ¡states. ¡
– Ocen ¡α=0.01 ¡or ¡0.05 ¡is ¡used. ¡
2
χ
Chi-‑Square ¡Test: ¡Null ¡Hypothesis ¡from ¡ Con/ngency ¡Table ¡
- We ¡have ¡two ¡random ¡variables: ¡
– Y: ¡disease ¡status ¡(Case/Control) ¡ – X: ¡allele ¡type ¡(A/a) ¡
- Null ¡hypothesis: ¡the ¡two ¡variables ¡are ¡
independent ¡of ¡each ¡other ¡(i.e., ¡the ¡two ¡ variables ¡are ¡unrelated) ¡ Allele Type Case Control Total A Gcase,A Gcontrol,A GA a Gcase,a Gcontrol,a Ga Total 2xNcase 2xNcontrol 2N
Chi-‑Square ¡Test: ¡Null ¡Hypothesis ¡from ¡ Con/ngency ¡Table ¡
- Under ¡the ¡null ¡hypothesis ¡of ¡ ¡
independence ¡ ¡
– P(Y=case ¡and ¡X=A)= ¡P(Y=case)P(X=A) ¡
- Under ¡the ¡null ¡hypothesis, ¡the ¡expected ¡
number ¡of ¡cases ¡with ¡allele ¡A ¡is ¡
– P(Y=case)P(X=A)(2N) ¡ – where ¡N ¡is ¡total ¡observa?ons ¡and ¡
¡ ¡ ¡ ¡ ¡ P(Y=case)=(Gcase,A+Gcase,a)/(2N) ¡ ¡ ¡ ¡ P(X=A)=(Gcase,A+ ¡Gcontrol,A)/(2N) ¡
- Similarly ¡ ¡
– What ¡is ¡the ¡expected ¡number ¡of ¡cases ¡with ¡ allele ¡a? ¡ – What ¡is ¡the ¡expected ¡number ¡of ¡controls ¡with ¡ allele ¡A? ¡ – What ¡is ¡the ¡expected ¡number ¡of ¡controls ¡with ¡ allele ¡a? ¡
- Do ¡the ¡probabili?es ¡sum ¡to ¡1? ¡
Allele Type Case Control Total A Gcase,A Gcontrol,A GA a Gcase,a Gcontrol,a Ga Total 2xNcase 2xNcontrol 2N
Chi-‑square ¡sta/s/c ¡
χ 2 = (Oi − Ei)2 Ei
i=1 n
∑
Oi ¡= ¡observed ¡frequency ¡for ¡ith ¡outcome ¡ ¡ ¡ (the ¡value ¡can ¡be ¡read ¡off ¡of ¡the ¡con?ngency ¡table) ¡ Ei ¡= ¡expected ¡frequency ¡for ¡ith ¡outcome ¡ ¡ ¡ (the ¡value ¡can ¡be ¡obtained ¡as ¡described ¡in ¡the ¡previous ¡slides) ¡ n ¡= ¡total ¡number ¡of ¡outcomes ¡ The ¡probability ¡distribu?on ¡of ¡this ¡sta?s?c ¡is ¡given ¡by ¡the ¡ chi-‑square ¡distribu?on. ¡ Using ¡chi-‑square ¡test, ¡we ¡can ¡test ¡how ¡well ¡observed ¡values ¡fit ¡expected ¡values ¡ computed ¡under ¡the ¡independence ¡hypothesis ¡ α= ¡
Test ¡sta?s?c= ¡
Chi-‑square ¡Sta/s/c ¡
Case Control A 16 36 a 2 48
- ¡Compute ¡expected ¡values ¡
- ¡Compute ¡chi-‑square ¡sta?s?c ¡
- ¡Compute ¡chi-‑square ¡ ¡
p-‑value ¡by ¡referring ¡to ¡ chi-‑square ¡distribu?on ¡
ManhaQan ¡Plot ¡of ¡p-‑values ¡from ¡Breast ¡Cancer ¡ GWAS ¡
- Analysis ¡of ¡582,886 ¡SNPs ¡for ¡3,659 ¡cases ¡with ¡family ¡history ¡
and ¡4,897 ¡controls ¡
Nature ¡Gene?cs ¡42, ¡504-‑507 ¡(2010) ¡
High ¡associa?on ¡
Ocen ¡ ¡–log10 ¡(p-‑value) ¡is ¡ plosed ¡instead ¡of ¡ p-‑value. ¡
Correc/ng ¡for ¡Mul/ple ¡Tes/ng ¡
- What ¡happens ¡when ¡we ¡scan ¡the ¡genome ¡of ¡1 ¡million ¡markers ¡
for ¡associa?on ¡with ¡α ¡= ¡0.05? ¡
– 50,000 ¡(=1 ¡millionx0.05) ¡SNPs ¡are ¡expected ¡to ¡be ¡found ¡significant ¡just ¡ by ¡chance ¡ – We ¡need ¡to ¡be ¡more ¡conserva?ve ¡when ¡we ¡decide ¡a ¡given ¡marker ¡is ¡ significantly ¡associated ¡with ¡the ¡trait. ¡
- Correc?on ¡methods ¡
– Bonferroni ¡correc?on ¡
Bonferroni ¡Correc/on ¡
- If ¡N ¡markers ¡are ¡tested, ¡we ¡correct ¡the ¡significance ¡level ¡as ¡
α’= ¡α/N ¡
– Assumes ¡the ¡N ¡tests ¡are ¡independent, ¡although ¡this ¡is ¡not ¡true ¡ because ¡of ¡the ¡linkage ¡disequilibrium. ¡ ¡ – Overly ¡conserva?ve ¡for ¡?ghtly ¡linked ¡markers ¡
Summary ¡
- How ¡to ¡iden?fy ¡disease-‑related ¡or ¡phenotype-‑related ¡
genomic ¡loci ¡
– Family-‑based ¡studies ¡ – Popula?on-‑based ¡studies ¡for ¡unrelated ¡individuals ¡
- Genome-‑wide ¡associa?on ¡study ¡
– Case/control ¡studies ¡for ¡discrete-‑valued ¡phenotypes ¡
- Chi-‑square ¡test ¡based ¡on ¡con?ngency ¡table ¡created ¡from ¡
genotype/phenotype ¡data ¡ – Con?nuous-‑valued ¡phenotypes ¡(next ¡lecture) ¡ – Bonferroni ¡correc?ons ¡for ¡correc?ng ¡for ¡mul?ple ¡hypothesis ¡tes?ng ¡