Midterm Review 02-223 Personalized Medicine: Understanding - - PowerPoint PPT Presentation
Midterm Review 02-223 Personalized Medicine: Understanding - - PowerPoint PPT Presentation
Midterm Review 02-223 Personalized Medicine: Understanding Your Own Genome Fall 2014 Term Paper Term paper ideas Survey of a parFcular disease
Term ¡Paper ¡
- Term ¡paper ¡ideas ¡
– Survey ¡of ¡a ¡parFcular ¡disease ¡that ¡has ¡a ¡geneFc ¡component ¡
- HunFngton ¡disease ¡– ¡we ¡know ¡what ¡mutaFon ¡causes ¡this ¡disease ¡but ¡
how ¡much ¡is ¡known ¡about ¡the ¡biological ¡mechanism ¡behind ¡how ¡this ¡ mutaFon ¡gives ¡rise ¡to ¡the ¡disease? ¡
- Type ¡I ¡& ¡II ¡diabetes, ¡asthma, ¡Crohn’s ¡disease, ¡cysFc ¡fibrosis ¡etc. ¡
- Cancer ¡– ¡some ¡cancer ¡types ¡are ¡more ¡related ¡than ¡others, ¡e.g., ¡breast ¡
& ¡ovarian ¡cancer ¡ – Data ¡analysis ¡(using ¡Matlab, ¡C, ¡soVware ¡packages, ¡etc.) ¡
- Find ¡genes ¡with ¡hidden ¡Markov ¡models ¡from ¡human ¡genome ¡ ¡
- Download ¡Hapmap ¡data ¡and ¡perform ¡haplotype ¡inference ¡with ¡
PHASE/fastPHASE ¡soVware ¡
- PopulaFon ¡structure ¡analysis ¡of ¡mulF-‑populaFon ¡hapmap ¡data. ¡
Cluster ¡individuals ¡into ¡populaFon ¡groups ¡
- HapMap ¡expression ¡quanFtaFve ¡trait ¡locus ¡(eQTL) ¡mapping ¡with ¡
regression ¡analysis ¡ – Discussion ¡and ¡survey ¡of ¡ethical ¡and ¡legal ¡issues ¡
- What ¡happened ¡to ¡23andme? ¡Direct-‑to-‑consumer ¡geneFc ¡tests? ¡ ¡ ¡
- Whole-‑genome ¡sequencing ¡as ¡a ¡geneFc ¡test? ¡
- Patent ¡and ¡genomes ¡
Proposal ¡
- Title, ¡team ¡members ¡
- 2-‑3 ¡sentences ¡for ¡each ¡of ¡the ¡following ¡
– Problem ¡statement ¡ – Approach ¡ – Resources ¡you ¡plan ¡to ¡use ¡
- 1 ¡inch ¡margin ¡11pt ¡font ¡size, ¡half ¡a ¡page ¡
Terminology ¡
- Allele: ¡different ¡forms ¡of ¡geneFc ¡
variaFons ¡at ¡a ¡given ¡gene ¡or ¡ geneFc ¡locus ¡
– Locus ¡1 ¡has ¡two ¡alleles, ¡A ¡and ¡T, ¡ and ¡Locus ¡2 ¡has ¡two ¡alleles, ¡C ¡and ¡ G ¡
- Genotype: ¡specific ¡allelic ¡make-‑up ¡
- f ¡an ¡individual’s ¡genome ¡
– Individual ¡1 ¡has ¡genotype ¡AA ¡at ¡ Locus ¡1 ¡and ¡genotype ¡CG ¡at ¡Locus ¡ 2 ¡
- Heterozygous/Homozygous ¡
– Locus ¡1 ¡of ¡Individual ¡1 ¡is ¡ homozygous, ¡and ¡Locus ¡2 ¡is ¡ heterozygous ¡
A ¡ A ¡ C ¡ G ¡ Locus ¡1 ¡ Locus ¡2 ¡ A ¡ T ¡ C ¡ C ¡ Locus ¡1 ¡ Locus ¡2 ¡ Individual ¡1 ¡ Individual ¡2 ¡
Advantages ¡of ¡SNPs ¡in ¡Popula>on ¡Gene>cs ¡ Studies ¡
- Abundance: ¡high ¡frequency ¡on ¡the ¡genome ¡
- PosiFon: ¡throughout ¡the ¡genome ¡ ¡
– coding ¡region, ¡intron ¡region, ¡promoter ¡site ¡
- Ease ¡of ¡genotyping ¡(high-‑throughput ¡genotyping) ¡
- SNPs ¡account ¡for ¡around ¡90% ¡of ¡human ¡genomic ¡variaFon ¡
- However, ¡only ¡two ¡alleles ¡at ¡each ¡locus, ¡less ¡informaFve ¡than ¡
- microsatellites. ¡(Use ¡haplotypes!) ¡
Gene>c ¡Polymorphisms ¡
- InserFon/deleFon ¡of ¡a ¡secFon ¡of ¡DNA ¡
– Minisatellites: ¡repeated ¡base ¡paferns ¡(several ¡hundred ¡base ¡pairs) ¡ – Microsatellites: ¡2-‑4 ¡nucleoFdes ¡repeated ¡ – Presence ¡or ¡absence ¡of ¡Alu ¡segments ¡ – Many ¡alleles, ¡very ¡informaFve ¡because ¡of ¡the ¡high ¡heterozygosity ¡(the ¡ chance ¡that ¡a ¡randomly ¡selected ¡person ¡will ¡be ¡heterozygous) ¡
Working ¡with ¡SNP ¡Data ¡in ¡Prac>ce ¡
- At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡
– A/T/C/G ¡lefers ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡
- 0 ¡: ¡minor ¡allele ¡homozygous ¡
- 1: ¡heterozygous ¡
- 2: ¡major ¡allele ¡homozygous ¡
- Given ¡genotype ¡data ¡for ¡N ¡individuals ¡
- For ¡each ¡locus, ¡we ¡can ¡define ¡minor ¡allele ¡frequency ¡as ¡follows: ¡
¡ (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡minor ¡alleles ¡in ¡the ¡ populaFon)/(total ¡number ¡of ¡alleles ¡in ¡the ¡populaFon) ¡
- Typically, ¡SNPs ¡with ¡a ¡very ¡low ¡minor ¡allele ¡frequency ¡are ¡discarded, ¡
since ¡they ¡don’t ¡contain ¡sufficient ¡informaFon ¡about ¡geneFc ¡diversity ¡
Technology ¡and ¡Genomes ¡
- What ¡are ¡the ¡things ¡that ¡we ¡learned ¡about ¡genomes ¡with ¡
introducFon ¡of ¡each ¡of ¡the ¡new ¡technology? ¡
– Sanger ¡sequencing ¡(e.g., ¡human ¡genome ¡sequencing ¡project) ¡ – SNP ¡array ¡(e.g., ¡HapMap ¡project) ¡ – Next ¡generaFon ¡sequencing ¡technology ¡(e.g., ¡1000 ¡genome ¡project) ¡
HMMs ¡and ¡Gene ¡Structure ¡
- NucleoFdes ¡{A,C,G,T} ¡are ¡the ¡observables ¡and ¡labels ¡{intergenic, ¡start/stop, ¡
coding} ¡are ¡the ¡unobserved ¡states. ¡
- Different ¡states ¡generate ¡nucleoFdes ¡at ¡different ¡frequencies ¡
- A ¡simple ¡HMM ¡for ¡unspliced ¡genes: ¡
¡ ¡ AAAGC ¡ATG ¡CAT ¡TTA ¡ACG ¡AGA ¡GCA ¡CAA ¡GGG ¡CTC ¡TAA ¡TGCCG ¡
- The ¡sequence ¡of ¡states ¡is ¡an ¡annotaFon ¡of ¡the ¡generated ¡string ¡– ¡each ¡
nucleoFde ¡is ¡generated ¡in ¡intergenic, ¡start/stop, ¡coding ¡state ¡
Linkage ¡Disequilibrium ¡in ¡SNP ¡Data ¡
- r2 ¡in ¡SNP ¡data ¡from ¡a ¡populaFon ¡of ¡individuals ¡(Black: ¡r2=1, ¡
white: ¡r2=0) ¡
genome ¡ genome ¡
2 1 3 6 1 9 1 5 1 7 4 1 9 6 2 9 1 7 2 1 2 1 2 7 1 4 6 7 1 1 81 8 1 4 1 01
Genotypes Haplotypes
1 3 1 1 5 4 9 2 1 7 1 2 7 6 1 1 8 4 1 2 6 9 1 7 1 6 9 2 1 2 1 4 7 1 8 1 1 Haplotype Re-construction Chromosome phase is known Chromosome phase is unknown
Haplotype ¡and ¡Genotype ¡
- Haplotype: ¡a ¡collecFon ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡
chromosome ¡
C T A T G A C G A T T A
haplotype h≡(h1, h2)
possible associations of alleles to chromosome
Heterozygous diploid individual
C T A T G A
Cp Cm Genotype g
pairs of alleles with association of alleles to chromosomes unknown
ATGC
sequencing
TC TG AA
Haplotypes ¡from ¡SNP ¡Array? ¡
Why ¡Haplotypes? ¡
- Haplotypes ¡have ¡a ¡greater ¡power ¡ for ¡discriminaFng ¡genomic ¡
regions ¡
– Consider ¡J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2J ¡possible ¡haplotypes ¡ ¡ – SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡
- f ¡alleles ¡
– Good ¡geneFc ¡marker ¡for ¡populaFon, ¡evoluFon ¡and ¡hereditary ¡diseases ¡ ¡
GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATCTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome
Haplotypes ¡and ¡SNPs ¡
- ¡ ¡SNPs ¡can ¡disFnguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡
another ¡group ¡with ¡T) ¡
- ¡ ¡Haplotypes ¡can ¡disFnguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡
with ¡CTG, ¡TGA, ¡and ¡CTA) ¡
Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡
- Nearby ¡SNPs ¡in ¡the ¡genome ¡are ¡in ¡linkage ¡disequilibrium ¡(LD), ¡
and ¡thus ¡contain ¡redundant ¡informaFon. ¡
- If ¡we ¡knew ¡which ¡SNPs ¡are ¡in ¡LD, ¡we ¡can ¡pre-‑select ¡the ¡
representaFve ¡SNPs ¡for ¡each ¡LD ¡block ¡of ¡chromosome, ¡and ¡ genotype ¡only ¡for ¡those ¡SNPs. ¡
Genome ¡
These ¡two ¡SNPs ¡are ¡in ¡high ¡LD ¡ and ¡thus ¡are ¡redundant ¡ r2 ¡values ¡ ¡ (black: ¡r2=1, ¡white: ¡r2=0) ¡
Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡
- Two-‑stage ¡data ¡collecFon ¡process ¡
– Stage ¡1: ¡ ¡
- Collect ¡genotype ¡data ¡for ¡a ¡dense ¡set ¡of ¡SNPs ¡for ¡mulFple ¡
individuals ¡
- Select ¡a ¡non-‑redundant ¡set ¡of ¡tag ¡SNPs ¡by ¡examining ¡the ¡LD ¡
pafern ¡ – Stage ¡2: ¡
- Collect ¡genotype ¡data ¡only ¡for ¡the ¡tagSNPs ¡for ¡a ¡large ¡number ¡of ¡
individuals ¡ ¡
Algorithm ¡for ¡Selec>ng ¡Tag ¡SNPs ¡
- Greedy ¡algorithm ¡
Genome ¡
Randomly ¡select ¡a ¡tag ¡SNP ¡
Genome ¡
Find ¡the ¡SNPs ¡with ¡a ¡high ¡LD ¡with ¡ the ¡previously ¡selected ¡tag ¡SNP ¡ (r2>0.8) ¡and ¡remove ¡those ¡SNPs ¡ from ¡the ¡set ¡of ¡candidate ¡tag ¡ SNPs ¡ ¡ ¡ Iterate ¡unFl ¡the ¡set ¡
- f ¡candidate ¡tag ¡
SNPs ¡is ¡empty ¡
Popula>on ¡Structure ¡
- Hardy-‑Weinberg ¡Equilibrium ¡
- GeneFc ¡driV ¡
- PopulaFon ¡divergence ¡
- Admixture ¡
Family-‑based ¡vs ¡Popula>on-‑based ¡Studies ¡
- How ¡can ¡we ¡idenFfy ¡the ¡geneFc ¡loci ¡responsible ¡for ¡determining ¡
phenotypes? ¡
- Linkage ¡analysis ¡
– Data ¡are ¡collected ¡for ¡family ¡members ¡ – Difficult ¡to ¡collect ¡data ¡on ¡a ¡large ¡number ¡of ¡families ¡ – EffecFve ¡for ¡rare ¡diseases ¡ – Low ¡resoluFon ¡on ¡the ¡genomes ¡due ¡to ¡only ¡few ¡recombinaFons ¡ » a ¡large ¡region ¡of ¡linkage ¡
- Genome-‑wide ¡associaFon ¡studies ¡(GWAS) ¡
– Data ¡are ¡collected ¡for ¡unrelated ¡individuals ¡ – Easier ¡to ¡find ¡a ¡large ¡number ¡of ¡affected ¡individuals ¡ – EffecFve ¡for ¡common ¡diseases, ¡compared ¡to ¡family-‑based ¡method ¡ – RelaFvely ¡high ¡resoluFon ¡for ¡pinpoinFng ¡the ¡locus ¡linked ¡to ¡the ¡ phenotype ¡ » A ¡relaFvely ¡small ¡region ¡of ¡SNP ¡markers ¡in ¡linkage ¡disequilibrium ¡
How ¡Can ¡We ¡Iden>fy ¡the ¡Unknown ¡Disease ¡Locus? ¡
- Idea: ¡Given ¡a ¡map ¡of ¡geneFc ¡markers, ¡let’s ¡look ¡for ¡the ¡
markers ¡that ¡are ¡linked ¡to ¡the ¡unknown ¡disease ¡locus ¡(i.e. ¡ linkage ¡between ¡the ¡disease ¡locus ¡and ¡the ¡marker ¡locus) ¡
Disease ¡ ¡ Locus ¡ Marker ¡near ¡the ¡ disease ¡locus ¡ (r<<0.5) ¡ Markers ¡far ¡from ¡ the ¡disease ¡locus ¡ ¡ (r=0.5) ¡
GWAS: ¡Case/Control ¡Study ¡
- For ¡each ¡marker ¡locus, ¡find ¡the ¡
3x2 ¡conFngency ¡table ¡containing ¡ the ¡counts ¡of ¡three ¡genotypes ¡
- ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡2 ¡df ¡(degree ¡of ¡
freedom) ¡under ¡the ¡null ¡ hypothesis ¡of ¡no ¡associaFon ¡
- Bonferroni ¡correcFon ¡ ¡
Genotype Case Control Total AA Ncase,AA Ncontrol,AA NAA Aa Ncase,Aa Ncontrol,Aa NAa aa Ncase,aa Ncontrol,aa Naa Total Ncase Ncontrol N
Genotype ¡score ¡= ¡the ¡number ¡of ¡minor ¡alleles ¡ ¡
2
χ
GWAS: ¡Con>nuous-‑valued ¡Phenotypes ¡
- ConFnuous-‑valued ¡traits ¡
– Also ¡called ¡quanFtaFve ¡traits ¡ – Cholesterol ¡level, ¡blood ¡pressure ¡
- etc. ¡
- One ¡cannot ¡create ¡a ¡
conFngency ¡matrix ¡as ¡in ¡case/ control ¡studies ¡
- For ¡each ¡locus, ¡fit ¡a ¡linear ¡
regression ¡using ¡the ¡number ¡of ¡ minor ¡alleles ¡at ¡the ¡given ¡locus ¡
- f ¡the ¡individual ¡as ¡covariate ¡
Linear ¡Regression ¡Model ¡for ¡GWAS ¡
x y β1 : slope ¡ ¡ (associaFon ¡strength) ¡
β0: ¡intercept ¡
ε:noise, ¡ ¡ the ¡part ¡of ¡y ¡that ¡ is ¡not ¡explained ¡ by ¡xβ1+β0 ¡ ¡
y = xβ
1 + β0 +ε
cis ¡and ¡trans ¡eQTLs ¡
- cis ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡near ¡the ¡gene ¡
whose ¡expression ¡is ¡affected ¡by ¡the ¡eQTL. ¡
– E.g., ¡mutaFons ¡in ¡the ¡upstream ¡of ¡a ¡gene ¡influences ¡the ¡expression ¡ level ¡of ¡the ¡gene ¡
- trans ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡far ¡away ¡(or ¡on ¡a ¡
different ¡chromosome) ¡from ¡the ¡gene ¡whose ¡expression ¡is ¡ affected ¡by ¡the ¡eQTL. ¡
– E.g., ¡mutaFons ¡in ¡the ¡transcripFon ¡factor ¡gene ¡can ¡influence ¡the ¡ expression ¡level ¡of ¡the ¡TF ¡target ¡genes. ¡
Personalized ¡Medicine: ¡Are ¡We ¡There ¡Yet? ¡
- Missing ¡heritability ¡
- How ¡do ¡we ¡explain ¡the ¡missing ¡heritability? ¡
Epistasis ¡and ¡Pleiotropy ¡
¡SNPs ¡influencing ¡mulFple ¡phenotypes ¡
ACGTTTTACTGTACAATT ¡
Defini>on ¡of ¡Coverage ¡
Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ Defini>on: ¡ ¡ Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ C
Adopted ¡from ¡hfp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡
- Single-‑end ¡sequencing ¡
- Paired-‑end ¡sequencing ¡
- Paired-‑end ¡sequencing ¡
Insertions ¡ ¡ ¡Deletions
courtesy ¡of ¡Tobias ¡Rausch ¡(EMBL) ¡
1 Copy 1 Copy 0 Copy 2 Copy 2 Copy
- Chiang et al. (2009)
courtesy ¡of ¡Tobias ¡Rausch ¡(EMBL) ¡
With ¡reads ¡of ¡length ¡40-‑100 ¡bps ¡are ¡we ¡able ¡to ¡find ¡the ¡ exact ¡breakpoint ¡of ¡ ¡a ¡structural ¡variaFon? ¡ Yes ¡– ¡using ¡anchored ¡split-‑read ¡mapping ¡ ¡ ¡ mappable ¡read ¡mate ¡provides ¡anchor ¡to ¡narrow ¡down ¡ search ¡space ¡
Donor ¡ Reference ¡
- Medvedev et al. (2009)