Haplotypes 02-223 How to Analyze Your Own Genome Fall - - PowerPoint PPT Presentation
Haplotypes 02-223 How to Analyze Your Own Genome Fall - - PowerPoint PPT Presentation
Haplotypes 02-223 How to Analyze Your Own Genome Fall 2013 Single Nucleo2de Polymorphism (SNP) GATCTTCGTACTGAGT GATCTTCGTACTGAGT C p GATTTTCGTACGGAAT C m GATTTTCGTACTGAGT
a diploid individual Cp Cm
chromosome
- SNP: “Binary” nucleotide substitutions at a single locus on a chromosome
- each variant is called an "allele”
- Haplotype: a stretch of consecutive nucleotides that lie on the same chromosome
- GATCTTCGTACTGAGT
GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT
Single ¡Nucleo2de ¡Polymorphism ¡(SNP) ¡
2 1 3 6 1 9 1 5 1 7 4 1 9 6 2 9 1 7 2 1 2 1 2 7 1 4 6 7 1 1 81 8 1 4 1 01
Genotypes Haplotypes
1 3 1 1 5 4 9 2 1 7 1 2 7 6 1 1 8 4 1 2 6 9 1 7 1 6 9 2 1 2 1 4 7 1 8 1 1 Haplotype Re-construction Chromosome phase is known Chromosome phase is unknown
Haplotype ¡and ¡Genotype ¡
- Haplotype: ¡a ¡collec<on ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡
chromosome ¡
C T A T G A C G A T T A
haplotype h≡(h1, h2)
possible associations of alleles to chromosome
Heterozygous diploid individual
C T A T G A
Cp Cm Genotype g
pairs of alleles with association of alleles to chromosomes unknown
ATGC
sequencing
TC TG AA
Phase ¡ambiguity ¡
- ‑-‑ ¡haplotype ¡reconstruc2on ¡for ¡individuals ¡
Why ¡Haplotypes? ¡
- Haplotypes ¡have ¡a ¡greater ¡power ¡for ¡discrimina<ng ¡genomic ¡
regions ¡
– Consider ¡J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2J ¡possible ¡haplotypes ¡ ¡
- but ¡in ¡fact, ¡far ¡fewer ¡are ¡seen ¡in ¡human ¡popula<on ¡
– SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡
- f ¡alleles ¡
– Good ¡gene<c ¡marker ¡for ¡popula<on, ¡evolu<on ¡and ¡hereditary ¡diseases ¡ ¡
GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome
Haplotypes ¡and ¡SNPs ¡
- ¡ ¡SNPs ¡can ¡dis<nguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡
another ¡group ¡with ¡T) ¡
- ¡ ¡Haplotypes ¡can ¡dis<nguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡
with ¡CTG, ¡TGA, ¡and ¡CTA) ¡
GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome
disease X healthy healthy
Haplotypes ¡and ¡SNPs ¡
- ¡ ¡Haplotypes ¡can ¡have ¡a ¡greater ¡power ¡to ¡detect ¡disease-‑related ¡genome ¡
region ¡
Haplotype ¡Analyses ¡
- Haplotype ¡analyses ¡
– Linkage ¡disequilibrium ¡assessment ¡ – Disease-‑gene ¡discovery ¡ – Gene<c ¡demography ¡ – Chromosomal ¡evolu<on ¡studies ¡
Inferring ¡Haplotypes ¡
- Genotype: ¡AT//AA//CG ¡
– Maternal ¡genotype: ¡TA//AA//CC ¡ – Paternal ¡genotype: ¡TT//AA//CG ¡ – Then ¡the ¡haplotype ¡is ¡AAC/TAG. ¡
- Genotype: ¡AT//AA//CG ¡
– Maternal ¡genotype: ¡AT//AA//CG ¡ – Paternal ¡genotype: ¡AT//AA//CG ¡ – Cannot ¡determine ¡unique ¡haplotype ¡
- Problem: ¡How ¡can ¡we ¡determine ¡haplotypes ¡without ¡parental ¡
genotypes ¡
Haplotype ¡Inference ¡(Phasing) ¡
- Given ¡mul<locus ¡genotypes ¡at ¡a ¡set ¡of ¡SNPs ¡for ¡many ¡individuals, ¡
phasing ¡means ¡
– Reconstruct ¡haplotypes ¡for ¡all ¡individuals ¡ – Es<mate ¡frequencies ¡of ¡all ¡possible ¡haplotypes ¡
- Haplotype ¡reconstruc<on ¡algorithm ¡
– Clark’s ¡parsimony ¡algorithm ¡(Clark, ¡Mol. ¡Biol. ¡Evol. ¡1990) ¡ – PHASE ¡(Li ¡and ¡Stephens, ¡Gene<cs ¡2003) ¡
- Recovers ¡haplotypes ¡
- It ¡also ¡
– Es<mate ¡recombina<on ¡rate, ¡recombina<on ¡hotspots ¡ – Impute ¡missing ¡genotypes ¡
Genotype representations 0/0 0 1/1 1 0/1 2 Genotypes of 14 individual
21 2 222 02 02 1 111 22 11 0 000 01 02 1 111 22 21 2 222 02 02 1 111 22 11 0 000 01 02 1 111 22 21 2 222 02 22 2 222 21 21 1 222 02 02 1 111 22 22 2 222 21 21 2 222 02 || | ||| ||
Iden2fiability ¡
01 1 000 00 11 0 000 01 01 1 000 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 01 1 000 00 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 01 1 000 00 11 0 000 01 11 0 000 01 || | ||| || 01 1 000 00 || | ||| || 00 1 111 11 || | ||| ||
11 10 7
01 1 111 00 11 0 000 01 01 1 111 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 11 0 000 01 11 1 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 || | ||| || 11 0 010 01 || | ||| || 11 1 000 01 || | ||| || 11 0 000 11 || | ||| || 01 1 111 00 || | ||| || 01 1 101 00 || | ||| || 01 0 111 00 || | ||| || 00 1 111 11 || | ||| || 00 1 111 01 || | ||| ||
8 1 1 1 8 1 1 6 1
01 1 101 00 11 0 010 01 01 1 111 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 0 111 00 11 1 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 11 0 000 01 11 1 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 11 00 1 111 01 01 1 111 00 11 0 000 01
Parsimonious solution
Iden2fiability ¡
Haplotype ¡Reconstruc2on ¡Algorithm ¡by ¡ Clark ¡(1990) ¡
- Choose ¡individuals ¡that ¡are ¡homozygous ¡at ¡every ¡locus ¡(e.g. ¡TT//AA//CC) ¡
– Haplotype: ¡TAC ¡
- Choose ¡individuals ¡that ¡are ¡heterozygous ¡at ¡just ¡one ¡locus ¡(e.g. ¡TT//AA//
CG) ¡
– Haplotypes: ¡TAC ¡or ¡TAG ¡
- Tally ¡the ¡resul<ng ¡known ¡haplotypes. ¡
- For ¡each ¡known ¡haplotype, ¡look ¡at ¡all ¡remaining ¡unresolved ¡cases: ¡is ¡there ¡
a ¡combina<on ¡to ¡make ¡this ¡haplotype? ¡
– Known ¡haplotype: ¡TAC ¡
- Unresolved ¡pa^ern: ¡AT//AA//CG ¡
- Inferred ¡haplotype: ¡TAC/AAG. ¡Add ¡to ¡list. ¡
– Known ¡haplotype: ¡TAC ¡and ¡TAG ¡
- Unresolved ¡pa^ern: ¡AT//AA//CG ¡
- Inferred ¡haplotypes: ¡TAC ¡and ¡TAG. ¡Add ¡both ¡to ¡list. ¡
- Con<nue ¡un<l ¡all ¡haplotypes ¡have ¡been ¡recovered ¡or ¡no ¡new ¡haplotypes ¡
can ¡be ¡found ¡this ¡way. ¡
Problems: ¡Clark ¡(1990) ¡
- Many ¡unresolved ¡haplotypes ¡at ¡the ¡end ¡
- Ignores ¡recombina<on ¡
– Error ¡in ¡haplotype ¡inference ¡if ¡a ¡crossover ¡of ¡two ¡actual ¡haplotypes ¡is ¡ iden<cal ¡to ¡another ¡true ¡haplotype ¡ – Frequency ¡of ¡such ¡errors ¡depends ¡on ¡recombina<on ¡rate ¡
- Clark ¡(1990): ¡algorithm ¡"performs ¡well" ¡even ¡with ¡small ¡
sample ¡sizes. ¡
PHASE ¡
(Stephens ¡et ¡al., ¡AJHG ¡2001) ¡
- A ¡sta<s<cal ¡approach ¡for ¡finding ¡haplotypes ¡from ¡SNP ¡data ¡
collected ¡for ¡a ¡popula<on ¡of ¡individuals ¡
- Assume ¡haplotypes ¡of ¡ancestor ¡chromosomes ¡and ¡treat ¡modern ¡
individuals’ ¡chromosomes ¡as ¡a ¡mosaic ¡of ¡ancestor ¡chromosomes ¡
- However, ¡ancestor ¡chromosomes ¡cannot ¡be ¡observed! ¡
- Key ¡idea: ¡ ¡
– Haplotype ¡of ¡each ¡individual ¡is ¡a ¡mosaic ¡of ¡other ¡individuals’ ¡haplotypes ¡ – unresolved ¡haplotypes ¡are ¡similar ¡to ¡known ¡haplotypes ¡
PHASE ¡
(Stephens ¡et ¡al., ¡AJHG ¡2001) ¡
- Treat ¡unknown ¡haplotypes ¡as ¡unobserved ¡random ¡quan<<es ¡
and ¡es<mate ¡p(haplotypes ¡| ¡genotypes ¡). ¡
- Future ¡haplotype ¡h ¡is ¡obtained ¡by ¡applying ¡a ¡random ¡number ¡
- f ¡muta<ons, ¡s ¡(sampled ¡from ¡geometric ¡distribu<on), ¡to ¡a ¡
randomly ¡chosen ¡exis<ng ¡haplotype, ¡rα ¡ ¡
Phase ¡
- h1, ¡h2, ¡h3: ¡unobserved ¡ancestral ¡haplotypes ¡ ¡
– we ¡have ¡no ¡SNP ¡data ¡
- h4A, ¡h4B: ¡unobserved ¡haplotypes ¡for ¡modern ¡individuals ¡ ¡
– Haplotypes ¡are ¡unobserved, ¡however, ¡we ¡have ¡SNP ¡data ¡
- Circles: ¡muta<ons ¡
ATCGAAATTTTAAACGTTACGTGATAAAAGTATTACTGAAAAAATTACTAGATAAGATCGATAAATC ¡ ATCGAAATTTTATTCTTTATGCGATAAAAGTATTACTGACTGACATTACTAGATAAGATCGATAAATC ¡
Mosaic ¡of ¡ ancestor ¡ chromosomes ¡
- States: ¡h1, ¡h2, ¡h3, ¡unobserved ¡ancestral ¡haplotypes ¡
- Transi<on ¡probabili<es ¡(from ¡SNP ¡Xl ¡to ¡Xl+1) ¡are ¡dependent ¡on ¡
– distance ¡between ¡adjacent ¡SNPs ¡dl ¡ ¡ – Recombina<on ¡rate ¡between ¡adjacent ¡SNPs ¡ρl ¡ ¡
- Emission ¡probabili<es: ¡muta<on ¡model ¡
- Task: ¡infer ¡hidden ¡state ¡labels ¡for ¡each ¡locus ¡of ¡each ¡individual ¡(h4A, ¡
h4B) ¡
PHASE ¡Model ¡as ¡an ¡HMM ¡
h1 ¡ h3 ¡ h2 ¡ State ¡space ¡with ¡ possible ¡ transi<ons ¡
PHASE ¡Model ¡as ¡an ¡HMM ¡
- Inferring ¡the ¡unobserved ¡state ¡labels ¡for ¡each ¡of ¡the ¡observed ¡
SNP ¡amounts ¡to ¡haplotype ¡reconstruc<on ¡ ¡
ATCGAAATTTTAAACGTTACGTGATAAAAGTATTACTGAAAAAATTACTAGATAAGATCGATAAATC ¡ ATCGAAATTTTATTCTTTATGCGATAAAAGTATTACTGACTGACATTACTAGATAAGATCGATAAATC ¡ h3h3h3h3h3h3h3h3h3h3h3h3h2h2h2h2h2h2h2……… ¡ h3h3h3h3h3h1h1h1h1h2h2h2h2h2h2h2h2h2h3h3h3…. ¡
Haplotype ¡Structure ¡and ¡Recombina2on ¡Rate ¡ Es2mates: ¡HapMap ¡I ¡vs. ¡HapMap ¡II ¡
Summary: ¡Haplotype ¡Inference ¡Algorithms ¡
- Clark’s ¡parsimony ¡algorithm: ¡
– simple, ¡effec<ve, ¡ – depends ¡on ¡order ¡of ¡individuals ¡in ¡the ¡data ¡set, ¡ – need ¡sufficient ¡number ¡of ¡homozygous ¡individuals, ¡ – Disadvantage: ¡individuals ¡may ¡remain ¡phase ¡indeterminate, ¡biased ¡ es<mates ¡of ¡haplotype ¡frequencies ¡
- PHASE: ¡
– accurate ¡in ¡the ¡inference ¡of ¡common ¡haplotypes ¡ – Algorithm ¡is ¡slow! ¡-‑ ¡Cannot ¡handle ¡a ¡large ¡number ¡of ¡SNPs. ¡
Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡
- Nearby ¡SNPs ¡in ¡the ¡genome ¡are ¡in ¡linkage ¡disequilibrium ¡(LD), ¡
and ¡thus ¡contain ¡redundant ¡informa<on. ¡
- If ¡we ¡knew ¡which ¡SNPs ¡are ¡in ¡LD, ¡we ¡can ¡pre-‑select ¡the ¡
representa<ve ¡SNPs ¡for ¡each ¡LD ¡block ¡of ¡chromosome, ¡and ¡ genotype ¡only ¡for ¡those ¡SNPs. ¡
Genome ¡
These ¡two ¡SNPs ¡are ¡in ¡high ¡LD ¡ and ¡thus ¡are ¡redundant ¡ r2 ¡values ¡ ¡ (black: ¡r2=1, ¡white: ¡r2=0) ¡
Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡
- Two-‑stage ¡data ¡collec<on ¡process ¡
– Stage ¡1: ¡ ¡
- Collect ¡genotype ¡data ¡for ¡a ¡dense ¡set ¡of ¡SNPs ¡for ¡mul<ple ¡
individuals ¡
- Select ¡a ¡non-‑redundant ¡set ¡of ¡tag ¡SNPs ¡by ¡examining ¡the ¡LD ¡
pa^ern ¡ – Stage ¡2: ¡
- Collect ¡genotype ¡data ¡only ¡for ¡the ¡tagSNPs ¡for ¡a ¡large ¡number ¡of ¡
individuals ¡ ¡
Algorithm ¡for ¡Selec2ng ¡Tag ¡SNPs ¡
- Greedy ¡algorithm ¡
Genome ¡
Randomly ¡select ¡a ¡tag ¡SNP ¡
Genome ¡
Find ¡the ¡SNPs ¡with ¡a ¡high ¡LD ¡with ¡ the ¡previously ¡selected ¡tag ¡SNP ¡ (r2>0.8) ¡and ¡remove ¡those ¡SNPs ¡ from ¡the ¡set ¡of ¡candidate ¡tag ¡ SNPs ¡ ¡ ¡ Iterate ¡un<l ¡the ¡set ¡
- f ¡candidate ¡tag ¡
SNPs ¡is ¡empty ¡
HapMap ¡Phase ¡3 ¡Samples ¡
label population sample # samples QC+ Draft 1 ASW* African ancestry in Southwest USA 90 71 CEU* Utah residents with Northern and Western European ancestry from the CEPH collection 180 162 CHB Han Chinese in Beijing, China 90 82 CHD Chinese in Metropolitan Denver, Colorado 100 70 GIH Gujarati Indians in Houston, Texas 100 83 JPT Japanese in Tokyo, Japan 91 82 LWK Luhya in Webuye, Kenya 100 83 MEX* Mexican ancestry in Los Angeles, California 90 71 MKK* Maasai in Kinyawa, Kenya 180 171 TSI Toscans in Italy 100 77 YRI* Yoruba in Ibadan, Nigeria 180 163 1,301 1,115
* Population is made of family trios
HapMap: ¡Allele ¡Frequencies ¡in ¡Different ¡ Popula2ons ¡
- Comparison ¡of ¡allele ¡
frequencies ¡for ¡ individuals ¡from ¡pairs ¡of ¡ popula<ons ¡
- The ¡red ¡regions ¡show ¡
that ¡there ¡are ¡many ¡SNPs ¡ that ¡have ¡similar ¡low ¡ frequencies ¡in ¡each ¡pair ¡
- f ¡analysis ¡panels/
popula<ons. ¡ ¡
- CHB ¡(Chinese) ¡and ¡JPT ¡
(Japanese) ¡have ¡similar ¡ allele ¡frequencies ¡
Summary ¡
- Haplotype: ¡a ¡set ¡of ¡gene<c ¡markers ¡that ¡lie ¡on ¡the ¡same ¡
chromosome ¡
- Haplotype ¡inference ¡
– Clark’s ¡method ¡ – PHASE: ¡probabilis<c ¡modeling ¡approach ¡
- Tag ¡SNPs ¡for ¡saving ¡the ¡genotyping ¡cost ¡
- Preliminary ¡analysis ¡of ¡HapMap ¡SNP ¡data ¡