Haplotypes 02-223 How to Analyze Your Own Genome Fall - - PowerPoint PPT Presentation

haplotypes
SMART_READER_LITE
LIVE PREVIEW

Haplotypes 02-223 How to Analyze Your Own Genome Fall - - PowerPoint PPT Presentation

Haplotypes 02-223 How to Analyze Your Own Genome Fall 2013 Single Nucleo2de Polymorphism (SNP) GATCTTCGTACTGAGT GATCTTCGTACTGAGT C p GATTTTCGTACGGAAT C m GATTTTCGTACTGAGT


slide-1
SLIDE 1

Haplotypes ¡

02-­‑223 ¡How ¡to ¡Analyze ¡Your ¡Own ¡Genome ¡ Fall ¡2013 ¡

slide-2
SLIDE 2

a diploid individual Cp Cm

chromosome

  • SNP: “Binary” nucleotide substitutions at a single locus on a chromosome
  • each variant is called an "allele”
  • Haplotype: a stretch of consecutive nucleotides that lie on the same chromosome
  • GATCTTCGTACTGAGT

GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT

Single ¡Nucleo2de ¡Polymorphism ¡(SNP) ¡

slide-3
SLIDE 3

2 1 3 6 1 9 1 5 1 7 4 1 9 6 2 9 1 7 2 1 2 1 2 7 1 4 6 7 1 1 81 8 1 4 1 01

Genotypes Haplotypes

1 3 1 1 5 4 9 2 1 7 1 2 7 6 1 1 8 4 1 2 6 9 1 7 1 6 9 2 1 2 1 4 7 1 8 1 1 Haplotype Re-construction Chromosome phase is known Chromosome phase is unknown

Haplotype ¡and ¡Genotype ¡

  • Haplotype: ¡a ¡collec<on ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡

chromosome ¡

slide-4
SLIDE 4

C T A T G A C G A T T A

haplotype h≡(h1, h2)

possible associations of alleles to chromosome

Heterozygous diploid individual

C T A T G A

Cp Cm Genotype g

pairs of alleles with association of alleles to chromosomes unknown

ATGC

sequencing

TC TG AA

Phase ¡ambiguity ¡

  • ­‑-­‑ ¡haplotype ¡reconstruc2on ¡for ¡individuals ¡
slide-5
SLIDE 5

Why ¡Haplotypes? ¡

  • Haplotypes ¡have ¡a ¡greater ¡power ¡for ¡discrimina<ng ¡genomic ¡

regions ¡

– Consider ¡J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2J ¡possible ¡haplotypes ¡ ¡

  • but ¡in ¡fact, ¡far ¡fewer ¡are ¡seen ¡in ¡human ¡popula<on ¡

– SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡

  • f ¡alleles ¡

– Good ¡gene<c ¡marker ¡for ¡popula<on, ¡evolu<on ¡and ¡hereditary ¡diseases ¡ ¡

slide-6
SLIDE 6

GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome

Haplotypes ¡and ¡SNPs ¡

  • ¡ ¡SNPs ¡can ¡dis<nguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡

another ¡group ¡with ¡T) ¡

  • ¡ ¡Haplotypes ¡can ¡dis<nguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡

with ¡CTG, ¡TGA, ¡and ¡CTA) ¡

slide-7
SLIDE 7

GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATTTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome

disease X healthy healthy

Haplotypes ¡and ¡SNPs ¡

  • ¡ ¡Haplotypes ¡can ¡have ¡a ¡greater ¡power ¡to ¡detect ¡disease-­‑related ¡genome ¡

region ¡

slide-8
SLIDE 8

Haplotype ¡Analyses ¡

  • Haplotype ¡analyses ¡

– Linkage ¡disequilibrium ¡assessment ¡ – Disease-­‑gene ¡discovery ¡ – Gene<c ¡demography ¡ – Chromosomal ¡evolu<on ¡studies ¡

slide-9
SLIDE 9

Inferring ¡Haplotypes ¡

  • Genotype: ¡AT//AA//CG ¡

– Maternal ¡genotype: ¡TA//AA//CC ¡ – Paternal ¡genotype: ¡TT//AA//CG ¡ – Then ¡the ¡haplotype ¡is ¡AAC/TAG. ¡

  • Genotype: ¡AT//AA//CG ¡

– Maternal ¡genotype: ¡AT//AA//CG ¡ – Paternal ¡genotype: ¡AT//AA//CG ¡ – Cannot ¡determine ¡unique ¡haplotype ¡

  • Problem: ¡How ¡can ¡we ¡determine ¡haplotypes ¡without ¡parental ¡

genotypes ¡

slide-10
SLIDE 10

Haplotype ¡Inference ¡(Phasing) ¡

  • Given ¡mul<locus ¡genotypes ¡at ¡a ¡set ¡of ¡SNPs ¡for ¡many ¡individuals, ¡

phasing ¡means ¡

– Reconstruct ¡haplotypes ¡for ¡all ¡individuals ¡ – Es<mate ¡frequencies ¡of ¡all ¡possible ¡haplotypes ¡

  • Haplotype ¡reconstruc<on ¡algorithm ¡

– Clark’s ¡parsimony ¡algorithm ¡(Clark, ¡Mol. ¡Biol. ¡Evol. ¡1990) ¡ – PHASE ¡(Li ¡and ¡Stephens, ¡Gene<cs ¡2003) ¡

  • Recovers ¡haplotypes ¡
  • It ¡also ¡

– Es<mate ¡recombina<on ¡rate, ¡recombina<on ¡hotspots ¡ – Impute ¡missing ¡genotypes ¡

slide-11
SLIDE 11

Genotype representations 0/0  0 1/1  1 0/1  2 Genotypes of 14 individual

21 2 222 02 02 1 111 22 11 0 000 01 02 1 111 22 21 2 222 02 02 1 111 22 11 0 000 01 02 1 111 22 21 2 222 02 22 2 222 21 21 1 222 02 02 1 111 22 22 2 222 21 21 2 222 02 || | ||| ||

Iden2fiability ¡

slide-12
SLIDE 12

01 1 000 00 11 0 000 01 01 1 000 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 01 1 000 00 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 11 0 000 01 11 0 000 01 01 1 000 00 00 1 111 11 01 1 000 00 11 0 000 01 00 1 111 11 01 1 000 00 11 0 000 01 11 0 000 01 || | ||| || 01 1 000 00 || | ||| || 00 1 111 11 || | ||| ||

11 10 7

01 1 111 00 11 0 000 01 01 1 111 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 11 0 000 01 11 1 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 || | ||| || 11 0 010 01 || | ||| || 11 1 000 01 || | ||| || 11 0 000 11 || | ||| || 01 1 111 00 || | ||| || 01 1 101 00 || | ||| || 01 0 111 00 || | ||| || 00 1 111 11 || | ||| || 00 1 111 01 || | ||| ||

8 1 1 1 8 1 1 6 1

01 1 101 00 11 0 010 01 01 1 111 00 00 1 111 11 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 0 111 00 11 1 000 01 00 1 111 11 01 1 111 00 11 0 000 01 11 0 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 01 00 1 111 11 11 0 000 01 11 1 000 01 01 1 111 00 00 1 111 11 01 1 111 00 11 0 000 11 00 1 111 01 01 1 111 00 11 0 000 01

Parsimonious solution

Iden2fiability ¡

slide-13
SLIDE 13

Haplotype ¡Reconstruc2on ¡Algorithm ¡by ¡ Clark ¡(1990) ¡

  • Choose ¡individuals ¡that ¡are ¡homozygous ¡at ¡every ¡locus ¡(e.g. ¡TT//AA//CC) ¡

– Haplotype: ¡TAC ¡

  • Choose ¡individuals ¡that ¡are ¡heterozygous ¡at ¡just ¡one ¡locus ¡(e.g. ¡TT//AA//

CG) ¡

– Haplotypes: ¡TAC ¡or ¡TAG ¡

  • Tally ¡the ¡resul<ng ¡known ¡haplotypes. ¡
  • For ¡each ¡known ¡haplotype, ¡look ¡at ¡all ¡remaining ¡unresolved ¡cases: ¡is ¡there ¡

a ¡combina<on ¡to ¡make ¡this ¡haplotype? ¡

– Known ¡haplotype: ¡TAC ¡

  • Unresolved ¡pa^ern: ¡AT//AA//CG ¡
  • Inferred ¡haplotype: ¡TAC/AAG. ¡Add ¡to ¡list. ¡

– Known ¡haplotype: ¡TAC ¡and ¡TAG ¡

  • Unresolved ¡pa^ern: ¡AT//AA//CG ¡
  • Inferred ¡haplotypes: ¡TAC ¡and ¡TAG. ¡Add ¡both ¡to ¡list. ¡
  • Con<nue ¡un<l ¡all ¡haplotypes ¡have ¡been ¡recovered ¡or ¡no ¡new ¡haplotypes ¡

can ¡be ¡found ¡this ¡way. ¡

slide-14
SLIDE 14

Problems: ¡Clark ¡(1990) ¡

  • Many ¡unresolved ¡haplotypes ¡at ¡the ¡end ¡
  • Ignores ¡recombina<on ¡

– Error ¡in ¡haplotype ¡inference ¡if ¡a ¡crossover ¡of ¡two ¡actual ¡haplotypes ¡is ¡ iden<cal ¡to ¡another ¡true ¡haplotype ¡ – Frequency ¡of ¡such ¡errors ¡depends ¡on ¡recombina<on ¡rate ¡

  • Clark ¡(1990): ¡algorithm ¡"performs ¡well" ¡even ¡with ¡small ¡

sample ¡sizes. ¡

slide-15
SLIDE 15

PHASE ¡

(Stephens ¡et ¡al., ¡AJHG ¡2001) ¡

  • A ¡sta<s<cal ¡approach ¡for ¡finding ¡haplotypes ¡from ¡SNP ¡data ¡

collected ¡for ¡a ¡popula<on ¡of ¡individuals ¡

  • Assume ¡haplotypes ¡of ¡ancestor ¡chromosomes ¡and ¡treat ¡modern ¡

individuals’ ¡chromosomes ¡as ¡a ¡mosaic ¡of ¡ancestor ¡chromosomes ¡

  • However, ¡ancestor ¡chromosomes ¡cannot ¡be ¡observed! ¡
  • Key ¡idea: ¡ ¡

– Haplotype ¡of ¡each ¡individual ¡is ¡a ¡mosaic ¡of ¡other ¡individuals’ ¡haplotypes ¡ – unresolved ¡haplotypes ¡are ¡similar ¡to ¡known ¡haplotypes ¡

slide-16
SLIDE 16

PHASE ¡

(Stephens ¡et ¡al., ¡AJHG ¡2001) ¡

  • Treat ¡unknown ¡haplotypes ¡as ¡unobserved ¡random ¡quan<<es ¡

and ¡es<mate ¡p(haplotypes ¡| ¡genotypes ¡). ¡

  • Future ¡haplotype ¡h ¡is ¡obtained ¡by ¡applying ¡a ¡random ¡number ¡
  • f ¡muta<ons, ¡s ¡(sampled ¡from ¡geometric ¡distribu<on), ¡to ¡a ¡

randomly ¡chosen ¡exis<ng ¡haplotype, ¡rα ¡ ¡

slide-17
SLIDE 17

Phase ¡

  • h1, ¡h2, ¡h3: ¡unobserved ¡ancestral ¡haplotypes ¡ ¡

– we ¡have ¡no ¡SNP ¡data ¡

  • h4A, ¡h4B: ¡unobserved ¡haplotypes ¡for ¡modern ¡individuals ¡ ¡

– Haplotypes ¡are ¡unobserved, ¡however, ¡we ¡have ¡SNP ¡data ¡

  • Circles: ¡muta<ons ¡

ATCGAAATTTTAAACGTTACGTGATAAAAGTATTACTGAAAAAATTACTAGATAAGATCGATAAATC ¡ ATCGAAATTTTATTCTTTATGCGATAAAAGTATTACTGACTGACATTACTAGATAAGATCGATAAATC ¡

Mosaic ¡of ¡ ancestor ¡ chromosomes ¡

slide-18
SLIDE 18
  • States: ¡h1, ¡h2, ¡h3, ¡unobserved ¡ancestral ¡haplotypes ¡
  • Transi<on ¡probabili<es ¡(from ¡SNP ¡Xl ¡to ¡Xl+1) ¡are ¡dependent ¡on ¡

– distance ¡between ¡adjacent ¡SNPs ¡dl ¡ ¡ – Recombina<on ¡rate ¡between ¡adjacent ¡SNPs ¡ρl ¡ ¡

  • Emission ¡probabili<es: ¡muta<on ¡model ¡
  • Task: ¡infer ¡hidden ¡state ¡labels ¡for ¡each ¡locus ¡of ¡each ¡individual ¡(h4A, ¡

h4B) ¡

PHASE ¡Model ¡as ¡an ¡HMM ¡

h1 ¡ h3 ¡ h2 ¡ State ¡space ¡with ¡ possible ¡ transi<ons ¡

slide-19
SLIDE 19

PHASE ¡Model ¡as ¡an ¡HMM ¡

  • Inferring ¡the ¡unobserved ¡state ¡labels ¡for ¡each ¡of ¡the ¡observed ¡

SNP ¡amounts ¡to ¡haplotype ¡reconstruc<on ¡ ¡

ATCGAAATTTTAAACGTTACGTGATAAAAGTATTACTGAAAAAATTACTAGATAAGATCGATAAATC ¡ ATCGAAATTTTATTCTTTATGCGATAAAAGTATTACTGACTGACATTACTAGATAAGATCGATAAATC ¡ h3h3h3h3h3h3h3h3h3h3h3h3h2h2h2h2h2h2h2……… ¡ h3h3h3h3h3h1h1h1h1h2h2h2h2h2h2h2h2h2h3h3h3…. ¡

slide-20
SLIDE 20

Haplotype ¡Structure ¡and ¡Recombina2on ¡Rate ¡ Es2mates: ¡HapMap ¡I ¡vs. ¡HapMap ¡II ¡

slide-21
SLIDE 21

Summary: ¡Haplotype ¡Inference ¡Algorithms ¡

  • Clark’s ¡parsimony ¡algorithm: ¡

– simple, ¡effec<ve, ¡ – depends ¡on ¡order ¡of ¡individuals ¡in ¡the ¡data ¡set, ¡ – need ¡sufficient ¡number ¡of ¡homozygous ¡individuals, ¡ – Disadvantage: ¡individuals ¡may ¡remain ¡phase ¡indeterminate, ¡biased ¡ es<mates ¡of ¡haplotype ¡frequencies ¡

  • PHASE: ¡

– accurate ¡in ¡the ¡inference ¡of ¡common ¡haplotypes ¡ – Algorithm ¡is ¡slow! ¡-­‑ ¡Cannot ¡handle ¡a ¡large ¡number ¡of ¡SNPs. ¡

slide-22
SLIDE 22

Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡

  • Nearby ¡SNPs ¡in ¡the ¡genome ¡are ¡in ¡linkage ¡disequilibrium ¡(LD), ¡

and ¡thus ¡contain ¡redundant ¡informa<on. ¡

  • If ¡we ¡knew ¡which ¡SNPs ¡are ¡in ¡LD, ¡we ¡can ¡pre-­‑select ¡the ¡

representa<ve ¡SNPs ¡for ¡each ¡LD ¡block ¡of ¡chromosome, ¡and ¡ genotype ¡only ¡for ¡those ¡SNPs. ¡

Genome ¡

These ¡two ¡SNPs ¡are ¡in ¡high ¡LD ¡ and ¡thus ¡are ¡redundant ¡ r2 ¡values ¡ ¡ (black: ¡r2=1, ¡white: ¡r2=0) ¡

slide-23
SLIDE 23

Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡

  • Two-­‑stage ¡data ¡collec<on ¡process ¡

– Stage ¡1: ¡ ¡

  • Collect ¡genotype ¡data ¡for ¡a ¡dense ¡set ¡of ¡SNPs ¡for ¡mul<ple ¡

individuals ¡

  • Select ¡a ¡non-­‑redundant ¡set ¡of ¡tag ¡SNPs ¡by ¡examining ¡the ¡LD ¡

pa^ern ¡ – Stage ¡2: ¡

  • Collect ¡genotype ¡data ¡only ¡for ¡the ¡tagSNPs ¡for ¡a ¡large ¡number ¡of ¡

individuals ¡ ¡

slide-24
SLIDE 24

Algorithm ¡for ¡Selec2ng ¡Tag ¡SNPs ¡

  • Greedy ¡algorithm ¡

Genome ¡

Randomly ¡select ¡a ¡tag ¡SNP ¡

Genome ¡

Find ¡the ¡SNPs ¡with ¡a ¡high ¡LD ¡with ¡ the ¡previously ¡selected ¡tag ¡SNP ¡ (r2>0.8) ¡and ¡remove ¡those ¡SNPs ¡ from ¡the ¡set ¡of ¡candidate ¡tag ¡ SNPs ¡ ¡ ¡ Iterate ¡un<l ¡the ¡set ¡

  • f ¡candidate ¡tag ¡

SNPs ¡is ¡empty ¡

slide-25
SLIDE 25

HapMap ¡Phase ¡3 ¡Samples ¡

label population sample # samples QC+ Draft 1 ASW* African ancestry in Southwest USA 90 71 CEU* Utah residents with Northern and Western European ancestry from the CEPH collection 180 162 CHB Han Chinese in Beijing, China 90 82 CHD Chinese in Metropolitan Denver, Colorado 100 70 GIH Gujarati Indians in Houston, Texas 100 83 JPT Japanese in Tokyo, Japan 91 82 LWK Luhya in Webuye, Kenya 100 83 MEX* Mexican ancestry in Los Angeles, California 90 71 MKK* Maasai in Kinyawa, Kenya 180 171 TSI Toscans in Italy 100 77 YRI* Yoruba in Ibadan, Nigeria 180 163 1,301 1,115

* Population is made of family trios

slide-26
SLIDE 26

HapMap: ¡Allele ¡Frequencies ¡in ¡Different ¡ Popula2ons ¡

  • Comparison ¡of ¡allele ¡

frequencies ¡for ¡ individuals ¡from ¡pairs ¡of ¡ popula<ons ¡

  • The ¡red ¡regions ¡show ¡

that ¡there ¡are ¡many ¡SNPs ¡ that ¡have ¡similar ¡low ¡ frequencies ¡in ¡each ¡pair ¡

  • f ¡analysis ¡panels/

popula<ons. ¡ ¡

  • CHB ¡(Chinese) ¡and ¡JPT ¡

(Japanese) ¡have ¡similar ¡ allele ¡frequencies ¡

slide-27
SLIDE 27

Summary ¡

  • Haplotype: ¡a ¡set ¡of ¡gene<c ¡markers ¡that ¡lie ¡on ¡the ¡same ¡

chromosome ¡

  • Haplotype ¡inference ¡

– Clark’s ¡method ¡ – PHASE: ¡probabilis<c ¡modeling ¡approach ¡

  • Tag ¡SNPs ¡for ¡saving ¡the ¡genotyping ¡cost ¡
  • Preliminary ¡analysis ¡of ¡HapMap ¡SNP ¡data ¡