Midterm Review 02-223 Personalized Medicine: Understanding - - PowerPoint PPT Presentation

midterm review
SMART_READER_LITE
LIVE PREVIEW

Midterm Review 02-223 Personalized Medicine: Understanding - - PowerPoint PPT Presentation

Midterm Review 02-223 Personalized Medicine: Understanding Your Own Genome Fall 2014 Term Paper Term paper ideas Survey of a parFcular disease


slide-1
SLIDE 1

Midterm ¡Review ¡

02-­‑223 ¡Personalized ¡Medicine: ¡ Understanding ¡Your ¡Own ¡Genome ¡ Fall ¡2014 ¡

slide-2
SLIDE 2

Term ¡Paper ¡

  • Term ¡paper ¡ideas ¡

– Survey ¡of ¡a ¡parFcular ¡disease ¡that ¡has ¡a ¡geneFc ¡component ¡

  • HunFngton ¡disease ¡– ¡we ¡know ¡what ¡mutaFon ¡causes ¡this ¡disease ¡but ¡

how ¡much ¡is ¡known ¡about ¡the ¡biological ¡mechanism ¡behind ¡how ¡this ¡ mutaFon ¡gives ¡rise ¡to ¡the ¡disease? ¡

  • Type ¡I ¡& ¡II ¡diabetes, ¡asthma, ¡Crohn’s ¡disease, ¡cysFc ¡fibrosis ¡etc. ¡
  • Cancer ¡– ¡some ¡cancer ¡types ¡are ¡more ¡related ¡than ¡others, ¡e.g., ¡breast ¡

& ¡ovarian ¡cancer ¡ – Data ¡analysis ¡(using ¡Matlab, ¡C, ¡soVware ¡packages, ¡etc.) ¡

  • Find ¡genes ¡with ¡hidden ¡Markov ¡models ¡from ¡human ¡genome ¡ ¡
  • Download ¡Hapmap ¡data ¡and ¡perform ¡haplotype ¡inference ¡with ¡

PHASE/fastPHASE ¡soVware ¡

  • PopulaFon ¡structure ¡analysis ¡of ¡mulF-­‑populaFon ¡hapmap ¡data. ¡

Cluster ¡individuals ¡into ¡populaFon ¡groups ¡

  • HapMap ¡expression ¡quanFtaFve ¡trait ¡locus ¡(eQTL) ¡mapping ¡with ¡

regression ¡analysis ¡ – Discussion ¡and ¡survey ¡of ¡ethical ¡and ¡legal ¡issues ¡

  • What ¡happened ¡to ¡23andme? ¡Direct-­‑to-­‑consumer ¡geneFc ¡tests? ¡ ¡ ¡
  • Whole-­‑genome ¡sequencing ¡as ¡a ¡geneFc ¡test? ¡
  • Patent ¡and ¡genomes ¡
slide-3
SLIDE 3

Proposal ¡

  • Title, ¡team ¡members ¡
  • 2-­‑3 ¡sentences ¡for ¡each ¡of ¡the ¡following ¡

– Problem ¡statement ¡ – Approach ¡ – Resources ¡you ¡plan ¡to ¡use ¡

  • 1 ¡inch ¡margin ¡11pt ¡font ¡size, ¡half ¡a ¡page ¡
slide-4
SLIDE 4

Terminology ¡

  • Allele: ¡different ¡forms ¡of ¡geneFc ¡

variaFons ¡at ¡a ¡given ¡gene ¡or ¡ geneFc ¡locus ¡

– Locus ¡1 ¡has ¡two ¡alleles, ¡A ¡and ¡T, ¡ and ¡Locus ¡2 ¡has ¡two ¡alleles, ¡C ¡and ¡ G ¡

  • Genotype: ¡specific ¡allelic ¡make-­‑up ¡
  • f ¡an ¡individual’s ¡genome ¡

– Individual ¡1 ¡has ¡genotype ¡AA ¡at ¡ Locus ¡1 ¡and ¡genotype ¡CG ¡at ¡Locus ¡ 2 ¡

  • Heterozygous/Homozygous ¡

– Locus ¡1 ¡of ¡Individual ¡1 ¡is ¡ homozygous, ¡and ¡Locus ¡2 ¡is ¡ heterozygous ¡

A ¡ A ¡ C ¡ G ¡ Locus ¡1 ¡ Locus ¡2 ¡ A ¡ T ¡ C ¡ C ¡ Locus ¡1 ¡ Locus ¡2 ¡ Individual ¡1 ¡ Individual ¡2 ¡

slide-5
SLIDE 5

Advantages ¡of ¡SNPs ¡in ¡Popula>on ¡Gene>cs ¡ Studies ¡

  • Abundance: ¡high ¡frequency ¡on ¡the ¡genome ¡
  • PosiFon: ¡throughout ¡the ¡genome ¡ ¡

– coding ¡region, ¡intron ¡region, ¡promoter ¡site ¡

  • Ease ¡of ¡genotyping ¡(high-­‑throughput ¡genotyping) ¡
  • SNPs ¡account ¡for ¡around ¡90% ¡of ¡human ¡genomic ¡variaFon ¡
  • However, ¡only ¡two ¡alleles ¡at ¡each ¡locus, ¡less ¡informaFve ¡than ¡
  • microsatellites. ¡(Use ¡haplotypes!) ¡
slide-6
SLIDE 6

Gene>c ¡Polymorphisms ¡

  • InserFon/deleFon ¡of ¡a ¡secFon ¡of ¡DNA ¡

– Minisatellites: ¡repeated ¡base ¡paferns ¡(several ¡hundred ¡base ¡pairs) ¡ – Microsatellites: ¡2-­‑4 ¡nucleoFdes ¡repeated ¡ – Presence ¡or ¡absence ¡of ¡Alu ¡segments ¡ – Many ¡alleles, ¡very ¡informaFve ¡because ¡of ¡the ¡high ¡heterozygosity ¡(the ¡ chance ¡that ¡a ¡randomly ¡selected ¡person ¡will ¡be ¡heterozygous) ¡

slide-7
SLIDE 7

Working ¡with ¡SNP ¡Data ¡in ¡Prac>ce ¡

  • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡

– A/T/C/G ¡lefers ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡

  • 0 ¡: ¡minor ¡allele ¡homozygous ¡
  • 1: ¡heterozygous ¡
  • 2: ¡major ¡allele ¡homozygous ¡
  • Given ¡genotype ¡data ¡for ¡N ¡individuals ¡
  • For ¡each ¡locus, ¡we ¡can ¡define ¡minor ¡allele ¡frequency ¡as ¡follows: ¡

¡ (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡minor ¡alleles ¡in ¡the ¡ populaFon)/(total ¡number ¡of ¡alleles ¡in ¡the ¡populaFon) ¡

  • Typically, ¡SNPs ¡with ¡a ¡very ¡low ¡minor ¡allele ¡frequency ¡are ¡discarded, ¡

since ¡they ¡don’t ¡contain ¡sufficient ¡informaFon ¡about ¡geneFc ¡diversity ¡

slide-8
SLIDE 8

Technology ¡and ¡Genomes ¡

  • What ¡are ¡the ¡things ¡that ¡we ¡learned ¡about ¡genomes ¡with ¡

introducFon ¡of ¡each ¡of ¡the ¡new ¡technology? ¡

– Sanger ¡sequencing ¡(e.g., ¡human ¡genome ¡sequencing ¡project) ¡ – SNP ¡array ¡(e.g., ¡HapMap ¡project) ¡ – Next ¡generaFon ¡sequencing ¡technology ¡(e.g., ¡1000 ¡genome ¡project) ¡

slide-9
SLIDE 9

HMMs ¡and ¡Gene ¡Structure ¡

  • NucleoFdes ¡{A,C,G,T} ¡are ¡the ¡observables ¡and ¡labels ¡{intergenic, ¡start/stop, ¡

coding} ¡are ¡the ¡unobserved ¡states. ¡

  • Different ¡states ¡generate ¡nucleoFdes ¡at ¡different ¡frequencies ¡
  • A ¡simple ¡HMM ¡for ¡unspliced ¡genes: ¡

¡ ¡ AAAGC ¡ATG ¡CAT ¡TTA ¡ACG ¡AGA ¡GCA ¡CAA ¡GGG ¡CTC ¡TAA ¡TGCCG ¡

  • The ¡sequence ¡of ¡states ¡is ¡an ¡annotaFon ¡of ¡the ¡generated ¡string ¡– ¡each ¡

nucleoFde ¡is ¡generated ¡in ¡intergenic, ¡start/stop, ¡coding ¡state ¡

slide-10
SLIDE 10

Linkage ¡Disequilibrium ¡in ¡SNP ¡Data ¡

  • r2 ¡in ¡SNP ¡data ¡from ¡a ¡populaFon ¡of ¡individuals ¡(Black: ¡r2=1, ¡

white: ¡r2=0) ¡

genome ¡ genome ¡

slide-11
SLIDE 11

2 1 3 6 1 9 1 5 1 7 4 1 9 6 2 9 1 7 2 1 2 1 2 7 1 4 6 7 1 1 81 8 1 4 1 01

Genotypes Haplotypes

1 3 1 1 5 4 9 2 1 7 1 2 7 6 1 1 8 4 1 2 6 9 1 7 1 6 9 2 1 2 1 4 7 1 8 1 1 Haplotype Re-construction Chromosome phase is known Chromosome phase is unknown

Haplotype ¡and ¡Genotype ¡

  • Haplotype: ¡a ¡collecFon ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡

chromosome ¡

slide-12
SLIDE 12

C T A T G A C G A T T A

haplotype h≡(h1, h2)

possible associations of alleles to chromosome

Heterozygous diploid individual

C T A T G A

Cp Cm Genotype g

pairs of alleles with association of alleles to chromosomes unknown

ATGC

sequencing

TC TG AA

Haplotypes ¡from ¡SNP ¡Array? ¡

slide-13
SLIDE 13

Why ¡Haplotypes? ¡

  • Haplotypes ¡have ¡a ¡greater ¡power ¡ for ¡discriminaFng ¡genomic ¡

regions ¡

– Consider ¡J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2J ¡possible ¡haplotypes ¡ ¡ – SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡

  • f ¡alleles ¡

– Good ¡geneFc ¡marker ¡for ¡populaFon, ¡evoluFon ¡and ¡hereditary ¡diseases ¡ ¡

slide-14
SLIDE 14

GATCTTCGTACTGAGT GATCTTCGTACTGAGT GATTTTCGTACGGAAT GATCTTCGTACTGAGT GATCTTCGTACTGAAT GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT CTG 3/8 TGA 3/8 CTA 2/8 Haplotype chromosome

Haplotypes ¡and ¡SNPs ¡

  • ¡ ¡SNPs ¡can ¡disFnguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡

another ¡group ¡with ¡T) ¡

  • ¡ ¡Haplotypes ¡can ¡disFnguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡

with ¡CTG, ¡TGA, ¡and ¡CTA) ¡

slide-15
SLIDE 15

Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡

  • Nearby ¡SNPs ¡in ¡the ¡genome ¡are ¡in ¡linkage ¡disequilibrium ¡(LD), ¡

and ¡thus ¡contain ¡redundant ¡informaFon. ¡

  • If ¡we ¡knew ¡which ¡SNPs ¡are ¡in ¡LD, ¡we ¡can ¡pre-­‑select ¡the ¡

representaFve ¡SNPs ¡for ¡each ¡LD ¡block ¡of ¡chromosome, ¡and ¡ genotype ¡only ¡for ¡those ¡SNPs. ¡

Genome ¡

These ¡two ¡SNPs ¡are ¡in ¡high ¡LD ¡ and ¡thus ¡are ¡redundant ¡ r2 ¡values ¡ ¡ (black: ¡r2=1, ¡white: ¡r2=0) ¡

slide-16
SLIDE 16

Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡

  • Two-­‑stage ¡data ¡collecFon ¡process ¡

– Stage ¡1: ¡ ¡

  • Collect ¡genotype ¡data ¡for ¡a ¡dense ¡set ¡of ¡SNPs ¡for ¡mulFple ¡

individuals ¡

  • Select ¡a ¡non-­‑redundant ¡set ¡of ¡tag ¡SNPs ¡by ¡examining ¡the ¡LD ¡

pafern ¡ – Stage ¡2: ¡

  • Collect ¡genotype ¡data ¡only ¡for ¡the ¡tagSNPs ¡for ¡a ¡large ¡number ¡of ¡

individuals ¡ ¡

slide-17
SLIDE 17

Algorithm ¡for ¡Selec>ng ¡Tag ¡SNPs ¡

  • Greedy ¡algorithm ¡

Genome ¡

Randomly ¡select ¡a ¡tag ¡SNP ¡

Genome ¡

Find ¡the ¡SNPs ¡with ¡a ¡high ¡LD ¡with ¡ the ¡previously ¡selected ¡tag ¡SNP ¡ (r2>0.8) ¡and ¡remove ¡those ¡SNPs ¡ from ¡the ¡set ¡of ¡candidate ¡tag ¡ SNPs ¡ ¡ ¡ Iterate ¡unFl ¡the ¡set ¡

  • f ¡candidate ¡tag ¡

SNPs ¡is ¡empty ¡

slide-18
SLIDE 18

Popula>on ¡Structure ¡

  • Hardy-­‑Weinberg ¡Equilibrium ¡
  • GeneFc ¡driV ¡
  • PopulaFon ¡divergence ¡
  • Admixture ¡
slide-19
SLIDE 19

Family-­‑based ¡vs ¡Popula>on-­‑based ¡Studies ¡

  • How ¡can ¡we ¡idenFfy ¡the ¡geneFc ¡loci ¡responsible ¡for ¡determining ¡

phenotypes? ¡

  • Linkage ¡analysis ¡

– Data ¡are ¡collected ¡for ¡family ¡members ¡ – Difficult ¡to ¡collect ¡data ¡on ¡a ¡large ¡number ¡of ¡families ¡ – EffecFve ¡for ¡rare ¡diseases ¡ – Low ¡resoluFon ¡on ¡the ¡genomes ¡due ¡to ¡only ¡few ¡recombinaFons ¡ » a ¡large ¡region ¡of ¡linkage ¡

  • Genome-­‑wide ¡associaFon ¡studies ¡(GWAS) ¡

– Data ¡are ¡collected ¡for ¡unrelated ¡individuals ¡ – Easier ¡to ¡find ¡a ¡large ¡number ¡of ¡affected ¡individuals ¡ – EffecFve ¡for ¡common ¡diseases, ¡compared ¡to ¡family-­‑based ¡method ¡ – RelaFvely ¡high ¡resoluFon ¡for ¡pinpoinFng ¡the ¡locus ¡linked ¡to ¡the ¡ phenotype ¡ » A ¡relaFvely ¡small ¡region ¡of ¡SNP ¡markers ¡in ¡linkage ¡disequilibrium ¡

slide-20
SLIDE 20

How ¡Can ¡We ¡Iden>fy ¡the ¡Unknown ¡Disease ¡Locus? ¡

  • Idea: ¡Given ¡a ¡map ¡of ¡geneFc ¡markers, ¡let’s ¡look ¡for ¡the ¡

markers ¡that ¡are ¡linked ¡to ¡the ¡unknown ¡disease ¡locus ¡(i.e. ¡ linkage ¡between ¡the ¡disease ¡locus ¡and ¡the ¡marker ¡locus) ¡

Disease ¡ ¡ Locus ¡ Marker ¡near ¡the ¡ disease ¡locus ¡ (r<<0.5) ¡ Markers ¡far ¡from ¡ the ¡disease ¡locus ¡ ¡ (r=0.5) ¡

slide-21
SLIDE 21

GWAS: ¡Case/Control ¡Study ¡

  • For ¡each ¡marker ¡locus, ¡find ¡the ¡

3x2 ¡conFngency ¡table ¡containing ¡ the ¡counts ¡of ¡three ¡genotypes ¡

  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡2 ¡df ¡(degree ¡of ¡

freedom) ¡under ¡the ¡null ¡ hypothesis ¡of ¡no ¡associaFon ¡

  • Bonferroni ¡correcFon ¡ ¡

Genotype Case Control Total AA Ncase,AA Ncontrol,AA NAA Aa Ncase,Aa Ncontrol,Aa NAa aa Ncase,aa Ncontrol,aa Naa Total Ncase Ncontrol N

Genotype ¡score ¡= ¡the ¡number ¡of ¡minor ¡alleles ¡ ¡

2

χ

slide-22
SLIDE 22

GWAS: ¡Con>nuous-­‑valued ¡Phenotypes ¡

  • ConFnuous-­‑valued ¡traits ¡

– Also ¡called ¡quanFtaFve ¡traits ¡ – Cholesterol ¡level, ¡blood ¡pressure ¡

  • etc. ¡
  • One ¡cannot ¡create ¡a ¡

conFngency ¡matrix ¡as ¡in ¡case/ control ¡studies ¡

  • For ¡each ¡locus, ¡fit ¡a ¡linear ¡

regression ¡using ¡the ¡number ¡of ¡ minor ¡alleles ¡at ¡the ¡given ¡locus ¡

  • f ¡the ¡individual ¡as ¡covariate ¡
slide-23
SLIDE 23

Linear ¡Regression ¡Model ¡for ¡GWAS ¡

x y β1 : slope ¡ ¡ (associaFon ¡strength) ¡

β0: ¡intercept ¡

ε:noise, ¡ ¡ the ¡part ¡of ¡y ¡that ¡ is ¡not ¡explained ¡ by ¡xβ1+β0 ¡ ¡

y = xβ

1 + β0 +ε

slide-24
SLIDE 24

cis ¡and ¡trans ¡eQTLs ¡

  • cis ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡near ¡the ¡gene ¡

whose ¡expression ¡is ¡affected ¡by ¡the ¡eQTL. ¡

– E.g., ¡mutaFons ¡in ¡the ¡upstream ¡of ¡a ¡gene ¡influences ¡the ¡expression ¡ level ¡of ¡the ¡gene ¡

  • trans ¡eQTL: ¡in ¡genomes, ¡the ¡eQTL ¡is ¡located ¡far ¡away ¡(or ¡on ¡a ¡

different ¡chromosome) ¡from ¡the ¡gene ¡whose ¡expression ¡is ¡ affected ¡by ¡the ¡eQTL. ¡

– E.g., ¡mutaFons ¡in ¡the ¡transcripFon ¡factor ¡gene ¡can ¡influence ¡the ¡ expression ¡level ¡of ¡the ¡TF ¡target ¡genes. ¡

slide-25
SLIDE 25

Personalized ¡Medicine: ¡Are ¡We ¡There ¡Yet? ¡

  • Missing ¡heritability ¡
  • How ¡do ¡we ¡explain ¡the ¡missing ¡heritability? ¡
slide-26
SLIDE 26

Epistasis ¡and ¡Pleiotropy ¡

¡SNPs ¡influencing ¡mulFple ¡phenotypes ¡

ACGTTTTACTGTACAATT ¡

slide-27
SLIDE 27

Defini>on ¡of ¡Coverage ¡

Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ Defini>on: ¡ ¡ Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ C

Adopted ¡from ¡hfp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

slide-28
SLIDE 28

Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡

  • Single-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
slide-29
SLIDE 29

Insertions ¡ ¡ ¡Deletions

courtesy ¡of ¡Tobias ¡Rausch ¡(EMBL) ¡

slide-30
SLIDE 30

1 Copy 1 Copy 0 Copy 2 Copy 2 Copy

  • Chiang et al. (2009)

courtesy ¡of ¡Tobias ¡Rausch ¡(EMBL) ¡

slide-31
SLIDE 31

With ¡reads ¡of ¡length ¡40-­‑100 ¡bps ¡are ¡we ¡able ¡to ¡find ¡the ¡ exact ¡breakpoint ¡of ¡ ¡a ¡structural ¡variaFon? ¡ Yes ¡– ¡using ¡anchored ¡split-­‑read ¡mapping ¡ ¡ ¡ mappable ¡read ¡mate ¡provides ¡anchor ¡to ¡narrow ¡down ¡ search ¡space ¡

Donor ¡ Reference ¡

  • Medvedev et al. (2009)