Structural Variations 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

structural variations
SMART_READER_LITE
LIVE PREVIEW

Structural Variations 02-715 Advanced Topics in Computa8onal - - PowerPoint PPT Presentation

Structural Variations 02-715 Advanced Topics in Computa8onal Genomics Challenges Insert sizes of each mate-pair are unknown and can vary Only the


slide-1
SLIDE 1

Structural Variations

02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

slide-2
SLIDE 2

Challenges

  • Insert ¡sizes ¡of ¡each ¡

mate-­‑pair ¡are ¡ unknown ¡and ¡can ¡ vary ¡

  • Only ¡the ¡approximate ¡

distribu8on ¡of ¡insert ¡ sizes ¡is ¡available ¡

slide-3
SLIDE 3

Indels (Insertions/Deletions)

  • Small-­‑size ¡indels ¡with ¡size<10bp: ¡readily ¡iden8fiable ¡with ¡

Smith-­‑Waterman ¡algorithm ¡

  • Large-­‑size ¡indels ¡with ¡size>50bp: ¡rela8vely ¡easy ¡to ¡iden8fy ¡
  • Medium-­‑size ¡indels? ¡

– Difficult ¡to ¡dis8nguish ¡between ¡true ¡indels ¡and ¡ ¡insert-­‑size ¡varia8ons ¡ – Needs ¡methods ¡for ¡beSer ¡resolu8on ¡

slide-4
SLIDE 4

Paired-End Smith-Waterman Alignment Algorithm

  • Detects ¡short ¡indels ¡

– First, ¡align ¡the ¡reads ¡without ¡gaps ¡ – For ¡those ¡read ¡pairs, ¡where ¡only ¡one ¡read ¡is ¡aligned ¡and ¡the ¡other ¡is ¡ not, ¡apply ¡gapped ¡alignment ¡for ¡the ¡unaligned ¡read ¡

slide-5
SLIDE 5

Indels Detected by Paired-End Smith- Waterman Alignment Algorithm

slide-6
SLIDE 6

Other Factors

  • Accuracies ¡can ¡depend ¡on ¡

– Coverage ¡ – Insert ¡sizes ¡ – Read ¡length ¡ – Read ¡alignment ¡accuracy ¡

slide-7
SLIDE 7

Depth of Coverage and Physical Coverage

  • Single-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
  • Paired-­‑end ¡sequencing ¡
slide-8
SLIDE 8

Statistical Methods for Detecting Structural Variants

  • MODIL: ¡small ¡indels ¡
  • MOGUL: ¡small ¡indels, ¡low ¡coverage, ¡many ¡individuals ¡
  • BreakDancer ¡

– BreakDancerMax: ¡detects ¡different ¡types ¡of ¡structural ¡varia8ons ¡ – BreakDancerMini: ¡small ¡indels ¡

  • All ¡methods ¡are ¡based ¡on ¡mixture ¡modeling ¡
slide-9
SLIDE 9

Mate-pair Clusters

  • Many ¡methods ¡are ¡applied ¡to ¡mate-­‑pair ¡clusters ¡a\er ¡

mapping ¡the ¡mate-­‑pairs ¡to ¡reference ¡genome ¡

  • Clustering ¡of ¡mate ¡pairs ¡
slide-10
SLIDE 10

MODIL

  • Mixture ¡of ¡distribu8ons ¡indel ¡locators ¡
  • Model ¡insert-­‑size ¡distribu8ons ¡at ¡each ¡locus ¡i ¡

– Mixture ¡component ¡1 ¡P(Y): ¡mapped ¡distances ¡for ¡no ¡indels ¡ – Mixture ¡component ¡2 ¡P(Ci): ¡mapped ¡distances ¡for ¡indels ¡

slide-11
SLIDE 11

MODIL

Homozygous ¡dele8ons ¡ Heterozygous ¡dele8ons ¡

  • ¡Blue: ¡insert-­‑size ¡distribu8on ¡with ¡no ¡dele8ons ¡
  • ¡Red: ¡insert-­‑size ¡distribu8on ¡with ¡dele8ons ¡
slide-12
SLIDE 12

MODIL Algorithm

  • Map ¡the ¡mate-­‑pairs ¡to ¡reference ¡genome ¡
  • Es8mate ¡P(Y) ¡from ¡mapped ¡distances ¡across ¡the ¡whole ¡genome ¡
  • For ¡each ¡locus ¡i, ¡es8mate ¡P(Ci) ¡from ¡the ¡mate-­‑pairs ¡that ¡span ¡the ¡

locus ¡

– Loca8on-­‑shi\ed ¡distribu8on ¡of ¡P(Y) ¡ – Expected ¡size ¡of ¡indels ¡D1,D2 ¡for ¡each ¡of ¡two ¡haplotypes ¡ ¡ – EM ¡algorithm ¡

  • Expected ¡indel ¡size: ¡
slide-13
SLIDE 13

Applying MODIL to Illumina Dataset

  • 40-­‑fold ¡read ¡coverage ¡
  • Observed ¡insert ¡size: ¡mean ¡208, ¡standard ¡devia8on ¡13 ¡
  • To ¡determine ¡whether ¡there ¡is ¡an ¡inser8on/dele8on ¡at ¡each ¡

locus, ¡find ¡a ¡cluster ¡of ¡mate ¡pairs ¡spanning ¡that ¡locus. ¡Each ¡ cluster ¡is ¡required ¡to ¡have ¡20 ¡mate ¡pairs ¡

slide-14
SLIDE 14

MODIL: Performance

Number ¡of ¡inser8ons/dele8ons ¡ discovered ¡by ¡MODIL ¡

slide-15
SLIDE 15

Mixture of Genotypes Variant Locator (MOGUL): Motivation

  • Higher ¡coverage ¡leads ¡to ¡more ¡accurate ¡results ¡

– MODiL ¡works ¡for ¡more ¡than ¡20 ¡mate-­‑pairs ¡covering ¡each ¡locus ¡ – 1000 ¡genome ¡project: ¡less ¡than ¡4 ¡mate-­‑pairs ¡covering ¡each ¡locus ¡for ¡ each ¡individual ¡ ¡

  • What ¡if ¡we ¡have ¡many ¡individuals ¡with ¡each ¡having ¡lower ¡

coverage ¡

– How ¡can ¡we ¡combine ¡the ¡sta8s8cal ¡strength ¡across ¡mul8ple ¡ individuals? ¡ – Can ¡we ¡es8mate ¡variant ¡loca8ons/sizes ¡and ¡allele ¡frequencies? ¡ – MOGUL ¡(Mixture ¡of ¡Genotypes ¡Variant ¡Locator) ¡(Lee ¡et ¡al., ¡2010) ¡ – Allele ¡frequency/coverage/number ¡of ¡individuals ¡can ¡influence ¡the ¡ performance ¡

slide-16
SLIDE 16

1000 Genome Project

(The 1000 Genome Project Consortium, Nature 2010)

¡ ¡The ¡goal ¡is ¡to ¡characterize ¡over ¡95% ¡of ¡variants ¡that ¡are ¡in ¡genomic ¡regions ¡accessible ¡to ¡

current ¡high-­‑throughput ¡sequencing ¡technologies ¡and ¡that ¡have ¡allele ¡frequency ¡of ¡1% ¡

  • r ¡higher ¡(the ¡classical ¡defini8on ¡of ¡polymorphism) ¡in ¡each ¡of ¡five ¡major ¡popula;on ¡

groups ¡(popula8ons ¡in ¡or ¡with ¡ancestry ¡from ¡Europe, ¡East ¡Asia, ¡South ¡Asia, ¡West ¡Africa ¡ and ¡the ¡Americas) ¡ ¡ Pilot ¡project: ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡179 ¡individuals ¡from ¡four ¡popula8ons ¡

¡ ¡ ¡ ¡ (low ¡coverage: ¡2-­‑6x) ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡6 ¡individuals ¡in ¡two ¡trios ¡ ¡

¡ ¡ ¡ ¡ (deep ¡sequencing: ¡average ¡42x) ¡ ¡ ¡ ¡

  • ­‑ ¡ ¡697 ¡individuals ¡from ¡seven ¡popula8ons ¡

¡ ¡ ¡ ¡ (exon ¡sequencing ¡of ¡8,140 ¡exons: ¡average ¡50x) ¡ ¡ Main ¡project: ¡sequence ¡2500 ¡genomes ¡at ¡4x ¡coverage ¡ ¡

slide-17
SLIDE 17

MoGUL

  • A ¡Bayesian ¡approach ¡for ¡discovering ¡indels ¡from ¡a ¡large ¡

number ¡of ¡individuals ¡sequenced ¡at ¡a ¡low ¡coverage ¡

– Explicitly ¡models ¡each ¡individual ¡as ¡homozygous ¡or ¡heterozygous ¡at ¡ each ¡locus ¡ – Computes ¡expected ¡minor ¡allele ¡frequency ¡(MAF) ¡at ¡each ¡locus ¡ – Allows ¡iden8fica8on ¡of ¡indels ¡> ¡30 ¡bases ¡for ¡MAF ¡> ¡0.04 ¡

slide-18
SLIDE 18

Mate-pair Clusters

  • Clustering ¡of ¡mate ¡pairs ¡
  • Blue/red ¡for ¡each ¡of ¡two ¡individuals ¡
slide-19
SLIDE 19

Insert-size Distributions

  • The ¡insert ¡size ¡distribu8on ¡varies ¡across ¡libraries ¡and ¡

individuals ¡

  • Insert ¡sizes ¡for ¡each ¡individual ¡need ¡to ¡be ¡modeled ¡as ¡

separate ¡random ¡variables ¡

slide-20
SLIDE 20

MOGUL

  • For ¡a ¡given ¡locus ¡

– Xlm: ¡insert ¡size ¡for ¡ individual ¡l, ¡mate ¡pair ¡m

  • Dlm: mapped ¡distance ¡for ¡

l-­‑th ¡individual, ¡m-­‑th ¡mate ¡ pair

  • μYi: ¡mean ¡of ¡the ¡insert ¡

size ¡in ¡the ¡case ¡of ¡no ¡ indels ¡ ¡

slide-21
SLIDE 21

MOGUL

  • For ¡a ¡given ¡locus ¡

– L: ¡Number ¡of ¡individuals ¡ – Ml: ¡Number ¡of ¡mate-­‑pairs ¡ for ¡individual ¡l ¡ – Zl: ¡0/1 ¡for ¡no ¡indels/indels ¡ – Xlm: ¡insert ¡size ¡for ¡ individual ¡l, ¡mate ¡pair ¡m – Qlm : Two ¡copies ¡of ¡ chromosomes

slide-22
SLIDE 22

MoGUL

  • Prior ¡distribu8ons ¡
  • Find ¡a ¡MAP ¡(maximum ¡

a ¡posteriori) ¡es8mate ¡of ¡ the ¡unknown ¡ parameters ¡

slide-23
SLIDE 23

MOGUL: Simulation Study

  • Heatmap ¡for ¡average ¡error ¡rates ¡of ¡20 ¡MOGUL ¡simula8ons ¡ ¡
slide-24
SLIDE 24

BreakDancer

  • BreakDancerMax ¡

– Detects ¡dele8ons, ¡inser8ons, ¡inversions, ¡intrachromosomal ¡and ¡ interchromosomal ¡transloca8ons ¡

  • BreakDancerMini ¡

– Focuses ¡on ¡small ¡indels ¡(10-­‑100bp) ¡that ¡are ¡o\en ¡missed ¡by ¡ BreakDancerMax ¡

slide-25
SLIDE 25

BreakDancer

slide-26
SLIDE 26

BreakDancerMax

  • Detects ¡normal, ¡dele8on, ¡inser8on, ¡inversion, ¡

intrachromosomal ¡transloca8on ¡and ¡interchromosomal ¡ transloca8on ¡

  • Focuses ¡on ¡rela8vely ¡large ¡inser8ons/dele8ons ¡
  • Poisson ¡mixture ¡model ¡with ¡a ¡mixture ¡component ¡for ¡each ¡

type ¡of ¡structural ¡variant ¡

slide-27
SLIDE 27

BreakDancerMax Algorithm

  • Align ¡mate-­‑pairs ¡to ¡reference ¡genome ¡
  • Assign ¡each ¡mate-­‑pair ¡to ¡categories ¡of ¡normal/dele8on/

inser8on/inversion/transloca8on ¡

  • Select ¡those ¡regions ¡spanned ¡by ¡two ¡or ¡more ¡anomalous ¡read ¡

pairs ¡as ¡candidate ¡structural ¡variants ¡

  • Confidence ¡score ¡based ¡on ¡Poisson ¡mixture ¡model ¡is ¡assigned ¡

to ¡each ¡candidate ¡structural ¡variant ¡

slide-28
SLIDE 28

BreakDancerMax: Confidence Score

  • Under ¡the ¡null ¡hypothesis ¡of ¡no ¡variant: ¡ ¡

– the ¡anomalous ¡read ¡pairs ¡are ¡uniformly ¡distributed ¡across ¡the ¡genome ¡ for ¡each ¡type ¡of ¡structural ¡varia8ons ¡

slide-29
SLIDE 29

BreakDancerMax: Confidence Score

  • Given ¡the ¡Poisson ¡mixture ¡model, ¡confidence ¡score ¡for ¡structural ¡variant ¡

type ¡i ¡is ¡given ¡as ¡

– ki: ¡the ¡number ¡of ¡observed ¡type ¡i ¡structural ¡variants ¡ – ni: ¡Poisson ¡random ¡variables ¡with ¡mean ¡λi ¡ – The ¡probability ¡of ¡having ¡more ¡than ¡the ¡expected ¡number ¡of ¡inserts ¡of ¡a ¡structural ¡ variant ¡of ¡each ¡type ¡

  • Poisson ¡mixture ¡model ¡for ¡structural ¡variant ¡type ¡i ¡under ¡the ¡null ¡

hypothesis ¡has ¡mean ¡

– G: ¡the ¡length ¡of ¡the ¡reference ¡genome ¡ – s: ¡the ¡cumula8ve ¡size ¡of ¡the ¡regions ¡that ¡the ¡anomalous ¡read ¡pairs ¡anchor ¡to ¡ – Ni: ¡the ¡number ¡of ¡type ¡i ¡structural ¡variants ¡in ¡the ¡en8re ¡dataset. ¡Simply ¡count ¡the ¡ number ¡of ¡variants ¡in ¡the ¡dataset ¡

slide-30
SLIDE 30

BreakDancerMini

  • Detects ¡small ¡indels ¡that ¡are ¡o\en ¡missed ¡by ¡

BreakDancerMax ¡ ¡

  • Makes ¡use ¡of ¡the ¡normally ¡mapped ¡read ¡pairs ¡that ¡were ¡

ignored ¡by ¡BreakDancerMax ¡

– Regions ¡of ¡normal ¡insert ¡size ¡could ¡be ¡small ¡indels ¡

  • Sliding ¡window ¡test ¡

– Null ¡hypothesis: ¡the ¡distribu8on ¡of ¡insert ¡sizes ¡in ¡the ¡given ¡window ¡is ¡ the ¡same ¡as ¡the ¡distribu8on ¡of ¡insert ¡sizes ¡in ¡the ¡whole ¡genome ¡

slide-31
SLIDE 31

Summary

  • MoDIL ¡

– Sta8s8cal ¡method ¡for ¡detec8ng ¡small ¡indels ¡from ¡paired-­‑end ¡ sequencing ¡data ¡

  • MoGUL ¡

– Probabilis8c ¡model ¡for ¡detec8ng ¡structural ¡variants ¡from ¡a ¡large ¡ number ¡of ¡individuals ¡sequenced ¡at ¡a ¡low ¡coverage ¡

  • BreakDancer ¡

– Genome-­‑wide ¡detec8on ¡of ¡structural ¡variants ¡