Genome Sequencing: Introduc2on to Fragment Assembly Lecture - - PowerPoint PPT Presentation

genome sequencing introduc2on to fragment assembly
SMART_READER_LITE
LIVE PREVIEW

Genome Sequencing: Introduc2on to Fragment Assembly Lecture - - PowerPoint PPT Presentation

Genome Sequencing: Introduc2on to Fragment Assembly Lecture 5: September 4, 2012 Review from Last Lecture Sample Prepara2on Fragments Sample Prepara2on


slide-1
SLIDE 1

Genome ¡Sequencing: ¡Introduc2on ¡ to ¡Fragment ¡Assembly ¡

Lecture ¡5: ¡September ¡4, ¡2012 ¡

¡

slide-2
SLIDE 2

Review ¡from ¡Last ¡Lecture ¡

slide-3
SLIDE 3

Sample ¡Prepara2on ¡

Fragments ¡

slide-4
SLIDE 4

Sample ¡Prepara2on ¡ Sequencing ¡

ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAA

Reads ¡ Fragments ¡ Next ¡Genera2on ¡Sequencing ¡(NGS) ¡

slide-5
SLIDE 5

Sample ¡Prepara2on ¡ Sequencing ¡ Assembly ¡

ACGTAGAATACGTAGAAACAGATTAGAGAG…

Con2gs ¡ Fragments ¡ Reads ¡

ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAA

slide-6
SLIDE 6

6 ¡

Sample ¡Prepara2on ¡ Sequencing ¡ Assembly ¡ Analysis ¡

Fragments ¡ Reads ¡ Con2gs ¡ “…the ¡ability ¡to ¡determine ¡DNA ¡ sequences ¡is ¡star2ng ¡to ¡outrun ¡ the ¡ability ¡of ¡researchers ¡to ¡ store, ¡transmit ¡and ¡especially ¡to ¡ analyze ¡the ¡data.” ¡

¡

  • ­‑ ¡New ¡York ¡Times, ¡November ¡30, ¡2011 ¡
slide-7
SLIDE 7

Sample ¡Prepara2on ¡ Sequencing ¡ Assembly ¡ Analysis ¡

Fragments ¡ Reads ¡ Con2gs ¡

slide-8
SLIDE 8

Algorithms ¡for ¡Fragment ¡ Assembly ¡

slide-9
SLIDE 9

Whole ¡Genome ¡Shotgun ¡Sequencing ¡

Genome ¡amplified ¡and ¡sliced ¡into ¡ smaller ¡fragments ¡(>=600bp) ¡ Genome ¡ Build ¡consensus ¡sequence ¡from ¡overlap ¡

slide-10
SLIDE 10

Tradi2onal ¡(“Sanger”) ¡Sequencing ¡

  • Sequence ¡shotgun ¡fragments ¡of ¡length ¡600 ¡bp ¡

using ¡Sanger ¡sequencing. ¡

  • Fragment ¡Assembly ¡is ¡accomplished ¡using ¡

“overlap-­‑layout-­‑consensus” ¡approach: ¡ ¡

  • overlap: ¡matching ¡all ¡possible ¡reads ¡and ¡finding ¡any ¡
  • verlapping. ¡
  • layout: ¡finding ¡order ¡of ¡reads ¡along ¡DNA ¡and ¡

pu_ng ¡them ¡together. ¡

  • consensus: ¡deriving ¡how ¡sequence ¡will ¡appear ¡

based ¡on ¡layout. ¡

slide-11
SLIDE 11

Overlap-­‑Layout-­‑Consensus ¡Approach ¡

  • Build ¡an ¡overlap ¡graph ¡where ¡each ¡node ¡

represents ¡a ¡read. ¡An ¡edge ¡exists ¡between ¡two ¡ reads ¡if ¡they ¡overlap ¡

  • Traverse ¡the ¡graph ¡to ¡find ¡unambiguous ¡paths ¡

which ¡form ¡the ¡con2gs ¡

slide-12
SLIDE 12

Problems! ¡

  • The ¡main ¡problem ¡with ¡this ¡approach ¡is ¡that ¡it ¡is ¡

very, ¡very, ¡very ¡slow ¡and ¡will ¡only ¡work ¡on ¡small ¡ genomes ¡or ¡low ¡coverage. ¡

  • Not ¡commonly ¡used ¡for ¡complete ¡assembly, ¡

however, ¡some ¡sobware ¡tools ¡s2ll ¡use ¡this ¡ approach: ¡

– Celera: ¡genome ¡assembler ¡for ¡454, ¡PacBio, ¡and ¡Illumina ¡ data ¡ ¡ – LOCAS: ¡Resequencing ¡genomes. ¡ – HapAssembler: ¡for ¡sequencing ¡highly ¡polymorphic ¡ genomes ¡

slide-13
SLIDE 13

Problems! ¡

Unfortunately, ¡overlap-­‑layout-­‑consensus ¡ approach ¡will ¡not ¡work ¡for ¡NGS ¡data ¡or ¡ significantly ¡large ¡genomes: ¡ – There ¡is ¡too ¡much ¡data. ¡ ¡Calcula2ng ¡the ¡

  • verlap ¡for ¡each ¡pair ¡of ¡reads ¡would ¡take ¡

way ¡to ¡much ¡2me. ¡ ¡ – There ¡has ¡to ¡be ¡a ¡new ¡method ¡for ¡fragment ¡

  • assembly. ¡
slide-14
SLIDE 14

De ¡Bruijn ¡Graph ¡Approach ¡to ¡ Assembly ¡

slide-15
SLIDE 15

De ¡Bruijn ¡Graph ¡for ¡Assembly ¡

  • Introduced ¡in ¡1989. ¡ ¡

¡ ¡

  • Adapted ¡for ¡next ¡genera2on ¡sequencing ¡data. ¡

¡

  • Pevzner. ¡J ¡Biomol ¡Struct ¡Dyn ¡(1989) ¡7:63—73. ¡

Iduly ¡& ¡Waterman. ¡J. ¡Comput ¡Biol ¡(1995) ¡2:291—306. ¡ Euler-­‑SR: ¡Chaisson ¡& ¡Pevzner. ¡Genome ¡Res. ¡(2008) ¡18:324—30. ¡ Velvet: ¡Zerbino ¡& ¡Birney. ¡Genome ¡Res. ¡(2008) ¡18:821—29. ¡ ALLPATHS: ¡Butler ¡et ¡al. ¡Genome ¡Res. ¡(2008) ¡18(5):810—20. ¡ ABySS: ¡Simpson ¡et ¡al. ¡Genome ¡Res ¡(2009) ¡19:1117—1123. ¡

¡

slide-16
SLIDE 16

De ¡Bruijn ¡Graph ¡Construc2on ¡

I. Choose ¡a ¡value ¡of ¡!. ¡

  • II. For ¡each ¡!-­‑mer ¡that ¡exists ¡in ¡any ¡sequence ¡

create ¡an ¡edge ¡with ¡one ¡vertex ¡ ¡labeled ¡as ¡the ¡ prefix ¡and ¡one ¡vertex ¡labeled ¡as ¡the ¡suffix. ¡

  • III. Glue ¡all ¡ver2ces ¡that ¡have ¡the ¡same ¡label. ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

slide-17
SLIDE 17

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc2on ¡

slide-18
SLIDE 18

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc2on ¡

slide-19
SLIDE 19

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc2on ¡

slide-20
SLIDE 20

Challenges ¡in ¡Fragment ¡Assembly ¡

¡

  • Repeats ¡in ¡the ¡genome. ¡

¡ ¡

  • Sequencing ¡errors, ¡which ¡vary ¡by ¡plamorm. ¡

¡

  • Size ¡of ¡the ¡data, ¡e.g. ¡1.5 ¡billion ¡reads. ¡

ACCAGTTGACTGGGATCCTTTTTAAAGACTGGGATTTTAACGCG CAGTTGACTG TGGGATCC TGGGATTT TGGGAATT TGGGACTT TGGGA--T TGGGAACTTATT

Subs2tu2on ¡ ¡ Dele2on ¡ Inser2on ¡

slide-21
SLIDE 21

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

(! ¡−1)-­‑mers ¡ !-­‑mers ¡

ABC BCD CDE DEF EFG GHI HIC ICD FGK GKL ¡ ABCD BCDE CDEF DEFG EFGH GHIC HICD ICDE EFGK FGKL ¡

slide-22
SLIDE 22

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

slide-23
SLIDE 23

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡

Bulges ¡(undirected ¡cycles) ¡and ¡whirls ¡(directed ¡cycles) ¡

  • ccur ¡because ¡of ¡sequencing ¡errors ¡or ¡repeats ¡in ¡the ¡
  • genome. ¡

ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-24
SLIDE 24

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-25
SLIDE 25

Typical ¡De ¡Bruijn ¡Graph ¡

… ¡

However, ¡this ¡is ¡over ¡a ¡billion ¡ver2ces ¡(for ¡ a ¡very ¡small ¡bacteria ¡genome). ¡

slide-26
SLIDE 26

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-27
SLIDE 27

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

slide-28
SLIDE 28

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Resul2ng ¡Erroneous ¡Genome: ¡ ¡ ¡ABCDEFGKL

1 ¡

slide-29
SLIDE 29

Paired-­‑end ¡Reads ¡

  • Random ¡fragment ¡with ¡an ¡approximately ¡

known ¡size. ¡

  • Both ¡ends ¡are ¡sequenced. ¡
  • Specified ¡prior ¡to ¡data ¡acquisi2on. ¡

ACTATAAT ¡ ACCGCGAT ¡

Insert ¡Size ¡

slide-30
SLIDE 30

Standard ¡(Mul2-­‑cell) ¡Data ¡ ¡

Coverage ¡

(Chitsaz ¡et ¡al., ¡2011) ¡

slide-31
SLIDE 31

Coverage ¡ Coverage ¡

(Chitsaz ¡et ¡al., ¡2011) ¡

Single-­‑cell ¡Data ¡ ¡

slide-32
SLIDE 32

Detangling ¡the ¡de ¡Bruijn ¡Graph ¡

Even ¡using ¡mate-­‑pair ¡informa2on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op2ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡

  • 1. Error ¡correc2on ¡of ¡reads. ¡
  • 2. Bulge ¡and ¡whirl ¡removal. ¡

32 ¡

slide-33
SLIDE 33

Detangling ¡the ¡de ¡Bruijn ¡Graph ¡

Even ¡using ¡mate-­‑pair ¡informa2on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op2ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡

  • 1. Error ¡correc2on ¡of ¡reads ¡
  • 2. Bulge ¡and ¡whirl ¡removal ¡

33 ¡

PROBLEM! ¡ ¡ Both ¡inevitably ¡ ¡ end-­‑up ¡causing ¡ errors ¡rather ¡than ¡ correcHng ¡then. ¡

slide-34
SLIDE 34

Assembly ¡Demonstra2on ¡

slide-35
SLIDE 35

Notes ¡About ¡Demo ¡

  • We ¡used ¡Velvet ¡because ¡it’s ¡the ¡simplest ¡to ¡use. ¡
  • Write ¡a ¡shell ¡script ¡to ¡run ¡the ¡assembler ¡to ¡keep ¡

track ¡of ¡the ¡parameters ¡you ¡used ¡and ¡to ¡avoid ¡ wri2ng ¡out ¡the ¡command ¡each ¡2me. ¡

  • Almost ¡all ¡assemblers ¡require ¡you ¡to ¡specify ¡the ¡

following: ¡

– value ¡of ¡k, ¡whether ¡the ¡data ¡is ¡paired ¡end, ¡insert ¡ length, ¡minimum ¡con2g ¡length ¡ – And ¡some2mes, ¡whether ¡it ¡is ¡single-­‑cell ¡data. ¡

slide-36
SLIDE 36
  • How ¡you ¡specify ¡the ¡mate-­‑pair ¡informa2on ¡

varies ¡from ¡assembler ¡to ¡assembler. ¡ ¡You ¡ have ¡to ¡read ¡the ¡manual ¡and ¡write ¡a ¡(perl) ¡ script ¡to ¡specify ¡the ¡data ¡in ¡the ¡correct ¡ format! ¡

Notes ¡About ¡Demo ¡

slide-37
SLIDE 37
  • Assemblers ¡can ¡be ¡challenging ¡programs ¡to ¡
  • run. ¡ ¡All ¡of ¡them ¡have ¡intricacies ¡even ¡in ¡the ¡

installa2on ¡of ¡the ¡program. ¡

  • Therefore, ¡running ¡an ¡assembler ¡requires: ¡
  • 1. Some ¡knowledge ¡about ¡Unix/Linux ¡commands. ¡
  • 2. Access ¡to ¡a ¡server ¡with ¡large ¡amounts ¡of ¡

memory ¡(64G ¡for ¡small ¡bacteria ¡genomes, ¡512G ¡ for ¡larger ¡genomes). ¡

Notes ¡About ¡Demo ¡

slide-38
SLIDE 38
  • Be ¡aware ¡that ¡your ¡assembler ¡may ¡not ¡always ¡

produce ¡decent ¡results. ¡ ¡Can ¡you ¡tell ¡if ¡you ¡ did? ¡ ¡Yes. ¡ ¡

Notes ¡About ¡Demo ¡

slide-39
SLIDE 39

Assembly ¡Evalua2on ¡

slide-40
SLIDE 40

What ¡has ¡been ¡sequence? ¡

  • We’ve ¡sequenced ¡a ¡number ¡of ¡genomes ¡but ¡

several ¡genomes ¡remain ¡difficult ¡

  • Plant ¡genomes ¡are ¡very ¡hard ¡because ¡they ¡are ¡

extremely ¡long, ¡contain ¡huge ¡repeat ¡regions, ¡ and ¡are ¡polyploid ¡ ¡ ¡

  • Note: ¡we ¡do ¡not ¡dis2nguish ¡

between ¡genotypes… ¡that ¡ is ¡a ¡separate ¡problem ¡

slide-41
SLIDE 41

Organism ¡ Type ¡ Genome ¡Size ¡ No. ¡of ¡predicted ¡ genes ¡ Homo ¡Sapiens ¡ Human ¡ 3.2Gb ¡ 20,251 ¡ Takifugu ¡ rubripes ¡ Puffer ¡fish ¡ 390Mb ¡ ¡ 22-­‑29,000 ¡ Oryza ¡sa2va ¡ Rice ¡ 420Mb ¡ ¡ 32-­‑50,000 ¡ Anopheles ¡ gambiae ¡ Mosquito ¡ 278Mb ¡ 13,700 ¡ Saccharomyces ¡ cerevisiae ¡ Baker’s ¡ yeast ¡ 12.1Mb ¡ 6,200 ¡ Cucumis ¡sa2vus ¡ cucumber ¡ 367Mb ¡ 27,000 ¡

  • kb ¡(= ¡kbp) ¡= ¡kilo ¡base ¡pairs ¡= ¡1,000 ¡bp ¡
  • Mb ¡= ¡mega ¡base ¡pairs ¡= ¡1,000,000 ¡bp ¡
  • Gb ¡= ¡giga ¡base ¡pairs ¡= ¡1,000,000,000 ¡bp. ¡
slide-42
SLIDE 42

Assembly ¡Evalua2on ¡ ¡

  • How ¡can ¡we ¡tell ¡the ¡difference ¡between ¡a ¡good ¡

assembly ¡and ¡a ¡bad ¡assembly? ¡

– Answer: ¡N50 ¡staHsHc, ¡which ¡is ¡a ¡metric ¡of ¡the ¡ length ¡of ¡a ¡set ¡of ¡sequences, ¡with ¡greater ¡weight ¡ given ¡to ¡longer ¡sequences. ¡ – Given ¡a ¡set ¡of ¡sequences ¡of ¡varying ¡lengths, ¡the ¡ N50 ¡length ¡is ¡defined ¡as ¡the ¡length ¡N ¡for ¡which ¡half ¡

  • f ¡all ¡bases ¡in ¡the ¡sequences ¡are ¡in ¡a ¡sequence ¡of ¡

length ¡L ¡< ¡N. ¡ – There ¡are ¡some ¡contradictory ¡in ¡the ¡defini2on(s) ¡of ¡ the ¡N50 ¡value. ¡ ¡

slide-43
SLIDE 43

Calcula2ng ¡N50 ¡

Alterna2ve ¡defini2on: ¡the ¡largest ¡en2ty ¡E ¡such ¡that ¡ at ¡least ¡half ¡of ¡the ¡total ¡size ¡of ¡the ¡en22es ¡is ¡ contained ¡in ¡en22es ¡larger ¡than ¡E. ¡ ¡

  • 1. Read ¡Fasta ¡file ¡and ¡calculate ¡sequence ¡length. ¡
  • 2. Sort ¡length ¡on ¡reverse ¡order. ¡
  • 3. Calculate ¡Total ¡size. ¡
  • 4. Calculate ¡N50. ¡
slide-44
SLIDE 44

Other ¡Evalua2ons ¡

  • Number ¡of ¡inser2ons, ¡dele2ons, ¡and ¡

subs2tu2on ¡errors ¡in ¡an ¡assembly ¡

  • misassembly ¡of ¡con2gs ¡(chimeric ¡indels) ¡

44 ¡

>=500 ¡bp ¡

slide-45
SLIDE 45

Other ¡Evalua2ons ¡

  • Number ¡of ¡inser2ons, ¡dele2ons, ¡and ¡

subs2tu2on ¡errors ¡in ¡an ¡assembly ¡

  • misassembly ¡of ¡con2gs ¡(chimeric ¡indels) ¡

45 ¡

>=500 ¡bp ¡

slide-46
SLIDE 46

Next ¡Lecture ¡

slide-47
SLIDE 47

Detangling ¡the ¡de ¡Bruijn ¡Graph ¡

Even ¡using ¡mate-­‑pair ¡informa2on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op2ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡

  • 1. Error ¡correc2on ¡of ¡reads ¡
  • 2. Bulge ¡and ¡whirl ¡removal ¡