Genome Assembly Sample Prepara1on Fragments Sequencing - - PowerPoint PPT Presentation

genome assembly
SMART_READER_LITE
LIVE PREVIEW

Genome Assembly Sample Prepara1on Fragments Sequencing - - PowerPoint PPT Presentation

Genome Assembly Sample Prepara1on Fragments Sequencing Reads ACGTAGAATACGTAGAA Assembly ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAAACAGATTAGAGAG Con1gs Paired-End Reads Genomic


slide-1
SLIDE 1

Genome ¡Assembly ¡

slide-2
SLIDE 2

Sample ¡Prepara1on ¡ Sequencing ¡ Assembly ¡

ACGTAGAATACGTAGAAACAGATTAGAGAG…

Con1gs ¡ Fragments ¡ Reads ¡

ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAA

slide-3
SLIDE 3

Paired-­‑End ¡Reads ¡

Genome fragments Genomic ¡segment ¡

Get ¡two ¡reads ¡from ¡ each ¡segment ¡

~100 bp ~100 bp

slide-4
SLIDE 4

Read ¡Coverage ¡

  • Length ¡of ¡genomic ¡segment: ¡L ¡
  • Number ¡of ¡reads: ¡n ¡
  • Length ¡of ¡each ¡read: ¡l ¡

Coverage ¡ ¡C ¡= ¡n ¡l ¡/ ¡L ¡

C

slide-5
SLIDE 5

Fragment ¡Assembly ¡

  • Cover ¡region ¡with ¡~7-­‑fold ¡redundancy ¡
  • Overlap ¡reads ¡and ¡extend ¡to ¡reconstruct ¡the ¡
  • riginal ¡genomic ¡region ¡

¡

slide-6
SLIDE 6

Challenges ¡in ¡Fragment ¡Assembly ¡

  • Repeats: ¡a ¡major ¡problem ¡for ¡fragment ¡assembly ¡
  • > ¡50% ¡of ¡human ¡genome ¡are ¡repeats: ¡

¡ ¡-­‑ ¡over ¡1 ¡million ¡Alu ¡repeats ¡(about ¡300 ¡bp) ¡ ¡ ¡-­‑ ¡about ¡200,000 ¡LINE ¡repeats ¡(1000 ¡bp ¡and ¡longer) ¡

Repeat Repeat Repeat Green ¡and ¡blue ¡fragments ¡are ¡interchangeable ¡when ¡ ¡ assembling ¡repe11ve ¡DNA ¡

slide-7
SLIDE 7

Triazzle: ¡A ¡Fun ¡Example ¡

The ¡puzzle ¡looks ¡simple ¡

¡

BUT ¡there ¡are ¡repeats!!! ¡

¡

The ¡repeats ¡make ¡it ¡very ¡

  • difficult. ¡

¡

Try ¡it ¡– ¡only ¡$7.99 ¡at ¡ www.triazzle.com ¡

slide-8
SLIDE 8

Repeat ¡Types ¡

  • Low-­‑Complexity ¡DNA ¡(e.g. ¡ATATATATACATA…) ¡
  • Microsatellite ¡repeats ¡ ¡ ¡ ¡ ¡(a1…ak)N ¡where ¡k ¡~ ¡3-­‑6 ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(e.g. ¡CAGCAGTAGCAGCACCAG) ¡

  • Transposons/retrotransposons ¡ ¡ ¡ ¡

– SINE ¡ ¡ ¡ ¡Short ¡Interspersed ¡Nuclear ¡Elements ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(e.g., ¡Alu: ¡~300 ¡bp ¡long, ¡106 ¡copies) ¡ – LINE ¡ ¡ ¡ ¡Long ¡Interspersed ¡Nuclear ¡Elements ¡ ¡ ¡ ¡ ¡ ¡~500 ¡-­‑ ¡5,000 ¡bp ¡long, ¡200,000 ¡copies ¡ ¡

  • Gene ¡Families ¡ ¡

¡genes ¡duplicate ¡& ¡then ¡diverge ¡

  • Segmental ¡duplicaCons ¡ ¡~very ¡long, ¡very ¡similar ¡copies ¡
slide-9
SLIDE 9

Fragment ¡Assembly ¡

  • ComputaConal ¡Challenge: ¡assemble ¡

individual ¡short ¡fragments ¡(reads) ¡into ¡a ¡single ¡ genomic ¡sequence ¡(“superstring”) ¡ ¡

  • Un1l ¡late ¡1990s ¡the ¡shotgun ¡fragment ¡

assembly ¡of ¡human ¡genome ¡was ¡viewed ¡as ¡ intractable ¡problem ¡ ¡ ¡ ¡

slide-10
SLIDE 10

Shortest ¡Superstring ¡Problem ¡

  • Problem: ¡Given ¡a ¡set ¡of ¡strings, ¡find ¡a ¡shortest ¡

string ¡that ¡contains ¡all ¡of ¡them ¡

  • Input: ¡ ¡Strings ¡s1, ¡s2,…., ¡sn ¡
  • Output: ¡ ¡A ¡string ¡s ¡that ¡contains ¡all ¡strings ¡ ¡

¡ ¡ ¡s1, ¡s2,…., ¡sn ¡as ¡substrings, ¡such ¡that ¡the ¡length ¡

  • f ¡s ¡is ¡minimized ¡

¡

  • Complexity: ¡ ¡NP-­‑complete ¡ ¡
  • Note: ¡ ¡this ¡formula1on ¡does ¡not ¡take ¡into ¡account ¡

sequencing ¡errors ¡

slide-11
SLIDE 11

Whole ¡Genome ¡Shotgun ¡Sequencing ¡

Genome ¡amplified ¡and ¡sliced ¡into ¡ smaller ¡fragments ¡(>=600bp) ¡ Genome ¡ Build ¡consensus ¡sequence ¡from ¡overlap ¡

slide-12
SLIDE 12

Overlap-­‑Layout-­‑Consensus ¡ ¡

Assemblers: ¡ARACHNE, ¡PHRAP, ¡CAP, ¡TIGR, ¡CELERA ¡ Overlap: ¡ ¡find ¡poten1ally ¡overlapping ¡reads ¡ Layout: ¡ ¡merge ¡reads ¡into ¡con1gs ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡con1gs ¡into ¡supercon1gs ¡ Consensus: ¡ ¡derive ¡the ¡DNA ¡sequence ¡ and ¡correct ¡read ¡errors ¡ ..ACGATTACAATAGGTT..

slide-13
SLIDE 13

Overlap ¡

  • Each ¡read ¡is ¡compared ¡to ¡that ¡of ¡every ¡other ¡read, ¡in ¡both ¡the ¡

forward ¡and ¡reverse ¡complement ¡orienta1ons. ¡ ¡

  • As ¡such, ¡the ¡overlap ¡computa1on ¡step ¡is ¡a ¡very ¡1me ¡intensive ¡

step ¡– ¡especially ¡if ¡the ¡set ¡of ¡reads ¡is ¡very ¡large. ¡

  • For ¡example, ¡the ¡whole ¡genome ¡shotgun ¡assembly ¡of ¡

Drosophila ¡had ¡about ¡3 ¡x ¡10^6 ¡reads ¡of ¡500 ¡bases, ¡requiring ¡ roughly ¡10^13 ¡comparisons ¡(Deonier ¡et ¡al., ¡2010). ¡

  • Even ¡on ¡today's ¡computers, ¡running ¡that ¡many ¡comparisons ¡is ¡

imprac1cal, ¡so ¡seeded ¡algorithm ¡are ¡used ¡

slide-14
SLIDE 14

Overlapping ¡Reads ¡

TAGATTACACAGATTAC TAGATTACACAGATTAC |||||||||||||||||

  • Sort ¡all ¡k-­‑mers ¡in ¡reads ¡
  • Find ¡pairs ¡of ¡reads ¡sharing ¡a ¡k-­‑mer ¡
  • Extend ¡to ¡full ¡alignment ¡– ¡throw ¡away ¡if ¡not ¡>95% ¡

similar ¡

T GA TAGA | || TACA TAGT ||

slide-15
SLIDE 15

Finding ¡Overlapping ¡Reads ¡

Create ¡local ¡mul1ple ¡alignments ¡from ¡the ¡

  • verlapping ¡reads. ¡

TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA

slide-16
SLIDE 16

Finding ¡Overlapping ¡Reads ¡ ¡

Correct ¡errors ¡using ¡mul1ple ¡alignment. ¡

  • Find ¡loca1ons ¡where ¡there ¡is ¡a ¡devia1on ¡in ¡

which ¡1% ¡of ¡the ¡data ¡diverge ¡from ¡the ¡rest. ¡

  • Make ¡those ¡posi1ons ¡agree ¡with ¡the ¡rest. ¡

TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA

slide-17
SLIDE 17

Build ¡the ¡Overlap ¡Graph ¡

  • Overlap ¡graph: ¡the ¡nodes ¡represent ¡actual ¡

reads, ¡and ¡edges ¡represent ¡overlaps ¡between ¡ these ¡reads. ¡ ¡

  • Thus, ¡the ¡genome ¡assembly ¡becomes ¡

equivalent ¡to ¡finding ¡a ¡path ¡through ¡the ¡graph ¡ that ¡visits ¡each ¡node ¡exactly ¡once ¡(i.e., ¡a ¡ Hamiltonian ¡path). ¡

17 ¡

slide-18
SLIDE 18

18 ¡

An ¡overlap ¡graph. ¡Nodes ¡are ¡complete ¡reads ¡and ¡ edges ¡connect ¡reads ¡that ¡overlap. ¡Note ¡that ¡in ¡an ¡ actual ¡graph, ¡reads ¡and ¡overlaps ¡would ¡be ¡much ¡

  • larger. ¡ ¡
slide-19
SLIDE 19

Layout ¡

  • Finding ¡a ¡Hamiltonian ¡path ¡through ¡the ¡
  • verlap ¡graph ¡is ¡not ¡a ¡trivial ¡task. ¡ ¡
  • In ¡order ¡to ¡decrease ¡the ¡size ¡of ¡the ¡graph, ¡the ¡

OLC ¡assembly ¡graph ¡is ¡simplified ¡in ¡the ¡layout ¡ stage, ¡where ¡segments ¡of ¡the ¡graph ¡are ¡ compressed ¡into ¡con1gs ¡

  • Thus, ¡we ¡have ¡to ¡find ¡a ¡manner ¡to ¡decrease ¡

the ¡complexity ¡of ¡the ¡graph ¡

slide-20
SLIDE 20

Graph ¡Reduc1on ¡

  • A ¡con1g ¡would ¡be ¡a ¡subgraph, ¡or ¡a ¡group ¡of ¡

nodes, ¡with ¡many ¡connec1ons ¡among ¡each ¡

  • ther, ¡as ¡they ¡all ¡overlap ¡with ¡each ¡other ¡and ¡

refer ¡to ¡the ¡same ¡sequence ¡(A ¡and ¡B). ¡ ¡

  • Once ¡a ¡subgraph ¡has ¡been ¡iden1fied, ¡these ¡

nodes ¡and ¡edges ¡are ¡compressed ¡into ¡one ¡ node, ¡or ¡a ¡con1g, ¡thereby ¡simplifying ¡the ¡ graph ¡(C) ¡ ¡

20 ¡

slide-21
SLIDE 21

21 ¡

slide-22
SLIDE 22

Separa1ng ¡Con1gs ¡

  • There ¡are ¡two ¡classes ¡of ¡con1gs, ¡unique ¡

conCgs ¡and ¡repeat ¡conCgs. ¡ ¡

  • Unique ¡con1gs ¡are ¡composed ¡of ¡reads ¡that ¡

can ¡be ¡unambiguously ¡assembled. ¡ ¡

  • Repeat ¡con1gs ¡are ¡con1gs ¡with ¡an ¡abnormally ¡

high ¡read ¡coverage ¡or ¡connected ¡to ¡an ¡ abnormally ¡large ¡number ¡of ¡other ¡con1gs ¡

22 ¡

slide-23
SLIDE 23

Too dense: Overcollapsed? Inconsistent links: Overcollapsed? Normal density

Separa1ng ¡Con1gs ¡

slide-24
SLIDE 24

Crea1ng ¡Scaffolds ¡

  • Unique ¡con1gs ¡are ¡joined ¡into ¡larger ¡sequences, ¡

called ¡scaffolds. ¡ ¡

  • The ¡most ¡common ¡way ¡to ¡piece ¡con1gs ¡into ¡

scaffolds ¡is ¡through ¡mate-­‑pair ¡informaCon. ¡ ¡

  • With ¡mate-­‑pair ¡informa1on, ¡assemblers ¡can ¡

iden1fy ¡how ¡far ¡reads ¡and ¡unique ¡con1gs ¡should ¡ be ¡apart ¡from ¡each ¡other. ¡ ¡

– e.g. ¡if ¡a ¡2kb ¡fragment ¡of ¡a ¡genome ¡were ¡sequenced ¡ 100bp ¡on ¡each ¡end, ¡then ¡we ¡know ¡these ¡reads ¡and ¡ the ¡unique ¡con1gs ¡they ¡are ¡in ¡should ¡be ¡roughly ¡2kb ¡

  • apart. ¡ ¡

24 ¡

slide-25
SLIDE 25

Link ¡Con1gs ¡into ¡Scaffolds ¡

Find ¡all ¡links ¡between ¡unique ¡con1gs ¡ Connect ¡con1gs ¡incrementally, ¡if ¡≥ ¡2 ¡links ¡

slide-26
SLIDE 26

Link ¡Con1gs ¡into ¡Scaffolds ¡

Fill gaps in scaffolds with paths of over- collapsed contigs

slide-27
SLIDE 27

Consensus ¡

  • A ¡consensus ¡sequence ¡is ¡derived ¡from ¡a ¡

profile ¡of ¡the ¡assembled ¡fragments ¡

  • A ¡sufficient ¡number ¡of ¡reads ¡is ¡required ¡to ¡

ensure ¡a ¡sta1s1cally ¡significant ¡consensus ¡ ¡

  • Reading ¡errors ¡are ¡corrected ¡
slide-28
SLIDE 28

Derive ¡Consensus ¡Sequence ¡

Derive ¡mul1ple ¡alignment ¡from ¡pairwise ¡read ¡ alignments ¡

TAGATTACACAGATTACTGA TTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAAACTA TAG TTACACAGATTATTGACTTCATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGGGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA

Derive each consensus base by weighted voting

slide-29
SLIDE 29

Problems! ¡

  • The ¡main ¡problem ¡with ¡this ¡approach ¡is ¡that ¡it ¡is ¡

very, ¡very, ¡very ¡slow ¡and ¡will ¡only ¡work ¡on ¡small ¡ genomes ¡or ¡low ¡coverage. ¡

  • Not ¡commonly ¡used ¡for ¡complete ¡assembly, ¡

however, ¡some ¡sopware ¡tools ¡s1ll ¡use ¡this ¡ approach: ¡

– Celera: ¡genome ¡assembler ¡for ¡454, ¡PacBio, ¡and ¡Illumina ¡ data ¡ ¡ – LOCAS: ¡Resequencing ¡genomes. ¡ – HapAssembler: ¡for ¡sequencing ¡highly ¡polymorphic ¡ genomes ¡

slide-30
SLIDE 30

Problems! ¡

Unfortunately, ¡overlap-­‑layout-­‑consensus ¡ approach ¡will ¡not ¡work ¡for ¡NGS ¡data ¡or ¡ significantly ¡large ¡genomes: ¡ – There ¡is ¡too ¡much ¡data. ¡ ¡Calcula1ng ¡the ¡

  • verlap ¡for ¡each ¡pair ¡of ¡reads ¡would ¡take ¡

way ¡to ¡much ¡1me. ¡ ¡ – There ¡has ¡to ¡be ¡a ¡new ¡method ¡for ¡fragment ¡

  • assembly. ¡
slide-31
SLIDE 31

De ¡Bruijn ¡Graph ¡Approach ¡to ¡ Assembly ¡

slide-32
SLIDE 32

De ¡Bruijn ¡Graph ¡for ¡Assembly ¡

  • Introduced ¡in ¡1989. ¡ ¡

¡ ¡

  • Adapted ¡for ¡next ¡genera1on ¡sequencing ¡data. ¡

¡

  • Pevzner. ¡J ¡Biomol ¡Struct ¡Dyn ¡(1989) ¡7:63—73. ¡

Iduly ¡& ¡Waterman. ¡J. ¡Comput ¡Biol ¡(1995) ¡2:291—306. ¡ Euler-­‑SR: ¡Chaisson ¡& ¡Pevzner. ¡Genome ¡Res. ¡(2008) ¡18:324—30. ¡ Velvet: ¡Zerbino ¡& ¡Birney. ¡Genome ¡Res. ¡(2008) ¡18:821—29. ¡ ALLPATHS: ¡Butler ¡et ¡al. ¡Genome ¡Res. ¡(2008) ¡18(5):810—20. ¡ ABySS: ¡Simpson ¡et ¡al. ¡Genome ¡Res ¡(2009) ¡19:1117—1123. ¡

¡

slide-33
SLIDE 33

De ¡Bruijn ¡Graph ¡Construc1on ¡

I. Choose ¡a ¡value ¡of ¡𝑙. ¡

  • II. For ¡each ¡𝑙-­‑mer ¡that ¡exists ¡in ¡any ¡sequence ¡

create ¡an ¡edge ¡with ¡one ¡vertex ¡ ¡labeled ¡as ¡the ¡ prefix ¡and ¡one ¡vertex ¡labeled ¡as ¡the ¡suffix. ¡

  • III. Glue ¡all ¡ver1ces ¡that ¡have ¡the ¡same ¡label. ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

slide-34
SLIDE 34

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc1on ¡

slide-35
SLIDE 35

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc1on ¡

slide-36
SLIDE 36

GTCTATTCGCTAATTCACTA

ATTCG ¡ ATTCA ¡

TTCA ¡ ATTC ¡ TTCG ¡

(Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡

De ¡Bruijn ¡Graph ¡Construc1on ¡

slide-37
SLIDE 37

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

(𝑙 ¡−1)-­‑mers ¡ 𝑙-­‑mers ¡

ABC BCD CDE DEF EFG GHI HIC ICD FGK GKL ¡ ABCD BCDE CDEF DEFG EFGH GHIC HICD ICDE EFGK FGKL ¡

slide-38
SLIDE 38

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

slide-39
SLIDE 39

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡

Bulges ¡(undirected ¡cycles) ¡and ¡whirls ¡(directed ¡cycles) ¡

  • ccur ¡because ¡of ¡sequencing ¡errors ¡or ¡repeats ¡in ¡the ¡
  • genome. ¡

ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-40
SLIDE 40

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-41
SLIDE 41

Typical ¡De ¡Bruijn ¡Graph ¡

… ¡

However, ¡this ¡is ¡over ¡a ¡billion ¡ver1ces ¡(for ¡ a ¡very ¡small ¡bacteria ¡genome). ¡

slide-42
SLIDE 42

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD

slide-43
SLIDE 43

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL

slide-44
SLIDE 44

De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡

ABC BCD CDE DEF EFG FGK GKL

Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Resul1ng ¡Erroneous ¡Genome: ¡ ¡ ¡ABCDEFGKL

1 ¡

slide-45
SLIDE 45

Standard ¡(Mul1-­‑cell) ¡Data ¡ ¡

Coverage ¡

(Chitsaz ¡et ¡al., ¡2011) ¡

slide-46
SLIDE 46

Coverage ¡ Coverage ¡

(Chitsaz ¡et ¡al., ¡2011) ¡

Single-­‑cell ¡Data ¡ ¡

slide-47
SLIDE 47

Detangling ¡the ¡de ¡Bruijn ¡Graph ¡

Even ¡using ¡mate-­‑pair ¡informa1on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op1ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡

  • 1. Error ¡correc1on ¡of ¡reads. ¡
  • 2. Bulge ¡and ¡whirl ¡removal. ¡

47 ¡

slide-48
SLIDE 48

Detangling ¡the ¡de ¡Bruijn ¡Graph ¡

Even ¡using ¡mate-­‑pair ¡informa1on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op1ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡

  • 1. Error ¡correc1on ¡of ¡reads ¡
  • 2. Bulge ¡and ¡whirl ¡removal ¡

48 ¡

PROBLEM! ¡ ¡ Both ¡inevitably ¡ ¡ end-­‑up ¡causing ¡ errors ¡rather ¡than ¡ correcCng ¡then. ¡

slide-49
SLIDE 49

What ¡has ¡been ¡sequenced? ¡

  • We’ve ¡sequenced ¡a ¡number ¡of ¡genomes ¡but ¡

several ¡genomes ¡remain ¡difficult ¡

  • Plant ¡genomes ¡are ¡very ¡hard ¡because ¡they ¡are ¡

extremely ¡long, ¡contain ¡huge ¡repeat ¡regions, ¡ and ¡are ¡polyploid ¡ ¡ ¡

  • Note: ¡we ¡do ¡not ¡dis1nguish ¡

between ¡genotypes… ¡that ¡ is ¡a ¡separate ¡problem ¡

slide-50
SLIDE 50

Organism ¡ Type ¡ Genome ¡Size ¡ No. ¡of ¡predicted ¡ genes ¡ Homo ¡Sapiens ¡ Human ¡ 3.2Gb ¡ 20,251 ¡ Takifugu ¡ rubripes ¡ Puffer ¡fish ¡ 390Mb ¡ ¡ 22-­‑29,000 ¡ Oryza ¡sa1va ¡ Rice ¡ 420Mb ¡ ¡ 32-­‑50,000 ¡ Anopheles ¡ gambiae ¡ Mosquito ¡ 278Mb ¡ 13,700 ¡ Saccharomyces ¡ cerevisiae ¡ Baker’s ¡ yeast ¡ 12.1Mb ¡ 6,200 ¡ Cucumis ¡sa1vus ¡ cucumber ¡ 367Mb ¡ 27,000 ¡

  • kb ¡(= ¡kbp) ¡= ¡kilo ¡base ¡pairs ¡= ¡1,000 ¡bp ¡
  • Mb ¡= ¡mega ¡base ¡pairs ¡= ¡1,000,000 ¡bp ¡
  • Gb ¡= ¡giga ¡base ¡pairs ¡= ¡1,000,000,000 ¡bp. ¡
slide-51
SLIDE 51

Assembly ¡Evalua1on ¡ ¡

  • How ¡can ¡we ¡tell ¡the ¡difference ¡between ¡a ¡good ¡

assembly ¡and ¡a ¡bad ¡assembly? ¡

– Answer: ¡N50 ¡staCsCc, ¡which ¡is ¡a ¡metric ¡of ¡the ¡ length ¡of ¡a ¡set ¡of ¡sequences, ¡with ¡greater ¡weight ¡ given ¡to ¡longer ¡sequences. ¡ – Given ¡a ¡set ¡of ¡sequences ¡of ¡varying ¡lengths, ¡the ¡ N50 ¡length ¡is ¡defined ¡as ¡the ¡length ¡N ¡for ¡which ¡half ¡

  • f ¡all ¡bases ¡in ¡the ¡sequences ¡are ¡in ¡a ¡sequence ¡of ¡

length ¡L ¡< ¡N. ¡ – There ¡are ¡some ¡contradictory ¡in ¡the ¡defini1on(s) ¡of ¡ the ¡N50 ¡value. ¡ ¡

slide-52
SLIDE 52

Other ¡Evalua1ons ¡

  • Number ¡of ¡inser1ons, ¡dele1ons, ¡and ¡

subs1tu1on ¡errors ¡in ¡an ¡assembly ¡

  • misassembly ¡of ¡con1gs ¡(chimeric ¡indels) ¡

52 ¡

>=500 ¡bp ¡

slide-53
SLIDE 53

Other ¡Evalua1ons ¡

  • Number ¡of ¡inser1ons, ¡dele1ons, ¡and ¡

subs1tu1on ¡errors ¡in ¡an ¡assembly ¡

  • misassembly ¡of ¡con1gs ¡(chimeric ¡indels) ¡

53 ¡

>=500 ¡bp ¡