Improving ¡on ¡the ¡Accuracy ¡of ¡a ¡ Genome ¡Assembly ¡
Lecture ¡6: ¡September ¡6, ¡2012 ¡
¡
Improving on the Accuracy of a Genome Assembly Lecture - - PowerPoint PPT Presentation
Improving on the Accuracy of a Genome Assembly Lecture 6: September 6, 2012 Review from Last Lecture Sample PreparaCon Fragments Sequencing Reads
¡
12 ¡
13 ¡
14 ¡
Next ¡ GeneraCon ¡ Sequencer ¡ billions ¡
bad ¡ reads ¡ ¡ CorrecCon ¡ Assembly ¡ billions ¡
good ¡ reads ¡ ¡ ConCgs ¡
16 ¡
AGGATGACCAGGATTAGGACCAGT GATGACCAGGATTAGGACCAGTTC GATGACCAGGATTAGGACCAGTTC ATGACCAGGATTAGGACCAGTTCA ACCAGGATTCGGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC CCAGGATTAGGACCAGTTCATTCA Probably ¡due ¡to ¡an ¡ error ¡sequencing ¡
17 ¡
19 ¡
(! ¡−1)-‑mers ¡ !-‑mers ¡
1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD
1 ¡ 3 ¡ 2 ¡ ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD
ABC BCD CDE DEF EFG FGK GKL
ABC BCD CDE DEF EFG FGK GKL
1 ¡
. ¡
. ¡
. ¡
. ¡
1 ¡ 2 ¡ 5 ¡ 4 ¡ 7 ¡ 10 ¡ 17 ¡ 18 ¡ 19 ¡ 22 ¡ 24 ¡ 27 ¡ 25 ¡ 24 ¡ 1 ¡ 1 ¡ 2 ¡ 4 ¡ 7 ¡ 10 ¡ 15 ¡ 16 ¡ 16 ¡ 17 ¡ 18 ¡ 22 ¡ 22 ¡ 23 ¡
. ¡II. Build ¡the ¡posiConal ¡de ¡Bruijn ¡graph ¡for ¡each ¡set ¡of ¡
ABC BCD CDE DEF EFG FGK GKL FGH GHI HIC ICD
!-‑mers ¡
ABC,1 BCD,2 CDE,3 DEF,4 FGH,6 GHI,7 HIC,8 ICD,9 CDE,10 DEF,11 FGK,13 EFG,12 … ¡ EFG,5
1 ¡ 2 ¡ 5 ¡ 4 ¡ 7 ¡ 10 ¡ 17 ¡ 18 ¡ 19 ¡ 22 ¡ 24 ¡ 27 ¡ 25 ¡ 24 ¡
!-‑mers ¡
AAGTAG,1
AAGTA,1
AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5
AGTAG,2 GTAGC,3 TAGCT,4 TAGCT,4 GCTTG,6 AGCTT,5 AGCTT,5 AAGTA,5 AGTAG,6 AGTAG,9 AGTAG,2 GTAGC,3
AGTAGG,9
GTAGG,10 GTAGG,10
GTAGGG,10
TAGGG,11
TAGGGC,11
TAGGG,11 AGGGC,12 AGGGC,12
AGGGCG,12
GGGCG,13
AAGTAG,1
AAGTA,1
AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5
AGTAG,2 GTAGC,3 TAGCT,4 TAGCT,4 GCTTG,6 AGCTT,5 AGCTT,5 AAGTA,5 AGTAG,6 AGTAG,9 AGTAG,2 GTAGC,3
AGTAGG,9
GTAGG,10 GTAGG,10
GTAGGG,10
TAGGG,11
TAGGGC,11
TAGGG,11 AGGGC,12 AGGGC,12
AGGGCG,12
GGGCG,13
AAGTAG,1
AAGTA,1
AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5
GTAGC,3 TAGCT,4 TAGCT,4 GCTTG,6 AGCTT,5 AGCTT,5 AAGTA,5 AGTAG,6 AGTAG,9 AGTAG,2 GTAGC,3
AGTAGG,9
GTAGG,10 GTAGG,10
GTAGGG,10
TAGGG,11
TAGGGC,11
TAGGG,11 AGGGC,12 AGGGC,12
AGGGCG,12
GGGCG,13
AAGTAG,1
AAGTA,1
AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5
GTAGC,3 TAGCT,4 TAGCT,4 GCTTG,6 AGCTT,5 AGCTT,5 AAGTA,5 AGTAG,6 AGTAG,9 AGTAG,2 GTAGC,3
AGTAGG,9
GTAGG,10 GTAGG,10
GTAGGG,10
TAGGG,11
TAGGGC,11
TAGGG,11 AGGGC,12 AGGGC,12
AGGGCG,12
GGGCG,13
AAGTAG,1
AAGTA,1
AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5
GTAGC,3 TAGCT,4 TAGCT,4 GCTTG,6 AGCTT,5 AGCTT,5 AAGTA,5 AGTAG,6 AGTAG,9 AGTAG,2
AGTAGG,9
GTAGG,10 GTAGG,10
GTAGGG,10
TAGGG,11
TAGGGC,11
TAGGG,11 AGGGC,12 AGGGC,12
AGGGCG,12
GGGCG,13
AAGTAG,1 AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5 AGTAGG,9 GTAGGG,10 TAGGGC,11 AGGGCG,12
. ¡
. ¡
AAGTAG,1 AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AAGTAG,5 AGTAGG,9 GTAGGG,10 TAGGGC,11 AGGGCG,12
AAGTAG,1 AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AGTAGG,9 GTAGGG,10 TAGGGC,11 AGGGCG,12
AAGTAG,1 AGTAGC,2 GTAGCT,3 TAGCTT,4 AGCTTG,5 AGTAGG,9 GTAGGG,10 TAGGGC,11 AGGGCG,12
249 ¡ 1945 ¡
0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡ 1000 ¡ 1200 ¡ 1400 ¡ 1600 ¡ 1800 ¡ 2000 ¡
Euler-‑SR ¡ Velvet ¡ with ¡NGS-‑Refine ¡ without ¡NGS-‑Refine ¡
0 ¡ 1000 ¡ 2000 ¡ 3000 ¡ 4000 ¡ 5000 ¡ 6000 ¡ 7000 ¡ 8000 ¡ 9000 ¡
Euler-‑SR ¡ Velvet ¡ ¡
8997 ¡ 325 ¡ 351 ¡ 47 ¡ 141 ¡ 31 ¡
(Chitsaz ¡et ¡al., ¡2011) ¡
(Chitsaz ¡et ¡al., ¡2011) ¡
0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡ 600 ¡ 700 ¡ 800 ¡ 900 ¡ Euler-‑SR ¡ Velvet-‑SC ¡ with ¡NGS-‑Refine ¡ without ¡NGS-‑Refine ¡
0 ¡ 100 ¡ 200 ¡ 300 ¡ 400 ¡ 500 ¡ Euler-‑SR ¡ Velvet-‑SC ¡
47 ¡ 11 ¡ 351 ¡ 897 ¡ 40 ¡ 267 ¡ 61 ¡ 453 ¡
*(Chitsaz ¡et ¡al., ¡2011) ¡ * ¡ * ¡