Genome Sequencing Introduc1on and History Sample Prepara1on - - PowerPoint PPT Presentation

genome sequencing introduc1on and history
SMART_READER_LITE
LIVE PREVIEW

Genome Sequencing Introduc1on and History Sample Prepara1on - - PowerPoint PPT Presentation

Genome Sequencing Introduc1on and History Sample Prepara1on Sample Prepara1on Fragments Sample Prepara1on Fragments Sequencing Next Genera1on Sequencing (NGS)


slide-1
SLIDE 1

Genome ¡Sequencing ¡

slide-2
SLIDE 2

Introduc1on ¡and ¡History ¡

slide-3
SLIDE 3
slide-4
SLIDE 4

Sample ¡Prepara1on ¡

slide-5
SLIDE 5

Sample ¡Prepara1on ¡

Fragments ¡

slide-6
SLIDE 6

Sample ¡Prepara1on ¡ Sequencing ¡

ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAA

Reads ¡ Fragments ¡ Next ¡Genera1on ¡Sequencing ¡(NGS) ¡

slide-7
SLIDE 7

Sample ¡Prepara1on ¡ Sequencing ¡ Assembly ¡

ACGTAGAATACGTAGAAACAGATTAGAGAG…

Con1gs ¡ Fragments ¡ Reads ¡

ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAA

slide-8
SLIDE 8

Sample ¡Prepara1on ¡ Sequencing ¡ Assembly ¡ Analysis ¡

Fragments ¡ Reads ¡ Con1gs ¡

slide-9
SLIDE 9

Reference ¡Genome ¡

9 ¡

slide-10
SLIDE 10

De ¡novo ¡vs. ¡Re-­‑sequencing ¡

  • De ¡novo ¡assembly ¡(“from ¡the ¡beginning”) ¡

implies ¡that ¡you ¡have ¡no ¡prior ¡knowledge ¡of ¡ the ¡genome. ¡ ¡ ¡

  • Re-­‑sequencing ¡assembly ¡assumes ¡you ¡have ¡a ¡

copy ¡of ¡the ¡reference ¡genome ¡(that ¡has ¡been ¡ verified ¡to ¡a ¡certain ¡degree). ¡

  • The ¡programs ¡that ¡work ¡for ¡re-­‑sequencing ¡will ¡

not ¡work ¡for ¡de ¡novo. ¡ ¡

slide-11
SLIDE 11

De ¡novo ¡vs. ¡Re-­‑sequencing ¡

slide-12
SLIDE 12

Sample ¡Prepara1on ¡

Fragments

Re-sequencing (LOCAS, Shrimp) requires 15x to 30x coverage. Anything less and re-sequencing programs will not produce results or produce questionable results.

slide-13
SLIDE 13

Sample ¡Prepara1on ¡

Fragments

De-novo assembly requires higher

  • coverage. At least 30x but upwards to

100x’s coverage. Most de novo assemblers require paired-end data.

slide-14
SLIDE 14

Sample ¡Prepara1on ¡ Sequencing ¡ Assembly ¡ Analysis ¡

Fragments ¡ Reads ¡ Con1gs ¡ Our ¡focus ¡for ¡today’s ¡lecture: ¡

  • 1. Comparison ¡of ¡sequencing ¡

plaSorms ¡

  • 2. Details ¡of ¡sample ¡prepara1on ¡
  • 3. Defini1ons ¡and ¡terminologies ¡

concerning ¡data ¡and ¡ sequencing ¡plaSorms ¡

slide-15
SLIDE 15

History ¡and ¡Background ¡

slide-16
SLIDE 16

Landmarks ¡in ¡Sequencing ¡

Efficiency ¡ ¡ (bp/person/ year) ¡ Year ¡ Event ¡ 1870 ¡ Miescher: ¡ ¡Discovers ¡DNA ¡ 1940 ¡ Avery: ¡ ¡Proposes ¡DNA ¡as ¡“Gene1c ¡Material” ¡ 1953 ¡ Watson ¡& ¡Crick: ¡ ¡Double ¡Helix ¡Structure ¡of ¡DNA ¡ 1 ¡ 1965 ¡ Holley: ¡ ¡transfer ¡RNA ¡from ¡Yeast ¡ 1,500 ¡ 1977 ¡ Maxam ¡& ¡Gilbert: ¡"DNA ¡sequencing ¡by ¡chemical ¡ degrada1on” ¡ Sanger: ¡“DNA ¡sequencing ¡with ¡chain-­‑termina1ng ¡ inhibitors” ¡ 15,000 ¡ 1981 ¡ Messing ¡and ¡his ¡colleagues ¡developed ¡“shotgun ¡ sequencing” ¡method ¡ 25,000 ¡ 1987 ¡ ABI ¡markets ¡the ¡first ¡sequencing ¡plaSorm, ¡ABI ¡ 370 ¡

slide-17
SLIDE 17

Landmarks ¡in ¡Sequencing ¡

Efficiency ¡ ¡ (bp/person/year) ¡ Year ¡ Event ¡ 50,000 ¡ 1990 ¡ NIH ¡begins ¡large-­‑scale ¡sequencing ¡bacteria ¡genomes. ¡ 200,000 ¡ 1995 ¡ Craig ¡Venture ¡and ¡Hamilton ¡Smith ¡at ¡the ¡Ins1tute ¡for ¡ Genomic ¡Research ¡(TIGR) ¡published ¡the ¡first ¡complete ¡ genome ¡of ¡a ¡free-­‑living ¡organism ¡in ¡Science. ¡ ¡This ¡marks ¡the ¡ first ¡use ¡of ¡whole-­‑genome ¡shotgun ¡sequencing, ¡elimina1ng ¡ the ¡need ¡for ¡ini1al ¡mapping ¡efforts. ¡ ¡ 2001 ¡ A ¡drai ¡of ¡the ¡human ¡genome ¡was ¡published ¡in ¡Science. ¡ 2001 ¡ A ¡drai ¡of ¡the ¡human ¡genome ¡was ¡published ¡in ¡Nature. ¡ 50,000,000 ¡ 2002 ¡ 454 ¡Life ¡Sciences ¡comes ¡out ¡with ¡a ¡pyrosequencing ¡machine. ¡ 100,000,000 ¡ 2008 ¡ Next ¡genera1on ¡sequencing ¡machines ¡arrive. ¡ Huge ¡ 2011 ¡ Oxford ¡Nanopore: ¡600 ¡Million ¡base ¡pairs ¡per ¡hour. ¡ ¡

slide-18
SLIDE 18

Robert ¡Holley ¡and ¡team ¡in ¡1965 ¡ Watson ¡and ¡Crick ¡ Messing: ¡World’s ¡most-­‑cited ¡ ¡ scien1st ¡ Francis ¡and ¡Collins: ¡Private ¡Human ¡Genome ¡project. ¡ ¡

slide-19
SLIDE 19
slide-20
SLIDE 20
slide-21
SLIDE 21
slide-22
SLIDE 22

Next-­‑Gen ¡Sequencing ¡PlaSorms ¡

454/Roche ¡GS-­‑20/FLX ¡ (2005) ¡ PacBio ¡RS ¡(2009-­‑2010) ¡ 3rd ¡genera1on? ¡ Illumina ¡HISeq ¡ ¡ (2007) ¡

slide-23
SLIDE 23

23 ¡

slide-24
SLIDE 24

Comparison ¡of ¡PlaSorms ¡

Technology ¡ Reads ¡per ¡run ¡ Average ¡Read ¡ Length ¡ bp ¡per ¡run ¡ Types ¡of ¡ errors ¡ 454 ¡(Roche) ¡ 400,000 ¡ 250-­‑1000bp ¡ 70 ¡Million ¡ Subs1tu1on ¡ SoLID ¡(ABI) ¡ 88-­‑132 ¡Million ¡ 35bp ¡ 1 ¡Billion ¡ Illumina ¡HISeq ¡ 150 ¡Million ¡ 100 ¡– ¡200bp ¡ 15 ¡Billion ¡ Subs1tu1on ¡ with ¡ exponen1al ¡ increase ¡ PacBio ¡ 45,000 ¡ 1000-­‑2000bp ¡ 45 ¡Million ¡ Inser1ons ¡and ¡ dele1ons ¡

\ ¡

slide-25
SLIDE 25

Sequencing ¡Methods ¡and ¡ Terminology ¡

slide-26
SLIDE 26

Sanger ¡Sequencing ¡

  • The ¡key ¡principle ¡of ¡the ¡Sanger ¡method ¡was ¡the ¡

dideoxynucleo1de ¡triphosphates ¡(ddNTPs) ¡as ¡ DNA ¡chain ¡terminators. ¡ ¡

  • These ¡ddNTPs ¡will ¡also ¡be ¡radioac1vely ¡for ¡

detec1on ¡in ¡automated ¡sequencing ¡machines. ¡

  • Posi1ves: ¡longer ¡reads ¡(600 ¡to ¡1000 ¡bp). ¡
  • Nega1ves: ¡poor ¡coverage ¡(6x), ¡expensive, ¡
  • inaccurate. ¡ ¡ ¡
  • S1ll ¡commonly ¡used ¡for ¡small ¡scale ¡sequencing. ¡
slide-27
SLIDE 27

Sanger ¡Sequencing ¡Video ¡

slide-28
SLIDE 28

Sanger ¡Sequencing ¡

SHEAR DNA target sample

slide-29
SLIDE 29

Sanger ¡Sequencing ¡

SHEAR DNA target sample

A ¡ A ¡ A ¡ A ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡

Close each fragment many times.

slide-30
SLIDE 30

Sanger ¡Sequencing ¡

30 ¡

SHEAR DNA target sample

A ¡ A ¡ A ¡ A ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡ C ¡ G ¡ T ¡ A C G T

slide-31
SLIDE 31

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A DNA ¡polymerase ¡ Primer ¡

slide-32
SLIDE 32

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A DNA ¡polymerase ¡ Primer ¡ Primer ¡ DNA ¡polymerase ¡ A ¡ C ¡ G ¡ T ¡ A

slide-33
SLIDE 33

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A Primer ¡ DNA ¡polymerase ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡

slide-34
SLIDE 34

G ¡

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A Primer ¡ DNA ¡polymerase ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡

slide-35
SLIDE 35

G ¡ G ¡

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A Primer ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡

slide-36
SLIDE 36

C ¡ G ¡ G ¡

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A Primer ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡

slide-37
SLIDE 37

G ¡ A ¡ C ¡ G ¡ G ¡

Sanger ¡Sequencing ¡

A ¡ C ¡ G ¡ T ¡ A Primer ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡ T ¡

slide-38
SLIDE 38

Sanger ¡Sequencing ¡

Primer ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡

slide-39
SLIDE 39

Sanger ¡Sequencing ¡

Primer ¡ A ¡ A ¡ A ¡ G ¡ G ¡ C ¡ C ¡ C ¡ T ¡ C ¡ T ¡ A ¡ C ¡ T ¡ Con1nue ¡un1l ¡all ¡strands ¡of ¡DNA ¡ ¡ have ¡undergone ¡this ¡reac1on. ¡ ¡If ¡you ¡ choose ¡the ¡reagents ¡correctly ¡then ¡you ¡ ¡ should ¡have ¡all ¡possible ¡A-­‑terminated ¡ ¡ strands; ¡resul1ng ¡in ¡sequences ¡of ¡varying ¡

  • lengths. ¡
slide-40
SLIDE 40

Sanger ¡Sequencing ¡

slide-41
SLIDE 41

Sanger ¡Sequencing ¡

In ¡the ¡radioac1ve ¡gel, ¡the ¡longer ¡DNA ¡fragments ¡ move ¡to ¡the ¡bopom ¡and ¡the ¡shorter ¡ones ¡move ¡to ¡ ¡ the ¡top. ¡ ¡ ¡ ¡ Aierward ¡the ¡sequence ¡can ¡be ¡read ¡off ¡by ¡going ¡ ¡ from ¡top ¡to ¡bopom. ¡

slide-42
SLIDE 42

Challenges ¡

  • Requires ¡a ¡lot ¡of ¡space ¡and ¡>me: ¡you ¡need ¡a ¡

place ¡to ¡run ¡the ¡reac1on, ¡and ¡then ¡you ¡need ¡a ¡ gel ¡to ¡determine ¡the ¡length ¡of ¡the ¡DNA ¡

– You ¡could ¡only ¡run ¡perhaps ¡a ¡hundred ¡of ¡these ¡ reac1ons ¡at ¡any ¡one ¡1m ¡ – There ¡are ¡3 ¡billion ¡base ¡pairs ¡of ¡DNA ¡in ¡the ¡human ¡ genome, ¡meaning ¡about ¡6 ¡million ¡500-­‑base ¡pair ¡ fragments ¡of ¡DNA ¡

  • Nonetheless ¡it ¡was ¡s1ll ¡used ¡to ¡come ¡up ¡with ¡the ¡

first ¡copy ¡of ¡the ¡human ¡genome ¡

42 ¡

slide-43
SLIDE 43

Celera ¡Sequencing ¡(2001) ¡

  • 300 ¡ABI ¡DNA ¡sequencing ¡plaSorms ¡
  • 50 ¡produc1on ¡staff ¡
  • 20,000 ¡square ¡feet ¡of ¡wet ¡lab ¡space ¡
  • 1 ¡million ¡dollars ¡/ ¡year ¡for ¡electrical ¡service ¡
  • 10 ¡million ¡dollars ¡in ¡reagents ¡

Total ¡cost ¡of ¡human ¡genome: ¡2.7 ¡Billion ¡dollars ¡

slide-44
SLIDE 44

Celera ¡Sequencing ¡(2001) ¡

  • 300 ¡ABI ¡DNA ¡sequencing ¡plaSorms ¡
  • 50 ¡produc1on ¡staff ¡
  • 20,000 ¡square ¡feet ¡of ¡wet ¡lab ¡space ¡
  • 1 ¡million ¡dollars ¡/ ¡year ¡for ¡electrical ¡service ¡
  • 10 ¡million ¡dollars ¡in ¡reagents ¡

Current ¡cost ¡of ¡human ¡genome: ¡< ¡10,000 ¡$ ¡

slide-45
SLIDE 45
  • Second ¡genera1on ¡sequencing ¡techniques ¡
  • vercome ¡the ¡restric1ons ¡by ¡finding ¡ways ¡to ¡

sequence ¡the ¡DNA ¡without ¡having ¡to ¡move ¡it ¡

  • around. ¡ ¡
  • You ¡s1ck ¡the ¡bit ¡of ¡DNA ¡you ¡want ¡to ¡sequence ¡

in ¡a ¡liple ¡dot, ¡called ¡a ¡cluster, ¡and ¡you ¡do ¡the ¡ sequencing ¡there; ¡as ¡a ¡result, ¡you ¡can ¡pack ¡ many ¡millions ¡of ¡clusters ¡into ¡one ¡machine. ¡ ¡

Second/Next ¡Genera1on ¡Sequencing ¡

slide-46
SLIDE 46

Sequencing ¡a ¡strand ¡of ¡DNA ¡while ¡ keeping ¡it ¡held ¡in ¡place ¡is ¡tricky, ¡and ¡ requires ¡a ¡lot ¡of ¡cleverness. ¡

slide-47
SLIDE 47

Illumina ¡Sequencing: ¡Video ¡

slide-48
SLIDE 48

Steps ¡in ¡Illumina ¡sequencing ¡

  • Sample ¡prep: ¡size ¡select ¡fragments, ¡add ¡

adapters ¡to ¡ensure ¡the ¡fragments ¡ligate ¡to ¡the ¡ flow ¡cell ¡(1 ¡to ¡5 ¡days) ¡

48 ¡

ligate ¡adapters ¡

slide-49
SLIDE 49

Steps ¡in ¡Illumina ¡sequencing ¡

  • Cluster ¡genera1on ¡on ¡flow ¡cell ¡

¡ Why ¡do ¡we ¡need ¡clusters? ¡

49 ¡

slide-50
SLIDE 50

A ¡flow ¡cell ¡ contains ¡8 ¡lanes ¡

Each ¡lane ¡contains ¡three ¡columns ¡of ¡1les ¡ Each ¡column ¡contains ¡100 ¡1les ¡ 20K ¡to ¡30K ¡clusters ¡ ¡ Each ¡1le ¡is ¡imaged ¡four ¡1mes ¡per ¡cycle, ¡ ¡ which ¡is ¡one ¡image ¡per ¡base ¡

slide-51
SLIDE 51

We ¡mul1ply ¡up ¡the ¡template ¡stand, ¡i.e. ¡the ¡bit ¡of ¡DNA ¡that ¡we ¡ are ¡sequencing, ¡and ¡s1ck ¡on ¡a ¡few ¡bases ¡of ¡‘adaptor ¡sequence’; ¡ this ¡sequence ¡s1cks ¡on ¡to ¡complementary ¡bits ¡of ¡DNA ¡stuck ¡to ¡a ¡ surface, ¡which ¡holds ¡the ¡DNA ¡in ¡place ¡while ¡we ¡sequence ¡it: ¡

slide-52
SLIDE 52

Steps ¡in ¡Illumina ¡sequencing ¡

  • Turn ¡on ¡the ¡sequencing ¡machine ¡and ¡wait ¡(1 ¡

week)… ¡

52 ¡

slide-53
SLIDE 53

We ¡then ¡flood ¡the ¡DNA ¡with ¡RT-­‑bases. ¡We ¡also ¡add ¡a ¡ polymerase ¡enzyme, ¡which ¡incorporates ¡the ¡RT-­‑base ¡into ¡the ¡ new ¡strand ¡that ¡is ¡complementary ¡to ¡the ¡template ¡strand: ¡

slide-54
SLIDE 54

We ¡then ¡wash ¡away ¡all ¡the ¡RT-­‑bases, ¡leaving ¡just ¡those ¡that ¡ were ¡incorporated ¡into ¡the ¡new ¡strand; ¡we ¡can ¡read ¡off ¡what ¡ base ¡this ¡is ¡by ¡looking ¡at ¡the ¡color ¡of ¡the ¡dye: ¡

slide-55
SLIDE 55
slide-56
SLIDE 56

56 ¡

slide-57
SLIDE 57

57 ¡

slide-58
SLIDE 58
  • Illumina ¡uses ¡the ¡modified ¡version ¡of ¡Sanger ¡

sequencing ¡called ¡dye-­‑terminator ¡method. ¡

  • In ¡a ¡single ¡Illumina ¡machine ¡we ¡have ¡hundreds ¡of ¡

millions ¡of ¡these ¡clusters; ¡cameras ¡look ¡at ¡all ¡of ¡these ¡ dots ¡and ¡record ¡how ¡they ¡change ¡color ¡over ¡1me, ¡ allowing ¡you ¡to ¡determine ¡the ¡sequence ¡of ¡bases ¡of ¡ millions ¡of ¡bits ¡of ¡DNA ¡at ¡once. ¡ ¡

  • Sequencing ¡method ¡is ¡actually ¡prepy ¡inefficient, ¡

however, ¡the ¡machine ¡is ¡capable ¡of ¡sequencing ¡ millions ¡of ¡fragments ¡of ¡DNA ¡at ¡once. ¡

slide-59
SLIDE 59

Inside ¡the ¡Illumina ¡Machine ¡

59 ¡