Parallel Compu,ng Strategies for NGS Sequence Mapping Kun - - PowerPoint PPT Presentation

parallel compu ng strategies for ngs
SMART_READER_LITE
LIVE PREVIEW

Parallel Compu,ng Strategies for NGS Sequence Mapping Kun - - PowerPoint PPT Presentation

Parallel Compu,ng Strategies for NGS Sequence Mapping Kun Huang Doruk Bozdag, Terry Camerlengo, Ha,ce Gulcin Ozer, Joanne Trgovcich, Tea Meulia, Umit Catalyurek


slide-1
SLIDE 1

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

Parallel ¡Compu,ng ¡Strategies ¡for ¡NGS ¡ Sequence ¡Mapping ¡

Kun ¡Huang ¡

Doruk ¡Bozdag, ¡Terry ¡Camerlengo, ¡Ha,ce ¡Gulcin ¡Ozer, ¡ Joanne ¡Trgovcich, ¡Tea ¡Meulia, ¡Umit ¡Catalyurek ¡ Department ¡of ¡Biomedical ¡Informa,cs ¡ OSUCCC ¡Biomedical ¡Informa,cs ¡Shared ¡Resource ¡

slide-2
SLIDE 2

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

2

Outline ¡

  • Introduc)on ¡
  • Different ¡Approaches ¡
  • Paralleliza)on ¡Strategies ¡
  • Summary ¡
slide-3
SLIDE 3

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

3

Data ¡Preprocessing ¡

Mapping ¡Sequences ¡to ¡Reference ¡Genome ¡

  • Solexa ¡and ¡SOLiD ¡sequencers ¡ ¡
  • ~ ¡35-­‑70 ¡bp ¡DNA ¡segments ¡
  • Mapping ¡Methods ¡
  • Need ¡to ¡allow ¡mismatches ¡and ¡gaps ¡
  • SNP ¡loca)ons ¡
  • Sequencing ¡errors ¡
  • Reading ¡errors ¡
  • Indexing ¡and ¡hashing ¡ ¡
  • genome ¡
  • sequence ¡reads ¡
  • Use ¡of ¡quality ¡scores ¡
  • Performance ¡
  • Par))oning ¡the ¡genome ¡or ¡sequence ¡reads ¡
slide-4
SLIDE 4

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

4

Data ¡Preprocessing ¡

Mapping ¡Sequences ¡to ¡Reference ¡Genome ¡

  • ELAND ¡(Cox, ¡unpublished) ¡
  • “Efficient ¡Large-­‑Scale ¡Alignment ¡of ¡Nucleo)de ¡Databases” ¡(Solexa ¡

Ltd.) ¡

  • Very ¡fast ¡
  • Allow ¡at ¡most ¡2 ¡mismatches ¡
  • SeqMap ¡(Jiang, ¡2008) ¡
  • “Mapping ¡massive ¡amount ¡of ¡oligonucleo)des ¡to ¡the ¡genome” ¡
  • Allow ¡at ¡most ¡5 ¡mismatches ¡and ¡gaps ¡
  • RMAP ¡(Smith, ¡2008) ¡ ¡
  • “Using ¡quality ¡scores ¡and ¡longer ¡reads ¡improves ¡accuracy ¡of ¡Solexa ¡

read ¡mapping” ¡

  • MapReads ¡(Applied ¡Biosystems) ¡
slide-5
SLIDE 5

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

5

Mapping ¡Procedure ¡

  • Two ¡steps: ¡
  • Data ¡or ¡genome ¡transform ¡
  • Hashing ¡table ¡
  • Borrows-­‑Wheeler ¡transform ¡
  • Mapping ¡
  • Table ¡lookup ¡or ¡index ¡search ¡
slide-6
SLIDE 6

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

6

Tradeoffs ¡

  • Limi)ng ¡the ¡number ¡of ¡allowed ¡mismatches ¡
  • Ignoring ¡inser)ons ¡and ¡dele)ons ¡or ¡limi)ng ¡their ¡

number ¡and ¡length ¡

  • Ignoring ¡base ¡quality ¡score ¡informa)on ¡
  • Limi)ng ¡the ¡number ¡of ¡reported ¡matching ¡

loca)ons ¡

  • Imposing ¡constraints ¡on ¡read ¡length ¡
  • Ignoring ¡informa)on ¡about ¡errors ¡par)cular ¡to ¡

each ¡sequencing ¡technology ¡

slide-7
SLIDE 7

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

7

Outline ¡

  • Introduc)on ¡
  • Different ¡Approaches ¡
  • Paralleliza)on ¡Strategies ¡
  • Summary ¡
slide-8
SLIDE 8

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

8

Different ¡Approaches ¡

  • Mul)-­‑threading ¡
  • Most ¡on ¡the ¡second ¡step ¡(e.g., ¡Bow)e, ¡SOCS) ¡
  • Or ¡can ¡be ¡for ¡reading ¡and ¡wri)ng ¡(e.g., ¡a ¡GMAP ¡

implementa)on) ¡

  • Rela)vely ¡easy ¡
  • Not ¡scalable ¡
slide-9
SLIDE 9

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

9

Different ¡Approaches ¡

  • Cloud ¡compu)ng ¡
  • CloudBurst ¡
  • MapReduce ¡for ¡RMAP ¡
  • Amazon ¡EC2 ¡
slide-10
SLIDE 10

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

10

Experiment ¡Using ¡Amazon ¡EC2 ¡

Select suitable Amazon Machine Image (AMI)

Transfer the Eland program and reference genomes to the AMI Compile the Eland program and compress the genomes in the AMI Save the AMI Upload the sequence data Run Eland to align sequences on selected number of nodes (instances) Terminate AMI and Exit EC2 Customize the AMI Execute workflow Transfer results from AMI to local PC Logon to EC2 account and start the AMI

slide-11
SLIDE 11

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

11

Experiment ¡Using ¡Amazon ¡EC2 ¡

  • Cloud computing – Amazon Elastic Computing Cloud (EC2)
  • Low-cost : pay per use
  • Easy to maintain and set up
  • Mapping 7.8 million short reads to the human genome in less than

0.5 hour for less than $4

slide-12
SLIDE 12

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

12

Different ¡Approaches ¡

  • Computer ¡cluster ¡
  • Scalability ¡
  • Par))on ¡the ¡reads ¡
  • Par))on ¡the ¡genome ¡
  • Par))on ¡both ¡
  • SOAPv1, ¡MapReads, ¡RMAP ¡
  • MPI ¡
  • Middleware ¡-­‑ ¡DataCuber ¡
slide-13
SLIDE 13

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

13

Outline ¡

  • Introduc)on ¡
  • Different ¡Approaches ¡
  • Paralleliza)on ¡Strategies ¡
  • Summary ¡
slide-14
SLIDE 14

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

14

Mapping ¡Example ¡

  • Hash ¡table ¡

construc)on ¡ using ¡sliding ¡ window ¡

  • Table ¡lookup ¡

to ¡find ¡ matches ¡for ¡ each ¡read ¡

slide-15
SLIDE 15

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

15

Modeling ¡ ¡Run ¡Time ¡Costs ¡

cg ¡: ¡Time ¡to ¡hash ¡a ¡single ¡ genome ¡subsequence ¡ G: ¡Size ¡of ¡genome ¡ cr ¡: ¡Time ¡to ¡process ¡a ¡single ¡ read ¡if ¡no ¡collision ¡ cc ¡: ¡Time ¡to ¡resolve ¡a ¡collision ¡ R: ¡Number ¡of ¡reads ¡ N: ¡Number ¡of ¡computa)on ¡ nodes ¡

slide-16
SLIDE 16

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

16

Par,,on ¡Reads ¡Only ¡ ¡ (PRO) ¡

  • Par))on ¡reads ¡into ¡

N ¡equal ¡parts. ¡

  • Useful ¡when ¡R ¡is ¡

large ¡and ¡G ¡is ¡

  • small. ¡
  • Memory ¡

requirement ¡does ¡ not ¡scale ¡

slide-17
SLIDE 17

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

17

Par,,on ¡Genome ¡Only ¡ ¡ (PGO) ¡

  • Par))on ¡genome ¡

into ¡N ¡equal ¡parts ¡

  • Useful ¡when ¡G ¡is ¡

large ¡and ¡R ¡is ¡small. ¡

  • Memory ¡

requirement ¡scales ¡ perfectly ¡

slide-18
SLIDE 18

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

18

Par,,on ¡Reads ¡and ¡Genome ¡(PRG) ¡

  • A ¡generaliza)on ¡of

¡ PRO ¡and ¡PGO ¡

  • Nodes ¡are ¡

arranged ¡in ¡ N=NRxNG ¡mesh ¡

  • Useful ¡unless ¡

G>>R ¡or ¡G<<R ¡

  • Memory ¡scales ¡

worse ¡than ¡PGO, ¡ but ¡beber ¡than ¡ PRO ¡

slide-19
SLIDE 19

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

19

Suffix ¡Based ¡Assignment ¡

  • A ¡new ¡dimension ¡in ¡par))oning ¡load ¡
  • Assign ¡a ¡set ¡of ¡suffixes ¡of ¡length ¡s ¡to ¡each ¡node ¡
  • 4s ¡suffixes ¡for ¡a ¡given ¡s ¡
  • Each ¡node ¡scans ¡reads ¡and ¡genome ¡subsequences, ¡then ¡only ¡

processes ¡those ¡ending ¡with ¡assigned ¡suffixes ¡

  • Only ¡consider ¡the ¡last ¡s ¡care ¡posi)ons ¡to ¡handle ¡mismatch ¡cases ¡
slide-20
SLIDE 20

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

20

Suffix ¡Based ¡Assignment ¡(SBA) ¡

cgs ¡: ¡Time ¡to ¡compare ¡a ¡ genome ¡sequence ¡ against ¡suffixes ¡ crs ¡: ¡Time ¡to ¡compare ¡a ¡read ¡ against ¡suffixes ¡

  • Under ¡perfect ¡balance ¡G ¡

and ¡R ¡are ¡par))oned ¡ equally ¡ ¡

  • Limited ¡scalability ¡due ¡

to ¡cgs ¡and ¡crs ¡terms ¡

  • Useful ¡for ¡medium ¡

values ¡of ¡N ¡

  • Memory ¡requirement ¡

scales ¡well ¡

slide-21
SLIDE 21

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

21

SBA ¡aRer ¡Par,,oning ¡Reads ¡(SPR) ¡

  • Par))on ¡reads ¡

into ¡NR ¡parts, ¡ then ¡apply ¡SBA ¡

  • n ¡each ¡part ¡
  • Nodes ¡are ¡

arranged ¡in ¡ N=NRxNS ¡mesh ¡

  • Takes ¡advantage ¡
  • f ¡SBA ¡when ¡R ¡is ¡

large ¡

slide-22
SLIDE 22

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

22

SBA ¡aRer ¡Par,,oning ¡Genome ¡(SPG) ¡

  • Par))on ¡genome

¡ into ¡NG ¡parts, ¡ then ¡apply ¡SBA ¡

  • n ¡each ¡part ¡
  • Nodes ¡are ¡

arranged ¡in ¡ N=NGxNS ¡mesh ¡

  • Takes ¡advantage ¡
  • f ¡SBA ¡when ¡G ¡is ¡

large ¡

slide-23
SLIDE 23

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

23

Experimental ¡Setup ¡

  • Our ¡implementa)on ¡is ¡based ¡on ¡MapReads, ¡a ¡part ¡of ¡SOLiD ¡System ¡

Color ¡Space ¡Mapping ¡Tool ¡

  • Implemented ¡in ¡C ¡using ¡MPI ¡
  • Used ¡default ¡covers ¡with ¡allowing ¡up ¡to ¡2 ¡mismatches ¡
  • Experiments ¡on ¡64-­‑node ¡dual ¡2.4GHz ¡Opteron ¡cluster ¡with ¡8GB ¡

memory ¡

  • Nodes ¡are ¡interconnected ¡via ¡Infiniband, ¡used ¡MVAPICH ¡v0.9.8 ¡
  • Reads ¡from ¡a ¡single ¡run ¡of ¡SOLiD ¡system ¡
  • Human ¡Genome ¡Build ¡36.1 ¡(hbp://genome.uscs.edu) ¡
  • ¡ ¡
slide-24
SLIDE 24

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

24

Varying ¡Number ¡of ¡Reads ¡

  • G: ¡800M, ¡R: ¡(16M, ¡32M, ¡64M, ¡130M), ¡L: ¡50, ¡N:16 ¡
  • Par))oning ¡reads ¡helps ¡reducing ¡matching ¡)me ¡
slide-25
SLIDE 25

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

25

Varying ¡Genome ¡Size ¡

  • G: ¡(50M, ¡200M, ¡800M, ¡3080M), ¡R: ¡130M, ¡N:16 ¡
  • Par))oning ¡genome ¡helps ¡reducing ¡hashing ¡)me ¡
slide-26
SLIDE 26

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

26

Varying ¡Number ¡of ¡Nodes ¡

  • G: ¡800M, ¡R: ¡130M, ¡N: ¡(4, ¡16, ¡64) ¡
  • Up ¡to ¡22x ¡speedup: ¡From ¡a ¡day ¡to ¡an ¡hour! ¡
slide-27
SLIDE 27

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

27

Run ¡Time ¡Predic,on ¡

4 9 16 25 36 49 64 N =

slide-28
SLIDE 28

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

28

Outline ¡

  • Introduc)on ¡
  • Different ¡Approaches ¡
  • Paralleliza)on ¡Strategies ¡
  • Summary ¡
slide-29
SLIDE 29

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

29

Conclusions ¡

  • Three ¡strategies ¡for ¡parallel ¡compu)ng ¡of ¡mapping ¡
  • Proposed ¡6 ¡paralleliza)on ¡methods ¡for ¡short ¡sequence ¡

mapping ¡using ¡computer ¡clusters ¡

  • Extensively ¡analyzed ¡performance ¡of ¡each ¡method ¡wrt. ¡

genome ¡size, ¡number ¡of ¡reads ¡and ¡number ¡of ¡nodes ¡

  • Described ¡theore)cal ¡cost ¡models ¡
  • Evaluated ¡performance ¡experimentally ¡
  • Proposed ¡a ¡predic)on ¡func)on ¡to ¡select ¡the ¡best ¡method ¡

for ¡a ¡given ¡scenario ¡

  • Achieved ¡fairly ¡good ¡speedup ¡that ¡allows ¡reducing ¡the ¡

mapping ¡)me ¡from ¡a ¡day ¡to ¡an ¡hour. ¡

slide-30
SLIDE 30

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

30

Future ¡Work ¡

  • A ¡general ¡model ¡that ¡

encompasses ¡all ¡ paralleliza)on ¡ methods ¡

  • N=NRxNGxNS ¡
  • Find ¡best ¡values ¡of ¡

NR, ¡NG ¡and ¡NS ¡for ¡ given ¡R, ¡G, ¡N ¡

  • Inves)gate ¡causes ¡of ¡

imbalance ¡in ¡SBA ¡ ¡

  • Develop ¡a ¡web ¡

service ¡for ¡parallel ¡ short ¡sequence ¡ mapping ¡

slide-31
SLIDE 31

Depa partm tment of nt of Biom iomedic dical Inf l Inform

  • rmatic

tics s

31

Acknowledgement ¡

  • Dr. ¡Catalin ¡C. ¡Barbacioru ¡(ABI) ¡
  • Dr. ¡Ha)ce ¡Gulcin ¡Ozer ¡
  • Dr. ¡Jeffery ¡Parvin ¡
  • CAMDA ¡organizers ¡and ¡commibee ¡
  • NIH ¡– ¡ICBP ¡(5U54CA113001-­‑05), ¡1R01ES017594-­‑0109 ¡
  • NSF, ¡DOE, ¡PhRMA ¡Founda)on ¡
  • OSUCCC ¡