Alignment of High-Throughput Sequencing Data Inside - - PowerPoint PPT Presentation

alignment of high throughput sequencing data inside in
SMART_READER_LITE
LIVE PREVIEW

Alignment of High-Throughput Sequencing Data Inside - - PowerPoint PPT Presentation

Alignment of High-Throughput Sequencing Data Inside In-Memory Databases D. FIRNKORN, P. KNAUP, J. LORENZO BERMEJO, M. GANZINGER Ins7tute of


slide-1
SLIDE 1

Alignment ¡of ¡ ¡ High-­‑Throughput ¡Sequencing ¡Data ¡ ¡ Inside ¡In-­‑Memory ¡Databases ¡

  • D. ¡FIRNKORN, ¡P. ¡KNAUP, ¡J. ¡LORENZO ¡BERMEJO,

¡

  • M. ¡GANZINGER

¡

¡

Ins7tute ¡of ¡Medical ¡Biometry ¡and ¡Informa7cs, ¡Heidelberg ¡University, ¡Germany

¡

slide-2
SLIDE 2

2

Mo7va7on ¡

Terabytes ¡of ¡data ¡by ¡NGS ¡plaLorms ¡produced ¡each ¡day ¡ Ø Adequate ¡analysis ¡of ¡high ¡throughput ¡data ¡ Ø DNA ¡alignment, ¡variant ¡calling ¡and ¡annota7on ¡ ¡ more ¡7me-­‑consuming ¡than ¡DNA ¡sequencing ¡ ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

DNA sequencing Analysis ~ 2-7 hours ~ 1-2 days

slide-3
SLIDE 3

3

  • Data, ¡procedures, ¡etc. ¡are ¡kept ¡in ¡main ¡memory ¡
  • Compu7ng ¡opera7ons ¡within ¡the ¡database ¡itself ¡
  • No ¡IO ¡between ¡applica7on ¡and ¡database ¡layer ¡

In-­‑Memory ¡Compu7ng ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

IO ¡unit ¡ IO ¡unit ¡

hard ¡disk ¡drive ¡ main ¡memory ¡

working ¡unit ¡ working ¡unit ¡

slide-4
SLIDE 4

4

Objec7ve ¡

  • Inves7ga7on ¡of ¡in-­‑memory ¡databases ¡for ¡DNA ¡alignment ¡

– SAP ¡HANA ¡appliance ¡ – MySQL ¡with ¡in-­‑memory ¡engine ¡ ¡

  • Development ¡of ¡stored ¡procedures ¡for ¡alignment ¡

– Test ¡case: ¡Burrows-­‑Wheeler-­‑Aligner ¡(BWA) ¡ – Performance ¡of ¡both ¡systems ¡evaluated ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

slide-5
SLIDE 5

5

Data ¡Transforma7on ¡and ¡Bulk ¡Load ¡Process ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

e ¡

slide-6
SLIDE 6

6

Methods ¡and ¡Tools ¡

  • Reference ¡genome ¡precalcula7ons ¡for ¡BWA: ¡

– Construc7on ¡of ¡suffix ¡array ¡(SA) ¡ – Construc7on ¡of ¡burrows-­‑wheeler-­‑transforma7on ¡(BWT) ¡

  • Development ¡of ¡stored ¡procedures ¡for ¡alignment: ¡

– First ¡within ¡MySQL ¡for ¡tes7ng ¡purpose ¡ – Por7ng ¡to ¡SAP ¡HANA, ¡syntax ¡adapta7on ¡

  • System ¡informa7on: ¡

– Amazon-­‑Cloud ¡EC2, ¡m2.xlarge ¡(17 ¡GB ¡main ¡memory) ¡ – SAP ¡HANA ¡and ¡MySQL ¡running ¡on ¡same ¡system ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

slide-7
SLIDE 7

7

Process ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

slide-8
SLIDE 8

8

Exact ¡Matching: ¡Performance ¡Comparison ¡

Time ¡in ¡Seconds ¡

Aaer ¡~ ¡2.5 ¡hours ¡execu7on ¡error ¡in ¡MySQL ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

29.8 ¡fold ¡ 24.6 ¡fold ¡

slide-9
SLIDE 9

9

Memory ¡Alloca7on ¡

a) HANA ¡installa7on ¡alone: ¡ 76 ¡% ¡ b) Including ¡reference ¡ genome: ¡99.5 ¡% ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

MySQL: ¡Main ¡memory ¡full ¡allocable ¡with ¡data ¡ ¡ ¡

slide-10
SLIDE 10

10

Comparison ¡

¡ + ¡ ¡ ¡Open ¡source ¡ + ¡ ¡ ¡Recursive ¡procedure ¡calls ¡ – No ¡data ¡compression ¡ ± MEMORY ¡engine, ¡only ¡data ¡ in ¡main ¡memory ¡ MySQL ¡ SAP ¡HANA ¡ ¡ + ¡ ¡ ¡Compression ¡techniques ¡ – No ¡recursive ¡procedure ¡call ¡ – Expensive ¡licensing ¡ ± Column ¡store ¡engine, ¡ everything ¡in ¡main ¡memory ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

slide-11
SLIDE 11

11

Conclusion ¡

  • Proof ¡of ¡concept: ¡DNA ¡alignment ¡inside ¡in-­‑memory ¡databases ¡
  • Implementa7on ¡and ¡comparison ¡of ¡stored ¡procedures ¡for ¡

exact ¡DNA ¡read ¡matching ¡ – SAP ¡HANA ¡technology ¡faster ¡ – Installa7on ¡without ¡data ¡needs ¡much ¡memory ¡ – Inexact ¡matching ¡only ¡in ¡MySQL ¡ ¡ ¡ ¡

Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡

slide-12
SLIDE 12

12

Outlook ¡

  • Algorithm ¡op7miza7on ¡

– Itera7ve ¡BWA ¡ – Scores ¡for ¡match, ¡mismatch ¡and ¡gaps ¡ – Seeding ¡

  • SA ¡genera7on ¡as ¡stored ¡procedure ¡
  • Examine ¡other ¡free ¡in-­‑memory ¡databases: ¡

¡

slide-13
SLIDE 13

13

slide-14
SLIDE 14

14

DNA ¡Sequencing ¡Cost ¡and ¡Speed ¡

slide-15
SLIDE 15

15

Column-­‑Store ¡Tables ¡

  • SAP ¡HANA ¡consists ¡of ¡row ¡and ¡

column ¡engines ¡

  • Tables ¡have ¡been ¡created ¡

within ¡the ¡column ¡engine ¡

  • Faster ¡read ¡opera7ons ¡due ¡to ¡

compression ¡and ¡bejer ¡data ¡ access ¡

slide-16
SLIDE 16

16

Suffix-­‑Array ¡Computa7on ¡