Managing very large-scale tes0ng procedures with R VJ - - PowerPoint PPT Presentation

managing very large scale tes0ng procedures with r
SMART_READER_LITE
LIVE PREVIEW

Managing very large-scale tes0ng procedures with R VJ - - PowerPoint PPT Presentation

Managing very large-scale tes0ng procedures with R VJ Carey DSC 2014, Bressanone Task: gene0cs of gene expression 10 6 features x 10 9 variants


slide-1
SLIDE 1

Managing ¡very ¡large-­‑scale ¡ tes0ng ¡procedures ¡with ¡R ¡

VJ ¡Carey ¡ DSC ¡2014, ¡Bressanone ¡

slide-2
SLIDE 2

Task: ¡gene0cs ¡of ¡gene ¡expression ¡

  • 106 ¡features ¡x ¡109 ¡variants ¡
  • Assay ¡technologies ¡allow ¡considera0on ¡of ¡

associa0ons ¡that ¡are ¡

– Tissue-­‑specific ¡ – Condi0on-­‑specific ¡

  • Slightly ¡different ¡from ¡familiar ¡“big ¡data” ¡

problem: ¡problem ¡is ¡not ¡inges0on, ¡but ¡ eges0on ¡and ¡archiving ¡for ¡further ¡use ¡

slide-3
SLIDE 3

Interac0ve ¡sta0s0cal ¡analysis ¡very ¡ relevant ¡

  • QC, ¡sanity ¡checks ¡
  • Model ¡cri0cism ¡and ¡elabora0on ¡
  • Want ¡good ¡performance ¡at ¡

– Storage/access ¡to/modeling ¡of ¡voluminous ¡assay ¡ data ¡ – Retrieval/upda0ng ¡of ¡specific ¡results ¡

slide-4
SLIDE 4

Data ¡on ¡IMPUTED ¡gene0c ¡variants ¡(‘reals’ ¡ in ¡[0,2]) ¡can ¡be ¡compressed: ¡David ¡Clayton ¡

snpStats: ¡also ¡includes ¡implementa0on ¡of ¡glm ¡that ¡uses ¡this ¡

  • representa0on. ¡
slide-5
SLIDE 5

Segments ¡of ¡genome ¡x ¡transcriptome ¡are ¡tested ¡ and ¡results ¡are ¡stored ¡to ¡ff ¡as ¡scaled ¡short ¡ ¡ints ¡

slide-6
SLIDE 6

Deployment ¡on ¡generic ¡cluster ¡of ¡ mul0core ¡machines ¡

library(BatchJobs) csplreg6 = makeRegistry(id="mar3", seed=123, file.dir="mar3f") batchMap(csplreg6, doCisChunk, 1:length(configList) ) ids = getJobIds(csplreg6) submitJobs(csplreg6, ids)

slide-7
SLIDE 7
slide-8
SLIDE 8

Es0ma0on ¡of ¡SNP ¡tendency ¡to ¡be ¡associated ¡with ¡trait ¡ varia0on: ¡bigglms ¡on ¡data.table ¡of ¡2-­‑20 ¡million ¡records ¡– ¡ROC ¡ AUCs, ¡apply ¡over ¡a ¡list ¡of ¡formulas ¡

slide-9
SLIDE 9

Upshots ¡

  • Aims: ¡achieve ¡feasibility, ¡limit ¡use ¡of ¡

resources, ¡facilitate ¡model ¡comparison ¡

  • Data ¡acquisi0on, ¡sta0s0cal ¡aggregates, ¡results ¡

archiving ¡“transparently” ¡chunked ¡and ¡ performed ¡asynchronously ¡

  • Constraints: ¡didn’t ¡want/need ¡standard ¡data ¡

representa0ons ¡(doubles, ¡.Rdata) ¡

slide-10
SLIDE 10

Queries ¡

  • “External ¡memory ¡algorithms” ¡seem ¡

worthwhile ¡even ¡in ¡the ¡presence ¡of ¡huge ¡ quan00es ¡of ¡RAM ¡ ¡

– a ¡natural ¡aspect ¡of ¡R ¡socware ¡design? ¡ ¡A ¡ prominent ¡documenta0on/training ¡objec0ve? ¡

  • “Triply ¡agnos0c” ¡modeling ¡deployments: ¡

– Data ¡origins ¡(internal ¡vs. ¡external) ¡ – Data ¡format ¡(assumed ¡vs. ¡improvised/template) ¡ – Execu0on ¡plan ¡(selectable ¡parallelism) ¡