workflows as an operational tool scientific computing
play

Workflows as an Operational Tool Scientific Computing using Data - PowerPoint PPT Presentation

Workflows as an Operational Tool Scientific Computing using Data Scien lkay ALTINTA , Ph.D. Chief Data Science Officer, San Diego Supercomputer Center Founder and Director, Workflows for Data Science Center of Exce SDSC is 31 Years Young!


  1. Workflows as an Operational Tool Scientific Computing using Data Scien İ lkay ALTINTA Ş , Ph.D. Chief Data Science Officer, San Diego Supercomputer Center Founder and Director, Workflows for Data Science Center of Exce

  2. SDSC is 31 Years Young! Providing Cyberinfrastructure for Research and Education Established ¡as ¡a ¡na.onal ¡ 1985 supercomputer ¡resource ¡center ¡in ¡1985 ¡ by ¡NSF ¡ A ¡world ¡leader ¡in ¡HPC, ¡data-­‑intensive ¡ compu.ng, ¡and ¡scien.fic ¡data ¡ management ¡ Current ¡strategic ¡focus ¡on ¡“Big ¡Data” ¡ today and ¡“HPC ¡Cloud” ¡: ¡versa.le ¡compu.ng ¡ Two discoveries in dr design from 1987 and 1

  3. SDSC continues to focus on versatile computing and big data! Gordon : ¡ First ¡ ¡ Flash-­‑based ¡Supercompute for ¡Data-­‑intensive ¡Apps ¡ ss Walker Group omet: Serving the Long ail of Science standard racks • 36 GPU nodes = 1944 nodes • 4 Large Memory nodes = 46,656 cores • 7 PB Lustre storage = 249 TB DRAM • High performance = 622 TB SSD virtualization Pflop/s

  4. SDSC Data Science Office -- Expertise, Systems and Training DSO for Data Science Applications -- Big Data Platforms Applications Training Industry SDSC Expertise and Strengths SDSC Data Science Office (DSO) SDSC DSO is a collaborative virtual organization at SDSC for colle lasting innovation in data science research, development and educa

  5. Computing Today has Many Shapes and Size Requires: • Data management • Data-driven method • Scalable tools for dynamic coordinati and stateful resource COMPUTING AT optimization BIG DATA SCALE • Skilled interdisciplin workforce Enables dynamic data-driven applications New era o Computer-Aided Drug Discovery Smart Cities Disaster Resilience and Response data science Personalized Precision Medicine Smart Grid and Energy Management Manufacturing

  6. Needs and Trends for Scientific Computing under the Influence o Big Data and Cloud Systems • More ¡data-­‑driven ¡ New era of data • More ¡dynamic ¡ science! • More ¡process-­‑driven ¡ • More ¡collabora.ve ¡ • More ¡accountable ¡ • More ¡reproducible ¡ • More ¡interac.ve ¡ • More ¡heterogeneous ¡

  7. Size Volume Application-Specific Value BIG DATA

  8. Data Management and Processing in the Big Data Er has Unique Challenges! Scalable batch Volume processing Stream processing Velocity Extensible data storage Variety access and integration

  9. These challenges come with new tools to tackle them Higher levels: Expression and interactivity Hive Pig Giraph Spark Storm Flink MapReduce HBase Cassandra MongoDB YARN HDFS Lower levels: Storage and scheduling

  10. COORDINATION AND How do we use WORKFLOW MANAGEMENT these new tools and combine them DATA INTEGRATION with existing solutions in AND PROCESSING scientific computing and DATA MANAGEMENT data science? AND STORAGE

  11. Example Big Data Processing Pipelines Source: http://www.slideshare.net/ThoughtWorks/big-data-pipeline-with-scala .slideshare.net/BigDataCloud/big-data-analytics-with-google-cloud- Source: https://www.computer.org/csdl/mags/so/2016/02/mso2016020060.html urce: ps://www.mapr.com/blog/distributed-stream-and-graph-processing-apache-flink

  12. COORDINATION AND ORKFLOW MANAGEMENT ACQUIRE ¡ PREPARE ¡ ANALYZE ¡ ACQUIRE ¡ PREPARE ¡ … ANALYZE ¡ ACQUIRE ¡ PREPARE ¡ ANALYZE ¡ REPORT ¡ ¡ ACT ¡ http://kepler-project.org

  13. Research Challenges How ¡to ¡easily ¡program ¡a ¡workflow ¡using ¡the ¡Big ¡Data ¡PaYerns? ¡ How ¡to ¡parallelize ¡legacy ¡tools ¡for ¡Big ¡Data? ¡ hich ¡paYern(s) ¡to ¡use ¡under ¡which ¡Big ¡Data ¡engine ¡to ¡use, ¡e.g., ¡as ¡Hadoo Flink ¡or ¡Spark? ¡ nd-­‑to-­‑end ¡performance ¡predic.on ¡for ¡Big ¡Data ¡applica.ons/workflows ¡(h ong ¡to ¡run) ¡ Knowledge ¡based: ¡Analyze ¡performance ¡using ¡profiling ¡techniques ¡and ¡dependency ¡analysis ¡ Data ¡driven: ¡Predict ¡performance ¡based ¡on ¡execu.on ¡history ¡(provenance) ¡using ¡machine ¡learning ¡ techniques ¡ n ¡demand ¡resource ¡provisioning ¡and ¡scheduling ¡for ¡Big ¡Data ¡applica.ons where ¡and ¡how ¡to ¡run) ¡ Find ¡the ¡best ¡resource ¡alloca.on ¡based ¡on ¡execu.on ¡objec.ves ¡and ¡performance ¡predic.ons ¡ Find ¡the ¡best ¡workflow ¡and ¡task ¡configura.on ¡on ¡the ¡allocated ¡resources ¡

  14. Using Big Data Patterns in Kepler Workflow — Visual ¡programming ¡ ¡ e ¡define ¡a ¡separate ¡DDP ¡ Distributed ¡Data-­‑Parallel) ¡task/actor ¡ — Parallel ¡execu=on ¡of ¡the ¡ sub-­‑workflows ¡ ¡ or ¡each ¡paYern ¡ — Exis=ng ¡actors ¡can ¡easily hese ¡DDP ¡actors ¡par..on ¡input ¡ reused ¡for ¡new ¡tools ¡ ata ¡and ¡process ¡each ¡par..on ¡ eparately ¡ ser-­‑defined ¡func.ons ¡are ¡described ¡ as ¡sub-­‑workflows ¡of ¡DDP ¡actors ¡ (a) Top-level Workflow DP ¡director: ¡executes ¡DDP ¡ orkflows ¡on ¡top ¡of ¡Big ¡Data ¡ engines ¡ (b) Sub-workflow for tRNAscan-SE (c) Sub-workflow for

  15. orkflow ¡is ¡a ¡combina/on ¡of ¡modules ¡running ¡in ¡places ¡and ¡interac with ¡each ¡other ¡via ¡data ¡or ¡message ¡passing ¡via ¡a ¡connec/on ¡. orkflow ¡Performance ¡== ¡Composed ¡Module ¡Performance ¡on ¡an ¡Infrastructure ¡Insta

  16. RAMMCAP metagene ¡ QC ¡ cd-­‑hit ¡ hmmer ¡ bla tRNA ¡ Data size KB MB GB TB NGS ¡ CPU time Minute Hour Day Month Year QC ¡ metagene ¡ cd-­‑hit ¡ tRNA ¡ hmmer ¡ blast ¡ Memory GB 10GB 100GB QC ¡ tRNA ¡ metagene ¡ hmmer ¡ blast ¡ cd-­‑hit ¡ No need Parallel No Multi threading MPI Map Reduce QC ¡ cd-­‑hit ¡ hmmer ¡ blast ¡ hmmer ¡ tRNA ¡ metagene ¡ blast ¡

  17. ptimization of Heterogeneous Resource Utilization using bioKepler Execution Platforms Na=onal ¡ ¡ Local ¡Cluster ¡Resources ¡ Cloud ¡ ¡ Resources ¡ Resources ¡ (Gordon) ¡ (Co (Stamp (Lonestar) ¡

  18. dd more traditional HPC and HTC workloads to this Dynamic data-driven coordination & resource optimization Requires: Ability to explore and scale on multiple platforms ? Are workflows increasingly becoming the dynamic operations research tool for science

  19. Challenge: Make workflows more aware of distributed system and application state!

  20. Some steps to get there … 1. Analyze each task in a workflow as an individual module based on all past executions of that executable o task. 2. Model workflow performance as an aggregate of predictions of individual tasks to form prediction for entire workflow. 3. Include system level analytics at the workflow level to make sure scheduling can use system level information into account in a dynamic data-driven way.

  21. 3. ¡Module ¡Performance ¡Predic=on ¡a 1. ¡Profiling ¡Framework ¡ Workflow ¡Composi=on ¡(f) ¡ Uses existing tools and computing systems! Computing is just one part of big data workflows… … new methods needed! RMSE ¡= ¡42.58 ¡sec ¡ Mean(Valida=on ¡Set) ¡= ¡1727.58 ¡ 3-­‑a: ¡Module ¡Predic=on: ¡Single ¡Predictor ¡ ¡ ¡Feature ¡Selec=on ¡and ¡Training ¡ For ¡Two ¡Independent ¡SoRware ¡Tools ¡

  22. Workflows for Data Science Center of Excellence at SDSC Wo WorDS.sdsc.edu Data-­‑Parallel ¡Bioinforma/ Real-­‑Time ¡Hazards ¡Management bioKeple bio pler.o .org ¡ ¡ wifire.uc wifir e.ucsd.edu sd.edu Focus ¡on ¡the ¡ ques:on, ¡ ¡ not ¡the ¡ technology! ¡ • Access and query data • Support exploratory design • Scale computational analysis • Increase reuse • Save time, energy and money • Formalize and standardize Goal: Methodology and tool development to build automated and operational workflow-driven solution architectures on big data and HPC platforms. Scalable ¡Automated ¡Molecular ¡Dynamics ¡and ¡Drug ¡Discovery nbc nbcr.uc .ucsd.e sd.edu du

  23. Examples: Use of Workflows as an Application Integra Tool for “Big” Data and Computational Science

  24. ACQUIRE ¡ PREPARE ¡ ANALYZE ¡ REPORT ¡ ¡ ACT ¡ COMMUNICATION AND FEEDBACK PROVENANCE COORDINATION AND SCALABILITY WORKFLOW MANAGEMENT EXPLORATION DATA INTEGRATION AND PROCESSING DATA MANAGEMENT AND STORAGE

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend