big data analy cs in the eubrazil cloud connect project
play

Big data analy+cs in the EUBrazil Cloud Connect project - PowerPoint PPT Presentation

Big data analy+cs in the EUBrazil Cloud Connect project EGI CF 2014, Helsinki, May 19-23, 2014 S. Fiore 1 , D. Lezzi 2 , R. Badia 2 , I. Blanquer 3


  1. Big ¡data ¡analy+cs ¡in ¡the ¡EUBrazil ¡ Cloud ¡Connect ¡project ¡ EGI ¡CF ¡2014, ¡Helsinki, ¡May ¡19-­‑23, ¡2014 ¡ S. ¡Fiore 1 , ¡D. ¡Lezzi 2 , ¡R. ¡Badia 2 , ¡I. ¡Blanquer 3 , ¡G. ¡Aloisio 1,4 ¡ ¡ 1 ¡ Euro ¡Mediterranean ¡Center ¡on ¡Climate ¡Change ¡(CMCC) ¡ 2 ¡ Barcelona ¡Supercompu+ng ¡Center ¡(BSC) ¡ 3 ¡ Universitat ¡Politecnica ¡de ¡Valencia ¡(UPVLC) ¡ 4 ¡ University ¡of ¡Salento ¡(U. ¡Salento) ¡ ¡

  2. EUBrazil ¡Cloud ¡Connect ¡ � The ¡main ¡objec+ve ¡is ¡the ¡crea+on ¡of ¡a ¡federated ¡e-­‑infrastructure ¡for ¡ research ¡using ¡a ¡user-­‑centric ¡approach. ¡ � To ¡achieve ¡this, ¡we ¡need ¡to ¡pursue ¡three ¡objec+ves: ¡ � Adapta&on ¡of ¡exis+ng ¡applica+ons ¡to ¡tackle ¡ new ¡scenarios ¡ emerging ¡from ¡ coopera+on ¡between ¡Europe ¡and ¡Brazil ¡relevant ¡to ¡both ¡regions. ¡ � Integra+on ¡of ¡frameworks ¡and ¡programming ¡models ¡for ¡ scien&fic ¡gateways ¡and ¡ complex ¡workflows . ¡ � Federa+on ¡of ¡resources, ¡to ¡build ¡up ¡ a ¡general-­‑purpose ¡infrastructure ¡comprising ¡ exis&ng ¡and ¡heterogeneous ¡resources ¡ � Addi+onally, ¡EUBrazilCC ¡will: ¡perform ¡an ¡ac+ve ¡ dissemina&on ¡ campaign, ¡ analyse ¡ innova&on , ¡foster ¡the ¡involvement ¡of ¡Brazilian ¡ins+tu+ons ¡in ¡ cloud ¡ standards ¡defini&on , ¡and ¡bring ¡the ¡EU ¡Cloudscape ¡series ¡to ¡broader ¡ interna+onal ¡audience. ¡ ! 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 2 ¡

  3. EUBrazilCC ¡consor+um ¡ EU ¡Coordinator ¡ Ignacio ¡Blanquer-­‑Espert, ¡iblanque@dsic.upv.es ¡ Universitat ¡Politècnica ¡de ¡València , ¡Spain ¡ BR ¡Coordinator ¡ Francisco ¡Vilar ¡Brasileiro, ¡fubica@dsc.ufcg.edu.br ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UPV, ¡ES ¡ Universidade ¡Federal ¡de ¡Campina ¡Grande, ¡ Brazil ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UFCG, ¡CG ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BSC, ¡ES ¡ ¡LNCC, ¡RJ ¡ ¡ ¡ ¡ ¡Trust-­‑IT, ¡UK ¡ ¡ ¡CRIA, ¡SP ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UNEW, ¡UK ¡ ¡FIOCRUZ, ¡RJ ¡ ¡ ¡CMCC, ¡IT ¡ ¡ ¡ ¡ ¡PUC-­‑Rio, ¡RJ ¡ ¡ ¡ ¡ ¡ ¡ ¡UvA, ¡NL ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ISCIII, ¡ES ¡ A ¡minimum ¡of ¡5500 ¡CPU ¡and ¡400TB ¡of ¡storage ¡ 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 3 ¡

  4. Use ¡Case ¡on ¡Biodiversity ¡ and ¡Climate ¡Change ¡ � Objec&ve : ¡Understand ¡the ¡impact ¡of ¡climate ¡change ¡on ¡ ¡ terrestrial ¡biodiversity ¡through ¡two ¡workflows ¡based ¡on ¡ ¡ Earth ¡observa+on ¡and ¡ground ¡level ¡data. ¡ � Technical ¡Challenge : ¡Integrate ¡parallel ¡data ¡analysis ¡with ¡other ¡processing ¡workflows ¡ in ¡a ¡geographically ¡distributed ¡environment. ¡ � Interna&onal ¡Added ¡Value : ¡Integra+on ¡of ¡biodiversity ¡data ¡and ¡modelling ¡with ¡ mul+spectral ¡and ¡remote ¡sensing ¡data ¡for ¡studying ¡the ¡cross-­‑correla+on ¡of ¡ biodiversity ¡and ¡climate ¡change. ¡ Climate ¡& ¡Biodiversity ¡Clearing-­‑house ¡ ¡ Parallel ¡Data ¡ Species-­‑ CMCC ¡ Imaging ¡ Analysis ¡ Link ¡ CIMP5 ¡ Data ¡ ¡Federated ¡Infrastructure ¡ & ¡PlaKorm ¡ 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 4 ¡

  5. Ver+cal ¡view ¡of ¡the ¡use ¡case ¡

  6. Data ¡analy+cs ¡requirements ¡ A set of requirements have been jointly discussed with project partners to carry out data analysis on climate and satellite data. ¡ Preliminary ¡requirements ¡and ¡needs ¡focus ¡on: ¡  Time ¡series ¡analysis ¡  Data ¡reduc+on ¡(e.g. ¡by ¡aggrega+on) ¡  Model ¡intercomparison ¡  Data ¡subsegng ¡  Mul+model ¡means ¡  Massive ¡experiments ¡(the ¡same ¡task ¡applied ¡on ¡a ¡set ¡of ¡data) ¡  Worflow ¡experiments ¡(processing ¡chains) ¡  Massive ¡data ¡reduc+on ¡  Climate ¡indicators ¡computa+on ¡  Compare ¡historical ¡data ¡and ¡future ¡scenarios ¡  Maps ¡genera+on ¡

  7. Climate ¡change ¡domain: ¡the ¡current ¡scien+fic ¡ workflow ¡and ¡the ¡ESGF ¡use ¡case ¡ Workflow: search, locate, download, analyze, display results ¡ J. Chen, A. Choudhary, S. Feldman, B. Hendrickson, C.R. Johnson, R. Mount, V. Sarkar, V. White, D. Williams. “Synergistic Challenges in Data- Intensive Science and Exascale Computing,” DOE ASCAC Data Subcommittee Report, Department of Energy Office of Science, March, 2013.

  8. Parallel ¡data ¡analysis ¡ • In the EUBrazilCC project we will provide a parallel data analysis service exploiting scalable VM-based solutions for the management of large volumes of scientific multidimensional data : • Climate data from CMIP5 federated data archive • Landsat5-7-8 satellite data repository • The platform exploits high performance database management paradigms and efficient storage models to address data analysis • The platform is designed to address data post-processing, analysis and mining, time series extraction, sub-setting and data reduction (e.g. data aggregation). • The front-end is designed to provide multiple interfaces : WS-I + (default, available), GSI/VOMS (in progress, EGI interoperability), OGC WPS (in progress, geo-sciences infrastructure interoperability), … .

  9. PDAS ¡(aka ¡‘Ophidia’) ¡Architecture ¡ Declarative language ¡ Front Standard interfaces end ¡ Compute Analytics Framework layer ¡ Array-based primitives ¡ I/O layer ¡ I/O server instance ¡ New storage model ¡ Storage layer ¡ Partitioning/hierarchical data mng System catalog ¡

  10. Array ¡based ¡primi+ves ¡ • The array data type support is not enough to provide scientific data management capabilities… primitives are needed as well. • A set of array-based primitives have been implemented • By definition, a primitive is applied to a single fragment • They come in the form of plugins (I/O server extensions) • So far, Ophidia provides a wide set of plugins (about 100) to perform data reduction (by aggregation), sub-setting, predicates evaluation, statistical analysis, compression, and so forth. • Plugins can be nested to get more complex functionalities • Compression is provided as a primitive too

  11. Array ¡based ¡primi+ves: ¡OPH_BOXPLOT ¡ oph_gsl_boxplot (measure, "OPH_DOUBLE”); Ophidia storage level view ¡ Scientific point of view ¡

  12. Array ¡based ¡primi+ves: ¡nes+ng ¡feature ¡ oph_boxplot(oph_subarray(oph_uncompress(measure), 1,18), "OPH_DOUBLE”) Storage level view ¡ subarray(measure, 1,18) ¡ Scientific point of view ¡

  13. Architecture ¡(compute ¡layer) ¡ Analytics Framework Front end ¡ Compute layer ¡ I/O layer ¡ I/O server instance ¡ Storage layer ¡ System catalog ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend