iplant irods
play

iPlant + iRODS: Enabling data driven collaborations Nirav Merchant - PowerPoint PPT Presentation

iPlant + iRODS: Enabling data driven collaborations Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht Topic Coverage About iPlant 4 th Paradigm Technology challenges for life sciences


  1. iPlant + iRODS: Enabling data driven collaborations Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht

  2. Topic Coverage • About iPlant • 4 th Paradigm • Technology challenges for life sciences • iPlant Data Store (iDS) • Challenges of Sharing Data • iPlant Atmosphere (cloud) • Future: Identity+Group+Network with Openflow

  3. What is iPlant • The iPlant Cyberinfrastructure Collaborative is building a comprehensive informatics infrastructure for plant biology. • Funded by the National Science Foundation (NSF) 2008 (and continuing till 2018) • This rapidly evolving infrastructure is sometimes very visible to users (researchers), and sometimes absolutely transparent to them (projects powered by iPlant components).

  4. The ¡iPlant ¡Collabora/ve ¡ Cyberinfrastructure ¡Philosophy ¡ We ¡have ¡designed ¡iPlant ¡to ¡be ¡ consistent ¡with ¡the ¡pillars ¡of ¡CIF21* ¡ ¡ ü High ¡Performance ¡Compu?ng ¡ ü Data ¡and ¡Data ¡Analysis ¡ ü Virtual ¡Organiza?on ¡ ü Learning ¡and ¡Workforce ¡

  5. Science Paradigms 1. Thousand years ago: science was empirical describing natural phenomena, observations 2. Last few hundred years: theoretical branch using models, generalizations 3. Last few decades: a computational branch simulating complex phenomena 4 . Today: data exploration (eScience) 
 unify theory, experiment, and simulation Based on the transcript of a talk given by the late Jim Gray to the National Research Council – Computer Science and Telecommunication Board in Mountain View, CA, on January 11, 2007 5

  6. The Fourth Paradigm: Data-Intensive Scientific Discovery • Increasingly, scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets . • The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists , in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies. 6 http://research.microsoft.com/en-us/collaboration/fourthparadigm/

  7. The Discovery Lifecycle 7 The Fourth Paradigm: Data-Intensive Scientific Discovery

  8. Big ¡Data ¡(yes ¡we ¡have ¡it ¡!) ¡ ¡

  9. Data-­‑intensive ¡biology ¡necessitates ¡biologists ¡ become ¡comfortable ¡with ¡new ¡technology ¡ ¡ (rather ¡quickly)… ¡

  10. ∧ 10

  11. One ¡key ¡goal ¡in ¡our ¡infrastructure, ¡training ¡and ¡outreach ¡is ¡ to ¡minimize ¡the ¡emphasis ¡on ¡technology ¡and ¡return ¡the ¡ focus ¡to ¡biology. ¡ 1973 ¡ Sharp, ¡Sambrook, ¡Sugden ¡ Gel ¡Electrophoresis ¡Chamber, ¡ 1958 ¡ $250 ¡ ¡MaG ¡Meselson ¡& ¡ Ultracentrifuge, ¡$500,000 ¡

  12. Ways ¡for ¡users ¡to ¡access ¡iPlant ¡ • Atmosphere: ¡cloud ¡compu?ng ¡ plaQorm ¡ • Data ¡Store: ¡ secure, ¡cloud-­‑based ¡data ¡storage ¡ ¡ • Discovery ¡Environment: ¡a ¡web ¡portal ¡to ¡many ¡integrated ¡ applica?ons ¡(combine ¡data ¡+ ¡compute) ¡ ¡ • DNA ¡Subway: ¡genome ¡annota?on, ¡DNA ¡bar-­‑coding ¡(and ¡ more) ¡for ¡science ¡educators ¡ • Founda/on ¡API: ¡ For ¡programmers ¡embedding ¡iPlant ¡ infrastructure ¡capabili?es ¡(Auth, ¡IO, ¡Apps, ¡Jobs, ¡Dir. ¡etc) ¡ • Command ¡line: ¡for ¡expert ¡access ¡(thru ¡TeraGrid/XSEDE)

  13. The ¡iPlant ¡Cyberinfrastructure ¡ End ¡Users ¡ Teragrid XSEDE Computa?onal ¡ ¡ Users ¡

  14. The ¡iPlant ¡Discovery ¡Environment ¡ • A ¡rich ¡web ¡client ¡ – Consistent ¡interface ¡to ¡ bioinforma?cs ¡tools ¡ – Portal ¡for ¡users ¡who ¡won’t ¡ want ¡to ¡interact ¡with ¡lower ¡ level ¡infrastructure ¡ • An ¡integrated, ¡extensible ¡ system ¡of ¡applica?ons ¡and ¡ services ¡ ¡ – Addi?onal ¡intelligence ¡ above ¡low ¡level ¡APIs ¡– ¡ Provenance, ¡Collabora?on, ¡ etc. ¡

  15. Scalable ¡Computa/on ¡for ¡High-­‑Throughput ¡Inquiry ¡ • 90,000 ¡ Compute ¡Cores ¡ • Up ¡to ¡1TB ¡ TACC ¡Lonestar ¡ TACC ¡Ranger ¡ shared ¡ memory ¡ • Growing ¡to ¡ ~500,000 ¡cores ¡ by ¡end ¡of ¡2012 ¡ PSC ¡Blacklight ¡ EBI ¡Web ¡Services ¡ TACC ¡Corral ¡

  16. iPlant Layered Services and Access � End Users iPlant Data Store � Scalable � Computational Users Reliable � Redundant � High-Throughput �

  17. Powered by iPlant • The iPlant CI is designed as infrastructure. This means it is a platform upon which other projects can build. • Use of the iPlant infrastructure can take one of several forms: – Authentication (~IdM/P, Shib, CAS etc) – Storage – Computation – Application Hosting – Web Services – Scalability 17

  18. Powered by iPlant • Other major projects are beginning to adopt the iPlant CI as their underlying infrastructure (some completely, some in limited ways): – BioExtract (computation) – CiPRES (authentication, computation) – Gates Integrated Breeding Platform (hosting, development, authentication) – Galaxy ( storage, for now) – CoGE (authentication, data store, hosting) – Many more (check http://www.iplantcollaborative.org/discover/powered-by-iplant) 18

  19. CIPRES Portal Federation

  20. iRODS • Developed by Data Intensive Cyber Environments (DICE) Directed by Reagan Moore • Developed SRB, the Storage Resource Broker at SDSC, the San Diego Supercomputer Center • Most of the group migrated to UNC Chapel Hill in 2008-2009 (The group is bi-coastal: DICE-UNC, DICE-UCSD) • Released iRODS, the integrated Rule-Oriented Data System, in 2009 • Primary development funding from NSF (and other agencies)

  21. iRODS • Data grid middleware • Data management infrastructure • A framework for procedural implementation of data management policy (policy-driven data management)

  22. Resource + Catalogue Server(s) http://e-irods.org/dev/wp-content/uploads/2012/08/irods-getting-started.pdf

  23. iPlant Data Store � Free Your Data � Different Users, � Different Access Needs: � One Data Store �

  24. iPlant Data Store (iDS) � WebDAV DE API i-commands iDrop

  25. The ¡iPlant ¡Data ¡Store ¡ Fast ¡data ¡transfers ¡via ¡parallel, ¡ file ¡transfer ¡ Move ¡large ¡(>2 ¡GB) ¡files ¡with ¡ease ¡ • ¡ Mul?ple, ¡consistent ¡access ¡ modes ¡ iPlant ¡API ¡ • iPlant ¡web ¡apps ¡ • Desktop ¡mount ¡(FUSE/DAV) ¡ • Java ¡applet ¡(iDrop) ¡ • Command ¡line ¡(icommands) ¡ • Tickets ¡and ¡tokens ¡ • ¡ Fine-­‑grained ¡ACL ¡permissions ¡ Sharing ¡made ¡simple ¡ • Access ¡and ¡a ¡storage ¡alloca/on ¡is ¡ ¡automa/c ¡with ¡every ¡iPlant ¡account ¡

  26. Some Challenges • Allowing 3 rd party apps to users data – Used irods rules for ACL handling – E.g. Bisque Image Analysis (updates their web app of data deposition in bisque_data iPlant Data Store) – SSO allowed jumping between 3 rd party apps (and internal) • *Users want to give access to files, directories for download & upload ! (anonymous/non iplant/apps) – Integrated tickets (tokens) – Foundation API (REST access) • *Users want fine grain access to permission – Restrict access from certain domain (*.arizona.edu) for jobs running on other compute grids (UWisc, OSG) – Enhanced tickets to allow host, group, file count, size based control * Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)

  27. iticket ! • Niravs-MacBook-Air:$ iticket • iticket>ls • id: 62173279 • write byte limit: 0 • expire time: none • string: X23MQI8I5H70O0e • collection name: /iplant/home/nirav/ticket-incoming • ticket type: write • No host restrictions • obj type: collection • No user restrictions • owner name: nirav • No group restrictions • owner zone: iplant • uses count: 0 • uses limit: 0 • write file count: 0 • write file limit: 10 • write byte count: 0

  28. iRODS+Shib • Building on the ASPiS solution from King's College, which allows web-based applications to be Shib enabled • This solution leverages the Apache SP, and manages user accounts based on provided Shib attributes and entitlements • Allows customization of behavior by providing a standard set of iRODS rules and micro services • The ASPiS solution is being updated for inclusion in the Java Jargon library, and the out-of-the-box iDrop web interface. • ASPiS option will run by setting a configuration option that runs a Shibboleth-aware servlet filter. • Testing is currently underway on the integration of the ASPiS approach and this integration should be available by end of September 2012. Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)

  29. Customized cloud platform for computing on your terms !

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend