iPlant + iRODS: Enabling data driven collaborations Nirav Merchant - - PowerPoint PPT Presentation
iPlant + iRODS: Enabling data driven collaborations Nirav Merchant - - PowerPoint PPT Presentation
iPlant + iRODS: Enabling data driven collaborations Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht Topic Coverage About iPlant 4 th Paradigm Technology challenges for life sciences
Topic Coverage
- About iPlant
- 4th Paradigm
- Technology challenges for life sciences
- iPlant Data Store (iDS)
- Challenges of Sharing Data
- iPlant Atmosphere (cloud)
- Future: Identity+Group+Network with Openflow
What is iPlant
- The iPlant Cyberinfrastructure Collaborative
is building a comprehensive informatics infrastructure for plant biology.
- Funded by the National Science Foundation
(NSF) 2008 (and continuing till 2018)
- This rapidly evolving infrastructure is
sometimes very visible to users (researchers), and sometimes absolutely transparent to them (projects powered by iPlant components).
We ¡have ¡designed ¡iPlant ¡to ¡be ¡ consistent ¡with ¡the ¡pillars ¡of ¡CIF21* ¡ ¡ ü High ¡Performance ¡Compu?ng ¡ ü Data ¡and ¡Data ¡Analysis ¡ ü Virtual ¡Organiza?on ¡ ü Learning ¡and ¡Workforce ¡
The ¡iPlant ¡Collabora/ve ¡
Cyberinfrastructure ¡Philosophy ¡
Science Paradigms
- 1. Thousand years ago: science was empirical
describing natural phenomena, observations
- 2. Last few hundred years: theoretical branch
using models, generalizations
- 3. Last few decades: a computational branch
simulating complex phenomena
- 4. Today: data exploration (eScience)
unify theory, experiment, and simulation
5
Based on the transcript of a talk given by the late Jim Gray to the National Research Council – Computer Science and Telecommunication Board in Mountain View, CA, on January 11, 2007
The Fourth Paradigm: Data-Intensive Scientific Discovery
- Increasingly, scientific breakthroughs will be
powered by advanced computing capabilities that help researchers manipulate and explore massive datasets.
- The speed at which any given scientific discipline
advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies.
6
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
The Discovery Lifecycle
7
The Fourth Paradigm: Data-Intensive Scientific Discovery
Big ¡Data ¡(yes ¡we ¡have ¡it ¡!) ¡ ¡
Data-‑intensive ¡biology ¡necessitates ¡biologists ¡ become ¡comfortable ¡with ¡new ¡technology ¡ ¡ (rather ¡quickly)… ¡
10
∧
1973 ¡ Sharp, ¡Sambrook, ¡Sugden ¡ Gel ¡Electrophoresis ¡Chamber, ¡ $250 ¡ 1958 ¡ ¡MaG ¡Meselson ¡& ¡ Ultracentrifuge, ¡$500,000 ¡
One ¡key ¡goal ¡in ¡our ¡infrastructure, ¡training ¡and ¡outreach ¡is ¡ to ¡minimize ¡the ¡emphasis ¡on ¡technology ¡and ¡return ¡the ¡ focus ¡to ¡biology. ¡
Ways ¡for ¡users ¡to ¡access ¡iPlant ¡
- Atmosphere: ¡cloud ¡compu?ng ¡plaQorm ¡
- Data ¡Store: ¡secure, ¡cloud-‑based ¡data ¡storage ¡ ¡
- Discovery ¡Environment: ¡a ¡web ¡portal ¡to ¡many ¡integrated ¡
applica?ons ¡(combine ¡data ¡+ ¡compute) ¡ ¡
- DNA ¡Subway: ¡genome ¡annota?on, ¡DNA ¡bar-‑coding ¡(and ¡
more) ¡for ¡science ¡educators ¡
- Founda/on ¡API: ¡For ¡programmers ¡embedding ¡iPlant ¡
infrastructure ¡capabili?es ¡(Auth, ¡IO, ¡Apps, ¡Jobs, ¡Dir. ¡etc) ¡
- Command ¡line: ¡for ¡expert ¡access ¡(thru ¡TeraGrid/XSEDE)
End ¡Users ¡ Computa?onal ¡ ¡ Users ¡
Teragrid XSEDE
The ¡iPlant ¡Cyberinfrastructure ¡
- A ¡rich ¡web ¡client ¡
– Consistent ¡interface ¡to ¡ bioinforma?cs ¡tools ¡ – Portal ¡for ¡users ¡who ¡won’t ¡ want ¡to ¡interact ¡with ¡lower ¡ level ¡infrastructure ¡
- An ¡integrated, ¡extensible ¡
system ¡of ¡applica?ons ¡and ¡ services ¡ ¡ – Addi?onal ¡intelligence ¡ above ¡low ¡level ¡APIs ¡– ¡ Provenance, ¡Collabora?on, ¡
- etc. ¡
The ¡iPlant ¡Discovery ¡Environment ¡
- 90,000 ¡
Compute ¡Cores ¡
- Up ¡to ¡1TB ¡
shared ¡ memory ¡
- Growing ¡to ¡
~500,000 ¡cores ¡ by ¡end ¡of ¡2012 ¡
TACC ¡Ranger ¡ PSC ¡Blacklight ¡ TACC ¡Corral ¡ EBI ¡Web ¡Services ¡ TACC ¡Lonestar ¡
Scalable ¡Computa/on ¡for ¡High-‑Throughput ¡Inquiry ¡
End Users Computational Users
iPlant Layered Services and Access
iPlant Data Store
Scalable Reliable Redundant High-Throughput
Powered by iPlant
- The iPlant CI is designed as infrastructure.
This means it is a platform upon which
- ther projects can build.
- Use of the iPlant infrastructure can take
- ne of several forms:
– Authentication (~IdM/P, Shib, CAS etc) – Storage – Computation – Application Hosting – Web Services – Scalability
17
Powered by iPlant
- Other major projects are beginning to
adopt the iPlant CI as their underlying infrastructure (some completely, some in limited ways):
– BioExtract (computation) – CiPRES (authentication, computation) – Gates Integrated Breeding Platform (hosting, development, authentication) – Galaxy (storage, for now) – CoGE (authentication, data store, hosting) – Many more
(check http://www.iplantcollaborative.org/discover/powered-by-iplant)
18
CIPRES Portal Federation
iRODS
- Developed by Data Intensive Cyber Environments
(DICE) Directed by Reagan Moore
- Developed SRB, the Storage Resource Broker at
SDSC, the San Diego Supercomputer Center
- Most of the group migrated to UNC Chapel Hill in
2008-2009 (The group is bi-coastal: DICE-UNC, DICE-UCSD)
- Released iRODS, the integrated Rule-Oriented Data
System, in 2009
- Primary development funding from NSF (and other
agencies)
iRODS
- Data grid middleware
- Data management infrastructure
- A framework for procedural
implementation of data management policy (policy-driven data management)
Resource + Catalogue Server(s)
http://e-irods.org/dev/wp-content/uploads/2012/08/irods-getting-started.pdf
iPlant Data Store
Free Your Data
Different Users, Different Access Needs: One Data Store
iPlant Data Store (iDS)
WebDAV DE i-commands iDrop API
Fast ¡data ¡transfers ¡via ¡parallel, ¡ file ¡transfer ¡
- Move ¡large ¡(>2 ¡GB) ¡files ¡with ¡ease ¡
¡ Mul?ple, ¡consistent ¡access ¡ modes ¡
- iPlant ¡API ¡
- iPlant ¡web ¡apps ¡
- Desktop ¡mount ¡(FUSE/DAV) ¡
- Java ¡applet ¡(iDrop) ¡
- Command ¡line ¡(icommands) ¡
- Tickets ¡and ¡tokens ¡
¡ Fine-‑grained ¡ACL ¡permissions ¡
- Sharing ¡made ¡simple ¡
Access ¡and ¡a ¡storage ¡alloca/on ¡is ¡ ¡automa/c ¡with ¡every ¡iPlant ¡account ¡
The ¡iPlant ¡Data ¡Store ¡
Some Challenges
- Allowing 3rd party apps to users data
– Used irods rules for ACL handling – E.g. Bisque Image Analysis (updates their web app of data deposition in bisque_data iPlant Data Store) – SSO allowed jumping between 3rd party apps (and internal)
- *Users want to give access to files, directories for download &
upload ! (anonymous/non iplant/apps)
– Integrated tickets (tokens) – Foundation API (REST access)
- *Users want fine grain access to permission
– Restrict access from certain domain (*.arizona.edu) for jobs running on other compute grids (UWisc, OSG) – Enhanced tickets to allow host, group, file count, size based control
* Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)
iticket !
- Niravs-MacBook-Air:$ iticket
- iticket>ls
- id: 62173279
- string: X23MQI8I5H70O0e
- ticket type: write
- bj type: collection
- wner name: nirav
- wner zone: iplant
- uses count: 0
- uses limit: 0
- write file count: 0
- write file limit: 10
- write byte count: 0
- write byte limit: 0
- expire time: none
- collection name: /iplant/home/nirav/ticket-incoming
- No host restrictions
- No user restrictions
- No group restrictions
iRODS+Shib
- Building on the ASPiS solution from King's College,
which allows web-based applications to be Shib enabled
- This solution leverages the Apache SP, and manages user
accounts based on provided Shib attributes and entitlements
- Allows customization of behavior by providing a
standard set of iRODS rules and micro services
- The ASPiS solution is being updated for inclusion in the
Java Jargon library, and the out-of-the-box iDrop web interface.
- ASPiS option will run by setting a configuration option
that runs a Shibboleth-aware servlet filter.
- Testing is currently underway on the integration of the
ASPiS approach and this integration should be available by end of September 2012.
Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)
Customized cloud platform for computing on your terms !
Atmosphere: motivation
- Standalone GUI-based applications are
frequently required for analysis
- GUI apps not easily to transform into web apps
- Need to handle complex software dependencies
(e.g specific bioperl version and R modules)
- Users needing full control of their software stack
(occasional sudo access)
- All computation does not complete in a 24 hour
queue (HPC limitations !)
- Need to share desktop/applications for
collaborative analysis (remote collaborators)
- Availability of Next Gen map-reduce based
algorithms (currently we have limited support)
Challenges of existing cloud platforms
- Amazon Web Services (AWS)
http://aws.amazon.com/
- Flexible and scalable
- High level of expertise required for
configurations
- Fairly challenging for biologists to master all
steps
- Limited lifecycle management (cost, time
mgmt )
- Lack easy desktop integration
- Lack easy tools for large data transfer
Steps to get started !
What is Atmosphere ?
- Self-service cloud infrastructure
- Designed to make underlying cloud
infrastructure easy to use by novice user
- Built on open source Eucalyptus
- Fully integrated into iPlant authentication
and storage and HPC capabilities
- Enables users to build custom images/
appliances and share with community
- Cross-platform desktop access to GUI
applications in the cloud (using VNC)
- Provide easy web based access to resources
- API-‑compa?ble ¡implementa?on ¡of ¡
Amazon ¡EC2/S3 ¡interfaces ¡
- Virtualize ¡the ¡execu?on ¡environment ¡
for ¡applica?ons ¡and ¡services ¡
- Get ¡Up ¡to ¡12 ¡core ¡/ ¡48 ¡GB ¡instance ¡
- Access ¡to ¡Cloud ¡Storage ¡+ ¡EBS ¡
- Big ¡data ¡and ¡the ¡desktop ¡are ¡co-‑local ¡
again ¡
– Bring ¡your ¡data ¡to ¡Atmosphere ¡VM ¡for ¡ interac?ve ¡access ¡and ¡analysis ¡ – Send ¡it ¡back ¡to ¡the ¡DE ¡for ¡transac?onal ¡ analysis ¡
>60 ¡ hosted ¡ applica?ons ¡ in ¡ Atmosphere ¡today, ¡including ¡ users ¡ from ¡ USDA, ¡ Forest ¡ Service, ¡ database ¡ providers, ¡
- etc. ¡
¡ (30 ¡ more ¡ for ¡ postdocs ¡ and ¡ grad ¡ students ¡ for ¡ training ¡ classes) ¡
The ¡iPlant ¡Collabora/ve ¡
Project ¡Atmosphere™: ¡Custom ¡Cloud ¡Compu?ng ¡
Atmosphere: Collaboration
iPlant Data Store
Lifecycle
How to Connect
Different Ways to Log in to VMs
Atmosphere: Launch a new VM
Atmosphere: Access a running VM
Atmosphere: Log in via shell
OpenFlow+OpenStack(Quantum)
- Allow custom network topology for specific user
defined groups
- Placement of iRODS resource server and instances
- Floodlight handles the Openstack integration and
- penflow switch management
- Use RESTful interface from Grouper
- Placement of instance within our distributed
infrastructure is easier (prevent vlan pain)
- Apply group policy, security, data access at network
level (not in VM which is easy to override as sudo/ root)
Challenges …
- Collaboration as ad-hoc groups/teams is
becoming increasingly prevalent
- Defined groups need to persist across ALL
- ur infrastructure
- Combining the capabilities of cloud ,
network virtualization and iPlant Data store (with understanding of groups !)
- Our apps are web + command line (need a
happy medium for emerging auth systems !)
Will Computers Crash Genomics ? Science Vol. 331 Feb 2011