iPlant + iRODS: Enabling data driven collaborations Nirav Merchant - - PowerPoint PPT Presentation

iplant irods
SMART_READER_LITE
LIVE PREVIEW

iPlant + iRODS: Enabling data driven collaborations Nirav Merchant - - PowerPoint PPT Presentation

iPlant + iRODS: Enabling data driven collaborations Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht Topic Coverage About iPlant 4 th Paradigm Technology challenges for life sciences


slide-1
SLIDE 1

iPlant + iRODS:

Enabling data driven collaborations

Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht

slide-2
SLIDE 2

Topic Coverage

  • About iPlant
  • 4th Paradigm
  • Technology challenges for life sciences
  • iPlant Data Store (iDS)
  • Challenges of Sharing Data
  • iPlant Atmosphere (cloud)
  • Future: Identity+Group+Network with Openflow
slide-3
SLIDE 3

What is iPlant

  • The iPlant Cyberinfrastructure Collaborative

is building a comprehensive informatics infrastructure for plant biology.

  • Funded by the National Science Foundation

(NSF) 2008 (and continuing till 2018)

  • This rapidly evolving infrastructure is

sometimes very visible to users (researchers), and sometimes absolutely transparent to them (projects powered by iPlant components).

slide-4
SLIDE 4

We ¡have ¡designed ¡iPlant ¡to ¡be ¡ consistent ¡with ¡the ¡pillars ¡of ¡CIF21* ¡ ¡ ü High ¡Performance ¡Compu?ng ¡ ü Data ¡and ¡Data ¡Analysis ¡ ü Virtual ¡Organiza?on ¡ ü Learning ¡and ¡Workforce ¡

The ¡iPlant ¡Collabora/ve ¡

Cyberinfrastructure ¡Philosophy ¡

slide-5
SLIDE 5

Science Paradigms

  • 1. Thousand years ago: science was empirical

describing natural phenomena, observations

  • 2. Last few hundred years: theoretical branch

using models, generalizations

  • 3. Last few decades: a computational branch

simulating complex phenomena

  • 4. Today: data exploration (eScience) 


unify theory, experiment, and simulation

5

Based on the transcript of a talk given by the late Jim Gray to the National Research Council – Computer Science and Telecommunication Board in Mountain View, CA, on January 11, 2007

slide-6
SLIDE 6

The Fourth Paradigm: Data-Intensive Scientific Discovery

  • Increasingly, scientific breakthroughs will be

powered by advanced computing capabilities that help researchers manipulate and explore massive datasets.

  • The speed at which any given scientific discipline

advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies.

6

http://research.microsoft.com/en-us/collaboration/fourthparadigm/

slide-7
SLIDE 7

The Discovery Lifecycle

7

The Fourth Paradigm: Data-Intensive Scientific Discovery

slide-8
SLIDE 8

Big ¡Data ¡(yes ¡we ¡have ¡it ¡!) ¡ ¡

slide-9
SLIDE 9

Data-­‑intensive ¡biology ¡necessitates ¡biologists ¡ become ¡comfortable ¡with ¡new ¡technology ¡ ¡ (rather ¡quickly)… ¡

slide-10
SLIDE 10

10

slide-11
SLIDE 11

1973 ¡ Sharp, ¡Sambrook, ¡Sugden ¡ Gel ¡Electrophoresis ¡Chamber, ¡ $250 ¡ 1958 ¡ ¡MaG ¡Meselson ¡& ¡ Ultracentrifuge, ¡$500,000 ¡

One ¡key ¡goal ¡in ¡our ¡infrastructure, ¡training ¡and ¡outreach ¡is ¡ to ¡minimize ¡the ¡emphasis ¡on ¡technology ¡and ¡return ¡the ¡ focus ¡to ¡biology. ¡

slide-12
SLIDE 12

Ways ¡for ¡users ¡to ¡access ¡iPlant ¡

  • Atmosphere: ¡cloud ¡compu?ng ¡plaQorm ¡
  • Data ¡Store: ¡secure, ¡cloud-­‑based ¡data ¡storage ¡ ¡
  • Discovery ¡Environment: ¡a ¡web ¡portal ¡to ¡many ¡integrated ¡

applica?ons ¡(combine ¡data ¡+ ¡compute) ¡ ¡

  • DNA ¡Subway: ¡genome ¡annota?on, ¡DNA ¡bar-­‑coding ¡(and ¡

more) ¡for ¡science ¡educators ¡

  • Founda/on ¡API: ¡For ¡programmers ¡embedding ¡iPlant ¡

infrastructure ¡capabili?es ¡(Auth, ¡IO, ¡Apps, ¡Jobs, ¡Dir. ¡etc) ¡

  • Command ¡line: ¡for ¡expert ¡access ¡(thru ¡TeraGrid/XSEDE)
slide-13
SLIDE 13

End ¡Users ¡ Computa?onal ¡ ¡ Users ¡

Teragrid XSEDE

The ¡iPlant ¡Cyberinfrastructure ¡

slide-14
SLIDE 14
  • A ¡rich ¡web ¡client ¡

– Consistent ¡interface ¡to ¡ bioinforma?cs ¡tools ¡ – Portal ¡for ¡users ¡who ¡won’t ¡ want ¡to ¡interact ¡with ¡lower ¡ level ¡infrastructure ¡

  • An ¡integrated, ¡extensible ¡

system ¡of ¡applica?ons ¡and ¡ services ¡ ¡ – Addi?onal ¡intelligence ¡ above ¡low ¡level ¡APIs ¡– ¡ Provenance, ¡Collabora?on, ¡

  • etc. ¡

The ¡iPlant ¡Discovery ¡Environment ¡

slide-15
SLIDE 15
  • 90,000 ¡

Compute ¡Cores ¡

  • Up ¡to ¡1TB ¡

shared ¡ memory ¡

  • Growing ¡to ¡

~500,000 ¡cores ¡ by ¡end ¡of ¡2012 ¡

TACC ¡Ranger ¡ PSC ¡Blacklight ¡ TACC ¡Corral ¡ EBI ¡Web ¡Services ¡ TACC ¡Lonestar ¡

Scalable ¡Computa/on ¡for ¡High-­‑Throughput ¡Inquiry ¡

slide-16
SLIDE 16

End Users Computational Users

iPlant Layered Services and Access

iPlant Data Store

Scalable Reliable Redundant High-Throughput

slide-17
SLIDE 17

Powered by iPlant

  • The iPlant CI is designed as infrastructure.

This means it is a platform upon which

  • ther projects can build.
  • Use of the iPlant infrastructure can take
  • ne of several forms:

– Authentication (~IdM/P, Shib, CAS etc) – Storage – Computation – Application Hosting – Web Services – Scalability

17

slide-18
SLIDE 18

Powered by iPlant

  • Other major projects are beginning to

adopt the iPlant CI as their underlying infrastructure (some completely, some in limited ways):

– BioExtract (computation) – CiPRES (authentication, computation) – Gates Integrated Breeding Platform (hosting, development, authentication) – Galaxy (storage, for now) – CoGE (authentication, data store, hosting) – Many more

(check http://www.iplantcollaborative.org/discover/powered-by-iplant)

18

slide-19
SLIDE 19

CIPRES Portal Federation

slide-20
SLIDE 20

iRODS

  • Developed by Data Intensive Cyber Environments

(DICE) Directed by Reagan Moore

  • Developed SRB, the Storage Resource Broker at

SDSC, the San Diego Supercomputer Center

  • Most of the group migrated to UNC Chapel Hill in

2008-2009 (The group is bi-coastal: DICE-UNC, DICE-UCSD)

  • Released iRODS, the integrated Rule-Oriented Data

System, in 2009

  • Primary development funding from NSF (and other

agencies)

slide-21
SLIDE 21

iRODS

  • Data grid middleware
  • Data management infrastructure
  • A framework for procedural

implementation of data management policy (policy-driven data management)

slide-22
SLIDE 22

Resource + Catalogue Server(s)

http://e-irods.org/dev/wp-content/uploads/2012/08/irods-getting-started.pdf

slide-23
SLIDE 23

iPlant Data Store

Free Your Data

Different Users, Different Access Needs: One Data Store

slide-24
SLIDE 24

iPlant Data Store (iDS)

WebDAV DE i-commands iDrop API

slide-25
SLIDE 25

Fast ¡data ¡transfers ¡via ¡parallel, ¡ file ¡transfer ¡

  • Move ¡large ¡(>2 ¡GB) ¡files ¡with ¡ease ¡

¡ Mul?ple, ¡consistent ¡access ¡ modes ¡

  • iPlant ¡API ¡
  • iPlant ¡web ¡apps ¡
  • Desktop ¡mount ¡(FUSE/DAV) ¡
  • Java ¡applet ¡(iDrop) ¡
  • Command ¡line ¡(icommands) ¡
  • Tickets ¡and ¡tokens ¡

¡ Fine-­‑grained ¡ACL ¡permissions ¡

  • Sharing ¡made ¡simple ¡

Access ¡and ¡a ¡storage ¡alloca/on ¡is ¡ ¡automa/c ¡with ¡every ¡iPlant ¡account ¡

The ¡iPlant ¡Data ¡Store ¡

slide-26
SLIDE 26

Some Challenges

  • Allowing 3rd party apps to users data

– Used irods rules for ACL handling – E.g. Bisque Image Analysis (updates their web app of data deposition in bisque_data iPlant Data Store) – SSO allowed jumping between 3rd party apps (and internal)

  • *Users want to give access to files, directories for download &

upload ! (anonymous/non iplant/apps)

– Integrated tickets (tokens) – Foundation API (REST access)

  • *Users want fine grain access to permission

– Restrict access from certain domain (*.arizona.edu) for jobs running on other compute grids (UWisc, OSG) – Enhanced tickets to allow host, group, file count, size based control

* Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)

slide-27
SLIDE 27

iticket !

  • Niravs-MacBook-Air:$ iticket
  • iticket>ls
  • id: 62173279
  • string: X23MQI8I5H70O0e
  • ticket type: write
  • bj type: collection
  • wner name: nirav
  • wner zone: iplant
  • uses count: 0
  • uses limit: 0
  • write file count: 0
  • write file limit: 10
  • write byte count: 0
  • write byte limit: 0
  • expire time: none
  • collection name: /iplant/home/nirav/ticket-incoming
  • No host restrictions
  • No user restrictions
  • No group restrictions
slide-28
SLIDE 28

iRODS+Shib

  • Building on the ASPiS solution from King's College,

which allows web-based applications to be Shib enabled

  • This solution leverages the Apache SP, and manages user

accounts based on provided Shib attributes and entitlements

  • Allows customization of behavior by providing a

standard set of iRODS rules and micro services

  • The ASPiS solution is being updated for inclusion in the

Java Jargon library, and the out-of-the-box iDrop web interface.

  • ASPiS option will run by setting a configuration option

that runs a Shibboleth-aware servlet filter.

  • Testing is currently underway on the integration of the

ASPiS approach and this integration should be available by end of September 2012.

Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)

slide-29
SLIDE 29

Customized cloud platform for computing on your terms !

slide-30
SLIDE 30

Atmosphere: motivation

  • Standalone GUI-based applications are

frequently required for analysis

  • GUI apps not easily to transform into web apps
  • Need to handle complex software dependencies

(e.g specific bioperl version and R modules)

  • Users needing full control of their software stack

(occasional sudo access)

  • All computation does not complete in a 24 hour

queue (HPC limitations !)

  • Need to share desktop/applications for

collaborative analysis (remote collaborators)

  • Availability of Next Gen map-reduce based

algorithms (currently we have limited support)

slide-31
SLIDE 31

Challenges of existing cloud platforms

  • Amazon Web Services (AWS)

http://aws.amazon.com/

  • Flexible and scalable
  • High level of expertise required for

configurations

  • Fairly challenging for biologists to master all

steps

  • Limited lifecycle management (cost, time

mgmt )

  • Lack easy desktop integration
  • Lack easy tools for large data transfer
slide-32
SLIDE 32

Steps to get started !

slide-33
SLIDE 33

What is Atmosphere ?

  • Self-service cloud infrastructure
  • Designed to make underlying cloud

infrastructure easy to use by novice user

  • Built on open source Eucalyptus
  • Fully integrated into iPlant authentication

and storage and HPC capabilities

  • Enables users to build custom images/

appliances and share with community

  • Cross-platform desktop access to GUI

applications in the cloud (using VNC)

  • Provide easy web based access to resources
slide-34
SLIDE 34
  • API-­‑compa?ble ¡implementa?on ¡of ¡

Amazon ¡EC2/S3 ¡interfaces ¡

  • Virtualize ¡the ¡execu?on ¡environment ¡

for ¡applica?ons ¡and ¡services ¡

  • Get ¡Up ¡to ¡12 ¡core ¡/ ¡48 ¡GB ¡instance ¡
  • Access ¡to ¡Cloud ¡Storage ¡+ ¡EBS ¡
  • Big ¡data ¡and ¡the ¡desktop ¡are ¡co-­‑local ¡

again ¡

– Bring ¡your ¡data ¡to ¡Atmosphere ¡VM ¡for ¡ interac?ve ¡access ¡and ¡analysis ¡ – Send ¡it ¡back ¡to ¡the ¡DE ¡for ¡transac?onal ¡ analysis ¡

>60 ¡ hosted ¡ applica?ons ¡ in ¡ Atmosphere ¡today, ¡including ¡ users ¡ from ¡ USDA, ¡ Forest ¡ Service, ¡ database ¡ providers, ¡

  • etc. ¡

¡ (30 ¡ more ¡ for ¡ postdocs ¡ and ¡ grad ¡ students ¡ for ¡ training ¡ classes) ¡

The ¡iPlant ¡Collabora/ve ¡

Project ¡Atmosphere™: ¡Custom ¡Cloud ¡Compu?ng ¡

slide-35
SLIDE 35

Atmosphere: Collaboration

iPlant Data Store

slide-36
SLIDE 36

Lifecycle

slide-37
SLIDE 37

How to Connect

slide-38
SLIDE 38

Different Ways to Log in to VMs

slide-39
SLIDE 39

Atmosphere: Launch a new VM

slide-40
SLIDE 40

Atmosphere: Access a running VM

slide-41
SLIDE 41

Atmosphere: Log in via shell

slide-42
SLIDE 42

OpenFlow+OpenStack(Quantum)

  • Allow custom network topology for specific user

defined groups

  • Placement of iRODS resource server and instances
  • Floodlight handles the Openstack integration and
  • penflow switch management
  • Use RESTful interface from Grouper
  • Placement of instance within our distributed

infrastructure is easier (prevent vlan pain)

  • Apply group policy, security, data access at network

level (not in VM which is easy to override as sudo/ root)

slide-43
SLIDE 43

Challenges …

  • Collaboration as ad-hoc groups/teams is

becoming increasingly prevalent

  • Defined groups need to persist across ALL
  • ur infrastructure
  • Combining the capabilities of cloud ,

network virtualization and iPlant Data store (with understanding of groups !)

  • Our apps are web + command line (need a

happy medium for emerging auth systems !)

slide-44
SLIDE 44

Will Computers Crash Genomics ? Science Vol. 331 Feb 2011

slide-45
SLIDE 45

Acknowledgement All amazing iPlant staff, students, collaborators and community members ! Too many to name !!