Åke ¡Edlund ¡
KTH ¡PDC-‑HPC ¡ ¡Center ¡for ¡High ¡Performance ¡Computing ¡ KTH ¡HPCViz ¡Data-‑Intensive ¡Computing ¡Group ¡ KTH ¡PDC-‑HPC ¡Cloud
1
OpenNebula: Experiences at KTH
With a deeper dive into emerging data analytics stacks
OpenNebula: Experiences at KTH With a deeper dive into emerging - - PowerPoint PPT Presentation
OpenNebula: Experiences at KTH With a deeper dive into emerging data analytics stacks ke Edlund KTH PDC-HPC Center for High Performance Computing KTH HPCViz Data-Intensive
Åke ¡Edlund ¡
KTH ¡PDC-‑HPC ¡ ¡Center ¡for ¡High ¡Performance ¡Computing ¡ KTH ¡HPCViz ¡Data-‑Intensive ¡Computing ¡Group ¡ KTH ¡PDC-‑HPC ¡Cloud
1
With a deeper dive into emerging data analytics stacks
Cloud computing and data-intensive computing at PDC - a brief overview OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for
2
Cloud computing and data-intensive computing at PDC - a brief overview OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for
3
Cloud computing and data-intensive computing at PDC - a brief overview
– Cloud ¡provider ¡since ¡2009 ¡– ¡national ¡and ¡international ¡users ¡
– Version ¡0.6 ¡released ¡in ¡October ¡15, ¡2012 ¡
– Distributed ¡and ¡federated ¡clouds ¡and ¡data ¡analytics ¡stacks ¡ – Bioinformatics ¡and ¡LifeScience ¡applications ¡ – Scalable ¡statistics ¡ – Self-‑improving ¡systems ¡ – Strong ¡and ¡usable ¡security ¡factors ¡to ¡enable ¡researchers ¡to ¡store ¡sensitive ¡data ¡in ¡the ¡Cloud ¡
– SNIC ¡Cloud ¡Infrastructure ¡(co-‑Initiator ¡and ¡Coordinator) ¡– ¡the ¡Swedish ¡roll ¡out ¡of ¡cloud ¡for ¡ eScience ¡ – NeIC ¡Nordic ¡Cloud ¡(co-‑Initiator ¡and ¡coordinator ¡Swedish ¡part) ¡ – BioBankCloud ¡(WP ¡leader) ¡– ¡PaaS ¡for ¡biobanking ¡ – EGI ¡Federated ¡Cloud ¡task ¡force ¡(development ¡and ¡resource ¡provider) ¡ – VENUS-‑C ¡(WP-‑Leader) ¡(2010 ¡– ¡2012) ¡ – …
4
PDC ¡Cloud ¡has ¡been ¡in ¡production ¡(with ¡external ¡users) ¡since ¡2010 ¡and ¡is ¡ today ¡an ¡installation ¡of ¡364 ¡cores ¡
12 ¡nodes, ¡each ¡consisting ¡of ¡32 ¡cores ¡– ¡1 ¡TB ¡x ¡2 ¡disk ¡and ¡64 ¡GB ¡RAM ¡
20 ¡TB ¡shared ¡(through ¡Infiniband) ¡by ¡the ¡12 ¡nodes ¡using ¡Ceph ¡(RBD ¡(block ¡ devices), ¡S3 ¡(Object ¡Storage) ¡-‑ ¡this ¡is ¡under ¡reconstruction ¡(from ¡SAN ¡to ¡ dedicated ¡Ceph ¡storage ¡nodes ¡-‑> ¡36 ¡TB) ¡
Cloud ¡middlewares ¡used ¡over ¡the ¡years ¡range ¡from ¡Eucalyptus, ¡ OpenNebula, ¡and ¡now ¡a ¡mix ¡of ¡OpenNebula ¡and ¡OpenStack ¡
Users ¡access ¡their ¡resources ¡using ¡web ¡panel ¡and/or ¡CLI/API ¡
partner ¡in ¡a ¡number ¡of ¡Swedish, ¡Nordic ¡and ¡European ¡cloud ¡projects, ¡e.g. ¡ being ¡one ¡of ¡the ¡first ¡certified ¡cloud ¡resource ¡providers ¡to ¡EGI ¡Federated ¡ Cloud.
5
HPCViz ¡Data-‑Intensive ¡Computing ¡Group ¡(started ¡2012) ¡is ¡a ¡research ¡ group ¡building ¡on ¡the ¡experiences ¡from ¡PDC. ¡
(SciLifeLab) ¡on ¡applying, ¡and ¡further ¡expand, ¡emerging ¡novel ¡ techniques ¡for ¡iterative ¡and ¡interactive ¡in-‑memory ¡data ¡analytics ¡ stacks ¡(Spark, ¡Stratosphere, ¡H2O, ¡…) ¡
with ¡applications ¡in ¡performance ¡improvement ¡of ¡distributed ¡systems, ¡ and ¡security ¡(intrusion ¡detection).
6
[1] ¡"Practical ¡Cloud ¡Evaluation ¡from ¡a ¡Nordic ¡eScience ¡User ¡Perspective", ¡VTDC'11, ¡ACM ¡conference ¡San ¡Jose ¡(2011) ¡by ¡Åke ¡Edlund ¡and ¡Maarten ¡Koopman, ¡Zeeshan ¡Ali ¡Shah, ¡ Ilja ¡Livenson, ¡Frederik ¡Orellana, ¡Jukka ¡Kommeri, ¡Miika ¡Tuisku, ¡Pekka ¡Lehtovuori, ¡Klaus ¡Marius ¡Hansen, ¡Helmut ¡Neukirchen, ¡ ¡Ebba ¡Þóra ¡Hvannberg ¡
7
2001 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2004 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2007 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2010 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2011 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2012 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2014
Nordic ¡cloud ¡project, ¡NEON ¡ (2010) ¡ Practical ¡evaluation ¡[1], ¡ testing ¡public ¡vs ¡private ¡ cloud ¡for ¡eScience ¡users ¡ (bioinformatics) SNIC ¡Cloud ¡project ¡(2011.6-‑2012.6+) ¡ Enabled ¡cloud ¡access ¡(public ¡and ¡ private) ¡to ¡SNIC ¡users. ¡ ¡14 ¡(some ¡ recurring) ¡users ¡of ¡SNIC ¡Cloud ¡for ¡ Amazon ¡ ¡(e.g. ¡running ¡Galaxy) ¡and ¡54 ¡
PDC ¡Cloud, ¡partially ¡from ¡outside ¡ SNIC) SNIC ¡Galaxy ¡project ¡ (2013.3-‑2014.3). ¡The ¡goal ¡of ¡ the ¡project ¡is ¡to ¡deliver ¡Galaxy ¡ as ¡a ¡service, ¡using ¡the ¡Galaxy ¡ cloud ¡management ¡platform, ¡ Cloudman, ¡on ¡local ¡cloud ¡ installations ¡(private ¡clouds). ¡ SNIC ¡Cloud ¡Infrastructure ¡ (long-‑term, ¡started ¡Jan ¡2014). ¡ A ¡(generic) ¡IaaS ¡on ¡which ¡ communities/users ¡can ¡build ¡ their ¡PaaS. ¡Strong ¡emphasize ¡
Grid ¡Computing ¡projects ¡(DataGrid, ¡EGEE, ¡EGI) ¡– ¡including ¡EGI ¡Federated ¡Clouds ¡TF
KTH ¡PDC ¡Cloud ¡ experimentation
Public ¡ ¡ ¡IaaS Private ¡IaaS Private ¡PaaS Public ¡ ¡ ¡PaaS
PDC-‑HPC ¡(since ¡1989)
[1] ¡"Practical ¡Cloud ¡Evaluation ¡from ¡a ¡Nordic ¡eScience ¡User ¡Perspective", ¡VTDC'11, ¡ACM ¡conference ¡San ¡Jose ¡(2011) ¡by ¡Åke ¡Edlund ¡and ¡Maarten ¡Koopman, ¡Zeeshan ¡Ali ¡Shah, ¡ Ilja ¡Livenson, ¡Frederik ¡Orellana, ¡Jukka ¡Kommeri, ¡Miika ¡Tuisku, ¡Pekka ¡Lehtovuori, ¡Klaus ¡Marius ¡Hansen, ¡Helmut ¡Neukirchen, ¡ ¡Ebba ¡Þóra ¡Hvannberg ¡
8
2001 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2004 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2007 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2010 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2011 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2012 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2014
Nordic ¡cloud ¡project, ¡NEON ¡ (2010) ¡ Practical ¡evaluation ¡[1], ¡ testing ¡public ¡vs ¡private ¡ cloud ¡for ¡eScience ¡users ¡ (bioinformatics) SNIC ¡Cloud ¡project ¡(2011.6-‑2012.6+) ¡ Enabled ¡cloud ¡access ¡(public ¡and ¡ private) ¡to ¡SNIC ¡users. ¡ ¡14 ¡(some ¡ recurring) ¡users ¡of ¡SNIC ¡Cloud ¡for ¡ Amazon ¡ ¡(e.g. ¡running ¡Galaxy) ¡and ¡54 ¡
PDC ¡Cloud, ¡partially ¡from ¡outside ¡ SNIC) SNIC ¡Galaxy ¡project ¡ (2013.3-‑2014.3). ¡The ¡goal ¡of ¡ the ¡project ¡is ¡to ¡deliver ¡Galaxy ¡ as ¡a ¡service, ¡using ¡the ¡Galaxy ¡ cloud ¡management ¡platform, ¡ Cloudman, ¡on ¡local ¡cloud ¡ installations ¡(private ¡clouds). ¡ SNIC ¡Cloud ¡Infrastructure ¡ (long-‑term, ¡started ¡Jan ¡2014). ¡ A ¡(generic) ¡IaaS ¡on ¡which ¡ communities/users ¡can ¡build ¡ their ¡PaaS. ¡Strong ¡emphasize ¡
Grid ¡Computing ¡projects ¡(DataGrid, ¡EGEE, ¡EGI) ¡– ¡including ¡EGI ¡Federated ¡Clouds ¡TF
KTH ¡PDC ¡Cloud ¡ experimentation
Public ¡ ¡ ¡IaaS Private ¡IaaS Private ¡PaaS Public ¡ ¡ ¡PaaS
PDC-‑HPC ¡(since ¡1989)
Iaas ¡à PaaS ¡ Security ¡concerns. ¡Service ¡to ¡our ¡users. ¡ Easier ¡to ¡manage ¡larger ¡user ¡groups. Public ¡IaaS ¡à Private ¡IaaS ¡ Large ¡amount ¡of ¡sensitive ¡data, ¡
practical ¡use ¡of ¡public ¡clouds. ¡
Current ¡Cloud ¡Projects ¡
Earlier ¡Cloud ¡Projects ¡
9
10
Main contribution to this section: from Zeeshan Ali Shah* Cloud computing and data-intensive computing at PDC - a brief overview OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for * zashah@pdc.kth.se
and easy access to it’s core team which was located in EU .
11
within Venus-C
and ENGINEERING (Italy).
12
13
www.e-science.se www.scilifelab.se
www.natmeg.se
Neurosciences, Karolinska Institute
And, yes, from EGI Fed cloud communities
Science for Life Laboratory (SciLifeLab) is a national center for molecular biosciences with focus on health and environmental research.
researchers
– Open Nebula CLI – Sunstone Dashboard – SDK (not so many) but option was there
14
15
From “The EGI Federated Cloud, a production IaaS infrastructure for the EEA”, D. Wallom (EGI CF, 20.04.2014)
Pre configured apps with Open Nebula
Cloud ¡Bio ¡Linux Galaxy ¡(AWS ¡-‑ ¡for ¡CloudMan)
16
Issue: PoC Cloudman on ON (SARA, NL) - but moved to OS
– To minimize launch time of VMs, what we notice is that most of time in VMs launch took for copying image to designated host – Shared FS is an option, but it has its own limitations.
17
“Wish list” from Zeeshan Ali Shah * * zashah@pdc.kth.se
18
See next section ….
19
Cloud computing and data-intensive computing at PDC - a brief overview OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for
Probing ¡extreme ¡phenomena ¡in ¡scientific ¡ fields ¡with ¡mature ¡theories Increasingly ¡exploratory ¡research ¡areas Making ¡meaning ¡of ¡human ¡activity ¡on ¡the ¡ Internet ¡ 1990 2010 Sensing ¡everything ¡
20
Probing ¡extreme ¡phenomena ¡in ¡scientific ¡ fields ¡with ¡mature ¡theories Increasingly ¡exploratory ¡research ¡areas Making ¡meaning ¡of ¡human ¡activity ¡on ¡the ¡ Internet ¡ 1990 2010 Sensing ¡everything ¡
21
Sthlm, May 2014
Research ¡at ¡HPCViz ¡Data-‑Intensive ¡Computing ¡Group
…. ¡building ¡a ¡DS ¡curriculum ¡for ¡the ¡group Brain ¡images ¡– ¡Scabia ¡project, ¡MEG ¡data ¡ Paas ¡for ¡Life ¡Science ¡ ¡
Privacy ¡preservation ¡in ¡the ¡cloud ¡ ¡ ¡-‑ ¡Biobankcloud Federated ¡clouds ¡ ¡
Cloud ¡environments ¡ ¡
¡ ¡capabilities Anomaly ¡detection ¡in ¡performance ¡data ¡
Next: ¡Scalable ¡statistics Cloud ¡and ¡industry ¡– ¡esp. ¡startups Chemoinformatics ¡
¡ ¡ ¡Screening ¡
Applications Technologies Industry Algorithms ¡ ¡ Theory
Federated ¡IaaS ¡and ¡STaaS ¡Cloud
Tier 1: Reliable Infrastructure Cloud Tier 4: Zero ICT Infrastructures Tier 3:
Platform as a Service
Tier 2:
General-purpose platform services
PaaS PaaS DB ¡aaS Hadoop ¡ aaS VRE Secure ¡storage
Key ¡Mgmt
Encryption
ACL ¡mgmt
Virtual ¡ ¡ eLaboratory
23
From “The EGI Federated Cloud, a production IaaS infrastructure for the EEA”, D. Wallom (EGI CF, 20.04.2014)
Federated ¡IaaS ¡and ¡STaaS ¡Cloud
Tier 1: Reliable Infrastructure Cloud Tier 4: Zero ICT Infrastructures Tier 3:
Platform as a Service
Tier 2:
General-purpose platform services
PaaS PaaS DB ¡aaS Hadoop ¡ aaS VRE Secure ¡storage
Key ¡Mgmt
Encryption
ACL ¡mgmt
Virtual ¡ ¡ eLaboratory
24
From “The EGI Federated Cloud, a production IaaS infrastructure for the EEA”, D. Wallom (EGI CF, 20.04.2014)
leap ¡from ¡data ¡to ¡knowledge: ¡ – Need ¡estimates ¡of ¡uncertainty ¡in ¡the ¡outputs ¡of ¡algorithms ¡ (“error ¡bars”) ¡
efficiency ¡and ¡to ¡be ¡able ¡to ¡develop ¡sophisticated ¡algorithms
Support batch, streaming, and interactive computations… in a unified framework
25
Applications
Spark Streaming
GraphX
MLBase
BlinkDB Pig
…
Storm
MPI
Shark HIVE
Spark
Hadoop MR
HDFS
Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data.
Hadoop YARN
“Yet-Another-Resource-Negotiator”. A framework for job scheduling and cluster resource management.
Infrastructure
E.g. public and private clouds
Data Processing Data Management Resource Management
26
Other Hadoop-related projects at Apache include:
MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a dashboard for viewing cluster health such as heatmaps and ability to view MapReduce, Pig and Hive applications visually alongwith features to diagnose their performance characteristics in a user-friendly manner.
range of applications, including ETL, machine learning, stream processing, and graph computation.
DAG of tasks to process data for both batch and interactive use-cases. Tez is being adopted by Hive™, Pig™ and other frameworks in the Hadoop ecosystem, and also by other commercial software (e.g. ETL tools), to replace Hadoop™ MapReduce as the underlying execution engine.
27
top of Apache Hadoop, Hama, and Spark
28
– Support iterative, graph-parallel algorithms – Powerful APIs in Scala, Python, Java
Applications Spark Streaming GraphX MLBase BlinkDB Pig … Storm MPI Shark HIVE Spark Hadoop MR HDFS Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data. Hadoop YARN “Yet-Another-Resource-Negotiator”. A framework for job scheduling and cluster resource management. Infrastructure E.g. public and private clouds29
Streaming Interactive Sophisticated algorithms Batch, Interactive Interactive Sophisticated algorithms
spark.apache.org
– Easier to build and maintain – Cheaper to operate – Easier to get insights, faster decisions
– Faster diagnosis, decisions (e.g., better ad targeting)
– Faster to get social network insights (e.g., improve user experience)
30
Separate frameworks:
…
HDFS read HDFS write
E T L
HDFS read HDFS write
t r a i n
HDFS read HDFS write
q u e r y
HDFS
HDFS read
Spark:
Interactive analysis
31
E T L
t r a i n q u e r y
to identify problems
for processing large logs
Spark Streaming for realtime processing
$ ¡./spark-‑shell ¡ scala> ¡val ¡file ¡= ¡sc.hadoopFile(“smallLogs”) ¡ ... ¡ scala> ¡val ¡filtered ¡= ¡file.filter(_.contains(“ERROR”)) ¡ ... ¡ scala> ¡val ¡mapped ¡= ¡filtered.map(...) ¡ ... ¡
¡ ¡def ¡main(args: ¡Array[String]) ¡{ ¡ ¡ ¡ ¡ ¡val ¡sc ¡= ¡new ¡SparkContext(...) ¡ ¡ ¡ ¡ ¡val ¡file ¡= ¡sc.hadoopFile(“productionLogs”) ¡ ¡ ¡ ¡ ¡val ¡filtered ¡= ¡file.filter(_.contains(“ERROR”)) ¡ ¡ ¡ ¡ ¡val ¡mapped ¡= ¡filtered.map(...) ¡ ¡ ¡ ¡ ¡... ¡ ¡ ¡} ¡ } object ¡ProcessLiveStream ¡{ ¡ ¡ ¡def ¡main(args: ¡Array[String]) ¡{ ¡ ¡ ¡ ¡ ¡val ¡sc ¡= ¡new ¡StreamingContext(...) ¡ ¡ ¡ ¡ ¡val ¡stream ¡= ¡sc.kafkaStream(...) ¡ ¡ ¡ ¡ ¡val ¡filtered ¡= ¡stream.filter(_.contains(“ERROR”)) ¡ ¡ ¡ ¡ ¡val ¡mapped ¡= ¡filtered.map(...) ¡ ¡ ¡ ¡ ¡... ¡ ¡ ¡} ¡ } 32
¡ ¡“select ¡latitude, ¡longitude ¡from ¡historic_tweets”) val ¡model ¡= ¡KMeans.train(points, ¡10) sc.twitterStream(...) ¡ ¡.map(t ¡=> ¡(model.closestCenter(t.location), ¡1)) ¡ ¡.reduceByWindow(“5s”, ¡_ ¡+ ¡_)
From Scala:
33
Summary – challenges and opportunities arising
Google’s ¡OMEGA ¡efforts ¡
environments? ¡Not ¡yet. ¡
usability ¡
– Quality: ¡Need ¡of ¡“error ¡bars” ¡around ¡outcomes ¡
– Algorithmic weakening for statistical inference ¡
34
Google’s ¡OMEGA ¡efforts ¡
environments? ¡Not ¡yet. ¡
usability ¡
– Quality: ¡Need ¡of ¡“error ¡bars” ¡around ¡outcomes ¡
– Algorithmic weakening for statistical inference ¡
35
processing ¡Big ¡Data ¡to ¡solve ¡problems ¡in ¡ X-‑Informatics ¡( ¡or ¡e-‑X)” ¡
time! ¡
Mathematics ¡& ¡ Statistics ¡Knowledge Substantive ¡ ¡ Experience
Data ¡ Science Machine ¡ Learning Traditional ¡ Research Danger ¡ Zone ¡!
– http://www.soic.indiana.edu/people/profiles/fox-‑geoffrey-‑charles.shtml ¡-‑ ¡great ¡ visionary ¡researcher ¡in ¡distributed ¡computing ¡and ¡its ¡usage ¡
– http://www.nap.edu/catalog.php?record_id=18374 ¡-‑ ¡fundament ¡of ¡current ¡state-‑of-‑ the-‑art ¡
– http://research.microsoft.com/en-‑us/collaboration/fourthparadigm/ ¡-‑ ¡a ¡good ¡starting ¡ point, ¡esp. ¡visions ¡from ¡Jim ¡Gray ¡
– Spark ¡team ¡
36
37
Åke ¡Edlund
edlund@pdc.kth.se