Scalable Node Monitoring Alex Drotar University of Colorado - - PowerPoint PPT Presentation

scalable node monitoring
SMART_READER_LITE
LIVE PREVIEW

Scalable Node Monitoring Alex Drotar University of Colorado - - PowerPoint PPT Presentation

Scalable Node Monitoring Alex Drotar University of Colorado Erin Quinn Fairleigh Dickinson University Landon Sutherland New Mexico State University


slide-1
SLIDE 1

LA-­‑UR-­‑12-­‑23629 ¡

Scalable Node Monitoring

Alex ¡Drotar ¡– ¡University ¡of ¡Colorado ¡ Erin ¡Quinn ¡– ¡Fairleigh ¡Dickinson ¡University ¡ Landon ¡Sutherland ¡– ¡New ¡Mexico ¡State ¡University ¡ ¡ Mentors: ¡Mike ¡Mason ¡– ¡HPC3, ¡Jon ¡Bringhurst ¡– ¡HPC3 ¡

slide-2
SLIDE 2

LA-­‑UR-­‑12-­‑23629 ¡

Project Description

  • Build ¡a ¡high ¡performance ¡computer ¡
  • Create ¡a ¡tool ¡to ¡monitor ¡node ¡applicaQons ¡in ¡

Component ¡Based ¡Tool ¡Framework ¡(CBTF) ¡ using ¡code ¡from ¡Lightweight ¡Data ¡Metric ¡ Service ¡(LDMS) ¡

slide-3
SLIDE 3

LA-­‑UR-­‑12-­‑23629 ¡

Importance

  • Need ¡a ¡scalable, ¡parallel ¡tool ¡to ¡monitor ¡

nodes ¡on ¡clusters ¡

  • New ¡LDMS ¡plugins ¡need ¡to ¡be ¡able ¡to ¡be ¡easily ¡

added ¡to ¡tool ¡

slide-4
SLIDE 4

LA-­‑UR-­‑12-­‑23629 ¡

Our Cluster

  • Built ¡from ¡the ¡

ground ¡up ¡

– 8 ¡nodes ¡ – Running ¡CentOS ¡ 6.2 ¡ – 8 ¡Cores ¡each ¡ – 16Gb ¡RAM ¡each ¡ – WareWulf-­‑ provisioned ¡

slide-5
SLIDE 5

LA-­‑UR-­‑12-­‑23629 ¡

CBTF

  • CBTF ¡stands ¡for ¡“Component ¡Based ¡Tool ¡

Framework” ¡

  • Scalable ¡
  • Adjusts ¡to ¡different ¡topologies ¡automaQcally ¡
  • Uses ¡MRNet ¡(MulQcast/ReducQon ¡Network) ¡

mechanism ¡for ¡informaQon ¡transport ¡ ¡

slide-6
SLIDE 6

LA-­‑UR-­‑12-­‑23629 ¡

CBTF

  • CBTF ¡is ¡flexible ¡and ¡general ¡enough ¡to ¡be ¡used ¡

for ¡any ¡tool ¡that ¡needs ¡to ¡do ¡a ¡task ¡on ¡many ¡ nodes ¡

  • Components ¡are ¡reusable ¡and ¡“EASILY” ¡added ¡

to ¡a ¡new ¡tool ¡

slide-7
SLIDE 7

LA-­‑UR-­‑12-­‑23629 ¡

Three Levels of CBTF

  • Frontend ¡Node ¡

– Interacts ¡with ¡user ¡

  • Filter ¡Nodes ¡

– Filters ¡or ¡concatenates ¡informaQon ¡from ¡backend ¡ nodes ¡

  • Backend ¡Nodes ¡

– Where ¡the ¡actual ¡work ¡of ¡the ¡tool ¡is ¡done ¡

slide-8
SLIDE 8

LA-­‑UR-­‑12-­‑23629 ¡

How CBTF Works

  • 3 ¡Main ¡Files ¡ ¡

– Tool ¡File ¡– ¡loads ¡files, ¡MRNet ¡setup, ¡interacts ¡with ¡ CBTF ¡network ¡ – Component ¡(Plugin) ¡File ¡– ¡Components ¡are ¡ defined ¡and ¡given ¡instrucQons ¡ – XML ¡File ¡– ¡sets ¡up ¡connecQons ¡between ¡ components ¡and ¡directs ¡data ¡streams ¡

slide-9
SLIDE 9

LA-­‑UR-­‑12-­‑23629 ¡

LDMS

  • LDMS ¡stands ¡for ¡“Lightweight ¡Data ¡Metric ¡

Service” ¡

  • Tool ¡used ¡for ¡monitoring ¡nodes ¡

– InformaQon ¡from ¡/proc/ ¡

  • Vmstat, ¡meminfo ¡… ¡
  • Created ¡an ¡applicaQon ¡layer ¡ ¡
  • Created ¡Dynamic ¡Libraries ¡
slide-10
SLIDE 10

LA-­‑UR-­‑12-­‑23629 ¡

Why Change LDMS?

  • Fat ¡tree ¡implementaQon ¡ ¡

– CBTF ¡uses ¡MRNet ¡

slide-11
SLIDE 11

LA-­‑UR-­‑12-­‑23629 ¡

Implement LDMS Code Using CBTF

LDMS ¡ CBTF ¡

LDMS ¡Plugins ¡

slide-12
SLIDE 12

LA-­‑UR-­‑12-­‑23629 ¡

Ltool

  • Ltool ¡is ¡the ¡name ¡of ¡the ¡tool ¡we ¡derived ¡from ¡

LDMS ¡

  • Dynamically ¡linked ¡
  • Includes ¡the ¡following ¡components: ¡

– Vmstat ¡ – Meminfo ¡ – Procinterrupts ¡ – …and ¡more ¡

slide-13
SLIDE 13

LA-­‑UR-­‑12-­‑23629 ¡

Expected Results

0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 0 ¡ 5 ¡ 10 ¡ 15 ¡ 20 ¡ 25 ¡ 30 ¡ 35 ¡ 40 ¡ 45 ¡ 50 ¡ 55 ¡ 60 ¡ 65 ¡ 70 ¡ 75 ¡ 80 ¡ 85 ¡ 90 ¡ 95 ¡100 ¡ CPU ¡Usage ¡(%) ¡ Time ¡ ¡

CPU ¡Trend ¡

slide-14
SLIDE 14

LA-­‑UR-­‑12-­‑23629 ¡

LDMS to CBTF

  • Allows ¡new ¡LDMS ¡plugins ¡to ¡be ¡simply ¡

transferred ¡into ¡our ¡tool ¡ ¡

slide-15
SLIDE 15

LA-­‑UR-­‑12-­‑23629 ¡

How Does It Work?

  • Ltool ¡command ¡is ¡run ¡on ¡

the ¡frontend ¡node ¡

  • Ltool ¡collects ¡informaQon ¡

from ¡the ¡backend ¡nodes ¡

  • Backend ¡nodes ¡send ¡

informaQon ¡to ¡the ¡filter ¡ nodes ¡

  • Filter ¡nodes ¡concatenate ¡

informaQon ¡and ¡send ¡to ¡a ¡ database ¡on ¡the ¡front ¡end ¡ node ¡ ¡

Frontend ¡Node ¡ Backend ¡Nodes ¡ Filter ¡Nodes ¡

slide-16
SLIDE 16

LA-­‑UR-­‑12-­‑23629 ¡

CBTF - Ltool

  • Frontend ¡Node ¡

– Allows ¡user ¡to ¡select ¡plugin ¡to ¡run ¡

  • 2 ¡Filter ¡Nodes ¡

1) Collects ¡X ¡amount ¡of ¡messages ¡from ¡each ¡node ¡ 2) Adds ¡the ¡informaQon ¡to ¡the ¡database ¡

  • Backend ¡Node ¡

– Runs ¡LDMS ¡applicaQon ¡ – Runs ¡on ¡a ¡specified ¡interval ¡ ¡

slide-17
SLIDE 17

LA-­‑UR-­‑12-­‑23629 ¡

Database

  • MySQL ¡ ¡

– Each ¡plugin ¡has ¡its ¡own ¡table ¡

  • Allows ¡to ¡query ¡by ¡plugin ¡
  • Simplifies ¡future ¡addiQons ¡

– InformaQon ¡connected ¡by ¡MySQL ¡dynamic ¡script ¡

  • Allows ¡to ¡be ¡easily ¡moved ¡to ¡new ¡machines ¡/ ¡users ¡

– No ¡predatabase ¡informaQon ¡needed ¡

slide-18
SLIDE 18

LA-­‑UR-­‑12-­‑23629 ¡

slide-19
SLIDE 19

LA-­‑UR-­‑12-­‑23629 ¡

slide-20
SLIDE 20

LA-­‑UR-­‑12-­‑23629 ¡

Results

  • LDMS ¡was ¡successfully ¡implemented ¡into ¡a ¡

CBTF ¡tool, ¡and ¡that ¡the ¡overhead ¡involved ¡ with ¡running ¡the ¡tool ¡is ¡relaQvely ¡low. ¡ ¡ ¡

slide-21
SLIDE 21

LA-­‑UR-­‑12-­‑23629 ¡

Conclusions

  • Ltool ¡ is ¡ a ¡ useful ¡ tool ¡ when ¡ it ¡ comes ¡ to ¡

monitoring ¡ nodes ¡ on ¡ a ¡ cluster ¡ because ¡ the ¡

  • verhead ¡involved ¡with ¡running ¡the ¡tool ¡is ¡not ¡

parQcularly ¡high ¡and ¡it ¡will ¡automaQcally ¡scale ¡ to ¡any ¡size ¡cluster. ¡ ¡

slide-22
SLIDE 22

LA-­‑UR-­‑12-­‑23629 ¡

Future Work

  • Ltool ¡can ¡be ¡tested ¡to ¡see ¡if ¡it ¡can ¡run ¡

consistently ¡for ¡numerous ¡days ¡

  • Create ¡triggers ¡for ¡code ¡to ¡run ¡with ¡Ltool ¡to ¡allow ¡

mulQple ¡components ¡to ¡run ¡ ¡ ¡ ¡ ¡ ¡at ¡different ¡Qmes ¡

  • MulQple ¡components ¡

execuQng ¡at ¡the ¡same ¡Qme ¡

  • Use ¡MRNet ¡to ¡filter ¡more ¡

data ¡

slide-23
SLIDE 23

LA-­‑UR-­‑12-­‑23629 ¡

Any Questions?

slide-24
SLIDE 24

LA-­‑UR-­‑12-­‑23629 ¡

Thank You

  • Dane ¡Gardner ¡
  • Our ¡Mentors: ¡Mike ¡Mason, ¡Jon ¡Bringhurst ¡
  • TJ ¡Machado ¡
  • Jim ¡Brandt ¡
  • Ann ¡GenQle ¡