I. Clusters bajo Linux Isabel Campos Plasencia Responsable de - - PowerPoint PPT Presentation

i clusters bajo linux
SMART_READER_LITE
LIVE PREVIEW

I. Clusters bajo Linux Isabel Campos Plasencia Responsable de - - PowerPoint PPT Presentation

INSTITUTO DE BIOCOMPUTACIN Y FSICA DE SISTEMAS COMPLEJOS CURSO CLUSTERS & GRID COMPUTING EN ENTORNOS DE SOFTWARE LIBRE I. Clusters bajo Linux Isabel Campos Plasencia Responsable de Proyectos de Computacin 28, 29 y 30 de Noviembre


slide-1
SLIDE 1

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

  • I. Clusters bajo Linux

Isabel Campos Plasencia Responsable de Proyectos de Computación

slide-2
SLIDE 2

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Estrategia de Administración: ¿Qué conlleva?

  • Mantenimiento Físico de las máquinas
  • Conexiones eléctricas, consolas,...
  • BIOS
  • Sistema Operativo
  • Mecanismo de Booting
  • Instalación y Configuración de las máquinas
  • Integridad del sistema: detección de intrusiones
  • Monitorización del cluster
  • Chequeo del estado del cluster
  • Gestión de los mensajes de error
  • Seguridad
slide-3
SLIDE 3

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

ADMINISTRACIÓN DEL SISTEMA

Instalación Instalación

Mantenimiento Mantenimiento Físico Físico

Usuarios Usuarios Software Software

SEGURIDAD MONITORIZACIÓN

Administración de clusters

slide-4
SLIDE 4

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

  • Uso del cluster
  • Setup de usuarios y login
  • Envío de trabajos
  • Law enforcement
  • Aplicaciones de usuario
  • Instalación
  • Setting-up y mantenimiento de las variables de entorno $ENV.

► Para cada punto debe haber una estrategia bien definida!! Para cada punto debe haber una estrategia bien definida!!

Estrategia de Administración: ¿Qué conlleva?

slide-5
SLIDE 5

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Booting e Instalación del Sistema Operativo

slide-6
SLIDE 6

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: Mecanismo de Booting

► Booting en los nodos del cluster

  • Boot via NFS

– El sistema operativo está almacenado en el servidor y se exporta con NFS – Los nodos hacen el boot mediante DHCP/BOOTP y TFTP – Los discos duros locales se usan para almacenamiento provisional de datos (/tmp) – Otra opción: el booting a través de la red es particularmente fácil de mantener porque todo el software está en el servidor.

  • Boot desde disco local

– Más costoso desde el punto de vista del mantenimiento – Mucho más tolerante a errores de red, por ejemplo.

slide-7
SLIDE 7

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: DHCPD y PXE booting

dhcpd

El fichero /etc/dhcpd.conf: host nodo1 { hardware Ethernet 00:28:20:4F:C3:80; fixed-address 192.168.1.1; }

Ethernet

HW address: 00:28:20:4F:C3:80 IP: 192.168.1.1 Hostname: nodo1

Servidor

slide-8
SLIDE 8

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: DHCPD y PXE booting

tftp protocol

El fichero /tftpboot/pxelinux.cfg/nodo1 ….. Install=nfs://192.168.1.250/nfs/SuSE9

Ethernet Servidor PXE protocol

El fichero /nfs/SuSE9/xml/nodo1.xml Contiene los detalles del software a instalar Instalación del Sistema Operativo

slide-9
SLIDE 9

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del sistema operativo

Network exterior

Red

Maquina de Instalación (aislada del exterior)

/boot /etc /lib /usr/etc /usr/bin

lxinst

Complejo del cluster

slide-10
SLIDE 10

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del sistema operativo

Tiempo de instalación por nodo (via NFS)

04:33 03:24 17:30 10:15 06:09

00:00 05:00 10:00 15:00 20:00

1 3 5 7 9 11 13 15

N

t/N [min] NFS server: Pentium 200MHz, 64MB RAM, 40 GB Hdisk

NIC 3Com 3c905 100BaseTX (Boomerang) 100 Mbit full duplex

slide-11
SLIDE 11

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Monitorización del Cluster

slide-12
SLIDE 12

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

► Parámetros a monitorizar

  • Hardware: Discos, conexión a la red, Temperatura, Memoria,...
  • Software: integridad del OS, versión kernel, updates del sistema,...
  • Otros: ¿Está el directorio /data/protein montado en lxdata0 ?

► Características del sistema de monitor

  • Aplicable a todas las plataformas Linux
  • Dar una visión global rápida del estado de las máquinas
  • Proveer de un mecanismo de corrección de errores y alerta
  • No interferir en la operación de las máquinas

► Diseño de un monitor „a la carta“

  • A partir de herramientas UNIX standard (shell scripts, HTML)
  • Se instala como un programa en shell que se ejecuta periodicamente

(cron job)

Monitorización del Cluster

slide-13
SLIDE 13

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización del Cluster: Algunas herramientas

► Estado del Hardware

  • Voltaje, T, Ventiladores,

chasis,... ► Estado Operacional

  • Filesystems (¿montados?

¿Llenos?)

  • Mensajes del disco (¿errores?)
  • Usuarios ( usuarios ilegales)
  • Uptime
  • Daemons (cron,nfs)

► Rendimiento

  • Uso del Sistema
  • Contando Mflop/s, Mref/s

(desarrollo de programas)

http://www.lm-sensors.nu

Scripts en shell Usar ganglia toolkit http://ganglia.sourceforge.net

http://perfctr.sourceforge.net

slide-14
SLIDE 14

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

► Librería de Sensores:

  • Implementado como un módulo del kernel que se carga al hacer el boot

► Ganglia Toolkit

  • Multicast (TCP/IP transporte): muy rápido *
  • Monitorización completa en tiempo real (Opensource)
  • Versiones para Linux, Solaris, Tru64, IRIX, Windows
  • Mantiene una tabla dinámica de máquinas: es decir, no se cuelga al tratar de

conectar a un nodo que esta caído.

► Performance Counters

  • Kernel patch (cuidado!!) (mikpe@csd.uu.se)
  • Basado en la información leída en registros del CPU de propósito especial

* Nota: sshd es muy lento para clusters grandes (>100 nodos)

Monitorización del Cluster: Algunas herramientas

slide-15
SLIDE 15

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplo: Instalación de Sensores

  • ¿Qué son los sensores?

Chips incluídos en la placa base de los PCs (desde 1998) para controlar el estado del Hardware. Su estado se lee a través del bus ISA o del bus SM (System Management) mediante I/O normal.

  • ¿Qué parámetros de hardware controlan?
  • Temperatura de la CPU y del chasis
  • Voltaje de entrada a la placa base
  • Velocidad de los ventiladores,…
  • ¿Cómo se lee el estado de esos chips en Linux?

Un módulo del kernel de Linux se encarga de leer el estado del chip correspondiente. Hay un módulo para cada parámetro del hardware a controlar.

http://www.lm-sensors.nu

slide-16
SLIDE 16

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Intermedio: kernel y modulos

► Kernel: En Linux, es el “software” a través del cual el usuario

interacciona con el hardware Hardware Linux Kernel Proceso

System calls & faults signals

slide-17
SLIDE 17

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Interacción Proceso-Kernel

► System Calls

  • Filesystem: rmdir( ), open( ),…
  • Proceso: getuid( ), exit( ),…
  • Network: send( ), listen( ),…

► Signals

  • SIGHUP: Terminal hangup
  • SIGTERM: Termination (kill -9 pid)
  • SIGINT: Interrupción desde el teclado (CTRL-C)
  • SIGSEGV: Segmentation violation
slide-18
SLIDE 18

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Interacción Proceso-Kernel

p1 p2 p3 Nivel de usuario Nivel de usuario signals System calls Device drivers Network drivers Network protocol Physical memory scheduler Virtual memory traps & faults Filesystems CPU System memory terminal disk Network interface Kernel Kernel

slide-19
SLIDE 19

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Módulos del Kernel

Módulo

Parte del Kernel que se carga en el sistema operativo solamente cuando se necesita

slide-20
SLIDE 20

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplo de módulo: Medida de los sensores

Aplicación: sensors Client Driver i2c-dev i2c core Algorithm Adapter Adapter specific code Adapter Hardware I2C-Devices User-space Kernel Hardware

slide-21
SLIDE 21

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización: Estado Operacional

Chequeo frecuente (~15 minutos) de los puntos clave que Chequeo frecuente (~15 minutos) de los puntos clave que hacen al cluster operativo hacen al cluster operativo:

: ► Controlar que los daemons del sistema están lanzados

– Generales: nfsserver, portmapd,… – Particulares: pvfsd, dhcpd…

► ¿ Están todos los nodos encendidos ?

– Responden los nodos al “ping”

► Directorios NFS montados adecuadamente

– /home, /pvfs, /usr/local/sys,… accesibles en todo el cluster

Scripts: Shell, PERL,… Scripts: Shell, PERL,…

slide-22
SLIDE 22

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización: Integridad del Sistema Operativo

¿Ha habido algun cambio accidental en los ficheros del ¿Ha habido algun cambio accidental en los ficheros del sistema? sistema? ¿Hay algún intruso en el cluster? ¿Hay algún intruso en el cluster?

 Comparar el Software instalado en el cluster con el software de la máquina de instalaciones (CDs originales)  Directorios a chequear:

 Sistema Operativo: /bin, /usr/lib, /lib, /sbin,…  Seguridad: /etc/hosts.allow, .deny, /etc/routes

 Mecanismo de alerta y corrección

 Construcción de un script adecuado  Envio automático de e-mail al administrador

slide-23
SLIDE 23

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

nodos

El servidor central... ...ordena chequear el Sistema Operativo de cada maquina cada dia a las 24:00 “check_os.sh“

lxinst

=

?

SI NO

en el .html en el .html 1. e-mail admin@bifi 2. Subsanar el error: ejemplo cp lxinst:/lib/* nodo#:/lib/ (manual o automáticamente) en el .html

/boot /etc /lib /usr/bin nodoi:/boot nodoi:/etc nodoi:/lib nodoi:/usr/bin

Monitorización del Cluster: BIFI Monitor

slide-24
SLIDE 24

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Detección de intrusiones

► Protegido en la máquina de instalación

Ficheros /nfs/updates/chkref.nodox con entradas de la forma: 9ker74rhkl91h33432b –rwxr-xr-x root 12/09/03 /bin/cp

► Generado localmente en el nodox /tmp/chkref.nodox

Checksum: md5sum Permisos Fecha Owner nombre

Desde lxinst se ejecuta:

/nfs/updates/secure_bin/diff /nfs/updates/chkref.nodox /tmp/chkref.nodox

slide-25
SLIDE 25

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Seguridad

slide-26
SLIDE 26

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Protección contra ataques externos

  • Firewall PC - Ipchains / Iptables
  • Apagar todas las utilidades que no sean necesarias (sonido,...)
  • TCP Wrapper
  • OpenSSH: sólo conexiones encriptadas
  • Instalación regular de paquetes con updates concernientes a la

seguridad

Forzar el cumplimiento de las normas

  • Conjunto de scripts que garantizen el orden

– No login en los nodos de computación – Prohibido mandar programas en interactivo, – ....

Medidas de seguridad y prevención

slide-27
SLIDE 27

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Gestión de los recursos: Colas de Batch

slide-28
SLIDE 28

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

¿Porqué un sistema de batch?

► Motivación

  • Uso más efectivo de los ordenadores (ej. Carga uniforme)
  • Uso de recursos 24h/día
  • Asignación de recursos de acuerdo a reglas (quien recibe cuánta CPU)
  • Ejecución rápida de tareas (el sistema sabe cuales son los nodos más

desocupados)

► Nuestro objetivo

  • El usuario le dice al sistema de batch el nombre de un script,

especificando sus necesidades (trabajo en serie, o en paralelo, memoria, tiempo de CPU….)  El sistema de batch garantiza que el trabajo se ejecutará lo antes posible

slide-29
SLIDE 29

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

El proyecto Sun Grid Engine

► Desarrollado por Sun Microsystems junto con iniciativas Open Source ► Año 2000: Sun compra Gridware (en particular su sistema propietario de batch, CODINE ) ► Sun inicia dos proyectos

  • Una versión comercial (http://www.sun.com/gridware)

– Plataformas: PCs, Silicon, Sun, IBM, HP, MAC. – OS: Linux, Solaris, IRIX, AIX, MACos, Windows… – Linux Kernel 2.2, 2.4, 2.6 – Software de visualización: Accounting Reporting Console (ARco) – Precio: (N1 Grid Engine version 6)

» Cluster hasta 50 nodos 10,000$ » Hasta 250 nodos 30,000$ » Hasta 2,000 nodos 80,000$

slide-30
SLIDE 30

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

El proyecto Sun Grid Engine

  • Versión libre bajo la disciplina Open Source

– http://gridengine.sunsource.net – Oficialmente soportado para:

»

Linux x86, kernel 2.4, glibc >= 2.2

»

Linux AMD64 (Opteron), kernel 2.4, glibc >= 2.2

»

Silicon Graphics IRIX 6.5

»

Sun MicrosystemsSolaris (Sparc and x86) 7, 8 en 32- bit y 64-bit

»

AppleMac OS/X

»

CompaqTru64 Unix 5.0, 5.1

»

Hewlett PackardHP-UX 11.x

»

IBM AIX 4.3, 5.1

– Funciona además (con modif. mínimas) para

»

x86_64 (Xeon EMT64) con kernels 2.6

»

IA64 (Itanium)

slide-31
SLIDE 31

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE Open Source

Descarga de software:

  • http://gridengine.sunsource.net
  • Descarga del binario de la plataforma

correspondiente, o bien

  • Descarga de las fuentes & compilar

► Nodo Master instalación desde los binarios

  • mkdir /usr/local/sys/sge & tar xf sge-version-

plataforma.tar

  • Añadir entrada en /etc/services

– sge_commd puerto_libre/tcp

  • Editar un fichero con los nombres de los nodos a

controlar

  • Script de inicialización va por defecto a /

etc/init.d/rcsge

  • Efecto visible: sge_commd, sge_qmaster y sge_sched

están corriendo

slide-32
SLIDE 32

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE

► Nodos de Ejecución y de control

  • mkdir /usr/local/sys/sge
  • mount master:/usr/local/sys/sge /usr/local/sys/sge
  • . /usr/local/sys/sge/settings.sh
  • ./install_execd en cada nodo desde ese directorio
  • Efecto visible sge_execd, sge_commd y sge_sheperd

están corriendo

  • Las colas se configuran graficamente, (y se clonan)
  • En el nodo interactivo del cluster no hay sge_execd

ni sge_sheperd .

slide-33
SLIDE 33

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE

► Monitorización y control

  • . /usr/local/sys/sge/settings.sh
  • Con entorno X11

– Lanzar ”qmon &”

  • Sin entorno X11

– Comandos en linea de configuración de colas (qconf y qmod) – Sobre los trabajos (qsub, qstat, qdel,…) – Administración: qacct

slide-34
SLIDE 34

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

¿Cómo ve el cluster SGE ?

sge_commd sge_commd

Nodo de envío

sge_commd sge_qmaster sge_schedd ? ? sge_execd sge_sheperd

Nodo master Nodos de ejecución Nodo interactivo Nodo servidor Nodo de computación

slide-35
SLIDE 35

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Envío de trabajos: usuarios y máquinas

► Nodo de Envío

nodo autorizado a enviar trabajos (qsub) y a

  • btener información sobre su status (qstat).

► Nodo de Ejecución nodo al que se le permite ejecutar trabajos ► Nodo de Administración nodo desde el que se ejecutan tareas de

administración

► Nodo Master

nodo que controla toda la actividad SGE, información de status, etc… Una misma máquina puede desempeñar varios de los papeles descritos ► Administrador usuario que controla SGE ► Operador usuario con privilegios de admin, pero que NO puede cambiar la configuración de las colas ► Propietario Usuario que tiene colas en propiedad ► Usuario común Usuario que sólo puede controlar sus propios trabajos

slide-36
SLIDE 36

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Configuración de las colas

slide-37
SLIDE 37

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplos de scripts SGE

► Trabajo en serie #/bin/sh #$ -o $HOME/mydir/myjob.out #$ -N myjob #$ -M user@unizar.es #$ -l p4=yes . /etc/profile.sge cd mydir ./myprog ► Trabajo en Paralelo #/bin/sh #$ -o $HOME/mydir/myjob.out #$ -N myjob #$ -pe mpi 4-10 #$ -M user@unizar.es . /etc/profile.sge . /etc/mpi.setup –e mpi cd mydir mpirun –np $NSLOTS ./myprog

slide-38
SLIDE 38

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

SGE Job monitoring