[PPT] - I. Clusters bajo Linux Isabel Campos Plasencia Responsable de PowerPoint Presentation

SLIDE 1

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

I. Clusters bajo Linux

Isabel Campos Plasencia Responsable de Proyectos de Computación

SLIDE 2

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Estrategia de Administración: ¿Qué conlleva?

Mantenimiento Físico de las máquinas
Conexiones eléctricas, consolas,...
BIOS
Sistema Operativo
Mecanismo de Booting
Instalación y Configuración de las máquinas
Integridad del sistema: detección de intrusiones
Monitorización del cluster
Chequeo del estado del cluster
Gestión de los mensajes de error
Seguridad

SLIDE 3

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

ADMINISTRACIÓN DEL SISTEMA

Instalación Instalación

Mantenimiento Mantenimiento Físico Físico

Usuarios Usuarios Software Software

SEGURIDAD MONITORIZACIÓN

Administración de clusters

SLIDE 4

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Uso del cluster
Setup de usuarios y login
Envío de trabajos
Law enforcement
Aplicaciones de usuario
Instalación
Setting-up y mantenimiento de las variables de entorno $ENV.

► Para cada punto debe haber una estrategia bien definida!! Para cada punto debe haber una estrategia bien definida!!

Estrategia de Administración: ¿Qué conlleva?

SLIDE 5

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Booting e Instalación del Sistema Operativo

SLIDE 6

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: Mecanismo de Booting

► Booting en los nodos del cluster

Boot via NFS

– El sistema operativo está almacenado en el servidor y se exporta con NFS – Los nodos hacen el boot mediante DHCP/BOOTP y TFTP – Los discos duros locales se usan para almacenamiento provisional de datos (/tmp) – Otra opción: el booting a través de la red es particularmente fácil de mantener porque todo el software está en el servidor.

Boot desde disco local

– Más costoso desde el punto de vista del mantenimiento – Mucho más tolerante a errores de red, por ejemplo.

SLIDE 7

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: DHCPD y PXE booting

dhcpd

El fichero /etc/dhcpd.conf: host nodo1 { hardware Ethernet 00:28:20:4F:C3:80; fixed-address 192.168.1.1; }

Ethernet

HW address: 00:28:20:4F:C3:80 IP: 192.168.1.1 Hostname: nodo1

Servidor

SLIDE 8

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del Sistema Operativo: DHCPD y PXE booting

tftp protocol

El fichero /tftpboot/pxelinux.cfg/nodo1 ….. Install=nfs://192.168.1.250/nfs/SuSE9

Ethernet Servidor PXE protocol

El fichero /nfs/SuSE9/xml/nodo1.xml Contiene los detalles del software a instalar Instalación del Sistema Operativo

SLIDE 9

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del sistema operativo

Network exterior

Red

Maquina de Instalación (aislada del exterior)

/boot /etc /lib /usr/etc /usr/bin

lxinst

Complejo del cluster

SLIDE 10

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación del sistema operativo

Tiempo de instalación por nodo (via NFS)

04:33 03:24 17:30 10:15 06:09

00:00 05:00 10:00 15:00 20:00

1 3 5 7 9 11 13 15

N

t/N [min] NFS server: Pentium 200MHz, 64MB RAM, 40 GB Hdisk

NIC 3Com 3c905 100BaseTX (Boomerang) 100 Mbit full duplex

SLIDE 11

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Monitorización del Cluster

SLIDE 12

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

► Parámetros a monitorizar

Hardware: Discos, conexión a la red, Temperatura, Memoria,...
Software: integridad del OS, versión kernel, updates del sistema,...
Otros: ¿Está el directorio /data/protein montado en lxdata0 ?

► Características del sistema de monitor

Aplicable a todas las plataformas Linux
Dar una visión global rápida del estado de las máquinas
Proveer de un mecanismo de corrección de errores y alerta
No interferir en la operación de las máquinas

► Diseño de un monitor „a la carta“

A partir de herramientas UNIX standard (shell scripts, HTML)
Se instala como un programa en shell que se ejecuta periodicamente

(cron job)

Monitorización del Cluster

SLIDE 13

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización del Cluster: Algunas herramientas

► Estado del Hardware

Voltaje, T, Ventiladores,

chasis,... ► Estado Operacional

Filesystems (¿montados?

¿Llenos?)

Mensajes del disco (¿errores?)
Usuarios ( usuarios ilegales)
Uptime
Daemons (cron,nfs)

► Rendimiento

Uso del Sistema
Contando Mflop/s, Mref/s

(desarrollo de programas)

http://www.lm-sensors.nu

Scripts en shell Usar ganglia toolkit http://ganglia.sourceforge.net

http://perfctr.sourceforge.net

SLIDE 14

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

► Librería de Sensores:

Implementado como un módulo del kernel que se carga al hacer el boot

► Ganglia Toolkit

Multicast (TCP/IP transporte): muy rápido *
Monitorización completa en tiempo real (Opensource)
Versiones para Linux, Solaris, Tru64, IRIX, Windows
Mantiene una tabla dinámica de máquinas: es decir, no se cuelga al tratar de

conectar a un nodo que esta caído.

► Performance Counters

Kernel patch (cuidado!!) (mikpe@csd.uu.se)
Basado en la información leída en registros del CPU de propósito especial

* Nota: sshd es muy lento para clusters grandes (>100 nodos)

Monitorización del Cluster: Algunas herramientas

SLIDE 15

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplo: Instalación de Sensores

¿Qué son los sensores?

Chips incluídos en la placa base de los PCs (desde 1998) para controlar el estado del Hardware. Su estado se lee a través del bus ISA o del bus SM (System Management) mediante I/O normal.

¿Qué parámetros de hardware controlan?
Temperatura de la CPU y del chasis
Voltaje de entrada a la placa base
Velocidad de los ventiladores,…
¿Cómo se lee el estado de esos chips en Linux?

Un módulo del kernel de Linux se encarga de leer el estado del chip correspondiente. Hay un módulo para cada parámetro del hardware a controlar.

http://www.lm-sensors.nu

SLIDE 16

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Intermedio: kernel y modulos

► Kernel: En Linux, es el “software” a través del cual el usuario

interacciona con el hardware Hardware Linux Kernel Proceso

System calls & faults signals

SLIDE 17

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Interacción Proceso-Kernel

► System Calls

Filesystem: rmdir( ), open( ),…
Proceso: getuid( ), exit( ),…
Network: send( ), listen( ),…

► Signals

SIGHUP: Terminal hangup
SIGTERM: Termination (kill -9 pid)
SIGINT: Interrupción desde el teclado (CTRL-C)
SIGSEGV: Segmentation violation

SLIDE 18

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Interacción Proceso-Kernel

p1 p2 p3 Nivel de usuario Nivel de usuario signals System calls Device drivers Network drivers Network protocol Physical memory scheduler Virtual memory traps & faults Filesystems CPU System memory terminal disk Network interface Kernel Kernel

SLIDE 19

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Módulos del Kernel

Módulo

Parte del Kernel que se carga en el sistema operativo solamente cuando se necesita

SLIDE 20

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplo de módulo: Medida de los sensores

Aplicación: sensors Client Driver i2c-dev i2c core Algorithm Adapter Adapter specific code Adapter Hardware I2C-Devices User-space Kernel Hardware

SLIDE 21

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización: Estado Operacional

Chequeo frecuente (~15 minutos) de los puntos clave que Chequeo frecuente (~15 minutos) de los puntos clave que hacen al cluster operativo hacen al cluster operativo:

: ► Controlar que los daemons del sistema están lanzados

– Generales: nfsserver, portmapd,… – Particulares: pvfsd, dhcpd…

► ¿ Están todos los nodos encendidos ?

– Responden los nodos al “ping”

► Directorios NFS montados adecuadamente

– /home, /pvfs, /usr/local/sys,… accesibles en todo el cluster

Scripts: Shell, PERL,… Scripts: Shell, PERL,…

SLIDE 22

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Monitorización: Integridad del Sistema Operativo

¿Ha habido algun cambio accidental en los ficheros del ¿Ha habido algun cambio accidental en los ficheros del sistema? sistema? ¿Hay algún intruso en el cluster? ¿Hay algún intruso en el cluster?

 Comparar el Software instalado en el cluster con el software de la máquina de instalaciones (CDs originales)  Directorios a chequear:

 Sistema Operativo: /bin, /usr/lib, /lib, /sbin,…  Seguridad: /etc/hosts.allow, .deny, /etc/routes

 Mecanismo de alerta y corrección

 Construcción de un script adecuado  Envio automático de e-mail al administrador

SLIDE 23

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

nodos

El servidor central... ...ordena chequear el Sistema Operativo de cada maquina cada dia a las 24:00 “check_os.sh“

lxinst

=

?

SI NO

en el .html en el .html 1. e-mail admin@bifi 2. Subsanar el error: ejemplo cp lxinst:/lib/* nodo#:/lib/ (manual o automáticamente) en el .html

/boot /etc /lib /usr/bin nodoi:/boot nodoi:/etc nodoi:/lib nodoi:/usr/bin

Monitorización del Cluster: BIFI Monitor

SLIDE 24

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Detección de intrusiones

► Protegido en la máquina de instalación

Ficheros /nfs/updates/chkref.nodox con entradas de la forma: 9ker74rhkl91h33432b –rwxr-xr-x root 12/09/03 /bin/cp

► Generado localmente en el nodox /tmp/chkref.nodox

Checksum: md5sum Permisos Fecha Owner nombre

Desde lxinst se ejecuta:

/nfs/updates/secure_bin/diff /nfs/updates/chkref.nodox /tmp/chkref.nodox

SLIDE 25

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Seguridad

SLIDE 26

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Protección contra ataques externos

Firewall PC - Ipchains / Iptables
Apagar todas las utilidades que no sean necesarias (sonido,...)
TCP Wrapper
OpenSSH: sólo conexiones encriptadas
Instalación regular de paquetes con updates concernientes a la

seguridad

Forzar el cumplimiento de las normas

Conjunto de scripts que garantizen el orden

– No login en los nodos de computación – Prohibido mandar programas en interactivo, – ....

Medidas de seguridad y prevención

SLIDE 27

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTING

EN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005

http://bifi.unizar.es/clustersygrid

Administración del Sistema

Gestión de los recursos: Colas de Batch

SLIDE 28

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

¿Porqué un sistema de batch?

► Motivación

Uso más efectivo de los ordenadores (ej. Carga uniforme)
Uso de recursos 24h/día
Asignación de recursos de acuerdo a reglas (quien recibe cuánta CPU)
Ejecución rápida de tareas (el sistema sabe cuales son los nodos más

desocupados)

► Nuestro objetivo

El usuario le dice al sistema de batch el nombre de un script,

especificando sus necesidades (trabajo en serie, o en paralelo, memoria, tiempo de CPU….)  El sistema de batch garantiza que el trabajo se ejecutará lo antes posible

SLIDE 29

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

El proyecto Sun Grid Engine

► Desarrollado por Sun Microsystems junto con iniciativas Open Source ► Año 2000: Sun compra Gridware (en particular su sistema propietario de batch, CODINE ) ► Sun inicia dos proyectos

Una versión comercial (http://www.sun.com/gridware)

– Plataformas: PCs, Silicon, Sun, IBM, HP, MAC. – OS: Linux, Solaris, IRIX, AIX, MACos, Windows… – Linux Kernel 2.2, 2.4, 2.6 – Software de visualización: Accounting Reporting Console (ARco) – Precio: (N1 Grid Engine version 6)

» Cluster hasta 50 nodos 10,000$ » Hasta 250 nodos 30,000$ » Hasta 2,000 nodos 80,000$

SLIDE 30

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

El proyecto Sun Grid Engine

Versión libre bajo la disciplina Open Source

– http://gridengine.sunsource.net – Oficialmente soportado para:

»

Linux x86, kernel 2.4, glibc >= 2.2

»

Linux AMD64 (Opteron), kernel 2.4, glibc >= 2.2

»

Silicon Graphics IRIX 6.5

»

Sun MicrosystemsSolaris (Sparc and x86) 7, 8 en 32- bit y 64-bit

»

AppleMac OS/X

»

CompaqTru64 Unix 5.0, 5.1

»

Hewlett PackardHP-UX 11.x

»

IBM AIX 4.3, 5.1

– Funciona además (con modif. mínimas) para

»

x86_64 (Xeon EMT64) con kernels 2.6

»

IA64 (Itanium)

SLIDE 31

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE Open Source

Descarga de software:

http://gridengine.sunsource.net
Descarga del binario de la plataforma

correspondiente, o bien

Descarga de las fuentes & compilar

► Nodo Master instalación desde los binarios

mkdir /usr/local/sys/sge & tar xf sge-version-

plataforma.tar

Añadir entrada en /etc/services

– sge_commd puerto_libre/tcp

Editar un fichero con los nombres de los nodos a

controlar

Script de inicialización va por defecto a /

etc/init.d/rcsge

Efecto visible: sge_commd, sge_qmaster y sge_sched

están corriendo

SLIDE 32

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE

► Nodos de Ejecución y de control

mkdir /usr/local/sys/sge
mount master:/usr/local/sys/sge /usr/local/sys/sge
. /usr/local/sys/sge/settings.sh
./install_execd en cada nodo desde ese directorio
Efecto visible sge_execd, sge_commd y sge_sheperd

están corriendo

Las colas se configuran graficamente, (y se clonan)
En el nodo interactivo del cluster no hay sge_execd

ni sge_sheperd .

SLIDE 33

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Instalación de SGE

► Monitorización y control

. /usr/local/sys/sge/settings.sh
Con entorno X11

– Lanzar ”qmon &”

Sin entorno X11

– Comandos en linea de configuración de colas (qconf y qmod) – Sobre los trabajos (qsub, qstat, qdel,…) – Administración: qacct

SLIDE 34

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

¿Cómo ve el cluster SGE ?

sge_commd sge_commd

Nodo de envío

sge_commd sge_qmaster sge_schedd ? ? sge_execd sge_sheperd

Nodo master Nodos de ejecución Nodo interactivo Nodo servidor Nodo de computación

SLIDE 35

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Envío de trabajos: usuarios y máquinas

► Nodo de Envío

nodo autorizado a enviar trabajos (qsub) y a

btener información sobre su status (qstat).

► Nodo de Ejecución nodo al que se le permite ejecutar trabajos ► Nodo de Administración nodo desde el que se ejecutan tareas de

administración

► Nodo Master

nodo que controla toda la actividad SGE, información de status, etc… Una misma máquina puede desempeñar varios de los papeles descritos ► Administrador usuario que controla SGE ► Operador usuario con privilegios de admin, pero que NO puede cambiar la configuración de las colas ► Propietario Usuario que tiene colas en propiedad ► Usuario común Usuario que sólo puede controlar sus propios trabajos

SLIDE 36

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Configuración de las colas

SLIDE 37

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

Ejemplos de scripts SGE

► Trabajo en serie #/bin/sh #$ -o $HOME/mydir/myjob.out #$ -N myjob #$ -M user@unizar.es #$ -l p4=yes . /etc/profile.sge cd mydir ./myprog ► Trabajo en Paralelo #/bin/sh #$ -o $HOME/mydir/myjob.out #$ -N myjob #$ -pe mpi 4-10 #$ -M user@unizar.es . /etc/profile.sge . /etc/mpi.setup –e mpi cd mydir mpirun –np $NSLOTS ./myprog

SLIDE 38

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

Clusters & Grid computing en entornos de software libre

CLUSTERS & GRID COMPUTING

Estrategia de Administración: ¿Qué conlleva?

Administración de clusters

Estrategia de Administración: ¿Qué conlleva?

CLUSTERS & GRID COMPUTING

Administración del Sistema

Instalación del Sistema Operativo: Mecanismo de Booting

Instalación del Sistema Operativo: DHCPD y PXE booting

Instalación del Sistema Operativo: DHCPD y PXE booting

Instalación del sistema operativo

Instalación del sistema operativo

CLUSTERS & GRID COMPUTING

Monitorización del Cluster

Monitorización del Cluster

* Nota: sshd es muy lento para clusters grandes (>100 nodos)

Ejemplo: Instalación de Sensores

Intermedio: kernel y modulos

Interacción Proceso-Kernel

Interacción Proceso-Kernel

Módulos del Kernel

Ejemplo de módulo: Medida de los sensores

Monitorización: Estado Operacional

Monitorización: Integridad del Sistema Operativo

=

?

Monitorización del Cluster: BIFI Monitor

Detección de intrusiones

CLUSTERS & GRID COMPUTING

Administración del Sistema

Medidas de seguridad y prevención

CLUSTERS & GRID COMPUTING

Administración del Sistema

Gestión de los recursos: Colas de Batch

¿Porqué un sistema de batch?

El proyecto Sun Grid Engine

El proyecto Sun Grid Engine

Instalación de SGE Open Source

Instalación de SGE

Instalación de SGE

¿Cómo ve el cluster SGE ?

Envío de trabajos: usuarios y máquinas

Configuración de las colas

Ejemplos de scripts SGE

SGE Job monitoring