Submissió de Treballs

Aquesta secció proporciona instruccions detallades sobre com preparar i subministrar treballs al clúster mitjançant SLURM. És crucial comprendre aquest procés per aconseguir una execució eficient dels treballs i una gestió adequada dels recursos del clúster.

Conexió a l’entorn d’execució

L’entorn d’execució és una màquina virtual anomenada iocex.

Per connectar-te a la màquina iocex utilitzant SSH, segueix aquests passos:

  1. Obre una Terminal: Obre una terminal al teu sistema. Pots fer-ho mitjançant l’aplicació de terminal incorporada o utilitzant un emulador de terminal com ara ‘Terminal’ en Linux o ‘Command Prompt’ a Windows.

  2. Utilitza la Comanda SSH: Utilitza la comanda ssh per iniciar la connexió SSH pel port 1022. La sintaxi bàsica és:

$ ssh -p 1022 nom_usuari@iocex.upc.edu

Com configurar carpeta compartida amb Windows

En aquest enllaç hi ha com configurar una carpeta per a tenir accés directe a l’NFS de l’IOC.

Us recomanem la opció 2.

Manual de connexió SFTP Windows.

Exemple amb arxiu de configuració:

Per a simplificar i unificar el procés de llançament de processos a multivac, hem creat una comanda pròpia que rep per paràmetres un arxiu de configuració amb extensió .slurm que conté tots els paràmetres configurables de multivac, permetent simplificar el llançament de processos.

$ multivac el_meu_conf.slurm

Aquest arxiu conté els paràmetres disponibles a Plantilla de conf.slurm

Submissió Bàsica de Treballs

Per subministrar un treball al clúster amb SLURM, utilitzeu la comanda sbatch. A continuació, es mostra un exemple bàsic:

$ sbatch script.sh

En aquest exemple, script.sh representa l’script en bash del treball que voleu executar al clúster. Podeu especificar diversos paràmetres en la comanda sbatch, com ara la partició, la quantitat de CPU, la memòria, el temps d’execució, etc.

Exemple amb Paràmetres:

A continuació, es mostra un exemple més detallat amb alguns paràmetres comuns:

$ sbatch -p nom_particio -c 4 --mem=8G -t 01:00:00 script.sh

En aquest exemple: - -p nom_particio especifica la partició en la qual voleu executar el treball. - -c 4 indica que el treball utilitzarà 4 CPUs. - –mem=8G defineix que el treball requerirà 8 gigabytes de memòria. - -t 01:00:00 estableix el temps d’execució màxim del treball a 1 hora.

Monitoratge de Treballs

Tots aquestes execucions es poden visualitzar amb la comanda:

$ squeue

Podeu afegir paràmetres addicionals per obtenir més detalls sobre els treballs en execució.

  • -u usuari: Mostra els treballs pertanyents a un usuari específic.

    Exemple:

$ squeue -u nom_usuari
  • -o format: Especifica el format de sortida. Podeu personalitzar els camps que es mostren.

    Exemple:

$ squeue -o "%.18i %.9P %.8j %.8u %.2t %.10M %.6D %R"

En aquest exemple, es mostren diversos camps, com ara l’ID del treball (%.18i), la partició (%.9P), el nom del treball (%.8j), l’usuari (%.8u), l’estat del treball (%.2t), la memòria (%.10M), el temps transcorregut (%.6D), i els nodes (%R).

  • –start: Filtra els treballs en base a la seva data d’inici.

    Exemple:

    $ squeue --start
    
  • –sort: Ordena la sortida en funció d’un camp específic.

Exemple:

$ squeue --sort=-start_time

En aquest exemple, els treballs són ordenats en funció del temps d’inici, de més recent a més antic.

Aquests són només alguns exemples de com podeu personalitzar la sortida de la comanda squeue per obtenir més detalls sobre els treballs en execució. Consulteu la documentació oficial de SLURM per a més opcions i informació detallada.

Cancel·lació de Treballs

Per cancel·lar un treball, utilitzeu la comanda scancel seguida de l’ID del treball. Per exemple:

$ scancel 1234