Ressources matérielles dans le cluster¶

Cet article indique les ressources matérielles du cluster CALI v3, orienté calcul GPU.

Notez bien que ce cluster est hétérogène, c'est-à-dire que :

les nœuds de calculs sont différents : génération de machine, modèle ou nombre de GPU, type de CPU, quantité de mémoire, réseau utilisable
tous les nœuds n'utilisent pas le même réseau d'interconnexion

Description générale¶

Le cluster comporte :

Au total, 1246 cœurs, 7,2 To de RAM, 100 GPU.

Les nœuds diffèrent par leur génération, leur type de GPU, leur fabricant et modèle de CPU, leur quantité de mémoire, leur type de réseau.

La ressource qui sera affectée à votre job (votre calcul) dépendra de votre réservation Slurm -- Voir l'article sur Slurm :

en particulier, pour des calculs GPU, en spécifiant la partition voulue
mais vous pouvez aussi indiquer à slurm des features, comme le type de CPU ou de réseau d'interconnexion voulus

4 nœuds : node-1 à node-4
Processeurs : 2 x AMD EPYC 9254 24-Core (total 192 cœurs)
Mémoire (total 3778 Go) :
- 2 nœuds (node-1 et node-2) avec 1,5 To
- 2 nœuds (node-3 et node-4) avec 389 Go
GPU : 2 x NVidia H100, Architecture Hopper, en PCIe et bridge NVlink (total 8 GPU)
Réseau : 25 Gb ethernet avec RoCE
Partition SLURM : gpu-h100, cpu
Feature SLURM : cpu_amd, cpu_amd_genoa, cpu_amd_9254, net_roce

15 nœuds : yaga-1 à yaga-15
Processeurs : 2 x Intel Xeon Silver 4214R, 24 cœurs (total 720 cœurs)
Mémoire : 96 Go (total 1440 Go)
GPU : 3 x NVidia Quadro RTX 6000, Architecture Ada Lovelace (total 45 GPU)
Réseau : 10 Gb ethernet
Partitions SLURM :
- gpu-rtx6000, cpu
- gold-umr1248-rtx6000 : partition "privative" (restreintes d'accès)
Feature SLURM : cpu_intel, cpu_intel_cascadelake, cpu_intel_4214r

4 nœuds : yaga-16 à yaga-19
Processeurs : 2 x AMD EPYC 7343, 32 cœurs (total 128 cœurs)
Mémoire : 128 Go (total 512 Go)
GPU : 3 x NVidia A40, Architecture Ampere (total 12 GPU)
Réseau : 10 Gb ethernet
Partitions SLURM :
- gpu-a40, cpu
- gold-soma-dns : partition "privative" (restreintes d'accès)
Feature SLURM : cpu_amd, cpu_amd_milan, cpu_amd_7343

3 nœuds : on-1 à on-3 (Old Node)
Processeurs (total 62 cœurs)
- on-1 : 2 x Intel Xeon Silver 4114, 10 cœurs
- on-2 et on-3 : 2 x Intel Xeon Silver 4108, 8 cœurs
Mémoire (total 384 Go) :
- on-1 : 192 Go
- on-2 : 96 Go
- on-3 : 80 Go
GPU : 8 x NVidia GTX 1080 Ti, Architecture Pascal (total 23 GPU - 1 GPU en panne)
Réseau : 10 Gb ethernet (pas de RoCE)
Partition SLURM :
- gpu-gtx1080, cpu
- gold-ircer-gtx1080, gold-umr1248-gtx1080 : partitions "privatives" (restreintes d'accès)
Feature SLURM : cpu_intel, cpu_intel_skylake, cpu_intel_4108 ou cpu_intel_4114

Sur le frontal et les nœuds "2023" :

Les communications MPI peuvent alors utiliser du RDMA via le protocole RoCE. Voir l'article MPI

Les nœuds plus anciens sont desservis en ethernet 1 Gb/s (nœuds on-*) ou ethernet 10 Gb/s (nœuds yaga-*)

Pour des informations plus complète, voir la page Stockage

Le "home", votre dossier d'accueil
- Espace restreint à 20 Go par utilisateur
- Partagé, c'est-à-dire accessible globalement sur le cluster
- Espace sauvegardé - en cas de perte de données, vous pouvez contacter le support pour une restauration.
Le "scratch" :
- Espace temporaire pour les calculs -- Les données sont automatiquement effacées après un délai sans activité
- Partagé
- Espace limité à 1 To par utilisateur
Le "tmp"
- Espace temporaire pour la durée d'un job Slurm
- Local à un nœud calcul
- Espace limité (suivant les nœuds, entre 400 Go et 1 To utilisé par tous les jobs en cours du nœud)
- Hautes performances (SSD sur nœuds on-* et yaga-*, NVMe sur node-*)

Fichiers (0)