Ressources matérielles dans le cluster¶
Cet article indique les ressources matérielles du cluster CALI v3, orienté calcul GPU.
Notez bien que ce cluster est hétérogène, c'est-à-dire que :
- les nœuds de calculs sont différents : génération de machine, modèle ou nombre de GPU, type de CPU, quantité de mémoire, réseau utilisable
- tous les nœuds n'utilisent pas le même réseau d'interconnexion
Description générale¶
Le cluster comporte :
- un nœud frontal
- 7 nœuds de calcul (2023) avec 20 GPU NVidia L40 ou H100
- 15 nœuds de calcul (2020) avec 45 GPU RTX 6000
- 4 nœuds de calcul (2020) avec 12 GPU A40
- 3 nœuds de calcul (2018) avec 24 GPU Nvidia GTX 1080 Ti
- un réseau d'interconnexion
- du stockage
Au total, 1246 cœurs, 7,2 To de RAM, 100 GPU.
Nœud frontal¶
- Nœud interactif, sur lequel vous vous connectez
- Il sert à préparer les travaux, à regarder les résultats, à gérer les données
- Processeurs :
- 2 x AMD EPYC 9254 24-Core
- Hyperthreading activé
- Mémoire : 128 Go
- GPU : NVidia A30 pour aider à la visualisation des résultats (FIXME à venir)
Nœuds de calculs¶
Les nœuds diffèrent par leur génération, leur type de GPU, leur fabricant et modèle de CPU, leur quantité de mémoire, leur type de réseau.
La ressource qui sera affectée à votre job (votre calcul) dépendra de votre réservation Slurm -- Voir l'article sur Slurm :
- en particulier, pour des calculs GPU, en spécifiant la partition voulue
- mais vous pouvez aussi indiquer à slurm des features, comme le type de CPU ou de réseau d'interconnexion voulus
Noeuds "2023" avec GPU H100¶
- 4 nœuds :
node-1
ànode-4
- Processeurs : 2 x AMD EPYC 9254 24-Core (total 192 cœurs)
- Mémoire (total 3778 Go) :
- 2 nœuds (
node-1
etnode-2
) avec 1,5 To - 2 nœuds (
node-3
etnode-4
) avec 389 Go
- 2 nœuds (
- GPU : 2 x NVidia H100, Architecture Hopper, en PCIe et bridge NVlink (total 8 GPU)
- Réseau : 25 Gb ethernet avec RoCE
- Partition SLURM :
gpu-h100
,cpu
- Feature SLURM :
cpu_amd
,cpu_amd_genoa
,cpu_amd_9254
,net_roce
Noeuds "2023" avec GPU L40¶
- 3 nœuds :
node-5
ànode-7
- Processeurs : 2 x AMD EPYC 9254 24-Core (total 144 cœurs)
- Mémoire : 384 Go (total 1152 Go)
- GPU : 4 x NVidia L40, Architecture Ada Lovelace (total 16 GPU)
- Réseau : 25 Gb ethernet avec RoCE
- Partition SLURM :
gpu-l40
,cpu
- Feature SLURM :
cpu_amd
,cpu_amd_genoa
,cpu_amd_9254
,net_roce
Nœuds "2020" avec GPU RTX6000¶
- 15 nœuds :
yaga-1
àyaga-15
- Processeurs : 2 x Intel Xeon Silver 4214R, 24 cœurs (total 720 cœurs)
- Mémoire : 96 Go (total 1440 Go)
- GPU : 3 x NVidia Quadro RTX 6000, Architecture Ada Lovelace (total 45 GPU)
- Réseau : 10 Gb ethernet
- Partitions SLURM :
gpu-rtx6000
,cpu
gold-umr1248-rtx6000
: partition "privative" (restreintes d'accès)
- Feature SLURM :
cpu_intel
,cpu_intel_cascadelake
,cpu_intel_4214r
Nœuds "2020" avec GPU A40¶
- 4 nœuds :
yaga-16
àyaga-19
- Processeurs : 2 x AMD EPYC 7343, 32 cœurs (total 128 cœurs)
- Mémoire : 128 Go (total 512 Go)
- GPU : 3 x NVidia A40, Architecture Ampere (total 12 GPU)
- Réseau : 10 Gb ethernet
- Partitions SLURM :
gpu-a40
,cpu
gold-soma-dns
: partition "privative" (restreintes d'accès)
- Feature SLURM :
cpu_amd
,cpu_amd_milan
,cpu_amd_7343
Noeuds "2018" avec GPU GTX 1080 Ti¶
- 3 nœuds :
on-1
àon-3
(Old Node) - Processeurs (total 62 cœurs)
on-1
: 2 x Intel Xeon Silver 4114, 10 cœurson-2
eton-3
: 2 x Intel Xeon Silver 4108, 8 cœurs
- Mémoire (total 384 Go) :
on-1
: 192 Goon-2
: 96 Goon-3
: 80 Go
- GPU : 8 x NVidia GTX 1080 Ti, Architecture Pascal (total 23 GPU - 1 GPU en panne)
- Réseau : 10 Gb ethernet (pas de RoCE)
- Partition SLURM :
gpu-gtx1080
,cpu
gold-ircer-gtx1080
,gold-umr1248-gtx1080
: partitions "privatives" (restreintes d'accès)
- Feature SLURM :
cpu_intel
,cpu_intel_skylake
,cpu_intel_4108
oucpu_intel_4114
Réseau interconnexion¶
Sur le frontal et les nœuds "2023" :
- Le réseau interne est équipé d'un commutateur ethernet 25 Gb/s SN2010M
- Les cartes réseaux des serveurs sont des Intel E810-XXV
Les communications MPI peuvent alors utiliser du RDMA via le protocole RoCE. Voir l'article MPI
Les nœuds plus anciens sont desservis en ethernet 1 Gb/s (nœuds on-*
) ou ethernet 10 Gb/s (nœuds yaga-*
)
Stockage¶
Pour des informations plus complète, voir la page Stockage
- Le "home", votre dossier d'accueil
- Espace restreint à 20 Go par utilisateur
- Partagé, c'est-à-dire accessible globalement sur le cluster
- Espace sauvegardé - en cas de perte de données, vous pouvez contacter le support pour une restauration.
- Le "scratch" :
- Espace temporaire pour les calculs -- Les données sont automatiquement effacées après un délai sans activité
- Partagé
- Espace limité à 1 To par utilisateur
- Le "tmp"
- Espace temporaire pour la durée d'un job Slurm
- Local à un nœud calcul
- Espace limité (suivant les nœuds, entre 400 Go et 1 To utilisé par tous les jobs en cours du nœud)
- Hautes performances (SSD sur nœuds
on-*
etyaga-*
, NVMe surnode-*
)