Projet

Général

Profil

Ressources matérielles dans le cluster

Cet article indique les ressources matérielles du cluster CALI v3, orienté calcul GPU.

Notez bien que ce cluster est hétérogène, c'est-à-dire que :

  • les nœuds de calculs sont différents : génération de machine, modèle ou nombre de GPU, type de CPU, quantité de mémoire, réseau utilisable
  • tous les nœuds n'utilisent pas le même réseau d'interconnexion

Description générale

Le cluster comporte :

  • un nœud frontal
  • 7 nœuds de calcul (2023) avec GPU NVidia L40 ou H100
  • 15 nœuds de calcul (2020) avec GPU RTX 6000 (en cours d'intégration)
  • 3 nœuds de calcul (2018) avec GPU Nvidia GTX 1080 Ti
  • un réseau d'interconnexion
  • du stockage

Au total, 1118 cœurs, 6,7 To de RAM, 89 GPU.

Nœud frontal

  • Nœud interactif, sur lequel vous vous connectez
  • Il sert à préparer les travaux, à regarder les résultats, à gérer les données
  • Processeurs :
    • 2 x AMD EPYC 9254 24-Core
    • Hyperthreading activé
  • Mémoire : 128 Go
  • GPU : NVidia A30 pour aider à la visualisation des résultats (FIXME à venir)

Nœuds de calculs

Les nœuds diffèrent par leur génération, leur type de GPU, leur fabricant et modèle de CPU, leur quantité de mémoire, leur type de réseau.

La ressource qui sera affectée à votre job (votre calcul) dépendra de votre réservation Slurm -- Voir l'article sur Slurm :

  • en particulier, pour des calculs GPU, en spécifiant la partition voulue
  • mais vous pouvez aussi indiquer à slurm des features, comme le type de CPU ou de réseau d'interconnexion voulus

Noeuds "2023" avec GPU H100

  • 4 nœuds : node-1 à node-4
  • Processeurs : 2 x AMD EPYC 9254 24-Core (total 192 cœurs)
  • Mémoire (total 3778 Go) :
    • 2 nœuds (node-1 et node-2) avec 1,5 To
    • 2 nœuds (node-3 et node-4) avec 389 Go
  • GPU : 2 x NVidia H100, Architecture Hopper, en PCIe et bridge NVlink (total 8 GPU)
  • Réseau : 25 Gb ethernet avec RoCE
  • Partition SLURM : gpu-h100, cpu
  • Feature SLURM : cpu_amd,cpu_amd_9254, net_roce

Noeuds "2023" avec GPU L40

  • 3 nœuds : node-5 à node-7
  • Processeurs : 2 x AMD EPYC 9254 24-Core (total 144 cœurs)
  • Mémoire : 384 Go (total 1152 Go)
  • GPU : 4 x NVidia L40, Architecture Ada Lovelace (total 16 GPU)
  • Réseau : 25 Gb ethernet avec RoCE
  • Partition SLURM : gpu-l40, cpu
  • Feature SLURM : cpu_amd, cpu_amd_9254, net_roce

Nœuds "2020" avec GPU RTX6000

En cours d'intégration

  • 15 nœuds : yaga-1 à yaga-15
  • Processeurs : 2 x Intel Xeon Silver 4214R, 24 cœurs (total 720 cœurs)
  • Mémoire : 96 Go (total 1440 Go)
  • GPU : 3 x NVidia Quadro RTX 6000, Architecture Ada Lovelace (total 45 GPU)
  • Réseau : 10 Gb ethernet
  • Partitions SLURM :
    • gpu-rtx6000, cpu
    • gold-umr1248-rtx6000 : partition "privative" (restreintes d'accès)
  • Feature SLURM : cpu_intel, cpu_intel_cascadelake, cpu_intel_4214r

Noeuds "2018" avec GPU GTX 1080 Ti

  • 3 nœuds : on-1 à on-3 (Old Node)
  • Processeurs (total 62 cœurs)
  • Mémoire (total 384 Go) :
    • on-1 : 192 Go
    • on-2 et on-3 : 96 Go
  • GPU : 8 x NVidia GTX 1080 Ti, Architecture Pascal (total 24 GPU)
  • Réseau : 10 Gb ethernet (pas de RoCE)
  • Partition SLURM :
    • gpu-gtx1080, cpu
    • gold-ircer-gtx1080, gold-umr1248-gtx1080 : partitions "privatives" (restreintes d'accès)
  • Feature SLURM : cpu_intel, cpu_intel_skylake, cpu_intel_4108 ou cpu_intel_4114

Réseau interconnexion

Sur le frontal et les nœuds "2023" :

  • Le réseau interne est équipé d'un commutateur ethernet 25 Gb/s SN2010M
  • Les cartes réseaux des serveurs sont des Intel E810-XXV

Les communications MPI peuvent alors utiliser du RDMA via le protocole RoCE. Voir l'article MPI

Les nœuds plus anciens sont desservis en ethernet 1 Gb/s (nœuds on-*) ou ethernet 10 Gb/s (nœuds yaga-*)

Stockage

Pour des informations plus complète, voir la page Stockage

  • Le "home", votre dossier d'accueil
    • Espace restreint à 20 Go par utilisateur
    • Partagé, c'est-à-dire accessible globalement sur le cluster
    • Espace sauvegardé - en cas de perte de données, vous pouvez contacter le support pour une restauration.
  • Le "scratch" :
    • Espace temporaire pour les calculs -- Les données sont automatiquement effacées après un délai sans activité
    • Partagé
    • Espace limité à 1 To par utilisateur
  • Le "tmp"
    • Espace temporaire pour la durée d'un job Slurm
    • Local à un nœud calcul
    • Espace limité (suivant les nœuds, entre 400 Go et 1 To utilisé par tous les jobs en cours du nœud)
    • Hautes performances (SSD sur nœuds on-* et yaga-*, NVMe sur node-*)