Projet

Général

Profil

Wiki

Présentation de la machine Curta

Le cluster Curta est composé de plusieurs groupes de machines accessibles:
  • Les nœuds interactifs frontaux (x2): machines sur lesquelles l'utilisateur se connecte pour mettre au point et lancer ses travaux, manipuler ses données et ses résultats
  • Les nœuds de calcul compute SD530 (x336): ce sont les machines sur lesquelles les travaux sont exécutés (par l'intermédiaire du Gestionnaire de Travaux)
    • 2 processeurs hexadécacœurs (32 cœurs par nœud) Intel® Xeon® Gold SKL-6130 @ 2,1 GHz
    • 92 Go RAM
    • machines n001 à n336
  • Les nœuds de calcul bigmem SR950 (x4): ces nœuds ont des caractéristiques différentes par rapport aux nœuds de calcul: plus de mémoire, plus de cœurs (processeurs identiques aux nœuds compute)
    • 4 processeurs hexadécacœurs (64 cœurs par nœud) Intel® Xeon® Gold SKL-6130 @ 2,1 GHz
    • 3 To RAM
    • machines bigmem01 à bigmem04
  • Les nœuds de visu SR650 (x4): les machines de visualisation déportée
    • 2 processeurs hexadécacœurs Intel® Xeon® Gold SKL-6130 @ 2,1 GHz
    • 192 Go RAM
    • 2 cartes graphiques NVidia® Quadro P4000 de 8Go chacune
    • pour y accéder, voir: Visualisation déportée
    • machines visu01 à visu04
  • Les nœuds de gpu SD530 (x4): les machines dotées de cartes accélératrices GPU
    • 2 processeurs hexadécacœurs Intel® Xeon® Gold SKL-6130 @ 2,1 GHz
    • 192 Go RAM
    • 2 cartes graphiques NVidia® P100 de 16Go chacune
    • pour y accéder, voir: GPU
    • machines gpu01 à gpu04
D'autres machines composent le cluster, mais elles ne sont normalement pas accessibles aux utilisateurs
  • nœuds d'administration
  • serveurs de fichiers GPFS qui stockent les répertoires d'accueil des utilisateurs (voir FS_home) et le système de fichier parallèle de travail (voir FS_scratch)
Interconnexion:
  • Intel® Omnipath® 100Gb/s (topologie FatTree avec un facteur de blocage de 2)

Environnement logiciel

Les nœuds du cluster fournissent un environnement Linux CentOS 7.4

On y trouve notamment:

Espaces disque

  • FS_tmp: espace temporaire local aux nœuds de calcul
  • FS_home: espace pour les données des comptes utilisateurs
  • FS_scratch: système de fichiers parallèle pour les données des jobs. NB: Cet espace n'est pas destiné à l'archivage! les fichiers y sont nettoyés régulièrement par un système automatique!

Gestionnaire de travaux

Les ressources de calcul proprement dites sont accessibles par un gestionnaire de travaux. Il permet à l'utilisateur de réserver les ressources nécessaires à un calcul décrit dans un script de soumission. Ce script est en général un script shell (mais il peut être en Python, etc...) qui contient éventuellement des directives propres au gestionnaire de travaux.

Le Gestionnaire de Travaux de Curta est Slurm

Une explication de la configuration du gestionnaire de travaux: Configuration Scheduler

Mesure de l'utilisation

Vous pouvez visualiser graphiquement votre consommation passée et courante en allant sur cette page : Vous pouvez également utiliser le module expérimental :
  • ma-conso qui affiche votre consommation ("proc x hour", joules, kWh)
module load ma-conso
ma-conso -h # pour l'aide
ma-conso    # affiche la consommation du mois en cours
ma-conso -H # historique par années
ma-conso -y # historique par mois sur l'année en cours

Vous pouvez également avoir une vision beaucoup plus fine (au niveau cœurs de calcul et mémoire, dans le temps) de la consommation électrique de vos jobs - pour par exemple optimiser l'efficacité énergétique de vos calculs - grace à l'outil The_EnergyScopium_software_suite qui est installé sur Curta.