Projet

Général

Profil

Annonces

Cluster DOREMI CALI v3: Tableau de bord sur l'usage du cluster

Ajouté par Xavier Montagutelli il y a 11 jours

Nouveau et en phase de test

Un tableau de bord donne l'utilisation du cluster : https://cali3.unilim.fr/zabbix

Vous devez vous authentifier comme "Guest" sur l'outil : ne pas rentrer de login / mot de passe, cliquer sur le lien "Guest" en bas

Le cluster est très hétérogène, et vous avez le choix entre plusieurs partitions. Ce tableau de bord vous permettra peut-être de choisir votre partition plus facilement en fonction de leurs utilisations.

N'hésitez pas à nous faire remonter vos idées si vous voulez voir plus de métriques dans ce tableau de bord.

Cluster DOREMI CALI v3: Maintenance CALI3 juin 2025 - Phase terminale

Ajouté par Xavier Montagutelli il y a 11 jours

La maintenance de CALI3, prévue du mardi 24 juin au jeudi 26 juin, est en phase finale.

Vous pouvez recommencer à utiliser le cluster, en principe les noeuds de calcul ne doivent plus rebooter. Notez quand même que le frontal sera relancé dans la nuit du mercredi 25 au jeudi 26 !

  • La base logicielle est passée en AlmaLinux 9.6 (précédemment : 9.4)
  • Les pilotes NVidia sont passés à la dernière version stable : 570.158.01 (570.169 sur les noeuds `on-1` à `on-3`)
  • CUDA 12.8 est maintenant disponible, c'est la version recommandée pour les pilotes installés. Notez que les versions antérieures de CUDA sont toujours supportées.
  • Suite aux lenteurs récurrentes sur le frontal : * le stockage scratch n'est plus servi par le frontal, mais par un autre noeud de service * tous les accès réseaux aux données se font maintenant en NFS v3 (au lieu de v4) -- si vous utilisez les ACL pour gérer l'accès à vos fichiers par des collaborateurs, les commandes changent !
  • La librairie OpenMPI provenant de Intel Ethernet Fabric Suite a été mise à jour (version 4.1.8)
  • Beaucoup d'autres petites choses, comme tous les firmwares, ont été mis à jour
Nouveautés : deux services expérimentaux sont ouverts sur le cluster

Cluster Curta: Problème GPFS du 15/02/2020 (2 commentaires)

Ajouté par Pierre Gay il y a plus de 5 ans

Nouvelle panne du système GPFS (IBM/Lenovo Spectrum Scale) samedi 15/02/2020 vers 19:00.

L'intervention du 30/01 n'a visiblement pas eu l'effet escompté...

L'analyse du problème est en cours.

Cluster Curta: Nouveau problème GPFS 21/01/2020 (3 commentaires)

Ajouté par Pierre Gay il y a plus de 5 ans

Une panne du système GPFS (home et scratch) est intervenue entre 13:00 et 13:20 (voir Problème GPFS 07/01/2019).

Un grand nombre de nœuds ont perdu la connexion GPFS. Un grand nombre de jobs ont été interrompus.

La panne semble venir d'une congestion du réseau OPA qui provoque l'exclusion des nœuds de calcul du cluster GPFS.

Un arrêt de service est prévu le 30 janvier pour modifier la configuration GPFS et le rendre plus résilient.

Cluster Curta: Arrêt accidentel du cluster 11/01/2020 (un commentaire)

Ajouté par Pierre Gay il y a plus de 5 ans

La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.

Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.

Veuillez nous excuser pour la gêne occasionnée.

Cluster Curta: Arrêt accidentel du cluster 09/01/2020

Ajouté par Pierre Gay il y a plus de 5 ans

A cause d'un problème sur le système de refroidissement de la salle SHM1 qui à provoqué une hausse importante de la température de l'air environnant de Curta, la plupart des serveurs se sont coupés automatiquement pour éviter la surchauffe.

Les jobs qui tournaient sont perdus.

Un problème similaire était intervenu en décembre et plus récemment dimanche 5 janvier.

La DSI de l'Université a contacté le fournisseur du système de refroidissement afin de régler le problème. Nous vous tiendrons informés des avancées futures.

Pour l'instant, nous ne pouvons que vous avertir que le cluster ne doit pas être considéré comme complètement opérationnel car ce problème peut se reproduire à tout instant.

Veuillez nous excuser pour les problèmes occasionnés.

Cluster Curta: Problème GPFS 07/01/2019

Ajouté par Pierre Gay il y a plus de 5 ans

Une panne du système GPFS (home et scratch) est intervenue entre 16:25 et 16:40.

Un grand nombre de nœuds ont perdu la connexion GPFS. Un grand nombre de jobs ont été interrompus.

Le problème est encore inexpliqué, mais nous allons tenter d'avoir plus d'informations.

Cluster Curta: Coupure électrique

Ajouté par Pierre Gay il y a presque 6 ans

L'alimentation électrique de la salle machine SHM1 a été coupée ce jour entre 11h15 et 12h15.

Tous les nœuds de calcul se sont éteints. Les jobs en cours ont donc été interrompus.

Le courant est revenu, nous allons remettre les nœuds en production.

L'équipe technique

(1-10/11)

Formats disponibles : Atom