Projet

Général

Profil

Arrêt accidentel du cluster 11/01/2020

Ajouté par Pierre Gay il y a plus de 4 ans

La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.

Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.

Veuillez nous excuser pour la gêne occasionnée.


Commentaires

Ajouté par Pierre Gay il y a plus de 4 ans

Le fournisseur est intervenu lundi soir.

Nous avons redémarré les nœuds de calcul et en l'absence de panne ces deux derniers jours, le cluster est remis en production.