Arrêt accidentel du cluster 11/01/2020
La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.
Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.
Veuillez nous excuser pour la gêne occasionnée.
Commentaires
Ajouté par Pierre Gay il y a presque 5 ans
Le fournisseur est intervenu lundi soir.
Nous avons redémarré les nœuds de calcul et en l'absence de panne ces deux derniers jours, le cluster est remis en production.