Arrêt accidentel du cluster 11/01/2020
La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.
Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.
Veuillez nous excuser pour la gêne occasionnée.
Comments
Le fournisseur est intervenu lundi soir.
Nous avons redémarré les nœuds de calcul et en l'absence de panne ces deux derniers jours, le cluster est remis en production.