Arrêt accidentel du cluster 11/01/2020
La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.
Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.
Veuillez nous excuser pour la gêne occasionnée.
Comments
Added by Pierre Gay over 4 years ago
Le fournisseur est intervenu lundi soir.
Nous avons redémarré les nœuds de calcul et en l'absence de panne ces deux derniers jours, le cluster est remis en production.