Project

General

Profile

Arrêt accidentel du cluster 11/01/2020

Added by Pierre Gay 9 months ago

La panne du système de refroidissement (voir Arrêt accidentel du cluster 09/01/2020) s'est reproduite ce weekend. Comme cela se reproduit tous les jours, nous allons devoir arrêter la production jusqu'à ce que le fournisseur intervienne. La société APC-Schneider a été relancée par la DSI et devrait corriger le problème dans les meilleurs délais.

Nous avons redémarré les frontaux et le système GPFS afin que vous puissiez accéder à vos données, mais aucun job ne démarrera pour l'instant.

Veuillez nous excuser pour la gêne occasionnée.


Comments

Added by Pierre Gay 9 months ago

Le fournisseur est intervenu lundi soir.

Nous avons redémarré les nœuds de calcul et en l'absence de panne ces deux derniers jours, le cluster est remis en production.