Arrêt accidentel du cluster 09/01/2020

Added by Pierre Gay 9 months ago

A cause d'un problème sur le système de refroidissement de la salle SHM1 qui à provoqué une hausse importante de la température de l'air environnant de Curta, la plupart des serveurs se sont coupés automatiquement pour éviter la surchauffe.

Les jobs qui tournaient sont perdus.

Un problème similaire était intervenu en décembre et plus récemment dimanche 5 janvier.

La DSI de l'Université a contacté le fournisseur du système de refroidissement afin de régler le problème. Nous vous tiendrons informés des avancées futures.

Pour l'instant, nous ne pouvons que vous avertir que le cluster ne doit pas être considéré comme complètement opérationnel car ce problème peut se reproduire à tout instant.

Veuillez nous excuser pour les problèmes occasionnés.


Comments