Problèmes sur /scratch [24/07/2012]

Added by Pierre Gay about 7 years ago

La maintenance liée à la stack Infiniband qui a eu lieu la semaine dernière les 16 et 17 n'a pas eu les effets bénéfiques escomptés.

Outre des difficultés avec les nouvelles versions de librairie MPI, le /scratch tombe à nouveau en panne régulièrement.

Les équipes de Clustervision essaient de corriger le problème. Nous vous tiendrons informés de la suite.

En attendant, le /scratch sera indisponible. Pour ceux dont les calculs le permettent, nous vous conseillons d'utiliser autant que possible sur l'espace /tmp/$PBS_JOBID des nœuds de calcul (voir à ce sujet: FS_tmp).

Si vos jobs n'impliquent que très peu d'entrées/sorties, vous pouvez aussi utiliser le /home (en restant très parcimonieux pour ne pas faire tomber à son tour ce filesystem).

Merci de votre patience.


Comments

Added by Pierre Gay almost 7 years ago

Le système de fichiers /scratch est à nouveau en ligne.

Un des serveurs FhGFS était tombé en panne suite a des erreurs difficiles à diagnostiquer. Le serveur a été redémarré après une réparation du filesystem local. Les erreurs sur ce filesystem peuvent expliquer (ou être une conséquence de) la panne FhGFS...

Pour résumer, ça devrait fonctionner à nouveau, mais notre confiance est limitée, et le système est toujours sous surveillance.