Problèmes sur /scratch [29/06/2012]

Added by Pierre Gay about 7 years ago

Nous rencontrons depuis quelques jours de gros problèmes sur le système de fichiers /scratch.

Les serveurs qui constituent le filesystem FhGFS tombent en panne assez régulièrement sans qu'on sache (encore) trop pourquoi

Nous avons soumis le problème à Clustervision et attendons leur analyse.

Le /scratch doit être considéré comme très instable pendant un certain temps.

Veuillez accepter nos excuses pour ce dérangement.

Nous vous tiendrons au courant de la suite.

Suivi 02/07/2012:
Problèmes Infiniband sur les serveurs FhGFS. (?)
Maintenance /scratch prévue le 5 juillet.


Comments

Added by Pierre Gay about 7 years ago

Suivi 06/07/2012:
Le problème, tel qu'analysé par Clustervision vient d'une incohérence de versions entre le firmware du switch et les logiciels de la suite des nœuds de calcul.

Une solution temporaire appliquée est de faire tourner le "Fabric Manager" sur le switch (et plus sur le nœud master).
Les versions seront harmonisées lors d'une maintenance ultérierure (fin juillet, début Août?)

La machine est à nouveau en production.