Projet

Général

Profil

Perte d'une GPU H100

Ajouté par Xavier Montagutelli il y a 22 jours

En version rapide

Le noeud "node-1" a une carte GPU H100 dysfonctionnelle. Nous sommes en cours de traitement avec le constructeur. En attendant de trouver l'origine du problème, le noeud a été reconfiguré pour utiliser une seule GPU.

Plus de détails

Le noeud de calcul "node-1" est affecté d'un dysfonctionnement depuis quelques mois, se manifestant par la "perte" d'une GPU. Un simple "reboot" suffisait jusqu'à présent à rétablir le fonctionnement. Ces plantages sont survenus 3 ou 4 fois depuis 6 mois.
Devant une augmentation de la fréquence, nous avons contacté le support. Nous avons déjà procédé à un changement de GPU, sans amélioration. L'incident est en cours d'escalade chez HPE, nous allons certainement devoir remplacer la carte mère ou les cartes d'extension où sont connectées les GPU.
Ces interventions se feront cette semaine (17 au 20 décembre 2025) ou à la rentrée, et nous devrons stopper le noeud lors des changements matériel.


Commentaires