News

Mise en service du nouveau cluster Curta

Added by Pierre Gay 7 months ago

Après 7 ans de bons et loyaux services, il est temps pour Avakas de laisser la place au nouveau cluster HPC du MCIA: le puissant Cluster Curta.

Chaque utilisateur du MCIA peut d'ores et déjà se connecter sur Curta (voir la documentation en ligne).

Afin de faciliter la migration, les données du FS_home ont été synchronisées à l'avance entre les deux clusters. Nous vous prions de lire attentivement la documentation associée: Transfert des données HOME vers Curta.

Pour toute question, prière de faire un ticket.

La fermeture du cluster Avakas est prévue dans les mois qui viennent, selon le planning détaillé ici: Planning de fermeture d'Avakas

Enjoy Curta!

Extinction accidentelle des nœuds - 06/12/2016

Added by Pierre Gay almost 3 years ago

Nous avons dû redémarrer le système d'administration du cluster pour régler un problème sur le nœuds maître d'Avakas.

Ce genre d'opérations se passe d'habitude sans trop de problème, malheureusement, cette fois-ci, le système a cru à une panne du groupe froid qui pour une fois n'y était pour rien. Dès lors, le système de sécurité a automatiquement forcé l'extinction des nœuds de calcul, tuant tous les jobs qui tournaient à ce moment.

Nous redémarrons les nœuds et remettrons le cluster en production au plus tôt.

Veuillez nous excuser pour la perte de travail occasionnée.

Pierre Gay

Panne de climatisation le 29/04/2015

Added by Pierre Gay over 3 years ago

A 10 heures ce matin, une panne sur le groupe froid d'Avakas (un ventilateur défectueux) a provoqué la coupure automatique des nœuds de calcul. Les jobs qui tournaient sont malheureusement perdus.

J'attends une intervention du frigoriste pour plus d'informations et avec l'espoir de redémarrer la production au plus vite.

Veuillez nous excuser pour la gêne occasionnée.

L'équipe Avakas.

02/05/2016: un ventilateur en panne. Nous espérons avoir bientôt plus d'informations sur un éventuel redémarrage

03/05/2016: Une solution temporaire a été mise en place par le frigoriste pour fonctionner en mode dégradé en attendant le remplacement du ventilateur défectueux. J'ai pu rallumer ~1000 cœurs sans mettre le feu à la salle machine (jusqu'ici). Le scheduler accepte de nouveau les jobs.

25/05/2016: Le ventilateur fautif est remplacé. Tous les nœuds ont été redémarrés et sont en production.

Orage le 08/05/2015

Added by Pierre Gay over 4 years ago

Un orage a fait disjoncter le groupe froid qui climatise Avakas le 08/05/2015 vers 4 heures du matin.

Conformément à sa configuration, le cluster a brutalement coupé tous les nœuds de calcul afin d'éviter une surchauffe de la salle machine.

Tous les jobs alors en cours sont perdus.

Nous remettons progressivement les machines en fonctionnement et relancerons la production dès que possible.

Veuillez nous excuser pour la gêne occasionnée.

09/05/2015: redémarrage de la production vers 18h.

11/05/2015: à cause d'un oubli de ma part (#2979), la possibilité de soumettre de nouveaux jobs n'est rétablie que ce jour.

maintenance Infiniband du 01/04/2015

Added by Pierre Gay over 4 years ago

Le remplacement d'une partie du switch Infiniband défectueuse (voir #2894) va nécessiter le reboot du switch.

Ce reboot étant responsable de l'arrêt de tous les jobs MPI actif, une réservation administrative sur le scheduler est posée pour permettre l'opération, prévue le 01/04/2015.

Cette réservation interdira le démarrage des jobs dans la période de maintenance.

Veuillez nous excuser pour la gêne occasionnée.

01/04/2015: reboot effectué.
Le système Infiniband n'est cependant visiblement toujours pas stable.
Nous redémarrons la production, mais les jobs MPI risquent de rencontrer des problèmes. Si c'est votre cas, n'hésitez pas à nous en faire part avec un ticket.

Nous allons continuer de chercher la source du problème avec Clustervision. Nous vous tiendrons au courant de nos avancées.

02/04/2015: travaux clustervision (mise à jour des noyaux des nœuds et stack Infiniband)
Tout n'est pas fini. Les travaux continueront la semaine prochaine.

14/04/2015: ça ne va pas mieux. Ce matin, panne de /scratch: le switch Infiniband ne répond pas. Clustervision est alerté. (#2931)

Arrêt des nœuds de calcul - 30/01/2015

Added by Pierre Gay over 4 years ago

Les nœuds de calcul ont été éteints le 30 janvier un peu avant 20 heures, provoquant la perte des jobs en cours.

Nous manquons pour l'instant d'informations, mais c'est probablement dû à une coupure d'électricité ou une panne du groupe froid lui-même.

Nous redémarrons les nœuds pour reprendre ensuite la production.

Plus d'informations à venir.

02/02/2015 il s'agit d'un problème sur le groupe froid

Une alarme "circuit 1 low pressure". La température mesurée du fluide de refroidissement a dépassé la valeur tolérée, déclenchant l'arrêt de sécurité des serveurs de calcul.

Nous avons pré&venu la maintenance.

Instabilité du cluster

Added by Pierre Gay over 4 years ago

Suite à la maintenance des 20-21 janvier qui s'est étendue jusqu'au 23, le cluster a des instabilités.

Notamment:
  • certains modules ont disparu (par exemple: suite Intel 12.0)
  • l'espace /scratch est par moments indisponible

Clustervision est prévenu et travaille pour régler ces problèmes.

Ces problèmes proviennent d'une mise à jour des paquets logiciels, nécessaire pour des raisons de sécurité, qui ont eu des effets indésirables. Des mises à jour des piles logicielles Infiniband pourront aussi avoir un impact sur le système FhGFS.

Si vous remarquez d'autres problèmes, n'hésitez pas à le signaler par un ticket: https://redmine.mcia.univ-bordeaux.fr/projects/cluster-avakas/issues/new

Maintenance Avakas (20/01/2015 - 21/01/2015)

Added by Pierre Gay almost 5 years ago

Une extinction de la machine est prévue les 20 et 21 janvier 2015.

Il s'agit d'une opération de maintenance visant à:
  • mettre à jour des firmwares, notamment Infiniband pour essayer d'améliorer la stabilité du réseau (voir par exemple #2194)
  • effectuer une opération mineure sur les switchs ethernet (connexion de serveurs iRODS)

Nous avons posé une réservation administrative sur le scheduler, donc il ne devrait pas y a voir de perte de jobs. Les calculs en attente seront schédulés au redémarrage de la machine.

Problème /scratch (26/09/2014) (1 comment)

Added by Pierre Gay about 5 years ago

Depuis le 24/09/2014 dans la soirée, le filesystem /scratch était bloqué. Cela a impacté tous les jobs qui l'utilisaient.

Nous l'avons remis en service à plusieurs reprises.

Il nous semble que c'est lié à des problèmes de connexion Infiniband de l'un des serveurs FhGFS.

Nous avons demandé un diagnostic plus précis aux constructeurs du réseau Infiniband et aux développeurs du système FhGFS.

Nous vous tiendrons au courant des informations que nous obtiendrons. Dans l'intervalle, des perturbations sont malheureusement à prévoir sur ce système.

29/09/2014:
Le problème semblait provenir de différentes défaillances Infiniband: la connexion d'un des serveurs FhGFS et une partie du switch provoquaient des erreurs dans les communications. Une connexion/déconnexion du serveur et le redémarrage de la partie fautive semblent avoir résolu le problème.

Panne groupe froid (15/09/2014) (2 comments)

Added by Pierre Gay about 5 years ago

Probablement suite à des coupures électriques ce weekend, le groupe froid associé à Avakas est tombé en panne.

Privé de refroidissement, le cluster a automatiquement éteint tous les nœuds de calcul pour éviter une surchauffe de la salle machine.

Nous avons contacté la maintenance du constructeur.

Nous vous tiendrons au courant de l'évolution de la situation.

15/09/2014:
La société SAITA est intervenue sur le groupe froid cet après midi. Une alarme "flow switch 1" bloquait le système. Le groupe a été redémarré, mais ce soir, l'alarme est de nouveau apparue. Le Cluster est toujours arrêté, nous attendons une nouvelle intervention pour demain.

16/9/2014:
Nouvelle intervention de la société SAIA. Le groupe froid est réparé (ballon d'expansion regonflé, fuite de gaz colmatée). Après quelques heures de surveillance et de tests, nous remettons le cluster en production.

1 2 3 4 (1-10/37)

Also available in: Atom