News

iRODS: Mise en production - Formation utilisateurs

Added by Pierre Gay almost 4 years ago

Le projet MCIA-iRODS passe officiellement en production à partir d'aujourd'hui.

Afin de marquer cet événement, deux formations utilisateurs sont organisées:
  • le 30/09/2015 de 14h à 16h - Université de Bordeaux, Talence, salle de formation du bâtiment A5 (accès http://cartographie.u-bordeaux.fr/TPG_ZoomA5.html)
  • le 01/10/2015 de 14h à 16h - Université de Pau et des Pays de l'Adour, Campus de Pau, bâtiment Duboué, salle 31

Support de présentation: mcia-irods-tutorial-2015-09-30.pdf

cluster Avakas: Orage le 08/05/2015

Added by Pierre Gay over 4 years ago

Un orage a fait disjoncter le groupe froid qui climatise Avakas le 08/05/2015 vers 4 heures du matin.

Conformément à sa configuration, le cluster a brutalement coupé tous les nœuds de calcul afin d'éviter une surchauffe de la salle machine.

Tous les jobs alors en cours sont perdus.

Nous remettons progressivement les machines en fonctionnement et relancerons la production dès que possible.

Veuillez nous excuser pour la gêne occasionnée.

09/05/2015: redémarrage de la production vers 18h.

11/05/2015: à cause d'un oubli de ma part (#2979), la possibilité de soumettre de nouveaux jobs n'est rétablie que ce jour.

cluster Avakas: maintenance Infiniband du 01/04/2015

Added by Pierre Gay over 4 years ago

Le remplacement d'une partie du switch Infiniband défectueuse (voir #2894) va nécessiter le reboot du switch.

Ce reboot étant responsable de l'arrêt de tous les jobs MPI actif, une réservation administrative sur le scheduler est posée pour permettre l'opération, prévue le 01/04/2015.

Cette réservation interdira le démarrage des jobs dans la période de maintenance.

Veuillez nous excuser pour la gêne occasionnée.

01/04/2015: reboot effectué.
Le système Infiniband n'est cependant visiblement toujours pas stable.
Nous redémarrons la production, mais les jobs MPI risquent de rencontrer des problèmes. Si c'est votre cas, n'hésitez pas à nous en faire part avec un ticket.

Nous allons continuer de chercher la source du problème avec Clustervision. Nous vous tiendrons au courant de nos avancées.

02/04/2015: travaux clustervision (mise à jour des noyaux des nœuds et stack Infiniband)
Tout n'est pas fini. Les travaux continueront la semaine prochaine.

14/04/2015: ça ne va pas mieux. Ce matin, panne de /scratch: le switch Infiniband ne répond pas. Clustervision est alerté. (#2931)

cluster Avakas: Arrêt des nœuds de calcul - 30/01/2015

Added by Pierre Gay over 4 years ago

Les nœuds de calcul ont été éteints le 30 janvier un peu avant 20 heures, provoquant la perte des jobs en cours.

Nous manquons pour l'instant d'informations, mais c'est probablement dû à une coupure d'électricité ou une panne du groupe froid lui-même.

Nous redémarrons les nœuds pour reprendre ensuite la production.

Plus d'informations à venir.

02/02/2015 il s'agit d'un problème sur le groupe froid

Une alarme "circuit 1 low pressure". La température mesurée du fluide de refroidissement a dépassé la valeur tolérée, déclenchant l'arrêt de sécurité des serveurs de calcul.

Nous avons pré&venu la maintenance.

cluster Avakas: Instabilité du cluster

Added by Pierre Gay over 4 years ago

Suite à la maintenance des 20-21 janvier qui s'est étendue jusqu'au 23, le cluster a des instabilités.

Notamment:
  • certains modules ont disparu (par exemple: suite Intel 12.0)
  • l'espace /scratch est par moments indisponible

Clustervision est prévenu et travaille pour régler ces problèmes.

Ces problèmes proviennent d'une mise à jour des paquets logiciels, nécessaire pour des raisons de sécurité, qui ont eu des effets indésirables. Des mises à jour des piles logicielles Infiniband pourront aussi avoir un impact sur le système FhGFS.

Si vous remarquez d'autres problèmes, n'hésitez pas à le signaler par un ticket: https://redmine.mcia.univ-bordeaux.fr/projects/cluster-avakas/issues/new

cluster Avakas: Maintenance Avakas (20/01/2015 - 21/01/2015)

Added by Pierre Gay over 4 years ago

Une extinction de la machine est prévue les 20 et 21 janvier 2015.

Il s'agit d'une opération de maintenance visant à:
  • mettre à jour des firmwares, notamment Infiniband pour essayer d'améliorer la stabilité du réseau (voir par exemple #2194)
  • effectuer une opération mineure sur les switchs ethernet (connexion de serveurs iRODS)

Nous avons posé une réservation administrative sur le scheduler, donc il ne devrait pas y a voir de perte de jobs. Les calculs en attente seront schédulés au redémarrage de la machine.

iRODS: Tutoriel bêta testeurs 20/11/2014

Added by Pierre Gay almost 5 years ago

Le 2 novembre 2014 de 14h à 16h au CBiB.

Supports de présentation:

cluster Avakas: Problème /scratch (26/09/2014) (1 comment)

Added by Pierre Gay almost 5 years ago

Depuis le 24/09/2014 dans la soirée, le filesystem /scratch était bloqué. Cela a impacté tous les jobs qui l'utilisaient.

Nous l'avons remis en service à plusieurs reprises.

Il nous semble que c'est lié à des problèmes de connexion Infiniband de l'un des serveurs FhGFS.

Nous avons demandé un diagnostic plus précis aux constructeurs du réseau Infiniband et aux développeurs du système FhGFS.

Nous vous tiendrons au courant des informations que nous obtiendrons. Dans l'intervalle, des perturbations sont malheureusement à prévoir sur ce système.

29/09/2014:
Le problème semblait provenir de différentes défaillances Infiniband: la connexion d'un des serveurs FhGFS et une partie du switch provoquaient des erreurs dans les communications. Une connexion/déconnexion du serveur et le redémarrage de la partie fautive semblent avoir résolu le problème.

cluster Avakas: Panne groupe froid (15/09/2014) (2 comments)

Added by Pierre Gay almost 5 years ago

Probablement suite à des coupures électriques ce weekend, le groupe froid associé à Avakas est tombé en panne.

Privé de refroidissement, le cluster a automatiquement éteint tous les nœuds de calcul pour éviter une surchauffe de la salle machine.

Nous avons contacté la maintenance du constructeur.

Nous vous tiendrons au courant de l'évolution de la situation.

15/09/2014:
La société SAITA est intervenue sur le groupe froid cet après midi. Une alarme "flow switch 1" bloquait le système. Le groupe a été redémarré, mais ce soir, l'alarme est de nouveau apparue. Le Cluster est toujours arrêté, nous attendons une nouvelle intervention pour demain.

16/9/2014:
Nouvelle intervention de la société SAIA. Le groupe froid est réparé (ballon d'expansion regonflé, fuite de gaz colmatée). Après quelques heures de surveillance et de tests, nous remettons le cluster en production.

cluster Avakas: formation nouveaux utilisateurs

Added by Pierre Gay over 5 years ago

Date: 23 juin à 10 h,
Lieu: La salle de formation de la DSI bâtiment A5.
Prérequis: compte utilisateur Avakas valide.

Programme:
  • Présentation du cluster (matériel, composants)
  • Communauté Avakas
  • Environnement logiciel
  • Calculer sur la machine - utilisation du scheduler
  • Gestion des données
  • Visualsation déportée

Pour vous inscrire: https://groupes.renater.fr/reunion/foodle/Formation-utilisateurs-Avakas-2014-53733

Date limite d'inscription: 1 juin

Support de la formation : Formation-Initiale-Avakas-2014-06-23

1 2 3 4 5 (11-20/46)

Also available in: Atom