News
Cluster Curta: Coupure électrique
L'alimentation électrique de la salle machine SHM1 a été coupée ce jour entre 11h15 et 12h15.
Tous les nœuds de calcul se sont éteints. Les jobs en cours ont donc été interrompus.
Le courant est revenu, nous allons remettre les nœuds en production.
L'équipe technique
Cluster Curta: Quotas GPFS
Les quotas GPFS vont être réactivés sur le FS_Home.
Si vous rencontrez des problèmes dans la journée, merci de faire un ticket.
L'équipe technique
Cluster Curta: Perturbations sur le GPFS (08/04/2019) (1 comment)
En raison de nouveaux tests sur le système GPFS (voir #6108), des problèmes pourront se produire lors d'écritures sur le FS_Home dans la journée.
L'équipe technique
cluster Avakas: Mise en service du nouveau cluster Curta
Après 7 ans de bons et loyaux services, il est temps pour Avakas de laisser la place au nouveau cluster HPC du MCIA: le puissant Cluster Curta.
Chaque utilisateur du MCIA peut d'ores et déjà se connecter sur Curta (voir la documentation en ligne).
Afin de faciliter la migration, les données du FS_home ont été synchronisées à l'avance entre les deux clusters. Nous vous prions de lire attentivement la documentation associée: Transfert des données HOME vers Curta.
Pour toute question, prière de faire un ticket.
La fermeture du cluster Avakas est prévue dans les mois qui viennent, selon le planning détaillé ici: Planning de fermeture d'Avakas
Enjoy Curta!
Cluster Curta: Ouverture du cluster Curta
Le Cluster Curta est ouvert aux utilisateurs. Successeur du cluster Avakas, il représente une augmentation substantielle de performance.
La documentation utilisateur du cluster est consultable en ligne: Wiki.
Enjoy Curta!
cluster Avakas: Extinction accidentelle des nœuds - 06/12/2016
Nous avons dû redémarrer le système d'administration du cluster pour régler un problème sur le nœuds maître d'Avakas.
Ce genre d'opérations se passe d'habitude sans trop de problème, malheureusement, cette fois-ci, le système a cru à une panne du groupe froid qui pour une fois n'y était pour rien. Dès lors, le système de sécurité a automatiquement forcé l'extinction des nœuds de calcul, tuant tous les jobs qui tournaient à ce moment.
Nous redémarrons les nœuds et remettrons le cluster en production au plus tôt.
Veuillez nous excuser pour la perte de travail occasionnée.
Pierre Gay
iRODS: Formation utilisateurs Bordeaux le 26/01/2017
La formation aura lieu le 26/01/2017 de 14h à 16h en salle de formation du bâtiment A5 (accès http://cartographie.u-bordeaux.fr/TPG_ZoomA5.html)
Le nombre de place étant limité, veuillez vous inscrire ici: https://groupes.renater.fr/reunion/foodle/formation-MCIA-iRODS-581c6
Support de présentation: mcia-irods-tutorial-2017-01-26.pdf
MCIA: Prochaine formation, 17-19 janvier 2018 : CALCUL PARALLÈLE
Cliquez sur le lien ci-dessous pour avoir accès au catalogue des formations :
Formations
MCIA: le Mésocentre recrute
Deux postes CDD d'ingénieurs d'administration des ressources de calcul sont proposés dans le cadre du Mésocentre de Calcul Intensif Aquitain. Ces postes sont à pourvoir pour octobre 2016.
Descriptif des postes: http://www.cue-aquitaine.fr/docs/recrutement/MCIA-2%20postes-Administrateurs%20des%20syst%C3%A8mes%20informatiques.pdf
cluster Avakas: Panne de climatisation le 29/04/2015
A 10 heures ce matin, une panne sur le groupe froid d'Avakas (un ventilateur défectueux) a provoqué la coupure automatique des nœuds de calcul. Les jobs qui tournaient sont malheureusement perdus.
J'attends une intervention du frigoriste pour plus d'informations et avec l'espoir de redémarrer la production au plus vite.
Veuillez nous excuser pour la gêne occasionnée.
L'équipe Avakas.
02/05/2016: un ventilateur en panne. Nous espérons avoir bientôt plus d'informations sur un éventuel redémarrage
03/05/2016: Une solution temporaire a été mise en place par le frigoriste pour fonctionner en mode dégradé en attendant le remplacement du ventilateur défectueux. J'ai pu rallumer ~1000 cœurs sans mettre le feu à la salle machine (jusqu'ici). Le scheduler accepte de nouveau les jobs.
25/05/2016: Le ventilateur fautif est remplacé. Tous les nœuds ont été redémarrés et sont en production.
Also available in: Atom