Projet

Général

Profil

Économie d'énergie

Cet article indique les mesures prises sur le cluster pour économiser l'énergie, et leur impact sur l'ordonnancement des jobs sous Slurm.

Extinction automatique des nœuds inutilisés

Le pilotage des nœuds est assuré par Slurm. Lorsqu'il constate qu'un nœud de calcul est inutilisé passé un certain délai, il déclenche l'arrêt complet du nœud.

  • Le délai d'inactivité est de 2 heures - dit autrement, un nœud qui n'a pas reçu de job pendant 2 heures pourra être arrêté par Slurm
  • Deux nœuds restent allumés tout le temps, afin d'assurer une meilleure réactivité (node-1 et node-5)

Lorsqu'un nœud non utilisé a été arrêté, il sera marqué avec l'état IDLE+POWERED_DOWN - vous pouvez retrouver cette information avec les commandes suivantes :

  • scontrol show nodes <NODE> → donne un état détaillé du noeud
  • sinfo --Format "NodeHost,StateComplete" → affiche un résumé de l'état des noeuds
  • ou simplement sinfo → dans ce cas, l'état affiché sera idle~

Allumage des nœuds selon les besoins et attente

Inversement, lorsqu'un job a besoin de ressources, Slurm va éventuellement rallumer un nœud éteint. Dans ce cas, veuillez noter que l'allumage des nœuds peut prendre plusieurs minutes . En effet, les serveurs actuels prennent beaucoup de temps pour s'initialiser. En conséquence, si vous soumettez un job et que le cluster paraît "vide", vous devrez peut-être attendre quelques minutes avant que l'exécution ne commence.

Pourquoi éteindre les serveurs ?

L'arrêt complet offre la meilleure économie énergétique possible, et c'est la méthode la plus simple à mettre en oeuvre au vu de la grande hétérogénéité du cluster. En contre-partie, l'inconvénient est un temps de réactivation un peu long.

L'utilisation des méthodes d'économie d'énergie intégrée (état de veille des processeurs et des cartes graphiques) serait certainement plus réactif, mais nécessite de prendre en compte la diversité de nos matériels. Nous nous pencherons sur cette méthode si l'arrêt complet des nœuds pose des problèmes à l'usage, et nous sommes à votre écoute pour toute suggestion d'amélioration.