Slurm node down: Reason=Low RealMemory

Sorun node’un gerçek bellek miktarını slurm konfigürasyonuna yanlış girdiğinizden kaynaklanmaktadır. Öncelikle node’da

slurmd -C

komutu çalıştırın ve

RealMemory

‘nin karşısında çıkan bellek boyutunu kopyalayın. Daha sonra kontrol bilgisayarına giderek /etc/slurm/slurm.conf dosyasında ilgili node’un RealMemory kısmına daha önce kopyaladığınız değeri yazın. Bu konfigürasyon dosyasını tüm node’lara gönderin. Sunucu bilgisayarda

systemctl restart slurmctld.service

komutu ile slurm’ı restart edin. Node hala down olarak görünüyorsa

scontrol update NodeName=nodeismi State=Resume

komutunu çalıştırın. Sorununuz düzelmiştir.

Yorum yaz

0 Yorumlar.

Yorum Yap


Not - Bunları KullanabilirsinizHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>