Slurm ile ilgili yazdığımız bildiriye bağlantıdan ulaşabilirsiniz.
You can access our report about Slurm from the link.
Sorun node’un gerçek bellek miktarını slurm konfigürasyonuna yanlış girdiğinizden kaynaklanmaktadır. Öncelikle node’da
slurmd -C
komutu çalıştırın ve
RealMemory
‘nin karşısında çıkan bellek boyutunu kopyalayın. Daha sonra kontrol bilgisayarına giderek /etc/slurm/slurm.conf dosyasında ilgili node’un RealMemory kısmına daha önce kopyaladığınız değeri yazın. Bu konfigürasyon dosyasını tüm node’lara gönderin. Sunucu bilgisayarda
systemctl restart slurmctld.service
komutu ile slurm’ı restart edin. Node hala down olarak görünüyorsa
scontrol update NodeName=nodeismi State=Resume
komutunu çalıştırın. Sorununuz düzelmiştir.
Bugün 1, bugüne kadar toplam 166 kez ziyaret edildi.