Slurm node down: Reason=Low RealMemory

Slurm ile ilgili yazdığımız bildiriye bağlantıdan ulaşabilirsiniz.

You can access our report about Slurm from the link.


Sorun node’un gerçek bellek miktarını slurm konfigürasyonuna yanlış girdiğinizden kaynaklanmaktadır. Öncelikle node’da

slurmd -C

komutu çalıştırın ve

RealMemory

‘nin karşısında çıkan bellek boyutunu kopyalayın. Daha sonra kontrol bilgisayarına giderek /etc/slurm/slurm.conf dosyasında ilgili node’un RealMemory kısmına daha önce kopyaladığınız değeri yazın. Bu konfigürasyon dosyasını tüm node’lara gönderin. Sunucu bilgisayarda

systemctl restart slurmctld.service

komutu ile slurm’ı restart edin. Node hala down olarak görünüyorsa

scontrol update NodeName=nodeismi State=Resume

komutunu çalıştırın. Sorununuz düzelmiştir.

Bugün 1, bugüne kadar toplam 127 kez ziyaret edildi.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir