Etiket Arşivi slurm

Slurm Faydalı Komutlar

Bir kullanıcıya ait tüm işleri sonlandırma:

scancel -u username

Bir işi spesifik bir node’da çalıştırma:

sbatch --nodelist nodename scriptname

Belli bir node’u drain durumuna alarak sonraki işlerin ona verilmemesini sağlamak.

scontrol update nodename=nodeismi state=drain reason="sebebi"

Sunucuda node bilgilerini görme (node ismi belirtilmezse tüm node’ları gösterir);

scontrol show nodes nodeismi

Node’u resume moduyla tekrar aktif etme;

scontrol update nodename=nodeismi state=resume

Client’larda node bilgilerini görme;

slurmd -C

Çalışmayan node’lar ve çalışmama sebeplerini görme;

sinfo -R

Çalışan ve çalışmayan tüm node’ları gruplayarak listeleme;

sinfo -l

Sunucuda slurm servisini restart etme (çalışan işlere zarar vermez);

systemctl restart slurmctld.service

Kuyruktaki bir iş hakkında bilgi edinme;

scontrol show job job_id

Çalışan, bekleyen ve yeni bitmiş işler hakkında bilgi edinme

sacct 
sacct -u username | grep COMPLETED

 

Slurm node down: Reason=Low RealMemory

Sorun node’un gerçek bellek miktarını slurm konfigürasyonuna yanlış girdiğinizden kaynaklanmaktadır. Öncelikle node’da

slurmd -C

komutu çalıştırın ve

RealMemory

‘nin karşısında çıkan bellek boyutunu kopyalayın. Daha sonra kontrol bilgisayarına giderek /etc/slurm/slurm.conf dosyasında ilgili node’un RealMemory kısmına daha önce kopyaladığınız değeri yazın. Bu konfigürasyon dosyasını tüm node’lara gönderin. Sunucu bilgisayarda

systemctl restart slurmctld.service

komutu ile slurm’ı restart edin. Node hala down olarak görünüyorsa

scontrol update NodeName=nodeismi State=Resume

komutunu çalıştırın. Sorununuz düzelmiştir.