Etiket arşivi: slurm

Slurm Faydalı Komutlar – Örnekler

Slurm ile ilgili yazdığımız bildiriye bağlantıdan ulaşabilirsiniz.

You can access our report about Slurm from the link


Bir kullanıcıya ait tüm işleri sonlandırma:

scancel -u username

Bir işi spesifik bir node’da çalıştırma:

sbatch --nodelist nodename scriptname

Belli bir node’u drain durumuna alarak sonraki işlerin ona verilmemesini sağlamak.

scontrol update nodename=nodeismi state=drain reason="sebebi"

Sunucuda node bilgilerini görme (node ismi belirtilmezse tüm node’ları gösterir);

scontrol show nodes nodeismi

Node’u resume moduyla tekrar aktif etme;

scontrol update nodename=nodeismi state=resume

Client’larda node bilgilerini görme;

slurmd -C

Çalışmayan node’lar ve çalışmama sebeplerini görme;

sinfo -R

Çalışan ve çalışmayan tüm node’ları gruplayarak listeleme;

sinfo -l

Sunucuda slurm servisini restart etme (çalışan işlere zarar vermez);

systemctl restart slurmctld.service

Kuyruktaki bir iş hakkında bilgi edinme;

scontrol show job job_id

Çalışan, bekleyen ve yeni bitmiş işler hakkında bilgi edinme

sacct 
sacct -u username | grep COMPLETED

Bir işi gönderirken bazı node’lara işin gönderilmesini önleme (yavaş çalışan bir node vardır işin bu node’a gitmesini istemiyorsunuzdur).takipçi satın al

sbatch --exclusive=nodeismi scriptname

Kuyrukta PENDING olarak bekleyen işin tahmini başlama süresini görüntüleme

squeue --start

Kuyruktaki bütün işlerin JOBID’ye göre sıralanmış hali.

squeue --sort=i 
veya
squeue -S i

Bugün 1, bugüne kadar toplam 228 kez ziyaret edildi.

Slurm node down: Reason=Low RealMemory

Slurm ile ilgili yazdığımız bildiriye bağlantıdan ulaşabilirsiniz.

You can access our report about Slurm from the link.


Sorun node’un gerçek bellek miktarını slurm konfigürasyonuna yanlış girdiğinizden kaynaklanmaktadır. Öncelikle node’da

slurmd -C

komutu çalıştırın ve

RealMemory

‘nin karşısında çıkan bellek boyutunu kopyalayın. Daha sonra kontrol bilgisayarına giderek /etc/slurm/slurm.conf dosyasında ilgili node’un RealMemory kısmına daha önce kopyaladığınız değeri yazın. Bu konfigürasyon dosyasını tüm node’lara gönderin. Sunucu bilgisayarda

systemctl restart slurmctld.service

komutu ile slurm’ı restart edin. Node hala down olarak görünüyorsa

scontrol update NodeName=nodeismi State=Resume

komutunu çalıştırın. Sorununuz düzelmiştir.

Bugün 1, bugüne kadar toplam 135 kez ziyaret edildi.