slurm

    0

    1答えて

    4 * 64コアの小さなHPCがあり、SLURMがインストールされています。 ノードである:私はマルチプロセッシングとpythonで小さなスクリプトを書いたSLURMをテストする sinfo -N -l Mon Oct 3 08:58:12 2016 NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT FEATUR

    0

    1答えて

    ユーザー(管理者ではない)として、ある時点で先取りされたジョブを検索して再キューに入れる方法はありますか? sacct --allusers --state=PR --starttime=2016-01-01 を、何を取得していないが、私は先取りして、キューに再登録しまったジョブは、最終的に横取り状態で終わるないため、このコマンドは、実際に、動作するはずはないと思う。私は試してみました。

    0

    1答えて

    SLURMジョブスケジューラを使用してジョブをサブミットしようとしていて、--export=VAR=VALUE構文を使用すると、一部の変数が渡されていないことがわかります。 export)。私は各変数に--export=...を指定する必要があると私は理解しています。 sbatch --export=build=true --export=param=p100_256 run.py マイスクリ

    1

    1答えて

    私はsbatchを使ってアクセスできるクラスターにいくつかのスクリプトを送りました。しかし、私は、実行中のスクリプトを一時停止する必要はありません。 既に実行しているジョブをキャンセルせずに、現在実行中のジョブを保持/一時停止する方法はありますか? 私は1つは、それらを一時停止することができるthe following websiteで見つかった: To pause a particular jo

    1

    1答えて

    私はslurm上でいくつかの並列コードを実行しようとしています。異なるプロセスでは通信する必要はありません。 naively私はpythonのslurmパッケージを使用しました。しかし、それは私が1つのノード上のCPUを使用しているようだ。 たとえば、5つのCPUを持つ4つのノードがある場合、私は同時に5つのプロセスしか実行しません。異なるノード上で実行するようにマルチプロセスを教えるにはどうすれ

    0

    1答えて

    私はslurmと一緒に作業しています。私は現在のプロセスで使用できるcpu_idsとmax memoryを探しています。 これを理解する方法はありますか?

    0

    1答えて

    実行中のジョブから有効なCPU IDを取得する最も良い方法は何ですか? 私の考えは、リモートgpuサーバ上で割り振りを行い、割り当ての限界を持ったドッカーコマンドをラップして、nvidia-dockerを実行することです。 ドッキングステーションを割り当てに制限するには、cpu_idsと伝える必要があります。 マイジョブの投入は、次のようになります。あなたはsbatchで起動スクリプトで sbat

    0

    2答えて

    私の同僚と私はSXM2 NVlinkなどで深い学習のために新しいサーバを買うことを検討しています。 そのpower8アーキテクチャは、ドッカー+深層学習フレームワークのテンソルフロー。 次のセットアップがうまくいくか、困難/不可能が予想される場合、誰かが経験したことがありますか? SXM2 Power8 - NVLINK Oの4×P100のGPU:SLURMスケジューラを介してうまく管理Ubunt