0

を作成し、私はtensorflowクラスタでの作業を開始する方法についてhereを読んで、私は、セットアップにTFを実行して、作業のクラスタを作成するには、別のいくつかのマシンを望みますマシンをtfワーカーノードとして設定する方法についてはまっすぐな例を見つけることはできません。Ubuntuのは、私はUbuntuの</p> <p>下のpythonでtensorflow使用していますtensorflowワーカーノード

私はそれをスタンドアローンのマシンでセットアップし、それらをすべてクラスタにバインドする必要がありますか? 私はクラスタを設定する必要があります(もしそうなら、いくつかの例を参照してください)。そしてtfをクラスタとしてクラスタにインストールしますか?

EDIT: 答えが良いと資格があり、私はTFクラスタのコンセプトは、ベオウルフクラスターの同意と相互作用するという方法を理解しているよ、私はここではどのような方法でのBeowulfクラスタが必要な場合

おかげ

答えて

1

テンソルフローをパラメータサーバーまたはワーカーとして実行する方法については、ページの下部にある内容を見落としたと思います。ここには、2つのパラメータサーバーと2つのワーカーがあります。 job_nameのは、それがパラメータサーバや労働者のかどうかと言うとtask_indexは、そのグループ内のマシンのインデックスを告げる:

# On ps0.example.com: 
$ python trainer.py \ 
    --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ 
    --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \ 
    --job_name=ps --task_index=0 
# On ps1.example.com: 
$ python trainer.py \ 
    --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ 
    --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \ 
    --job_name=ps --task_index=1 
# On worker0.example.com: 
$ python trainer.py \ 
    --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ 
    --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \ 
    --job_name=worker --task_index=0 
# On worker1.example.com: 
$ python trainer.py \ 
    --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ 
    --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \ 
    --job_name=worker --task_index=1 
+0

ので、このコードは、すべての作業をやっている、ワーカーノードと活性化としてワーカーノードを設定するなど、正しいポートが開いているローカルホストは開いていますか?私は別のマシン間の接続を設定する必要はありませんか?パスワード、ポートなど?既に設定されているクラスタでカウントされますか?私のマシンは1つのネットワーク上の2台のマシンであり、2台のマシンの間に他の接続はありません。 – thebeancounter

+0

ええと、それはポートとネットワークをセットアップします。私は、各マシンがパスワードを要求せずに別のマシンにログインできるようにマシンを有効にする必要があると思います。私は、sshを使用しているマシンから別のマシンへのログインにパスワードを必要としないように、すべてのマシンからすべてのマシンにssh公開鍵をコピーすることでこれを行います。 – dipendra009

+0

だから私は並行してtufのためにbeuwolfクラスタを設定する必要はありませんか?ここでは、ブリュウルフクラスターは何の役に立つのでしょうか? – thebeancounter

関連する問題