テンソルフローをパラメータサーバーまたはワーカーとして実行する方法については、ページの下部にある内容を見落としたと思います。ここには、2つのパラメータサーバーと2つのワーカーがあります。 job_nameのは、それがパラメータサーバや労働者のかどうかと言うとtask_indexは、そのグループ内のマシンのインデックスを告げる:
# On ps0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=1
ので、このコードは、すべての作業をやっている、ワーカーノードと活性化としてワーカーノードを設定するなど、正しいポートが開いているローカルホストは開いていますか?私は別のマシン間の接続を設定する必要はありませんか?パスワード、ポートなど?既に設定されているクラスタでカウントされますか?私のマシンは1つのネットワーク上の2台のマシンであり、2台のマシンの間に他の接続はありません。 – thebeancounter
ええと、それはポートとネットワークをセットアップします。私は、各マシンがパスワードを要求せずに別のマシンにログインできるようにマシンを有効にする必要があると思います。私は、sshを使用しているマシンから別のマシンへのログインにパスワードを必要としないように、すべてのマシンからすべてのマシンにssh公開鍵をコピーすることでこれを行います。 – dipendra009
だから私は並行してtufのためにbeuwolfクラスタを設定する必要はありませんか?ここでは、ブリュウルフクラスターは何の役に立つのでしょうか? – thebeancounter