2017-10-02 12 views
1

と分散型のトレーニングを実行している:https://www.tensorflow.org/deploy/distributedTensorflowと私は、分散訓練にtensorflowガイドに沿って、ニューラルネットワーク書かれているトルク

クラスタは、私がジョブスケジューリングおよび配布するためのトルクを使用する上でのトレーニングを実行したい場合は、これはテンソルフローにどのように適合し、クラスター上でトレーニングをどのように配布するのでしょうか?

トルクのあるノードでトレーニングを設定し、そこからテンソルフローを配布するか、トルクの機能と衝突しますか?テンソルフローが分布を扱うことができるならば、トルクは全く必要ですか?どのように私は2つの間の衝突を避けるのですか?

ありがとうございます。

答えて

0

トルクと分散テンソルフローは、互いに直接関係のないさまざまなタスクを担当します。 クラスタのリソースを複数のジョブに分散するためのトルクがあります。 1つのジョブ内では、要求されたリソースだけが利用可能になります。 分散テンソルフローは、テンソルフロータスクを利用可能なリソース間で(1つのジョブ内で)並列化します。

通常、トルクを使用してテンソルフロータスクに必要なリソースをすべて取得し、分散テンソルフローを使用してタスクをトルクによって提供されたリソースに分散します。

tf.train.ClusterSpecが、トルクによって利用可能なリソースで正しく初期化されている場合、競合は発生しません。

+0

ヘルプBlueSunのおかげで、あなたの回答は多くの助けになりました。私はしかし、関連する問題に遭遇している。ヘッドノードからテンソルフロートレーニングセッションを1つのジョブとして実行すると、次のエラーが表示されます。「ImportError:テンソルフローというモジュールはありません」テンソルフローはクラスタのすべてのノードにインストールされます。私はトルクジョブファイルを使用して、すべてのノードでテンソルフローシェルを開くことを試みましたが、これはあまりにも助けにはなりませんでした。どのような可能性のある解決策がありますか? –

+0

@DevonJarvis ImportErrorには多くの理由があります。あなたは質問の答えを読んでみることができます:https://stackoverflow.com/questions/14295680/cannot-import-a-python-module-that-is-definitely-installed-mechanize – BlueSun

関連する問題