ディープ学習のトレーニングタスクを実行するためにカスタムAMI(ドッカー?)を使用して複数のAmazon EC2スポットインスタンス(フリート?)を起動したいと思います。モデルをトレーニングする目的で、すべてのインスタンスが共通のファイルセットを共有したいと思います。AMIと共通ファイルを使用したAmazon EC2スポットインスタンスフリート
ここで考えているのは、価格制限/需要のためにスポットインスタンスがAWSによって終了されたときにトレーニング履歴を失い、EBS(ネットワークドライブ?)にバックアップを保存しないということです。タスク状態はファイル内で更新され、インスタンスが利用可能になると再開されます。
すべてのインスタンスを起動し、協力して訓練タスクを完了することは可能ですか?どのようなセットアップがこれを達成できるでしょうか?
DL AMIを指摘してくれてありがとう。あなたの入力は非常に高く評価されています。私が見てきたように、スポットインスタンス艦隊はAWSの非常に貴重で費用対効果の高いツールです。私は実験し、このスレッドで私の学習を投稿します。いくつかのタスクを自動化するためのAPIも検討しています。 –
こんにちは@SampathVanimisetti、これまたは任意の答えがあなたの質問を解決した場合は、[それを受け入れる](http://meta.stackexchange.com/q/5234/179419)のチェックマークをクリックしてください。これは、あなたが解決策を見つけ出し、回答者とあなた自身の両方に評判を与えていることを広範なコミュニティに示します。これを行う義務はありません。 –
謝罪!あなたが気付いたかもしれないように、ここを新しくしてください。私はupvotingしようとしましたが、私はそうすることができる前に評判のポイントが必要なようです。私は答えを受け入れました。 –