2017-02-18 13 views
1

ディープ学習のトレーニングタスクを実行するためにカスタムAMI(ドッカー?)を使用して複数のAmazon EC2スポットインスタンス(フリート?)を起動したいと思います。モデルをトレーニングする目的で、すべてのインスタンスが共通のファイルセットを共有したいと思います。AMIと共通ファイルを使用したAmazon EC2スポットインスタンスフリート

ここで考えているのは、価格制限/需要のためにスポットインスタンスがAWSによって終了されたときにトレーニング履歴を失い、EBS(ネットワークドライブ?)にバックアップを保存しないということです。タスク状態はファイル内で更新され、インスタンスが利用可能になると再開されます。

すべてのインスタンスを起動し、協力して訓練タスクを完了することは可能ですか?どのようなセットアップがこれを達成できるでしょうか?

答えて

2

まず、人気のディープラーニングツールで完全に構成されているAWS MarketplaceのDeep Learning AMIに興味があるかもしれません。

(Amazon S3ではなく)ローカルファイルシステムにデータを保存する場合は、Deep Learning AMIを使用して複数のAmazon EC2インスタンス(Spotインスタンスを含む)間でファイルシステムを共有できます。 Amazon EFSはNASに似ており、複数のインスタンスにわたって同時に使用できます。

EFSボリュームは、User Data scriptを介して、目的のアプリケーションをロードして実行するためのセットアップスクリプト(これは新しいAMIを作成するよりも簡単です)を使用してマウントできます。

+0

DL AMIを指摘してくれてありがとう。あなたの入力は非常に高く評価されています。私が見てきたように、スポットインスタンス艦隊はAWSの非常に貴重で費用対効果の高いツールです。私は実験し、このスレッドで私の学習を投稿します。いくつかのタスクを自動化するためのAPIも検討しています。 –

+0

こんにちは@SampathVanimisetti、これまたは任意の答えがあなたの質問を解決した場合は、[それを受け入れる](http://meta.stackexchange.com/q/5234/179419)のチェックマークをクリックしてください。これは、あなたが解決策を見つけ出し、回答者とあなた自身の両方に評判を与えていることを広範なコミュニティに示します。これを行う義務はありません。 –

+0

謝罪!あなたが気付いたかもしれないように、ここを新しくしてください。私はupvotingしようとしましたが、私はそうすることができる前に評判のポイントが必要なようです。私は答えを受け入れました。 –

関連する問題