かなり大きいドッカー画像(〜2GB)を使用するオーロラ経由でタスクを起動すると、タスクが実際に開始するまでに長い待ち時間があります。オーロラを経由してメソスの大きなドッカー画像を持つジョブを起動するのが遅くなる可能性があります。
タスクが以前に起動されていて、ドッカーイメージがワーカーノードですでに使用可能であると予想される場合でも、タスクが実際に起動する前にイメージサイズに応じて待ち時間があります。ドッカーを使用すると、イメージリストにある限り、すぐにコンテナを起動できます。また、この「キャッシュ」もサポートしていませんか?この機能は設定可能な機能ですか?
私はドッカーコンテナライザーを使用しようとしませんでしたが、とにかくすぐに段階的に廃止され、私たちが必要とするgpuリソースの分離は、メソスコンテナ専用です。
お待ちください。イメージがすでに作成されていてもダウンロードされていても、イメージから新しいコンテナを作成する場合は、少なくともイメージファイル(多くのレイヤーで構成されている)を読み込んでコンテナを作成し、それだけで時間がかかる可能性があります。 「長い遅延」が何を意味するかを定量化していないため、新しいコンテナを作成しているか、既存のコンテナを再起動しているかわからないため、言うことは難しいです... –
この場合、 〜2GBの画像で1分。 nvidia-dockerでこの同じイメージを実行すると、数秒で起動するのに対して、Auroraジョブの一部として起動するのは、指定されたプロセスが開始するまで約1分かかります。また、はるかに小さい画像(ほんの数百MB)を含むジョブを起動するときの待ち時間は、約10秒で顕著に小さくなります。今、私はDockerがイメージからコンテナを作成した方法の専門家ではありませんが、私はmesosコンテナライザーと同様の動作を期待していました – andrei
私はこの遅延がイメージの再インポートによるものではないことを確かに知っていますまたは私はドッカーの画像を使用するオーロラジョブを実行するシナリオを実行しようとしたようなもの、レジストリでこのイメージを更新してから同じジョブを再度実行します。この場合、初期イメージが使用され、更新されたイメージは無視されました。 – andrei