Google MLエンジンとGoogle Storageを使用してTensorFlowでSSDモデルをトレーニングしています。 TFのobject detection exampleでは、すべての画像を1つの大きなTFRecordファイルに入れます。しかし、このスキームでは、すべての画像のサブセットを選択することによって異なる訓練セットを組み立てたい場合、所与の画像は、画像が属する訓練セットごとに1回、複数回記憶される。Google MLエンジンとGoogle Storageを使用してトレーニング用の多数の画像を保存するベストプラクティス
代わりに、各画像を個別のファイルとして保存し、URLのフラットなリストを使用して、さまざまなデータセットの画像のメンバーシップを示すことができます。しかし、私の経験に基づいて、Google Storageは多数の小さなファイルを読み込むために最適化されておらず、トレーニングスループットが低くなっています。
良いスループットを達成しながら複数の画像を複数回保存しないようにする方法があるかどうかを確認したいと思います。
ちょうどよく分かりますが、与えられた画像のサブセットを選択する能力が必要なので、1つのファイルでトレーニングを設定する必要はありませんか? – MarkCutajar
@MarkCutajarそうですね。それ以外の場合は、各データセットの大きなトレーニングデータファイルを生成するために何時間も費やさなければなりません。 – mr49