2017-04-17 15 views
1

CNTKTextReaderを使用してトレーニングとテストのセットを読み込みます。列車のファイルが大きくなっています(現在は2.7 GB、すぐに大きくなります)。CNTKTextFormatDeserializerの概念とは何ですか?

「CNTKTextFormatDeserializer」は何か分かりません。私が見つけたドキュメントは、大きな画像が何であるかを説明していませんでした。私が見つけた文書は、その構文に入りました。

したがって、これらのファイルのバイナリバージョンを使用して、よりコンパクトにする方法ですか?

答えて

0

読者全員が、トレーニングの特定の側面を簡単にするための単なる方法です。それに提示されたデータは、ランダムな順序で来ているときSGDがより良い一般化:これらは

  1. ランダムが含まれます。読者はあなたのためにデータをランダムに並べ替えることができます。
  2. 分散訓練:分散訓練では、読者は複数の作業者を認識しており、明確なデータ塊を確実に受け取ることができます。
  3. メモリ予算の問題:リーダーは、トレーニングファイル全体をメモリにロードしません。
  4. 言語非依存I/O:リーダーは、データを読み取るクロスプラットフォームの方法を提供します。 (もしあなたがいつもPythonにしたいのであれば、これは気にしないかもしれませんが、他の人はそうするでしょう)。

CTF形式は少し冗長で、実際に最近追加されたbinary format deserializerがあります。

関連する問題