私は現在TensorFlow(CPU Version)のRnDに取り組んでいますが、大規模なデータセットのトレーニングのための私のシステムの基本的な要件を決定することができないか、TensorFlowライブラリのバグに遭遇する可能性があります。Lagging SystemまたはTensorFlowのバグ?
Official TensorFlow documentationでは、システムがTensorFlowプログラムをビルドして実行するための特定の要件はありません。私が理解できるところでは、それがWindows、Linux、Mac、Android、iOS、RaspberryPiのような組み込みシステムでも実行できるのであれば、同じハードウェア要件はないはずです。
最初の研究の過程で、私はTensorFlow Seq2Seqモデル(英語をフランス語に翻訳https://www.tensorflow.org/tutorials/seq2seq)を実行しようとしましたが、ここでトレーニングとテストのデータセットは、最初は約7〜8GBのディスクスペースと20〜22GB全体として。 translate.py pythonスクリプトが実行されると、メモリが窒息してディスク使用率がそれぞれ98%と100%になります。
現在のシステムでは、Windows 8.1の64ビットOS、2.2GHzで動作するCore i5 5200U、8GBのRAM、およそ70GBの空き容量(TensorFlowの使用に特化して割り当てられています)が実行されます。しかし、私のシステムが(他のアプリケーションを実行していない状態で)7〜8時間稼動させた後でも、データセットをトークン化した後、メモリ使用率が約100%になると、複数回スタックされます。
TensorFlowラーニンググラフがRAM内に作成されていて、すべてのメモリ空間に展開されると、プログラムはメモリがクリアされるのを待って終了しないループで終了し、学習グラフを大きくします。 3つの質問へのダウン
だから、全体のドリルは:
- んTensorFlowは、建物と学習のグラフを保存するためのRAMを使用していますか?もしそうなら、同様の方法で窒息する可能性はありますか?
- ビジネスの観点からは、そのようなシステムをトレーニングするための最小ハードウェア要件はありますか?
- システム要件ではない場合、TensorFlowライブラリのバグである可能性があります。このライブラリは、メモリがクリアされるのを待っているループにプッシュします。
更新
連続30時間以上のPythonスクリプトを実行した後、プロセスは「開発とトレーニングデータを読み込み」しながら、過去14時間に同じ場所で立ち往生しているようです。さらなる調査のために下の画像を参照してください。
これはバグではありません。20GBのデータセットでDeep Learningを実行するには、ご使用のコンピュータのRAMが少なすぎるようです。 GPUも考慮していません。 –
@MatiasValdenegro、あなたは学習グラフ作成プロセスについて少し詳しく教えていただけますか?それはRAMや他のどこかに作られていますか?そして、そのようなプロセスを実行するための最小限のシステム要件がありますか? – Cyberpks
RAMの場合は、最低限の要件を考えるべきではありません。タスクと忍耐に完全に依存するためです。 –