私はテンソルフローで1層のLSTMモデルを取得しました。トレーニングフェーズでGPUの温度がかなり高くなります。常に80℃から90℃の間で変化します。私のGPUは、水冷gtx 1080の「スーパークロック」版で、24時間365日の冷蔵室で使用されます。モデルは機能しますが、この温度は私を心配しています。 これが正常で安全であるかどうかを知りたいです。テンソルフローでLSTMをトレーニングすると、GPUの温度が88℃になる
私はトークン化されたredditコメントで次の単語予測の問題を練習しています。私はwildml.comのさまざまなチュートリアルからアイデアを得ました。ここではそれについていくつかの詳細です:
- Tensorflow 1.2.1、クーダは8.0 TK、Cudnn 6.0は、NVIDIAのドライバ375.66
- 私のトレーニングデータは、200件のKのredditのコメントで構成されています。
- マイ単語辞書は、私は私が私の入力を供給するためにプレースホルダを使用していないウィキペディアの言葉
- のGLOVE事前に訓練を受けた100の外形寸法埋め込みを使用して各予測のための分類の8000クラス
- を意味し、8000個の単語で構成されています。すべてのランダムシャッフルキューから100kの容量ランダムシャッフルキュー
- の例は、それは私が20
- のゼロpaddadedミニバッチを生成したパディングFIFOキューに進み、どの入力、TFRecordfilesリーダーで行われています20のサイズのミニバッチは私が気づいた私は(tf.sign使用して損失をマスク150
- の隠された次元でLSTM細胞とtf.dynamic_rnn()に行く)とアダム・オプティマイザ
で結果を最小限に抑えますミニバッチサイズを上げると温度が上がります。 1サイズのミニバッチ(単一の例)では、それは72〜75℃の間である.10サイズのミニバッチでは、直ちに78℃になり、78〜84℃の範囲にとどまる.20サイズのミニバッチでは、84 -88℃30サイズのミニバッチでは、87-92C
ミニバッチサイズを固定したまま、隠し寸法を200,250,300などに上げると、同様の温度上昇も得られます。
私は同じモデルを訓練しましたが、プレースホルダだけでデータを供給しました。つまり、TFRecord、キュー、ミニバッチを使用していません。それは約65Cのままですが、ネットを供給するためのプレースホルダーを使用することは、明らかに最適化されて理想的ではありません。
私はあなたの助けに本当に感謝しています、私はちょっと切実です、正直です。
-----------------
ウォータークーラーポンプは私のBIOS上でCPUの温度に応じて変わるように設定されていました...明らかにGPUの温度はそれに影響を与えず、何が起こったのでしょうか。容量の50%で動作していました。まあ、私はいつも100%を維持するために調整しました。そして今、同じモデルが約最大温度で動作します。 83 C.まだ完全ではありませんが、大きな改善です。私のモデルの複雑さ+私のGPUの1.8GHzという本当に高いクロックでは、私ができることはあまりありません。
奇妙な。水冷なしで80度以上は正常です。全負荷の下で水を冷却している私の980 Tiは〜42度にしか行きません。 –