2016-08-24 16 views
10

テンソルフローでInception modelを実行するのにnvidia GTX1080 gpu(8GB)を使用しています。プログラムを起動した後、batch_size = 16とimage_size = 400に設定したときにubuntu14を実行します。 04が自動的に再起動されます。テンソルフローモデルが大きすぎるとシステムが自動的に再起動する

+0

問題の原因と思われる値であるbatch_sizeとimage_sizeを追加して、関連する回答を得ることができます。 – fvu

+0

システム構成は何ですか? – titus

+0

テンソルフローは、再起動システムではなくメモリ不足エラーを発生させるはずです。 – suiyuan2009

答えて

1

電源装置の問題ではないことを確認してください。私は私の開発マシンで偶発的なリブートを観察していました。入力のサイズ(バッチサイズ、NNの大きさ)を増やしていたので、再起動の割合も増加していました。 PSUの問題に変わりました。クイックチェックは、GPUの消費電力を制限し、この動作がなくなるかどうかを確認することです。たとえば、このコマンドで約150ワットの電力を制限することができます(あなたはsudoの権限が必要になります):

sudo nvidia-smi -pl 150 
0

は私が故障した電源ユニットまで問題を追跡しました。それは仕様に応じて十分な容量を持っており、 "nvidia-smi -pl 150"を実行することによってGPUの電力消費を制限することはまったく役に立たなかった。おそらく、電力消費のバーストを処理できませんでした。
とにかく、「Corsel CX750 Builder Series ATX 80 PLUS」から「Cooler Master V1000」に電源を切り替えた後、問題はなくなりました。 私の調査の詳細をTensorFlow GitHub issueでご覧ください。

0

十分な電力(WATTS)のPSUがある場合、GPUの電源設定を変更すると機能します。 GPUの(TITANX)パワーを最大に制限しました。 200ワット使用して、

sudo nvidia-smi -pl 200 

注:各GPUは、例えばため、電力制限を有しますTITANXの電力制限は125W〜300Wです。だから、これらの制限の間に価値を与えることを確認してください。

関連する問題