2017-03-21 11 views
0

グーグルクラウドでの大規模なニューラルネットワークモデル(テンソルフロー)のトレーニングと評価。私はそれがコンテナのメモリ制限に関係していると思います大規模なテンソル、ドッカーの制限を処理するメモリのGoogleクラウド?

W Resource exhausted: OOM when allocating tensor with shape[38633472,17] 
W Ran out of memory trying to allocate 2.45GiB. See logs for memory state. 
    undefined 

:私のモデルを評価する際に

は、次のエラーを得ました。

これに関する助力はありますか?

+0

詳細をお知らせください。使用しているコンテナ、実行しようとしているモデルなど – Priyatham

+0

Google Cloudが使用しているコンテナがわかりません。私は単に「ml-engine jobs submit training」コマンドを実行します。私はかなり大きなロジスティックモデルを使用します。 – guyov

答えて

1

どれがscale tierと使用していましたか? OOMの場合、CUSTOMティアでより大きなマシンを使用しようとすることができます。

問題が解決しない場合は、プロジェクト番号とジョブIDを[email protected]に送信してください。

+0

私はBASIC_GPUとCUSTOMの両方の層を試しました。インスタンスのアボリュートメモリは指定しません。何らかの理由で、私はlarge_complex_modelインスタンスを使用することができませんでした。これは、ほとんどのメモリを持つようです... – guyov

関連する問題