クラウドMLエンジンで実行されているtfdbgツールの例は見つかりません。このpostは、テンソルフローセッションをデバッガでラップする方法を示していますが、デバッグモードでMLエンジンパッケージを実行する方法はありませんでした。誰かがこれを行う方法を見つけましたか?tfdbgをCloud ML Engineトレーニングジョブで実行できますか?
0
A
答えて
2
CloudMLエンジンは、対話型CLIデバッガをサポートしていません。
ただし、offline debuggerを使用することができます。あなたのケースでどのように動作させるかは、コードの構造に依存します。
コードが--job-dir
コマンドライン引数を受け入れるように書かれているとします。あなたの仕事を提出するときは、このようなものがあります:watch_fn
詳細について
export JOB_NAME=my_job
export JOB_DIR=gs://my_bucket/$JOB_NAME
gcloud ml-engine jobs training submit ... --job-dir=$JOB_DIR ...
# Start with this code.
from tensorflow.python import debug as tfdbg
# job_dir is on GCS and is passed on the command-line if you specify
# it when submitting your training job.
dump_dir = os.path.join(job_dir, 'tfdbg_dumps')
を、docsを参照してください。
コアTensorFlow(ユーザーが作成したセッション)
あなたがあなた自身のセッションを作成、すなわち、「コア」TensorFlow使用している場合は、そのような任意のtf.Sessionオブジェクトの構築を置き換えます:
sess = tfdbg.DumpingDebugWrapperSession(sess, dump_dir)
sess.run(fetches=my_fetches, feed_dict=my_feed_dict)
詳細はDumpingDebugWrapperSession docsを参照してください。
見積もりのAPI
あなたがlearn_runner
やExperiment
を使用している場合は、DumpingDebugHook
使用することができます。
experiment = Experiment(
...,
train_monitors =[tfdbg.DumpingDebugHook(dump_dir)],
...
)
learn_runner.run(experiment)
残念ながら、私は、LocalCLIDebugHook
を除いて、このようなtfdbg.has_inf_or_nan
などのフィルタを使用する方法を見ることができませんあなたはテンソルをオフラインで分析するだけです。
オフライン解析
データがGCSで利用可能になったら、提供offline_analyzer
実行可能モジュールを使用してダンプを調べることができます。
python -m tensorflow.python.debug.cli.offline_analyzer \
--dump_dir=$JOB_DIR/tfdbg_dumps/run_XXXXXXX
関連する問題
- 1. Google Cloud ML Engineからトレーニングモデルをダウンロードできますか?
- 2. Google Cloudのml-engineでtflearn.DNNを使用
- 3. Google-cloud-ml-engine内部エラー
- 4. Google CloudのCloud ML EngineとCompute Engineの違いは何ですか?
- 5. Google Cloud App Engine CronでPythonスクリプトを実行できません
- 6. Google Cloud MLトレーニングジョブを実行してもログに標準出力が表示されない
- 7. Cloud ML Engineトレーナーをクラウドで実行しているとき、Pythonバージョン3.6はサポートされていません
- 8. Google Cloud Compute Engineでpythonスクリプトを実行
- 9. Google Cloud Engine内でドッキングを実行中
- 10. GoogleクラウドMLへのトレーニングジョブの提出
- 11. rnn google-cloud-ml-engineにdata_utilsが見つかりません
- 12. Google Cloud MLエンジンでDistributed Tensorflowを実行するClusterSpec
- 13. Google App Engine **のフレキシブル**環境でWindows実行ファイルを実行できますか?
- 14. TensorFlowが起動するのを待っている間、Cloud MLトレーニングジョブが停止しました。
- 15. クラウドMLトレーニングジョブが一致するファイルを見つけることができません
- 16. gcloud ml-engineジョブを実行するときにアクセラレータが不十分なのはなぜですか?
- 17. TensorFlowのメモリリークGoogle Cloud MLトレーニング
- 18. MLエンジンでGoogle Cloud Storageライブラリをインポートできません
- 19. Google Cloud ML Tensorflowバージョン
- 20. gcloud ml-engine API
- 21. Google Cloud Platform App Engineスタートスクリプトから永久スクリプトを実行する
- 22. Spring Cloud Data FlowでSpring Cloud TaskのPartitioned Jobを実行できますか?
- 23. App Engine SDKをGAEで実行できますか?
- 24. Google Cloud PlatformのPythonアプリケーションでWebpackを実行できますか?
- 25. TensorFlow + cloud-ml:カスタムネイティブオペレーション/リーダをデプロイ
- 26. Google Cloud Compute EngineでのPythonスクリプトの実行
- 27. Google Cloud Engineでサービスを継続的に実行しています
- 28. Google Cloud MLタイムアウトへのリクエスト
- 29. google-ml-engineを使用して画像キャプションを予測できますか?
sess.runの代わりにlearn_runnerを使用して実験を行った場合、どのように修正されますか?これは別の質問の価値があるのでしょうか、どちらの場合もカバーするためにここで答えを更新するのが最善でしょうか? – reese0106
また、損失がNaNに分岐する理由をデバッグする場合は、watch_fnの例はtfdbg.has_inf_or_nanですか? – reese0106
答えを更新しました。 – rhaertel80