3

で実行されていません。 :バッチを実行することができなかった.... 今、私は私が取得していますエラーがログからグーグルmlのエンジンのスケール層は、リモート分散訓練

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error. 

ある

シンプルSINGLE NODE「スケールティア= BASIC」と

gcloud ml-engine jobs submit training census_20171005_162623 
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job- 
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ -- 
region us-central1 -- --train-files 
gs://cloudml-public/census/data/adult.data.csv --eval-files 
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000 
--eval-steps 100 
を実行することができます

gsutilの例外コマンドの後に再試行 '[' gsutilを」、 '-q'、 'C​​P'、
u'gs:// dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/TRAI NER-0.0.0.tar.gz」、 u'trainer-0.0.0.tar.gzは、 ']'「マスターが正常に初期化し、パッケージをcopuedんでした。1.

ゼロ以外の終了ステータスを返しましたtrainer-0.0.0.tar.gz " しかし、実行のために複製をコピーしているときに問題が発生しました。 MLワークフローがレプリカでクリーンアップを処理できませんでした.... レプリカが実行前にジョブディレクトリ "gs:// dextest/census_20171005_162623"を再度クリーニングしようとしました。

エラーがマスターコピー後にレプリカを実行するためのパッケージを拾うに失敗したパッケージと が起こりました。

I CommandException:いいえURLが一致: GS:gsutilの例外コマンドの後//dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz Eの再試行 '[' gsutilのを」、 '-q' 、 'cp'、 u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz '、 u'trainer-0.0.0.tar.gz'] 'はゼロ以外の終了ステータスを返しました1.
未定義

答えて

1

これはエラーの混乱から明らかです年齢(「レプリカワーカー1は非ゼロ状態1で終了しました。終了理由:エラー。」)に何らかのプログラミングエラー(構文、未定義な​​ど)があります。

チェックreturn code table

Return code -------------Meaning--------------- Cloud ML Engine response 

0 Successful completion Shuts down and releases job resources. 
1 - 128 Unrecoverable error Ends the job and logs the error. 

は、バグを見つけて、それを修正し、再度実行してください。あなたはクラウドに提出する前に、

私は(あなたの設定がサポートされている場合)ローカルであなたのタスクを実行することをお勧めします。バグが見つかった場合は、ローカルマシンで簡単に修正できます。

関連する問題