googleクラウドml-engineでcannned DNNClassifier推定を使用してモデルをトレーニングしようとしています。Tensorflow Canned Estimatorの問題は、Googleクラウドクラスのエンジンで複数のワーカーで実行されています
モデルをローカルおよび分散モードで正常にトレーニングすることができました。さらに、提供されたBASICおよびBASIC_GPUスケール層を使用して、クラウド上でモデルを訓練することができます。
私は自分のカスタム設定ファイルを渡そうとしています。ワーカー、パラメータサーバに言わずにconfigファイルに "masterType:standard"と指定した場合、ジョブは正常に実行されます。私は労働者を追加してみてくださいたび
はしかし、ジョブは失敗します。ここでは
trainingInput:
scaleTier: CUSTOM
masterType: standard
workerType: standard
workerCount: 4
は、私は(私は、ステージングバケツに言及せず、同じエラーが出る)ジョブを実行する方法である:
SCALE_TIER=CUSTOM
JOB_NAME=chasingdatajob_10252017_13
OUTPUT_PATH=gs://chasingdata/$JOB_NAME
STAGING_BUCKET=gs://chasingdata
gcloud ml-engine jobs submit training $JOB_NAME --staging-bucket "$STAGING_BUCKET" --scale-tier $SCALE_TIER --config $SIMPLE_CONFIG --job-dir $OUTPUT_PATH --module-name trainer.task --package-path trainer/ --region $REGION -- ...
私のジョブログはジョブが0以外のステータスで終了したことを示します。ワーカーレプリカ-3の次のエラーが表示されます。
Command '['gsutil', '-q', 'cp', u'gs://chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199/trainer-0.1.tar.gz', u'trainer-0.1.tar.gz']' returned non-zero exit status 1
Iveは私のバケット(gs:// chasingdata)をチェックしました。エンジンによって作成されたディレクトリchasingdatajob_10252017_13が表示されますが、トレーナー0.1.tar.gzファイルはありません。言及するべきもう一つのことは - 私は "tensorflow == 1.4.0rc0"をPyPiパッケージとして私のsetup.pyファイルのクラウドに渡しています。私はこれが問題の原因だとは思っていませんが、とにかくId氏が言及したと思いました。
このエラーが発生する理由はありますか?誰かが私を助けてくれますか?
おそらく私は何か愚かなことをしています。私はこのために(不満足に)答えを見つけようとしました。
ありがとうございます!
あなたはディレクトリのリストを提供することができます: 'gsutilのLS -l -h GS:// chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199' – rhaertel80
確かに。ここでは、次のとおりです。 '...角速度ベクトル-181314 @:〜$ gsutilのLS -l -h GS:// chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199' CommandException:1つの以上のURLが何のオブジェクトと一致しました。 – MarquesDeCampo
そして '... @ angle-vector-181314:〜$ gsutil ls -l -h gs:// chasingdata/chasingdatajob_10252017_13' 0 B 2017-10-25T19:25:10Z gs:// chasingdata/chasingdatajob_10252017_13/ 77.55 KiB 2017-10-25T19:25:10Z gs://chasingdata/chasingdatajob_10252017_13/events.out.tfevents.1508959510.master-5252b8c60b-0-d522f 合計:2つのオブジェクト、79410バイト(77.55 KiB) – MarquesDeCampo