2017-10-26 5 views
0

googleクラウドml-engineでcannned DNNClassifier推定を使用してモデルをトレーニングしようとしています。Tensorflow Canned Estimatorの問題は、Googleクラウドクラスのエンジンで複数のワーカーで実行されています

モデルをローカルおよび分散モードで正常にトレーニングすることができました。さらに、提供されたBASICおよびBASIC_GPUスケール層を使用して、クラウド上でモデルを訓練することができます。

私は自分のカスタム設定ファイルを渡そうとしています。ワーカー、パラメータサーバに言わずにconfigファイルに "masterType:standard"と指定した場合、ジョブは正常に実行されます。私は労働者を追加してみてくださいたび

はしかし、ジョブは失敗します。ここでは

trainingInput: 
    scaleTier: CUSTOM 
    masterType: standard 
    workerType: standard 
    workerCount: 4 

は、私は(私は、ステージングバケツに言及せず、同じエラーが出る)ジョブを実行する方法である:

SCALE_TIER=CUSTOM 
JOB_NAME=chasingdatajob_10252017_13 
OUTPUT_PATH=gs://chasingdata/$JOB_NAME 
STAGING_BUCKET=gs://chasingdata 
gcloud ml-engine jobs submit training $JOB_NAME --staging-bucket "$STAGING_BUCKET" --scale-tier $SCALE_TIER --config $SIMPLE_CONFIG --job-dir $OUTPUT_PATH --module-name trainer.task --package-path trainer/ --region $REGION -- ... 

私のジョブログはジョブが0以外のステータスで終了したことを示します。ワーカーレプリカ-3の次のエラーが表示されます。

Command '['gsutil', '-q', 'cp', u'gs://chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199/trainer-0.1.tar.gz', u'trainer-0.1.tar.gz']' returned non-zero exit status 1 

Iveは私のバケット(gs:// chasingdata)をチェックしました。エンジンによって作成されたディレクトリchasingdatajob_10252017_13が表示されますが、トレーナー0.1.tar.gzファイルはありません。言及するべきもう一つのことは - 私は "tensorflow == 1.4.0rc0"をPyPiパッケージとして私のsetup.pyファイルのクラウドに渡しています。私はこれが問題の原因だとは思っていませんが、とにかくId氏が言及したと思いました。

このエラーが発生する理由はありますか?誰かが私を助けてくれますか?

おそらく私は何か愚かなことをしています。私はこのために(不満足に)答えを見つけようとしました。

ありがとうございます!

+0

あなたはディレクトリのリストを提供することができます: 'gsutilのLS -l -h GS:// chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199' – rhaertel80

+0

確かに。ここでは、次のとおりです。 '...角速度ベクトル-181314 @:〜$ gsutilのLS -l -h GS:// chasingdata/chasingdatajob_10252017_13/e476e75c04e89e4a0f2f5f040853ec21974ae0af2289a2563293d29179a81199' CommandException:1つの以上のURLが何のオブジェクトと一致しました。 – MarquesDeCampo

+0

そして '... @ angle-vector-181314:〜$ gsutil ls -l -h gs:// chasingdata/chasingdatajob_10252017_13' 0 B 2017-10-25T19:25:10Z gs:// chasingdata/chasingdatajob_10252017_13/ 77.55 KiB 2017-10-25T19:25:10Z gs://chasingdata/chasingdatajob_10252017_13/events.out.tfevents.1508959510.master-5252b8c60b-0-d522f 合計:2つのオブジェクト、79410バイト(77.55 KiB) – MarquesDeCampo

答えて

0

ユーザーコードには、既存のjob-dirを削除するロジックがあり、GCSでステージングされたユーザーコードパッケージも削除されました。そのため、遅く開始したワーカーはパッケージをダウンロードできませんでした。

同様の問題を避けるために、各ジョブに別々のジョブディレクトリを作成することをお勧めします。

+0

これは[census code](https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census)でも修正されていますのでご注意ください。 –

関連する問題