2017-12-29 19 views
0

クラウドでモデルトレーニングを実行します。私は花のデータセットに基づいてモデルを訓練するためのサンプルコードを実行するthis linkに従っています。チュートリアルでは、4つの段階で構成されていますgoogleクラウドmlでモデルトレーニングを実行中にエラーが発生しました

予測ためのモデルを展開し、使用してクラウド
  • クラウド
  • 実行モデルトレーニングの訓練や評価データを前処理、あなたのクラウドストレージバケット
  • を設定

    ステップ1と2は完了できましたが、ステップ3ではジョブは正常に送信されましたが、何らかのエラーが発生してタスクが終了ステータス1で終了します。

    Error logs during model training

    拡大ログのスクリーンショットは以下のとおりです。

    Expanded error logs

    私は、次のコマンドを使用:事前に

    gcloud ml-engine jobs submit training test${JOB_ID} \ 
        --stream-logs \ 
        --module-name trainer.task \ 
        --package-path trainer\ 
        --staging-bucket ${BUCKET_NAME} \ 
        --region us-central1 \ 
        --runtime-version=1.2 \ 
        -- \ 
        --output_path "${GCS_PATH}/training" \ 
        --eval_data_paths "${GCS_PATH}/preproc/eval*" \ 
        --train_data_paths "${GCS_PATH}/preproc/train*" 
    

    感謝を!

  • 答えて

    0

    入力ファイル(eval_data_pathsとtrain_data_paths)が空でないことを確認できますか?また、問題がまだ解決していない場合は、という問題を提出してください.Githubで問題を処理しやすくなっています。

    0

    私は同じ問題を抱えており、理解できなかった場合、thisに続き、git cloneから再度実行し、gcsで実行した後にエラーは発生しませんでした。

    0

    それはあなたには、いくつかのプログラミングエラー(構文、未定義な​​ど)を持っているあなたのエラーメッセージ

    The replica worker 1 exited with a non-zero status of 1. Termination reason: Error 
    

    から明らかです。

    詳細については、-------------意味--------------クラウドMLエンジンreturn code and meaning

    リターンコードをチェックしてください応答

    0正常終了ジョブリソースをシャットダウンして解放します。

    1-128回復不能なエラージョブを終了し、エラーを記録します。

    最初にバグを見つけて修正してから、やり直してください。

    クラウドで送信する前に、(設定がサポートしている場合)あなたのタスクをローカルで実行することをお勧めします。バグが見つかった場合は、ローカルマシンで簡単に修正できます。

    +0

    はいHafizur、あなたは正しいですが、私はこの問題を解決しました。トレーニングスクリプトは私のローカルシステム上で完璧に動作していましたが、クラウドプラットフォーム上で動作させるためにスクリプトを少し変更しなければなりませんでした。 –

    関連する問題