2017-04-13 8 views
0

YouTube-8m Challenge codeで定義されたモデルの分散トレーニング用にClusterSpecを投稿できますか? The codeは、TF_CONFIG環境変数からクラスタ仕様をロードしようとします。しかし、私はTF_CONFIGの価値がどんなものであるべきか分かりません。私は1台のマシンで2つのGPUにアクセスでき、データレベルの並列性を備えたモデルを実行したいだけです。Distributed YoutTube-8mチャレンジトレーニングのクラスタスペックはどのように記述しますか?

答えて

0

あなたが分散してYouTubeの8メートルのチャレンジコードを実行したい場合は、YAMLファイルを記述する必要があります(Googleが提供する例のYAMLファイルがあります)、その後、あなたは、このYAMLファイルの場所に位置してパラメータとして渡す必要があります。 TF_CONFIGは、モデルをトレーニングするために使用される構成変数を参照します。

例えば、グーグル上で実行するために分散的に起動コードを曇らせる、私が使用している:

JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S); gcloud --verbosity=debug ml-engine jobs \ 
 
submit training $JOB_NAME \ 
 
--package-path=youtube-8m --module-name=youtube-8m.train \ 
 
--staging-bucket=$BUCKET_NAME --region=us-east1 \ 
 
--config=youtube-8m/cloudml-gpu-distributed.yaml \ 
 
-- --train_data_pattern='gs://youtube8m-ml-us-east1/1/frame_level/train/train*.tfrecord' \ 
 
--frame_features=True --model=LstmModel --feature_names="rgb,audio" \ 
 
--feature_sizes="1024, 128" --batch_size=128 \ 
 
--train_dir=$BUCKET_NAME/${JOB_TO_EVAL}

パラメータの設定はYAMLファイルcloudml-gpu-を指しています

trainingInput: 
 
    runtimeVersion: "1.0" 
 
    scaleTier: CUSTOM 
 
    masterType: standard_gpu 
 
    workerCount: 2 
 
    workerType: standard_gpu 
 
    parameterServerCount: 2 
 
    parameterServerType: standard
:以下の仕様にdistributed.yaml

関連する問題