2016-03-29 4 views
0

Googleのビジネスの潜在的な分析プラットフォームとしてのGCPの評価では、私はCloud StorageバケットをEUに配置するように設定しました。 BigQueryデータセットをEUにも配置するように設定しました。しかし、データを前者から後者に移動するCloud DataflowサービスでETLジョブを実行すると、ログに次のメッセージが表示されます。なぜクラウドデータフローは自分のデータがある場所とは異なる地域のワーカーを実行しますか?

ワーカー構成:n1-standard1 in us-central1- F

別にに関するパフォーマンスと待ち時間が発生する技術的な質問から、私はまた、処理のために、米国のデータセンターへのラウンドトリップEU内に収まるように必要なデータを持っていることの法的側面が心配です。

DataflowPipelineRunnerオプションでワーカーの場所を指定することはできません。私は自分のデータが動かないと仮定できるかどうかについては、Data Processing and Security Termsには意味がありません。

クラウドデータフローは、どこに格納されているか、またはどこに運ばれているかに関係なく、便利な場所のどこにでもデータを地理的に処理することが期待されますか? documentationによると

答えて

1

データフローサービスは、デフォルトでは、ゾーンus-central1-fにCompute Engineのリソースをデプロイします。パイプラインの作成時に--zoneオプションを指定すると、この設定を無効にすることができます。

このオプションはDataflowPipelineWorkerPoolOptionsで宣言されています。

+0

ありがとう、明らかに私は十分にドキュメントを読んでいなかった。ちょっと不思議ですが、データが存在する地域にデフォルト設定されません。 – ivarg

関連する問題