なぜクラウドデータフローは自分のデータがある場所とは異なる地域のワーカーを実行しますか？

Googleのビジネスの潜在的な分析プラットフォームとしてのGCPの評価では、私はCloud StorageバケットをEUに配置するように設定しました。 BigQueryデータセットをEUにも配置するように設定しました。しかし、データを前者から後者に移動するCloud DataflowサービスでETLジョブを実行すると、ログに次のメッセージが表示されます。なぜクラウドデータフローは自分のデータがある場所とは異なる地域のワーカーを実行しますか？

ワーカー構成：n1-standard1 in us-central1- F

別にに関するパフォーマンスと待ち時間が発生する技術的な質問から、私はまた、処理のために、米国のデータセンターへのラウンドトリップEU内に収まるように必要なデータを持っていることの法的側面が心配です。

DataflowPipelineRunnerオプションでワーカーの場所を指定することはできません。私は自分のデータが動かないと仮定できるかどうかについては、Data Processing and Security Termsには意味がありません。

クラウドデータフローは、どこに格納されているか、またはどこに運ばれているかに関係なく、便利な場所のどこにでもデータを地理的に処理することが期待されますか？ documentationによると

出典

2016-03-29 ivarg

：

データフローサービスは、デフォルトでは、ゾーンus-central1-fにCompute Engineのリソースをデプロイします。パイプラインの作成時に--zoneオプションを指定すると、この設定を無効にすることができます。

このオプションはDataflowPipelineWorkerPoolOptionsで宣言されています。

出典

2016-03-29 21:02:37 jkff

ありがとう、明らかに私は十分にドキュメントを読んでいなかった。ちょっと不思議ですが、データが存在する地域にデフォルト設定されません。 – ivarg

なぜクラウドデータフローは自分のデータがある場所とは異なる地域のワーカーを実行しますか？

答えて

関連する問題