2017-01-23 16 views
0

外部レート制限付きのAPIからデータを取得するGoogle DataFlowのステップがあります。レート制限に従うために固定数の労働者の間でデータを均等に分割する方法はありますか? (その数でレート制限を分けるために労働者の数を知る必要があります)。Google DataFlow - 固定数の従業員

答えて

1

これに対する答えは、パイプラインは、バッチまたはストリーミングランナーを経由して実行されているかどうかによって異なります。

バッチ:所望の値にnumWorkersとmaxNumWorkersを設定する以外にも、このための直接的な制御を。これは、あなたが

ストリーミング速度制限したいだけではなく、ステージ、しかしパイプライン全体に影響を与えます:UnboundedSource APIは、あなたが正確にパラレル入力の数はあなたがgenerateInitialSplits()呼び出しで欲しい分割指定できます。次に、各分割はそれ自体のローカルレート制限に従うことができます。

+0

私のパイプラインでは、API呼び出しが最初のステップであり、おそらく最も遅いので、バッチメソッドは多すぎる問題を作成することなく動作するでしょう。私はそれを試して、それがどうなるかを見てみましょう。 –

関連する問題