1
Dataflow/Apache BeamにParDo
とFlatMap
の違いがありますか?Apache BeamのParDoとFlatMap?
私は両方とも入力PCollection
の各要素に関数を適用し、iterableを返すと思います。私はいくつかの違いがなければならないと思いますか?
Dataflow/Apache BeamにParDo
とFlatMap
の違いがありますか?Apache BeamのParDoとFlatMap?
私は両方とも入力PCollection
の各要素に関数を適用し、iterableを返すと思います。私はいくつかの違いがなければならないと思いますか?
FlatMap
は、より簡単な操作built as you might expect from ParDo
です。これがあなたのニーズに合っているなら、それは良い選択です。
ParDo
は、追加side inputs、multiple output collections、access to the current windowのような機能、要素のバンドルを開始し、コミットするためのいくつかの本当に低レベルのコールバック、そしてより多くを持っている要素単位の計算の下位レベルのビルディングブロックです。
実際には、FlatMap
とParDo
の多くの用途が同様のコード一括で終わっていますが、私の意見では、最も単純な(最高レベルの)変換を使用するのが最も読みやすいです。
ありがとうございます。 FWIWのPythonの例では、サイド入力がある「FlatMap」が使用されています(https://beam.apache.org/documentation/programming-guide/)。あなたの提案として他人のための 'ParDo' – Maximilian