私はDataStream
を持っており、その上でウィンドウ集計を計算する必要があります。通常のウィンドウ集約を実行すると、ネットワークIOは非常に高くなります。 ネットワークのIOを減らすためにローカル事前集約を実行したいと思います。Apache Flink:ローカル事前集計でウィンドウを計算するにはどうすればよいですか?
タスクマネージャにローカルに事前集計(つまり、レコードをシャッフルする前)してからフル集約を実行できるかどうかは疑問です。これはFlinkのDataStream APIで可能ですか?
私のコードは次のとおりです。
DataStream<String> dataIn = ....
dataIn
.map().filter().assignTimestampsAndWatermarks()
.keyBy().window().fold()
get、thank、Fabian – Chen