スパークストリーミングでreduceByKeyを実行する方法

Sparkストリーミング用Python APIのtextFileStream()メソッドを使用して、XMLファイルを作成して読み込み、XML ElementTreeにマップし、 ElementTreeの要素「interesting」とflatMapを辞書（key：value）に追加した後、reduceByKey()を実行して各キーの集計を集計します。スパークストリーミングでreduceByKeyを実行する方法

したがって、キーが文字列ネットワーク名である場合、その値はパケット数である可能性があります。減らすと、私は辞書にある各ネットワーク（キー）の総パケット数を残しています。

私の問題は、この問題をストリーミングすることです。実行中の合計を保持する代わりに、毎回計算を再計算します。私はそれが私のためのパラダイムな問題だと思うが、誰かが私にこのアナリティクスを正しく流すのを助けてくれるのではないかと思う。

出典

2017-07-25 jkovba

これまでに試したことを正確に再現できる例を提供してください – desertnaut

解決策は、updateStateByKeydocです。これにより、前のステップの結果を現在のステップのデータにマージすることができます。つまり、RDD全体を保存したり、データが受信されるたびに再計算したりすることなく、実行中の計算を維持することができます。

出典

2017-07-25 17:14:36 jkovba

スパークストリーミングでreduceByKeyを実行する方法

答えて

関連する問題