私はVideoID-UserIDのキーと値のペアを持つdstreamを持っていますが、VideoIDによって異なるUserIDグループをカウントするのがよいでしょうか?上記のようにSpark Streaming - 状態の別の要素をカウントする
// VideoID,UserID
foo,1
foo,2
bar,1
bar,2
foo,1
bar,2
、私はいつでも冗長foo,1
とbar,2
を除去することにより、動画ID-CountUserIDを取得したいので、結果は次のようになります。つまり
foo: 2
bar: 2
、私は大きなを保持したいですメモリ内の状態データセット。新しいバッチのdstreamが到着すると、それをデータセットと比較して、すべてのビデオの異なるユーザーを数えます。
どうすればよいですか?
私はSpark 1.6で作業していますが、それ以降のバージョンの回答は受け入れられます。可能であればPythonコード。
お世辞になりました!今では、大きなデータセットをメモリに保持するのは良い方法ではないと思うので、ウィンドウ関数を使用して、代わりに期間内の別のものを数えます。ありがとうございました! –