私たちは、任意の時間範囲(時間単位)にわたるアプリ内のユニークビジターについて報告したいユースケースを持っています。任意の時間範囲アナリティクスでユニークビジターをカウントしますか?
例:時間0で私たちは{A、B、C、D}の訪問者を追跡し、時間1では{C、D、E、F} 、B}、時間3では{A、C}とする。 1時間から3時間の間にユニークビジターが何人あったかを回答する必要があります。同時に、0時から3時などのユニークビジター数にも答えられるはずです。
もちろん、すべての一意の訪問者IDを保存することはできませんが、一定時間のBloomFilterを保存できます。
私は組合を計算するためにinclusion-excluclusionプロパティを使用する予定でしたが、フレームワークがあるかどうか、あるいは良い解決策があるかどうかを確認したいと思います。
ビッグデータテクノロジ:ハイブとスパーク、カフカとのhdfsセットアップがあります。
私の現在のソリューションでは、1時間ごとに新しい訪問者を前の時間と比較して計算する予定です。時間5のデータを処理する場合、次の計算を行う予定です。1.時間5のユニークビジター2.時間5の新しいビジター4.時間のない新しいビジター4.時間5の新しいビジター3と4時間など.... –
あなたはスパークストリーミングを見ているはずです。多くの[変換とウィンドウ操作]が組み込まれています(http://spark.apache.org/docs/latest/streaming-programming- guide.html#transformations-on-dstreams)を使用する必要があります。 –