私は(sensor_id, timestamp, data)
のデータセットを持っています(sensor_id
はIoTデバイスのID、タイムスタンプはUNIXタイム、データはその時の出力のMD5ハッシュです)。テーブルには主キーはありませんが、各行は一意です。スパーク:少なくともn個の共通属性を持つペアを見つけますか?
は、私は、彼らが同じタイムスタンプで同じデータを出射さn
異なる機会にそれらすなわち間の共通の(timestamp, data)
エントリこれら二つのセンサが、少なくともn
(n=50
)を有することsensor_id
S s1
などs2
のすべてのペアを見つける必要があります。
データの大きさの意味では、私は10Bの行と〜50Mの別のsensor_ids
を持っており、少なくとも同じタイムスタンプで同じデータを少なくとも50回送信した約5MのセンサーIDがあると私は信じています。
Sparkでこれを行うにはどうすればよいですか?私はさまざまなアプローチ(グループ(timestamp, data)
および/または自己結合)を試みましたが、複雑さが非常に高価です。
サンプルデータ、試行されたコード、予想される出力を追加できますか? – mtoto