1
私は、postgresqlデータベースに格納されている30億の文字列を持っています。周波数マップを作成して、100回未満または10万回以上発生する文字列を破棄することができます。どのような種類のデータ構造を使用する必要がありますか?私はある種のブルームフィルタを考えています。数十億の文字列のカウント頻度
私は、postgresqlデータベースに格納されている30億の文字列を持っています。周波数マップを作成して、100回未満または10万回以上発生する文字列を破棄することができます。どのような種類のデータ構造を使用する必要がありますか?私はある種のブルームフィルタを考えています。数十億の文字列のカウント頻度
HyperLogLogを使用すると、小さなメモリフットプリントでマルチセットのカーディナリティを推定できます。
ここには、HyperLogLogのJava実装であるjava-hllを使用するexampleがあります。あなたがjavaがあなたのために働かないなら、あなたは他の言語での実装のためにgithubを検索します。
また、standalone implementationを使用することもできます。