私は次の問題があります。 APIを使用してデータを入力ストリームとして取得する場所に接続しています。 重複する行を削除した後にデータを保存することを目標としています。 列10,15,22で定義された重複。大規模データのJavaで重複を削除する
私はいくつかのスレッドを使用してデータを取得しています。 現在、私はまずcsvファイルにデータを保存し、次に重複を削除します。 私はデータを読んでいる間にそれをしたい。 データ量は約1,000万レコードです。 私は使用できるメモリが限られています。 マシンには32GBのメモリが搭載されていますが、それを使用する他のアプリケーションがあるため、私は限られています。
ここでは、ハッシュマップの使用について説明します。 しかし、私はそれを使用するのに十分なメモリがあるかどうかはわかりません。
この問題を解決する方法はありますか?
APIからの出力例がありますか?また、3つの列(10,15,22)の組み合わせによって定義された複製、またはこれらの各列は、他の列を参照することなく一意でなければなりませんか? –
apiの出力は、約30要素の = "banna"、= "orange"、 "apple"などのような文字列です。 これらの列の組み合わせがキーです。 – mikeP