pandas.dataframe.duplicatedは、データフレーム内の指定された列全体で重複する行を検索するのに最適です。パンダを使用してメモリより大きいデータセットの重複行を取得する
しかし、私のデータセットは、メモリに収まるものよりも大きく(妥当な予算の範囲内で拡張した後に収まるものよりもさらに大きい)。
これは、データセット(csvとdbfファイル)をループして、各ファイルをそれ自身のメモリにロードしてすべてを順番に実行できるので、実行する必要のある解析のほとんどで問題ありません。ただし、重複分析では、データセット全体で重複を検出するのには適していませんが、単一ファイル内でのみ重複を検出することはできません。
複数のデータフレームにわたって重複を検出し、それらをすべて同時にメモリにロードする必要がないアルゴリズムまたはアプローチはありますか?
どの行の値をハッシュし、重複したハッシュ値を探してはどうですか? – AndreyF