重複ルールを定義:列の値は、私はのように行0および2を認識するための方法を探しています行1と3を切り替えるだけでなく、しているPythonは私が次の表持つ
index col_A col_B
0 John Jones
1 Perez Mark
2 Jones John
3 Mark Perez
4 Albert Perez
行0および2を行1と行3も重複として重複しています。次に、重複を削除して、一意的な出現のうちの1つだけを保持したいと思います。したがって結果の行列は3行2列(行4は重複がないため)でなければなりません。ネストされたループを使用せずにこれを行う効率的な方法はありますか(私のテーブルには3百万以上の行があります)?ありがとう
使用しているデータベースエンジンは? – youngminz
@youngminz:CSVファイルです –
これは効率的なアルゴリズムになります 1:すべてのデータをメモリに読み込み2:Sort col_A and col_B 3)データをソートする==> O(N log_2 N)4)重複を見つける==> O( N) – youngminz