意味のある方法で順序付けられていない比較的大きな(数百MBの)CSVファイルから重複した行を効果的に削除しようとしています。私はこれを行う手法を持っていますが、それは非常に力強いものです。私はモエがエレガントでより効果的な方法があると確信しています。効果的にPythonのCSVから重複を削除する
答えて
重複を削除するには、前に行が見えたかどうかを知らせる何らかの種類のメモリが必要です。いずれかの行またはおそらくそれらのチェックサム(はほぼ ...) のような解決策は、おそらく "ブルートフォース"の感触を持つでしょう。
行を処理する前にソートすることができれば、タスクは互いに重複しているのでかなり簡単です。
ありがとう、私は実際にSQL Serverのvarcharsにダンプし、SQLに固有の行を返すようにしました。それはブルートフォースでしたが、うまくいきました。 – TimothyAWiseman
次の例では、CSVから取得した行がリストのリストになることを前提としています。あなたは、あなたが、複製DEいるもの基づいて決定する必要があります(つまり、どの列)以下の例では、それが最初の列です(x[0]
)
def dedup(seq):
""" De-duplicate a list based on the first member of the sublist
"""
seen = set()
seen_add = seen.add
return [x for x in seq if
x[0] not in seen
and not seen_add(x[0])]
ありがとうございましたが、これはライン全体のユニークさを見ていました(本質的にフルラインのみが鍵を盗んだだけです)、私は文字列全体の一意性を探していました。あなたのテクニックは特定の状況ではうまくいくはずですが、これらのファイルは大きすぎるため、私が使用している低電力マシンではメモリ上の問題が発生しませんでした。 – TimothyAWiseman
- 1. 結果から重複を削除
- 2. csvから重複した行を削除する[ヘッダ+コンテンツ]
- 3. LINQの結果から重複を削除する
- 4. Apache POIが複数の列を効果的に削除する
- 5. Unix削除2列に基づいてcsvから重複行
- 6. python pandas重複を選択的に削除する方法
- 7. CSVから重複を削除しても列ヘッダーを保持
- 8. Pythonの問題リストから重複を削除する
- 9. redditの著者から重複を削除するpython
- 10. TStringListから重複を削除する
- 11. ステージングファイルから重複を削除する
- 12. ドロップダウンリストから重複を削除する
- 13. sqlの結果から重複を削除
- 14. リンクリストから重複を削除するPython
- 15. テキストファイルから部分的な重複を削除する
- 16. Pythonは重複をリストから削除しますか?
- 17. ローカルコンテキストから重複したエンティティを削除/削除する
- 18. ExcelのCSVから連続した重複値を削除するVisual Basic
- 19. は、PythonでCSVから行を削除
- 20. MYSQLテーブルからの重複を削除
- 21. Pythonは重複を削除します。
- 22. PythonでCSVファイルから複数の文字を削除するには
- 23. XSLTグループからの重複の削除
- 24. Xcodeから重複スキームを削除
- 25. Reactプロジェクトから重複を削除
- 26. データフレームから重複を削除
- 27. リスト(Of T)から重複を削除
- 28. 結果をグループ化して重複を削除するには
- 29. 削除重複
- 30. 重複の削除方法重複を削除しない
あなたは任意のコードを試してみましたか? – Dogbert
注文が重要でない場合は、私はちょうど良いol ''sort file |私の人生に乗ってください。 – Jacob
@cularis: 'sort -u file'は同じことをしませんか? –