複数の大きなファイルを重複排除します。問題は、これらのリストは非常に長く(合計50億レコード)、私は各リストをユニークにする問題があるということです。私はファイル名を保持したいと思いますが、同時に、すべてのファイルにユニークなエントリを持っています(マージせずに)。私は単語を含む少なくとも500個の異なるファイル(別の行の各単語)を有する
は、これまでのところ私は運がなくて、テーブル内で一意の列(PostgreSQLとSQLiteの)とapp.mergeとCCR、DBなどのさまざまなプログラムを試してみました。信頼できる解決策が見つからない。あなたの提案は何でしょうか?
EDIT:ファイルが一般的な単語を持つことを防止しようとしています。 (これを取る自体ははるかに大きいですもちろんファイル
f1:
word1
other
something
f2:
word2
f3:
myentry
を:私は見ることを期待したい結果
f1:
word1
other
something
f2:
word2
word1
other
f3:
word1
something
myentry
:より良いそれを説明するには、のは、私は以下の内容を含む、3つのファイルを持っているとしましょう1つは例として:http://md5decrypt.net/Telecharger-wordlist/Md5decrypt-awesome-wordlist.7z)。 - 「私はこれまでのテスト何の質問に答えるためにも、ここで私は今働いている私のコードです:https://pastebin.com/Y8HutakUを、ここ(ランニングの1時間後に停止)の結果である:https://pastebin.com/tknve7qA。私はコードが最適ではないことを知っています.DBが次第に増えていくにつれ、DBへの次の挿入に時間がかかります。私はそれが(私はなどを比較して、別のワードリストをダウンロードした場合)のファイル名を保存し、将来の使用のための比較です方法を持っている、ユニークなすべての単語を持つための良い解決策になると思うので、私は、DBを試しています。プラスSQLiteのパフォーマンスについての良いwriteupsがあります:あなたがLinuxシステム上なら
- http://www.sami-lehtinen.net/blog/sqlite3-performance-testing
- https://sites.google.com/site/samilehtinenps/blog/sqlite3-python32-100-million-rows-1-million-row-read-write-test
2つのファイルに共通の単語が含まれないようにするか、各ファイルの単語がそのファイル内で一意であることを確認しようとしていますか?後者の場合、ファイルの数や単語の総数は何故問題なのですか?また、他のソリューションには何が問題になりましたか? –
私は、どのファイルにも共通の単語が含まれないようにしようとしています。 – zerocool
各ファイル内のすべての単語はすでにユニークなので、合計いくつの異なる単語があなたにあると思いますか? –