私は約12ギガバイト相当のつぶやきを含むテキストファイルを持っており、このデータセットをキーワードで検索する必要があります。これを行う最善の方法は何ですか?私は例えば、私はPythonで各テキストファイルを経由するスクリプトのいくつかの並べ替えを行い、場合私のコンピュータは非常に大きなデータセットを検索する最良の方法は?
-2
A
答えて
0
あなたがしたい場合は、ファイルを扱うことができるとは思わないのJava、Pythonの、R.に泊まっ
すべてのファイルを一度見る必要があるため、コンピュータがその負荷を取れない場合は、正確にさよならを言う。別のアプローチは、正確なものよりも高速ですapproximation algorithmsを使用することが、精度を失うことを犠牲に来ます。
これから始めるといいでしょう。トピックはあまりに広すぎてここから続けることができないので、私はここで答えを止めます。
1
"ああ、Pythonやその他の言語は、もっとも確実に行うことができます。"数秒かかるかもしれないが、仕事は終わるだろう。私はあなたの問題に対する最善のアプローチが「まっすぐ」であることを提案します。一度に1行ずつファイルを処理するスクリプトを作成します。
「12ギガバイト」は私たちにとって驚くほど多く聞こえますが、現代のマシンではです。実際にはそれほど大きくはありません。
必要に応じてメモリ内にハッシュ(連想配列)を構築します。一般に、データベース操作(「SQLite」データベースファイル以外の場合は...)は避けてください。しかし、「インデックス付きファイルストレージ」が必要な場合は、SQLiteは素晴らしいツールです。
。 。 。非常に重要な注意点が1つあります。「SQLiteを使用しているときは、トランザクションを使用していますが、読んでいてもです。デフォルトでは、SQLiteはすべての書き込みを物理的にコミットし、ごとに物理的にコミットします。がトランザクションに参加している場合を除きます。次に、それだけで、それはあなたがそれがいつも期待していたかもしれないので、「怠惰な読み書き」になります。 (そして、「吸盤のf-a-s-t ...!」)
関連する問題
- 1. Javaで大きなデータセットを保存して検索する最良の方法
- 2. 非常に大きなCSVデータセットをd3にロードする方法
- 3. 大きなデータセットをmysqlにインポートする最も良い方法
- 4. 大きな検索可能なテキストファイルを保存する最良の方法
- 5. Javascript、大規模な非常に大きなテーブルをDOMに追加する最良の方法
- 6. 大きなデータセットの不良レコードをドリルダウンする方法は?
- 7. Reduxと非常に大きなデータセットとIndexedDBを統合する方法
- 8. 非常に大きな配列(ルックアップテーブル)を定義する最良の方法は何ですか?
- 9. 非常に大きな辞書の最大鍵を得る方法
- 10. 非常に大きなファイル内の辞書を効率的に検索する方法はありますか?
- 11. 大規模なデータセットをOracle SQLデータベースにインポートする最も良い方法は?
- 12. 大きなテキストの巨大なリストを検索する最速の方法
- 13. sparkでxmlファイルの非常に大きなデータセットを読む
- 14. 非常に大きな数値を保存する方法は?
- 15. 最大値の検索方法は?
- 16. クロスフィルタ - 最小/最大の検索方法
- 17. java:最良の「検索方法」
- 18. 2つの非常に大きなベクトルをプロットする方法
- 19. オンラインデータベースを検索可能にする最も良い方法は?
- 20. GitHubを検索する最良の方法は何ですか?
- 21. MongoDB:非常に頻繁な用語を検索するときにスローテキスト検索
- 22. 大きなデータセットでangularjsを使用して動的検索を最適化する方法
- 23. 大きなデータセットのRでのループ、より良い方法?
- 24. scikit-learnを使用して非常に大きなデータセットをトレーニング/アップスケールする方法はありますか?
- 25. 非常に大きなテーブルのストレージサイズを最適化する
- 26. 非常に大きなMySqlデータベースを管理する方法
- 27. ココアで非常に大きなスクロールビューを実装する方法
- 28. 非常に大きなリストを操作する方法
- 29. 非常に大きなテーブルを構成する方法
- 30. 非常にグラフィカルなカスタムコントロールを作成するための最良の方法