私は、5000列と5,000,000行の巨大なcsvファイルを持っています。このファイルにはまったく同じ列がいくつかあることがわかります。私はそのような列を特定したい。私はこの巨大なファイルをメモリに取り込むことができないので、ランタイムも重要です。巨大なcsvファイルで類似の列を検索
-2
A
答えて
1
まったく同じですか?
ハッシュ関数で検証できるとします。
ステップ1 - 最初の行の5,000の値を読み込み、5000のハッシュ値を計算できます。対応する値のない値(列)を除外します。
ステップ2 - 値をロードし(残ったカラムのみ)、前のハッシュとロードされた値の連結のハッシュを計算します。対応する値のない値(列)を除外します。
手順は次のとおりです。手順2:ロードと連結/ハッシュ、一致する列を除外します。
+0
私はbashで提案に従い、各列に対してハッシュを計算しました。 forループで次のコマンドを実行します。ハッシュ= $(tail -n + 2 train.csv | cut -d '、' -f $ i | sha256sum) – Mojtaba
関連する問題
- 1. R検索類似類似度スパース行列
- 2. 巨大な.csvファイルを読む
- 3. 巨大なcsvファイルを扱う
- 4. 巨大なCSVファイルの高速grep
- 5. 2つのCSVファイルを比較して類似のアイテムを検索する
- 6. 類似検索と意味検索
- 7. 巨大なテキストファイルを検索する
- 8. 類似の受注をSQLで検索
- 9. 巨大なファイルを検索して文字列を検索する効率的な方法は何ですか?
- 10. 巨大な多次元行列の効率的な検索
- 11. 巨大な短い文字列を検索する
- 12. IBM Watson:構造ファイル間で類似のパターンを検索
- 13. tsqlで類似の文字列を検索する
- 14. 巨大なXMLファイルを検証する
- 15. Android - ファジー/近似/類似の一致で連絡先を検索
- 16. クロップド類似画像の検索
- 17. 物理ユニットの類似検索
- 18. 検索用語の類似性スコア
- 19. 弾性検索一語の類似度
- 20. Ruby - 類似した単語のファイルを検索する
- 21. 巨大なCSVファイルから情報を取得するための巨大なXMLファイルの解析
- 22. 不明な行の長さを持つ巨大なファイルのバイナリ検索
- 23. Tableauで巨大なcsvファイルを操作する
- 24. sedで巨大なCSVファイルを操作する
- 25. Cで巨大なCSVファイルを読み取る
- 26. Pythonで巨大なCSVファイルを逐次読み込みます
- 27. 多くの巨大なcsvファイルの効率的なマージ
- 28. 類似の2つの文字列の検索
- 29. 巨大なリストに似た名前
- 30. 視覚的類似性検索アルゴリズム
これらすべてのタグとコードはありませんか? Pythonを追加して何かをコードすれば、あなたはいくつかの答えを得るかもしれません。 –
CSVをソートしておけば、同時に多くのメモリに保存する必要はありません – andlrc