2016-09-04 12 views
-2

私は、5000列と5,000,000行の巨大なcsvファイルを持っています。このファイルにはまったく同じ列がいくつかあることがわかります。私はそのような列を特定したい。私はこの巨大なファイルをメモリに取り込むことができないので、ランタイムも重要です。巨大なcsvファイルで類似の列を検索

+2

これらすべてのタグとコードはありませんか? Pythonを追加して何かをコードすれば、あなたはいくつかの答えを得るかもしれません。 –

+0

CSVをソートしておけば、同時に多くのメモリに保存する必要はありません – andlrc

答えて

1

まったく同じですか?

ハッシュ関数で検証できるとします。

ステップ1 - 最初の行の5,000の値を読み込み、5000のハッシュ値を計算できます。対応する値のない値(列)を除外します。

ステップ2 - 値をロードし(残ったカラムのみ)、前のハッシュとロードされた値の連結のハッシュを計算します。対応する値のない値(列)を除外します。

手順は次のとおりです。手順2:ロードと連結/ハッシュ、一致する列を除外します。

+0

私はbashで提案に従い、各列に対してハッシュを計算しました。 forループで次のコマンドを実行します。ハッシュ= $(tail -n + 2 train.csv | cut -d '、' -f $ i | sha256sum) – Mojtaba

関連する問題