私はいくつかの(1-5)非常に広い(〜50,000列).csvファイルを持っています。ファイルサイズは(.5GB〜1GB)(平均サイズは約500MB)です。あらかじめ指定された列のファイルに対して結合を実行する必要があります。もちろん、効率性が重要です。複数の結合列を効率的に使用できるようにスケールアウトできるソリューションは、現在は必要ありませんが、ボーナスです。ここに私の入力は、次のとおりです。C/C++を使用して、巨大なcsvファイル(1000×1000行)を効率的に結合するにはどうすればよいですか?
-Primaryファイル
- セカンダリファイル(複数可)
プライマリファイル(名前またはCOL位置。)二次ファイルの-join列の
-join列(名前または列の位置)
-Left JoinまたはInner Join?マルチファイルの結果と
出力= 1つのファイルは、私はCベースの言語を使用して問題を解決するために探していますが、もちろんアルゴリズムのソリューションはまた、非常に参考になる
参加します。
"Yikes"は私がこの1人に貢献できるものです... – Alex
これを行うC++実装が既にあります:http://code.google.com/p/csvfix/ソースはダウンロード可能です。 – Cheesebaron
あなたのCSVがシンプル(クォートなし、コンマがない)でLinuxの世界にいるなら、おそらくCコードを書く必要がないので、カット、ペースト、ソートすることができます。 – Arkadiy