私はここでrの "大規模なデータプロセス"で比較的新しいです、どのように50 GBのcsvファイルを扱うかについてのいくつかのアドバイスを探してみたいです。r言語で50GBの大容量CSVファイルを扱うにはどうすればいいですか?
表のように見えている:現在の問題は、次のされ
ID,Address,City,States,... (50 more fields of characteristics of a house)
1,1,1st street,Chicago,IL,...
# the first 1 is caused by write.csv, they created an index raw in the file
私は、サンフランシスコ、カリフォルニア州に属するされたすべての行を検索したいです簡単な問題だと思いますが、csvが大きすぎます。
私は私は2つのRでそれを行う方法と、それを処理するためにデータベースを使用するための別の方法を知っている:
(1)RのFFDFパッケージを使用する:
ファイルが保存されている前回、それをwrite.csvを使用していて、すべての異なるタイプが含まれています。
all <- read.csv.ffdf(
file="<path of large file>",
sep = ",",
header=TRUE,
VERBOSE=TRUE,
first.rows=10000,
next.rows=50000,
)
コンソールは私にこれを与える:オンラインを通じて検索
Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered,
: vmode 'character' not implemented
、私は私の場合に適合していなかったいくつかの答えを見つけて、私は本当に「文字」を転送する方法を理解することはできません彼らが言及したように「因子」型に変換する。
次に、私はread.table.ffdfを使ってみましたが、これはもっと災害です。私はそれのためのしっかりしたガイドを見つけることができません。
(2)Rのreadlineの使用:
私は、これは別の良い方法です知っているが、これを行うためのeffecient方法を見つけることができません。
(3)使用するSQL:
私は、SQLのバージョンにファイルを転送する方法、そして私が試してみたいと思います良いガイドがある場合は、これを処理する方法を確認していません。しかし、一般的には、私はRに固執したいと思います。
お返事ありがとうございました!
[この回答](http://stackoverflow.com/questions/23197243/how-do-i-read-only-lines-that-fulfil-a-condition-from-a-csv-into- r)が助けます。 –
v。類似の静脈に^^リンクするhttp://stackoverflow.com/questions/26861951/using-read-csv-sql-to-select-multiple-values-from-a-single-column – user20650
病気チェックアウトありがとう! – windsound