大きなファイル(11GB +)から特定の行を読み込むのにどれくらい時間がかかるかに驚いています。例:大きなファイルから特定の行を効率的に読み込むR
> t0 = Sys.time()
> read.table('data.csv', skip=5000000, nrows=1, sep=',')
V1 V2 V3 V4 V5 V6 V7
1 19.062 56.71047 1 16 8 2006 56281
> print(Sys.time() - t0)
Time difference of 49.68314 secs
OSX端末は特定の行を瞬時に返すことができます。誰でもRでより効率的な方法を知っていますか?
し、それらを捨て、実際にラインを解析し、Rに読み込む 'readLines(ファイル、スキップ)'を呼び出しますread.table' 'ので、それは非効率的です。もっと効率的になるためには、十分な改行が見えるようになるまで(そして、バッファリングを速くするために適切に使用する必要がある)まで、接続を通して 'seek()' dするCコードを正しく書かなければならないと思う。 – hadley