2016-07-04 2 views
0

rhdfsライブラリを使用してRからいくつかのHDFSファイル(csv text)を読み込もうとしています。私は次のコードを使用しています:rhdfsライブラリでHDFSを読むときのサイズの問題

hdfs.init() 
f = hdfs.file(hdfspath,"r") 
m = hdfs.read(f) 
> object.size(m) 
131112 bytes 

私はHDFSから読み取られるオブジェクトのサイズをチェックするときに問題が発生します。私はHDFSファイルシステムのレコードのほんの一部を読んでいます。元のHDFSファイルのサイズに関係なく、私は131112バイト(または約2^17バイト)しか得ていません。私は、バッファサイズのパラメータを変更しようとしましたが、成功しませんでした。設定すべき特定のパラメータはありますか?

私は同様の問題を[1]見つけましたが、答えはありません。

ご意見をいただければ幸いです。

は、[1]

+0

サイズを確認しようとした際のコードと結果を質問に表示してください。私は答えを知っているとはかなり確信していますが、私は最初にそれを見ずにそれを言うことをためらっています。 –

+0

Thanks @ Hack-R。私は、私も使用しているinit関数とサイズチェックを追加する質問を編集しました。それとは別に、私がやっているのは、HADOOP_CMDとHADOOP_HOME変数を設定することだけです。 問題に関連しているとは思えませんが、私はHortonworksフレームワークを使用しています。 –

答えて

0

https://github.com/RevolutionAnalytics/rhdfs/issues/8は私が(パラメータ「n」をして「開始」)を開始するために読んでもらいたいとバイトバイトの量を指定することによって、それを解決するために管理しました。これらのパラメータは、ファイル全体を読み込むために明示的に設定する必要があるようです。

f = hdfs.file(hdfspath,"r") 
m = hdfs.read(f, start = 0, n = hdfs.ls(hdfspath)$size) 

ここで、「hdfspath」はHDFSファイルを指します。

関連する問題