2016-11-25 8 views
1

.csvのファイル数がC:\Users\USER_NAME\Documentsで、サイズが2GBを超えています。私はApache Sparkを使用してRからデータを読み込みたいと思います。私はMicrosoft R Open 3.3.1とSpark 2.0.1を使用しています。SparklyrがRである.csvファイルを読むR

.csvファイルをspark_read_csv(...)Sparklyrパッケージに定義されているファイルで読み取ることができません。それはfile://で始まるファイルパスを要求しています。私はfile://で始まり、.../Documentsディレクトリにあるファイル名で終わる私の場合の適切なファイルパスを知りたい。

+0

は、それがファイルではありません/USER_NAME/Documents/FILENAME.csv '? –

答えて

1

私にも同様の問題がありました。私の場合は、.csvファイルをspark_read_csvで呼び出す前にhdfsファイルシステムに入れる必要がありました。

おそらく同様の問題があると思います。

クラスタはまた、あなたが使用する必要がHDFSで動作している場合:/// C:/ユーザー

HDFSのDFSを

ベスト-put、 フェリックス

+0

ディレクトリがhdfsにある場合は、ハイブマッピング(外部テーブルの作成...)を作成し、 'spark_read_csv'を使ってすべてのCSVを一度に読み取ることができます – nachti

関連する問題