2017-01-25 10 views
1

私はクラスタコンピューティングの新機能を使用しています。RStudioでsparklyrを使用すると、ローカルCSVファイルをスパーククラスタにアップロードすることはできますか?

Rstudioで(sparklyrを使用して)spark_contextを作成して、ローカルのSparkクラスタに接続することに成功しました。 copy_toデータフレームをRからSparkにアップロードできますが、ローカルに保存されたCSVファイルをspark_read_csvを使用して直接Sparkクラスタにアップロードしようとしていますが、最初にR環境にインポートする必要はありません(大きな5GBファイルです)。それは働いていない(場所の前にfile:///という接頭辞を付けても)、それはクラスタに既に保存されているファイルのみをアップロードできるようです。

ローカルファイルを最初にRにロードせずにスパークするようにアップロードするにはどうすればよいですか?

ヒントありがとうございます。

+0

エラーが表示されますか?それが「うまくいきません」と言われていることは何ですか? – cdeterman

+0

'ファイルが見つかりません'というエラーです – renegademonkey

答えて

1

できません。ファイルは、ローカルコピーとして、または分散ファイルシステム/オブジェクトストレージに配置して、クラスタ内の各マシンから到達可能でなければなりません。

+0

大きなファイルを外部ソースからSparkにアップロードする方法はありますか?また、RStudio経由でcassandraのデータを読み込み、それにも失敗しています(https://stackoverflow.com/questions/41877859/unable-to-connect-spark-to-cassandra-db-inを参照してください)。 -rstudio) – renegademonkey

+0

'--files'?しかし、あなたは 'spark.getSparkFiles'を使ってパスを見つけなければなりません。それはあまり効率的ではありません。 – user7337271

+0

Rでそれをどうやってやるの? – renegademonkey

0

spark_read_csv()メソッドを使用して、ファイルをローカルからスパークにアップロードできます。パスを適切に渡してください。

注:R環境にデータを最初に読み込む必要はありません。

+0

この方法を使用すると、Rを実行しているリモートマシンにローカルではなく、ローカルのcsvファイルをクラスタにアップロードすることしかできません。 – renegademonkey

関連する問題