RStudioでsparklyrを使用すると、ローカルCSVファイルをスパーククラスタにアップロードすることはできますか？

私はクラスタコンピューティングの新機能を使用しています。RStudioでsparklyrを使用すると、ローカルCSVファイルをスパーククラスタにアップロードすることはできますか？

Rstudioで（sparklyrを使用して）spark_contextを作成して、ローカルのSparkクラスタに接続することに成功しました。 copy_toデータフレームをRからSparkにアップロードできますが、ローカルに保存されたCSVファイルをspark_read_csvを使用して直接Sparkクラスタにアップロードしようとしていますが、最初にR環境にインポートする必要はありません（大きな5GBファイルです）。それは働いていない（場所の前にfile：///という接頭辞を付けても）、それはクラスタに既に保存されているファイルのみをアップロードできるようです。

ローカルファイルを最初にRにロードせずにスパークするようにアップロードするにはどうすればよいですか？

ヒントありがとうございます。

出典

2017-01-25 renegademonkey

エラーが表示されますか？それが「うまくいきません」と言われていることは何ですか？ – cdeterman

'ファイルが見つかりません'というエラーです – renegademonkey

できません。ファイルは、ローカルコピーとして、または分散ファイルシステム/オブジェクトストレージに配置して、クラスタ内の各マシンから到達可能でなければなりません。

出典

2017-01-25 20:28:14 user7337271

大きなファイルを外部ソースからSparkにアップロードする方法はありますか？また、RStudio経由でcassandraのデータを読み込み、それにも失敗しています（https://stackoverflow.com/questions/41877859/unable-to-connect-spark-to-cassandra-db-inを参照してください）。 -rstudio） – renegademonkey

'--files'？しかし、あなたは 'spark.getSparkFiles'を使ってパスを見つけなければなりません。それはあまり効率的ではありません。 – user7337271

Rでそれをどうやってやるの？ – renegademonkey

spark_read_csv()メソッドを使用して、ファイルをローカルからスパークにアップロードできます。パスを適切に渡してください。

注：R環境にデータを最初に読み込む必要はありません。

出典

2017-03-22 06:05:30 Priyanka

この方法を使用すると、Rを実行しているリモートマシンにローカルではなく、ローカルのcsvファイルをクラスタにアップロードすることしかできません。 – renegademonkey

RStudioでsparklyrを使用すると、ローカルCSVファイルをスパーククラスタにアップロードすることはできますか？

答えて

関連する問題