0
私は現時点でローカルモードで動作し、出力をローカルUNIXディレクトリのファイルに書き込みます。sparkクラスタモードを使用してunixディレクトリにファイルを書き込む
ここで、同じジョブを糸クラスターモードで実行したいが、そのUNIXフォルダーに書きたいと思う。
同じsaveAsTextFile(パス)を使用できますか?
私は現時点でローカルモードで動作し、出力をローカルUNIXディレクトリのファイルに書き込みます。sparkクラスタモードを使用してunixディレクトリにファイルを書き込む
ここで、同じジョブを糸クラスターモードで実行したいが、そのUNIXフォルダーに書きたいと思う。
同じsaveAsTextFile(パス)を使用できますか?
はい、できます。しかし、それを行うのはベストプラクティスではありません。スパーク自体は、スタンドアローンと分散ファイルシステム上で実行できます。私たちが分散ファイルシステムを使用しているのは、データが膨大であり、期待される出力が膨大なものになるからです。
出力がローカルファイルシステムに適合することを確信している場合は、そのファイルシステムに移動するか、以下のコマンドを使用してローカルストレージに保存します。
bin/hadoop fs -copyToLocal /hdfs/source/path /localfs/destination/path
Thanks Deepak。私はこれがhdfsからローカルディレクトリにファイルをコピーするためのhadoopコマンドだと仮定します。しかし、sparkアプリケーション/プログラムを使ってUNIXディレクトリのファイルに書き込む方法はありますか? –
はい、そうです。ファイルへの書き込みはどういう意味ですか?あなたは、読み込み、追加、書き込みのようなファイルへの実際の書き込みのようなことを求めていますか? –
はい、私の場合、sparkアプリケーションを使ってファイルに追加したいと考えています。 –