2017-08-10 9 views
0

私は次の問題についていくつかアドバイスが必要です:SparkJobはリモートサーバー上のファイルを生成します

私はCassandraを持つSparkクラスタを持っています。 私はCassandraからいくつかの情報を抽出するために、(Scalaを使って)スパークジョブを書く必要があります。結果を含むファイルを生成し、それを別のサーバー(Sparkが存在しない場所)に置く必要があります。

私の質問です:そのための最善の解決策は何ですか? 1. sparkと同じサーバー上にファイルを生成し、それを宛先サーバーにコピーするscpを実行しますか? 2.宛先サーバーでファイルを生成する別の方法はありますか?

ありがとうございました。

答えて

1

これを行うより良い方法は、結果を計算してHDFS(sparkサーバー)のディレクトリに保存し、nfsはこのディレクトリを宛先サーバー(スパークのないサーバー)のあるパスにマウントすることです。

これが役立ったかどうか教えてください。乾杯。

+0

私は2つのリモートサーバーにファイルをコピーする必要があります(私はいくつかの他の配布物を持っています)。 2台のリモートサーバにHDFSをnfsマウントすることは可能ですか? –

+0

あなたのアイデアは悪くないけど、あなたのアイデアから始めることを考えていましたが、代わりにrsyncを使用します。私はそれが私が必要とするもののほうが良いと思う。 –

+0

rsyncは、1000sの小さなファイルをネットワーク経由で送信するように設計されている。 NFSはNOTです。 NFSは、ほとんどの操作のためにリモートホストと通信する必要のあるローカルファイルシステムのように動作するように設計されています。 rsyncを使用すると、基本的にはすべてのファイルのコピーが宛先サーバに作成されます。私はそれがあなたがそれを示唆しなかった理由をしたくないと信じていました。 –

関連する問題