Spark-submitで同じjarを使用する

jarファイルでspark-submitすることで、糸クラスターモードでジョブをデプロイします。私が '同じjarファイル'を使って提出するたびに展開された仕事は、それが提出されるたびにhadoopにアップロードされます。毎回同じ瓶をアップロードする必要はないと思います。一度アップロードして瓶で糸を雇う方法はありますか？Spark-submitで同じjarを使用する

出典

2017-05-15 J.Done

あなたはspd jarをhdfsに入れてから--master yarn-clusterモードを使うことができます。これにより、jarを毎回hdfsにアップロードするのに必要な時間を節約できます。

他の選択肢は次のような欠点を持っているすべてのノード上でスパーククラスパスにjarファイルを入れている：

あなたは30個の以上のノードがある場合、それは各ノードで、あなたのjarファイルをSCPには非常に面倒になります。
hadoopクラスタのアップグレードで、sparkの新規インストールがある場合は、再インストールする必要があります。

出典

2017-05-15 05:41:38

hdfsにどのpwdが関係していますか？ –

ユーザー（スパークジョブを実行しているユーザー）が読み取りアクセスできる場所に保管してください。 –

他の設定は必要ありませんか？ファイルをhdfsに置き、アプリケーションのリソースパスを設定しなかった場合、エラーが発生します。 –

Spark-submitで同じjarを使用する

答えて

関連する問題