2017-05-15 7 views
0

jarファイルでspark-submitすることで、糸クラスターモードでジョブをデプロイします。私が '同じjarファイル'を使って提出するたびに展開された仕事は、それが提出されるたびにhadoopにアップロードされます。毎回同じ瓶をアップロードする必要はないと思います。一度アップロードして瓶で糸を雇う方法はありますか?Spark-submitで同じjarを使用する

答えて

2

あなたはspd jarをhdfsに入れてから--master yarn-clusterモードを使うことができます。これにより、jarを毎回hdfsにアップロードするのに必要な時間を節約できます。

他の選択肢は次のような欠点を持っているすべてのノード上でスパーククラスパスにjarファイルを入れている:

  1. あなたは30個の以上のノードがある場合、それは各ノードで、あなたのjarファイルをSCPには非常に面倒になります。
  2. hadoopクラスタのアップグレードで、sparkの新規インストールがある場合は、再インストールする必要があります。
+0

hdfsにどのpwdが関係していますか? –

+0

ユーザー(スパークジョブを実行しているユーザー)が読み取りアクセスできる場所に保管してください。 –

+0

他の設定は必要ありませんか?ファイルをhdfsに置き、アプリケーションのリソースパスを設定しなかった場合、エラーが発生します。 –

関連する問題