sparkランタイムjar（../spark-2.0.1-bin-hadoop2.6/jars）は、YARNクラスター内の物理ワーカーノードにどのように配布されるのですか？

私の理解によれば、スパークはすべての糸クラスタ内のノード。スパークインストールは、スパーク送信スクリプトが起動されるノード（通常はゲートウェイノード）でのみ必要です。 YARN側からアクセススパークランタイムのjarファイルを作るためにスパークプログラミングガイドsparkランタイムjar（../spark-2.0.1-bin-hadoop2.6/jars）は、YARNクラスター内の物理ワーカーノードにどのように配布されるのですか？

あたりとして

、あなたは spark.yarn.archiveまたはspark.yarn.jarsを指定することができます。スパークコード（../spark-2.0.1-bin-hadoop2.6/jarsで利用可能なつまり火花ランタイムjarファイル）を含むライブラリーは、中（エグゼキュータが起動されている）物理ワーカーノードに配布しますどのよう

YARNクラスター。

ありがとうございます。

出典

2016-11-28 Deepak Kumar

hdfsにjarを配置し、spark.yarn.jarsパスをhdfsの位置に設定することができます。これにより、すべてのノードにスパークジャーが提供されます。

環境変数（たとえば、spark-env.sh）を配布する必要がある場合は、すべてのノード上にある必要があります。

出典

2016-11-28 07:10:46

これは、sparkランタイムjarが、 'spark.yarn.jars'が指すパスからエグゼキュータが起動されるすべてのワーカーノードにローカルにコピーされることを意味します。はいの場合、これはスパークアプリケーションの実行ごとに発生します。 –

これはhdfsから直接読み取られ、ドライバーがジョブを作成し、エグゼキュータがノードに割り当てられると作成されます。 –

まず、瓶は、HDFS（ステージングフォルダ）に、私はClouderaのコミュニティでこの質問を投稿していた各ノードマネージャ

出典

2016-11-28 17:57:51

のローカル/ tmpディレクトリに配布し、その後にアップロードされています。答えを共有する考え。

スパーク上で実行している場合は、スパークアーカイブはContainerLocalizer（別名分散キャッシュ）を経由して労働者ノードに配布されます。 Spark first はHDFSにファイルをアップロードし、HDFSから必要なときにワーカーノードは jarをダウンロードすることができます。ローカライザーは、ワーカーが変更されたときにそれをダウンロードするか、またはワーカーをワーカーから削除しただけなので、jarを再利用して、ローカルにまだが存在する場合には再びダウンロードする必要はありません。

出典

2016-12-14 14:49:42

sparkランタイムjar（../spark-2.0.1-bin-hadoop2.6/jars）は、YARNクラスター内の物理ワーカーノードにどのように配布されるのですか？

答えて

関連する問題