私の理解によれば、スパークはすべての糸クラスタ内のノード。スパークインストールは、スパーク送信スクリプトが起動されるノード(通常はゲートウェイノード)でのみ必要です。 YARN側からアクセススパークランタイムのjarファイルを作るためにスパークプログラミングガイドsparkランタイムjar(../spark-2.0.1-bin-hadoop2.6/jars)は、YARNクラスター内の物理ワーカーノードにどのように配布されるのですか?
あたりとして
、あなたは spark.yarn.archiveまたはspark.yarn.jarsを指定することができます。スパークコード(../spark-2.0.1-bin-hadoop2.6/jarsで利用可能なつまり火花ランタイムjarファイル)を含むライブラリーは、中(エグゼキュータが起動されている)物理ワーカーノードに配布しますどのよう
YARNクラスター。
ありがとうございます。
これは、sparkランタイムjarが、 'spark.yarn.jars'が指すパスからエグゼキュータが起動されるすべてのワーカーノードにローカルにコピーされることを意味します。はいの場合、これはスパークアプリケーションの実行ごとに発生します。 –
これはhdfsから直接読み取られ、ドライバーがジョブを作成し、エグゼキュータがノードに割り当てられると作成されます。 –