SparkをHDFSで使用する場合、どのようにHDFSを設定すればよいですか？

セットスパークドライバノードHDFSスレーブノードとしてHDFSマスタノードとスパークワーカーノードとして。

又はSparkをHDFSで使用する場合、どのようにHDFSを設定すればよいですか？

使用のみスパーク作業者は、HDFSクラスタをセットアップするノード。私は別々の部品であるが、ノードの制限された数が与えられたときスパークでのテストアプリケーションのパフォーマンスの好適な方法が存在することができるHDFSスパークを知っている：HDFSマスタノードは、それらのワーカーノード

PSに含まれています？したがって、本質的に、SparkドライバノードのI/Oコストを避けるべきですか？最初のオプションは、より理にかなっているように、

出典

2017-02-22 Aden Spoon

HDFSクラスタは、ドライバのノードからアクセスできる必要があります。

パフォーマンステストの設定は、主に予想されるアプリケーションの作業負荷、ノードで使用可能なメモリおよびその他のパラメータによって決まりますが、ドライバで実行されているアプリケーションの部分がヒーブ処理を行わない場合は、そこにノード。

出典

2017-02-22 06:47:43 JiriS

「HDFSクラスタはドライバノードからアクセス可能でなければなりません」という2番目のオプションの場合、ドライバノードは別のHDFSクラスタ内のノードにsshできます。この場合、ドライバノードはドライバノードにアクセスできます。 HDFSクラスタ？したがって、spark-submitコマンドラインでは、 "bin/spark-submit --class foo - master spark：// spark-mster：7077 boo.jar hdfs：// seperate-hdfs-master： 9000/data/file（booというアプリケーションでfooクラスを実行し、そのプログラム引数としてhdfsファイルパスが必要な場合） –

sparkマスターノードとhdfsマスターノードは同じでなければなりませんか？ –

SparkをHDFSで使用する場合、どのようにHDFSを設定すればよいですか？

答えて

関連する問題