2017-02-22 14 views
0
  1. セットスパークドライバノードHDFSスレーブノードとしてHDFSマスタノードとスパークワーカーノードとして。

又はSparkをHDFSで使用する場合、どのようにHDFSを設定すればよいですか?

  • 使用のみスパーク作業者は、HDFSクラスタをセットアップするノード。私は別々の部品であるが、ノードの制限された数が与えられたときスパークでのテストアプリケーションのパフォーマンスの好適な方法が存在することができるHDFSスパークを知っている:HDFSマスタノードは、それらのワーカーノード
  • PSに含まれています?したがって、本質的に、SparkドライバノードのI/Oコストを避けるべきですか?最初のオプションは、より理にかなっているように、

    答えて

    0

    HDFSクラスタ、ドライバのノードからアクセスできる必要があります。

    パフォーマンステストの設定は、主に予想されるアプリケーションの作業負荷、ノードで使用可能なメモリおよびその他のパラメータによって決まりますが、ドライバで実行されているアプリケーションの部分がヒーブ処理を行わない場合は、そこにノード。

    +0

    「HDFSクラスタはドライバノードからアクセス可能でなければなりません」という2番目のオプションの場合、ドライバノードは別のHDFSクラスタ内のノードにsshできます。この場合、ドライバノードはドライバノードにアクセスできます。 HDFSクラスタ?したがって、spark-submitコマンドラインでは、 "bin/spark-submit --class foo - master spark:// spark-mster:7077 boo.jar hdfs:// seperate-hdfs-master: 9000/data/file(booというアプリケーションでfooクラスを実行し、そのプログラム引数としてhdfsファイルパスが必要な場合) –

    +0

    sparkマスターノードとhdfsマスターノードは同じでなければなりませんか? –

    関連する問題