2016-10-06 7 views
0

次の構成のクラスタがあります。4ノードCDHクラスタでスパークジョブを送信する方法

Distribution : CDH5, 
Number nodes : 4, 
RAM : 126GB, 
Number of cores : 24 per node, 
Harddisk : 5TB 

入力ファイルのサイズは10GBです。私は次のコマンドで提出するには多くの時間がかかります(約20分)。私のPythonコードで

spark-submit --jars xxxx --files xxx,yyy --master yarn /home/me/python/ParseMain.py 

私は次のように設定しています:

sparkConf = SparkConf().setAppName("myapp")  
sc = SparkContext(conf = sparkConf)  
hContext = HiveContext(sc) 

どのように私は私がより良い性能を達成できるように、火花が引数を提出変更できますか?

答えて

0

いくつかのあなたはCDHが十分VCOREとvMemoryを持つように構成する必要があります

--driver-cores 4 
--num-executors 4 
--executor-cores 20 
--executor-memory 5G 

を試みることができるオプションが火花提出します。そうでなければ、提出されたジョブはACCEPTEDのままになり、RUNにはなりません。

+0

野口健二 –

+0

野口賢二 ご返信ありがとうございます。 vCoreとvMemoryの設定方法を知っていますか? –

+0

糸構成で「コンテナ仮想CPUコア最大」および「コンテナ仮想CPUメモリ最大」を探します。 –

関連する問題