0
次の構成のクラスタがあります。4ノードCDHクラスタでスパークジョブを送信する方法
Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB
入力ファイルのサイズは10GBです。私は次のコマンドで提出するには多くの時間がかかります(約20分)。私のPythonコードで
spark-submit --jars xxxx --files xxx,yyy --master yarn /home/me/python/ParseMain.py
私は次のように設定しています:
sparkConf = SparkConf().setAppName("myapp")
sc = SparkContext(conf = sparkConf)
hContext = HiveContext(sc)
どのように私は私がより良い性能を達成できるように、火花が引数を提出変更できますか?
野口健二 –
野口賢二 ご返信ありがとうございます。 vCoreとvMemoryの設定方法を知っていますか? –
糸構成で「コンテナ仮想CPUコア最大」および「コンテナ仮想CPUメモリ最大」を探します。 –