2016-05-11 7 views
0

Hadoopクラスター(2.4.2)でSpark(1.6.1)を使用してPythonスクリプトを実行しようとしています。クラスタは、Ambari(2.2.1.1)を使用してインストール、設定、および管理されました。スパークで紡績糸を使用していないリソース

私は4ノード(各40Gb HD-8コア - 16Gb RAM)のクラスタを持っています。

私のスクリプトではsklearn lib:を使用しています。これをsparkで並列化するには、spark_sklearn libを使用してください(https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark.htmlを参照)。

この時点で私はスクリプトを実行しようとした:

spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G 

が、それは唯一のエグゼキュータでローカルホスト上で常に動作します。

enter image description here

またAmbariダッシュボードからIは、クラスタの1つのノードだけがリソースを消費することがわかります。また、異なるコンフィギュレーション(エグゼキュータ、コア)を試してみると、実行時間は同じです。

UPDATE

これは糸UIノードのスクリーンショットです:

enter image description here

そして、これはスケジューラ]タブで:

enter image description here enter image description here

任意のアイデア?たくさん

+0

ノードのスクリーンショットと糸UIのスケジューラタブも投稿できます。 – banjara

+0

@shekhar私は画像を追加しました。それはあなたが欲しいですか? –

+0

あなたは「糸」の代わりに「糸クラスター」を使用して提出し、違いがあるかどうか確認できますか? – GameOfThrows

答えて

0

おかげで私はHortonworks Community.

に同じ質問への答えのおかげで、パラメータMASTER="yarn-cluster"(またはMASTER="yarn-client")の設定自分自身を応じるだろう動作するようだ:今私は、Sparkのアプリケーションレポートをご覧ください履歴とYARN履歴のUI。

enter image description here

PS:コマンドライン(例えば:--num-executors 8--num-executor-core 4--executor-memory 2G)を経由して渡されたparamsを考慮して取られていないようです。代わりに、エバリュエーターパラメーターを「spark-env template」のAmbariのファイルに設定すると、パラメーターが考慮されます。とにかく今それは動作します:)

私はこれが将来誰かを助けることを願っています。

関連する問題