スパークで紡績糸を使用していないリソース

Hadoopクラスター（2.4.2）でSpark（1.6.1）を使用してPythonスクリプトを実行しようとしています。クラスタは、Ambari（2.2.1.1）を使用してインストール、設定、および管理されました。スパークで紡績糸を使用していないリソース

私は4ノード（各40Gb HD-8コア - 16Gb RAM）のクラスタを持っています。

私のスクリプトではsklearn lib：を使用しています。これをsparkで並列化するには、spark_sklearn libを使用してください（https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark.htmlを参照）。

この時点で私はスクリプトを実行しようとした：

spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G

が、それは唯一のエグゼキュータでローカルホスト上で常に動作します。

またAmbariダッシュボードからIは、クラスタの1つのノードだけがリソースを消費することがわかります。また、異なるコンフィギュレーション（エグゼキュータ、コア）を試してみると、実行時間は同じです。

UPDATE

これは糸UIノードのスクリーンショットです：

そして、これはスケジューラ]タブで：

任意のアイデア？たくさん

出典

2016-05-11 Pietro Fragnito

ノードのスクリーンショットと糸UIのスケジューラタブも投稿できます。 – banjara

@shekhar私は画像を追加しました。それはあなたが欲しいですか？ –

あなたは「糸」の代わりに「糸クラスター」を使用して提出し、違いがあるかどうか確認できますか？ – GameOfThrows

おかげで私はHortonworks Community.

に同じ質問への答えのおかげで、パラメータMASTER="yarn-cluster"（またはMASTER="yarn-client"）の設定自分自身を応じるだろう動作するようだ：今私は、Sparkのアプリケーションレポートをご覧ください履歴とYARN履歴のUI。

PS：コマンドライン（例えば：--num-executors 8--num-executor-core 4--executor-memory 2G）を経由して渡されたparamsを考慮して取られていないようです。代わりに、エバリュエーターパラメーターを「spark-env template」のAmbariのファイルに設定すると、パラメーターが考慮されます。とにかく今それは動作します:)

私はこれが将来誰かを助けることを願っています。

出典

2016-05-12 08:48:21

スパークで紡績糸を使用していないリソース

答えて

関連する問題