Hadoopクラスター(2.4.2)でSpark(1.6.1)を使用してPythonスクリプトを実行しようとしています。クラスタは、Ambari(2.2.1.1)を使用してインストール、設定、および管理されました。スパークで紡績糸を使用していないリソース
私は4ノード(各40Gb HD-8コア - 16Gb RAM)のクラスタを持っています。
私のスクリプトではsklearn
lib:を使用しています。これをsparkで並列化するには、spark_sklearn
libを使用してください(https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark.htmlを参照)。
この時点で私はスクリプトを実行しようとした:
spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G
が、それは唯一のエグゼキュータでローカルホスト上で常に動作します。
またAmbariダッシュボードからIは、クラスタの1つのノードだけがリソースを消費することがわかります。また、異なるコンフィギュレーション(エグゼキュータ、コア)を試してみると、実行時間は同じです。
UPDATE
これは糸UIノードのスクリーンショットです:
そして、これはスケジューラ]タブで:
任意のアイデア?たくさん
ノードのスクリーンショットと糸UIのスケジューラタブも投稿できます。 – banjara
@shekhar私は画像を追加しました。それはあなたが欲しいですか? –
あなたは「糸」の代わりに「糸クラスター」を使用して提出し、違いがあるかどうか確認できますか? – GameOfThrows