2016-08-05 3 views
1

SparkをAWS EC2クラスタに接続したIPythonノートブックで簡単なWordCountジョブを実行しようとしています。このプログラムは、Sparkをローカルスタンドアロンモードで使用すると完璧に動作しますが、EC2クラスタに接続しようとすると問題が発生します。EC2上のスパークを持つIPythonノートブック:初期ジョブは何もリソースを受け入れていません

私はこのSupergloo blogpostの指示に従っている次の手順

をとっています。

出力をファイルに書き込もうとする最後の行まではエラーはありません。 [スパークの遅延読み込み機能は、このプログラムが実際に実行を開始する際に意味]

これは私がエラー

[Stage 0:>               (0 + 0)/2]16/08/05 15:18:03 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 

が実際に誤りが無い取得する場所、私たちはこの警告を持っており、プログラムがに入るです不定の待機状態です。私はIPythonノートを抹殺するまで何も起こりません。私はこのStackoverflow post見ているとメインコマンドの後に、このオプションを使用して512 1とメモリコアの数が減少している

--total-executor-cores 1 --executor-memory 512m 

SparkUIからのスクリーンキャプチャは sparkUI

を以下の通りであります

これは、コアとUIの両方が完全に利用されていないことを明確に示しています。

最後に、私はこのStackOverflow post

その火花EC2スクリプトから参照は、スタンドアロン、それが遠隔提出では動作しないことを意味 としてEC2でスパーククラスタを構成します。私は苦労しました この前に説明したのと同じエラーが表示される前に、それは理解できませんでした。 がサポートされています。メッセージのエラーは残念ながら間違っています。

したがって、 スパークタスクを実行するには、自分のものをコピーしてマスターにログインする必要があります。

実際にそうである場合、これ以上のことはありませんが、このステートメントは2014年に作成されたので、ここ2年間でスクリプトが修正されたか、回避策があることを期待しています。回避策がある場合は、誰かが私にそれを指摘することができれば感謝します。

この点までお読みいただき、ありがとうございました。

答えて

0

RESTベースのSparkジョブサーバーを設定していない限り、表示されているとおり、マスター以外のジョブは送信できません。

関連する問題