2016-12-01 11 views
0

私は、糸クライアントを使用したSpark Cluster上で動作するApache Zeppelinで%pysparkプログラムを作成して実行しました。プログラムは、HDFSからDataframe内のファイルを読み込み、単純なgroupbyコマンドを実行し、出力を正常に出力します。私はZeppellinバージョン0.6.2とSpark 2.0.0を使用しています。Spark ClusterとYARNで動作するApache Zeppelin

私は仕事がYARNで実行して見ることができます

(application_1480590511892_0007を参照してください): enter image description here

しかし、私は同時にスパークUIを確認したときに、この仕事のためにすべてのものはありません。

enter image description here

質問1:これらのウィンドウの両方にこのジョブを表示するべきではありませんか?

第一ツェッペリンブロック:

%python 
from pyspark.sql import SparkSession 
from pyspark.sql import Row 
import collections 

spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 

第二

はまた、単に上記SparkUIイメージで完成したアプリケーションは、%のpythonインタプリタ単にSparkSessionを初期化し、それを停止するとツェッペリンの仕事でしたツェッペリンブロック:

%python 
spark.stop() 

質問2:このジョブは、YARN UIには表示されませんでした。ジョブがSparkUIに表示されるたびにSpark Resource Managerで実行されていることを意味しますか?

これらの質問に対する洞察は高く評価されます。

+0

私はそれについてはわかりませんが、コンテキストを停止する文を削除すると、その仕事を見ることができます。 –

答えて

0

ツェッペリンは、インタープリタが最初に使用されると、連続スパークアプリケーションを実行します。すべての段落がこの1つのアプリケーションで実行されます。 2番目のパラグラフでは、SparkSession(spark.stop)を停止しているため、インタープリタを最初に使用したときに作成されたアプリケーションが強制終了されます。これで、完了したアプリケーションのセクションでジョブを見ることができます。 spark.stopを削除すると、実行中のアプリケーションの下にジョブが表示されます。

関連する問題