私は、糸クライアントを使用したSpark Cluster上で動作するApache Zeppelinで%pysparkプログラムを作成して実行しました。プログラムは、HDFSからDataframe内のファイルを読み込み、単純なgroupbyコマンドを実行し、出力を正常に出力します。私はZeppellinバージョン0.6.2とSpark 2.0.0を使用しています。Spark ClusterとYARNで動作するApache Zeppelin
私は仕事がYARNで実行して見ることができます(application_1480590511892_0007を参照してください):
しかし、私は同時にスパークUIを確認したときに、この仕事のためにすべてのものはありません。
質問1:これらのウィンドウの両方にこのジョブを表示するべきではありませんか?
第一ツェッペリンブロック:
%python
from pyspark.sql import SparkSession
from pyspark.sql import Row
import collections
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()
第二
はまた、単に上記SparkUIイメージで完成したアプリケーションは、%のpythonインタプリタ単にSparkSessionを初期化し、それを停止するとツェッペリンの仕事でしたツェッペリンブロック:
%python
spark.stop()
質問2:このジョブは、YARN UIには表示されませんでした。ジョブがSparkUIに表示されるたびにSpark Resource Managerで実行されていることを意味しますか?
これらの質問に対する洞察は高く評価されます。
私はそれについてはわかりませんが、コンテキストを停止する文を削除すると、その仕事を見ることができます。 –