2017-09-08 2 views
0

私はPythonを使ってSparkの作業を始めました。私はSparkML Linear Regression APIを使用するアプリケーションを開発中です。実行フェーズでYARNクラスタモードでジョブをサブミットすると、多くのpyspark-shellアプリケーションがユーザーとしてYARNで作成されます。私はYARNのUIでそれらを見ることができました。彼らは最終的に成功した状態で終了し、私が実際に提出した私のメインアプリケーションは成功した状態で終了します。これは期待される行動ですか?なぜなら、私はsingleton sparkSessionインスタンスを作成し、それをアプリケーション全体で使用するので、pyspark-shellセッション/アプリケーションが作成される理由はわかりません。PySparkアプリケーションは多くのpyspark-shellセッションを作成します

+0

私もこの問題に直面していますが、一部のスクリプトでのみ発生するようです – chhantyal

答えて

0

直接的な解決策は、sparkSessionの代わりにsparkContextを使用することです。しかし、複数のアプリケーションが作成されている理由を説明できるように、セッションをどのように作成しているかを確認するために、設定ラインを確認することは面白いでしょう。

Spark 1.6からSpark 2.2にアップデートしましたので、sparkSessions(2+で新しく追加されたもの)に真剣に取り組んでいません。

関連する問題