2017-12-05 7 views
2

spark2-submitを実行してpysparkスクリプトを介して入力ファイルを処理することによって、入力データファイルが到着したときに処理する必要があります。私が見てきたことは、すべてのspark2 - submitについて、sparkは最新の入力ファイルのデータ処理を行う前に多くの初期化を行うことです。その結果、遅延が生じます。どのようにしてspark2の提出物の間にSparkクラスターを生かしておくことができますか?spark2-submits間でSparkクラスタを生かし続けるには?

個別のしかし関連する質問:spark2-submitとは別に、ペイロードを送信するために使用できる他のメカニズムは何ですか?

あなたの洞察を事前に感謝します。

+0

どのようなSparkスケジューラを使用していますか? –

答えて

0

クラスタ

あなたはlocalモードでスパークを使用していない限り(そこには、クラスタが本当にありません)クラスタは、異なるアプリケーション間で保存されています。

SparkContextとSparkSession

は、ローカルオブジェクトです。アプリケーションよりも長生きすることはできません。初期化時間が許容できない場合は、Livyのようなアプリケーションを使用するようにアプリケーションを調整できます。

関連する問題