糸を掛けておく - 並行ジョブがスケジュールされないようにする方法はありません。純粋なバッチ処理を行うためのアーキテクチャ設定があります。糸掛け:複数のスパークジョブが予定されているのを防ぐ方法
私は、次のような理由のためにこれを必要とする:
- リソースの制約
- UserCacheスパークのための本当にすぐに成長します。複数のジョブを実行すると、キャッシュ上の領域が爆発的に増加します。
理想的には、唯一のジョブが納品時にいつでも実行できるようにする設定があるかどうかを知りたいのですが。
糸を掛けておく - 並行ジョブがスケジュールされないようにする方法はありません。純粋なバッチ処理を行うためのアーキテクチャ設定があります。糸掛け:複数のスパークジョブが予定されているのを防ぐ方法
私は、次のような理由のためにこれを必要とする:
理想的には、唯一のジョブが納品時にいつでも実行できるようにする設定があるかどうかを知りたいのですが。
アプリケーションマスターを1つだけホストできるキューの作成を実行し、そのキューですべてのSparkジョブを実行できます。したがって、Sparkジョブが実行されている場合、他のジョブは受け入れられますが、実行中の実行が終了するまでスケジュールされて実行されることはありません...
最後に解決策が見つかりました - 糸文書にありました:yarn.scheduler.capacity .max-applicationsは10000ではなく1に設定する必要があります。
私はHortonWorksのHDPを使用しています。キューが使用されているのがわかりますが、キューが1つしか実行されないように構成する方法はわかりません。設定を探しているヒント – Keshi
ここで、Hortonworksのキュー管理(https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.2/bk_performance_tuning/content/section_create_configure_yarn_capacity_scheduler_queues.html)に関するドキュメントを見つけることができます。キューの設定の1つが、許可されたアプリケーションの最大数です... – mgaido