私はSparkとKubernetesのどちらにも新しくありませんが、これは運用環境でどのように機能するかを理解しようとしています。私はKubernetesを使用してSparkクラスタを展開する予定です。私はSparkStraemingを使ってKafkaのデータを処理し、その結果をデータベースに出力します。さらに、私は毎晩実行される予定のスパークバッチジョブを設定する予定です。Kubernetesを使用してスパーククラスターでジョブをスケジュールする方法
1.夜間のバッチ実行をスケジュールするにはどうすればよいですか? クーベルネットにはクロンのような機能があります(documentation参照)。しかし私の理解から、これはスケジュールコンテナの配備です。私はコンテナを既に稼働させています(私はSparkStreamingのためにSpark-clusterを使用しています)ので、毎晩クラスタにジョブを提出したいだけです。
2. SparkStreamingアプリケーション(多くの場合があります)はどこに保存されますか?どのように起動しますか? Spark-ContainerをSparkStreamingアプリケーションから分離する(つまり、コンテナにはクリーンなスパークノードのみが含まれ、SparkStreamingアプリケーションは永続ストレージに保持され、kubectlを使用してコンテナにプッシュされます)。 私のドッカーファイルは、私のSparkStreamingアプリケーションをリポジトリからクローンし、それを開始する責任を負うべきですか?
私は文書を調べてみましたが、設定方法は不明です。私の質問に答えるリンクや参照は高く評価されます。