自動化されたSparkジョブ送信システム/プログラムを作成したいと思います。 もちろん、Sparkジョブを送信する前にHDInsightをプロビジョニングする必要があります。 また、システムはスケジュールベースでスパークジョブをサブミットします(例:7PMサブミットジョブ1、9PMサブミットジョブ2)スケジュールでHDInsight Sparkのプロビジョニングとサブミットを自動化しますか?
これらを習得する最良の方法は何ですか?私はPowerShellの
- を行うリウィウス
自動化されたSparkジョブ送信システム/プログラムを作成したいと思います。 もちろん、Sparkジョブを送信する前にHDInsightをプロビジョニングする必要があります。 また、システムはスケジュールベースでスパークジョブをサブミットします(例:7PMサブミットジョブ1、9PMサブミットジョブ2)スケジュールでHDInsight Sparkのプロビジョニングとサブミットを自動化しますか?
これらを習得する最良の方法は何ですか?私はPowerShellの
Azureのデータファクトリーは、あなたのニーズに合うようにそれが聞こえるとスパークジョブをサブミットすることができますどのような
c.f)。
"Data Factoryでは、データ駆動型のワークフローを作成して、オンプレミスとクラウドデータストアの間でデータを移動し、Azure HDInsightやAzure Data Lake Analyticsなどのコンピューティングサービスを使用してデータを処理/変換できます必要なアクションを実行するパイプラインを作成した後、定期的(毎時、毎日、毎週など)に実行するようにスケジューリングすることができます。
資源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq
スケジュールで自動的にあなたのスパークジョブを実行したいように聞こえます。 Oozieを使用することはあなたの現在のシナリオに非常に適していると思います.Orzieについての概念を知るには、Azure公式チュートリアルWindowsまたはLinuxを参照してください。一方、チュートリアルUse time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs
では、時間トリガを使用してそれを行う方法が紹介されています。参考までに、hortonworksスレッドは、HDPのOozie Workflow(Azure HDInsightはHDPに基づいています)からSparkジョブを実行するための詳細を示しています。
希望します。
本当に役に立ちました。私はOozieがスパークジョブスケジューリングには適していると思うが、HDInsightを最初に作成しなければならない。それでは、HDInsight Sparkクラスタスケジュールベースを作成する最も良い方法は何ですか? – ShootingStar
.Net SDKまたはPowershellを使用すると、HDInsightインスタンスのプロビジョニングを自動化できます。
が説明したように私には、Sparkジョブを送信するためにリウィウスを使用するAzureのデータ工場は私のニーズに合うように思えます。私はDFで遊んで、あなたの答えに印をつけます。 – ShootingStar