1

MS SQLサーバはさまざまなデータベースの主要なオプションとして用意されており、定期的に何百ものストアドプロシージャを実行しています。 今、完全に大きなデータスタックに移行しています。我々は、バッチジョブのためにSparkを使用しています。しかし、私たちはすでにこれらのストアドプロシージャを作成するために多大な努力をしてきました。 Sparkの上にストアドプロシージャを再利用する方法はありますか?または最初から書き込むのではなくSparkに移行する簡単な方法はありますか?MS SQLサーバのストアドプロシージャをSparkに

また、Clouderaディストリビューション/インパラのようなフレームワークでこの要件に対応していますか?

答えて

0

いいえ、私が知る限りではありません。非常によく似た論理的な流れを使用することができますが、T-SQLをSparkに変換するために深刻な時間と労力を必要とします。私はScalaに直進し、Python/PySparkで時間を無駄にしないことをお勧めします。変換のための親指の

私のルールは、SparkでのSQLのように保存されprocsのではSQL(sqlContext.sql("SELECT x FROM y"))です何かをしようとすることなく、任意のUPDATEまたはDELETEアクションを変更する必要がありますので、スパークデータフレームが不変であることを承知しているであろう新しい変更されたDataFrameを出力します。

関連する問題