Sparkを使用して既存のアプリケーションを再開発することを検討しています。 既存のドメインモデル(現在C#
クラス)はRDDとしてリモデリングされ、現在ドメインモデルを変更するロジックはRDDを変換する関数にリファクタリングされます。ドメインクラスをRDDとしてモデル化する
問題は、ドメインクラスをRDDとしてどのようにモデリングするのかです。 最も簡単なアプローチは、Map<String, Any>
としてモデル化することです。 次いで、これを(おそらくcase class
として)Scalaでドメイン・クラスを作成し、RDDとしてこれをロードすることであろうsparkContext.parallelize(map).
代替手段を使用して、スパークにRDDとしてロードすることができます。 RDD内のすべての要素(または「行」)は、クラスの1つのインスタンスになります。しかし、これは正しいアプローチかベストプラクティスと考えられていますか?そして、理にかなったアプローチであれば、ScalaクラスをRDDとしてSparkにどのようにロードできますか?