私は現在、時系列データベースで永続化している巨大なデータセットでSparkのMLibを使用しようとしています。私たちの時系列データベースにデータA、B、C、D、Eがある場合、まずA、B、Cを読み込み、変換を行ってから変換したデータをSpark MLibに渡したいとしましょう。Apache Spark RDDワークフロー
私はこの点に関して2つの質問があります。私が検討すべき標準ワークフローはありますか?私は、データの読み込み、変換はまだ私の質問であると思われることを意味します。これはSpark特有のものではありません。 ETLを実行するためにApache Camelのようなフレームワークを使用し、その結果をSparkに送ることのメリットがあるかどうかを知りたいですか?
提案がありますか?