2016-04-16 13 views
1

私は現在、時系列データベースで永続化している巨大なデータセットでSparkのMLibを使用しようとしています。私たちの時系列データベースにデータA、B、C、D、Eがある場合、まずA、B、Cを読み込み、変換を行ってから変換したデータをSpark MLibに渡したいとしましょう。Apache Spark RDDワークフロー

私はこの点に関して2つの質問があります。私が検討すべき標準ワークフローはありますか?私は、データの読み込み、変換はまだ私の質問であると思われることを意味します。これはSpark特有のものではありません。 ETLを実行するためにApache Camelのようなフレームワークを使用し、その結果をSparkに送ることのメリットがあるかどうかを知りたいですか?

提案がありますか?

答えて

0

データをロードして変換することは、確かに特定のものではありませんが、それは非常に優れたものです。あなたは、フォールトトレランス、怠惰、高速バッチ処理、そしてすべてのための一貫したDSLのような無料の素晴らしい機能がたくさんあります。

ステージで具体的にキャッシュする必要はありますか?

20種類のETLスクリプトを維持せずにSQL、S3、Kafka、およびTwitterのデータを結合したいですか?

すべてこれを実行できます。

制限事項もあります。 Sparkは、データセットとその指定された変換、および冪等ではない(HTTPリクエストのような)あらゆる種類の操作から、系統グラフを作成できる必要があります。より多くを知らなくても

非常に一般的な要約:

  1. は、あなたが「自分」のすべてのデータソース(つまり、彼らはDBか何かに常駐)は、すべてのETLとmllibプログラムを組み合わせた場合。その後、ギグやギグのデータでホットポテトをプレイする必要はありません。

  2. 外部データのソースに依存する必要がある場合は、それを取得して所有させるためのコードを記述します。

関連する問題