Apache Spark RDDワークフロー

私は現在、時系列データベースで永続化している巨大なデータセットでSparkのMLibを使用しようとしています。私たちの時系列データベースにデータA、B、C、D、Eがある場合、まずA、B、Cを読み込み、変換を行ってから変換したデータをSpark MLibに渡したいとしましょう。Apache Spark RDDワークフロー

私はこの点に関して2つの質問があります。私が検討すべき標準ワークフローはありますか？私は、データの読み込み、変換はまだ私の質問であると思われることを意味します。これはSpark特有のものではありません。 ETLを実行するためにApache Camelのようなフレームワークを使用し、その結果をSparkに送ることのメリットがあるかどうかを知りたいですか？

提案がありますか？

出典

2016-04-16 sparkr

データをロードして変換することは、確かに特定のものではありませんが、それは非常に優れたものです。あなたは、フォールトトレランス、怠惰、高速バッチ処理、そしてすべてのための一貫したDSLのような無料の素晴らしい機能がたくさんあります。

ステージで具体的にキャッシュする必要はありますか？

20種類のETLスクリプトを維持せずにSQL、S3、Kafka、およびTwitterのデータを結合したいですか？

すべてこれを実行できます。

制限事項もあります。 Sparkは、データセットとその指定された変換、および冪等ではない（HTTPリクエストのような）あらゆる種類の操作から、系統グラフを作成できる必要があります。より多くを知らなくても

非常に一般的な要約：

は、あなたが「自分」のすべてのデータソース（つまり、彼らはDBか何かに常駐）は、すべてのETLとmllibプログラムを組み合わせた場合。その後、ギグやギグのデータでホットポテトをプレイする必要はありません。
外部データのソースに依存する必要がある場合は、それを取得して所有させるためのコードを記述します。

出典

2016-04-16 06:46:30

Apache Spark RDDワークフロー

答えて

関連する問題