2016-08-25 5 views
-1

カッサンドラテーブル(3ノードクラスタ)に大きなデータセットを持っていて、毎日受け取ったレコードに対して合計操作を実行する必要がある場合、 。そのように計算されたカウントは、MySQLテーブルで更新する必要があります。スパークストームまたはフリンク - ビッグデータ分析

現在、私は、SQLとCQLクエリを使用してこれらのタスクを実行する単純なJavaを使用していますが、その非常に遅く、将来のデータに指数関数的に成長されます。

このタスクを可能な限り早く、最小の開発時間で達成するために探求できる技術を誰もが提案することはできません。

+0

本、ツール、ソフトウェアライブラリ、チュートリアル、またはその他のオフサイトリソースは、オピニオン回答とスパムを引き付ける傾向があるため、スタックオーバーフローのトピックではありません。代わりに、[問題を説明してください](http://meta.stackoverflow.com/questions/254393/what-exactly-is-a-recommendation-question)、それを解決するために今まで何が行われましたか。 – eliasah

答えて

0

お勧めすることはあまりありません。あなたが持っているタスクと自分の好みにのみ依存します。

Apache Stormはストリーミングエンジンですので、エントリのストリームを処理したい場合は適しています。

Apache SparkとApache Flinkの両方で、バッチジョブを1日に1回実行するか、1日の結果を計算するストリーミングアプリケーションを作成できます。

私はバッチとストリーミングのジョブ(バッチからストリーミングにコードを簡単に変更できる)と強力なコミュニティサポートのための統一APIを持っているので、Apache Sparkが好きです。 Apache Flinkはリアルタイムストリーミングをサポートしていますが、必要ではありません。

ただし、この2つのフレームワークを自分で見て、このフレームワークを選択すると、よりよく見えます。私の意見では、どちらもokとなるでしょう

関連する問題