2016-07-28 14 views
-1

私はリアルタイム分析アプリケーションを作成しようとしているため、最後の10分のデータストアをスパークできます。私が従う必要がある全体的な手順は次のとおりです。Logstash .logデータファイルをkafkaプロデューサトピックにポンピング、kafkaプロデューサをkafkaコンシューマトピックに送信します。続いて、その後私は、Sparkは、リアルタイム分析を取得するにはカフカの消費者の話題から、最後の分のデータの入力を取るためにカフカの消費者のトピックをお読みください必要と同時に、消費者が後で履歴分析のためにHDFSにデータを書き込む必要がありますカフカ。私はsparkがhdfsから読むことができるが、kafkaの消費者の話題から直接読むことができるということを読んだことがありますか?私が従う手順は正しいかどうか?私に提案してください。は、リアルタイムアプリケーション

答えて

2

はい:ちょうどスパークのドキュメントを参照してください。まず、あなたのアイデアは可能です。ただし、Spark-streamのパフォーマンスも考慮する必要があります。スパークストリームはマイクロバッチ環境で動作するため、リアルタイムシステムではスパークストリームは時々遅くなることがあります。パフォーマンスを向上させたい場合は、flinkを使用する方がよいでしょう。

も参照してください。あなたの参照リンク用 flink-streaming

+0

あなたのお返事ありがとうございます。今すぐ行く – Rach

関連する問題