Spark Streamingを直接使用する必要があるユースケースや、Kafka/Flumeとの統合のための場所を教えてもらえますか?スパークストリーミングにKafka/Flumeの統合が必要なのはなぜですか?ストリーミングは、ソースから直接データを消費することはできませんか?
答えて
我々はストリーミングが直接
あなたの受信機や消費者の記述に使用できるAPIがありますし、カフカがストリーミングが箱から出してサポートしてスパーク源の中でスパークを使用する必要があるユースケース。 Kafkaは外部ストレージでもあるので、Spark Streamingアプリケーションはのどこかのからデータセットを読み取る必要があるため、「Spark Streamingを直接使用する」ことは一種の誤解です。
ここで、Kafka/Flumeと統合する必要がありますか?
のIoTデバイスは、データのトン毎分を送信している(または秒は、物事を悪化させるために)とカフカはそのペースにデータセットを処理できるショックアブソーバーので、スパークとして機能します。
スパークストリーミング(および構造化ストリーミング)は、バッチ指向でプルベースなので、データをフェッチおよび処理できるようにする必要があります。 Kafka(またはCassandra)は、Sparkを読み込んで処理する前に、データを読み込んで保持するためによく使用されます。彼らはスパークストリーミングの人生をはるかに簡単かつ平和にするだけです。
ストリーミングはデータをソースから直接消費できませんか?
Spark Streamingアプリケーションは、データを直接消費します...常に。ポイントはあなたの質問に「直接」という意味があります。カフカは「源泉から直接」ではないのですか?カフカはソースである(しばしばそうである)。
「カフカの横に」という意味なら、答えは「はい」です。 Kafkaは、Spark Streamingがデータを取得するソースの1つです。スパークストリーミングのInput DStreams and Receivers引用
:
スパークストリーミングは、内蔵のストリーミングソースの二つのカテゴリーが用意されています。
基本ソース:StreamingContext APIで直接使用できるソース。例:ファイルシステム、およびソケット接続。
先進ソース:Kafka、Flume、Kinesisなどのソースは、余分なユーティリティクラスで利用できます。これらは、リンクセクションで説明したように、余分な依存関係とリンクする必要があります。
以降Custom Sourcesに:
入力DStreamsは、カスタムデータソースから作成することができます。カスタムソースからデータを受け取り、それをSparkにプッシュできるユーザ定義のレシーバ(これは何かを理解するための次のセクションを参照)を実装するだけです。詳細については、カスタムレシーバガイドを参照してください。
ありがとうJacek。なぜカフカが必要なのか、あなたは私に明確なイメージを与えました。 – Rahul
- 1. なぜカフカの消費者は、消費に時間がかかりますか?
- 2. スパークストリーミング接続からデータを読み取ることができません
- 3. HybrisとAEMを統合する必要があるのはなぜですか?
- 4. スパークストリーミング - カフカトピックの特定のパーティションを消費することは可能ですか?
- 5. 必要なデータがMongoDBスレーブにある場合、ActiveMQメッセージをどのように消費できますか?
- 6. ここにジェネリックが必要なのはなぜですか?プロトコルは十分ではありませんか?
- 7. Clojure:なぜこの作家はヒープスペースを消費しますか?
- 8. mysqli_escape_stringにデータベース接続が必要なのはなぜですか?
- 9. なぜこのメソッドはパラメータを必要としませんか?
- 10. カフカの消費者からスパークストリーミング
- 11. なぜ私のハッシュセットはメモリを消費するのですか?
- 12. 私はコンボボックスから必要な値を得ることができません
- 13. ここにセミコロンが必要なのはなぜですか?
- 14. RESTサービスはフォームからのデータを消費しません
- 15. ここでtypenameが必要なのはなぜですか?
- 16. ここでコンテキストが必要なのはなぜですか?
- 17. ここでエンディアンが必要なのはなぜですか?
- 18. ここでロックが必要なのはなぜですか?
- 19. ここでキャストが必要なのはなぜですか?
- 20. MTLVertexAttributeDescriptorsは必要ですか?彼らはなぜ必要なのですか?
- 21. データをWebサーバーにストリーミングするにはソケット接続が必要ですか?
- 22. xtsを直接boxplotできないのはなぜですか?
- 23. このコードにklassが必要なのはなぜですか?
- 24. このステートメントにセミコロンが必要なのはなぜですか?
- 25. Akka http-clientはサーバーからのすべてのデータストリームを消費することはできません
- 26. なぜ私のプロセスはプロセッサの消費電力の5%しか消費しませんか?
- 27. このコードでBSTから削除するには、この行が必要なのはなぜですか?
- 28. ブラウザからAngular Componentに直接アクセスすることはできません
- 29. VBAからDBに接続できませんが、Accessから接続することはできません。
- 30. 私はクリスタルレポートに直接プログラムすることができますか、ビジュアルスタジオが必要ですか?
カフカとflumeは人気のあるストリーミングバックエンドです。あなたのソースにコンシューマーを実装するためのAPIもあります。あなたは何を使いたいですか? – maasg