私は、データストリーム上でマシンラーニングアルゴリズムを実行するためのPOCをやっています。
Spark Streaming - >複数のテーブルのデータを集計 - > Stream of Data上でMLLibを実行する - >出力を生成するというデータを取得するのが最初のアイデアでした。カフカストリーミング+スパークストリーミング+マシンラーニング
しかし、私はコンフルエントのカフカストリーミングを見ています。今私は混乱している!
質問:
1. Spark StreamingとKafka Streamingの違いは何ですか?
2.私はKafka Streaming + Spark Streaming + Machine Learningとどのように結婚することができますか?
3.私の考えは、バッチ訓練ではなく、テストデータを連続的に訓練することです。
お勧めします。