3

私はネットワークを監視して分析するための分散リアルタイムクラスタシステムの構築に取り組んでいます。私は、インターネット上でいくつかの研究を行なったし、私はいくつかの技術で出てきた:リアルタイム処理用logstah vs sparkストリーミングとストーム

  • :logstash、嵐や保管のために
  • ストリーミングのapache:分析のため
  • をelasticsearch:ApacheのスパークHadoopの上で(私はデータの視覚化のために
  • )Elasticsearchと接続するためにES-のHadoopを使用します。kibana、D3jsは、

をc3jsしかし、logstashは、多くの場合、スパークストリーミングと嵐として言及されていません。

  1. 私はlogstashは、多くの場合、実ティムとして言及されていない理由を理解していない:私は2つの質問がある

    enter image description here

    :私はインターネットで下の写真の提示、次のアーキテクチャを見つけましたスパークストリーミングや嵐のような処理システム。主な理由は何ですか?私はそれを使用しており、それは非常に強力です。

  2. Analyzeの部分については、その構成でlibrairiesを学習するマシンを使用できますか?

+1

おそらく私の質問は明確ではありませんが、スパークストリーミングとストームに関してログスタッシュを選択しない主な理由は何でしょうか?私はインターネットで比較を見つけることができないので、私はこの質問に答えることは非常に困難です。 もう一度ありがとうございます。 –

答えて

2
  1. Logstashクラスタストリーム処理システムではありません。これは単なるJVMベースのプロセスです。最新バージョンはディスクバッファをサポートしていますが、SparkやStormとほとんど同じ配送保証はありません。ご覧くださいhttp://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
  2. はい、データを格納するために弾性を使用する理由はわかりません。なぜHDFS-> SparkML-> Elastic?ここで考えるべき主なものは、モデルの管理、訓練とテストです。
関連する問題