2017-11-20 5 views
1

私はNiFiで作業しています(最近、私のニーズに合っているようです)。私たちは最近Spark/Hadoopクラスターを立ち上げ、Elasticsearchを約2年かかっています。私の目標は、ElasticsearchからHDFS(具体的にはsyslog)に特定のインデックスを取得することです。私は、異常検出のための機械学習プロジェクトを行っていますが、HDFSのデータを処理して高速化する必要があります。NiFiを使用してElasticsearch Indexを取得する

私たちのsyslogインデックスは毎日異なります(logstash-syslog-2017-11-20、など)。など、私のHDFSに私が各インデックス(日)のためのメッセージのテキストファイルを持っているだろう、最終的には

ES -> NiFi -> Parse JSON to give me back text -> write each message to its own line in a text file. 

:私だけですので、基本的に私は何をしたいのか、のsyslogからのメッセージを必要とします

syslog-2017-11-19 
syslog-2017-11-20 
syslog-2017-11-21 

などが....

私はカップルの事に困惑しています:

  1. は、コンポーネントの旧姓は何ですかこれを構築するためにded? GenerateFlowFileがあることがわかります。これは、インデックス名を動的にする必要があると思います。

  2. インデックス全体を取得したいので、「ScrollElasticSearchHttp」を使用する必要があると思いますが、わかりません。他にもオプションがありますが、私は何が最善であるか分かりません。 PySparkを使用するときは、ES-Hadoopコネクタを使用してインデックス全体を取得する簡単なクエリを実行しましたが、スクロールサイズを10kに増やして高速化する必要がありました。ちょうど私が使用しているはずのプロセッサを混乱させる。

誰かが私にこの(何プロセッサー、コネクタなど)の構造のアイデアを与えることができれば、私は、これは素晴らしいことだ、私のHDFSにESからのsyslogからのメッセージのインデックスを取得する必要があります。まだこれを学んでいるので、これについて私の無知を許してください。助けてくれてありがとう!

+0

コメントは議論の対象外です。この会話は[チャットに移動]されています(http://chat.stackoverflow.com/rooms/160304/discussion-on-question-by-azdatasci-using-nifi-to-pull-elasticsearch-indexes)。 – Andy

答えて

1

プロセッサーもListenBeatsです。 LogstashをNiFiにリダイレクトすると、NifiはELとHDFの両方に書き込むことができます。これがNiFiをあなたのクリティカルパスに当てはめることは事実です。

独自のプロセッサを作成する可能性もあります。これを非常に簡単に行うことができます。ちょうど後でthis article

私は最近ニファイを見つけたと私は素晴らしいと思います。それと少し遊んだので、私は専門家ではありません。

+0

上記のようにScrollElasticsearchHttpプロセッサを使用してしまったので、いくつかのオプションが正しくフォーマットされていないようでした。適切なフォーマットを取得したら、それは機能しました。私は、NiFiのドキュメントには、フォーマットを示した明示的な例と例が多く、ES-Hadoopでフォーマットされたオプションとは区別されることを望みます。とにかく物事は今働いている。私は自分自身のプロセッサーを書くことに興味を持っています - これについてのガイドや何かがありますか? – azdatasci

+1

答えのリンクをたどってください。そこにはガイドと例があります。 – sbiz

+0

Duh ...申し訳ありません、あなたは完全に私にリンクを与えて、それについて尋ねました。私はそのリンクをチェックアウトしました、良いもの。私は今ScrollElasticSearchHttpは私の答えだと思うが、私は、異種データソースの膨大な在庫に基づいて、いつかこれを必要とするだろうと思う。良い情報。 – azdatasci

関連する問題