私はNiFiで作業しています(最近、私のニーズに合っているようです)。私たちは最近Spark/Hadoopクラスターを立ち上げ、Elasticsearchを約2年かかっています。私の目標は、ElasticsearchからHDFS(具体的にはsyslog)に特定のインデックスを取得することです。私は、異常検出のための機械学習プロジェクトを行っていますが、HDFSのデータを処理して高速化する必要があります。NiFiを使用してElasticsearch Indexを取得する
私たちのsyslogインデックスは毎日異なります(logstash-syslog-2017-11-20、など)。など、私のHDFSに私が各インデックス(日)のためのメッセージのテキストファイルを持っているだろう、最終的には
ES -> NiFi -> Parse JSON to give me back text -> write each message to its own line in a text file.
:私だけですので、基本的に私は何をしたいのか、のsyslogからのメッセージを必要とします
syslog-2017-11-19
syslog-2017-11-20
syslog-2017-11-21
などが....
私はカップルの事に困惑しています:
は、コンポーネントの旧姓は何ですかこれを構築するためにded? GenerateFlowFileがあることがわかります。これは、インデックス名を動的にする必要があると思います。
インデックス全体を取得したいので、「ScrollElasticSearchHttp」を使用する必要があると思いますが、わかりません。他にもオプションがありますが、私は何が最善であるか分かりません。 PySparkを使用するときは、ES-Hadoopコネクタを使用してインデックス全体を取得する簡単なクエリを実行しましたが、スクロールサイズを10kに増やして高速化する必要がありました。ちょうど私が使用しているはずのプロセッサを混乱させる。
誰かが私にこの(何プロセッサー、コネクタなど)の構造のアイデアを与えることができれば、私は、これは素晴らしいことだ、私のHDFSにESからのsyslogからのメッセージのインデックスを取得する必要があります。まだこれを学んでいるので、これについて私の無知を許してください。助けてくれてありがとう!
コメントは議論の対象外です。この会話は[チャットに移動]されています(http://chat.stackoverflow.com/rooms/160304/discussion-on-question-by-azdatasci-using-nifi-to-pull-elasticsearch-indexes)。 – Andy