現在、HDFSに保存されているログを出力するスパークストリーミングジョブがあり、logstashで処理したいと思っています。残念ながら、logstashのhdfsに書き込むプラグインはありますが、実際にははhdfsからを読み込むことは不可能です。Spark出力をLogstash入力にリンクする方法
私は2つの部分をリンクするためのソリューションを探しましたが、これまでのところ、Python APIのためのSparkストリーミングでは、何かを保存する唯一の方法はhdfsにテキストファイルとして書き込む方法です。 ! Sparkはクラスタ上で動作するため、ローカルには保存できません。各ノードからすべてのデータを取得する必要はありません。
現在、私は非常に汚いスクリプトを実行して、2秒ごとにhdfsディレクトリlocalyに内容をコピーします。しかし、この解決法は明らかに満足できるものではありません。
誰かがSparkの出力をLogstashに送信するのに役立つソフトウェアを知っていますか?
ありがとうございます!
EDIT:私は、Python &スパークを使用1.6.0
これらはLog4jによって生成されるログですか? –
いいえ、これは機械学習アルゴリズムに基づいていくつかの機能を追加するSparkによって処理されるApacheログです。 –