私は美しいスープ+パイソンを使用してウェブサイトの500以上のリンク/サブリンクを削除しましたが、今度はelasticsearchでこのURLのすべてのコンテンツ/テキストを索引することを楽しみにしています私は弾力的な検索/キバナのスタックを使って直接索引付けすることができます。ウェブ検索のコンテンツをelasticsearch/kibanaに
私はポインタで私を助けてください、私はGoogleで検索しようとしたとlogstashが見つかりましたが、それは単一のURLのために働くようです。
私は美しいスープ+パイソンを使用してウェブサイトの500以上のリンク/サブリンクを削除しましたが、今度はelasticsearchでこのURLのすべてのコンテンツ/テキストを索引することを楽しみにしています私は弾力的な検索/キバナのスタックを使って直接索引付けすることができます。ウェブ検索のコンテンツをelasticsearch/kibanaに
私はポインタで私を助けてください、私はGoogleで検索しようとしたとlogstashが見つかりましたが、それは単一のURLのために働くようです。
Logstashの参考のために参照してください。https://www.elastic.co/guide/en/logstash/current/getting-started-with-logstash.html
そうでない場合は、URLごとの行で、ファイルにあなたのクローラの出力を置くの例は、あなたが以下のlogstashの設定を持つことができ、この例では、logstashが読み込まれます1行はメッセージであり、host1とhost2上のエラスティックサーバに送信します。
input {
file {
path => "/an/absolute/path" #The path has to be absolute
start_position => beginning
}
}
output {
elasticsearch{
hosts => ["host1:port1", "host2:port2"] #most of the time the host being the DNS name (localhost as the most basic one), the port is 9200
index => "my_crawler_urls"
workers => 4 #to define depending on your available resources/expected performance
}
}
今もちろん、あなたには、いくつかのフィルタ、クローラの出力の後処理をしたい、そしてそのLogstashのために、私は私ができると思いますcodecsおよび/またはfilters
であなたの可能性を与えるかもしれません参照のために以下のリンクを試してください: http://stackoverflow.com/questions/13647406/how-to-index-dump-of-html-files-to-elasticsearch :) – Anand
または、出力を聞くログスタッシュエージェントを追加することができますあなたのクローラーの力と弾力を与えます。 – Adonis
これを行うにはサンプル参照コードを教えてください。 – Anand