Nutchを使用してページをクロールしました。このクロールされたページはセグメントとして保存されることを理解しています。このページから特定のキー値を抽出し、それをxmlとしてsolrにフィードしたいと思います。Nutchを使用してクロールされたページの後処理
サンプルの状況では、多くの商品リストを含むショッピングウェブサイトをクロールしています。私は、名前、価格、製品の仕様などの重要な情報を抽出し、残りのデータは無視したいと考えています。だから、私はいくつかのxmlをsolrに提供するかもしれません qwerty123qwerty これは、solrを使用して、価格に基づいて異なる商品リストをソートできるようにするためです。
この抽出部分はどのように実行できますか?地図の縮小はどこにでもありますか?
これは実際にはHTMLではありません。抽出部分は実際には単純な正規表現で行うことができます。 nutchによって作成されたこのセグメントを解析するための特定のソリューションがあれば、私は考えていました。 – qwerty123
Nutchはhttpのテキストを取得します。 – bmargulies
はい。しかし、htmlやtxt形式ではなく、他の形式で保存されているようです – qwerty123