2012-03-06 10 views
0

Nutchを使用してページをクロールしました。このクロールされたページはセグメントとして保存されることを理解しています。このページから特定のキー値を抽出し、それをxmlとしてsolrにフィードしたいと思います。Nutchを使用してクロールされたページの後処理

サンプルの状況では、多くの商品リストを含むショッピングウェブサイトをクロールしています。私は、名前、価格、製品の仕様などの重要な情報を抽出し、残りのデータは無視したいと考えています。だから、私はいくつかのxmlをsolrに提供するかもしれません qwerty123qwerty これは、solrを使用して、価格に基づいて異なる商品リストをソートできるようにするためです。

この抽出部分はどのように実行できますか?地図の縮小はどこにでもありますか?

答えて

1

生のWebページを情報に変換することは簡単な作業ではありません。この仕事に使用されるツールの1つがボイラパイプです。しかし、それはあなたにプレート上の解決策を与えることはありません。

固定ターゲットで作業している場合は、独自の手続き型コードを作成して、必要なデータを見つけることができます。任意のHTMLでこの種のものを見つけ出す必要がある場合は、既製のソリューションでは非常に難しい問題に直面しています。

+0

これは実際にはHTMLではありません。抽出部分は実際には単純な正規表現で行うことができます。 nutchによって作成されたこのセグメントを解析するための特定のソリューションがあれば、私は考えていました。 – qwerty123

+0

Nutchはhttpのテキストを取得します。 – bmargulies

+0

はい。しかし、htmlやtxt形式ではなく、他の形式で保存されているようです – qwerty123

関連する問題