2012-12-15 10 views
10

記事を取得するためのフレームワークを探していますが、Nutch 2.1が見つかりました。ここに私の計画との質問には、それぞれにあります:Nutchを記事のクロールに拡張する方法

ここに1つの問題はのURL/seed.txt へ記事一覧ページを追加します。私が実際に索引付けしたいのは記事一覧ページではなく、記事一覧ページです。しかし、もし私がリストページを索引付けすることを許可しなければ、リストページは入り口なので何もしません。だから、どのように記事ページだけをリストページなしでインデックスできますか?

「著者」、「日付」、「物品本体」、「見出し」とhtmlから多分他の情報を解析するためのプラグインを書きます。 解析getParse(文字列のURL、ウェブページのページ) そして、 'ウェブページ' クラスは、いくつかの定義済みのattributsがあります:Nutchの2.1 'パーサ' プラグインインターフェイスがある

public class WebPage extends PersistentBase { 
    // ... 
    private Utf8 baseUrl; 
    // ... 
    private ByteBuffer content; // <== This becomes null in IndexFilter 
    // ... 
    private Utf8 title; 
    private Utf8 text; 
    // ... 
    private Map<Utf8,Utf8> headers; 
    private Map<Utf8,Utf8> outlinks; 
    private Map<Utf8,Utf8> inlinks; 
    private Map<Utf8,Utf8> markers; 
    private Map<Utf8,ByteBuffer> metadata; 
    // ... 
} 

So, as you can see, there are 5 maps I can put my specified attributes in. But, 'headers', 'outlinks', 'inlinks' seem not used for this. Maybe I could put those information into markers or metadata. Are they designed for this purpose? 
BTW, the Parser in trunk looks like: 'public ParseResult getParse(Content content)', and seems more reasonable for me. 

記事がされた後Solrに索引付けされていれば、別のアプリケーションが 'date'でそれを照会し、記事情報をMysqlに格納することができます。 私の質問はここにあります:NutchはMysqlに直接記事を保存できますか?または、インデックスの動作を指定するためのプラグインを作成できますか?

Nutchは私の目的に適していますか?もしそうでなければ、あなたは私のために別の良質のフレームワーク/ライブラリを提案していますか? ご協力いただきありがとうございます。

答えて

1

いくつかのウェブサイトからの記事抽出は、あなたが探しているものすべてである場合には、http://www.crawl-anywhere.com/

をチェックアウトそれはあなたが(素晴らしいです)boilerpipe記事抽出を使用することを指定することができ、管理UIが付属しています。クロールするページとクロールしてインデックスを付けるページを照合するURLパターンを指定することもできます。

+0

内部のクロールの中のドキュメント私はcouldntの機能を見つけることができます。この機能を通して、(ウェブページのHTML本体全体よりも)記事本文のみを抽出することができます。 –

関連する問題