2009-06-02 3 views

答えて

1

nutchにはイントラネットクロールがあります。あなたはNutchのウィキからhere

4

を詳細に読むことができます:

Iインデックス私のローカルファイルシステムはどうすればよいですか?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1)クロール-urlfilter.txtファイル許可するように変更を必要とします。http以下のいない間のURL:ものを、それ以外の場合のいずれかではなく、インデックスのもの、またはその上にあなたのディスクをオフにジャンプしますされますウェブサイト。この行を変更し :

-^(file|ftp|mailto|https): 

    to this: 

    -^(http|ftp|mailto|https): 

2)クロール-urlfilter.txtは、いくつかのURLを拒絶するように下部のルールを有することができます。それは、このフラグメントを持っている場合、それはおそらく大丈夫だ:

# accept anything else +.* 

3)私は、次を含めるように私のnutch.xmlを変更:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/> 
+0

正規表現urlfilter.txtは、変更を必要とします – gmlvsv

関連する問題