4
A
答えて
1
nutchにはイントラネットクロールがあります。あなたはNutchのウィキからhere
4
を詳細に読むことができます:
Iインデックス私のローカルファイルシステムはどうすればよいですか?
http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6
1)クロール-urlfilter.txtファイル許可するように変更を必要とします。http以下のいない間のURL:ものを、それ以外の場合のいずれかではなく、インデックスのもの、またはその上にあなたのディスクをオフにジャンプしますされますウェブサイト。この行を変更し :
-^(file|ftp|mailto|https):
to this:
-^(http|ftp|mailto|https):
2)クロール-urlfilter.txtは、いくつかのURLを拒絶するように下部のルールを有することができます。それは、このフラグメントを持っている場合、それはおそらく大丈夫だ:
# accept anything else +.*
3)私は、次を含めるように私のnutch.xmlを変更:
<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>
関連する問題
- 1. nutch 1.4の設定方法は?
- 2. 新しいscoringFilterプラグインを作成するために、apache nutchの各URLのanchorTextを取得する方法は?
- 3. のApache Nutchは - NoSuchMethodError
- 4. Nutchで深くクロールする方法
- 5. Apache Nutch 2.3をカスタマイズする方法
- 6. マスターデータベースの作成方法は?
- 7. スタンドアロンデータベースアプリケーションの作成方法は?
- 8. ユニバーサルアプリケーションの作成方法は?
- 9. バックグラウンドアプリケーションの作成方法は?
- 10. ビデオグリッドの作成方法は?
- 11. ARRAYの作成方法は?
- 12. メディアセクションの作成方法は?
- 13. オーバーレイモバイルメニューの作成方法は?
- 14. フォントアイコンの作成方法は?
- 15. movingPlatformの作成方法は?
- 16. リジッドアーキテクチャーの作成方法は?
- 17. スライドアニメーションの作成方法は?
- 18. イテレータの作成方法は?
- 19. リアルタイムマルチライングラフの作成方法は?
- 20. リボンプロットの作成方法は?
- 21. テンプレートの作成方法は?
- 22. XWalkWebResourceResponseの作成方法は?
- 23. マップテキストテキストオブジェクトの作成方法は?
- 24. パラレルパイプラインの作成方法は?
- 25. モーダルウィンドウの作成方法は?
- 26. フローティングヘルプレイアウトの作成方法は?
- 27. Oracle:spfile.oraの作成方法は?
- 28. ビデオフィルフレームの作成方法は?
- 29. サブワーカーの作成方法は?
- 30. エクスポートドッカーの作成方法は?
正規表現urlfilter.txtは、変更を必要とします – gmlvsv