2010-12-18 1 views
0

EclipseのNutchを使用してクロールを実行しようとしています。空のNutchのクロールリスト

私は、URLと呼ばれるファイルを使用していて、それは私がプロジェクトを実行すると、Generatorクラスは、その私に語った、しかし

http://www.google.com/

が含まれています

「0レコードがフェッチのために選択しました、終了 "

この問題を解決するにはどうすればよいですか?

私はこれらのドキュメンテーションに従ってきました:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任意の助けいただければ幸いです。

答えて

1

最近、この問題が発生し、ほとんどの回答が(regex | crawl)-urlfiters.txtに関連することが判明しました。チェックするもう1つの方法は、あなたの '-topN'設定です。これは、ジェネレータがすべてのフィルタを通過させるのに十分な大きさである必要があります。

こちらがお役に立てば幸いです。

0

おそらくあなたのregex-urlfilter.xmlです。これを使って試してみて、それが問題

修正かどうかを確認 - ^(ファイル| FTP | mailtoの):

- (GIF | GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO |ドキュメントを。 MOV | exe | jpeg | JPEG | bmp | BMP)$

(英語)| | | | | | | | | | | | | | | | | - 。*(/ [^ /] +)/ [^ /] + \ 1/[^ /] + \ 1/

+。