2016-08-18 10 views
0

私はapache nutchを使用して、rosettacodeでクロールを実行しています。私はウェブサイト全体をクロールしたくない、ちょうど選択されたトピック(例えば、http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go)をクロールしたい。しかし、私はクロールを実行することができません、それは "私はシードのリストとURLのフィルタをチェックしてください。誰も私はこの問題を解決するのに役立つことができますか?いくつかのトピックでApache nutchを使用してデータをクロールする方法は?

答えて

1

あなたが提供しているURLは、実際に注入段階で拒否しています。

regex-urlfilter.txtにURLを受け入れる正規表現を指定するか、すべてのURLを受け入れることを意味する+.のままにしてください。

-[?*[email protected]=] 

上記のパターンはあなたのURLを拒否します。それ以来、それはを含んでいますか?=

+0

ありがとうございます。 – Rasika

関連する問題