いくつかのトピックでApache nutchを使用してデータをクロールする方法は？

私はapache nutchを使用して、rosettacodeでクロールを実行しています。私はウェブサイト全体をクロールしたくない、ちょうど選択されたトピック（例えば、http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go）をクロールしたい。しかし、私はクロールを実行することができません、それは "私はシードのリストとURLのフィルタをチェックしてください。誰も私はこの問題を解決するのに役立つことができますか？いくつかのトピックでApache nutchを使用してデータをクロールする方法は？

2016-08-18 Rasika

あなたが提供しているURLは、実際に注入段階で拒否しています。

regex-urlfilter.txtにURLを受け入れる正規表現を指定するか、すべてのURLを受け入れることを意味する+.のままにしてください。

-[?*[email protected]=]

上記のパターンはあなたのURLを拒否します。それ以来、それはを含んでいますか？と=

2016-09-23 11:10:07 Abhishek

ありがとうございます。 – Rasika

答えて