多くのウェブサイトを一度にクロールするためにnutchが用意されていますが、href = "ドメイン名のないリンク" Nutchのは、これらのURLを見抜くことができなかった、以下の はNutchのサイトNutch 2.3.1ドメイン名を持たない内部リンクをクロールしない
# skip file: ftp: and mailto: urls
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
# skip URLs containing certain characters as probable queries, etc.
-[?*[email protected]=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
# accept anything else
<value>true</value> <!-- do not leave the seeded domains (optional) -->
質問は明確ではありません...内部リンクをクロールしたいのですか? –
内部リンクをクロールしたいが、nutchはhrefにドメイン名が含まれていない人を検出しない。 – Hakim