多くのウェブサイトを一度にクロールするためにnutchが用意されていますが、href = "ドメイン名のないリンク" Nutchのは、これらのURLを見抜くことができなかった、以下の はNutchのサイトNutch 2.3.1ドメイン名を持たない内部リンクをクロールしない
conf/regex-urlfilter.txt
# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
# skip URLs containing certain characters as probable queries, etc.
-[?*[email protected]=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
# accept anything else
+.
である私は
<property>
<name>db.ignore.internal.links</name>
<value>true</value> <!-- do not leave the seeded domains (optional) -->
</property>
誰かが私が何をすべき私に伝えることができ、デフォルトのNutchの-defaults.confに変更しました。
質問は明確ではありません...内部リンクをクロールしたいのですか? –
内部リンクをクロールしたいが、nutchはhrefにドメイン名が含まれていない人を検出しない。 – Hakim