2017-03-13 12 views
0

多くのウェブサイトを一度にクロールするためにnutchが用意されていますが、href = "ドメイン名のないリンク" Nutchのは、これらのURLを見抜くことができなかった、以下の はNutchのサイトNutch 2.3.1ドメイン名を持たない内部リンクをクロールしない

conf/regex-urlfilter.txt 
# skip file: ftp: and mailto: urls 
-^(file|ftp|mailto): 

# skip image and other suffixes we can't yet parse 
# for a more extensive coverage use the urlfilter-suffix plugin 
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$ 

# skip URLs containing certain characters as probable queries, etc. 
-[?*[email protected]=] 

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops 
-.*(/[^/]+)/[^/]+\1/[^/]+\1/ 

# accept anything else 
+. 

である私は

<property> 
<name>db.ignore.internal.links</name> 
<value>true</value> <!-- do not leave the seeded domains (optional) --> 
</property> 

誰かが私が何をすべき私に伝えることができ、デフォルトのNutchの-defaults.confに変更しました。

+0

質問は明確ではありません...内部リンクをクロールしたいのですか? –

+0

内部リンクをクロールしたいが、nutchはhrefにドメイン名が含まれていない人を検出しない。 – Hakim

答えて

0

私はドメイン名を持たないリンクを持っています。私たちはhref = 'www.site.com/linktext'を持っていると仮定して同じサイトのリンクです。 Nutchはこれらのリンクを全く見なかった。ドメイン名を含むものしか検出しなかった。

+0

この問題を解決しましたか?私も同様の問題に直面しています。私はbuzzfeedをクロールしようとしており、相対URLを取得することはできません。データベースの更新中、すなわち更新されたb段階中に作成された文書はありません。 –

関連する問題