2016-04-17 3 views
0

私はapache nutchを使用してウェブをクロールしました。私は2ラウンドをフェッチしました。これは、取得されたステータスとして21のURLを、そして未取得のステータスとして537のURLを含むクロールデータベースを生成しました。何らかの理由でフェッチされたcrawldb内のすべてのリンクのステータスを更新したいとします。ステータスを更新する方法はありますか?apache nutchのcrawldbでフェッチステータスを更新するにはどうすればよいですか?

答えて

0

私は私の質問に答えて、皆さんと共有したいと思っていました。 2ラウンドをフェッチした後、コマンド 'bin/nutch updatedb crawl/crawldb $ s2'を使ってdbを更新しました。その後、dbは新しいURLで更新され、ステータスは 'unfetched'となります。しかし、 'bin/nutch updatedb crawl/crawldb $ s2 -noAdditions'を実行すると、新しいURLがdbに追加されず、既存のURLステータスが 'fetched'になります。

関連する問題