nutch 1.3のcrawldbからURLを削除しますか？

nutch
web-crawler
urlfetch

2011-11-14 7 views 0 likes

Nutch 1.3のサイトをクロールします。今、私はcrawldbからURLを削除したいのですが、どうすればいいですか？私はクローダからどのように読みますか？私はcrawldbに存在するURLを見たい。nutch 1.3のcrawldbからURLを削除しますか？

出典

2011-11-14 helen

答えて

crawlDbから読み込むには、CrawlDBReaderクラス（org.apache.nutch.crawlパッケージ）を使用できます。 crawlDbからURLを削除/削除するには、 "-filter"オプションを指定してCrawlDBMergerクラス（org.apache.nutch.crawlパッケージ）を使用してみてください。しかし、私はあなたのニーズに応じてURLを削除するMapreduceを書くことをお勧めします。

出典

2011-11-15 05:44:02 Varshith

nutch 1.3のcrawldbからURLを削除しますか？

答えて

関連する問題