2011-11-14 6 views
0

Nutch 1.3のサイトをクロールします。今、私はcrawldbからURLを削除したいのですが、どうすればいいですか?私はクローダからどのように読みますか?私はcrawldbに存在するURLを見たい。nutch 1.3のcrawldbからURLを削除しますか?

答えて

0

crawlDbから読み込むには、CrawlDBReaderクラス(org.apache.nutch.crawlパッケージ)を使用できます。 crawlDbからURLを削除/削除するには、 "-filter"オプションを指定してCrawlDBMergerクラス(org.apache.nutch.crawlパッケージ)を使用してみてください。しかし、私はあなたのニーズに応じてURLを削除するMapreduceを書くことをお勧めします。