NutchがクロールしたWebページの数を調べる方法は？

Nutchのクロールが終了したら、Nutchが実際にクロールしたWebページの数を見つけたり、判断したりできますか？NutchがクロールしたWebページの数を調べる方法は？

2017-05-16 Ali Naaz

が-statsとreaddbコマンドを使用し、これはあなたが使用できる状態

2017-05-16 19:56:57

bin/nutch readdb crawl -statsがエラーを返します。 InvalidInputException。 .../crawl/currentは存在しません。クロールが完了した後、私はクロールディレクトリに触れていません。 –

あたりの内訳を与えるreaddb

bin/nutch readdb crawl/crawldb -stats

例：bin/nutch readdb crawl/dabfolder/crawldb -stats

出力は次のようになりますように：

Statistics for CrawlDb: crawl/dabfolder/crawldb/ 
TOTAL urls: 563390 
shortest fetch interval: 30 days, 00:00:00 
avg fetch interval: 30 days, 00:43:49 
longest fetch interval: 45 days, 00:00:00 
earliest fetch time: Fri Jun 02 11:57:00 IST 2017 
avg of fetch times: Sun Jun 04 14:46:00 IST 2017 
latest fetch time: Mon Jul 17 11:54:00 IST 2017 
retry 0: 560279 
retry 1: 3111 
min score: 0.0 
avg score: 0.1028828 
max score: 195.854 
status 1 (db_unfetched): 524278 
status 2 (db_fetched): 17615 
status 3 (db_gone): 1143 
status 4 (db_redir_temp): 8428 
status 5 (db_redir_perm): 11800 
status 7 (db_duplicate): 126 
CrawlDb statistics: done

出典

2017-06-07 11:29:31

NutchがクロールしたWebページの数を調べる方法は？

答えて

関連する問題