Nutchのシードリストにクロール中に見つかったURLを挿入する方法

CentOSのLinuxリリース7.3.1611にnutch 1.13とsolr-6.6.0を統合しました。シードリストに/ usr/local/apacheにある約10のURLを与えました-nutch-1.13 /のURL/seed.txt私が使用されるコマンドはNutchのシードリストにクロール中に見つかったURLを挿入する方法

/usr/local/apache-nutch-1.13/bin/crawl -i -D solr.server.url =であるtutorial に従っhttpxxx：8983/Solrの/ Nutchの/ /usr/local/apache-nutch-1.13/urls/クロール100

のために実行するようです1〜2時間。私はsolrで対応する結果を得ます。クロール中は、端末の画面で多くのURLが取得され、解析されるようです。なぜシードリストに追加されていないのですか？

2.私のクローダが成長しているかどうかを知るには？それは約1ヶ月されています。私がsolrで得る唯一の結果は、シードリストとそのリンクからのものです。

3.上記のコマンドは、crontab -eとpleskのスケジュールされたタスクで設定しました。今私は検索クエリの代償として何度も同じリンクを取得します。 solrの結果が重複しないようにするにはどうすればよいですか？

私は初心者ですから、追加情報が参考になります。

出典

2017-10-12 SMJ

1. 1時間または2時間実行されているようです。私はsolrで対応する結果を得ます。クロール中は、端末の画面で多くのURLが取得され、解析されるようです。なぜシードリストに追加されていないのですか？

シードファイルはnutchによって変更されることはありません。シードファイルは注入段階の読み込み専用機能です。

2.私のクローダが成長しているかどうかを知るには？あなたは、私はいつも良いトリックはNutchので提供クロールスクリプト内でこのコマンドを置くことである。この

crawl.CrawlDbReader - Statistics for CrawlDb: test/crawldb 
crawl.CrawlDbReader - TOTAL urls: 5584 
crawl.CrawlDbReader - shortest fetch interval: 30 days, 00:00:00 
crawl.CrawlDbReader - avg fetch interval: 30 days, 01:14:16 
crawl.CrawlDbReader - longest fetch interval:  42 days, 00:00:00 
crawl.CrawlDbReader - earliest fetch time:  Tue Nov 07 09:50:00 CET 2017 
crawl.CrawlDbReader - avg of fetch times: Tue Nov 14 11:26:00 CET 2017 
crawl.CrawlDbReader - latest fetch time: Tue Dec 19 09:45:00 CET 2017 
crawl.CrawlDbReader - retry 0: 5584 
crawl.CrawlDbReader - min score: 0.0 
crawl.CrawlDbReader - avg score: 5.463825E-4 
crawl.CrawlDbReader - max score: 1.013 
crawl.CrawlDbReader - status 1 (db_unfetched): 4278 
crawl.CrawlDbReader - status 2 (db_fetched):  1014 
crawl.CrawlDbReader - status 4 (db_redir_temp): 116 
crawl.CrawlDbReader - status 5 (db_redir_perm): 19 
crawl.CrawlDbReader - status 6 (db_notmodified): 24

のようなものを取得する必要がありますreaddb -statsオプション、見てみる必要があります

（ビン/クロール）、ループ内

for for ((a=1; ; a++)) 
do 
... 
> echo "stats" 
> __bin_nutch readdb "$CRAWL_PATH"/crawldb -stats 
done

それは約一ヶ月をされていると私はSolrのに乗るだけの結果はシード・リストとそのリンクからのものs。

原因が複数ある場合は、各段階の出力を確認し、ファンネルの仕組みを確認する必要があります。

3.上記のコマンドは、crontab -eとpleskのスケジュールされたタスクで設定しました。今私は検索クエリの代償として何度も同じリンクを取得します。 solrの結果が重複しないようにするにはどうすればよいですか？

nutchデフォルトのソルバースキーマを使用していると思いますが、urlとidのフィールドを確認してください。私が働いている限り、idはURLの一意の識別子です（コンテンツがリダイレクトされる可能性があります）

出典

2017-11-07 15:40:43 wideawakening

Nutchのシードリストにクロール中に見つかったURLを挿入する方法

答えて

関連する問題