CentOSのLinuxリリース7.3.1611にnutch 1.13とsolr-6.6.0を統合しました。シードリストに/ usr/local/apacheにある約10のURLを与えました-nutch-1.13 /のURL/seed.txt私が使用されるコマンドはNutchのシードリストにクロール中に見つかったURLを挿入する方法
/usr/local/apache-nutch-1.13/bin/crawl -i -D solr.server.url =であるtutorial に従っhttpxxx:8983/Solrの/ Nutchの/ /usr/local/apache-nutch-1.13/urls/クロール100
- のために実行するようです1〜2時間。私はsolrで対応する結果を得ます。クロール中は、端末の画面で多くのURLが取得され、解析されるようです。なぜシードリストに追加されていないのですか?
2.私のクローダが成長しているかどうかを知るには?それは約1ヶ月されています。私がsolrで得る唯一の結果は、シードリストとそのリンクからのものです。
3.上記のコマンドは、crontab -eとpleskのスケジュールされたタスクで設定しました。今私は検索クエリの代償として何度も同じリンクを取得します。 solrの結果が重複しないようにするにはどうすればよいですか?
私は初心者ですから、追加情報が参考になります。