私はApache Nutch 1.12を使用しています。私がクロールしようとしているURLは、seed.txtファイル内の唯一のエントリですhttps://www.mywebsite.com/abc-def/です。私が実行しようとするとNutchがseed.txtで指定されたURL以外のURLをクロールしない
+^https://www.mywebsite.com/abc-def/(.+)*$
:私は、どのページが私は正規表現-urlfilter.txtに次の行を入れているURLに「ABC-DEF」を持っていませんクロールしたくないので、次のクロールコマンド:
**/bin/crawl -i -D solr.server.url=http://mysolr:3737/solr/coreName $NUTCH_HOME/urls/ $NUTCH_HOME/crawl 3**
これは、クロールやインデックスちょうど1 seed.txt URLをし、第二の反復でそれだけで言う:
Generator: starting at 2017-02-28 09:51:36
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
私はすべてを可能にするために正規表現-urlfilter.txtを変更する場合( +。)のすべてのURLのインデックス作成を開始しました確かに私がしたくない。
誰かが同じ問題を抱えている場合は、過去の出来事を共有してください。
この作品を作成するには、どのプロパティを調整する必要がありますか。私はすでにそれらをnutch-site.xmlにコピーしていくつか試してみましたが、うまくいきませんでした。 – Torukmakto
ですから、基本的にhttps://www.mywebsite.com/abc-def/で外部リンクをクロールしたくないのですか?もしそうなら、 ' db.ignore.external.links 'の値を 'true'として設定しようとしますか?私に教えてくださいと私はそれに応じて回答を編集することができます。 –
いいえ、mywebsite.com/abc-def/から始まるパスを持つ内部リンクが必要でした。とにかく、私は問題の解決を得たと思う。助けをありがとう。 – Torukmakto