Nutchがseed.txtで指定されたURL以外のURLをクロールしない

私はApache Nutch 1.12を使用しています。私がクロールしようとしているURLは、seed.txtファイル内の唯一のエントリですhttps://www.mywebsite.com/abc-def/です。私が実行しようとするとNutchがseed.txtで指定されたURL以外のURLをクロールしない

+^https://www.mywebsite.com/abc-def/(.+)*$

：私は、どのページが私は正規表現-urlfilter.txtに次の行を入れているURLに「ABC-DEF」を持っていませんクロールしたくないので、次のクロールコマンド：

**/bin/crawl -i -D solr.server.url=http://mysolr:3737/solr/coreName $NUTCH_HOME/urls/ $NUTCH_HOME/crawl 3**

これは、クロールやインデックスちょうど1 seed.txt URLをし、第二の反復でそれだけで言う：

Generator: starting at 2017-02-28 09:51:36 

Generator: Selecting best-scoring urls due for fetch. 

Generator: filtering: false 

Generator: normalizing: true 

Generator: topN: 50000 

Generator: 0 records selected for fetching, exiting ... 

Generate returned 1 (no new segments created) 

Escaping loop: no more URLs to fetch now

私はすべてを可能にするために正規表現-urlfilter.txtを変更する場合（ +。）のすべてのURLのインデックス作成を開始しました確かに私がしたくない。

誰かが同じ問題を抱えている場合は、過去の出来事を共有してください。

出典

2017-02-27 Torukmakto

は、最後の2 days.Hereに複数のものを試した後の作業は解決することを得た：私はクロールされたウェブサイトは非常に重かったので

、Nutchの-default.xmlの内のプロパティには、（65536バイトにそれを切り捨てました残念ながら、クロールしたいリンクは選択された部分に含まれていなかったため、nutchはクロールしませんでした.nutch-site.xmlに次の値を入れて無制限に変更したとき、ページをクロールし始めます：

<property> 
    <name>http.content.limit</name> 
    <value>-1</value> 
    <description>The length limit for downloaded content using the http:// 
    protocol, in bytes. If this value is nonnegative (>=0), content longer 
    than it will be truncated; otherwise, no truncation at all. Do not 
    confuse this setting with the file.content.limit setting. 
    </description> 
</property>

出典

2017-03-03 05:23:40 Torukmakto

conf/nutch-default.xmlで利用可能なプロパティを調整することができます。あなたが望むアウトリンクの数を制御したり、フェッチプロパティを変更することができます。プロパティを上書きする場合は、その情報をconf/nutch-site.xmlにコピーし、新しい値をそこに置きます。

出典

2017-02-28 18:41:27

この作品を作成するには、どのプロパティを調整する必要がありますか。私はすでにそれらをnutch-site.xmlにコピーしていくつか試してみましたが、うまくいきませんでした。 – Torukmakto

ですから、基本的にhttps://www.mywebsite.com/abc-def/で外部リンクをクロールしたくないのですか？もしそうなら、 ' db.ignore.external.links'の値を 'true'として設定しようとしますか？私に教えてくださいと私はそれに応じて回答を編集することができます。 –

いいえ、mywebsite.com/abc-def/から始まるパスを持つ内部リンクが必要でした。とにかく、私は問題の解決を得たと思う。助けをありがとう。 – Torukmakto

Nutchがseed.txtで指定されたURL以外のURLをクロールしない

答えて

関連する問題