2016-03-31 2 views
0

Nutch 1.10; 1つのTLD上でクロールされるサブドメインの数を100に制限するデフォルト設定があります。誰かがこのデフォルトを上書きする方法を教えてもらえますか?Nutch 1.10 - 同じTLDで100を超えるサブドメインをクロールしません

私は成功せず、Nutchの-site.xmlの中で次のことを試してくださいました:

<property> 
    <name>generate.max.per.host</name> 
    <value>300</value> 
</property>enter code here 

答えて

1

Nutchの中のサブドメインの数に制限はありません。どう思う?あなたはどのようにサブドメインを発見しましたか?

1つのページからのリンクの場合、「db.max.outlinks.per.page」(デフォルトは100)が制限されます。これはサブドメインにかかわらずアウトリンクを制限します

+0

ジュリアンありがとうございました - 実際問題はナッチがTLDのサブドメインの数に制限されていないことでした。理由は私がファセットクエリを実行し、100の結果しか返さなかったためだと思った。これは私が知らなかった100の結果のfacet.limitのデフォルトによるものです。私は-1に設定し、すべての結果を返しました。 – rscavilla