1
各クロールされたドメインのユーザーエージェント文字列を変更する必要があります。私は標準のNutchクロールユーティリティーコードを使用して、時間ごとに1つのドメインをクロールします。マルチスレッドモードで開始され、多くのドメインをクロールします。ドメイン文字列[botname] + domainIDに渡す必要がありますが、実装する方法がわかりません。Nutch 1.3:ユーザーエージェントを変更する
各クロールされたドメインのユーザーエージェント文字列を変更する必要があります。私は標準のNutchクロールユーティリティーコードを使用して、時間ごとに1つのドメインをクロールします。マルチスレッドモードで開始され、多くのドメインをクロールします。ドメイン文字列[botname] + domainIDに渡す必要がありますが、実装する方法がわかりません。Nutch 1.3:ユーザーエージェントを変更する
ユーザエージェントは設定ファイル(nutch-site.xml)に表示されるため、特定のドメインのユーザエージェントを変更する可能性はありません。
クロールするドメインごとにnutchのインスタンスを作成することをお勧めします。各インスタンス内で、クロールするドメインに一致するURLフィルタ、シードURL、およびユーザーエージェントを設定します。
これにより、カスタム設定で各クロールを実行できるようになります。
歓声マナ