私は、今日のWebクローラの作成/カスタマイズについて考え始めました。また、Webクローラ/ロボットエチケットについてはほとんど知りませんでした。私が見つけた礼儀作法の大部分は古くて厄介なように見えるので、Web開発者コミュニティから最新の(そして実用的な)洞察を得たいと思っています。ウェブクローラを作成する際に考慮すべき点は何ですか?
"私はサイトXYZのマークアップが条件ABCを満たしていますか?"という単純な目的のために "ウェブ"を歩くためにクローラを使用したいと思います。
これは私のために多くの疑問を提起するが、私は道から抜け出す必要がある2つの主要な質問が最初だと思う:
- それは行く取得から少し「あやふや」を感じています - この種のものは受け入れられますか?
- 人を怒らせないためにクローラーが取るべき具体的な考慮事項は何ですか?
あなたのスパイダーをサイト管理者に紹介し、あなたの連絡先情報を入力することで、フレンドリーで上層であることがわかるように、連絡先情報をユーザーエージェントに入れることは素晴らしい方法です。自分のサイトにぶつかって問題が発生した場合は、フィードやAPIを入手するために協力する機会があります。その情報を難読化するか、それを提供できないと、すぐに斧の手に届き、あなたのドメインを禁止することによってあなたのアクセスを遮断します。 –