私は電子メールにURLをクロールするツールを書いています。私たちがクローラであることを訪問先のURLに伝える方法があるので、ユーザーはメーリングリストから購読または購読を解除したり、URL内の他の動作が取られたりすることはありません。メーリングリストの人の購読を禁止するようなURLをクロールするのを避けるにはどうすればいいですか?
それ以外の場合は、何か行動を起こしたいと思っている人がURLを訪れるだけであることを一般的に知るスマートな方法はありますか?
私は電子メールにURLをクロールするツールを書いています。私たちがクローラであることを訪問先のURLに伝える方法があるので、ユーザーはメーリングリストから購読または購読を解除したり、URL内の他の動作が取られたりすることはありません。メーリングリストの人の購読を禁止するようなURLをクロールするのを避けるにはどうすればいいですか?
それ以外の場合は、何か行動を起こしたいと思っている人がURLを訪れるだけであることを一般的に知るスマートな方法はありますか?
一般に、
特定のURLに特に何かがあるかどうかを確実に推測する方法はありません(「退会」などのパターンを探すことはできますが、それはほとんど信頼できません)。
HTTPリクエストを行うときに設定できる魔法の「私はロボットです」というフラグはありません。
とにかく役立つ方法の1つは、サイトのルートにあるrobots.txtファイルに従うことです。
サイト作成者は、クローラが迷惑にならないように、この設定を行う必要があります。
スチュワート。
あなたが電子メールのリンクを扱っているとき、彼らはあなたの顧客を購読/購読解除することがおそらくあなたの心配の中で最も少なくなることを目標にしています。ユーザーが電子メールをスパムとしてマークする前にスパムを受け取り、リンクをクロールすると想像してください:単に迷惑メールからのリンクを訪れるだけで、電子メールアドレスが有効であり、ユーザーが* *さらに多くのスパム!**難しい状況、あなたは本当に電子メールの内容を勉強して、間違ったリンクを訪問しないようにしなければならないようです。 – Kiril