2016-11-11 9 views
2

CrunchbaseやGlassdoorのようなサイトはすべてDistil Networksによって保護されていますが、プログラムでこれらのサイトからデータを取得する方法はありますか?私はScrapy + Splashを試していましたが、どういうわけか彼らはこれを検出することができます。あなたのリクエスト/ JavaScriptのバリデーションをブラウザと区別できないようにする他の方法はありますか?ボット保護(Distil Networks)を使用してCrunchbaseをクロールする方法は?

答えて

3

これはまさに正解ではないかもしれませんが、ちょっと遅いですが、フィドラー(私のお気に入り)でブラウザをトレースし、url、ヘッダー、蒸留タグ、ヘッダー、クッキーを持つクッキーをチェックしてみてください、次 ...シオマネキに 『蒸留』で検索するとき、私は何を得るの一部である enter image description here イエローcolloredリクエスト:「例えば

..... =の.js要求がクエリがPIDをparamsは持っご覧くださいっ"/trsnsvdstl-ce.js" ソースをチェックすると、長いPID = ...番号とX-Distil-Ajaxヘッダーが正しく表示されます。たくさんのc ookies containint D_XXX = そして、あなたが同じ要求をしてからUrlDecode pを入力すると、パラメータp =を見ることができます。興味深いことに、ツールのような多くのマシンパラメータがありますあなたのブラウザには、解像度などがあります。それは指紋です。

まあ、この時点で、私はこれ以上掘り下げることはできません。 また、何かを助けてくれるのですが、お金がかかるのは良いprox'ysです。私は自由でゆっくりと話すのではなく、アマゾンの雲のようなものについて話しています。プロキシの場合は

これは今のところ、私の市の英語と幸運のために申し訳ありません! :)

+0

私の経験では、プロキシは最初は機能するが、すぐに作業をやめてリダイレクトする – eusid

関連する問題