2017-07-07 4 views
0

Googleがpythonを使用してサイトをブラックリストに登録しているかどうかを確認できますか?私が試した:またはそのような何か「あなたは誤解を招くようなページを入力している」ためPython - Googleによってサイトがブラックリストに登録されているかどうかをチェック

try: 
      opener = requests.get(strona['url'], headers={ 
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) \ 
       AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 \ 
       Safari/537.36' 
      }) 
      tekst_html = opener.text 

と検索tekst_htmlを。私はhtmlソースにそのようなフレーズがないことを認識しました。私はそれが警告を示す外部のスクリプトだと思う。

これは、ブラックリストにサイトの例です:http://www.forum.dietaproteinowa.eu/

答えて

1

ユーザエージェントは、それがコンテンツサイトが送信するかを制御するものブラウザディスプレイ、制御しません。サイトはクロムによってブロックされるため、クロムエンジンはブロックを実行する必要があります。それはサイトサーバーによって制御されていた場合、それはかなりばかげているだろう: "ねえ、この男はクロムを使用しているようだが、Googleはブラックリストに載っているので、彼はコンテンツを送信しないでください、

このサイトがクロームでブラックリストに載っているかどうかを確認するには、基本的にクロームを物理的に実行する必要があります。ありがたいことに、pythonはseleniumモジュールとchromeドライバを使用してあなたのためにそれを行うことができます。

セレンを使用すると、セレンが受け取ったソースコードをロードして、<html>タグがblacklistedクラスであるかどうかを確認して、クロムドライバを実行して、指定されたサイトを開くようドライバに要求します。

ブラウザがポップアップしないようにするには、セレンの特定のトリックを使用できます。たとえばLinuxの場合、Pythonで仮想ディスプレイを作成し、その仮想ディスプレイ内でchromeドライバを実行できます。

関連する問題