私は、ウェブクロールを初めて利用しています。私が実行する必要がある作業は、Google検索から返された完全なHTTP応答を取得することです。私はウェブのこの部分を抽出する必要がGoogleの検索結果ページから完全なHTMLコンテンツを取得する方法
(XXXXは検索ワードです)XXXXに関連
検索:ブラウザの検索キーワードでGoogleで検索すると、返されたページで、セクションがありますページ。私の研究から、現在のGoogleクローリングパッケージのほとんどは、このセクションの情報を抽出することができません。私は、次のコードで、urllib2のを使用しようとしました:
import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen(req)
strs = con.read()
print strs
私は合法的なHTTP応答のように見えるテキストの大きなチャンクを取得していますが、テキストの中に、「私の検索キーに関連するすべてのコンテンツがありません国際的なビジネスマシン "です。私はおそらく、これは実際のブラウザからの要求ではないことをGoogleが検出することを知っているので、この情報を隠す。これを回避してgoogleの結果の「関連検索」セクションを取得する方法があるかどうかは分かりますか?ありがとう。
http://stackoverflow.com/questions/38619478/google-search-web-scraping-with-python;この解決策を試してください – anonyXmous
@anonyXmous。どうもありがとう。シンプルで魅力的なように働きます。そのトリックは以下を使用することです: from request import get – user1750197