2017-04-18 4 views
0

私は、ウェブクロールを初めて利用しています。私が実行する必要がある作業は、Google検索から返された完全なHTTP応答を取得することです。私はウェブのこの部分を抽出する必要がGoogleの検索結果ページから完全なHTMLコンテンツを取得する方法

(XXXXは検索ワードです)XXXXに関連

検索:ブラウザの検索キーワードでGoogleで検索すると、返されたページで、セクションがありますページ。私の研究から、現在のGoogleクローリングパッケージのほとんどは、このセクションの情報を抽出することができません。私は、次のコードで、urllib2のを使用しようとしました:

import urllib2 
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187" 
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'}) 
con = urllib2.urlopen(req) 
strs = con.read() 
print strs 

私は合法的なHTTP応答のように見えるテキストの大きなチャンクを取得していますが、テキストの中に、「私の検索キーに関連するすべてのコンテンツがありません国際的なビジネスマシン "です。私はおそらく、これは実際のブラウザからの要求ではないことをGoogleが検出することを知っているので、この情報を隠す。これを回避してgoogleの結果の「関連検索」セクションを取得する方法があるかどうかは分かりますか?ありがとう。

+0

http://stackoverflow.com/questions/38619478/google-search-web-scraping-with-python;この解決策を試してください – anonyXmous

+0

@anonyXmous。どうもありがとう。シンプルで魅力的なように働きます。そのトリックは以下を使用することです: from request import get – user1750197

答えて

0

が@anonyXmousによって指摘されている。参照する便利なポストはここにある:

from requests import get 
keyword = "internation business machine" 
url = "https://google.com/search?q="+keyword 
raw = get(url).text 
print raw 

Google Search Web Scraping with Python

私は "生" で必要なテキストを取得することができる午前

関連する問題