私はちょうどPythonでWebを掻き集めて壁に当たっています。 リクエストライブラリを使用して、WebサイトからHTMLコードを取得しています。たとえば、Googleの検索結果のウェブサイト:「https://www.google.com/?gws_rd=ssl#q=ball」requests.get()からすべてのHTMLを取得する
私はF12をヒットし、HTMLをチェックし、それはよりも違って見える:
requests.get
と
site = requests.get("https://www.google.com/?gws_rd=ssl#q=ball")
print(site.text)
、テキストが非常に短く、すべてではありません情報は表示されます(しかし、それは!doctype
で始まります)。 そのため、私はこのHTMLで作業することができません。
あなたは間違いがどこにあるか教えていただけますか?
これは、実際には「Pythonで退屈なものを自動化する」という本の演習です。タスクは、いくつかの項目のGoogleを検索し、HTMLロケータで最初の結果をほとんど見つけないことです。私が使用するときに私はそれをすることができませんrequests.get()
私はHTMLコード内のリンクのためのオブジェクトを見ることができません。
Googleが返すものに影響を及ぼす要因は別として、js –
で動的に作成されたコンテンツもあります。このようにも見えます - http://stackoverflow.com/questions/22623798/google-search-with-python -requests-library –