2016-12-19 6 views
0

私はPythonを使用して、このWebページのテーブルからデータを削り取ろうとしています。このウェブページのGoogleドキュメントテーブルからデータをスクラップするにはどうすればよいですか?

http://www.dividendyieldhunter.com/exchanged-traded-debt-issues-sorted-alphabetically/

私は要求とBS4を使用してみました。生のHTMLを取得しますが、データが隠されているように見えます。私は何をしようとしていますか?

特定のページには、このコードでiframe内にURLからデータをロードしていることを

答えて

1

<iframe id="pageswitcher-content" frameborder="0" marginheight="0" marginwidth="0" src="https://docs.google.com/spreadsheets/d/1_HY2XEBKcyi4STki-uUbOfr-su8CZOfpi-jM1Racwyw/pubhtml/sheet?headers=false&amp;gid=0" style="display: block; width: 100%; height: 100%;"></iframe> 

あなたはさらにでsrc属性にURLからHTMLを要求する必要があります:

https://docs.google.com/spreadsheets/d/1_HY2XEBKcyi4STki-uUbOfr-su8CZOfpi-jM1Racwyw/pubhtml/sheet?headers=false&amp;gid=0 

次に、class = "waffle"を使ってテーブルを削り取ることができます。

注:以下の例のように、生URLから来るURLクエリパラメータに注意してください。

たとえば、末尾に近い&amp;は、要求モジュールが適切なURLを見つけるために単一の&文字に変換する必要があります。

import requests 
res=requests.get("https://docs.google.com/spreadsheets/d/1_HY2XEBKcyi4STki-uUbOfr-su8CZOfpi-jM1Racwyw/pubhtml/sheet?headers=false&gid=0") 
print(res.text) 
+0

iframeのIPアドレスでリクエストを使用して結果を印刷すると、テーブルやデータが表示されません。 – user1408304

+0

@ターンキー iframeのIPアドレスでリクエストを使用して結果を表示すると、テーブルやデータが表示されません。 RES = request.get( '' https://docs.google.com/spreadsheets/d/1_HY2XEBKcyi4STki-uUbOfr-su8CZOfpi-jM1Racwyw/pubhtml/sheet?headers=false & GID = 0' プリントインポート要求( res.text) – user1408304

+0

もう1つのテストをして、もう一度やり直してみましょう。 – Turnkey

関連する問題