パンダを使用して複数のWebページでhtmlテーブルをスクラップすることはできますか？

私は特定のウェブサイト上のすべてのテーブルを掻き集める方法を探しています。テーブルはすべてのサブページで全く同じにフォーマットされています。問題は、これらのサブページのURLがこのようになっていることです。
url1 = 'http .../Tom'、
url2 = 'http .../Mary'、
url3 = 'http .../Jason 'のように、URLを徐々に変更してループを設定することはできません。パンダでこれを解決する方法はありますか？パンダを使用して複数のWebページでhtmlテーブルをスクラップすることはできますか？

出典

2017-06-22 JAY.Y

あなたがたURLがどうなるか事前に知っていますか：

その後、完全なコードは次のようなものでしょうか？あなたはどこにURLを取得していますか？ – jarcobi889

スクラップで 'pandas'をどうやって使いますか？ –

pd.read_html（）メソッドの使用を試みることはできますが、ページの例がなくても何かを具体的に示唆することは難しいです。だから、あなたは例を挙げることができますか？ – omdv

もう一つのアイデアは、最初のBeautifulSoupライブラリを使用してWebページからすべてのtableの要素を取得し、その後、私は、各ページ内のデータが実際にHTML table要素としてフォーマットされていることを前提としています、とすることができpd.read_html()

出典

2017-06-22 15:32:50

適用するのだろうパンダによって処理されます。

df = pd.read_html(url, header=0)[0]

またはこの：;（。テーブルはHTML table要素ではないように見えるもちろん、多くのページが表示され、それをチェックすることにもある）

そして、一つのテーブルを処理するコードは、この本を見えるかもしれません。

df = pd.read_html(url)[0]

私は各ページに関心のあるテーブルが1つだけあると仮定しています。実際には、read_htmlという他のパラメータを変更する必要があるかもしれません。

stub_url = 'http:// ...' 
dfs = [] 
for ending in ['Tom', 'Mary', 'Jason']: 
    one_df = pd.read_html(stub_url + ending, header=0)[0] 
    dfs[ending] = one_df

出典

2017-06-22 17:27:34

それを感謝します。残念ながら、私はあなたのコードに従っていますが、それは以下のように戻ります：リストインデックスは、strではなく整数またはスライスでなければなりません。 –

申し訳ありません、今すぐお試しください。 –

パンダを使用して複数のWebページでhtmlテーブルをスクラップすることはできますか？

答えて

関連する問題