WebスクレイピングJavascript Pythonを使用して

-2

私はBeautifulSoupを使用してウェブサイトをスクラップするのに慣れていますが、このウェブサイトは異なります。 soup.prettify（）にJavascriptコード、たくさんのものが戻ってきます。私は実際のウェブサイト（会社名、電話番号など）のデータをこのウェブサイトで削っていきたいです。 Main.jsなどのスクリプトをスクラップして、Webサイトに表示されるデータを取得する方法はありますか？WebスクレイピングJavascript Pythonを使用して

クリアバージョン：

コードは次のとおりです。

<script src="/docs/Main.js" type="text/javascript" language="javascript"></script>

これは、ウェブサイト上にあるテキストを保持しています。私はこのテキストを傷つけたいと思っていますが、HTMLではなくJSを使用しています（私はBeautifulSoupを使用していました）。

出典

2016-09-07 Tom Pitts

あなたは何をしようとしているのかもっと明確にしてください。 –

[Web-scraping JavaScript page with Python]（http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python） –

@ AlexanderO'Mara申し訳ありません、更新しました –

実行時に生成されたテキストをJavascriptでスクラップできるかどうかを確認する必要があります。その答えはある種のものです。

Javascriptでページを実行して読み込むには、PhantomJSのような種類のheadless browserを実行する必要があります。次に、ヘッズレスブラウザが生成するHTMLを、それを解析するためにBeautifulSoupに供給する必要があります。

出典

2016-09-07 18:54:08 Soviut

あなたは、ページを移入すると言う。現在のWebページにはテキストがあります。しかし、美味しいスープを使用してそれを掻き集めると、私はすべて

WebスクレイピングJavascript Pythonを使用して

答えて

関連する問題