2016-09-07 20 views
-2

私はBeautifulSoupを使用してウェブサイトをスクラップするのに慣れていますが、このウェブサイトは異なります。 soup.prettify()にJavascriptコード、たくさんのものが戻ってきます。私は実際のウェブサイト(会社名、電話番号など)のデータをこのウェブサイトで削っていきたいです。 Main.jsなどのスクリプトをスクラップして、Webサイトに表示されるデータを取得する方法はありますか?WebスクレイピングJavascript Pythonを使用して

クリアバージョン:

コードは次のとおりです。

<script src="/docs/Main.js" type="text/javascript" language="javascript"></script> 

これは、ウェブサイト上にあるテキストを保持しています。私はこのテキストを傷つけたいと思っていますが、HTMLではなくJSを使用しています(私はBeautifulSoupを使用していました)。

+0

あなたは何をしようとしているのかもっと明確にしてください。 –

+0

[Web-scraping JavaScript page with Python](http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

+0

@ AlexanderO'Mara申し訳ありません、更新しました –

答えて

1

実行時に生成されたテキストをJavascriptでスクラップできるかどうかを確認する必要があります。その答えはある種のものです。

Javascriptでページを実行して読み込むには、PhantomJSのような種類のheadless browserを実行する必要があります。次に、ヘッズレスブラウザが生成するHTMLを、それを解析するためにBeautifulSoupに供給する必要があります。

+0

あなたは、ページを移入すると言う。現在のWebページにはテキストがあります。しかし、美味しいスープを使用してそれを掻き集めると、私はすべて

関連する問題