BeautifulSoupとRequestsを使用していくつかのウェブサイトをスクラップしています。私が調べているページには、<script language="JavaScript" type="text/javascript">
タグ内にそのデータがあります。それは次のようになります。Pythonを使用してjavascriptタグから変数データを解析する
<script language="JavaScript" type="text/javascript">
var page_data = {
"default_sku" : "SKU12345",
"get_together" : {
"imageLargeURL" : "http://null.null/pictures/large.jpg",
"URL" : "http://null.null/index.tmpl",
"name" : "Paints",
"description" : "Here is a description and it works pretty well",
"canFavorite" : 1,
"id" : 1234,
"type" : 2,
"category" : "faded",
"imageThumbnailURL" : "http://null.null/small9.jpg"
......
私はこのスクリプトタグ内page_data
変数のうちPythonの辞書やJSONオブジェクトを作成することができる方法はありますか?それは、BeautifulSoupで値を取得しようとするよりはるかに良いでしょう。あなたが<script>
タグの内容を取得するためにBeautifulSoupを使用する場合は
これは本当に素晴らしいですし、理にかなっています。これで助けていただきありがとうございます。 – ajt
私はオブジェクトのキーを示すために引用符を使用しないオブジェクト宣言のためにこれを再利用することができます。 'default_sku:" SKU12345 "、...'それはおそらくちょうど正規表現を取るだろう... – 2rs2ts
@ 2rs2ts:引用符で追加する以前の答えは、[美しいスープを使用してデータを削っている間にhtmlタグの問題](http://stackoverflow.com/a/14122300)を参照してください。有効なJSONを作成します。 –