私はPython、BeautifulSoupなどで新しいですが、 ウェブサイトの "script"タグ内のjavascript変数の中にあるjsonデータを抽出したいと思います。ここで javascriptからデータを取り出すvar <script>とpython
は、今の私のコードです:<script>
var hours = [{...dataIwant...}];
<\script>
しかし、私は唯一の「スクリプト」または「VARのないデータが欲しい:
import re
from bs4 import BeautifulSoup
import json
import requests
url = 'myUrl'
page = requests.get(url).content
soup = BeautifulSoup(page, "html.parser")
pattern = re.compile(r"var hours = .")
script = soup.find("script",text=pattern)
print(script)
が今の私のような形式でデータを抽出することができます時間= "です。私はjsonでそれを変更し、それをapache nifiに入れたいと思います。
私はここでGoogleで見つけたすべてを試しました。しかし、私が変数を抽出してjson形式に変更しようとするとき、ほとんどの場合、私は "None"または他のエラーがあります。
json形式でデータを取得するのに役立つヒントがあれば、それは素晴らしいことでしょう!
ありがとうございました!
あなたはグループでそれをキャプチャすることができ[ 'VARの時間=(。+)、'](https://regex101.com/r/q2CAZe/1) –
の私パターン= re.compile?またはsoup.findの後にre.search? –