2017-04-23 24 views
1

私の目標は、ページソースから 'sitekey'の値を取得することです。コードのスニペットはhereです。問題のページには、同じクラス名を持つ複数のdivタグがあるので動作しません BeautifulSoupタグ内のコードスニペット内でキー値を見つける

soup = BeautifulSoup(url,'html.parser') 
soup.find('div',{"class":"field field--required"}) 

をやって、今

thisです。どうすればこの問題を解決できますか?

ありがとうございます。

編集:あなたが使用することができます

def sitekey_search(atc_link): 
    response = session.get(atc_link) 
    soup = BeautifulSoup(response.content, 'html.parser') 

    sitekey = soup.select("div script")[0] 
    print(sitekey) 
    m = re.match("""\"(\w+)\"""", sitekey) 
    if m: 
     print(m.groups()) 

答えて

0
soup = BeautifulSoup(a,'lxml') 
sitekey = soup.select("div script")[0] 
b = sitekey.text 
print(re.findall(r'"([^"]*)"', b)) 

これは、仕事をする必要があり、 [1行目] 変数は入力(HTML)で、 Bは、スクリプトのみの一部であり、正規表現は、このような場合には、引用符の間のすべてを印刷しますキーから引用符を削除したい場合は、.strip("'")を追加で使用することができます。replace("'","")

1

soup.select("div.field.field-required") 

それはあなたに見つかったdivタグのリストを提供します。

+0

現在、 'soup.select(" div script ")'を使用してスクリプトコード全体を見つけることができます。スクリプト全体を含む1つのオブジェクトのリスト。しかし、私はどのように 'サイトキー'の値を抽出するか分からない。私は正規表現を使用してみましたが、動作しません。上記の編集をご覧ください – JC1

関連する問題