2017-05-07 11 views
1

私は次のコードでHTMLサイトを解析したいと思います:美味しいスープで前と後のコンテンツを取得するには?

<div class="dates"> 
<div class="clearfix" id="datesDiv"></div> 
::before 
"some text" <span></span> 
"some other text" 
::after 
</div> 

は、どのように私は「いくつかのテキスト」や美しいスープと「他のいくつかのテキストを」得るのですか?

soup.findやsoup.selectで検索してもうまくいきませんでした。結果は常に空です。 サイト全体のhtmlコードを見ると、htmlコードにも「some text」と「some other text」がありません。しかし、HTMLのサイトには、「何らかのテキスト」と「その他のテキスト」が表示されます。 セレニウムとdriver.find_element ...関数でそれを検索すると同様に機能しますが、これは私が探しているものではありません。

ありがとうございます!

+0

これはブラウザのデバッガからのものですか? –

+0

Beautifulsoupは動的コンテンツを扱うことができません。これらのタイプの動的コンテンツには、セレンを使用する必要があります。セレンでデータを破棄したら、bs4を使用して必要なものを抽出することができます。それが役に立てば幸い – Exprator

答えて

1

動的コンテンツは、他のソース(通常はjavascript)を介して読み込まれます。あなたがjavascriptによって行われている要求を模倣できる場合は、データを取得することができます。探しているものがページのソースコードにない場合は、実際のデータソースへの後続のリクエストなしに、単一のリクエストを作成して美しいスープを使用して取得することはできません。

関連する問題