2017-10-24 5 views
-1

私はscrapy、beautifulsoupなどのようなPythonでWebクローリングライブラリのいくつかを検索して取得しました。これらのライブラリを使用して、ドキュメント内の特定の見出しの下にあるテキスト。あなたのいずれかが私を助けることができるなら、彼/彼女の助けが高く評価されるだろう。いくつかのチュートリアルでは、美しい石鹸を使用して特定のクラス名(ビューのソースページオプションで)でリンクを取得する方法を見てきましたが、特定のクラスの見出しの下で単純なテキストを取得する方法を教えてください。ここに私の悪い英語Pythonの任意のWebページURLドキュメントの特定の見出しのテキストをクロールする

import requests 
from bs4 import BeautifulSoup 
r=requests.get('https://patents.google.com/patent/US6886010B2/en') 
print(r.content) 
soup=BeautifulSoup(r.content) 
for link in soup.find_all("div", class_="claims"): 
    print(link) 

のため申し訳ありませんが、私は、特許請求の範囲のテキストを抽出しているが、それはまた、div要素内のdivは、私はちょうどだけの特許請求の範囲のテキストを抽出したい。これらの特許請求の範囲に記述された他のdivを示しています。

+0

あなたが試したことを教えてください。 – eLRuLL

+0

質問を更新してください。これは判読できません。 – eLRuLL

+0

私の質問を更新しました@eLRuLL –

答えて

0

リンクでは、div要素の内容全体を意味するものとします。その中に含まれるテキストを印刷する場合は、.text属性または.get_text()メソッドを使用してください。特許請求の範囲全体がユニークなsection要素内にラップされています。ですから、これをしようとする場合があります:

print(soup.find('section', attrs={'id': 'claims'}).text) 

get_text方法はあなたに、このような区切りと一緒にテキストのビットに入社し、余分な改行のテキストを取り除くなど、もう少し柔軟性を提供します。

さらに、BeautifulSoup Documentationをよく読んでください。

関連する問題