私はscrapy、beautifulsoupなどのようなPythonでWebクローリングライブラリのいくつかを検索して取得しました。これらのライブラリを使用して、ドキュメント内の特定の見出しの下にあるテキスト。あなたのいずれかが私を助けることができるなら、彼/彼女の助けが高く評価されるだろう。いくつかのチュートリアルでは、美しい石鹸を使用して特定のクラス名(ビューのソースページオプションで)でリンクを取得する方法を見てきましたが、特定のクラスの見出しの下で単純なテキストを取得する方法を教えてください。ここに私の悪い英語Pythonの任意のWebページURLドキュメントの特定の見出しのテキストをクロールする
import requests
from bs4 import BeautifulSoup
r=requests.get('https://patents.google.com/patent/US6886010B2/en')
print(r.content)
soup=BeautifulSoup(r.content)
for link in soup.find_all("div", class_="claims"):
print(link)
のため申し訳ありませんが、私は、特許請求の範囲のテキストを抽出しているが、それはまた、div要素内のdivは、私はちょうどだけの特許請求の範囲のテキストを抽出したい。これらの特許請求の範囲に記述された他のdivを示しています。
あなたが試したことを教えてください。 – eLRuLL
質問を更新してください。これは判読できません。 – eLRuLL
私の質問を更新しました@eLRuLL –