htmlのWebサイト(例:this:http://www.uni-bremen.de/mscmarbiol/)を処理し、「research」という文字列を含む各文を保存したいと考えています。beautifulsoupの抽出文にキーワードが含まれている場合
これは、私がウェブサイトからすべてのテキストを取得したコードの単なる例です。言葉の研究」を含む文のみをエクスポートするタスクを実行するための最良の方法だろう何
from bs4 import BeautifulSoup
from zipfile import ZipFile
import os
html_page = "example.html" #i saved this page as example locally
data = []
with open(html_page, "r") as html:
soup = BeautifulSoup(html, "lxml")
text_group = soup.get_text()
print text_group
?
文字列に.splitとseperatorsを使用するよりもエレガントな方法がありますか? "re"で何かできますか?
このトピックは非常に新しいので、大変ありがとうございます。あなたはスープを持っていたら
敬具、
Trgovec
もう1つ質問があります。あなたはどのように除外しますか?このコードの形で "生物学"という言葉は? – Trgovec
"Python list comprehensions"を見てください。彼らはそのようなことのために素晴らしいです。生物学が文中にないならば、文章中の文のために文章が必要なように思えます。 – Denziloe
もう一度ありがとうございました。このウェブサイトのグーグルリングは、私が探していたものでした。http://python-3-patterns-idioms-test.readthedocs.io/en/latest/Comprehensions.html – Trgovec