私は小さな問題を抱えています.HTML文書のタイトルを読んでいます。これはこれまでのところ動作していて、文字列の結果を得ています。私はlibraray bs4 BeautifulSoupとurllib.requestを使っています。PythonスクリプトでHTMLでタイトルを読む
あなたは、HTMLコードがギャップを持っており、このギャップは、コマンドラインにさえ見えているが、私はタイトルだけを望んでいることを最初の画像で見ることができます。 出力のHTMLコードをどのように削除できますか?
編集:ここでは はPythonのコードであるあなたが探しているとされ、私は
import urllib.request
from bs4 import BeautifulSoup
import codecs
htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning")
htmltext = htmlfile.read()
print(htmltext)
soup = BeautifulSoup(htmltext, 'html.parser')
print(soup)
f = codecs.open("freebook.html", "w", "utf-8")
f.write(soup.get())
f.close()
を使用していた私はそれを与えるのは難しいのサンプルコードがなければ、あなたが
bs4の使用の非常に基本的なタグからテキストを抽出する方法を尋ねています。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –