2016-10-09 4 views
-2

私は小さな問題を抱えています.HTML文書のタイトルを読んでいます。これはこれまでのところ動作していて、文字列の結果を得ています。私はlibraray bs4 BeautifulSoupとurllib.requestを使っています。PythonスクリプトでHTMLでタイトルを読む

HTML Code

あなたは、HTMLコードがギャップを持っており、このギャップは、コマンドラインにさえ見えているが、私はタイトルだけを望んでいることを最初の画像で見ることができます。 出力のHTMLコードをどのように削除できますか?

Command line Output

編集:ここでは はPythonのコードであるあなたが探しているとされ、私は

import urllib.request 
from bs4 import BeautifulSoup 
import codecs 

htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning") 

htmltext = htmlfile.read() 

print(htmltext) 


soup = BeautifulSoup(htmltext, 'html.parser') 

print(soup) 

f = codecs.open("freebook.html", "w", "utf-8") 
f.write(soup.get()) 

f.close() 

を使用していた私はそれを与えるのは難しいのサンプルコードがなければ、あなたが

+0

bs4の使用の非常に基本的なタグからテキストを抽出する方法を尋ねています。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –

答えて

0

このコードのヘルプを願っていますあなたは正確な解法ですが、h2.get_text(strip=true)を使用できます。h2は、出力するh2要素を指す変数です。

これはget_text()のドキュメントである - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text

あなたはより多くの助け

+0

こんにちは、はい、あなたは正しいです、私はコードを共有していない、私はそれを共有する:) – Petr

0

を必要とする場合、それはあなたが変数にH2タグのテキストコンテンツを持っている私の理解で、あなたのコードとhtmlを共有し、そしてあなた空白を取り除きたいしたがって、strip=true(bs4)またはtitle = title.strip()を使用できます。