<の中のテキストを削除しようとしています(htmlタグ)、その結果を新しいファイルに書き込みます。例えば、テキストの1行は次のようになります。 PythonがウェブサイトのHTMLタグを削除していません
< asdf> Text <here>more text</asdf>
だからプログラムは、出力ファイルに記述します。「複数のテキストをテキスト」、htmlタグの中にあるものを除きます。
これは、これまでの私の試みです:
import urllib.request
data=urllib.request.urlopen("some website").read()
text1=data.decode("utf-8")
import re
def asd(text1):
x=re.compile("<>")
y=re.sub(x,"",text1)
file1=open("textfileoutput.txt","w")
file1.write(y)
return y
asd(text1)
まだタグがあり、クリーンなバージョンを記述していないようです。ご協力ありがとうございました。
十分です。私は[BeautifulSoupを表示するWebページのテキスト](https://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text)のような解決策を提案します。 – Galen
あなたは正しいです、この行を次のように置き換えて修正しました:x = re.compile(r "<[^> +>")プログラムは今動作します。ありがとうございました。 – Jaakkath
タグに>が含まれているとどうなりますか? alecxeが指摘するように、正規表現でHTMLを解析しようとするのは、通常は最善ではありません。 – Galen