私はフォルダ内の30911個のhtmlファイルを持っています。beautifulsoup解析のhtmlファイルの内容
<strong>123</strong>
と、このセクションが終了するまで(2)以下の内容を抽出します。私は、(1)それはタグが含まれているかどうかを確認する必要があります。
しかし、私はこの問題は、それらのいくつかは
<strong>567</strong>
前に終了したことで、そのうちのいくつかは、それはまた別のp個のp_numberを持って
<strong>89/strong> or others(that I do not know because I cant check 30K+files)
前に終了されるようなタグを、持っていないましたそれぞれのファイルにはありますが、時々idがありません
最初に私はbeautifulsoupを使用して検索しますが、次の抽出コンテンツの操作方法はわかりません
Btwは、txt形式でコンテンツを保存することはできますが、html形式のように見えますか?
line 1
line 2
...
lin 50
p.get_text(strip = true)を使用する場合は、すべて一緒です。
line1 content line2 content ...
line50 content....
私は新しいHTMLファイルに内容を記述する場合、フォーマットがが台無しされます。 –
@MichaelLin大丈夫、どの部分をファイルに書きたいですか? – alecxe
私はそれを解決すると思います。私は p.prettify()。encode( 'ascii'、 'ignore')をデコード( 'utf-8'、 'ignore')すると著作権の前にコンテンツを保存するだけです –