PythonとBeautifulSoup 4ライブラリを使ってHTMLを処理していますが、
を空白で置き換える方法はありません。代わりに、Unicode非改行スペース文字に変換されるようです。BeautifulSoup 4を使用して " "のようなHTMLエンティティを置き換えたり削除したりするにはどうすればいいですか?
明らかなものがありませんか?交換する最もよい方法は何ですか& nbsp; BeautifulSoupを使用して通常のスペースで?
私は最新バージョンBeautifulSoup 4を使用していますので、Beautiful Soup 3のconvertEntities=BeautifulSoup.HTML_ENTITIES
オプションは利用できません。
しかし、それは破られていないスペースです... –
はい、私は が改行されていないスペースであることを認識しています。だから、正しいことは、私が望むHTMLスニペットを取得してから、Unicode検索を実行して置き換えることです。私はそれが私が欲しいことをすると思う、私はちょうど古いconvertEntitiesオプションに相当すると思った。 –