htmlファイルの一部をスクラップしてBeautifulSoupオブジェクトに変換しました。テキストコンテンツを取得したいのですが、隣接するdivタグがある場合、空白なしで結合されます。これは迷惑で、妥当ではありません。たとえば :異なるdivタグ内のテキストが空白なしで結合される
BeautifulSoup('<div>Hello</div><div>World</div>').get_text()
これは、あなたHelloWorld
、ないHello World
か何かを与えます。 どうすれば修正できますか?
get_text関数は残っているものを残すためにすべてのタグを取り除くだけです –