2017-08-09 4 views
1

htmlファイルの一部をスクラップしてBeautifulSoupオブジェクトに変換しました。テキストコンテンツを取得したいのですが、隣接するdivタグがある場合、空白なしで結合されます。これは迷惑で、妥当ではありません。たとえば :異なるdivタグ内のテキストが空白なしで結合される

BeautifulSoup('<div>Hello</div><div>World</div>').get_text() 

これは、あなたHelloWorld、ないHello Worldか何かを与えます。 どうすれば修正できますか?

+1

get_text関数は残っているものを残すためにすべてのタグを取り除くだけです –

答えて

1

あなたはこの試みることができる:あなたはBS4を使用する場合は、あなたがGET_TEXTに' 'のパラメータを追加することができます

BeautifulSoup('<div>Hello</div><div>World</div>').get_text(' ') 

を。他のソリューションについては、this

+1

ありがとう!正確に私が探していたもの –

+0

右。なぜ私はその変数を作りましたか? –

関連する問題