私はBeautifulSoupでHTML文書からテキストを取得しようとしています。私にとって非常に矛盾したケースでは、それは奇妙で興味深い結果をもたらします。ある時点の後に、スープはテキスト内に余分なスペースがあります(スペースは次のものからすべての文字を区切ります)。私はその理由を見つけるためにウェブを検索しようとしましたが、反対のバグについての情報はまったくありませんでした。BeautifulSoupは予期しない余分なスペースを返します
なぜ起こったのか、またこの問題を解決する方法についてのヒントがありますか。
これは私が作成した、非常に基本的なコードです:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
は、そしてこれは、この問題が現れ始めるの結果から取られた行、行です:
値= \」ジュゼッペlabbate OGM?非vorremmo NUOVI uccelli chiamati lontre \ "> <入力のonmouseover = \" ヒント(」< CEN terclass = \ \ 'タイトル_ビデオの\ \' > <B> G iuseppelabbateo g m? V I U C C E L L I C、H、O、N個のO、N V O R R E Mは、M個のO、N、U、I M T IのL OのN t個のR E <
なぜあなたは 'ultrasoup'を印刷していますか?それは「スープ」ではないでしょうか? – svineet
他のウェブサイトでも同じ問題が発生しています。私はまだこれがBeautifulSoupの問題であるのか、根底にあるlxmlなのかを解明しようとしています。ソフトウェアは32ビットPythonで問題なく動作し、64ビットで失敗します。 – Matthias
私は 'ultrasoup'、ちょっとしたエラーをお詫びします。もちろん、正しいコードは 'print soup'でした –