私は数字の中間ビットに 'https://projecteuler.net/problem=8'を解析しようとしています。それはによってそれを選択するために、別のクラスを持っていないので、私は段落を分離するためにBeautifulSoupとクラスなしでHTMLを解析する(単なる段落)
r = requests.get('https://projecteuler.net/problem=8')
data = r.text
soup = BeautifulSoup(data, "lxml")
[para1, para2, para3] = (soup.find_all('p'))
を使用しているが、これはそこに余分なジャンク(<p> and <br>
)の多くを残します。それをすべてクリアするコマンドはありますか?私が現在使用しているよりも分割を行うためのより良いコマンドがありますか? Pythonで多くのWebをクロールしたことはありません...
DOCTYPEは 'html'が、あなたはおそらく '' 'ではなく "lxmlの"'のhtml.parser''を使用したいと思うです。また、一度あなたがそのテーブルを持っていれば、あなたの理想的な出力は何ですか? (NumPy配列か、単にブロックを出力したいのですか?) –