0
一般的なクロールデータセット(warc.gzファイル)でHTMLコンテンツを解析する必要があります。私はbs4
(Beautifulsoup)モジュールを使用することを決定しました。ほとんどの人がそれを提案しています。取得するためのコードスニペットがされて次のテキスト:一般的なクロールデータではBeautifullスープがテキスト抽出に時間がかかります
from bs4 import BeautifulSoup
soup = BeautifulSoup(src, "lxml")
[x.extract() for x in soup.findAll(['script', 'style'])]
txt = soup.get_text().encode('utf8')
bs4
せずに、一つのファイルを完全に9分(テストケース)で処理されるが、私はテキストを解析するためにbs4
を使用する場合は、仕事を約4時間で終了します。これは何が起こっている。 bs4
以外の方法がありますか? 注:bs4はBeautifilsoupのような多くのモジュールを含むクラスです。
あなたは 'BS4なし' とは何を意味していますか? –
'bs4'よりも高速な' lxml'や 're'(正規表現)を使うことができます –
html、script、stylesタグを削除できるlxmlやreの例はありますか? – Shafiq