2017-11-09 18 views
0

NLTKを使用してHTMLページからテキストを抽出しますが、わかりやすいテキスト解析のみを必要とします。単語数。HTMLからテキストをNLTKより速く抽出しますか?

高速です Pythonを使用してHTMLから可視テキストを抽出する方法はありますか?

可視/不可視のノード、画像の代替テキストなど、最小限のレベルでHTML(および理想的にはCSS)を理解することはさらに優れています。

+2

_How_ NLTKを使用して処理していますか? HTMLページ? nltkは 'clean_html()'関数を使用していましたが、2014年に[drop it](https://stackoverflow.com/q/26002076)に戻り、そのジョブを 'BeautifulSoup'にしました。 – alexis

+0

@alexis:うーん、いい質問です!より多くのソースを掘り下げた後、 'nltk'は' html2text'で抽出されたテキストをトークン化するためだけに使われています。これにより、問題は完全に変更されます。 – 9000

答えて

2

私の以前の職場で同じ問題に陥る。あなたはbeautifulsoupをチェックしたいと思うでしょう。

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html) 
print soup.text 

あなたはここでそのドキュメントを見つけることができます:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

あなたは属性に基づいて要素を無視することができます。外部のスタイルシートを理解することについてはあまりよく分かりません。しかし、あなたがそこで行うことができ、(ページに応じて)あまりにも遅くないものは、幻影のようなものでページをレンダリングし、次にレンダリングされたテキストを選択することを調べることです:

関連する問題