0
NLTKを使用してHTMLページからテキストを抽出しますが、わかりやすいテキスト解析のみを必要とします。単語数。HTMLからテキストをNLTKより速く抽出しますか?
高速です Pythonを使用してHTMLから可視テキストを抽出する方法はありますか?
可視/不可視のノード、画像の代替テキストなど、最小限のレベルでHTML(および理想的にはCSS)を理解することはさらに優れています。
NLTKを使用してHTMLページからテキストを抽出しますが、わかりやすいテキスト解析のみを必要とします。単語数。HTMLからテキストをNLTKより速く抽出しますか?
高速です Pythonを使用してHTMLから可視テキストを抽出する方法はありますか?
可視/不可視のノード、画像の代替テキストなど、最小限のレベルでHTML(および理想的にはCSS)を理解することはさらに優れています。
私の以前の職場で同じ問題に陥る。あなたはbeautifulsoupをチェックしたいと思うでしょう。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text
あなたはここでそのドキュメントを見つけることができます:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
あなたは属性に基づいて要素を無視することができます。外部のスタイルシートを理解することについてはあまりよく分かりません。しかし、あなたがそこで行うことができ、(ページに応じて)あまりにも遅くないものは、幻影のようなものでページをレンダリングし、次にレンダリングされたテキストを選択することを調べることです:
_How_ NLTKを使用して処理していますか? HTMLページ? nltkは 'clean_html()'関数を使用していましたが、2014年に[drop it](https://stackoverflow.com/q/26002076)に戻り、そのジョブを 'BeautifulSoup'にしました。 – alexis
@alexis:うーん、いい質問です!より多くのソースを掘り下げた後、 'nltk'は' html2text'で抽出されたテキストをトークン化するためだけに使われています。これにより、問題は完全に変更されます。 – 9000