私はPythonでいくつかのHTML解析を行う必要があります。いくつかの研究の後、lxmlは私の最良の選択だと思われますが、私は何をしようとしているのかを助けてくれる例を見つけるのに苦労しています。これが私が聞いている理由です。私は、すべての表示可能なテキストのすべてのページをこすりする必要があります..すべてのタグとjavascriptを外します。私はそれを私はどのテキストが表示可能なままにする必要があります。十分に簡単に聞こえる..私はHTMLParserでそれをやったが、そのはありませんので、lxmlのでこれを行う方法や、それを行うには良い方法HTMLParser .. HTMLParserのための任意のアイデアがベストだろう Python lxmlのスクリーンスクレイピング?
class HTML2Text(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.output = cStringIO.StringIO()
def get_text(self):
return self.output.getvalue()
def handle_data(self, data):
self.output.write(data)
def ParseHTML(source):
p = HTML2Text()
p.feed(source)
text = p.get_text()
return text
もjavascriptの
を処理していません追加LIBSは...おかげでみんなスコットF.