Webページから情報を抽出するためにWebクローラを作成する必要があります。私は研究を行い、すべての文書を解析してDOMオブジェクトを作成し、反復処理、属性抽出など(JQueryと同義)することができたので、Beautiful Soupが優れていることがわかりました。Python 3.2 Beautiful Soup代替
私はPython 3.2を使用していますが、安定版はありません(私はそこにはまったくないと思いますが、私は彼らのホームページで見ました)。
だから私は良い選択肢が必要です。 lxmlホームページから
私はちょうど美しいスープを読む3.1シリーズはPython 3.0で動作し、それはそれです(3.2への言及はありません)。 SGMLパーサー(これははるかに優れている)が削除されて以来、3.xバージョンはHTMLパーサーを使用しています。そして、著者からのサポートはもうありません。 – Jirico
@ジリコ:それでlxmlの使用をお勧めします。 –
lxmlは美味しいスープほど熱く見えませんが、私はそれを見ていきます。ありがとう!うーん、私はPython 2.7を取得すると思います。私はサードパーティからより多くのサポートを提供します... – Jirico