2011-11-07 23 views
4

Webページから情報を抽出するためにWebクローラを作成する必要があります。私は研究を行い、すべての文書を解析してDOMオブジェクトを作成し、反復処理、属性抽出など(JQueryと同義)することができたので、Beautiful Soupが優れていることがわかりました。Python 3.2 Beautiful Soup代替

私はPython 3.2を使用していますが、安定版はありません(私はそこにはまったくないと思いますが、私は彼らのホームページで見ました)。

だから私は良い選択肢が必要です。 lxmlホームページから

答えて

0

最新リリースは3.2から2.4からのすべてのCPythonのバージョンで動作します。

+0

私はちょうど美しいスープを読む3.1シリーズはPython 3.0で動作し、それはそれです(3.2への言及はありません)。 SGMLパーサー(これははるかに優れている)が削除されて以来、3.xバージョンはHTMLパーサーを使用しています。そして、著者からのサポートはもうありません。 – Jirico

+0

@ジリコ:それでlxmlの使用をお勧めします。 –

+0

lxmlは美味しいスープほど熱く見えませんが、私はそれを見ていきます。ありがとう!うーん、私はPython 2.7を取得すると思います。私はサードパーティからより多くのサポートを提供します... – Jirico

3

ほぼ1年前にリリースされた3.2.0の美しいスープのバージョンがあるように私に見えます。 http://docs.python.org/library/htmlparser.html

+0

私は美しいスープ3.2.0を試しました。セットアップで文章で構文エラーが発生しています:print "ユニットテストに失敗しました!" 2.xからの古い印刷ステートメントです。どうすればそれが3.2で大丈夫だと言えるでしょうか? – Jirico

+0

バグ(トレースバック付き)を[BSサポートグループ](http://groups.google.com/group/beautifulsoup)に問い合わせるのと同じように報告してください。彼らはかなり役立ちます、あなたがここに投稿を開始する前にそれを修正するチャンスを与えて、それはうまくいきません。 ([こちら](http://groups.google.com/group/beautifulsoup/browse_thread/thread/6c13e079839306ca/a3c2209e3d90f45d?lnk=gst&q=3.2+unittest#a3c2209e3d90f45d)が既に報告していない限り) – smci

1

は、私は素晴らしい結果で、今しばらくの間、この目的のために私のウェブサイト上のPHPとBS4を使用していたあなたはここでそれについてBS4 Documentation

を読むことができ、最新のリリースは4.1.1だと思うHTMLParserもあります。私はPHP/Pythonの非互換性の問題のためにBSv3に戻らなければなりませんでしたが、それはBS4スクリプトがどれくらいうまく機能するかとは別です。

最初は、組み込みのHTML解析エンジンを使用していますが、これは遅いです。 WebサーバーにLMXLエンジンをインストールした後、速度が大幅に向上しました!実際の解析では目に見えない改善はありませんでしたが、速度は劇的に向上しました。

私はそれを推薦します - 私はそれを推薦し、私は美しいスープに定住する前に、私はさまざまなオプションを試しました。

幸運を祈る!

関連する問題