2009-03-26 11 views
5

Webスクレイピングを含むかなり広範なプロジェクトを行う必要があり、HpricotやBeautiful Soup(RubyやPythonなど)の使用を検討しています。私は右足でプロジェクトを開始するのに役立つだろうと思っているチュートリアルに誰かが出会ったのですか?ウェブスクレイピングプロジェクトのベストプラクティスに関する良いチュートリアルの推奨事項をお探しですか?

答えて

9

私のお気に入りのPython Web Scrapingツールのうちの2つはScrapyMechanizeです。これらのプロジェクトのそれぞれには、独自のチュートリアルとベストプラクティスがあります。

+1

機械化のルビバージョンもあります。 –

+0

感謝のためにありがとう。それはクールだ – Alagu

5

ツールではありませんが、実際には、マイケル・シュレンクの書籍Webbots, Spiders, and Screen Scrapersです。

本書は、シンプルなウェブボットを構築し、コミュニティ標準に従ってそれらを操作する方法を説明している、その使命を非常にうまく継承しています。それはあなたが知る必要があるすべてではありませんが、私が見た中で最も良い紹介です。焦点はシンプルなシングルスレッドのボットです。中央のリポジトリにデータを格納する複数のボットを使用することについて少し触れていますが、毎秒何百ものページを処理できるマルチスレッドまたは分散ボットの作成に関連する問題は議論されていません。

PHPを使い慣れていない、または使用しようとしていなくても、Webボットの作成に興味がある人は、この本を読むことをお勧めします。しかし、本以上のものを期待しないでください。

0

Rubyでは、Scrubytウェブスクレイピングツールキットが優れています。ここにはan extensive introductionがあります。これは他のツールを使用している場合でも読む価値があります。

4

BeautifulSoupの代わりにlxmlを使用してください。その名前にもかかわらず、HTMLの解析とスクラップ用です。 BeautifulSoupよりはるかに高速であり、BeautifulSoupよりも「壊れた」HTMLを扱うことさえあります(彼らの名声への彼らの主張 - lxmlはそれについての声ではありません)。 lxml APIを習得したくない場合は、BeautifulSoup用の互換APIもあります。

Ian Blicking agrees

Google App Engineや純粋にPython以外のものがない限り、BeautifulSoupを使用する理由はありません。

関連する問題