Webスクレイピングを含むかなり広範なプロジェクトを行う必要があり、HpricotやBeautiful Soup(RubyやPythonなど)の使用を検討しています。私は右足でプロジェクトを開始するのに役立つだろうと思っているチュートリアルに誰かが出会ったのですか?ウェブスクレイピングプロジェクトのベストプラクティスに関する良いチュートリアルの推奨事項をお探しですか?
答えて
ScrAPIには優れたRailscasts episodeがあります。
ツールではありませんが、実際には、マイケル・シュレンクの書籍Webbots, Spiders, and Screen Scrapersです。
本書は、シンプルなウェブボットを構築し、コミュニティ標準に従ってそれらを操作する方法を説明している、その使命を非常にうまく継承しています。それはあなたが知る必要があるすべてではありませんが、私が見た中で最も良い紹介です。焦点はシンプルなシングルスレッドのボットです。中央のリポジトリにデータを格納する複数のボットを使用することについて少し触れていますが、毎秒何百ものページを処理できるマルチスレッドまたは分散ボットの作成に関連する問題は議論されていません。
PHPを使い慣れていない、または使用しようとしていなくても、Webボットの作成に興味がある人は、この本を読むことをお勧めします。しかし、本以上のものを期待しないでください。
Rubyでは、Scrubytウェブスクレイピングツールキットが優れています。ここにはan extensive introductionがあります。これは他のツールを使用している場合でも読む価値があります。
BeautifulSoupの代わりにlxmlを使用してください。その名前にもかかわらず、HTMLの解析とスクラップ用です。 BeautifulSoupよりはるかに高速であり、BeautifulSoupよりも「壊れた」HTMLを扱うことさえあります(彼らの名声への彼らの主張 - lxmlはそれについての声ではありません)。 lxml APIを習得したくない場合は、BeautifulSoup用の互換APIもあります。
Google App Engineや純粋にPython以外のものがない限り、BeautifulSoupを使用する理由はありません。
次のスクリーンキャストを見てみましょう:
- 1. PaaSプロバイダーの推奨事項をお探しください
- 2. 良いJQueryサイトとチュートリアルのための推奨事項
- 3. C++/Win32チュートリアルの推奨事項?
- 4. C#/ Visual Studio unittestingチュートリアルの推奨事項?
- 5. Facebook APIチュートリアル/ヒントの推奨事項
- 6. C Profilersに関する推奨事項?
- 7. Android Appに関する推奨事項
- 8. Azure関数のストレージ推奨事項
- 9. Windowsフォームの推奨事項を探す.Netサイズ変更コンポーネント
- 10. アーキテクチャサブアプリケーションを使用したWebアプリケーションの推奨事項/推奨事項
- 11. Djangoでのユーザーのブラウジングに関する推奨事項
- 12. 現場でのソースコードの処理に関する推奨事項
- 13. FlashからHTML5への変換に関する推奨事項
- 14. Firebaseデータベースデザインの推奨事項
- 15. Excelチャートコンポーネントの推奨事項
- 16. Webアプリケーションデプロイメントアーキテクチャの推奨事項
- 17. ソケットの推奨事項
- 18. jQuery FileManagerの推奨事項
- 19. jQueryナビゲーションメニュープラグインの推奨事項
- 20. IoTデバイスの推奨事項
- 21. バーチャルキーボードの推奨事項(JavaScript)
- 22. プロジェクトコラボレーションツールの推奨事項
- 23. JavaScriptスタイルの推奨事項
- 24. HL7インターフェイスエンジンの推奨事項
- 25. MacでのPython開発に関する推奨事項
- 26. RoRユーザー管理と辞書チュートリアルの推奨事項
- 27. Androidスタジオ仮想デバイスの設定に関する推奨事項
- 28. 最高のASP.NETファイルアップロードツールに関する推奨事項
- 29. iOSゲームの開発に関する推奨事項
- 30. MySQLのテーブル構造に関する推奨事項
機械化のルビバージョンもあります。 –
感謝のためにありがとう。それはクールだ – Alagu