2017-10-03 11 views
2

私はpython 3.5でscrapyを使用してスクレーパーを構築しています。ページ上のリンクから情報を取得する

私は群集資金調達フォーラムでプロジェクトを募集し、データをhdf5ファイルに保存しています。

プロジェクトをスクレイピングするには、URLのリストを読み込み、それをスクラップして、各プロジェクトの情報を複数の列を持つテーブル行として保存します。残念ながら、一部のプロジェクト情報はサブリンク(例... /メソッド)に配置されています。このリンクからの情報を、プロジェクトの他の情報と同じhdf5ファイルの行に入れたいと思います。これはどうすればできますか?

すでに使用しているパーサーの内部にパーサーを構築できますか?

答えて

1

一方向はrequests chainingメソッドを使用しています。ここでは、後続のページからデータを収集し、最終的に完全な項目が得られるまで、暫定データをRequest s meta属性で渡します。

別の方法では、scrapy-inline-requestsライブラリを使用しています。ここでは、メインの解析メソッドに暫定的なデータ抽出を組み込むことができます。

関連する問題