ページ上のリンクから情報を取得する

私はpython 3.5でscrapyを使用してスクレーパーを構築しています。ページ上のリンクから情報を取得する

私は群集資金調達フォーラムでプロジェクトを募集し、データをhdf5ファイルに保存しています。

プロジェクトをスクレイピングするには、URLのリストを読み込み、それをスクラップして、各プロジェクトの情報を複数の列を持つテーブル行として保存します。残念ながら、一部のプロジェクト情報はサブリンク（例... /メソッド）に配置されています。このリンクからの情報を、プロジェクトの他の情報と同じhdf5ファイルの行に入れたいと思います。これはどうすればできますか？

すでに使用しているパーサーの内部にパーサーを構築できますか？

出典

2017-10-03 Martin Petri Bagger

一方向はrequests chainingメソッドを使用しています。ここでは、後続のページからデータを収集し、最終的に完全な項目が得られるまで、暫定データをRequest s meta属性で渡します。

別の方法では、scrapy-inline-requestsライブラリを使用しています。ここでは、メインの解析メソッドに暫定的なデータ抽出を組み込むことができます。

出典

2017-10-03 10:51:23

ページ上のリンクから情報を取得する

答えて

関連する問題