7
サイトからデータを削り取ろうとしています。データは、それぞれデータセットを持つ複数のオブジェクトとして構成されています。 たとえば、名前、年齢、職業のある人。複数のページからデータを1つのデータ構造に集める方法
私の問題は、このデータがウェブサイトの2つのレベルに分かれていることです。
最初のページは、たとえば、各人物のプロフィールページへのリンクを持つ名前と年齢のリストです。
彼らのプロフィールページに職業が表示されます。
私はすでに、最上位層からデータを収集し、複数のページをクロールすることができるpythonでscrapyで書かれたスパイダーを持っています。
しかし、内部ページから適切なオブジェクトにリンクしたままデータを収集するにはどうすればよいですか?
現在、私は
{[name='name',age='age',occupation='occupation'],
[name='name',age='age',occupation='occupation']} etc
としてJSONで構成出力はparse関数は、そのようなページに渡って到達することはできますか?