2016-05-01 4 views
0

URLをクロールしている間に参照元チェーンを構築するために使用できる治療モジュールはありますか?RefererのURLチェーンを作成しながら、データをスクリーピングしますか?

たとえば、私はhttp://www.example.comからクロールを開始し、http://www.new-example.comに移動し、次にhttp://www.new-example.comからhttp://very-new-example.comに移動します。現時点で利用可能なモジュールや実装が、私は他のどのようなオプションを試すことができ、その後がない場合は、その上の

http://www.example.com, http://www.new-example.com 
http://www.example.com, http://www.new-example.com, http://very-new-example.com 

と:

は、私はこのようなURL鎖(CSVまたはJSONファイル)を作成できますか?

+0

に書き込むことができます。その内部の処理自体は存在しません。すべてのURLを 'referer'をサポートするコールバックで呼び出さなければなりません。あなたが '要求'ライブラリを使用して、 'for'ループを使ってスクリプト上にあなたのURLを実行することができます。 – eLRuLL

答えて

0

はい、すべてのメソッドでアクセス可能なグローバルリストを作成することで参照を追跡できます。

referral_url_list = [] 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

スパイダーが検出された後、スパイダーsignalsによって検出される。 csvまたはjsonファイルをシグナル関数

関連する問題