2016-12-16 12 views
0

クモは、特定のB2Bのウェブサイト上の情報をクロールすることであり、私はその後、クモがクロールを開始し、ユーザーがURLをsumbitウェブサーバ、なりたいです。すべての製品がリストされているB2Bのウェブサイト、上のミニサイトである、apple.b2bxxx.com:宇佐パラメータ

URLは次のように思えます。異なる会社がミニサイトに異なる名前を使用し、複製が許可されていないため、「リンゴ」が異なる可能性があります。バックエンドで

、それが掻き取ったデータを保存するためにMongoDBのです。

私がやったことは、指定したURLの情報を収集できますが、すべてのデータは同じdb.collectionに格納されています。

は私がscrapyを実行するための「-a」を使用してパラメータを取得することができます知っているが、私はそれをどのように使うのか? pipelines.pyまたはspider pythonファイルを変更する必要がありますか?

提案がありますか?

答えて

0

私は答えがあります。

例: scrap crawlコマンドで-s collection_name = abcを使用して、param = settings.get( 'collection_name')を使用してpipelines.pyでパラメータを取得します。

これはstackoverflowにもありますが、どのチケットを覚えていないかはわかりません。

これは、これが同じ問題に直面するのを助けるだろうと思っています。

関連する問題