2016-10-09 6 views
1

アマゾンで特定の売り手の商品をすべて取得する方法はありますか? さまざまな形式のURLを使用してリクエストをストアに送信しようとすると(基本は(https://www.amazon.com/shops/)、追加の情報なしで301が取得されます)特定のアマゾン店舗の商品をすべて手に入れてください

スパイダー自体の前であっても、アマゾンからのいくつかのランダム店)

scrapy shell "https://www.amazon.com/shops/A3TJVJMBQL014A" 

301レスポンスコードがあります:

request <GET https://www.amazon.com/shops/A3TJVJMBQL014A> 
response <301 https://www.amazon.com/shops/A3TJVJMBQL014A> 

ブラウザでそれがhttps://www.amazon.com/s?marketplaceID=ATVPDKIKX0DER&me=A3TJVJMBQL014A&merchant=A3TJVJMBQL014A&redirect=true

にリダイレクトされます

URLを使用すると、301応答にもつながります。

+0

あなたは特定の売り手によって販売されているすべての商品のリストを取得したいのですか、またはAmazonのすべての売り手のリストを取得したいですか? – Acepcs

+0

私はすべての商品をある特定の売り手で欲しいです。 – Zaky

+0

コードはどこですか? –

答えて

0

特定の売り手によって販売されたすべての商品のリストが必要なので、その売り手のページを具体的に分析することができます。

ここでは、Kindle Eリーダーの販売者を例に挙げます。あなたがこのタグとエキスを見つけることができるように

  1. 開き、ブラウザでコンソールと売り手のページの最大ページ数要素を選択し、あなたは、タグ<span class="pagnLink"> </span>内にあるこの販売者の最大ページ数を見ることができますそこからの最大ページ数。

  2. この売り手の商品一覧(ページ= 1からページ= 2)の次のページに移動すると、URLに若干の変更がありますので、移動したいときは簡単に新しいURLを作成できます次のページへ

  3. ループを設定します。ループの制限は、最初の手順で取得した最大ページ数です。

  4. そのページにアクセスしたい特定のデータを分析し、その中にあるHTMLタグを分析し、テキスト解析ライブラリを使用してデータを抽出するのに役立ちます。

簡単に言えば、コードを書く前にページを分析する必要があります。 コーディングを開始するときは、まずリクエストを作成してから、リクエストからレスポンスを取得し、レスポンスから有用なデータを抽出してください(コードを書く前に分析したルールに従って)。

1

私はscrap shellを使っていましたが、@PadraicCunninghamの回答によれば、それはロケーションヘッダをサポートしていません。 スパイダーの実行コードが問題を解決しました。

関連する問題