2012-03-17 3 views
0

私は価格比較のためにオンラインストアをクロールしています。店舗のMotは動的URLを頻繁に使用しています。これは私のクローラがすべてのオンラインストアで多くの時間を費やす原因となっています。それらの大半には5-6kのユニークな製品しかありませんが、ユニークなURL> = 300kを持っています。どのようにこれを回避するための任意のアイデア。オンラインストアをクロール中に動的URLを処理するにはどうすればよいですか?

ありがとうございます!

答えて

0

製品ページを解析する場合、通常、これらのURLにはある種の製品IDがあります。

URLから商品IDを抽出するパターンを見つけて、既に訪問したURLをフィルタリングするために使用します。

+0

私がしようとしているのは、オンラインストアのすべての製品を見つけることです。私は製品ページを特定する方法を知っています。問題は、商品へのリンクが含まれている可能性があるため、すべてのURLを訪問するまですべての商品を特定したことをどのようにして知っているかです。また、私はすでにクロールされたURLを訪問していない – user1276102

+0

私はAmazonと同様の問題があった。カテゴリurlには、 'query'(またはそれに類する)という追加の引数があります。これは常に異なっています。私はカテゴリページでそれを処理しようとしなかった。しかし、手動でこれらのURLをクリーンアップしてどこかに保管し、自分の保管しているURLを使用するためのミドルウェアを作成することができます。または、そのままそのまま残して、製品IDのみを使用することができます。URLから抽出した製品IDがすでに抽出されているdb(またはメモリ)に格納されていない場合のみ、製品IDページをリクエストします。 – warvariuc

+0

ありがとうございます、私が直面している問題とまったく同じです。私は他の考えを考える必要があります。あなたの経験を共有してくれてありがとう! – user1276102

関連する問題