2012-04-14 11 views
1

ウェブ全体から製品のデータ(価格、タイトルなど)を掻き集める掻き取りツールを開発する必要があります。今、私は掻爬の経験がありますが、それは単一のウェブサイトのためです。私はどのように私は全体のウェブをこすり分けるか分からない。 1つの可能な解決策は、Googleに問い合わせて、Googleに現れるリンクから各ウェブサイトを掻き集めることです。これは良いアプローチですか?ウェブ全体からのデータの掻き取り

私は、各サイトが独自のデータ表現方法を持っている可能性があるため、この問題をどのように解決するかという一般的なアプローチが必要です。どのようにこれらのすべてのバリエーションを組み込むのですか?あらゆるガイドライン/ヒント?

答えて

1

Googleが見マルチサイトの価格比較機能が組み込まれています:http://www.google.co.uk/shopping

あなたはAPIは、おそらくGoogleはに悪名高いトリッキーであるとして、より良い選択ですが、グーグル独自のカスタム検索APIやカールを使用して、そのリソースを問い合わせる試みることができますもしかすると、カールスクリプトや類似のものが使われていると思えば、おそらくIPをロックするでしょう。手動で複数のサイトをコーディングするというアイデアが恐怖で満たされれば、elses比較サイトからデータを引き出すことです。

関連する問題