2011-08-05 8 views
1

デイリーディスカッションアグリゲータが、どのように異なる取引Webサイトのデータをスクラップするのだろうと思いましたか?私はAPIとRSSフィードを提供しない多くの取引Webサイトを見てきましたが、依然としてこのアグリゲータはそれらのデータをスクラップします。 はここのサイトには、任意のAPIやRSSフィードを提供していない場合、私はデイリーディスカウントアグリゲーターは、どのようにさまざまな取引Webサイトからデータを取得しますか?

http://www.thedealmap.com/

http://www.dealmandi.com/

答えて

5

を参照していますいくつかのウェブサイトをしている、それはそれからデータを抽出することは可能だ「古い学校情報があるページを照会し、返されたHTMLからデータを抽出することによって、「方法」を選択できます。 Python

これは、HTMLからデータを抽出するページとlxmlまたはBeautifulSoupを照会するためurllib2またはrequestsを使用して行うことができます。大きなプロジェクトの場合は、scrapyフレームワークを使用してみてください。このフレームワークでは、複雑なスパイダーをコード化するためのすべてを提供しています。

+0

しかし、彼らは複雑なウェブサイトでもこれを行いますか?私はそこにコミュニケーションのためのポストを使用するいくつかのウェブサイトを見た –

+0

はい、それはまた、複雑なウェブサイトの可能性があります。他の例では、他のサイトからデータを抽出するために 'scrapy 'を使う[サイト/企業のリスト](http://dev.scrapy.org/wiki/CompaniesUsingScrapy)があります。 – MatToufoutu

1

私がLesserThan-http://lesserthan.comをビルドしたとき、ほとんどのAPIやRSSフィードが未公開であることがわかりました。アフィリエイトアカウントにサインアップした後でのみ、RSSフィードのURLがわかります。

関連する問題