デイリーディスカウントアグリゲーターは、どのようにさまざまな取引Webサイトからデータを取得しますか？

デイリーディスカッションアグリゲータが、どのように異なる取引Webサイトのデータをスクラップするのだろうと思いましたか？私はAPIとRSSフィードを提供しない多くの取引Webサイトを見てきましたが、依然としてこのアグリゲータはそれらのデータをスクラップします。はここのサイトには、任意のAPIやRSSフィードを提供していない場合、私はデイリーディスカウントアグリゲーターは、どのようにさまざまな取引Webサイトからデータを取得しますか？

2011-08-05 Pranay Airan

を参照していますいくつかのウェブサイトをしている、それはそれからデータを抽出することは可能だ「古い学校情報があるページを照会し、返されたHTMLからデータを抽出することによって、「方法」を選択できます。 Pythonで

これは、HTMLからデータを抽出するページとlxmlまたはBeautifulSoupを照会するためurllib2またはrequestsを使用して行うことができます。大きなプロジェクトの場合は、scrapyフレームワークを使用してみてください。このフレームワークでは、複雑なスパイダーをコード化するためのすべてを提供しています。

出典

2011-08-05 10:52:17 MatToufoutu

しかし、彼らは複雑なウェブサイトでもこれを行いますか？私はそこにコミュニケーションのためのポストを使用するいくつかのウェブサイトを見た –

はい、それはまた、複雑なウェブサイトの可能性があります。他の例では、他のサイトからデータを抽出するために 'scrapy 'を使う[サイト/企業のリスト]（http://dev.scrapy.org/wiki/CompaniesUsingScrapy）があります。 – MatToufoutu

私がLesserThan-http://lesserthan.comをビルドしたとき、ほとんどのAPIやRSSフィードが未公開であることがわかりました。アフィリエイトアカウントにサインアップした後でのみ、RSSフィードのURLがわかります。

出典

2012-07-28 00:56:56 ccagle8

デイリーディスカウントアグリゲーターは、どのようにさまざまな取引Webサイトからデータを取得しますか？

答えて

関連する問題