scrapy-spider

    1

    2答えて

    ページネーションを持つサイトから記事をスクラップします。基本的には、すべてのページが記事リンクのリストであり、スパイダーはparse_articleメソッドのページ上のリンクをたどり、次のページリンクをたどります。しかし、特定の数の記事が掻き取られた後、これを停止する方法はありますか?たとえば、これは私がこれまでcrawlspiderを使用しているものである: rules = ( #ne

    1

    1答えて

    だから私はCrawlSpiderを使用してScrapy Docsで、次の例を理解しようとしている:このクモは、クロールを開始でしょう : import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(Crawl

    1

    2答えて

    リンクを関連する日付で削り取ることは可能ですか?私はデータベースに記事情報を保存する毎日の実行スパイダーを実装しようとしていますが、私はすでに昨日の記事の前に掻き取ってしまった記事を再スクラップしたくありません。私はthisを渡って同じことを尋ねるので、scrapy-deltafetch pluginが提案されました。 ただし、これはデータベースに保存されている以前に保存されたrequest fi

    4

    1答えて

    のURL: http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1 http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2ユニークですが、scrapyはそれらをこする重複としてこれらのUR

    0

    1答えて

    私はジェネリックスパイダーを作成して、最も一般的なタスクとジェネリックスパイダーを継承し、ウェブサイト固有の変数を宣言します。 genericspider.pyがあります: # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import Spider, CrawlSpider class GenericProductSpid

    2

    2答えて

    私はXMLFeedSpiderを使用しているスクラピースパイダーを持っています。 parse_node()の各ノードで返されたデータだけでなく、さらにデータを取得するために追加のリクエストを行う必要があります。私が得た場合にのみ、問題は、parse_node()何からの追加の要求は全く返されますされています class MySpidersSpider(XMLFeedSpider): na

    0

    1答えて

    私はこれに関連ダースかそこらの質問があるけど、私が見たどれもが本当に自分のクモに複数の方法がなかった、以下のトラブル... だから私はこすりますよカテゴリページから始まるウェブサイト。私は製品カテゴリーへのリンクをつかんで、クロールスパイダーのルールを活用して各カテゴリーの「次のページ」を自動的に繰り返し、各ステップでそのページ内の特定の情報を掻き集める。 問題は、各カテゴリの最初のページに移動し

    0

    1答えて

    私はこのスパイダーをscrapy 3.0でビルドしています。問題は、ルールを使用するたびに、def parse_productPageに「無効な構文」というエラーが発生することです。私がルールを削除すると、それは文句を言っておらず、うまく動作します。私はコードに何が間違っているのか分かりません。手伝ってくれませんか。あなたは慎重に括弧を数える場合 rules = ( Rule(LinkEx

    0

    1答えて

    私は `Scrapy Pythonを使用して、サイトからデータをgrepしようとしています。 この構造をXpathでどのようにgrepできますか? <div class="foo"> <h3>Need this text_1</h3> <table class="thesamename"> <tbody> <tr> <td class="tmp_year