scrapy

    0

    1答えて

    この例のリンクをたどる方法:http://snippets.scrapy.org/snippets/7/? 最初のページのリンクにアクセスした後にスクリプトが停止します。 class MySpider(BaseSpider): class MySpider(CrawlSpider) し、 rules = ( Rule(SgmlLinkExtractor(allow=()),

    9

    2答えて

    私はscrapyをインストールして、単純なdmoz tutorialに従っています。私はPythonの基本的なファイル処理を調べて、ファイルからURLのリストを読み込むようにクローラを取得しようとしましたが、いくつかのエラーがありました。これはおそらく間違っているが、私はそれを撃った。誰かが私にURLのリストを読んでいる例をスクレイピーに見せてもらえますか?前もって感謝します。 from scra

    3

    1答えて

    私が使用できるDownloaderMiddlewareの設定は、robots.txtのCrawl-Delay設定を強制しますか?そうでない場合は、スクレイパー内でレート制限をどのように実装しますか?

    1

    1答えて

    私は基本的なCrawlSpiderをscrapyで書いていますが、URLがクロールされる順番は何ですか?FIFO/LIFO? 私は、クローラが開始URLページのすべてのリンクをクロールし、その後、注文と思われない他のURLに移動する必要があります。 どうすればいいですか?デフォルトでは

    4

    3答えて

    非常に基本的な方法でサイトをクロールしようとしています。しかし、Scrapyはすべてのリンクをクロールしていません。 follows- がmain_page.htmlように私はシナリオを説明します - >、b_page.htmlをa_page.htmlへのリンクが含まれているc_page.html、 a_page.html - > a1_page.htmlへのリンクが含まれ、a2_page.htm

    1

    1答えて

    CrawlSpiderを使用して、Webページからデータをクロールして抽出しています。 開始URLにはリンクが1つしかありません(直接リンクです)、そのリンクからデータをスクラップする必要があります(BaseSpiderを使用して直接リンクを与えるとデータが正常に掻き出されています)。しかし、私はCrawlSpiderを実行すると、それはいくつかのweired 301要求を取得しており、制御はsc

    2

    1答えて

    私は掻きたいURLのリストを持っています。 私は3つのレベルの各URLに行きたいですが、私は外部URLに行きたくありません - 私のスタートリストのドメイン内のリンクのみ。 私はちょうどいくつかのURLでこれをやりたければ、私はallowed_domainsのリストに簡単に入れると思います。 あなたが3000件のURLを取得するときしかし、allowed_domainsリストはScrapyが処理す

    3

    1答えて

    私はScrapyを使ってウェブページを掻き集めて、特定のオブジェクトから背景色を抽出する必要があります。 inline-cssはDOMの一部ではないので、読み込んだので、現在のXPathを拡張し、オブジェクトのスタイル属性内で必要な値を選択する正規表現を作成する必要があります。私の現在のXPathは、全体のスタイル値それほどのように返します。 背景:#80FF00;高さ:48px;幅:98px;色

    6

    1答えて

    私はCrawlSpiderには、以下の特定のリンクを設定し、各問題へのリンクは、以下のURLスキームに従うニュース雑誌こすりあります http://example.com/YYYY/DDDD/index.htm YYYYは年で、 DDDDは、3桁または4桁の発行番号です。 私は928以降の問題のみを希望し、私のルールは以下の通りです。サイトに接続したり、リンクをクロールしたり、アイテムを抽出するの

    4

    1答えて

    Scrapyスパイダーを使用してページをスクレープし、それらのページを読み込み可能な形式で.txtファイルに保存しようとしています。私はこれを行うために使用しているコードは次のとおりです。本文は、私が最終製品(主にリンク)にはしたくないHTMLを多く含んでいるので、私はここにBeautifulSoupを組み合わせました def parse_item(self, response): s