scrapy

0熱

1答えて

この例のリンクをたどる方法：http://snippets.scrapy.org/snippets/7/？最初のページのリンクにアクセスした後にスクリプトが停止します。 class MySpider(BaseSpider): class MySpider(CrawlSpider) し、 rules = ( Rule(SgmlLinkExtractor(allow=()),

9熱

2答えて

Scrapyは、ファイルからスクレイプまでのURLのリストを読み取りますか？

私はscrapyをインストールして、単純なdmoz tutorialに従っています。私はPythonの基本的なファイル処理を調べて、ファイルからURLのリストを読み込むようにクローラを取得しようとしましたが、いくつかのエラーがありました。これはおそらく間違っているが、私はそれを撃った。誰かが私にURLのリストを読んでいる例をスクレイピーに見せてもらえますか？前もって感謝します。 from scra

3熱

1答えて

Scrapyスクレイパーがrobots.txtのCrawl-Delayを尊重する最も簡単な方法はどれですか？

私が使用できるDownloaderMiddlewareの設定は、robots.txtのCrawl-Delay設定を強制しますか？そうでない場合は、スクレイパー内でレート制限をどのように実装しますか？

1熱

1答えて

Scrollのクロールの順序

私は基本的なCrawlSpiderをscrapyで書いていますが、URLがクロールされる順番は何ですか？FIFO/LIFO？私は、クローラが開始URLページのすべてのリンクをクロールし、その後、注文と思われない他のURLに移動する必要があります。どうすればいいですか？デフォルトでは

4熱

3答えて

すべてのページをクロールしないでください。

非常に基本的な方法でサイトをクロールしようとしています。しかし、Scrapyはすべてのリンクをクロールしていません。 follows- がmain_page.htmlように私はシナリオを説明します - >、b_page.htmlをa_page.htmlへのリンクが含まれているc_page.html、 a_page.html - > a1_page.htmlへのリンクが含まれ、a2_page.htm

1熱

1答えて

スクラップがダイレクトリンクをリダイレクトしています

CrawlSpiderを使用して、Webページからデータをクロールして抽出しています。開始URLにはリンクが1つしかありません（直接リンクです）、そのリンクからデータをスクラップする必要があります（BaseSpiderを使用して直接リンクを与えるとデータが正常に掻き出されています）。しかし、私はCrawlSpiderを実行すると、それはいくつかのweired 301要求を取得しており、制御はsc

2熱

1答えて

治療中の内部リンクのみを許可する

私は掻きたいURLのリストを持っています。私は3つのレベルの各URLに行きたいですが、私は外部URLに行きたくありません - 私のスタートリストのドメイン内のリンクのみ。私はちょうどいくつかのURLでこれをやりたければ、私はallowed_domainsのリストに簡単に入れると思います。あなたが3000件のURLを取得するときしかし、allowed_domainsリストはScrapyが処理す

3熱

1答えて

Python正規表現 - 周囲のパターンに基づいて値を選択

私はScrapyを使ってウェブページを掻き集めて、特定のオブジェクトから背景色を抽出する必要があります。 inline-cssはDOMの一部ではないので、読み込んだので、現在のXPathを拡張し、オブジェクトのスタイル属性内で必要な値を選択する正規表現を作成する必要があります。私の現在のXPathは、全体のスタイル値それほどのように返します。背景：＃80FF00;高さ：48px;幅：98px;色

6熱

1答えて

Scrapyは以下とスクレーピング非許可リンク

私はCrawlSpiderには、以下の特定のリンクを設定し、各問題へのリンクは、以下のURLスキームに従うニュース雑誌こすりあります http://example.com/YYYY/DDDD/index.htm YYYYは年で、 DDDDは、3桁または4桁の発行番号です。私は928以降の問題のみを希望し、私のルールは以下の通りです。サイトに接続したり、リンクをクロールしたり、アイテムを抽出するの

4熱

1答えて

PythonでScrapyでテキスト出力をフォーマットする

Scrapyスパイダーを使用してページをスクレープし、それらのページを読み込み可能な形式で.txtファイルに保存しようとしています。私はこれを行うために使用しているコードは次のとおりです。本文は、私が最終製品（主にリンク）にはしたくないHTMLを多く含んでいるので、私はここにBeautifulSoupを組み合わせました def parse_item(self, response): s