scrapy-spider

1熱

2答えて

ページネーションを持つサイトから記事をスクラップします。基本的には、すべてのページが記事リンクのリストであり、スパイダーはparse_articleメソッドのページ上のリンクをたどり、次のページリンクをたどります。しかし、特定の数の記事が掻き取られた後、これを停止する方法はありますか？たとえば、これは私がこれまでcrawlspiderを使用しているものである： rules = ( #ne

1熱

1答えて

Scrapy - 理解CrawlSpiderとLinkExtractor

だから私はCrawlSpiderを使用してScrapy Docsで、次の例を理解しようとしている：このクモは、クロールを開始でしょう： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(Crawl

1熱

2答えて

Scrapy - 日付別リンクを掻き集める

リンクを関連する日付で削り取ることは可能ですか？私はデータベースに記事情報を保存する毎日の実行スパイダーを実装しようとしていますが、私はすでに昨日の記事の前に掻き取ってしまった記事を再スクラップしたくありません。私はthisを渡って同じことを尋ねるので、scrapy-deltafetch pluginが提案されました。ただし、これはデータベースに保存されている以前に保存されたrequest fi

4熱

1答えて

Scrapyが重複したURLなどのユニークなURLのフィルタリングされ

のURL： http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1 http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2ユニークですが、scrapyはそれらをこする重複としてこれらのUR

0熱

1答えて

1つのジェネリックスパイダースパイダーと複数の特定のスパイダーを作成する

私はジェネリックスパイダーを作成して、最も一般的なタスクとジェネリックスパイダーを継承し、ウェブサイト固有の変数を宣言します。 genericspider.pyがあります： # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import Spider, CrawlSpider class GenericProductSpid

2熱

2答えて

Scrapy - XMLFeedSpiderで追加のリクエストを行うことができません

私はXMLFeedSpiderを使用しているスクラピースパイダーを持っています。 parse_node()の各ノードで返されたデータだけでなく、さらにデータを取得するために追加のリクエストを行う必要があります。私が得た場合にのみ、問題は、parse_node()何からの追加の要求は全く返されますされています class MySpidersSpider(XMLFeedSpider): na

0熱

1答えて

Scrapyクロールスパイダー、リンク

私はこれに関連ダースかそこらの質問があるけど、私が見たどれもが本当に自分のクモに複数の方法がなかった、以下のトラブル... だから私はこすりますよカテゴリページから始まるウェブサイト。私は製品カテゴリーへのリンクをつかんで、クロールスパイダーのルールを活用して各カテゴリーの「次のページ」を自動的に繰り返し、各ステップでそのページ内の特定の情報を掻き集める。問題は、各カテゴリの最初のページに移動し

0熱

1答えて

Scrapy Spiderでルールを使用すると、以下の関数で無効な構文エラーが発生する

私はこのスパイダーをscrapy 3.0でビルドしています。問題は、ルールを使用するたびに、def parse_productPageに「無効な構文」というエラーが発生することです。私がルールを削除すると、それは文句を言っておらず、うまく動作します。私はコードに何が間違っているのか分かりません。手伝ってくれませんか。あなたは慎重に括弧を数える場合 rules = ( Rule(LinkEx

0熱

1答えて

Xpathのgrep要素

私は `Scrapy Pythonを使用して、サイトからデータをgrepしようとしています。この構造をXpathでどのようにgrepできますか？ <div class="foo"> <h3>Need this text_1</h3> <table class="thesamename"> <tbody> <tr> <td class="tmp_year