scrapy

-1熱

1答えて

Windowsに移行していて、PycharmでScrapyを動作させたいと思っています。私は、追加しようとしている： from scrapy.cmdline import execute と同様に変更を - /Library/Python/2.7/site-packages/scrapy/cmdline.py. It did not like this. 私の出力はthis- https://

1熱

1答えて

scrapy spider：時系列での出力

私はPythonでScrapyを使ってWebクローラをプログラミングしています。目的は、所定の時間間隔でウェブページの変化を監視することである。ウェブサイトにログインすると、スパイダーはX分ごとにWebページを要求し、特定のデータがページから抽出され、テキストファイルに保存されます。テキストファイルは、スパイダーが閉じたときにのみ書き込まれ、テキストファイルの行は時間順に並んでいないことが判明

0熱

1答えて

シンプルなHTML DOM、スクレイピングエラー注意：C：\ xampp \ htdocs \ scraper \ au_div_puller.phpのオブジェクトでないオブジェクトのプロパティを取得しようとしています

シンプルなHTML Domを使用してPHPでスクレーパーを作成しました。問題は、それが結果を返しますが、私にエラーを与えることである、誰もがそれを修正する方法についての正しい方向に私を指すエラーがあるしてください。お知らせ：しようとしていますCで非オブジェクトのプロパティを取得：\ xamppの\ htdocsに\スクレーパー\ au_div_puller.phpライン60 多くトンにハン

0熱

1答えて

Scrapyのみ擦り傷最初の4つの始まるURL

はここ20の開始URLがありますが、私のクモ class Spider(scrapy.Spider): name = "spider" start_urls = [] with open("clause/clauses.txt") as f: for line in f: start_urls(line) base_url = "<

0熱

1答えて

非常に単純なScrapy + Splashプロジェクト

私は非常に簡単なScrapy + Splashプロジェクトを開発して、JavaScriptのウェブサイトをクロールします。これは私のコードです： splashtest.py： import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_

0熱

1答えて

Scrapyフォーラムをクロールするために、XPathは

動作しない私は、次のフォーラムのページのポストデータを取得するためにscrapyを使用したい： https://www.motor-talk.de/faq/mercedes-e-klasse-w210-q89.html 私が試したコードは以下に発見されました。最初の部分が動作し、必要なテキストが返されます。しかし、2番目の部分は絶対に何も返しません、そして、クモはちょうど終了します。 Chrome

0熱

1答えて

スクラブを使用した再帰的スクレイピング中の属性エラー

スクラップスパイダーは、スクラップしなければならないページへのリンクを含むページを提供する限り、うまく機能します。今私はすべてのカテゴリには与えたくないが、すべてのカテゴリへのリンクを含むページ。これを実現するために、別の解析関数を追加するだけでいいと思っていました。が、コンソール出力は、これはsome attribute refferenceが正しく動作していないことを私に伝えます "at

0熱

1答えて

アイテムごとに複数のページから1つのCSVファイルにスクレイピングするとき、Scrapy Pause/Resumeを実装するにはどうすればよいですか？

私は文書化（https://doc.scrapy.org/en/latest/topics/jobs.html）の助けを借りてScrapyでの一時停止/再開をうまく実装しました。例（How can i use multiple requests and pass items in between them in scrapy python）を適用することによって、複数のページを1つのCSVラインの

1熱

1答えて

XPathまたはCSSセレクタを使用したデータを解析するDownloaderミドルウェア（スクラップを使用）

プロキシがまだブラックリストにないことを確認するために、レスポンスからデータを抽出する必要があります（HTTPステータスが不十分です）。予想されるように行うにはは、私がDownloaderのミドルウェアに class TestXPathMiddleware(object): def process_response(self, request, response, spider):

0熱

1答えて

Scrapyでdivを反復処理する方法は？

それは非常に自明な質問ですが、私はScrapyには新しいです。私は自分の問題の解決策を見つけようとしましたが、このコードで何が間違っているのか分かりません。私の目標は、指定されたウェブサイトからすべてのオペラショーをスクラップすることです。すべてのショーのデータは、1つのdiv内にあり、クラス「行 - 流体行 - パフォーマンス」を有する。私はそれを取得するためにそれらを反復しようとしていますが