scrapy

0熱

1答えて

（Python 3）SpiderはRequest、BaseItem、dictまたはNoneを返さなければならず、 'generator'を取得しました

私は、スクールスクリプトを使ってPaul KrugmanのNYTブログから最新のブログ投稿を取得しています。私は実際に私は同じ問題を取得しておくデータを抽出しようとすると、ステージに着くしかしときに、プロジェクトでは、きれいに沿って進められている。 ERROR: Spider must return Request, BaseItem, dict or None, got 'generator'

1熱

1答えて

SCRAPY_SETTINGS_MODULEを無視しているスキルシェル

設定モジュールのenvvar値をmy_module.my_submodule.my_leaf_moduleに設定しました。内部には、DEFAULT_REQUEST_HEADERS辞書を含む多くの定数が設定されています。とにかく私は上記のように設定し、スパイダーを指定せずに必要なサンプルURLに対してscrapyシェルを実行します。起動時に例外や警告はありませんが、私の提供された設定モジュールは使用

1熱

1答えて

システムコマンドライン引数をScrapy CrawlerProcessに渡すには？

私はscrapy crawlコマンドを使用してシステム引数を渡す単一のScrapyスパイダーを持っています。私はコマンドラインの代わりにCrawlerProcessを使ってこのスパイダーを実行しようとしています。このコマンドライン引数をすべてこのクローラプロセスに渡すにはどうすればよいですか？ scrapy crawl example -o data.jl -t jsonlines -s JOBD

1熱

1答えて

（Scratch MongoDBパイプラインが動作しない）

Pymongoを介してスクラピーパイプラインを使用してMongoDBに接続しようとしていますが、新しいデータベースを作成して、ちょうど擦ったもので移植していますが、問題。私は基本的なチュートリアルに従い、2つのコマンドラインを設定しました.1つはscongを実行し、もう1つはmongodを実行します。残念ながら、mongodを実行した後にスクラップコードを実行すると、mongodは、私がセットアッ

0熱

1答えて

Scrapyが突然動作を停止し、エラーが発生します

Scrapy 1.4.0は3日前に動作を停止しました。私はそれに何も変えなかった。エラーは次のとおりです。 Traceback (most recent call last): File "/usr/bin/scrapy", line 7, in <module> from scrapy.cmdline import execute File "/usr/lib64

0熱

1答えて

Scrapy Override FilesPlipからのファイル

ダウンロードしたファイルの出力フォルダを変更したいのですが、source code of files pipelineに基づいて、file_pathは無効にすることができます。以下のコードを試しましたが、うまくいかなかったようです。 Btw、私はpython - scrapyの新機能です。 pipelines.py from scrapy.pipelines.files import FilesP

2熱

1答えて

xpath 1行で私にリンクが得られません

私が望むのは、スパイダーエンジンが次のページへのリンクを認識していることです。これは、私は2つのバリエーションを持っているhttp://quotes.toscrape.com/ このページです。、CSSの構文ベースで動作する最初のものが、2番目の1 next_page_url = response.css('li.next > a::attr(href)').extract_first()

1熱

2答えて

Scrapyはサイト全体をクロールしたときに「認識」していますか？

私はBeautiful Soupをサイトの1ページをクロールするのに大成功を収めましたが、サイトの大きなリストをチェックして自分のサイトへの言及やリンクが含まれているかどうかを確認する新しいプロジェクトがあります。したがって、私は各サイトのサイト全体をチェックする必要があります。 BSでは、スクレイパーにサイトで行われたことを伝える方法がまだわからないので、再帰の制限にぶつかっています。それは何か

1熱

1答えて

scrapinghubで小数点以下をシリアライズ

シリアライザに関するドキュメントはこちらlinkで、10進シリアライザに関するドキュメントが不足しているかどうかはわかりませんか？特に、カンマを含む数字で、格納し、この値をscrapinhubとき、私はいくつかのエラーを取得しています prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) ：私はこのようなscr