scrapy

    0

    1答えて

    私は、スクールスクリプトを使ってPaul KrugmanのNYTブログから最新のブログ投稿を取得しています。私は実際に私は同じ問題を取得しておくデータを抽出しようとすると、ステージに着くしかしときに、プロジェクトでは、きれいに沿って進められている。 ERROR: Spider must return Request, BaseItem, dict or None, got 'generator'

    1

    1答えて

    設定モジュールのenvvar値をmy_module.my_submodule.my_leaf_moduleに設定しました。内部には、DEFAULT_REQUEST_HEADERS辞書を含む多くの定数が設定されています。とにかく私は上記のように設定し、スパイダーを指定せずに必要なサンプルURLに対してscrapyシェルを実行します。起動時に例外や警告はありませんが、私の提供された設定モジュールは使用

    1

    1答えて

    私はscrapy crawlコマンドを使用してシステム引数を渡す単一のScrapyスパイダーを持っています。私はコマンドラインの代わりにCrawlerProcessを使ってこのスパイダーを実行しようとしています。このコマンドライン引数をすべてこのクローラプロセスに渡すにはどうすればよいですか? scrapy crawl example -o data.jl -t jsonlines -s JOBD

    1

    1答えて

    Pymongoを介してスクラピーパイプラインを使用してMongoDBに接続しようとしていますが、新しいデータベースを作成して、ちょうど擦ったもので移植していますが、問題。私は基本的なチュートリアルに従い、2つのコマンドラインを設定しました.1つはscongを実行し、もう1つはmongodを実行します。残念ながら、mongodを実行した後にスクラップコードを実行すると、mongodは、私がセットアッ

    0

    1答えて

    Scrapy 1.4.0は3日前に動作を停止しました。私はそれに何も変えなかった。 エラーは次のとおりです。 Traceback (most recent call last): File "/usr/bin/scrapy", line 7, in <module> from scrapy.cmdline import execute File "/usr/lib64

    0

    1答えて

    ダウンロードしたファイルの出力フォルダを変更したいのですが、source code of files pipelineに基づいて、file_pathは無効にすることができます。以下のコードを試しましたが、うまくいかなかったようです。 Btw、私はpython - scrapyの新機能です。 pipelines.py from scrapy.pipelines.files import FilesP

    2

    1答えて

    私が望むのは、スパイダーエンジンが次のページへのリンクを認識していることです。 これは、私は2つのバリエーションを持っているhttp://quotes.toscrape.com/ このページです。 、CSSの構文ベースで動作する最初のものが、2番目の1 next_page_url = response.css('li.next > a::attr(href)').extract_first()

    1

    2答えて

    私はBeautiful Soupをサイトの1ページをクロールするのに大成功を収めましたが、サイトの大きなリストをチェックして自分のサイトへの言及やリンクが含まれているかどうかを確認する新しいプロジェクトがあります。したがって、私は各サイトのサイト全体をチェックする必要があります。 BSでは、スクレイパーにサイトで行われたことを伝える方法がまだわからないので、再帰の制限にぶつかっています。それは何か

    1

    1答えて

    シリアライザに関するドキュメントはこちらlinkで、10進シリアライザに関するドキュメントが不足しているかどうかはわかりませんか?特に、カンマを含む数字で、格納し、この値をscrapinhubとき、私はいくつかのエラーを取得しています prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) :私はこのようなscr