scrapy-pipeline

    3

    1答えて

    私は治療に初心者です。 hereから画像をダウンロードしようとしています。私はOfficial-Docとthis articleに従っていた。 私のsettings.pyは、次のようになります。私はこれらのファイルの両方が良好であると考え import scrapy from scrapy.item import Item class ShopcluesItem(scrapy.Item):

    0

    1答えて

    パイプラインから返された値を取得しようとしています。私は降伏ジェネレータを使ってアイテムを生成しています。 これは私のコードです。 def get_or_create(model): model_class = type(model) created = False try: obj = model_class.objects.get(product_c

    0

    1答えて

    私はRFC2616ポリシーを使って解決策を見つけたと思っていましたが、スクレイパーの実行時間をテストすると同じことが言えます。そこで、私はデフォルトポリシーに戻りました。 私は今、私はあなたが を指定してポリシーを上書きすることができます私の理解から、アイテムimage_urls今 に私が送ったURLをキャッシュする必要が 'production.pipelines.MyImagesPipelin

    0

    2答えて

    私は、npidb.orgからのプロバイダの名前を掻き集めるNPIのリストを持っています。 NPI値はcsvファイルに保存されています。 コードにURLを貼り付けることで手動で行うことができます。しかし、NPIのリストがあれば、どのようにそれを行うのか分かりません。ここで は私の現在のコードです: import scrapy from scrapy.spider import BaseSpider

    0

    2答えて

    image URLをスクラップしてscrapy.Itemのimage_urlsフィールドに配置している作業スパイダーがあります。私はImagesPipelineから継承したカスタムパイプラインを持っています。特定のURLが非httpのhttp応答コード(401エラーなど)を返すとき。例えば、ログファイルに、私はitem_completed()機能の私のカスタムイメージパイプラインに WARNING

    0

    1答えて

    http://stackoverflow.com/questions/20753358/how-can-i-use-the-fields-to-export-attribute-in-baseitemexporter-to-order-my-scr/20758558#20758558の指示に従って、アイテムのフィールドを順番にエクスポートしようとしました。しかし crawler.signals.c

    0

    1答えて

    これは以前に尋ねられましたが、常に出てくる答えはDjangoItemです。しかし、それはそれで述べgithubのはということです:...これはの核心である 十分に拡張しないことがあり、多くの場合、 ない(例えばウェブクローラなど)の書き込み集中型アプリケーションに適しています私の問題は、私は私がのpython manage.pyシェルを実行したときに私ができるのと同じ方法で使用し、私のDjango

    0

    1答えて

    ニュースサイトをスクラップします。すべてのニュースについて、内容と多くのコメントがあります。私は2つのアイテム、1つはコンテンツ、もう1つは複数のコメントを持っています。 コンテンツに問題があり、複数のコメントが異なるリクエストとして発生します。私はニュースの内容を望んでおり、その複数のコメントは、一緒に、または1つとして、収穫または返されるべきです。パイプラインのタイミングや注文は私にとって重要

    0

    2答えて

    私は、データをスクラップする必要がある既存のスクリプト(main.py)を持っています。 私はこのデータを取得するための治療プロジェクトを開始しました。さて、item.pyを使ってデータを永続化するのではなく、アイテムジェネレータとしてデータを検索する方法はありますか? このようなものは本当に便利ですが、実現可能であれば、それを行う方法を見つけることができませんでした。 for item in s

    1

    1答えて

    ここに私のコードスニペットです。 Scrapyを使用してウェブサイトを掻き集め、インデックス作成のためにElasticsearchにデータを保存しています。 def parse(self, response): for news in response.xpath('head'): yield { 'pagetype': news.xpath('//meta[@