scrapy-spider

0熱

1答えて

私は class MyCrawler(Spider): name = "my_crawler" def __init__(self, *args, **kwargs): super(MyCrawler, self).__init__(*args, **kwargs) を持って、私がのinitの内側に簡単にしてください定義された名前を取得することが可能である場合、

0熱

1答えて

治療中にコールバックが呼び出されない

私は治療のルール/リンク抽出プログラムを試しています。 "restrict_css"の下のCSSは正しいですが、私はscrapyシェルでresponse.cssを使用してリンクを取得できますが、何らかの理由でこれをスパイダーのunerルールとリンク抽出プログラムで実行するとparse_productコールバック関数は呼び出されません。 rules=( Rule(LinkExtractor(

0熱

1答えて

Pythonのscrapyパッケージを使用したデータクロール

私は、「scrapy」パッケージを使用してウェブサイト（IMDB）からの画像でデータを取得しようとしています。 divクラスにimage_URLがある場合は、映画ポスターでデータをクロールできます。しかし、そうでなければ、私のコードは正しく動作しません。それは、画像に関連付けられたデータをスキップしました。 image_URLのように修正して、画像を忘れてデータをクロールするだけです。一部を除い

0熱

1答えて

pythonを使用して特定のテーマに関する情報を収集するにはどうすればいいですか？

たとえば、特定のNBAプレーヤーに関する毎日の情報を収集することに興味があります。私が知っている限り、Googleは結果を削ることを許可していません。 Googleは機械検索の他の可能性を提供していますか？ Pythonパッケージはそれらのクエリをプリフォームしますか？

0熱

1答えて

Python Scrapyのネストされたページには、最も内側のページのアイテムしか必要ありません。

私はネストしたページを持つWebサイトで練習をしています。私は最も内側のページのコンテンツを掻き集める必要があります。主な解析機能への最も内側のページは、ページを開くだけで、最後のparse関数からアイテムを取得し、メインの解析機能ここに繰り越すために多くの解析機能を使用して、私が試したものである try: import scrapy from urlparse import

0熱

1答えて

新聞からtxtへの治療のエクストラベッド

私は治療に少し新しく、仕事のための新聞情報をいくつか抽出する必要があります。私はチュートリアルを試しましたが、どれも期待どおりに機能しませんでした。与えられたURL、最初の4つのトピック（私たちがリンクをクリックしたときの内部情報）に関する情報を抽出します。まず最初にリンクをナビゲートしようとしましたが、ビットiは失敗し、出力は空になり、クロールされたページは0と表示されます。 import s

0熱

1答えて

Scrapyリクエストに識別子を添付しますか？

私は一般的にクローラやネットワークを初めて使うので、これは無知な質問かもしれません。私は各応答を識別できるように、各治療要求に識別子を付けようとしています。例として、データベースに保存されている製品のデータを削り取っていて、その特定の製品に関連付けられたデータベースにそのデータを保存したいとします。リクエストに識別子を付ける方法はありますか？レスポンスが返ってくると、データベース内の正しい製品を

0熱

1答えて

タイムアウトしたウェブサイトを再試行するようにスクラップを許可しないでください。

最適化のために、一度タイムアウトしたウェブサイトをスキップするにはスパイダーに連絡してください。これはどのように達成できますか？ありがとうございました。

2熱

1答えて

特定のhtmlタグの内容を傷病や美しいスープで抽出するには？

私はこの治療法で改善するために、このsiteのおもちゃのクローラを作っています。このように、私が試したscrapyシェルで：美しいスープやscrapyで In [1]: for e in response.css('meta.keywords').extract(): ...: print(e) Out: <meta class="keywords" itemprop="key