scrapy-spider

    0

    1答えて

    URLへのリクエストに問題がある。 メインページに点検しながら、私は としてのhrefにURLを取得する。しかし、リンクが開いて取得するときに、あるように思われる:私はこのための要求を行うことができるか、 両方のリンクが異なっています。ここで 私のシェルは言う:

    0

    1答えて

    私は、著名な英国の小売業者のウェブサイトを、SeleniumとScrapy(下記のコードを参照)を使用して傷つけようとしています。私は[scrapy.core.scraper] ERROR: Spider error processingを手に入れています。それ以外に何ができるか分かりません(3時間ほどかかりました)。ご協力いただきありがとうございます! import scrapy from s

    -1

    1答えて

    私はpython scrapyで非常に小さなスクリプトを書いて、yellowpageウェブサイトの複数のページに表示された名前、住所、電話番号を解析しました。スクリプトを実行すると、スムーズに動作することがわかります。しかし、私が遭遇する唯一の問題は、データがCSV出力で掻き取られる方法です。これは常に2つの行の間の行(行)の隙間です。私が意味していたことは、データは他のすべての行に印刷されている

    0

    1答えて

    www.example.com/page?p=value1が既に訪問されている場合、www.example.com/page?p=value2にアクセスしないように、スパイシースパイダーが訪問済みURLのURLパラメータを無視するよう設定できますか?

    0

    1答えて

    私はScrapyでニュースサイトを掻き集めて、スクラップしたアイテムをsqlalchemyでデータベースに保存します。 クロールジョブは定期的に実行され、最後のクロール以降に変更されなかったURLは無視します。 私は、LinkExtractorをサブクラス化しようとしていて、response.urlが最近更新されたよりも最近クロールされた場合に空のリストを返します。 しかし、私は 'scrapyク

    0

    1答えて

    Windows 10にコマンドプロンプトでScrapyをインストールするときに、このメッセージが最後に表示されます。間違っていた可能性があるものや克服する方法を教えてください。 [WinError 2] The system cannot find the file specified ---------------------------------------- Command

    0

    1答えて

    機能していません。 class NlSMCrawlerSpider(SitemapSpider): name = 'nl_smcrawler' allowed_domains = ['newlook.com'] sitemap_urls = ['http://www.newlook.com/uk/sitemap/maps/sitemap_uk_product_en_1.xml'] site

    1

    1答えて

    response.xpathを使用するたびにScrapyがウェブサイトにpingを実行しますか?または、要求ごとにメモリーに1つの応答値が保管され、それ以降のすべてのxpath照会はローカルで実行されますか?

    -1

    1答えて

    私はwebsiteを掻きたいと思っていました。私がしたい抽出は、文書リスト、著者名、および日付です。私はいくつかのスパイダースパイダーのビデオを見て、ウェブサイトから必要なデータを与える3つのシェルスクリプトコマンドを見つけ出すことができました。コマンドは、日付の scrapy shell https://www.cato.org/research/34/commentary です:作者のため

    -1

    1答えて

    私はpythonを使ってもWebページ(https://www.cato.org/research/34/commentary)からデータを抽出しようとしています。それは記事へのリンクを含み、その特定の記事から私は日付、著者、記事の見出しを抽出しなければなりません。そして、私はすべての記事に対して同じ操作を繰り返しています。 私は、このコマンドからの文書のタイトルを抽出することができる午前: re