scrapy-spider

0熱

1答えて

URLへのリクエストに問題がある。メインページに点検しながら、私はとしてのhrefにURLを取得する。しかし、リンクが開いて取得するときに、あるように思われる：私はこのための要求を行うことができるか、両方のリンクが異なっています。ここで私のシェルは言う：

0熱

1答えて

Scrapy + Selenium issue

私は、著名な英国の小売業者のウェブサイトを、SeleniumとScrapy（下記のコードを参照）を使用して傷つけようとしています。私は[scrapy.core.scraper] ERROR: Spider error processingを手に入れています。それ以外に何ができるか分かりません（3時間ほどかかりました）。ご協力いただきありがとうございます！ import scrapy from s

-1熱

1答えて

csv出力で空白行を取り除くことができません

私はpython scrapyで非常に小さなスクリプトを書いて、yellowpageウェブサイトの複数のページに表示された名前、住所、電話番号を解析しました。スクリプトを実行すると、スムーズに動作することがわかります。しかし、私が遭遇する唯一の問題は、データがCSV出力で掻き取られる方法です。これは常に2つの行の間の行（行）の隙間です。私が意味していたことは、データは他のすべての行に印刷されている

0熱

1答えて

URLパラメータを無視するようにスパイダーを設定すると、同じページを2度削らないようにする

www.example.com/page?p=value1が既に訪問されている場合、www.example.com/page?p=value2にアクセスしないように、スパイシースパイダーが訪問済みURLのURLパラメータを無視するよう設定できますか？

0熱

1答えて

ScreamサブクラスLinkExtractorはTypeErrorを発生させます：MyLinkExtractor（）は予期しないキーワード引数 'allow'を持っています

私はScrapyでニュースサイトを掻き集めて、スクラップしたアイテムをsqlalchemyでデータベースに保存します。クロールジョブは定期的に実行され、最後のクロール以降に変更されなかったURLは無視します。私は、LinkExtractorをサブクラス化しようとしていて、response.urlが最近更新されたよりも最近クロールされた場合に空のリストを返します。しかし、私は 'scrapyク

0熱

1答えて

Scrapyインストールの投げ込みエラー

Windows 10にコマンドプロンプトでScrapyをインストールするときに、このメッセージが最後に表示されます。間違っていた可能性があるものや克服する方法を教えてください。 [WinError 2] The system cannot find the file specified ---------------------------------------- Command

0熱

1答えて

Scrapy SitemapSpider私は著名な英国の小売店のウェブサイトをクロールし、次のようにはAttributeErrorを取得しようとしている

機能していません。 class NlSMCrawlerSpider(SitemapSpider): name = 'nl_smcrawler' allowed_domains = ['newlook.com'] sitemap_urls = ['http://www.newlook.com/uk/sitemap/maps/sitemap_uk_product_en_1.xml'] site

1熱

1答えて

Scrip xpathクエリの最適化

response.xpathを使用するたびにScrapyがウェブサイトにpingを実行しますか？または、要求ごとにメモリーに1つの応答値が保管され、それ以降のすべてのxpath照会はローカルで実行されますか？

-1熱

1答えて

複数のScapping with Scrapyスパイダー

私はwebsiteを掻きたいと思っていました。私がしたい抽出は、文書リスト、著者名、および日付です。私はいくつかのスパイダースパイダーのビデオを見て、ウェブサイトから必要なデータを与える3つのシェルスクリプトコマンドを見つけ出すことができました。コマンドは、日付の scrapy shell https://www.cato.org/research/34/commentary です：作者のため

-1熱

1答えて

Scrapy Spider Webページの抽出

私はpythonを使ってもWebページ（https://www.cato.org/research/34/commentary）からデータを抽出しようとしています。それは記事へのリンクを含み、その特定の記事から私は日付、著者、記事の見出しを抽出しなければなりません。そして、私はすべての記事に対して同じ操作を繰り返しています。私は、このコマンドからの文書のタイトルを抽出することができる午前： re