scrapy-spider

0熱

2答えて

セレクタのリストが与えられたときに最後の要素のみを返すScrapy Spider

私は一緒にまとめたスパイダーの問題にぶち当たっています。私はthis siteのトランスクリプトから個々のテキスト行とその対応するタイムスタンプを削り取ろうとしていて、適切なセレクタだと思っていますが、実行するとスパイダの出力は最後の行とタイムスタンプに過ぎません。私は似たような問題を抱えているカップルを見たことがありますが、私の問題を解決する答えはまだ見つかりませんでした。ここではクモです：

-1熱

1答えて

抽出データ - Pythonの

誰かが私を助けることができる私はCSVに460ページから顧客名、カスタマーレビューや時間を抽出したいのpythonで複数のWebページから抽出データファイル。あなたがスクラップをしたいサイトは、常にあなたがセレンを使用することができます同じであればここでは Url

0熱

1答えて

コマンドプロンプトから常に同じコマンドが実行されています

Windows 10のBashOnUbuntyでScrapyを学習しようとしています。genspiderコマンドを使用してスパイダー（yelprest）を作成し、スパイダーファイルを作成して別のスパイダー（quotes_spider）（公式チュートリアルhttps://doc.scrapy.org/en/latest/intro/tutorial.htmlに従ってください）。最初のスパイダーは

1熱

2答えて

治療ファイルのダウンロード方法カスタムファイル名の使用方法

私のscrapyプロジェクトでは、現在FilesPipelineを使用しています。ダウンロードしたファイルは、ファイル名としてURLのSHA1ハッシュで保存されます。 [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384

0熱

1答えて

'scrapy crawl'を実行しようとするとエラーが発生する

'scrapy crawl word'を実行した後、エラーが発生します。私はScdaを使用してfdaのウェブサイトを削っています。チュートリアルをオンラインで続けています。私のコードは次のとおりです： import scrapy class WordSpider(scrapy.Spider): name = "word" def start_requests(self):

0熱

1答えて

ループポストリクエストScrapy

私は、次のページに行くためにポストリクエストのループを送信する必要があるスクーピースパイダーをやっている、問題はそれは1つのポストリクエストを送信するだけです。クエリ文字列は各ページの要素「currentPage」を変更するので、各ページのこのキーの値を変更して投稿を送信する必要があります。しかし、私が前に言ったように、それは最初のポストリクエスト後に停止します。あなたがdont_filter=T

0熱

1答えて

スクラップされた製品ごとに1ずつ増えるシリアル番号のような、pythonのスクラップ出力にフィールドを追加したい

私はスクラピーツールを使ってウェブサイトをスクラップしようとしています。私は「シリアルID」のような出力に含まに追加フィールドを追加したいデータを廃棄することができていますが、：「3001」、は、各製品のため、それはシリアルIDをインクリメントする必要がありをスクラップ上記のコードについては3002、3003、3004 ............. def parse_dir_conten

1熱

1答えて

スクラピースパイダーを再起動できません

私はスクイピープロジェクト（Scrapy 1.4、Python 3.x）を持っています。私は条件が満たされていないときに私のスパイダーを再実行したい。 OSコマンドを使用して実行クモ、bashスクリプトで実行クモ、CrawlerProcessなどを使用して実行クモ...しかし、私はエラーを得たたびに：私は、私はすべての可能な方法を試してみました、私のspider_closed機能に def __