scrapy-spider

    0

    2答えて

    私は一緒にまとめたスパイダーの問題にぶち当たっています。私はthis siteのトランスクリプトから個々のテキスト行とその対応するタイムスタンプを削り取ろうとしていて、適切なセレクタだと思っていますが、実行するとスパイダの出力は最後の行とタイムスタンプに過ぎません。私は似たような問題を抱えているカップルを見たことがありますが、私の問題を解決する答えはまだ見つかりませんでした。ここで はクモです:

    -1

    1答えて

    誰かが私を助けることができる私はCSVに460ページから顧客名、カスタマーレビューや時間を抽出したいのpythonで複数のWebページから 抽出データ ファイル。あなたがスクラップをしたいサイトは、常にあなたがセレンを使用することができます同じであればここで は Url

    0

    1答えて

    Windows 10のBashOnUbuntyでScrapyを学習しようとしています。genspiderコマンドを使用してスパイダー(yelprest)を作成し、スパイダーファイルを作成して別のスパイダー(quotes_spider) (公式チュートリアルhttps://doc.scrapy.org/en/latest/intro/tutorial.htmlに従ってください)。 最初のスパイダーは

    1

    2答えて

    私のscrapyプロジェクトでは、現在FilesPipelineを使用しています。ダウンロードしたファイルは、ファイル名としてURLのSHA1ハッシュで保存されます。 [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384

    0

    1答えて

    'scrapy crawl word'を実行した後、エラーが発生します。私はScdaを使用してfdaのウェブサイトを削っています。チュートリアルをオンラインで続けています。私のコードは次のとおりです: import scrapy class WordSpider(scrapy.Spider): name = "word" def start_requests(self):

    0

    1答えて

    私は、次のページに行くためにポストリクエストのループを送信する必要があるスクーピースパイダーをやっている、問題はそれは1つのポストリクエストを送信するだけです。クエリ文字列は各ページの要素「currentPage」を変更するので、各ページのこのキーの値を変更して投稿を送信する必要があります。しかし、私が前に言ったように、それは最初のポストリクエスト後に停止します。あなたがdont_filter=T

    0

    1答えて

    私はスクラピーツールを使ってウェブサイトをスクラップしようとしています。 私は「シリアルID」のような出力に含ま に追加フィールドを追加したいデータを廃棄することができていますが、 :「3001」、 は、各製品のため、それはシリアルIDをインクリメントする必要があり をスクラップ上記のコードについては3002、3003、3004 ............. def parse_dir_conten

    1

    1答えて

    私はスクイピープロジェクト(Scrapy 1.4、Python 3.x)を持っています。私は条件が満たされていないときに私のスパイダーを再実行したい。 OSコマンドを使用して実行クモ、bashスクリプトで実行クモ、CrawlerProcessなどを使用して実行クモ...しかし、私はエラー を得たたびに:私は、私はすべての可能な方法を試してみました、私のspider_closed機能に def __