scrapy

0熱

0答えて

Scrapy - 1つのアイテムにつき4レベルのページをクロールします。深く進むことはできません。

township directory of Chinaをクロールします。ウェブサイトは、州のページ、市のページ、郡のページ、および町のページの4つのレベルで構成されています。たとえば、州のページでは、すべての州がリストされています。 1つの州のリンクをクリックすると、都市ページが表示され、その州の都市リストが表示されます。私は自分のアイテムを郷にしたいと思っています。これには、town_name

1熱

1答えて

Scrapyd一時停止/続行ジョブ

Scrapyd自体（Scrap Crawl Spider -s JOBDIR = jobdir/spider-1）と同じように、Scrapydを使用してクロールを一時停止/継続する方法がないようです。私が見つけた唯一の解決はここにあった： https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B0sJ しかし、

-2熱

1答えて

Scrapyからウェブページ内のすべてのコンテンツを抽出する方法

Scapy1.4を使用して、一連のURLを指定してWebページからコンテンツをクロールします。ページからさまざまな情報（URL、タイトル、本文など）を抽出する方法についてのヘルプが必要です。現在、私は、次のURL https://healthlibrary.epnet.com/GetContent.aspx?token=3bb6e77f-7239-4082-81fb-4aeb0064ca19&c

2熱

1答えて

エクスポートされたXMLにスキーマで属性を追加する

ウェブサイトからデータをスクラップできますが、XMLでエクスポートする必要があります。この目的のために私はそうのようなシリアライザを定義した： class Person(scrapy.Item): Name = scrapy.Field(serializer=serialize_name) Location = scrapy.Field() そしてそうのようなXMLExp

1熱

1答えて

ボタンをクリックしてスプラッシュを使用してファイルをダウンロード

私はスパイダーを使用していくつかのデータをpdfファイルとともにスクラップしました。すべてはpdfを除いて行われます。 pdfを直接file_urlsフィールドにダウンロードするsrcはありません。 HTMLはこの <a onclick="document.forms[0].target ='_blank';" id="main_0_body_0_lnkDownloadBio" href="jav

1熱

1答えて

SCRAPY - とScarpyプロジェクト作成時にプロジェクトの作成

のデフォルトのパスを設定する方法：現在のフォルダの下に置かれます scrapyのstartprojectのXXX プロジェクトXXXを。 C：/ Projects/Scrapy /などの既定のパスを設定する方法はありますか？上記のコマンドを使用するたびにプロジェクトはこのパスの下に置かれます。おかげ SK

1熱

2答えて

Scrapy - リンク内の予期しない接尾辞 "％0A"

ウェブサイトからメールアドレスをダウンロードするサイトを削っています。私はシンプルなScrapyクローラーを持っています。これはドメインを持つ.txtファイルを取り出し、電子メールアドレスを見つけるためにそれらをスクラップします。残念ながら、Scrapyはリンクに接尾辞 "％0A"を追加しています。ログファイルに表示されます。は、ここに私のコードです： class Emailsearcher

1熱

1答えて

Scrapy：スクレイプWebページ上の「次」の結果をここにscrapy

# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request class InfoSpider(scrapy.Spider): name = 'info' allowed_domains = ['womenonlyconnected.com'] start_urls =['http

1熱

1答えて

crontabがscrapyで正しく動作していない

私はscrontスクリプトを実行するようにcrontabを設定しましたが、動作しません。ターミナルで同じコマンドを試します。しかしそれはうまくいく。 rankAuction のcrontab： $ crontab -l */10 * * * * cd ~/PRG/tutorials/tutorials/spiders && scrapy crawl nodecrawler どのように私

0熱

2答えて

scrapyは、私はscrapyを学習して、このページからいくつかの項目をscrapyしたかったんだ0ページ（0ページ/分で）、（/分の商品で）商品を掻き取っ

をクロール.txtポリシーなど私は自分のhdにページを保存し、私のxpathsをscrapyシェルでテストしました。彼らは期待どおりに動作するようです。私は（それは私が読んでいる本の中で推奨されますよう）scrapy crawl basicコマンドを使用して、私のクモを実行すると、私は次の出力を得た： from scrapy.item import Item, Field class Pro