scrapy

    0

    0答えて

    township directory of Chinaをクロールします。ウェブサイトは、州のページ、市のページ、郡のページ、および町のページの4つのレベルで構成されています。たとえば、州のページでは、すべての州がリストされています。 1つの州のリンクをクリックすると、都市ページが表示され、その州の都市リストが表示されます。 私は自分のアイテムを郷にしたいと思っています。これには、town_name

    1

    1答えて

    Scrapyd自体(Scrap Crawl Spider -s JOBDIR = jobdir/spider-1)と同じように、Scrapydを使用してクロールを一時停止/継続する方法がないようです。 私が見つけた唯一の解決はここにあった: https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B0sJ しかし、

    -2

    1答えて

    Scapy1.4を使用して、一連のURLを指定してWebページからコンテンツをクロールします。ページからさまざまな情報(URL、タイトル、本文など)を抽出する方法についてのヘルプが必要です。 現在、私は、次のURL https://healthlibrary.epnet.com/GetContent.aspx?token=3bb6e77f-7239-4082-81fb-4aeb0064ca19&c

    2

    1答えて

    ウェブサイトからデータをスクラップできますが、XMLでエクスポートする必要があります。この目的のために 私はそうのようなシリアライザを定義した: class Person(scrapy.Item): Name = scrapy.Field(serializer=serialize_name) Location = scrapy.Field() そしてそうのようなXMLExp

    1

    1答えて

    私はスパイダーを使用していくつかのデータをpdfファイルとともにスクラップしました。すべてはpdfを除いて行われます。 pdfを直接file_urlsフィールドにダウンロードするsrcはありません。 HTMLはこの <a onclick="document.forms[0].target ='_blank';" id="main_0_body_0_lnkDownloadBio" href="jav

    1

    1答えて

    のデフォルトのパスを設定する方法:現在のフォルダの下に置かれます scrapyのstartprojectのXXX プロジェクトXXXを。 C:/ Projects/Scrapy /などの既定のパスを設定する方法はありますか?上記のコマンドを使用するたびにプロジェクトはこのパスの下に置かれます。 おかげ SK

    1

    2答えて

    ウェブサイトからメールアドレスをダウンロードするサイトを削っています。 私はシンプルなScrapyクローラーを持っています。これはドメインを持つ.txtファイルを取り出し、電子メールアドレスを見つけるためにそれらをスクラップします。 残念ながら、Scrapyはリンクに接尾辞 "%0A"を追加しています。ログファイルに表示されます。 は、ここに私のコードです: class Emailsearcher

    1

    1答えて

    # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request class InfoSpider(scrapy.Spider): name = 'info' allowed_domains = ['womenonlyconnected.com'] start_urls =['http

    1

    1答えて

    私はscrontスクリプトを実行するようにcrontabを設定しましたが、動作しません。 ターミナルで同じコマンドを試します。しかしそれはうまくいく。 rankAuction のcrontab: $ crontab -l */10 * * * * cd ~/PRG/tutorials/tutorials/spiders && scrapy crawl nodecrawler どのように私

    0

    2答えて

    をクロール.txtポリシーなど私は自分のhdにページを保存し、私のxpathsをscrapyシェルでテストしました。彼らは期待どおりに動作するようです。私は(それは私が読んでいる本の中で推奨されますよう)scrapy crawl basicコマンドを使用して、私のクモを実行すると、私は次の出力を得た: from scrapy.item import Item, Field class Pro