scrapy

    0

    1答えて

    私は治療にいくつか問題があります。私がコマンドscrapy crawl album -o test.xmlを実行すると、スパイダーはうまく動作します。スクリプトからクロールすると、私はと違うstart_urlsをスパイダーに与えますが、と同じはのコマンドと同じになります。両方のURLが利用可能です。ここに私が書いたコードがあります。私が間違っていることを指摘してください、ありがとう。 スパイダーフ

    0

    2答えて

    私はこれで本当に頑張っています。 私の掻き出しジョブの対象サイトは古いスタイルのフォーラムで、各スレッドは<div>タグ内にあり、各投稿は<p>タグ内にあります。フォローアップポストには、左マージンが20pxインデントされてその関係が示されます。 <div> <p style="margin:2px 0 17px 0px; width:705px"><a href="./6368972.

    0

    1答えて

    これは私の簡単なクモのコードである(まだ始まったばかり): def start_requests(self): urls = [ 'http://www.liputan6.com/search?q=bubarkan+hti&type=all', ] for url in urls: yield scrapy.Request(url=url, c

    0

    2答えて

    xxx:リクエストがクロールされましたが、プログラムはまだ実行されていますが、実行中ではなくプログラムを自動的に停止する方法はありますか? 実行されているコード:私は、サイトをクロールするscrapy-のRedisを使用 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min),

    2

    1答えて

    scrapyRTを使用してすべてのスクレーパースパイダーをAngularフロントエンドに接続するのが好きです。 ドキュメントは、次のように生産にそれで動作するように推奨しています。 docker run -p 9080:9080 -tid -v /home/user/quotesbot:/scrapyrt/project scrapinghub/scrapyrt これは、外の世界にポート908

    1

    1答えて

    items.pyで定義したscrapy Itemクラスをmongodbに挿入していますが、クラスのすべてのフィールドを挿入する必要があります。空の。リストクラスのNameとPriceは常に空として挿入されますが、pipelines.pyをきれいにしておき、別の項目を簡単に切り替えることができます。現在、クラスの各部分を空の文字列に設定しないと、dbに挿入するときに追加されません。 各メンバーを空の

    0

    1答えて

    私はすでに同様の質問をしていますが、それは新しいスパイダーですが、私は同じ問題があります(Crawling data successfully but cannot scraped or write it into csv)...私は他のスパイダーをここに置いておきます。私は通常、出力ファイルを取得する必要があるすべての情報...私を助けることができる人は誰ですか?私は金曜日にこのクモを終了しなけ

    -1

    1答えて

    私はスクレイピーに新しいので、複数のクラス名を持つタグからテキストを抽出する必要があり、クラス名にスペースとハイフンが含まれています。 例:私は、コードを使用すると <div class="info> <span class="price sale">text1</span> <span class="title ng-binding">some text</span> </

    0

    1答えて

    私はScrapy + Splashに作業クローラを持っています。それは多くのページでスパイダーを起動します。各ページにはリンクのリストが含まれています。各ページについて、スパイダーはページをダウンロードし、そのページからリンクされたページの一部を再帰的にはダウンロードしません。すべてのページがファイルシステムに保存されます。システムは完璧に動作します。現時点で私はいくつかのDBの相互作用を追加する