scrapy

0熱

1答えて

scrapyのクロールはコマンドではうまくいきますが、スクリプトから実行すると何か心配があります

私は治療にいくつか問題があります。私がコマンドscrapy crawl album -o test.xmlを実行すると、スパイダーはうまく動作します。スクリプトからクロールすると、私はと違うstart_urlsをスパイダーに与えますが、と同じはのコマンドと同じになります。両方のURLが利用可能です。ここに私が書いたコードがあります。私が間違っていることを指摘してください、ありがとう。スパイダーフ

0熱

2答えて

フォーラムスレッドのスクレイピング：どのようにCSSのマージン属性からフォローアップ関係を計算するのですか？

私はこれで本当に頑張っています。私の掻き出しジョブの対象サイトは古いスタイルのフォーラムで、各スレッドは<div>タグ内にあり、各投稿は<p>タグ内にあります。フォローアップポストには、左マージンが20pxインデントされてその関係が示されます。 <div> <p style="margin:2px 0 17px 0px; width:705px"><a href="./6368972.

0熱

1答えて

Scrapy、

これは私の簡単なクモのコードである（まだ始まったばかり）： def start_requests(self): urls = [ 'http://www.liputan6.com/search?q=bubarkan+hti&type=all', ] for url in urls: yield scrapy.Request(url=url, c

0熱

2答えて

scrapy-redisプログラムが自動的に閉じない

xxx：リクエストがクロールされましたが、プログラムはまだ実行されていますが、実行中ではなくプログラムを自動的に停止する方法はありますか？実行されているコード：私は、サイトをクロールするscrapy-のRedisを使用 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min),

2熱

1答えて

scrapyRTの認証

scrapyRTを使用してすべてのスクレーパースパイダーをAngularフロントエンドに接続するのが好きです。ドキュメントは、次のように生産にそれで動作するように推奨しています。 docker run -p 9080:9080 -tid -v /home/user/quotesbot:/scrapyrt/project scrapinghub/scrapyrt これは、外の世界にポート908

1熱

1答えて

空の文字列を持つInitialzeクラス（治療アイテム）

items.pyで定義したscrapy Itemクラスをmongodbに挿入していますが、クラスのすべてのフィールドを挿入する必要があります。空の。リストクラスのNameとPriceは常に空として挿入されますが、pipelines.pyをきれいにしておき、別の項目を簡単に切り替えることができます。現在、クラスの各部分を空の文字列に設定しないと、dbに挿入するときに追加されません。各メンバーを空の

0熱

1答えて

クロール中に空の出力ファイル

私はすでに同様の質問をしていますが、それは新しいスパイダーですが、私は同じ問題があります（Crawling data successfully but cannot scraped or write it into csv）...私は他のスパイダーをここに置いておきます。私は通常、出力ファイルを取得する必要があるすべての情報...私を助けることができる人は誰ですか？私は金曜日にこのクモを終了しなけ

-1熱

1答えて

空白とハイフンを含むクラス名のスクラピーを使用してデータを抽出できません

私はスクレイピーに新しいので、複数のクラス名を持つタグからテキストを抽出する必要があり、クラス名にスペースとハイフンが含まれています。例：私は、コードを使用すると <div class="info> <span class="price sale">text1</span> <span class="title ng-binding">some text</span> </

0熱

1答えて

Scrapy：なぜパイプラインを使用するのですか？

私はScrapy + Splashに作業クローラを持っています。それは多くのページでスパイダーを起動します。各ページにはリンクのリストが含まれています。各ページについて、スパイダーはページをダウンロードし、そのページからリンクされたページの一部を再帰的にはダウンロードしません。すべてのページがファイルシステムに保存されます。システムは完璧に動作します。現時点で私はいくつかのDBの相互作用を追加する