scrapy

    17

    2答えて

    スパイダー内のセッションクッキーにアクセスしようとしています。 def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', 'pass':'...'}, ca

    2

    1答えて

    私はアグリゲーターを作成しています。私は最初のツールセットとしてscrapyから始めました。 最初に私はいくつかのスパイダーしか持っていませんでしたが、プロジェクトが成長するにつれて、私は数多くのサイトを掻き集めるので、何百、何千もの異なるスパイダーがあるようです。 これらのスパイダーを管理するには、一度クロールする必要があるウェブサイトと、定期的にクロールする必要があるウェブサイトがあります。

    3

    2答えて

    私は、ページからテキストを抽出するScrapyスパイダーを作成しました。スパイダーは、多くのページで正しく解析して出力しますが、いくつかは取り除かれています。ドキュメント内で改行や書式設定を維持しようとしています。このようhttp://www.state.gov/r/pa/prs/dpb/2011/04/160298.htmなどのページは、同様に適切にフォーマットされています 2011年4月7日

    8

    1答えて

    一時的に404エラーが発生するサイトがあります。しかし、私はそれが動作するブラウザに貼り付ける。 404ステータスコードのリンクを5回再試行するように指示する方法。

    0

    1答えて

    私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' 'のhref=" "というリンクが付いています。 すべてのリンクをallow()でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか?

    3

    1答えて

    : $ python -c 'import urllib; print urllib.getproxies()' {'ftp': 'ftp://127.0.0.1:8118/', 'all': 'socks://127.0.0.1:8118/', 'http': 'http://127.0.0.1:8118/', 'https': 'https://127.0.0.1:8118/', 'no

    1

    1答えて

    私は自分のウェブサイトをクロールするためにscrapyの新しいユーザーです。私はmysqlデータベースにクロールされたデータを保存したいと思います。 myspider.py: class MininovaSpider(CrawlSpider): name = 'myspider' allowed_domains = ['example.com'] start_url

    1

    1答えて

    fidという名前のフォルダをクロールし、すべてのサブフォルダの名前をリンクとして抽出しました。今問題は、これらのサブフォルダのそれぞれにhtmlページがあり、これらすべてのhtmlファイルの名前を抽出して現在の「start_urls」に追加して、これらすべてのHTMLから必要な情報を取り出すことができるようにすることですページ。私は試した: os.listdir() glob.glob()

    0

    2答えて

    scrapy.batファイルがある: @echo off setlocal "%~dp0..\python" "%~dp0scrapy" %* endlocal は、誰かがこれが何を説明してもらえますか?特にこの行"%~dp0..\python" "%~dp0scrapy" %*。

    9

    4答えて

    私は、各URLの終わりにクエリ文字列にランダムな値を追加しているようなサイトをクロールするためにscrapyを使用しています。これはクロールを一種の無限ループに変えています。 URLのクエリ文字列部分を無視するように私はどのようにして治療を行いますか?