scrapy

17熱

2答えて

スパイダー内のセッションクッキーにアクセスしようとしています。 def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', 'pass':'...'}, ca

2熱

1答えて

複数のスパイダーをscrapyで管理する

私はアグリゲーターを作成しています。私は最初のツールセットとしてscrapyから始めました。最初に私はいくつかのスパイダーしか持っていませんでしたが、プロジェクトが成長するにつれて、私は数多くのサイトを掻き集めるので、何百、何千もの異なるスパイダーがあるようです。これらのスパイダーを管理するには、一度クロールする必要があるウェブサイトと、定期的にクロールする必要があるウェブサイトがあります。

3熱

2答えて

PythonでScrapyで解析する際に改行を保存する

私は、ページからテキストを抽出するScrapyスパイダーを作成しました。スパイダーは、多くのページで正しく解析して出力しますが、いくつかは取り除かれています。ドキュメント内で改行や書式設定を維持しようとしています。このようhttp://www.state.gov/r/pa/prs/dpb/2011/04/160298.htmなどのページは、同様に適切にフォーマットされています 2011年4月7日

8熱

1答えて

404のリンクがスクレイピーに見つかりませんでしたか？

一時的に404エラーが発生するサイトがあります。しかし、私はそれが動作するブラウザに貼り付ける。 404ステータスコードのリンクを5回再試行するように指示する方法。

0熱

1答えて

1クォート内のhrefを持つクロールリンク

私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' 'のhref=" "というリンクが付いています。すべてのリンクをallow()でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか？

3熱

1答えて

Scrapy Torproject

： $ python -c 'import urllib; print urllib.getproxies()' {'ftp': 'ftp://127.0.0.1:8118/', 'all': 'socks://127.0.0.1:8118/', 'http': 'http://127.0.0.1:8118/', 'https': 'https://127.0.0.1:8118/', 'no

1熱

1答えて

私たちはパイプラインでアイテムを使用しています

私は自分のウェブサイトをクロールするためにscrapyの新しいユーザーです。私はmysqlデータベースにクロールされたデータを保存したいと思います。 myspider.py： class MininovaSpider(CrawlSpider): name = 'myspider' allowed_domains = ['example.com'] start_url

1熱

1答えて

pythonでディレクトリを変更し、scrap spiderで.htmlファイル名を抽出

fidという名前のフォルダをクロールし、すべてのサブフォルダの名前をリンクとして抽出しました。今問題は、これらのサブフォルダのそれぞれにhtmlページがあり、これらすべてのhtmlファイルの名前を抽出して現在の「start_urls」に追加して、これらすべてのHTMLから必要な情報を取り出すことができるようにすることですページ。私は試した： os.listdir() glob.glob()

0熱

2答えて

Scrapy.bat説明

scrapy.batファイルがある： @echo off setlocal "%~dp0..\python" "%~dp0scrapy" %* endlocal は、誰かがこれが何を説明してもらえますか？特にこの行"%~dp0..\python" "%~dp0scrapy" %*。

9熱

4答えて

URLからクエリを削除するにはどうすればよいですか？

私は、各URLの終わりにクエリ文字列にランダムな値を追加しているようなサイトをクロールするためにscrapyを使用しています。これはクロールを一種の無限ループに変えています。 URLのクエリ文字列部分を無視するように私はどのようにして治療を行いますか？