scrapy

7熱

1答えて

私はスクリプトから治療法を実行しようとしています。here。それはthisスニペットを使用することを提案しましたが、私はそれを無期限にハングアップします。これはバージョン.10で書かれました。現在の安定版とまだ互換性がありますか？

1熱

2答えて

Scrapy Python spider：ユニコードではなくLatin-1で結果を保存

現在、私のスパイダーは必要に応じて結果をフェッチしますが、ユニコードでエンコードします（UTF-8、私は信じています）。これらの結果をCSVに保存すると、その結果、Scrapyが挿入するすべての文字が含まれています。どのように正確に結果をラテン文字として格納するのですか？&ユニコードではありません。どこに変更を加える必要がありますか？ありがとうございました。 -TM

1熱

1答えて

scrapyプロジェクトがscrapydし展開する際に動作していないHTTPCACHE

私はscrapydでHTTPCACHEを使用しようとすると、私は次のエラーを取得： [scrapy] WARNING: Disabled Httpcache Middlware: unable to find scrapy.cfg file to infer project data dir

1熱

2答えて

XPathが同じときのデータの抽出

私はjythonとscrapyの新機能ですが、私はその機能に感心しています。私の質問は、XPathが同じときにデータを抽出する最良の方法は何ですか？私はすべての3つのTDフィールドから情報をこすりする必要が <tr> <td> <a href="/user/Bob">Bob Job</a> </td> <td>hi</td> <td>280.0</

2熱

3答えて

どのようにスパイラルシェルが使用するスパイダーを定義するのですか？

私はScrapyシェルを使用していくつかのXPathをテストしようとしていますが、私の望んでいないスクレイピングを行うために不完全なスパイダーモジュールを呼び出すようです。シェルと一緒に使用するスパイダーの治療法を定義する方法はありますか？さらに、なぜScrapyはこれをやっているのですか？スパイダーが使用の準備ができていないことを知ってはいけませんか？それで私はシェルを正しく使用しているのですか

1熱

1答えて

ImportError：PythonのScrapyが動作しなくなりました。scrapy.cmdlineという名前のモジュールがありません

この問題は、数時間前に投稿した問題（Pythonが動作しない問題）に似ています。環境変数のPYTHONPATHに正しいディレクトリを追加するだけで問題を解決できました。 Scrapyを実行は私にエラーを与える： ImportError: No module named scrapy.cmdline 私が見て、私が正しい場所にそのモジュールを持っています。この問題は新しい環境変数を作成すること

8熱

2答えて

リンクをたどる、Scrapy Webクローラフレームワーク

Scrapyのドキュメントにいくつかの読書をした後、私はまだCrawlSpiderのルールを使用して、独自のリンク抽出メカニズムをコールバックメソッドに実装すること間の違いをキャッチしていません。私は、後者のアプローチを使用して新しいWebクローラを作成しようとしていますが、過去のプロジェクトでルールを使用していたために悪い経験をしました。私は本当に何をやっているのか、その理由を正確に知りたいで

-2熱

1答えて

Python/Scrapyの質問：よりクリーンな結果を得るには？

私の仕事は、特定の名前のウェブサイトをデータマイニングすることです。私のPythonの経験はあまり高くありません。 [u'Bobジョー '] [u'Timトム'] [u'Anneフランク '] [u'superman'：私はすべての名前をこすり落としたとき、彼らはこの形式で出てきます] これらの値をクリーンアップするにはどうすればよいですか？「u」は何を意味していますか？私のxpathは間違って

5熱

2答えて

Scrapyミドルウェア順

Scrapy documentationは言う：最初ミドルウェアはエンジンに近く、最後の1がダウンローダに近い1です。は、あなたのミドルウェアが設定 DOWNLOADER_MIDDLEWARES_BASEを見ると、あなたがミドルウェアを挿入する場所に応じた値を選ぶに割り当てるためにどの順序を決定します。各ミドルウェアは異なるアクションを実行し、あなたのミドルウェアがに依存する

1熱

1答えて

python scrapyを使用してcsvファイルに項目をポンピングする - csvファイルで出力する方法の問題

出力をCSVファイルに追加したいが、次の行に配置されるフィールド名の下で開始しない問題があるこれは、csvファイルにplayerMins項目を設定するときに行2に配置するのとは異なります。私のコードがどこに間違っているのか教えてもらえますか？ここでは、次のとおりです。 class EspnSpider3(BaseSpider): name = "espn3.org" allow