scrapy

    7

    1答えて

    私はスクリプトから治療法を実行しようとしています。here。それはthisスニペットを使用することを提案しましたが、私はそれを無期限にハングアップします。これはバージョン.10で書かれました。現在の安定版とまだ互換性がありますか?

    1

    2答えて

    現在、私のスパイダーは必要に応じて結果をフェッチしますが、ユニコードでエンコードします(UTF-8、私は信じています)。これらの結果をCSVに保存すると、その結果、Scrapyが挿入するすべての文字が含まれています。 どのように正確に結果をラテン文字として格納するのですか?&ユニコードではありません。どこに変更を加える必要がありますか? ありがとうございました。 -TM

    1

    1答えて

    私はscrapydでHTTPCACHEを使用しようとすると、私は次のエラーを取得: [scrapy] WARNING: Disabled Httpcache Middlware: unable to find scrapy.cfg file to infer project data dir

    1

    2答えて

    私はjythonとscrapyの新機能ですが、私はその機能に感心しています。私の質問は、XPathが同じときにデータを抽出する最良の方法は何ですか?私はすべての3つのTDフィールドから情報をこすりする必要が <tr> <td> <a href="/user/Bob">Bob Job</a> </td> <td>hi</td> <td>280.0</

    2

    3答えて

    私はScrapyシェルを使用していくつかのXPathをテストしようとしていますが、私の望んでいないスクレイピングを行うために不完全なスパイダーモジュールを呼び出すようです。シェルと一緒に使用するスパイダーの治療法を定義する方法はありますか?さらに、なぜScrapyはこれをやっているのですか?スパイダーが使用の準備ができていないことを知ってはいけませんか?それで私はシェルを正しく使用しているのですか

    1

    1答えて

    この問題は、数時間前に投稿した問題(Pythonが動作しない問題)に似ています。環境変数のPYTHONPATHに正しいディレクトリを追加するだけで問題を解決できました。 Scrapyを実行 は私にエラーを与える: ImportError: No module named scrapy.cmdline 私が見て、私が正しい場所にそのモジュールを持っています。この問題は新しい環境変数を作成すること

    8

    2答えて

    Scrapyのドキュメントにいくつかの読書をした後、私はまだCrawlSpiderのルールを使用して、独自のリンク抽出メカニズムをコールバックメソッドに実装すること間の違いをキャッチしていません。 私は、後者のアプローチを使用して新しいWebクローラを作成しようとしていますが、過去のプロジェクトでルールを使用していたために悪い経験をしました。私は本当に何をやっているのか、その理由を正確に知りたいで

    -2

    1答えて

    私の仕事は、特定の名前のウェブサイトをデータマイニングすることです。私のPythonの経験はあまり高くありません。 [u'Bobジョー '] [u'Timトム'] [u'Anneフランク '] [u'superman':私はすべての名前をこすり落としたとき、彼らはこの形式で出てきます] これらの値をクリーンアップするにはどうすればよいですか? 「u」は何を意味していますか?私のxpathは間違って

    5

    2答えて

    Scrapy documentationは言う: 最初 ミドルウェアは エンジンに近く、最後の1がダウンローダに 近い1です。 は、あなたのミドルウェアが 設定 DOWNLOADER_MIDDLEWARES_BASEを見ると、あなたがミドルウェアを挿入する場所 に応じた値を選ぶ に割り当てるためにどの順序を決定します。各 ミドルウェアは異なるアクション を実行し、あなたのミドルウェアが に依存する

    1

    1答えて

    出力をCSVファイルに追加したいが、次の行に配置されるフィールド名の下で開始しない問題があるこれは、csvファイルにplayerMins項目を設定するときに行2に配置するのとは異なります。私のコードがどこに間違っているのか教えてもらえますか?ここでは、次のとおりです。 class EspnSpider3(BaseSpider): name = "espn3.org" allow