scrapy

    1

    2答えて

    Scrapyのドキュメントを約HttpProxyMiddlewareはこのようなものですと言う: このミドルウェアはRequestオブジェクトに対してproxyメタ値を設定することにより、要求に使用するHTTP proxyを設定します。 Pythonの標準ライブラリモジュールurllibとurllib2同様 が、それは以下の環境変数に従う: http_proxy https_proxy no_

    1

    2答えて

    私はPythonとScrapyが新しく、FormRequestを使用して検索結果ページのタイトルを取得する単純なクローラにいくつかの問題があります。 基本的に、考えられるのは、検索語句で満たされたCSVを同じ形式で実行し、結果ページからタイトルを取得し、別の(または同じ)CSVにエクスポートすることです。 検索結果の出力は、希望どおり/期待通りです。 問題は、ページがスクラピー用に読み込まれる順番

    1

    1答えて

    私は表現する英語が良くない、申し訳ありません。 私はvs2017で治療をデバッグする方法を知りたいと思います。 import os os.system("run.cmd") とrun.cmd: scrapy crawl weiqn --nolog pause おかげ は、私はvs2015でうまく動作、こちらの方法です。

    0

    2答えて

    こんにちは私はウェブサイトのニュースをクロールするためのスクラップを使用していますが、このプロセスを行うとエラーが発生します。ウェブサイトには多くのニュースページがあり、ニュースのURLはwww.example.com/34223ですこの問題を修正するための方法を見つけようと、彼女はscrapyのバージョンは1.4.0である私のコードであり、私はそれが今の仕事だMACOS import scrap

    0

    1答えて

    セットアップ でクロールを停止します。 ロンドン、特定の地区(セントラルロンドンなど)、特定のサブ地区(Aldgateなど)の3つのエリアサイズで住宅広告を検索できます。 このサイトでは、領域のサイズに関係なく、領域ごとに30の広告ごとに50ページしか確認できません。私。 Xを選択すると、XがCentral LondonかAldgateかにかかわらず、Xで1500の広告を見ることができます。 この

    0

    1答えて

    私は以下のようなヘッダーを渡していますが、416エラーが発生しています:httpが処理されない、または許可されていません。 headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding':'

    0

    2答えて

    何らかの理由で、Scrapyを使用して要素からテキスト値を取得すると正しく表示されますが、配列に配置すると不適切にエンコードされます。 ここにテストがあります:私はChâteauという単語を使用しました。ある場合には試験で、治療は単語を得て印刷し、それを配列に追加します。 2番目のケースtest2では、別のテストから印刷された単語を文字通りコピーしてコピーします。 value=node.xpath

    1

    1答えて

    私はScrapyを介してウェブサイトをスクラップしようとしています。しかし、ウェブサイトは時には非常に遅く、ブラウザでの最初のリクエストでは15-20秒ほどかかります。とにかく、Scrapyを使ってウェブサイトをクロールしようとすると、TCP Timeoutエラーが発生します。私のブラウザではウェブサイトが正常に開かれます。私もテストのためUSER_AGENT設定を上書きしている 2017-09-

    -1

    1答えて

    私は以下のウェブサイトをスクラップしようとしていますが、いくつか問題があります。彼らがどのようにempresasのリストを作成しているのかわかりません。 私はいくつかのカテゴリを選択してフォームを送信すると、URL doesntの変更、私は要求を見てみましたが、成功しませんでした(ここではwebdeveloperではありません)。 http://www.vitrinedoexportador.go