scrapy

1熱

2答えて

Scrapyのドキュメントを約HttpProxyMiddlewareはこのようなものですと言う：このミドルウェアはRequestオブジェクトに対してproxyメタ値を設定することにより、要求に使用するHTTP proxyを設定します。 Pythonの標準ライブラリモジュールurllibとurllib2同様が、それは以下の環境変数に従う： http_proxy https_proxy no_

1熱

2答えて

Scrapy：CSVのFormRequest、順番にまたは検索タームでエクスポート

私はPythonとScrapyが新しく、FormRequestを使用して検索結果ページのタイトルを取得する単純なクローラにいくつかの問題があります。基本的に、考えられるのは、検索語句で満たされたCSVを同じ形式で実行し、結果ページからタイトルを取得し、別の（または同じ）CSVにエクスポートすることです。検索結果の出力は、希望どおり/期待通りです。問題は、ページがスクラピー用に読み込まれる順番

1熱

1答えて

vs2017でデバッグの治療

私は表現する英語が良くない、申し訳ありません。私はvs2017で治療をデバッグする方法を知りたいと思います。 import os os.system("run.cmd") とrun.cmd： scrapy crawl weiqn --nolog pause おかげは、私はvs2015でうまく動作、こちらの方法です。

0熱

2答えて

詐欺師のウェブサイト

こんにちは私はウェブサイトのニュースをクロールするためのスクラップを使用していますが、このプロセスを行うとエラーが発生します。ウェブサイトには多くのニュースページがあり、ニュースのURLはwww.example.com/34223ですこの問題を修正するための方法を見つけようと、彼女はscrapyのバージョンは1.4.0である私のコードであり、私はそれが今の仕事だMACOS import scrap

0熱

1答えて

Scrapyは、私が<a href="https://www.gumtree.com/property-to-rent/london" rel="nofollow noreferrer">this site</a>からロンドンの住宅の広告をこするよ、一見ランダム点

セットアップでクロールを停止します。ロンドン、特定の地区（セントラルロンドンなど）、特定のサブ地区（Aldgateなど）の3つのエリアサイズで住宅広告を検索できます。このサイトでは、領域のサイズに関係なく、領域ごとに30の広告ごとに50ページしか確認できません。私。 Xを選択すると、XがCentral LondonかAldgateかにかかわらず、Xで1500の広告を見ることができます。この

0熱

1答えて

httpレスポンスは許可されていないか、またはscrapyを使ってPythonで処理されていませんか？

私は以下のようなヘッダーを渡していますが、416エラーが発生しています：httpが処理されない、または許可されていません。 headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding':'

0熱

2答えて

スキルエンコーディングデータが間違っています

何らかの理由で、Scrapyを使用して要素からテキスト値を取得すると正しく表示されますが、配列に配置すると不適切にエンコードされます。ここにテストがあります：私はChâteauという単語を使用しました。ある場合には試験で、治療は単語を得て印刷し、それを配列に追加します。 2番目のケースtest2では、別のテストから印刷された単語を文字通りコピーしてコピーします。 value=node.xpath

1熱

1答えて

Scrapy - TCP接続タイムアウトを設定する

私はScrapyを介してウェブサイトをスクラップしようとしています。しかし、ウェブサイトは時には非常に遅く、ブラウザでの最初のリクエストでは15-20秒ほどかかります。とにかく、Scrapyを使ってウェブサイトをクロールしようとすると、TCP Timeoutエラーが発生します。私のブラウザではウェブサイトが正常に開かれます。私もテストのためUSER_AGENT設定を上書きしている 2017-09-

-1熱

1答えて

javascriptの動的ウェブサイトをスクラップする方法

私は以下のウェブサイトをスクラップしようとしていますが、いくつか問題があります。彼らがどのようにempresasのリストを作成しているのかわかりません。私はいくつかのカテゴリを選択してフォームを送信すると、URL doesntの変更、私は要求を見てみましたが、成功しませんでした（ここではwebdeveloperではありません）。 http://www.vitrinedoexportador.go