scrapy

1熱

1答えて

治療。要求結果を呼び出しメソッドに返す方法私は、scrapyの内部でPythonリクエストライブラリを使用できますか？

私はScrapyスパイダーがうまく走っています。私がする必要があるのは、内部の解析メソッドからAPIコールを作成し、同じアイテムの同じメソッドで応答の結果を使用することです。これはどうすればいいですか？唯一の単純なことは、Pythonのリクエストライブラリを使用することですが、これがscrapingで動作し、さらにscrapinghubで動作するかどうかはわかりません。組み込みのソリューションは

0熱

1答えて

ブラウザからscrapydポート6800にアクセスできない

私はこれを多く検索しましたが、私が紛失しているという単純な解決策があるかもしれません。ローカルマシンとサーバーの両方でscrap + scrapydを設定しました。私は "スクラピー"として試してみると、どちらもOKです。私は問題なくローカルにデプロイできます。ブラウザからもlocalhost：6800にアクセスでき、ローカルでスパイダーを実行できます。リモコンのscrapydを実行した後、

0熱

1答えて

Youtubeのユーザーページでスクラップを使用してタイトルと期間の情報をスクラップする

タイトルが示唆するように、ユーザーのビデオタイトル情報と期間を保存し、Scrapyを使用して保存するアプリケーションを構築したいと考えています。 BeautifulSoupを使用してHTMLソースを解析するのは比較的簡単ですが、かなりの数の動画をアップロードしたYoutubeユーザーページを扱う場合、BeautifulSoupを使用することはできません。ご協力いただければ幸いです。

0熱

2答えて

Scrapyを使用すると、データが返されないときに空の文字列を入力するにはどうすればよいですか？

私はScrapyを使用してビジネスディレクトリをスクラップしています。私はFacebookとTwitterのリンクをつかみたいと思う場所をいくつか持っています。しかし、毎回FacebookやTwitterのリンクがあるとは限りません。コードを使用して、私は今それを完全にスキップします。 import scrapy from scrapy import Request # TODO: Find

1熱

3答えて

最初の実行後に 'twisted.internet.error.ReactorNotRestartable'エラーが発生する

CrawlerProcessを使用してスクリプトから（バージョン1.4.0）のScrapyを実行しています。 URLはユーザーの入力から来ています。初めて正常に動作しましたが、2回目にtwisted.internet.error.ReactorNotRestartableというエラーが表示されます。だから、プログラムはそこに止まった。クローラ処理部：ここ process = CrawlerPro

2熱

2答えて

クローズするURLがない場合、クローズスパイダー

私はredisリストからURLを取るスパイダーを持っています。 URLが見つからないときにクモをきれいに閉じたいと思います。私はCloseSpider例外を実装しようとしたが、私がCloseSpider例外も募集が、私はまだ、以下のエラーが取得していたとしても def start_requests(self): while True: item = json.loads(se

1熱

1答えて

URLから角括弧と中括弧を削除しないようにしてください。

get要求にパラメータとしてネストされたdictを渡す必要があります。ここでは、それがここ query = {%22channel%22:%22rent%22,%22page%22:2,%22pageSize%22:12,%22filters%22:{%22agencyIds%22:[%22CBPHMG%22]}} を仕事にどのように見えるべきかである私はScrapyログに取得されるものです

0熱

1答えて

Scrapy：条件付きのテーブル内のリンクを削る方法

私はpythonとscrapyの初心者です。テーブル全体（ほぼ80テーブル）で構築されたWebサイトを傷つけなければなりません。ウェブサイトの構造は、このようなものです： <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="

0熱

1答えて

Scrapy - 入れ子になったJSONオブジェクトの作成

私はPythonで自分の知識をリフレッシュしながらScrapyを使う方法を学んでいますか？現在、私はimdb top 250のリストで遊んでいますが、JSON出力ファイルで苦労しています。私の現在のコードは次のとおりです。 # -*- coding: utf-8 -*- import scrapy from top250imdb.items import Top250ImdbItem

0熱

1答えて

「すべて」の相対XPathセレクタ

ウェブサイトhttp://www.apkmirror.com/apk/opera-software-asa/opera-mini/opera-mini-28-0-2254-119213-release/opera-mini-fast-web-browser-28-0-2254-119213-2-android-apk-download/では、Item Loadersを使用して同じXPathセレクタ