scrapy-spider

    1

    1答えて

    私はウェブサイトからデータを取得しようとしていますが、すべて正しいと思われ、xpathはシェル上でテストされました。 [ 私のコードの何が問題になっている: # -*- coding: utf-8 -*- from scrapy.contrib.spiders import CrawlSpider class KabumspiderSpider(CrawlSpider):

    1

    1答えて

    設定モジュールのenvvar値をmy_module.my_submodule.my_leaf_moduleに設定しました。内部には、DEFAULT_REQUEST_HEADERS辞書を含む多くの定数が設定されています。とにかく私は上記のように設定し、スパイダーを指定せずに必要なサンプルURLに対してscrapyシェルを実行します。起動時に例外や警告はありませんが、私の提供された設定モジュールは使用

    0

    1答えて

    import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

    0

    1答えて

    私はそのディレクトリから、大学の教授の連絡先情報を収集するためにscrapyを使用しようとしています。私は2つ以上のリンクを投稿できないので、すべてのリンクをfollowing pictureに入れます。 私は写真のように、ドロップダウンメニューから[等しい姓を設定します。それから私はすべての教授を姓で検索します。 通常、URLは、他の大学のウェブサイトからいくつかのパターンがあります。しかし、こ

    3

    2答えて

    私は、Webページから別の名前を解析するために、小さなスクレーパーをPython Scrapyで作成しました。ページは、ページ付けによってさらに4ページを横断しました。ページ全体での総数は46であるが、36の名前を奪っている。 スクレーパーは最初のリンク先ページの内容をスキップしますが、私のスクレーパーではparse_start_url引数を使用して処理しました。 しかし、私は今このスクレーパーで

    0

    1答えて

    私はpython scrapyでスクリプトを書いて、craigslistから別のカテゴリを解析しました。スクリプトを実行している奇妙なことに気づいた。それは完璧に実行され、苦情に何も残さない。しかし、問題は次のようにitems.pyを空白のままにしておくと、クロールプロセスに影響がないことです。私の質問は私の治療プロジェクトで何をやっているのですか?前もって感謝します。 "Items.py" ファ

    2

    1答えて

    私はScrapyで書かれたプロジェクトを持っています。このスパイダーはsetup.pyに多くの要件があります。ここには簡単な例があります。私はscrapydソースコードをチェックし、それはあなたのプロジェクトのsetup.pyを実行していない scrapyd-deploy を実行すると、以下の出力 Packing version 1506254163 Deploying to project

    1

    1答えて

    # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request class InfoSpider(scrapy.Spider): name = 'info' allowed_domains = ['womenonlyconnected.com'] start_urls =['http

    2

    1答えて

    これはかなり新しく、スパイダー/クローラーを約1週間は探しています。 私はScrapyでスパイダーを設定しています。昨日私の完成したスパイダーを発売しました。すべてが今のところそしてこのポップアップする1つのエラーを除いて、滑らかに走るようです。クモで 次のエラーが同じページ(または時間)に4つのジョブで受信したがされていません。 next_page_url = response.css('div

    0

    1答えて

    すべての要求を処理せずに処理が完了したようです。私はこれを知っています。なぜなら、私はリクエストのキューイングの前後にログを記録しており、それをはっきりと見ることができるからです。 私はパーズとエラーの両方のコールバックメソッドにログインしていますが、それらのどれもが欠落しているリクエストに対して呼び出されていません。 これらのリクエストに何が起こったのかをどのようにデバッグできますか?