scrapy

    -1

    1答えて

    私はこの質問が何回も聞かれたことは知っていますが、決してどこでも解決されるようです。私はいくつかのスレッドを見て、成功せずにすべての提案を試みました。 問題は、なぜローカルデータベースに何も格納されていないのですか? 私はウェブサイトを削っていますが、各サイトの2つのリンクをたどってデータを削ります。 私のパイプラインならば、私は私のpipeline.class の内側に印刷することができれば、私

    0

    1答えて

    import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

    0

    1答えて

    私はscrapyを使用してサイト全体をクロールしていますが、パーサは決して呼び出されません。私はこれを永遠に見てきましたが、ほとんど変化はしませんでしたが、うまくいきませんでした。たぶん新鮮な目が必要かもしれません。ここに私のコードはあります: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.link

    1

    1答えて

    私は、スクリーニングとPythonには新しく、私は流れを理解するのに苦労しています。私はどこに "次のページにクロール"機能を配置するのか分からない。私はparse_dataにコールバックするか、parse_data関数でそれを受け取るべきかどうかわからない。 スクリプトロジック: カテゴリのカテゴリの場合は、カテゴリのすべてのページをスクレープする。 オプション1: import scrapy

    0

    1答えて

    私はと思う。私がする必要があるのは非常に簡単ですが、私は単一のドメインを削るだけに集中しない良いソースを見つけるのに苦労しています。 私は約9,000のドメインのリストを持っています。それぞれについて、自分のサイトへのリンクが自分のドメインのどこにでも存在するかどうかをチェックする必要があります。基本的には、私のサイトにリンクしているリストのリストが必要です。したがって、URLの入力は9,000で

    0

    1答えて

    私はこのサイトをこすりしようとしている中に申し出のための彼らのパスの変更: 私の問題である2つの異なるclasesとでの価格の2種類が存在していることパスは異なります。 通常、私は item['price'] = sel.xpath('.//*[@class="price_discount"]/text()').extract_first() でそれを行うだろうが、この場合のために、私もそれは

    0

    2答えて

    私はsymfonyプロジェクト(doctrineを使用)でデータベースを作成するためにクローラ(私はPythonを選択します)を実行する必要があります。 クローラは完了しましたが、データベースを埋めようとすると機能しません... 私はdb(mtdbdd)に新しいテーブルテストを作成します。 。私はこのコードを記入してみてください: from pymongo import MongoClient

    0

    2答えて

    ScrapyのSitemapSpiderを使用して、それぞれのコレクションからすべての製品リンクを取得しています。サイトの私のリストには、すべてのShopify店やで、製品にリンクするコードは次のようになります。 <div class="grid__item grid-product medium--one-half large--one-third"> <div class="gr

    0

    1答えて

    関数から値を渡そうとしています。 私はドキュメントを調べて、それを理解できませんでした。 REF:ここ def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/som

    2

    1答えて

    ScrapyのSitemapSpiderを使用してShopifyストアのリストを表示します。私はすべての製品をそれぞれのコレクションからXPathで取得しています。通常、これはやるのが難しくありません。しかし、コレクションページのhtmlはいくつかの点でサイトごとに異なります。私のタグ(複数可)のdiv祖先の 数が持っているすべての製品のリンクはdiv要素内にある :私は私がやろうとしている正確に