scrapy

-1熱

1答えて

私はこの質問が何回も聞かれたことは知っていますが、決してどこでも解決されるようです。私はいくつかのスレッドを見て、成功せずにすべての提案を試みました。問題は、なぜローカルデータベースに何も格納されていないのですか？私はウェブサイトを削っていますが、各サイトの2つのリンクをたどってデータを削ります。私のパイプラインならば、私は私のpipeline.class の内側に印刷することができれば、私

0熱

1答えて

治療結果は1つの項目をループ内に保存するだけです

import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

0熱

1答えて

私のスクリーニングパーサーが呼び出されないのはなぜですか？

私はscrapyを使用してサイト全体をクロールしていますが、パーサは決して呼び出されません。私はこれを永遠に見てきましたが、ほとんど変化はしませんでしたが、うまくいきませんでした。たぶん新鮮な目が必要かもしれません。ここに私のコードはあります： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.link

1熱

1答えて

カテゴリとページをクローズする

私は、スクリーニングとPythonには新しく、私は流れを理解するのに苦労しています。私はどこに "次のページにクロール"機能を配置するのか分からない。私はparse_dataにコールバックするか、parse_data関数でそれを受け取るべきかどうかわからない。スクリプトロジック：カテゴリのカテゴリの場合は、カテゴリのすべてのページをスクレープする。オプション1： import scrapy

0熱

1答えて

Scrapyでドメインのリストからすべてのリンクを取得するには？

私はと思う。私がする必要があるのは非常に簡単ですが、私は単一のドメインを削るだけに集中しない良いソースを見つけるのに苦労しています。私は約9,000のドメインのリストを持っています。それぞれについて、自分のサイトへのリンクが自分のドメインのどこにでも存在するかどうかをチェックする必要があります。基本的には、私のサイトにリンクしているリストのリストが必要です。したがって、URLの入力は9,000で

0熱

1答えて

どのように電子商取引サイトから価格をこすりするときscrapy

私はこのサイトをこすりしようとしている中に申し出のための彼らのパスの変更：私の問題である2つの異なるclasesとでの価格の2種類が存在していることパスは異なります。通常、私は item['price'] = sel.xpath('.//*[@class="price_discount"]/text()').extract_first() でそれを行うだろうが、この場合のために、私もそれは

0熱

2答えて

PythonでMongoデータベースに接続

私はsymfonyプロジェクト（doctrineを使用）でデータベースを作成するためにクローラ（私はPythonを選択します）を実行する必要があります。クローラは完了しましたが、データベースを埋めようとすると機能しません... 私はdb（mtdbdd）に新しいテーブルテストを作成します。。私はこのコードを記入してみてください： from pymongo import MongoClient

0熱

2答えて

Scrapy：XPathを使用してdiv要素内の最初のタグを選択するには

ScrapyのSitemapSpiderを使用して、それぞれのコレクションからすべての製品リンクを取得しています。サイトの私のリストには、すべてのShopify店やで、製品にリンクするコードは次のようになります。 <div class="grid__item grid-product medium--one-half large--one-third"> <div class="gr

0熱

1答えて

複数のサイトから値を取得する

関数から値を渡そうとしています。私はドキュメントを調べて、それを理解できませんでした。 REF：ここ def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/som

2熱

1答えて

XPathとScrapy - タグの深さと数量が矛盾している場合のリンクの掻き取り

ScrapyのSitemapSpiderを使用してShopifyストアのリストを表示します。私はすべての製品をそれぞれのコレクションからXPathで取得しています。通常、これはやるのが難しくありません。しかし、コレクションページのhtmlはいくつかの点でサイトごとに異なります。私のタグ（複数可）のdiv祖先の数が持っているすべての製品のリンクはdiv要素内にある：私は私がやろうとしている正確に