scrapy

    1

    1答えて

    すべてのイベントデータをhttp://www.nyhistory.org/programs/upcoming-public-programsから削り取りたいと思います。イベントはページごとに5つのイベントにページが分けられます。次のページに進むルールと、イベントの詳細ページに従うルールの2つのルールを作成しました。だから、私はスパイダーが最初に各イベントのURLを入力し、そこから必要なすべてのデー

    2

    1答えて

    私は治療に取り組んでいます。含ま class DynamicSQLlitePipeline(object): @classmethod def from_crawler(cls, crawler): # Here, you get whatever value was passed through the "table" parameter table

    0

    1答えて

    私はscrapyを使用してリンクを含むテーブルを解析し、jsonで保存します。テーブルからのリンクには追加の詳細が含まれており、それらをフェッチして別のJSONに格納します。 (この例に続く:https://docs.scrapy.org/en/latest/topics/exporters.html) これを達成するために、パイプラインを使用して項目の種類をチェックし、結果を適切なjsonに格納

    0

    1答えて

    私は、スクラップライブラリを使用してウェブサイトから複数のページをスクラップするチュートリアルに従っていました。このチュートリアルでは、yieldセレクタを使用して、cssセレクタとxpathセレクタを使用してページのHTMLおよびCSS構造から情報を取得しました。 if文を使用して、検索クエリが結果を見つけたかどうかを確認し、検索クエリが結果に遭遇しなかったときに何をするかを出力するelse文を

    1

    2答えて

    現在、Scrapy Pythonライブラリを使用しています。 最初に私はで自分自身をログに記録するFitbitのログインページ(https://www.fitbit.com/login)にFormRequestの呼び出しを行います。その後、私はFitbitのAPI(https://api.fitbit.com)に100回の要求に近づけます。 APIを強調しないために(そして禁止されないように)、s

    0

    1答えて

    Scrapyを使用してバスケットボールチームのスケジュールをCSVファイルに保存しようとしています。私はこれらのファイルに次のコードを書かれている: settings.py BOT_NAME = 'test_project' SPIDER_MODULES = ['test_project.spiders'] NEWSPIDER_MODULE = 'test_project.spiders'

    1

    1答えて

    AWSラムダを使用してウェブサイトをスクラップします。 クローラコードはPythonで、Pipによって提供されるScrapyライブラリを使用しています。 公共アマゾンのLinux AMIバージョンで、私は依存関係のzipファイルを作成する必要がありましたラムダ関数(ここでの唯一のscrapy)を実行するには - ラムダを追加し、their documentation hereあたりとして、AMZN

    0

    2答えて

    サイトの「次のページ」URLのXPathを取得するのに本当に問題があります。 次のようにHTMLは次のとおりです。 <div class="pagingcont"> <div class="right margintop" id="save_search_header_popup" style="width:550px;"> <div class="left margi

    1

    2答えて

    で一つ一つ私がIndeedから1ページのソースをダウンロードし、私はそのために私は、このXPathを使用しています、そこからすべてのジョブ・タイトルを取得しようとしている結果: response.xpath('//*[@class=" row result"]//*[@class="jobtitle"]//text()').extract() 問題は、結果が故に1行ではなく、ということである。

    0

    3答えて

    URLのリストを取得してクロールするパッケージ "Scrapy"でスパイダーを作成しようとしています。私は答えのためにstackoverflowを検索しましたが、問題を解決する何かを見つけることができませんでした。で :私は、印刷self.start_urlsながら、印刷された以下の情報を取得 Spider = Try(urls = [r"https://www.example.com"]) p