scrapy-spider

1熱

1答えて

これは、JavaScriptを有効にしたウェブサイトからさまざまな製品の名前と価格を解析するためにscrapy-splashを使って初めてのことです。スクリプトで使用したセレクタは完全であり、すでにセレンを使ってテストしています。ただし、スクリプトを実行すると、次のようなエラーが発生します。私はスパイダーのコレクションの合計ステータスであるログファイルを添付しました。私のクモがうまく実行されるため

0熱

2答えて

複数の返品を返す

私はScrapyを初めて使いました。私は1ブロックで複数のアイテムを返す方法について本当に迷っています。基本的には、テキスト、作成者名、およびその引用に関するタグのネストされたタグを含む見積もりを持つ1つのHTMLタグを取得しています。ここのコードは1つの見積もりを返します。それだけです。それは、ループを使用して残りの部分を返しません。私は何時間もWebを検索してきましたが、私はそれが得られな

0熱

1答えて

scrapy.Request（）に余分な引数を渡す

実際には、特定のウェブサイトに関連するすべてのデータ（テキスト、輪郭、画像）を1つのフォルダに保存します。そのためには、そのフォルダのパスを渡す必要があります私はこのようなscrapy.Request()に余分kwargsから、このパスを渡したいすべての異なる解析function.Soへ： yield scrapy.Request(url=url,dont_filter=True, callbac

0熱

1答えて

同じ要素を何度も戻している蜘蛛の蜘蛛

私はスパイダーの問題に取り組んできました。私はthis siteのトランスクリプトから個々の行を掻き集めようとしていて、いくつかの適切なセレクタを見つけましたが、実行すると、スパイダーの出力は何度も繰り返される同じ行です。私は、同様の問題（like this）を持つ他のカップルを見ましたが、私の問題を解決する答えはまだ見つかりませんでした。（注意点として、私はscrapy自体の問題とは反対に、こ

-2熱

2答えて

cssまたはxpathセレクタを使用してボタンをクリックする方法

css/xpathセレクタを使用してボタンのonclickテキストを取得する方法がわかりません。以下のコードです： <button type="button" class="btn btn-primary pull-right btn-sm no-redirect ph" onclick="showNumber('11111111122/002-26688<br>18000000000', 'DI

-1熱

1答えて

私は

マイScrapyスパイダーは、次の形式のURLを開始する必要があるScrapyで同じ形式の複数のURLでクロールを開始するにはどうすればよい：$変数は、できるだけ多くを供給することができるパラメータをある https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limit

0熱

1答えて

治療用CSV出力重複フィールド

私はスパイダー（下記）を持っていますが、最初に実行するたびに10日ごとにCronジョブを実行したいと考えています。アイテムをCSVの適切なフィールドに追加するのではなく、フィールドを書き換えます。どのように何回実行しても、フィールドヘッダーの1つのグループとその下のすべてのデータのみを持つようにするにはどうしたらよいですか？私はCsvItemExporterクラスで周りの混乱に持っているとincl

0熱

1答えて

Scrapy Csv exportにはすべてのデータが1つのセルに抽出されています

私は現在、私の最初の治療プロジェクトを構築中です。現在、私はHTMLテーブルからデータを抽出しようとしています。ここに私のクロールスパイダーは、これまでのところです： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from d