scrapy

    0

    1答えて

    にHTMLエンティティを解釈し、私は通常、そのようにリンクをキャプチャ: response.xpath("//a[contains(@class, something)/@href").extract() しかし、その特定のページでは、何らかの理由のために働いていませんでした。正しい出力があるべき ['details?lm==true=1=A43', (...)] ::私は、アレイで受信し

    -2

    3答えて

    リストの長さにround-colを使用しています。 すべてのフィールドが一致するようにデータを削っていますが、ループが 'データなし'の場合、リストインデックスが範囲外になるか 'TypeError:' NoneType 'オブジェクトがスクリプト可能ではありません from scrapy.selector import Selector from scrapy.spiders import S

    0

    1答えて

    私はスクラピーツールを使ってウェブサイトをスクラップしようとしています。 私は「シリアルID」のような出力に含ま に追加フィールドを追加したいデータを廃棄することができていますが、 :「3001」、 は、各製品のため、それはシリアルIDをインクリメントする必要があり をスクラップ上記のコードについては3002、3003、3004 ............. def parse_dir_conten

    0

    1答えて

    を否定します。以下のような他の正規表現を試してみましたが、運はありません。 rules = ( Rule(LinkExtractor(deny=(r'\/es\/*.*')), follow = True) ) 私は基本的に英語版のリソースにのみ興味があります。スペイン語版ではありません。URLに/es/があります。 スペイン語のURLをクロールしないようにするにはどうすればよいです

    0

    1答えて

    私はScrapyを初めて使いました。現在、Tor darknetのフォーラムをクロールするCrawlSpiderを作成しようとしています。現在、私のCrawlSpiderコードは次のとおりです。 :フォーラムは、相対パスを使用しています import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextr

    0

    2答えて

    内のテキストとタグに基づいてテキストを取得するために、私はこのコードを持っている:私は抽出するために探しています何 <div class="col-md-12"> <strong>Ingredients:</strong> TOMATOES (TOMATOES AND FIRE ROASTED TOMATOES, TOMATO JUICE, CITRIC ACID, CALCIUM CH

    1

    2答えて

    私はリンク(https://www.century21.com/real-estate/rock-spring-ga/LCGAROCKSPRING/)をこすってみました。私はそれから「ベッド」データを抽出したかったのです。その中にはいくつかの家のためのいくつかの空の詳細があるので、わずかな "ベッド"の詳細が抽出されます。しかし、私はすべてのための詳細を持っています。そこになければ、 "NaN"か

    0

    1答えて

    私は、scrapyを使用してサイトにログインしようとしています。私はサンプルサイトを見てチェックしました。それはそのサイトのために働いています。それから私は別の場所をとり、チェックした。動いていない。私はちょうどURLを変更し、コードを実行しました。しかし、働いていない。何が問題でしょうか? # -*- coding: utf-8 -*- import scrapy from scrapy.h

    0

    1答えて

    私は多くを検索しましたが、これに対する解決策は見つかりませんでした。私はparselという名前の任意のモジュールを見つけるカント Traceback (most recent call last): File "/usr/local/bin/scrapy", line 7, in from scrapy.cmdline import execute File "/usr/local/lib/pyt

    1

    2答えて

    私はサイトにアクセスしようとしていて、サイト内のページにリダイレクトされているリンクがないかどうかチェックしています。利用可能なサイトマップがないので、私はScrapyを使用してサイトをクロールし、各ページのすべてのリンクを取得していますが、見つかったすべてのリンクとそのステータスコードを含むファイルを出力できません。私はコードをテストするために使用しているサイトはquotes.toscrape.