scrapy

0熱

1答えて

にHTMLエンティティを解釈し、私は通常、そのようにリンクをキャプチャ： response.xpath("//a[contains(@class, something)/@href").extract() しかし、その特定のページでは、何らかの理由のために働いていませんでした。正しい出力があるべき ['details?lm==true=1=A43', (...)] ：：私は、アレイで受信し

-2熱

3答えて

Python/Scrapyでテーブルのデータが欠落しています。リストのインデックスが範囲外です。

リストの長さにround-colを使用しています。すべてのフィールドが一致するようにデータを削っていますが、ループが 'データなし'の場合、リストインデックスが範囲外になるか 'TypeError：' NoneType 'オブジェクトがスクリプト可能ではありません from scrapy.selector import Selector from scrapy.spiders import S

0熱

1答えて

スクラップされた製品ごとに1ずつ増えるシリアル番号のような、pythonのスクラップ出力にフィールドを追加したい

私はスクラピーツールを使ってウェブサイトをスクラップしようとしています。私は「シリアルID」のような出力に含まに追加フィールドを追加したいデータを廃棄することができていますが、：「3001」、は、各製品のため、それはシリアルIDをインクリメントする必要がありをスクラップ上記のコードについては3002、3003、3004 ............. def parse_dir_conten

0熱

1答えて

scrapyは、私は次のようにローカライズされたURLを拒否しようとしているmはローカライズされたURLに

を否定します。以下のような他の正規表現を試してみましたが、運はありません。 rules = ( Rule(LinkExtractor(deny=(r'\/es\/*.*')), follow = True) ) 私は基本的に英語版のリソースにのみ興味があります。スペイン語版ではありません。URLに/es/があります。スペイン語のURLをクロールしないようにするにはどうすればよいです

0熱

1答えて

私の治療用CrawlSpiderで相対パスを絶対パスに変換するにはどうすればよいですか？

私はScrapyを初めて使いました。現在、Tor darknetのフォーラムをクロールするCrawlSpiderを作成しようとしています。現在、私のCrawlSpiderコードは次のとおりです。：フォーラムは、相対パスを使用しています import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextr

0熱

2答えて

Scrapy XPathは、コンテナ

内のテキストとタグに基づいてテキストを取得するために、私はこのコードを持っている：私は抽出するために探しています何 <div class="col-md-12"> <strong>Ingredients:</strong> TOMATOES (TOMATOES AND FIRE ROASTED TOMATOES, TOMATO JUICE, CITRIC ACID, CALCIUM CH

1熱

2答えて

空白を除いた治療

私はリンク（https://www.century21.com/real-estate/rock-spring-ga/LCGAROCKSPRING/）をこすってみました。私はそれから「ベッド」データを抽出したかったのです。その中にはいくつかの家のためのいくつかの空の詳細があるので、わずかな "ベッド"の詳細が抽出されます。しかし、私はすべてのための詳細を持っています。そこになければ、 "NaN"か

0熱

1答えて

Scrapyを使用してログインしていない

私は、scrapyを使用してサイトにログインしようとしています。私はサンプルサイトを見てチェックしました。それはそのサイトのために働いています。それから私は別の場所をとり、チェックした。動いていない。私はちょうどURLを変更し、コードを実行しました。しかし、働いていない。何が問題でしょうか？ # -*- coding: utf-8 -*- import scrapy from scrapy.h

0熱

1答えて

治療： 'parsel'という名前のモジュールはありません

私は多くを検索しましたが、これに対する解決策は見つかりませんでした。私はparselという名前の任意のモジュールを見つけるカント Traceback (most recent call last): File "/usr/local/bin/scrapy", line 7, in from scrapy.cmdline import execute File "/usr/local/lib/pyt

1熱

2答えて

Scrapyですべてのhttpリクエストを取得できない

私はサイトにアクセスしようとしていて、サイト内のページにリダイレクトされているリンクがないかどうかチェックしています。利用可能なサイトマップがないので、私はScrapyを使用してサイトをクロールし、各ページのすべてのリンクを取得していますが、見つかったすべてのリンクとそのステータスコードを含むファイルを出力できません。私はコードをテストするために使用しているサイトはquotes.toscrape.