scrapy-pipeline

0熱

1答えて

フォーマットのデータをクロールしようとしました。 1）CARTを追加プロセスはそれぞれ、すべてのためにない上記SO 2）閲覧CART 3）を取り外し、それが完全に作動が、マルチカラー製品のためのものである単色製品のCART 、Scrapyは、マルチスレッドを取り製品。私はscrapyは次のように要求したい： 1）製品A - カートを見る製品A - - CART 2を削除）製品B - CA

-1熱

2答えて

"＃"リンクをScrapyクロールから削除する

私はサイト上でrunning this spiderです。それは正常に動作しますが、私が取り組んでいる問題の1つは、リンクに "＃"が付いた多数の階層があることです。これらのリンクをすべてスキップしたり削除したりするにはどうすればよいですか？私は現在ファイルへのリンクを出力していて、lstripをファイルにダンプ ""します。私もi.replaceを試しましたが、それでもファイルに空白行が残って

0熱

1答えて

Pythonのscrapyパッケージを使用したデータクロール

私は、「scrapy」パッケージを使用してウェブサイト（IMDB）からの画像でデータを取得しようとしています。 divクラスにimage_URLがある場合は、映画ポスターでデータをクロールできます。しかし、そうでなければ、私のコードは正しく動作しません。それは、画像に関連付けられたデータをスキップしました。 image_URLのように修正して、画像を忘れてデータをクロールするだけです。一部を除い

0熱

1答えて

Scrapy正規表現のカスタムパイプライン

これは私のScrapyカスタム正規表現パイプラインコードです： for p in item['code']: for search_type, pattern in RegEx.regexp.iteritems(): s = re.findall(pattern, p) if s: return item else:

0熱

1答えて

割り当てられたパイプラインを呼び出さないで治療する

私は治療をテストするコードを持っています。私の目標は、端末からscrapyコマンドを呼び出さなくても治療を使用することです。そのため、このコードを別の場所に埋め込むことができます。コードは以下の通りです： from scrapy import Spider from scrapy.selector import Selector from scrapy.item import Item, F

1熱

1答えて

各start_urlのmysqlを更新するパイプライン

私は、MySQLデータベースからstart_urlsを読み込み、各ページから未知数のリンクを拾い読みするスパイダーを持っています。私はpipelines.pyを使用して傷ついたリンクでデータベースを更新したいのですが、SQL UPDATE文のパイプラインにstart_urlを戻す方法がわかりません。ここには動作するスパイダーコードがあります。 import scrapy import MySQ

0熱

1答えて

Scrap Pipeline SQL構文エラー

私は、MySQLデータベースからURLを取得し、それらのURLをスクラップするstart_urlsとして使用し、スクラップしたページから新しいリンクをいくつでも取得します。パイプラインを設定してstart_urlとscraped URLの両方を新しいDBに挿入するとき、またはWHERE条件としてstart_urlを使用して既存のDBをUPDATEするようにパイプラインを設定すると、SQL構文エラー

0熱

0答えて

SciplipパイプラインがMySQLに挿入されない

私はScrapyを使って大学のプロジェクト用の小さなアプリケーションを構築しようとしています。スパイダーがアイテムを削っていますが、私のパイプラインがmysqlデータベースにデータを挿入していません。私はこれを実行した後コードスタート #!/usr/bin/python3 import pymysql str1 = "hey" str2 = "there" str3 = "litt