scrapy-pipeline

    0

    1答えて

    フォーマットのデータをクロールしようとしました。 1)CARTを追加 プロセスはそれぞれ、すべてのためにない上記SO 2)閲覧CART 3)を取り外し、それが完全に作動が、マルチカラー製品のためのものである単色製品のCART 、Scrapyは、マルチスレッドを取り製品。私はscrapyは次のように要求したい : 1) 製品A - カートを見る 製品A - - CART 2を削除) 製品B - CA

    -1

    2答えて

    私はサイト上でrunning this spiderです。それは正常に動作しますが、私が取り組んでいる問題の1つは、リンクに "#"が付いた多数の階層があることです。 これらのリンクをすべてスキップしたり削除したりするにはどうすればよいですか?私は現在ファイルへのリンクを出力していて、lstripをファイルにダンプ ""します。私もi.replaceを試しましたが、それでもファイルに空白行が残って

    0

    1答えて

    私は、「scrapy」パッケージを使用してウェブサイト(IMDB)からの画像でデータを取得しようとしています。 divクラスにimage_URLがある場合は、映画ポスターでデータをクロールできます。しかし、そうでなければ、私のコードは正しく動作しません。それは、画像に関連付けられたデータをスキップしました。 image_URLのように修正して、画像を忘れてデータをクロールするだけです。 一部を除い

    0

    1答えて

    これは私のScrapyカスタム正規表現パイプラインコードです: for p in item['code']: for search_type, pattern in RegEx.regexp.iteritems(): s = re.findall(pattern, p) if s: return item else:

    0

    1答えて

    私は治療をテストするコードを持っています。私の目標は、端末からscrapyコマンドを呼び出さなくても治療を使用することです。そのため、このコードを別の場所に埋め込むことができます。 コードは以下の通りです: from scrapy import Spider from scrapy.selector import Selector from scrapy.item import Item, F

    1

    1答えて

    私は、MySQLデータベースからstart_urlsを読み込み、各ページから未知数のリンクを拾い読みするスパイダーを持っています。私はpipelines.pyを使用して傷ついたリンクでデータベースを更新したいのですが、SQL UPDATE文のパイプラインにstart_urlを戻す方法がわかりません。 ここには動作するスパイダーコードがあります。 import scrapy import MySQ

    0

    1答えて

    私は、MySQLデータベースからURLを取得し、それらのURLをスクラップするstart_urlsとして使用し、スクラップしたページから新しいリンクをいくつでも取得します。パイプラインを設定してstart_urlとscraped URLの両方を新しいDBに挿入するとき、またはWHERE条件としてstart_urlを使用して既存のDBをUPDATEするようにパイプラインを設定すると、SQL構文エラー

    0

    0答えて

    私はScrapyを使って大学のプロジェクト用の小さなアプリケーションを構築しようとしています。 スパイダーがアイテムを削っていますが、私のパイプラインがmysqlデータベースにデータを挿入していません。私はこれを実行した後 コードスタート #!/usr/bin/python3 import pymysql str1 = "hey" str2 = "there" str3 = "litt