scrapy-spider

    0

    2答えて

    NotImplementedError返す: 最初のページにある大陸、国と国のURL の都市のリストから与えられました国国のURL def parse_page1(self, response): for sel in response.xpath('//li[@class="accordion-navigation"]//ul[@class="small-block-grid-2 me

    0

    2答えて

    私はあなたのすべてのリンクを追跡するWebページからデータを取得しようとしています。 Webはひどくモデル化されており、ページの特定の部分のリンクにはリンクの前後にスペースが含まれているため、治療が続き、Webサーバーはループを作成してリダイレクトします。 リンクのURLをフィルタリングしようとしましたが、不可能です。常に空白またはシンボル+が返されます。で、コード def cleanurl(li

    -1

    1答えて

    私は電子商取引サイト用の簡単なクローラを作成しようとしています。 リンクをたどり、XPathによって必要な要素がすべて見つかったようです。しかし何らかの理由で、何らかの種類の制限があるように、1531の代わりに1200項目を解析するだけです。 セレクタの切り替えや、セレンの次のページでのクリックのシミュレートを試みましたが、成功しませんでした。すべてのヘルプは高く評価され import scrap

    0

    1答えて

    私は、各オブジェクトが5つのアイテムを持つオブジェクトの配列をフェッチする必要があるスパイダーを持っています。 4つの項目が同じページにあり、5番目の項目はデータを抽出して5つの項目すべてをテキストとして返すために必要なURLです。以下のコードスニペットでは、説明は他のページにあるキーです。私はそれを解析し、そのデータを他の属性と一緒に追加する必要があります。 現在のソリューションをJSONファイ

    2

    2答えて

    からURLを取得する: https://www.bbvavivienda.com/es/buscador/venta/vivienda/todos/la-coruna/ 内部https://www.bbvavivienda.com/es/unidades/UV_n_UV00121705のようなリンクがたくさんありますが、私はセレンでそれらを回復することはできませんよ。どのようにそれを行うにはどのよ

    0

    1答えて

    ヘッダーと本文を渡すページをスクラップしようとすると、以下のエラーが表示されます。 私はjson、strに変換して送信しようとしましたが、結果は得られません。辞書を文字列に変換されている場合 コード import scrapy class TestingSpider(scrapy.Spider): name = "test" def start_requests(self

    1

    1答えて

    私はスクラップチュートリアルhereに従っています。私はチュートリアルと同じコードを持っていると思いますが、私のスクレーパーは最初のページを擦ってから、最初のRequestに関する次のメッセージを別のページに出して終了します。おそらく私の2番目のyieldステートメントが間違った場所にありますか? DEBUG: 'newyork.craigslist.org' にオフサイトリクエストをろ過:htt

    0

    1答えて

    ウェブサイトhttps://www.internationaltelecomsweek.comからすべての名前をスクラピーで削りたいと思います。 これはアイテムファイルに含まれています。 import scrapy class ItwItem(scrapy.Item): name = scrapy.Field() これは私のスパイダーです。 import scrapy from

    1

    1答えて

    昨日Scrapyを試してみましたが、私は中国のRubyフォーラムの投稿のタイトルを取得しようとしていました。しかし、何とかScrapyの出力は "[\u5317\u4eac][2017\u5e746\u670818\u65e5] Rails Girls" のように、すべてのUnicodeある私は、レスポンスのエンコーディングがUTF-8でチェックアウトしていると私は正確に中国の文字を表示し、本

    0

    1答えて

    私は、Web廃棄に関する新しいことを試しています。私はウェブサイトにログインしようとしているし、特定のアイテムをこすります。 私はこの目的のためにこのコードを構築しましたが、動作しません。私は、次のコードを設定している、ログインするscrapy.FormRequestを使用して、と私は、これまでのドキュメントから読み取るものを使用しています: class HomelyspiderSpider(sc