pyspider

0熱

1答えて

私の問題は次のとおりです。たとえば、www.example.comなどのドメインからすべての貴重なテキストを抽出します。だから私はこのウェブサイトに行って、最大深度2のすべてのリンクを訪問し、それをcsvファイルに書きます。 1つのプロセスを使用して複数のクローラを生成するこの問題を解決するモジュールをscrapyで作成しましたが、効率的ではありません - 〜1kドメイン/〜5kウェブサイト/ h

0熱

1答えて

私は私が作ったここで、CSVまたはJSON

へのpython pyspiderスクリプトの店の出力は私のコードたい：私はリンクからスクラップのデータを持っている上記のコードで import json from pyspider.libs.base_handler import * f = open("demo.txt","w") class Handler(BaseHandler): crawl_config = {

0熱

1答えて

pyspider： 'wsgidav'

私は窓10でPython 3.5.2を使用しています、私はpyspiderをインストールという名前のモジュール、およびpyspider allを実行して、多少の誤差は次のように、あります私は何をすべき？

0熱

1答えて

このコードは1ページのデータのみをダウンロードしているのはなぜですか？

私は何度も試してみましたが、それは動作しません： import requests from lxml import html, etree from selenium import webdriver import time, json #how many page do you want to scan page_numnotint = input("how many page do