私の問題は次のとおりです。たとえば、www.example.comなどのドメインからすべての貴重なテキストを抽出します。だから私はこのウェブサイトに行って、最大深度2のすべてのリンクを訪問し、それをcsvファイルに書きます。 1つのプロセスを使用して複数のクローラを生成するこの問題を解決するモジュールをscrapyで作成しましたが、効率的ではありません - 〜1kドメイン/〜5kウェブサイト/ h
私は何度も試してみましたが、それは動作しません: import requests
from lxml import html, etree
from selenium import webdriver
import time, json
#how many page do you want to scan
page_numnotint = input("how many page do