私は、同時に複数のURLを処理し、次のように動作するウェブクローラを書いています:処理順序
それはseed_listに含まれるURLのリストからURLを取得します。 txt、
これをクロールしてdata.txtに書き込む。
ほとんどのWebクローラの動作と同様です。
私はシングルスレッド化すると、data.txtのデータをseed_list.txtのURLと同じ順序で取得できますが、マルチスレッドの場合は制御できないようですそれは、各スレッドがdata.txtにデータを書き込むと、終了します。
Webクローラーをマルチスレッドにすることはできますが、元の順序を維持する方法はありますか?
ありがとうございました!
@Lance、イグナシオ、およびMaksym、
あなたの助けのすべてに感謝 - あなたの答えは間違いなく正しい方向に私を指します。
ありがとうございます。正しい方向に私を指摘してください。 – BananaOnTheWall