私はScrapy XMLFeedSpiderを使用してウェブサイトから大きなXMLフィード(60MB)を解析していますが、全部ではなくその一部だけを取得する方法があるかどうかは疑問でした現在はRAMがかなり高くなっているので、おそらく何かがリンクに入れられるようです:XMLフィードの一部のみを取得する
"http://site/feed.xml?limit=10"、これと類似しているものは検索しましたが、何も見つかりませんでした。
もう一つの選択肢は、scrapyによって解析される項目を制限することですが、私はそれを行う方法がわかりません。一度XMLFeedSpiderが文書全体を解析すると、ボットは最初の10項目だけを分析します。全体のフィードはまだメモリ内にあります。 ボットのパフォーマンスを向上させ、RAMとCPU消費を減らす方法についてお考えですか?おかげ
http://doc.scrapy.org/ja/master/topics/spiders.html#scrapy.spiders.XMLFeedSpider.iteratorドキュメントのこの部分を参照してください。それは救済策を記述する。 –