私は反復的に '次のページ'のクロールのためのスクリーニングクローラーを作成しています。 私のコードは次のようである:予期せずいくつかのページをスキップしました
def parse(self, response):
while self.current_page<=self.total_page:
self.current_page = int(self.selector.css("something").extract()[-1])
for post_node in self.selector.css("div.info-column"):
yield {
"location": post_node.css("something").extract(),
}
logging.info("************** now page is %d **************", self.current_page)
logging.info("********** one page done,Going to next **********")
try:
self.next.send_keys('\n')
私はコードは各ページの情報をクロールし、次のページをクリックすると予想しました。しかし、印刷されたデバッグ情報は、いくつかのページを非常に頻繁にスキップしたことを示しています。
何か理由が考えられますか?
ご協力いただきありがとうございます。数時間のデバッグの後。私は最終的に私がxpathロケータに切り替えるときにそれを動作させる。私はselector.css関数のコメントを読むとき。 cssセレクターがxpathへの翻訳者であると言われました。私はそれがCSSセレクターの安定性に起因するのかどうかは本当に分かりません。しかし、xpathは常に安定して動作します。 – Jimmy