私は実際にはPythonでscrapyを使用しているクローラで作業しています。ほとんど完了しました。ちょっとした問題があります。 そのようなページネーションを使用して、ウェブサイト:ページ分割 - Pythonのクローラ用のxpath
<div class="pagination toolbarbloc">
<ul>
<li class="active"><span>1</span></li>
<li><a href="...">2</a></li>
<li><a href="...">3</a></li>
<li><a href="...">4</a></li>
<li><a href="...">5</a></li>
<li><a class="end" href="...">>></li>
</ul>
</div>
だから私はちょうどクラスで李「アクティブ」の後に地上子李に「HREF」をキャッチしよう。
私はそのような何かしてみてください:
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'
をしかし、それは動作しませんでした:はIndexError:リストインデックスを範囲外
が、私はただのXPathで始まり、私はそれはシンプルだがの読み取り多くの後に知っていますdoc '、私はそれで成功しません。
私を助けてくれてありがとう!下式
ul
の兄弟ではありません ' '// divの[クラス= "ページネーションtoolbarblocは"] // [ @href]/@ href''私はこれがうまくいくと思います。 a href属性を持ち、 "pagination toolbarbloc"というクラスのサブノードであるa href属性を選択してください – Sraw