ページ分割 - Pythonのクローラ用のxpath

私は実際にはPythonでscrapyを使用しているクローラで作業しています。ほとんど完了しました。ちょっとした問題があります。そのようなページネーションを使用して、ウェブサイト：ページ分割 - Pythonのクローラ用のxpath

<div class="pagination toolbarbloc"> 
      <ul> 
        <li class="active"><span>1</span></li> 
        <li><a href="...">2</a></li> 
        <li><a href="...">3</a></li> 
        <li><a href="...">4</a></li> 
        <li><a href="...">5</a></li> 
        <li><a class="end" href="...">>></li> 
      </ul> 
     </div>

だから私はちょうどクラスで李「アクティブ」の後に地上子李に「HREF」をキャッチしよう。

私はそのような何かしてみてください：

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

をしかし、それは動作しませんでした：はIndexError：リストインデックスを範囲外

が、私はただのXPathで始まり、私はそれはシンプルだがの読み取り多くの後に知っていますdoc '、私はそれで成功しません。

私を助けてくれてありがとう！下式

出典

2017-09-11 bastien le quéré

ulの兄弟ではありません ' '// divの[クラス= "ページネーションtoolbarblocは"] // [ @href]/@ href''私はこれがうまくいくと思います。 a href属性を持ち、 "pagination toolbarbloc"というクラスのサブノードであるa href属性を選択してください – Sraw

試してください：あなたは[class="pagination toolbarbloc"]とliで@を逃した

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

注

出典

2017-09-11 05:25:47 Andersson

おかげで編集！私は邪悪な方法を試して、それは動作しませんでしたが、今は大丈夫だと思います！どうもありがとう –

ページ分割 - Pythonのクローラ用のxpath

答えて

関連する問題