2017-09-11 11 views
4

私は実際にはPythonでscrapyを使用しているクローラで作業しています。ほとんど完了しました。ちょっとした問題があります。 そのようなページネーションを使用して、ウェブサイト:ページ分割 - Pythonのクローラ用のxpath

<div class="pagination toolbarbloc"> 
      <ul> 
        <li class="active"><span>1</span></li> 
        <li><a href="...">2</a></li> 
        <li><a href="...">3</a></li> 
        <li><a href="...">4</a></li> 
        <li><a href="...">5</a></li> 
        <li><a class="end" href="...">>></li> 
      </ul> 
     </div> 

だから私はちょうどクラスで李「アクティブ」の後に地上子李に「HREF」をキャッチしよう。

私はそのような何かしてみてください:

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href' 

をしかし、それは動作しませんでした:はIndexError:リストインデックスを範囲外

が、私はただのXPathで始まり、私はそれはシンプルだがの読み取り多くの後に知っていますdoc '、私はそれで成功しません。

私を助けてくれてありがとう!下式

+0

ulの兄弟ではありません ' '// divの[クラス= "ページネーションtoolbarblocは"] // [ @href]/@ href''私はこれがうまくいくと思います。 a href属性を持ち、 "pagination toolbarbloc"というクラスのサブノードであるa href属性を選択してください – Sraw

答えて

0

試してください:あなたは[class="pagination toolbarbloc"]li@を逃した

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href 

+0

おかげで編集!私は邪悪な方法を試して、それは動作しませんでしたが、今は大丈夫だと思います!どうもありがとう –