2017-07-03 10 views
0

私はページ分割してウェブページをスクラップするためにX線を使用しています。ここで私はNextボタンで廃止したいと思いますいくつかのHTMLX-Pagateフィルターでテキストを入力

<td align="center" style="font-size: 11pt;"> 
    <div class="paginate" style="font-size: 11pt;"> 
    <span class="disabled">Previous</span> 
    <span class="current">1</span> 
    <a href="link2.html">2</a> 
    <a href="link2.html">Next</a> 
    </div> 
</td> 

です。しかし、Webページの例は、そのクラス名でスクレイプされています。

x('https://blog.ycombinator.com/', '.post', [{ 
    title: 'h1 a', 
    link: '[email protected]' 
}]) 
    .paginate('.nav-previous [email protected]') 

私はNextボタンでリンクを選択することで、ページ付けすることができますどのように知っていただきたいと思いますか?

ありがとうございます。これは助けることができるテキスト

.paginate('.paginate a:contains(Next)@href')

+0

でこれを書き、それがフィットしますあなたのニーズは最高です。 – Lazyexpert

+0

@Lazyexpert私はあなたが正しいと思う、私はX線を使って怠惰にしようとする。しかしそれはそれほどうまく収まらないようです。もともと私はリクエスト+ cheerioを使用していますが、私はサブページ(全部で4層)をスクラップしようとしています。 4つのレイヤーを順次スクレイピングすると、パラレルリクエストに変換する方法を知っていますか? – Winston

+0

Promise.allを使用すると、async.parallelを使うことも、もう一度コールバックに基づいてカスタムソリューションを作ることもできます:) – Lazyexpert

答えて

0

フィルターを使用すると、私はカスタムパーサーを書くとのpaginate

.paginate('.paginate > li.current + a > [email protected]') 
or 
.paginate('.paginate > li.current > [email protected]') 

ありがとう

0

mybeによって

関連する問題