私はページ分割してウェブページをスクラップするためにX線を使用しています。ここで私はNext
ボタンで廃止したいと思いますいくつかのHTMLX-Pagateフィルターでテキストを入力
<td align="center" style="font-size: 11pt;">
<div class="paginate" style="font-size: 11pt;">
<span class="disabled">Previous</span>
<span class="current">1</span>
<a href="link2.html">2</a>
<a href="link2.html">Next</a>
</div>
</td>
です。しかし、Webページの例は、そのクラス名でスクレイプされています。
x('https://blog.ycombinator.com/', '.post', [{
title: 'h1 a',
link: '[email protected]'
}])
.paginate('.nav-previous [email protected]')
私はNext
ボタンでリンクを選択することで、ページ付けすることができますどのように知っていただきたいと思いますか?
ありがとうございます。これは助けることができるテキスト
.paginate('.paginate a:contains(Next)@href')
でこれを書き、それがフィットしますあなたのニーズは最高です。 – Lazyexpert
@Lazyexpert私はあなたが正しいと思う、私はX線を使って怠惰にしようとする。しかしそれはそれほどうまく収まらないようです。もともと私はリクエスト+ cheerioを使用していますが、私はサブページ(全部で4層)をスクラップしようとしています。 4つのレイヤーを順次スクレイピングすると、パラレルリクエストに変換する方法を知っていますか? – Winston
Promise.allを使用すると、async.parallelを使うことも、もう一度コールバックに基づいてカスタムソリューションを作ることもできます:) – Lazyexpert