0
ウェブサイトのサイトマップ内で提供されているすべてのURL、たとえばArgosを返そうとしています。これらのURLを取得したら、このプロセスを繰り返して結果のURLに含まれる可能性のあるURLを返す必要があります。サイトマップのURLを返す
http://www.argos.co.uk/sitemap.xmlリターン:
(ページが利用可能な複数のXMLのURLを含有していないに到達するまで、このプロセスが繰り返される)
http://www.argos. co.uk/product.xml
http://www.argos. co.uk/product2.xml
http://www.argos. co.uk/catalogue.xml
http://www.argos. co.uk/buyers_guides.xml
http://www.argos. co.uk/features_and_articles.xml
http://www.argos. co.uk/static_pages.xml
http://www.argos. co.uk/store_pages.xml
http://www.argos.co.uk/product.xmlが、私は必要と独自のリンクが含まれていますたとえば、 現在まで:
var urls = require('sitemap-urls'); //package to return xml links from sitemap
var cheerio = require('cheerio');
var request = require('request')
// Returns all xml urls located within page source
request('http://www.argos.co.uk/sitemap.xml', function (error, response, html) {
var sitemap = html;
var results = urls.extractUrls(sitemap);
// If results returned, loop to make sitemap equal each url until array end
if(results) {
for(i = 0; i < results.length; i++) {
sitemap = results[i]
console.log(sitemap)
// Need to repeat url return process for each url returned
}
}
});
私は見落としている簡単な解決策があるかもしれません、どんな助けも高く評価されるでしょう、ありがとう。
おかげだと思いますが、それはJavaScriptであることが必要です。これを明確にしないと申し訳ありません – Jordan